KR20220086458A - Next-generation sequencing method for sharing genetic data, next-generation sequencing device and next-generation sequencing program - Google Patents

Next-generation sequencing method for sharing genetic data, next-generation sequencing device and next-generation sequencing program Download PDF

Info

Publication number
KR20220086458A
KR20220086458A KR1020210097573A KR20210097573A KR20220086458A KR 20220086458 A KR20220086458 A KR 20220086458A KR 1020210097573 A KR1020210097573 A KR 1020210097573A KR 20210097573 A KR20210097573 A KR 20210097573A KR 20220086458 A KR20220086458 A KR 20220086458A
Authority
KR
South Korea
Prior art keywords
sample
read
sequence
patient
read sequence
Prior art date
Application number
KR1020210097573A
Other languages
Korean (ko)
Inventor
박유랑
권솔비
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of KR20220086458A publication Critical patent/KR20220086458A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Business, Economics & Management (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

상술한 과제를 해결하기 위해 본 발명의 일 실시예에 따른 차세대 염기 서열 분석 방법은, 염기 서열 분석 방법에 있어서, 환자에 대해 임상 처리 및 생체 검사를 포함하는 진단을 수행하는 단계; 상기 임상 처리를 통해 차세대 염기 서열 검사를 위한 시료를 획득하는 단계; 상기 차세대 염기 서열 검사를 위한 라이브러리를 준비하는 단계; 상기 라이브러리에 포함된 시료의 리드 서열을 획득하기 위한 상기 시료의 시퀀싱을 수행하는 단계; 시퀀싱된 상기 리드 서열로부터 염기 검출(base calling)을 수행하는 단계; 상기 리드 서열을 정렬하는 단계; 정렬된 상기 리드 서열을 전처리하는 단계; 전처리된 상기 리드 서열로부터 상기 리드 파일에 변이 검출(variant calling)을 수행하는 단계; 및 상기 환자, 상기 시료, 상기 시료 실험에 이용되는 실험 장비, 상기 시료 분석에 이용되는 분석 장비 및 상기 시료로부터 파생된 데이터를 포함하는 유전자 데이터를 형성하는 단계;를 포함한다.In order to solve the above problems, a next-generation sequencing method according to an embodiment of the present invention provides a nucleotide sequence analysis method, comprising: performing diagnosis including clinical treatment and biopsy on a patient; obtaining a sample for next-generation sequencing through the clinical process; preparing a library for the next-generation sequencing; performing sequencing of the sample to obtain a read sequence of the sample included in the library; performing base calling from the sequenced read sequence; aligning the read sequences; pre-processing the aligned read sequences; performing variant calling on the read file from the preprocessed read sequence; and generating genetic data including data derived from the patient, the sample, the test equipment used for the sample experiment, the analysis equipment used for the sample analysis, and the sample.

Description

유전자 데이터 공유를 위한 차세대 염기 서열 분석 방법, 차세대 염기 서열 분석 장치 및 차세데 염기 서열 분석 프로그램{NEXT-GENERATION SEQUENCING METHOD FOR SHARING GENETIC DATA, NEXT-GENERATION SEQUENCING DEVICE AND NEXT-GENERATION SEQUENCING PROGRAM}Next-generation sequencing method, next-generation sequencing device, and next-generation sequencing program for sharing genetic data

본 발명은 유전자 데이터 공유를 위한 차세대 염기 서열 분석 방법, 차세대 염기 서열 분석 장치 및 차세데 염기 서열 분석 프로그램에 관한 것이다.The present invention relates to a next-generation sequencing method for sharing genetic data, a next-generation sequencing device, and a next-generation sequencing program.

최근 들어, 인간의 건강 증진을 위해 염기 서열 분석에 대한 연구가 증가하고 있는 추세이다.In recent years, there is an increasing trend in research on nucleotide sequence analysis to improve human health.

나아가 차세대 염기서열 기술의 급속한 발전으로, 정밀 의학을 실현하기 위한 임상 환경에 인간 게놈을 사용하고 있다. 임상 환경에서 얻은 데이터는 환자가 이동할 때 다른 기관에게 공유하거나, 환자의 요청으로 공유되어질 수 있다. Furthermore, with the rapid development of next-generation sequencing technology, the human genome is being used in a clinical environment to realize precision medicine. The data obtained in the clinical environment can be shared with other institutions when the patient moves, or can be shared at the request of the patient.

따라서, 대규모 차세대 염기 서열 분석을 통해 건강 정보를 공유하기 위해서 차세대 염기 서열 분석 기술를 통해 임상 유전체 정보를 생성하고 생성된 데이터를 공유할 필요성도 증가하고 있다.Therefore, in order to share health information through large-scale next-generation sequencing, the need to generate clinical genome information and share the generated data through next-generation sequencing technology is also increasing.

또한, 처음 임상 유전체 정보를 획득한 기관의 결과를 재현할 수 있는 수준에서 임상 유전체 정보를 공유가 되어야할 필요가 있다. 또한, 공유 임상 게놈 유전체 데이터는 상호운용이 가능해야 한다. In addition, it is necessary to share clinical genome information at a level that can reproduce the results of the institution that first acquired the clinical genome information. In addition, shared clinical genome genomic data should be interoperable.

따라서, 임상 실무에서 유전체 데이터의 재현성을 달성하기 위해 multi-layered sequencing 파일 및 관련 파라미터들과 임상 데이터를 통합하기 위한 데이터 규격을 제안할 필요성도 증가하고 있다. Therefore, there is an increasing need to propose a data specification for integrating clinical data with multi-layered sequencing files and related parameters to achieve reproducibility of genomic data in clinical practice.

(특허문헌 0001) KR 10-1007926(Patent Document 0001) KR 10-1007926

상술한 문제점을 해결하기 위한 본 발명의 목적은, 차세대 염기 서열 분석시 형성된 데이터에 표준을 제공하여 데이터의 활용 편의성을 증대시키는 유전자 데이터 공유를 위한 차세대 염기 서열 분석 방법, 차세대 염기 서열 분석 장치 및 차세데 염기 서열 분석 프로그램을 제공하는 것이다.An object of the present invention to solve the above problems is a next-generation sequencing method, a next-generation sequencing apparatus, and a next-generation sequencing method for sharing genetic data that increase the convenience of data utilization by providing a standard to the data formed during the next-generation sequencing analysis It is to provide a sequencing program.

상술한 과제를 해결하기 위해 본 발명의 일 실시예에 따른 차세대 염기 서열 분석 방법은, 염기 서열 분석 방법에 있어서, 환자에 대해 임상 처리 및 생체 검사를 포함하는 진단을 수행하는 단계; 상기 임상 처리를 통해 차세대 염기 서열 검사를 위한 시료를 획득하는 단계; 상기 차세대 염기 서열 검사를 위한 라이브러리를 준비하는 단계; 상기 라이브러리에 포함된 시료의 리드 서열을 획득하기 위한 상기 시료의 시퀀싱을 수행하는 단계; 시퀀싱된 상기 리드 서열로부터 염기 검출(base calling)을 수행하는 단계; 상기 리드 서열을 정렬하는 단계; 정렬된 상기 리드 서열을 전처리하는 단계; 전처리된 상기 리드 서열로부터 상기 리드 파일에 변이 검출(variant calling)을 수행하는 단계; 및 상기 환자, 상기 시료, 상기 시료 실험에 이용되는 실험 장비, 상기 시료 분석에 이용되는 분석 장비 및 상기 시료로부터 파생된 데이터를 포함하는 유전자 데이터를 형성하는 단계;를 포함한다.In order to solve the above problems, a next-generation sequencing method according to an embodiment of the present invention provides a nucleotide sequence analysis method, comprising: performing diagnosis including clinical treatment and biopsy on a patient; obtaining a sample for next-generation sequencing through the clinical process; preparing a library for the next-generation sequencing; performing sequencing of the sample to obtain a read sequence of the sample included in the library; performing base calling from the sequenced read sequence; aligning the read sequences; pre-processing the aligned read sequences; performing variant calling on the read file from the preprocessed read sequence; and generating genetic data including data derived from the patient, the sample, the test equipment used for the sample experiment, the analysis equipment used for the sample analysis, and the sample.

또한 유전자 데이터를 형성하는 단계는, 상기 환자의 이름, 상기 환자의 고유 식별자, 상기 환자의 생년월일, 상기 환자의 성별, 상기 환자의 인종, 상기 환자의 진단 정보, 상기 환자의 치료 정보 중 적어도 하나를 포함하는 상기 환자 정보를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함할 수 있다.In addition, the step of forming the genetic data includes at least one of the patient's name, the patient's unique identifier, the patient's date of birth, the patient's gender, the patient's race, the patient's diagnostic information, and the patient's treatment information It may include; forming the genetic data based on the patient information including.

또한 유전자 데이터를 형성하는 단계는, 상기 시료의 획득 기관, 상기 시료를 샘플링 한 날짜, 상기 시료의 종류 중 적어도 하나를 포함하는 상기 시료 정보를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함할 수 있다.In addition, the forming of the genetic data may include: forming the genetic data based on the sample information including at least one of an institution for obtaining the sample, the date the sample was sampled, and the type of the sample have.

또한 유전자 데이터를 형성하는 단계는, 상기 시료 실험에 이용되는 실험 장비의 데이터 품질 관리 지표, 상기 실험 장비의 염기 검출(base calling) 정보, 상기 리드 서열의 심도, 상기 리드 서열의 참조 대립형질의 심도, 상기 리드 서열의 대체 대립형질의 심도, 상기 리드 서열의 대립 유전자 빈도, 상기 리드 서열의 유전자형, 상기 리드 서열의 시퀀싱 플랫폼 정보, 상기 리드 서열의 시퀀서 유형, 상기 리드 서열의 라이브러리 준비 기법, 상기 리드 서열의 타겟 캡쳐 방법, 상기 리드 서열의 유형, 상기 리드 서열의 길이 중 적어도 하나를 포함하는 상기 실험 장비 정보를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함할 수 있다.In addition, the step of forming the genetic data includes a data quality control index of the experimental equipment used for the sample experiment, base calling information of the experimental equipment, the depth of the read sequence, and the depth of the reference allele of the read sequence. , depth of replacement allele of the read sequence, allele frequency of the read sequence, genotype of the read sequence, sequencing platform information of the read sequence, sequencer type of the read sequence, library preparation technique of the read sequence, the read It may include; forming the genetic data based on the experimental equipment information including at least one of a target capture method of a sequence, a type of the read sequence, and a length of the read sequence.

또한 유전자 데이터를 형성하는 단계는, 상기 리드 서열을 정렬하고, 정렬된 상기 리드 서열을 보정하고, 보정된 상기 리드 서열로부터 유전자 변이를 검출하고, 상기 검출된 유전자 변이에 주석을 매칭하여 상기 분석 장비 정보를 형성하고, 상기 분석 장비 정보를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함할 수 있다.In addition, the step of forming the genetic data may include aligning the read sequence, correcting the aligned read sequence, detecting a genetic mutation from the corrected read sequence, and matching the annotation with the detected genetic mutation to the analysis equipment It may include; forming information, and forming the genetic data based on the analysis equipment information.

또한 유전자 데이터를 형성하는 단계는, 유전자 시퀀스 및 시퀀스 품질 점수를 포함하는 FASTQ, 유전자 시퀀스 정렬 지도, BAM, CRAM, VCF, MAF 중 적어도 하나를 포함하는 파생 데이터를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함할 수 있다.In addition, the step of forming the genetic data may include: forming the genetic data based on derived data including at least one of FASTQ including a gene sequence and a sequence quality score, a gene sequence alignment map, BAM, CRAM, VCF, and MAF ; may be included.

또한 라이브러리에 포함된 시료의 리드 파일을 획득하기 위한 상기 시료의 시퀀싱을 수행하는 단계는, In addition, the step of sequencing the sample to obtain a read file of the sample included in the library,

미리 결정된 복수의 방식 중 하나를 이용하여 상기 리드 파일 중 엑손 영역을 추출하여 선택적으로 배열하는 단계;를 포함할 수 있다.The method may include extracting and selectively arranging an axon region from the read file using one of a plurality of predetermined methods.

본 발명의 일 실시예에 따른 차세대 염기 서열 분석 장치는 차세대 염기 서열 분석을 수행하는 장치에 있어서,The next-generation sequencing apparatus according to an embodiment of the present invention is an apparatus for performing next-generation sequencing, comprising:

메모리; 및 상기 메모리와 통신을 수행하는 적어도 하나의 프로세서;를 포함하고,Memory; and at least one processor configured to communicate with the memory.

상기 적어도 하나의 프로세서는, 환자에 대해 임상 처리 및 생체 검사를 포함하는 진단을 수행하고, 상기 임상 처리를 통해 차세대 염기 서열 검사를 위한 시료를 획득하고, 상기 차세대 염기 서열 검사를 위한 라이브러리를 준비하고, 상기 라이브러리에 포함된 시료의 리드 파일을 획득하기 위한 상기 시료의 시퀀싱을 수행하고, 시퀀싱된 상기 리드 파일로부터 염기 검출(base calling)을 수행하고, 상기 리드 파일을 정렬하고, 정렬된 상기 리드 파일을 전처리하고, The at least one processor performs diagnosis including clinical processing and biopsy on the patient, obtains a sample for next-generation sequencing through the clinical processing, prepares a library for next-generation sequencing, and , performing sequencing of the sample to obtain a read file of the sample included in the library, performing base calling from the sequenced read file, aligning the read file, and the aligned read file preprocessed,

전처리된 상기 리드 파일로부터 상기 리드 파일에 변이 검출(variant calling)을 수행하고, 상기 환자, 상기 시료, 상기 시료 실험에 이용되는 실험 장비, 상기 시료 분석에 이용되는 분석 장비 및 상기 시료로부터 파생된 데이터를 포함하는 유전자 데이터를 형성할 수 있다.Variant calling is performed on the read file from the preprocessed read file, and the patient, the sample, the laboratory equipment used for the sample experiment, the analysis equipment used for the sample analysis, and data derived from the sample It is possible to form genetic data comprising

또한 적어도 하나의 프로세서는, 상기 환자의 이름, 상기 환자의 고유 식별자, 상기 환자의 생년월일, 상기 환자의 성별, 상기 환자의 인종, 상기 환자의 진단 정보, 상기 환자의 치료 정보 중 적어도 하나를 포함하는 상기 환자 정보를 기초로 상기 유전자 데이터를 형성할 수 있다.In addition, the at least one processor includes at least one of the patient's name, the patient's unique identifier, the patient's date of birth, the patient's gender, the patient's race, the patient's diagnostic information, and the patient's treatment information The genetic data may be formed based on the patient information.

또한 적어도 하나의 프로세서는, 상기 시료의 획득 기관, 상기 시료를 샘플링 한 날짜, 상기 시료의 종류 중 적어도 하나를 포함하는 상기 시료 정보를 기초로 상기 유전자 데이터를 형성할 수 있다.In addition, the at least one processor may form the genetic data based on the sample information including at least one of an institution for obtaining the sample, a date the sample was sampled, and a type of the sample.

또한 적어도 하나의 프로세서는, 상기 시료 실험에 이용되는 실험 장비의 데이터 품질 관리 지표, 상기 실험 장비의 염기 검출(base calling) 정보, 상기 리드 서열의 심도, 상기 리드 서열의 참조 대립형질의 심도, 상기 리드 서열의 대체 대립형질의 심도, 상기 리드 서열의 대립 유전자 빈도, 상기 리드 서열의 유전자형, 상기 리드 서열의 시퀀싱 플랫폼 정보, 상기 리드 서열의 시퀀서 유형, 상기 리드 서열의 라이브러리 준비 기법, 상기 리드 서열의 타겟 캡쳐 방법, 상기 리드 서열의 유형, 상기 리드 서열의 길이 중 적어도 하나를 포함하는 상기 실험 장비 정보를 기초로 상기 유전자 데이터를 형성할 수 있다.In addition, the at least one processor may include a data quality control indicator of an experimental equipment used for the sample experiment, base calling information of the experimental equipment, a depth of the read sequence, a depth of a reference allele of the read sequence, the Depth of alternate allele of read sequence, allele frequency of said read sequence, genotype of said read sequence, sequencing platform information of said read sequence, sequencer type of said read sequence, library preparation technique of said read sequence, said read sequence The genetic data may be formed based on the experimental equipment information including at least one of a target capture method, a type of the read sequence, and a length of the read sequence.

또한 적어도 하나의 프로세서는, 상기 리드 서열을 정렬하고, 정렬된 상기 리드 서열을 보정하고, 보정된 상기 리드 서열로부터 유전자 변이를 검출하고, 상기 검출된 유전자 변이에 주석을 매칭하여 상기 분석 장비 정보를 형성하고, 상기 분석 장비 정보를 기초로 상기 유전자 데이터를 형성할 수 있다.In addition, the at least one processor aligns the read sequence, corrects the aligned read sequence, detects a genetic mutation from the corrected read sequence, and matches the annotation to the detected genetic mutation to obtain the analysis equipment information formed, and the genetic data may be formed based on the analysis equipment information.

또한 적어도 하나의 프로세서는, 유전자 시퀀스 및 시퀀스 품질 점수를 포함하는 FASTQ, 유전자 시퀀스 정렬 지도(sequence alignment map, SAM), BAM(binary alignment map), CRAM, VCF, MAF 중 적어도 하나를 포함하는 파생 데이터를 기초로 상기 유전자 데이터를 형성할 수 있다.In addition, the at least one processor is configured to include at least one of a FASTQ comprising a gene sequence and a sequence quality score, a gene sequence alignment map (SAM), a binary alignment map (BAM), a CRAM, a VCF, and a derived data comprising a MAF. It is possible to form the genetic data based on the.

또한 적어도 하나의 프로세서는, 미리 결정된 복수의 방식 중 하나를 이용하여 상기 리드 파일 중 엑손 영역을 추출하여 선택적으로 배열할 수 있다.Also, the at least one processor may extract and selectively arrange the axon region from the read file using one of a plurality of predetermined methods.

본 발명의 일 실시예예 따른 프로그램은 하드웨어인 컴퓨터와 결합되어, 환자에 대해 임상 처리 및 생체 검사를 포함하는 진단을 수행하는 단계; 상기 임상 처리를 통해 차세대 염기 서열 검사를 위한 시료를 획득하는 단계; 상기 차세대 염기 서열 검사를 위한 라이브러리를 준비하는 단계; 상기 라이브러리에 포함된 시료의 리드 서열을 획득하기 위한 상기 시료의 시퀀싱을 수행하는 단계; 시퀀싱된 상기 리드 서열로부터 염기 검출(base calling)을 수행하는 단계; 상기 리드 서열을 정렬하는 단계; 정렬된 상기 리드 서열을 전처리하는 단계; 전처리된 상기 리드 서열로부터 상기 리드 파일에 변이 검출(variant calling)을 수행하는 단계; 및 상기 환자, 상기 시료, 상기 시료 실험에 이용되는 실험 장비, 상기 시료 분석에 이용되는 분석 장비 및 상기 시료로부터 파생된 데이터를 포함하는 유전자 데이터를 형성하는 단계;를 실행시키기 위하여 매체에 저장될 수 있다.The program according to an embodiment of the present invention is combined with a computer, which is hardware, comprising: performing diagnosis including clinical processing and biopsy on a patient; obtaining a sample for next-generation sequencing through the clinical process; preparing a library for the next-generation sequencing; performing sequencing of the sample to obtain a read sequence of the sample included in the library; performing base calling from the sequenced read sequence; aligning the read sequences; pre-processing the aligned read sequences; performing variant calling on the read file from the preprocessed read sequence; and forming genetic data including the patient, the sample, the laboratory equipment used for the sample experiment, the analysis equipment used for the sample analysis, and data derived from the sample; have.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other specific details of the invention are included in the detailed description and drawings.

본 발명에 개시된 실시예들에 따르면, 차세대 염기 서열 분석시 형성된 데이터에 표준을 제공하여 데이터의 활용 편의성을 증대시킬 수 있는 효과가 있다.According to the embodiments disclosed in the present invention, it is possible to increase the convenience of data utilization by providing a standard for data formed during next-generation sequencing analysis.

또한, 본 발명에 개시된 실시예들에 따르면, 임상 게놈 데이터를 전자 건강기록(electronic health records)에 저장하고 공유하는 데 사용할 수 있는 효과가 있다.In addition, according to the embodiments disclosed in the present invention, there is an effect that can be used to store and share clinical genomic data in electronic health records.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

도 1은 본 발명의 일 실시예에 따른 유전체 데이터 모델의 주요 구조를 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 차세대 염기 서열 전처리를 위한 작업 흐름 구성을 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 병렬 시퀀싱 전처리를 위한 작업 흐름 구성을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 임상 실습에서 차세대 염기 서열 분석 프로세스를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 병렬 시퀀싱 파일을 이용한 환자 중심의 건강 정보 교환 프로세스를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 차세대 염기 서열 분석 방법의 전체적인 동작을 나타낸 도면이다.
1 is a diagram showing the main structure of a genome data model according to an embodiment of the present invention.
2 is a diagram illustrating a configuration of a workflow for next-generation nucleotide sequence preprocessing according to an embodiment of the present invention.
3 is a diagram illustrating a configuration of a workflow for parallel sequencing pre-processing according to an embodiment of the present invention.
4 is a diagram illustrating a next-generation sequencing process in clinical practice according to an embodiment of the present invention.
5 is a diagram illustrating a patient-centered health information exchange process using a parallel sequencing file according to an embodiment of the present invention.
6 is a view showing the overall operation of the next-generation nucleotide sequence analysis method according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only the present embodiments allow the disclosure of the present invention to be complete, and those of ordinary skill in the art to which the present invention pertains. It is provided to fully understand the scope of the present invention to those skilled in the art, and the present invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제 1", "제 2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제 1 구성요소는 본 발명의 기술적 사상 내에서 제 2 구성요소일 수도 있음은 물론이다.The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase. As used herein, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other components in addition to the stated components. Like reference numerals refer to like elements throughout, and "and/or" includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various elements, these elements are not limited by these terms, of course. These terms are only used to distinguish one component from another. Accordingly, it goes without saying that the first component mentioned below may be the second component within the spirit of the present invention.

"예시적인"이라는 단어는 본 명세서에서 "예시 또는 예증으로서 사용된"의 의미로 사용된다. 본 명세서에서 "예시적인"것으로 설명된 임의의 실시예는 반드시 바람직한 것으로서 해석되거나 다른 실시예들보다 이점을 갖는 것으로 해석되어서는 안된다.The word "exemplary" is used herein in the sense of "used as an illustration or illustration." Any embodiment described herein as “exemplary” is not necessarily to be construed as preferred or advantageous over other embodiments.

또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 엘리먼트를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 엘리먼트들, 객체지향 소프트웨어 엘리먼트들, 클래스 엘리먼트들 및 태스크 엘리먼트들과 같은 엘리먼트들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 엘리먼트들과 "부"들 안에서 제공되는 기능은 더 작은 수의 엘리먼트들 및 "부"들로 결합되거나 추가적인 엘리먼트들과 "부"들로 더 분리될 수 있다.Also, as used herein, the term “unit” refers to a hardware element such as software, FPGA, or ASIC, and “unit” performs certain roles. However, "part" is not meant to be limited to software or hardware. A “unit” may be configured to reside on an addressable storage medium and may be configured to refresh one or more processors. Thus, by way of example, “part” refers to elements such as software elements, object-oriented software elements, class elements and task elements, and processes, functions, properties, procedures, subroutines, and programs. It includes segments of code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. The functionality provided within elements and “parts” may be combined into a smaller number of elements and “parts” or further separated into additional elements and “parts”.

또한, 본 명세서의 모든 “부”는 적어도 하나의 프로세서에 의해 제어될 수 있으며 본 개시의 “부”가 수행하는 동작을 적어도 하나의 프로세서가 수행할 수도 있다.In addition, all “units” of the present specification may be controlled by at least one processor, and at least one processor may perform operations performed by the “units” of the present disclosure.

본 개시의 실시예들은 기능 또는 기능을 수행하는 블록의 관점에서 설명될 수 있다. 본 개시의 ‘부’ 또는 ‘모듈’ 등으로 지칭될 수 있는 블록은 논리 게이트, 집적 회로, 마이크로 프로세서, 마이크로 컨트롤러, 메모리, 수동 전자 부품, 능동 전자 부품, 광학 컴포넌트, 하드와이어드 회로(hardwired circuits) 등과 같은 아날로그 또는 디지털 회로에 의해 물리적으로 구현되고, 선택적으로 펌웨어 및 소프트웨어에 의해 구동될 수 있다. Embodiments of the present disclosure may be described in terms of a function or a block performing a function. Blocks, which may be referred to as 'parts' or 'modules', etc. in the present disclosure include logic gates, integrated circuits, microprocessors, microcontrollers, memories, passive electronic components, active electronic components, optical components, hardwired circuits, and the like. It may be physically implemented by analog or digital circuitry, such as, and optionally driven by firmware and software.

본 개시의 실시예는 적어도 하나의 하드웨어 디바이스 상에서 실행되는 적어도 하나의 소프트웨어 프로그램을 사용하여 구현될 수 있고 엘리먼트를 제어하기 위해 네트워크 관리 기능을 수행할 수 있다. Embodiments of the present disclosure may be implemented using at least one software program running on at least one hardware device and may perform a network management function to control an element.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used herein will have the meaning commonly understood by those of ordinary skill in the art to which this invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless specifically defined explicitly.

이 표준의 목적을 위하여 다음의 용어와 정의를 적용할 수 있다.For the purposes of this International Standard, the following terms and definitions are applicable.

ISO와 IEC는 아래 주소에서 표준화에 사용되는 용어 데이터베이스를 유지 관리할 수 있다.ISO and IEC may maintain a database of terms used for standardization at the address below.

ISO/TS 20428은 임상 시퀀싱 생성 문서에 대한 사양이며 ISO/CDTS 23357은 임상 시퀀싱을위한 데이터 파일 형식을 의미할 수 있다.ISO/TS 20428 is a specification for clinical sequencing generation documentation, and ISO/CDTS 23357 may refer to a data file format for clinical sequencing.

ISO/TS 20428에 정의된 일부 데이터 요소는 ISO/CD TS 23357에서 재사용될 수 있다.Some data elements defined in ISO/TS 20428 can be reused in ISO/CD TS 23357.

본 발명에서, '염색체(chromosomes)'는 원핵 세포 또는 원핵 세포의 핵에서, DNA로 구성되어 있거나, DNA가 포함된 구조물은 세포에 필수적인 유전 정보를 전달할 수 있다. 상기 염색체는 인간의 특징 또는 일부 특징들, 조직 또는 세포 라인의 일부에 포함된 염색체, 단백질 성분(예: 히스톤)을 포함할 수 있다.In the present invention, 'chromosomes' are prokaryotic cells or the nucleus of a prokaryotic cell, and are composed of DNA, or a structure containing DNA can deliver essential genetic information to the cell. The chromosome may include a human characteristic or some characteristics, a chromosome included in a part of a tissue or cell line, or a protein component (eg, histone).

본 발명에서, '임상 유전체 분석(clinical sequencing)'은 임상 실습 및 임상 시험에 인체 샘플을 사용하는 차세대 유전체 분석 기술 또는 미래 유전체 분석 기술을 지칭할 수 있다.In the present invention, 'clinical sequencing' may refer to next-generation genome analysis technology or future genome analysis technology that uses human samples for clinical practice and clinical trials.

본 발명에서, 'ClinVar'은 자유롭게 접근이 가능하고, 뒷받침하는 증거와 함께 인간의 유전체 변이와 표현형 사이의 관계를 정리한 온라인 데이터 베이스를 지칭할 수 있다.In the present invention, 'ClinVar' may refer to an online database that is freely accessible and summarizes the relationship between human genome mutations and phenotypes together with supporting evidence.

본 발명에서, '복제 수 변이(Copy Number Variation, CNV)'는 동일한 유형의 참소서열로부터 하나 이상의 특정 서열 사본 수의 변화를 할당하는 속성 유형을 지칭할 수 있다.In the present invention, 'Copy Number Variation (CNV)' may refer to an attribute type that assigns a change in the number of copies of one or more specific sequences from a reference sequence of the same type.

본 발명에서, 'COSMIC(Catalogue of Somatic Mutations in Cancer)'는 인간 암에서 발견되는 유전 변이 온라인 데이터베이스를 지칭할 수 있다.In the present invention, 'COSMIC (Catalogue of Somatic Mutations in Cancer)' may refer to an online database of genetic mutations found in human cancer.

본 발명에서, 'dbSNP'는 미국 국립생물정보센터(NCBI)에서 제공하는 단일염기다형성(SNP) 데이터베이스를 지칭할 수 있다.In the present invention, 'dbSNP' may refer to a single nucleotide polymorphism (SNP) database provided by the US National Center for Biological Information (NCBI).

본 발명에서, '결실(deletion)'은 DNA 복제 중 염색체 또는 DNA 서열의 일부가 손실되어 돌연변이가 되는 현상을 지칭할 수 있다.In the present invention, 'deletion' may refer to a phenomenon in which a part of a chromosome or a DNA sequence is lost during DNA replication, resulting in mutation.

본 발명에서, '디옥시리보핵산(deoxyribonucleic acid, DNA)'는 세포핵의 유전 정보를 암호화하는 고분자 화합물을 지칭할 수 있다.In the present invention, 'deoxyribonucleic acid (DNA)' may refer to a high molecular compound encoding genetic information of a cell nucleus.

본 발명에서, 'DNA 시퀀싱(DNA sequencing)'은 DNA를 구성하는 뉴클레오티드 염기(아데닌, 구아닌, 사이토닌 및 티민)의 순서를 결정하는 것을 지칭할 수 있다.In the present invention, 'DNA sequencing' may refer to determining the order of nucleotide bases (adenine, guanine, cytonine, and thymine) constituting DNA.

본 발명에서, '진유전체(exome)'는 유전체의 영역 중에서 진유전자(exon) 영역의 총합을 지칭할 수 있다.In the present invention, 'exome' may refer to the sum of exon regions among the regions of the genome.

본 발명에서, 'FASTQ'는 생물학적 서열(핵분해 염기서열)과 품질 점수를 모두 저장하는 텍스트 기반 형식을 지칭할 수 있다.In the present invention, 'FASTQ' may refer to a text-based format that stores both a biological sequence (nucleolysis sequence) and a quality score.

본 발명에서, '유전자(gene)'는 유전 단위의 기능을 하는 핵산 염기서열과 유기체의 성장, 번식, 유지에 관한 기본명령 코드를 지칭할 수 있다.In the present invention, a 'gene' may refer to a nucleic acid sequence functioning as a genetic unit and a basic command code for growth, reproduction, and maintenance of an organism.

본 발명에서, '생식 세포(germline)'는 배우자로부터 유래되어 나오는 세포 계열로서, 몇 세대가 지나도 지속되는 세포 계열을 지칭할 수 있다.In the present invention, 'germline' is a cell line derived from gametes, and may refer to a cell line that persists even after several generations.

본 발명에서, '삽입(insertion)'은 하나 이상의 염기쌍이 DNA 서열에 추가됨을 지칭할 수 있다.In the present invention, 'insertion' may refer to the addition of one or more base pairs to a DNA sequence.

본 발명에서, '역위(inversion)'는 염색체의 단편이 끝에서 끝으로 반전되어 염색체가 재배열되는 현상을 지칭할 수 있다.In the present invention, 'inversion' may refer to a phenomenon in which chromosome fragments are reversed from end to end and chromosomes are rearranged.

본 발명에서, 'MAF(Mutation Annotation Format)'은 VCF(variant call format) 파일에서 집계된 돌연변이 정보를 포함하고 프로젝트 수준에서 생성된 탭으로 구분된 텍스트 파일을 지칭할 수 있다.In the present invention, 'Mutation Annotation Format (MAF)' may refer to a tab-delimited text file including mutation information aggregated in a VCF (variant call format) file and generated at the project level.

차세대 시퀀싱 대규모 병렬 시퀀싱(next generation Sequencing Massive parallel sequencing, NGS)기술은 수백만 개의 작은 DNA 단편을 병렬로 시퀀싱 할 수 있다.Next generation sequencing Massive parallel sequencing (NGS) technology can sequence millions of small DNA fragments in parallel.

본 발명에서, '병원성(pathogenic)'은 정상적인 생물학적 과정, 병원성 처리 및 또는 치료적 개입에 대한 약리학적 반응 지표로서 객관적으로 측정되고 평가되는 특성을 지칭할 수 있다.In the present invention, 'pathogenic' may refer to a characteristic that is objectively measured and evaluated as an indicator of a pharmacological response to a normal biological process, pathogenic treatment, and/or therapeutic intervention.

본 발명에서, '리드(read)'는 차세대 시퀀싱 기술을 위한 원래의 서열을 재구성하는데 사용되는 조각화된 염기 서열을 지칭할 수 있다.In the present invention, 'read' may refer to a fragmented nucleotide sequence used to reconstruct the original sequence for next-generation sequencing technology.

본 발명에서, '리드 타입(read type)'은 시퀀싱 시 사용되는 리드의 종류를 지칭하는 것으로, 상기 리드 타입은 단방향 또는 양방향이 될 수 있다. In the present invention, a 'read type' refers to a type of read used during sequencing, and the read type may be unidirectional or bidirectional.

여기서, 단방향(single-end) 리드 타입은 단일 리드 조각의 한쪽 끝에서 다른 쪽 끝으로 시퀀싱을 실행한다. 또한, 양방향(paired-end) 리드 타입은 한쪽 끝에서 다른 쪽 끝으로 시퀀싱 한 이후, 반대쪽 끝에서 다시 한 번 시퀀싱을 실행한다.Here, the single-end read type performs sequencing from one end of a single read fragment to the other. Also, in paired-end read types, sequencing is performed from one end to the other, and then sequencing is performed again at the opposite end.

본 발명에서, '참조 서열(reference sequence)'은 유전체 분석을 할 때 사용되는 참조 유전체 서열을 지칭할 수 있다.In the present invention, a 'reference sequence' may refer to a reference genome sequence used for genome analysis.

본 발명에서, '리보핵산(ribonucleic acid, RNA)'는 질소 베이스가 부착된 인산염과 리보스 단위의 반복적인 백본(backbone)를 가진 사슬로 구성된 폴리뉴클레오티드(polynucleotide)를 지칭할 수 있다. 인간의 몸 속에 있는 RNA는 출처를 명시할 수 있으며, 리보솜 RNA(rRNA), 메신저 RNA(mRNA), 전송 RNA(tRNA), 마이크로 RNA(miRNA), 기타 비코딩 RNA(ncRNA)을 포함 포함할 수 있다.In the present invention, 'ribonucleic acid (RNA)' may refer to a polynucleotide composed of a chain having a repeating backbone of phosphate and ribose units attached to a nitrogen base. The source of RNA in the human body can be specified and may include ribosomal RNA (rRNA), messenger RNA (mRNA), transfer RNA (tRNA), micro RNA (miRNA), and other non-coding RNA (ncRNA). have.

본 발명에서, 'somatic cell'는 생식 세포와 대조적인 신체 세포를 지칭할 수 있다.In the present invention, 'somatic cell' may refer to a body cell as opposed to a germ cell.

본 발명에서, '검체(specimen)' 또는 '생체 검체(biospecimen)'는 질병, 장애 또는 비정상적인 신체 상태 또는 증상의 평가, 진단, 치료, 진정 또는 질병 예방을 뒷받침하기 위해 수집되거나 획득된 조직, 체액, 식품 또는 기타 물질의 표본을 지칭할 수 있다.In the present invention, a 'specimen' or 'biospecimen' refers to a tissue, bodily fluid collected or obtained to support the evaluation, diagnosis, treatment, sedation or prevention of a disease, disorder or abnormal body condition or symptom. , may refer to samples of food or other substances.

본 발명에서, '진료 대상'은 보건의료 서비스를 사용하거나 사용할 가능성이 있는 모든 사람을 지칭할 수 있다.In the present invention, a 'subject to be treated' may refer to any person who uses or is likely to use health care services.

본 발명에서, '타깃 캡처 (target capture)'는 시퀀싱하기 전에 DNA 샘플에서 관심 있는 게놈 영역만을 추출하는 방법을 지칭할 수 있다.In the present invention, 'target capture' may refer to a method of extracting only a genomic region of interest from a DNA sample prior to sequencing.

본 발명에서, 'VCF(variant call format)'는 유전자 서열 변이를 저장하기 위해 생물정보학에서 사용되는 텍스트 파일의 형식을 지칭할 수 있다.In the present invention, 'VCF (variant call format)' may refer to a format of a text file used in bioinformatics to store a gene sequence variation.

본 발명에서, '전장 진유전체 염기 서열 분석법(whole exome sequencing, WES)'는 모든 단백질 코딩 유전자만을 시퀀싱 하는 기술을 지칭할 수 있다.In the present invention, 'whole exome sequencing (WES)' may refer to a technique for sequencing only all protein-coding genes.

본 발명에서, '전장 유전체 염기 서열 분석법 (whole genome sequencing, WGS)' 한번에 생물체 게놈의 완전한 DNA 서열을 결정하는 기술을 지칭할 수 있다.In the present invention, 'whole genome sequencing (WGS)' may refer to a technique for determining the complete DNA sequence of an organism's genome at once.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 유전체 데이터 모델의 주요 구조를 나타낸 도면이다.1 is a diagram showing the main structure of a genome data model according to an embodiment of the present invention.

임상 유전체 정보 모델은 차세대 염기서열 기술에 의해 생성된 임상 유전체 데이터의 전달과 관련된 정보의 구조와 구성을 정의한다.The clinical genome information model defines the structure and structure of information related to the delivery of clinical genome data generated by next-generation sequencing technology.

도 1에 도시된 바와 같이, 임상 유전체 정보 모델은 주요 구조들간의 관계를 보여준다.As shown in Fig. 1, the clinical genome information model shows the relationship between major structures.

도 1의 환자(patient, S101)는 건강관리 서비스를 제공받거나 등록한 사람 또는 임상시험과 같은 다른 목적으로 하나 이상의 연구의 대상을 지칭할 수 있다. 여기서 표본을 시퀀싱(sequencing)한 관리 대상에 대한 정보는 ISO 22220:2011로 표시되어야 한다.The patient ( S101 ) of FIG. 1 may refer to a person who has received or registered health care services or one or more subjects of research for other purposes such as clinical trials. In this case, information on the management subject for sequencing the sample shall be indicated in ISO 22220:2011.

본 발명의 일 실시예에 따르면, 환자 관련 메트릭 정보는 아래 [표 1]과 같이 정리될 수 있다. 상기 환자 관련 메트릭 정보는 식별자, 이름, 생년월일, 성별, 인종, 진단, 진단 연령, 치료, 사전 치료 및 치료 결과를 포함할 수 있다.According to an embodiment of the present invention, patient-related metric information may be organized as shown in [Table 1] below. The patient-related metric information may include identifier, name, date of birth, gender, race, diagnosis, diagnosis age, treatment, prior treatment, and treatment result.

본 발명의 일 실시예에 따르면, 식별자는 진료 대상에 관한 고유 식별자를 포함해야 한다.According to an embodiment of the present invention, the identifier should include a unique identifier for the treatment object.

또한, 이름은 진료 대상에 관한 이름을 포함해야 한다. 또한, 생년월일은 환자 나이를 계산하기 위해서 진료 대상자의 생일을 포함해야 한다. 상기 생년월일은 KS X ISO 8601로 표현될 수 있다.In addition, the name should include the name of the subject to be treated. In addition, the date of birth must include the date of birth of the subject to be treated in order to calculate the patient's age. The date of birth may be expressed as KS X ISO 8601.

또한, 대상의 성별은 KS X ISO/TS 22220:2011에 의해 표현될 수 있다.In addition, the gender of the subject may be expressed according to KS X ISO/TS 22220:2011.

또한, 진료 대상의 인종은 자신의 유전적 근원을 나타내기 위해 표시되어야 한다.In addition, the race of the subject to be treated should be indicated to indicate their genetic origin.

인종 정보는 HL7 V3 Code System Race을 기초로 나타낼 수 있다.Race information can be expressed based on HL7 V3 Code System Race.

또한, 인종 정보는 US FDA guidance for Industy ― Collection of Race and Ethnicity Data in Clinical Trials와 같은 국가 표준이 있는 경우 해당 코딩 시스템을 사용할 수도 있다.In addition, race information may use a corresponding coding system if there is a national standard such as the US FDA guidance for Industy — Collection of Race and Ethnicity Data in Clinical Trials.

진단 정보는 표현된 징후와 증상으로 인한 질병, 상태 또는 부상의 유무와 성격에 대한 조사, 분석 및 인식의 데이터, ICD 코드 또는 SNOMED-CT 코드를 사용하여 관련 질환 및 표현형을 표기해야 한다.Diagnostic information shall indicate the relevant disease and phenotype using data from the investigation, analysis and recognition of the presence and nature of disease, condition or injury resulting from the expressed signs and symptoms, ICD codes or SNOMED-CT codes.

또한, 진단 연령인 출생 후 진단 시점의 나이는 연수로 표현되어야 한다.In addition, the age at the time of diagnosis after birth, which is the diagnosis age, should be expressed in years.

사전 치료는 신체 검체를 채취하기 전에 받은 이전 치료와 관련된 텍스트 설명이다.Pre-treatment is a textual description of any previous treatment received prior to the collection of the body specimen.

또한, 치료 결과는 치료 후 환자의 최종 결과를 설명하는 텍스트 용어를 의미할 수 있다.In addition, the treatment result may refer to a text term that describes the final result of the patient after treatment.

범주category 메트릭metric 설명Explanation 선택 사항options 환자patient 식별자identifier -- 필수essential 이름name -- 필수essential 생년월일date of birth ISO 8601ISO 8601 필수essential 성별gender 남성, 여성male, female 필수essential 인종race HL7 v3 Code System RaceHL7 v3 Code System Race 필수essential 진단Diagnosis ICD 10 or 11, SNOMED-CT, or other widely-adopted ontologiesICD 10 or 11, SNOMED-CT, or other widely-adopted ontologies 필수essential 진단 연령age of diagnosis 정수essence 필수essential 사전 치료prior treatment 선택사항options 치료 결과Treatment results 선택사항options

도 1의 시료(specimen, S102)에서 시료 정보는 KS X ISO/TS 22220:2011의 환자 식별 유형 코드를 이용해 표현할 수 있다.In the sample (specimen, S102) of FIG. 1 , sample information may be expressed using a patient identification type code of KS X ISO/TS 22220:2011.

또한, 유래된 조직 또는 기관은 시료를 획득한 해부학적 부위를 지칭하는 것으로, 해부학적 부위는 SNOMED CT 또는 다른 어휘로 표현될 수 있다.In addition, the derived tissue or organ refers to an anatomical site from which a sample was obtained, and the anatomical site may be expressed as SNOMED CT or other vocabulary.

채집f 날짜는 시료를 획득한 날이며, ISO 8601에 따라 표시된다.The collection date is the date the sample was obtained and is indicated according to ISO 8601.

시료 종류는 시료 채취(예: 생검(biopsy), 수술 절제(surgical excision), EDTA, 헤파린(heparin)), 처리(예: 포르말린, 원심분리), 보관(예: 파라핀 블록 (paraffin block), 크라이오튜브(cryotube)) 중 관련 데이터가 있는 시료 유형(예: 전혈 (whole blood), 세포 (cell), 소변 (urine), 신선한 세포 및 조직 (fresh cell & tissue)) 시료형은 국제생물환경보존회의 표준 사전분석법(SPREC)에 따라 표시된다.Sample types include sample collection (e.g. biopsy, surgical excision, EDTA, heparin), processing (e.g. formalin, centrifugation), storage (e.g. paraffin block, cryolysis). Among the cryotube), the sample type for which there is relevant data (e.g., whole blood, cell, urine, fresh cell & tissue) is expressed according to the standard pre-analysis method (SPREC) of

아래 [표 2]는 시료 관련 메트릭 정보를 테이블로 정리한 것이다.[Table 2] below summarizes sample-related metric information in a table.

범주category 메트릭metric 설명Explanation 선택 사항options 시료sample 일반 사항general details Identifier type code of ISO 22220:2011Identifier type code of ISO 22220:2011 필수essential 유래된 조직 또는 기관derived tissue or organ SNOMED CTSNOMED CT 필수essential 채집 날짜collection date ISO 8601ISO 8601 필수essential 시료 종류sample type SPREC V3.0SPREC V3.0 필수essential

도 1의 실험 장비에 대해서는 시퀀싱 기법(예: 시퀀싱 플랫폼(sequencing platform), 캡처 방법 및 관련 필요한 데이터)에 대한 정보가 제공되어야 한다.실험 장비(S104)에 대한 메트릭 정보는 [표 3]과 같이 품질 관리, 염기 검출(Base calling) 정보, 리드 심도(depth), 참조 대립 형질 심도(depth), 대체 대립 형질 심도(depth), 시퀀싱 플랫폼 정보, 시퀀서 유형, 라이브러리 준비 기법, 대상 캡처 방법, 리드 서열의 유형, 리드 서열의 길이를 포함할 수 있다.Information on a sequencing technique (eg, a sequencing platform, a capture method, and related necessary data) should be provided for the experimental equipment of FIG. 1. Metric information about the experimental equipment S104 is as shown in [Table 3]. Quality control, base calling information, read depth, reference allele depth, alternative allele depth, sequencing platform information, sequencer type, library preparation technique, target capture method, read sequence of the type and length of the read sequence.

[표 3]은 실정 장비에 대한 메트릭 정보를 테이블로 정리한 것이다.[Table 3] is a table of metric information for actual equipment.

품질 관리(S103)에 대해서는 시퀀싱 및 분석을 위한 관련 품질 관리(QC) 지표가 제공될 수 있다. For quality control (S103), relevant quality control (QC) indicators for sequencing and analysis may be provided.

보고서에는 생물 정보에 대한 전반적인 QC 지표, 사전 및 사후 리드 정렬의 전체 변이에 대한 QC 지표, 보고서 생성자의 결정을 기반으로 한 특정 변이에 대한 QC 지표가 포함될 수 있다. (예: Sequencing yield, number of total reads, (Average) read length(bp), number of reads mappedto reference genome(mapping yield, %), N (the bases were not used for base call) base (%), GC (%), Q20 (%), Q30 (%), On target coverage (%) > 1x, On target covergae (%) > 10x, on target coverage (%) > 20x, On target coverage (%) > 100x, mean deapth, and uniformity) (예: GC = 53,2 %, AT = 47,8 %, Q30 = 94,4 %, Q20 = 97,1 %)Reports may include overall QC metrics for bioinformatics, QC metrics for overall variations of pre- and post-lead alignments, and QC metrics for specific variations based on the report creator's decision. (Example: Sequencing yield, number of total reads, (Average) read length(bp), number of reads mappedto reference genome(mapping yield, %), N (the bases were not used for base call) base (%), GC (%), Q20 (%), Q30 (%), On target coverage (%) > 1x, On target covergae (%) > 10x, on target coverage (%) > 20x, On target coverage (%) > 100x, mean deapth, and uniformity) (eg GC = 53.2 %, AT = 47,8 %, Q30 = 94,4 %, Q20 = 97,1 %)

염기 검출(Base calling) 정보를 통해 뉴클레오타이드 서열을 식별하기 위해 염기 검출 소프트웨어에 의해 생성되는 염기 검출에 관한 정보를 알 수 있다. 다른 분야들은 임상 유전체 분석을 수행하는 조직의 결정에 기초하여 추가할 수 있다.Through the base calling information, it is possible to know information about the base detection generated by the base detection software to identify the nucleotide sequence. Other fields may be added based on the decision of the organization performing the clinical genomic analysis.

리드 심도(Read depth)는 전체 유전체를 찾기 위해서 사용되는 각 염기 당 평균 뉴클레오티드 수는 통상적인 생물정보학 분야에서 사용된 방식으로 보고될 수 있다.The read depth is the average number of nucleotides per base used to find the entire genome, and can be reported in a manner commonly used in the field of bioinformatics.

참조 대립형질 심도(Reference allelic depth)는 통상적인 생물정보학 분야에서 사용된 것으로 보고될 수 있다.Reference allelic depth can be reported as used in conventional bioinformatics field.

대립 유전자 빈도(Allele frequency)에 관해서는 각 염기 위치에서 대체 대립 유전자의 발생 빈도가 보고될 수 있다.Regarding the allele frequency, the frequency of occurrence of an alternative allele at each base position can be reported.

유전자형(Genotype)에 관해서는 단일 위치에서의 대립 유전자 쌍이 보고될 수 있다.As for the genotype, pairs of alleles at a single location can be reported.

시퀀싱 플랫폼 정보(Sequencing platform information)는 시퀀싱 플랫폼, 캡처 방법 및 정렬 알고리즘을 포함한 시퀀싱 기술 및 데이터에 관한 정보는 텍스트로 제공될 수 있다.Sequencing platform information may be provided as text information regarding sequencing technology and data including a sequencing platform, a capture method, and an alignment algorithm.

시퀀서 유형(Type of sequencers)에 관해서는 시퀀싱을 수행하는 특정 시퀀싱 장비에 대한 정보가 주어져야 한다. (예: Illumina Hiseq 2500, Thermo Fisher Ion Torrent, Illumina MiSeq)Regarding the type of sequencers, information on specific sequencing equipment that performs sequencing should be given. (Examples: Illumina Hiseq 2500, Thermo Fisher Ion Torrent, Illumina MiSeq)

범주category 메트릭metric 값 표현value expression 선택 사항options 실험 장비laboratory equipment 품질 관리Quality Management 문자message 필수essential 염기 검출(Base calling)정보Base calling information 문자message 필수essential 리드 심도lead depth 정수essence 필수essential 참조 대립 형질 심도Reference allele depth 정수essence 선택사항options 대체 대립 형질 심도Alternative Allele Depth 정수essence 선택사항options 시퀀싱 플랫폼 정보Sequencing Platform Information 문자message 필수essential 시퀀서 유형Sequencer type 문자message 필수essential 라이브러리 준비 방법How to prepare a library 문자message 필수사항Required 대상 캡처 방법How to capture the target 문자message 필수사항Required 리드 유형lead type 문자message 필수사항Required 리드 길이lead length 문자message 선택사항options

도 1의 분석 장비의 NGS 기술에 의해 생성된 데이터는 몇몇 단계들로 분석이 이루어 진다. The data generated by the NGS technology of the analysis equipment of FIG. 1 is analyzed in several steps.

첫 번째 분석에서는 시퀀싱 플랫폼에 의해 초기에 수백만에서 수십억의 리드 서열이 생성될 수 있다. In the first analysis, millions to billions of read sequences can be initially generated by the sequencing platform.

두 번째 분석에서는 NGS 리드가 서열 변이가 존재하는 위치를 식별하기 위해 참조 서열에 맞춰 정렬될 수 있다. 이렇게 발견된 변이는 세 번째 분석을 통해 환자의 임상 상태와 관련된 것을 식별할 수 있다. In a second analysis, NGS reads can be aligned with a reference sequence to identify positions where sequence variations exist. The mutations found in this way can be identified that are related to the patient's clinical condition through a third analysis.

분석 장비(S105)에서는 NGS의 두 번째 및 세 번째 분석을 "리드 정렬"에서 "변이 주석”까지의 프로세스로 정의하고 관련 변수를 정의할 수 있다. 임상 유전체 데이터 공유를 위해서는 첫 번째 및 두 번째 (해당되는 경우 세 번째까지) 분석 파이프라인이 언급되어야 한다. In the analysis equipment (S105), the second and third analysis of NGS can be defined as a process from “read alignment” to “mutation annotation” and related variables can be defined. For sharing clinical genomic data, the first and second ( (up to the third, if applicable) analysis pipeline should be mentioned.

변이 검출의 신뢰성을 확인하기 위해 파이프라인의 매개변수 설정도 언급해야 한다. NGS의 데이터 분석 파이프라인은 리드 정렬, 정렬 후 처리, 변이 검출, 변이 주석인 4가지 주요 작업으로 나눌 수 있다 (예: GATK 3.5, CASAVA 1.7, Complete Genomics v2.2, Torrent Suite 5.0.2)The parameter setting of the pipeline should also be mentioned to confirm the reliability of the detection of mutations. NGS's data analysis pipeline can be divided into 4 main tasks: read sorting, post sort processing, mutation detection, and mutation annotation (e.g. GATK 3.5, CASAVA 1.7, Complete Genomics v2.2, Torrent Suite 5.0.2)

도 1의 파생 데이터(derived data, S106)는 FASTQ, SAM, BAM, CRAM, VCF, MAF 파일을 포함할 수 있다. 시퀀서(sequencer)는 디코딩된 NGS 서열(decoded sequence of NGS)을 FASTQ 형식 또는 BAM 파일로 저장한다. FASTQ 또는 BAM에서 변이 검출 또는 변이 주석 프로세스는 크게 원시 데이터 (raw data) 생성, 정렬(alignment), 변이 검출 (variant calling) 및 변이 주석 (variant annotation) 4단계로 이루어진다. 각 단계의 결과로 아래의 6가지 종류의 파생 데이터 파일이 생성될 수 있다. 다른 파일과 데이터는 분석 방법의 진전에 따라 추가할 수 있다. 파생 데이터에 상세한 설명은 후술하도록 한다.The derived data S106 of FIG. 1 may include FASTQ, SAM, BAM, CRAM, VCF, and MAF files. The sequencer stores the decoded sequence of NGS in FASTQ format or BAM file. The mutation detection or mutation annotation process in FASTQ or BAM consists of four steps: raw data generation, alignment, variant calling, and variant annotation. As a result of each step, the following six types of derived data files can be created. Other files and data may be added as the analysis method evolves. A detailed description of the derived data will be provided later.

도 2는 본 발명의 일 실시예에 따른 차세대 염기 서열 전처리를 위한 작업 흐름 구성을 도시한 도면이다.2 is a diagram illustrating a configuration of a workflow for next-generation nucleotide sequence preprocessing according to an embodiment of the present invention.

도2를 참고하면 차세대 염기 서열 분석 장치는 리드 서열 정렬을 수행할 수 있다(S201).Referring to FIG. 2 , the next-generation sequencing apparatus may perform read sequence alignment (S201).

리드 서열 정렬을 하는데 있어서 리드 서열을 정렬하고, 분류하며, 리드를 추가하거나, 교체하는 전처리를 수행할 수 있다.In aligning the read sequence, preprocessing of aligning, sorting, and adding or replacing the read sequence may be performed.

이후 차세대 염기 서열 분석 장치는 정렬된 리드 서열에 전처리 과정을 수행할 수 있다(S202).Thereafter, the next-generation sequencing apparatus may perform a pre-processing process on the aligned read sequence (S202).

차세대 염기 서열 분석 장치는 전처리 과정에서 리드 서열을 재정렬하고, 염기 검출을 시행하고, 복제된 염기의 제거 등을 수행할 수 있다.The next-generation sequencing apparatus may rearrange read sequences, perform nucleotide detection, and remove duplicated nucleotides during preprocessing.

이후 차세대 염기 서열 분석 장치는 변이를 검출할 수 있다(S203).Thereafter, the next-generation sequencing device may detect the mutation (S203).

이 과정에서 생식선 체세포 돌연변이 호출하고 변이 검출 숫자를 복사하고, 구조 변이를 검출하는 동작을 수행할 수 있다.In this process, it is possible to perform the operations of calling germline somatic mutations, copying mutation detection numbers, and detecting structural mutations.

이후 차세대 염기 서열 분석 장치는 변이 주석을 수행할 수 있다(S204).Thereafter, the next-generation sequencing apparatus may perform mutation annotation (S204).

차세대 염기 서열 분석 장치는 변이의 종류 등이 포함된 정보를 발견된 변이에 매칭 시킬 수 있다.The next-generation sequencing device can match information including the type of mutation to the found mutation.

한편 도2에서 설명한 동작은 본 발명의 일 실시예에 불과하며 염기 서열 전처리을 하는 동작이면 그 실시에는 제한이 없다.On the other hand, the operation described in FIG. 2 is only an embodiment of the present invention, and there is no limitation on its implementation as long as it is an operation of pre-processing the nucleotide sequence.

도 3은 본 발명의 일 실시예에 따른 병렬 시퀀싱 전처리를 위한 작업 흐름 구성을 도시한 도면이다.3 is a diagram illustrating a configuration of a workflow for parallel sequencing pre-processing according to an embodiment of the present invention.

본 발명의 일 실시예에 따른, 리드 정렬은 리드 정렬과 이진(binary) 요약으로 구성될 수 있다. 리드 정렬 알고리즘에서 전체 차세대 염기 서열 파이프라인 안에서 최종 변이 검출 프로세스에 이르기까지 다양한 요소들이 변이 검출에 영향을 줄 수 있다.According to an embodiment of the present invention, the read sort may consist of a read sort and a binary summary. From the read alignment algorithm to the final mutation detection process within the entire next-generation sequencing pipeline, many factors can influence mutation detection.

아래 [표 4]는 리드 정렬(311) 관련 메트릭 정보를 테이블로 정리한 것이다.[Table 4] below summarizes the metric information related to the lead sorting 311 in a table.

범주category 메트릭metric 설명Explanation 예시example 선택사항options 리드 정렬lead alignment 프로세스 이름process name 리드 정렬 하위 프로세스 이름Lead Sort Subprocess Name Read alignment, sortread alignment, sort 필수essential 도구 이름tool name 리드 정렬 프로세스에 사용되는 도구의 이름The name of the tool used in the lead alignment process BAMBAM 선택Select 도구 버전tool version 리드 정렬 프로세스에 사용되는 도구 버전Tool version used for lead alignment process v0.7.12v0.7.12 선택사항options 도구 옵션tool options 리드 정렬 프로세스에 사용되는 도구의 옵션 정보About options for tools used in the lead alignment process Number of threads: -tNumber of threads: -t 필수essential 추가 입력additional input 사용자가 리드 정렬 프로세스에 사용하는 도구의 추가 입력 정보 예를 들어, 릴리스 이름이 있는 게놈Additional input information from the tool the user uses in the read alignment process, e.g. a genome with a release name GRCh38GRCh38 필수essential 출력Print 읽기 정렬 프로세스에 사용되는 도구 출력Tool output used in the read alignment process SAM fileSAM file 선택사항options

아래 [표 5]는 이진 요약(312)관련 메트릭 정보를 테이블로 정리한 것이다.[Table 5] below summarizes metric information related to the binary summary 312 in a table.

범주category 메트릭metric 설명Explanation 예시example 선택사항options 이진 요약Binary Summary 도구 이름tool name SAMTOOLS 툴을 사용하며, BAM 형식으로 정렬을 조작하는 유틸리티 세트A set of utilities that use the SAMTOOLS tool and manipulate the sort in BAM format. SAMTOOLSSAMTOOLS 필수essential 도구 버전tool version SAMTOOLS v1.9 사용Using SAMTOOLS v1.9 v1.9v1.9 필수essential 도구 옵션tool options BAM 포맷 출력을 위해 -b 사용입력이 SAM 형식이면 -S가 필요Use -b for BAM format output. -S is required if input is SAM format. -b
-s
-b
-s
선택사항options
추가 입력additional input 선택사항options 출력Print 이진 형식binary format BAM fileBAM file 선택사항options

본 발명의 일 실시예에 따르면, BAM 처리(320)는 sorting(321)_, 리드 그룹 교체 또는 추가(322) 및 인덱싱(323)을 포함할 수 있다.아래 [표 6]은 sorting(321) 관련 정보를 테이블로 정리한 것이다.According to an embodiment of the present invention, the BAM processing 320 may include sorting 321_, replacing or adding a read group 322 and indexing 323. [Table 6] below shows sorting 321 Relevant information is arranged in a table.

범주category 메트릭metric 설명Explanation 예시example sortingsorting 도구 이름tool name SAMTOOLS 툴을 사용하며, BAM 형식으로 정렬을 조작하는 유틸리티 세트A set of utilities that use the SAMTOOLS tool and manipulate the sort in BAM format. SAMTOOLSSAMTOOLS 도구 버전tool version SAMTOOLS v1.9 사용Using SAMTOOLS v1.9 v1.9v1.9 도구 옵션tool options Sort 알고리즘Sort Algorithm SortSort 추가 입력additional input 출력Print 전처리된 BAM filePreprocessed BAM file BAM fileBAM file

아래 [표 7]은 리드 그룹 교체 또는 추가(322) 관련 정보를 테이블로 정리한 것이다.[Table 7] below is a table of information related to lead group replacement or addition (322).

범주category 메트릭metric 설명Explanation 예시example 리드 그룹 교체 또는 추가Replace or add lead groups 도구 이름tool name PICARD 툴을 사용하며, PICARD 도구는 파일의 모든 읽기를 하나의 새 읽기 그룹에 할당I use the PICARD tool, which assigns all reads of the file to one new read group. PICARDPICARD 도구 버전tool version PICARD v1.93 사용Using PICARD v1.93 v1.93v1.93 도구 옵션tool options RGID 리드 그룹 ID 초기값RGLB 리드 그룹 라이브러리 요청
RGPU 리드 그룹 플랫폼 유닛 요청
RGSM 리드 그룹 이름 요청
RGID Lead Group ID DefaultRGLB Read Group Library Request
RGPU Lead Group Platform Unit Request
Request RGSM Lead Group Name
- RGID
- RGLB
- RGPU
- RGSM
- RGID
- RGLB
- RGPU
- RGSM
추가 입력additional input 출력Print 전처리된 BAM filePreprocessed BAM file BAM fileBAM file

아래 [표 8]은 인덱싱(323) 관련 정보를 테이블로 정리한 것이다.[Table 8] below is a table of indexing 323 related information.

범주category 메트릭metric 설명Explanation 예시example 인덱싱indexing 도구 이름tool name SAMTOOLS 툴을 사용하며, BAM 형식으로 정렬을 조작하는 유틸리티 세트A set of utilities that use the SAMTOOLS tool and manipulate the sort in BAM format. SAMTOOLSSAMTOOLS 도구 버전tool version SAMTOOLS v1.9 사용Using SAMTOOLS v1.9 v1.9v1.9 도구 옵션tool options 빠른 임의 액세스를 위해 좌표 정렬된 BAM 파일 인덱싱Coordinate-sorted BAM file indexing for fast random access IndexIndex 추가 입력additional input 출력Print 전처리된 BAM filePreprocessed BAM file BAM fileBAM file

로컬 재정렬 및 염기 품질 점수 재보정은(Local Realignment base quality score recalibration, 330) 재조정 대상 작성자(a realigner target creator, 331), 삽입-결실 재조정(an indel realigner, 332) 및 기본 재조정(a base recalibrator, 332)로 구성될 수 있다.Local Realignment base quality score recalibration (330), a realigner target creator (331), an indel realigner (332), and a base recalibrator (a base recalibrator, 332) can be configured.

아래 [표 9]는 재조정 대상 작성자(331)에 관한 정보를 테이블로 정리한 것이다.[Table 9] below is a table of information about the rebalancing target creator (331).

범주category 메트릭metric 설명Explanation 예시example 재조정 대상 작성자Authors for rebalancing 도구 이름tool name GATK 툴을 사용하며, 시퀀싱 데이터를 사용하여 게놈에서 모든 변이 호출을 활성화.Using the GATK tool, sequencing data is used to activate all mutation calls in the genome. GATKGATK 도구 버전tool version GATK 3.8 사용Using GATK 3.8 V3.8V3.8 도구 옵션tool options 알려진 삽입-결실(indel)이 있는 입력 VCF 파일 입력Input VCF file input with known indels -known-known 추가 입력additional input 알려진 변이체의 참조 게놈 데이터 및 인구 수준 데이터.Reference genomic data and population-level data of known variants. 참조 게놈TGP
dbSNP
Reference GenomeTGP
dbSNP
출력Print 전처리된 BAM filePreprocessed BAM file BAM fileBAM file

아래 [표 10]은 삽입-결실 재조정(332)에 관한 정보를 테이블로 정리한 것이다.[Table 10] below is a table of information on indel readjustment (332).

범주category 메트릭metric 설명Explanation 예시example 삽입-결실 재조정Indel readjustment 도구 이름tool name GATK 툴을 사용하며, 시퀀싱 데이터를 사용하여 게놈에서 모든 변이 호출을 활성화.Using the GATK tool, sequencing data is used to activate all mutation calls in the genome. GATKGATK 도구 버전tool version GATK 3.8 사용Using GATK 3.8 V3.8V3.8 도구 옵션tool options 재정렬 자 대상 작성자의 간격 파일 출력Gap file output from reorderer target author 대상 간격target interval 추가 입력additional input 알려진 변이체의 참조 게놈 데이터 및 인구 수준 데이터.Reference genomic data and population-level data of known variants. 참조 게놈TGP
dbSNP
Reference GenomeTGP
dbSNP
출력Print 전처리된 BAM filePreprocessed BAM file BAM fileBAM file

아래 [표 11]은 염기 재조정(332) 관련 정보를 테이블로 정리한 것이다.[Table 11] below is a table of information related to base readjustment (332).

범주category 메트릭metric 설명Explanation 예시example 염기 재조정base readjustment 도구 이름tool name GATK 툴을 사용하며, 시퀀싱 데이터를 사용하여 게놈에서 모든 변이 호출을 활성화.Using the GATK tool, sequencing data is used to activate all mutation calls in the genome. GATKGATK 도구 버전tool version GATK 3.8 사용Using GATK 3.8 V3.8V3.8 도구 옵션tool options 알려진 다형성 사이트의 데이터베이스
BQSR, 후속 도구가 후속 적으로 수행 할 빠른 양자화를위한 양자화 테이블을 생성
Database of known polymorphic sites
BQSR, generate quantization tables for fast quantization that subsequent tools will subsequently perform
- 알려진 사이트

- BQSR
- Known sites

- BQSR
추가 입력additional input 알려진 변이체의 참조 게놈 데이터 및 인구 수준 데이터.Reference genomic data and population-level data of known variants. 참조 게놈TGP
dbSNP
Reference GenomeTGP
dbSNP
출력Print 전처리된 BAM filePreprocessed BAM file BAM fileBAM file

본 발명에서 변이 검출(360)은 생식세포 돌연변이 검출(361)과 체세포 돌연변이 검출(362)로 구성될 수 있다.아래 [표 12]는 변이 검출에 관한 정보를 테이블로 정리한 것이다.In the present invention, the mutation detection 360 may include germline mutation detection 361 and somatic mutation detection 362. [Table 12] below summarizes information on mutation detection in a table.

범주category 메트릭metric 설명Explanation 예시example 선택사항options 변이 검출Mutation detection 프로세스 이름process name 변이 검출의 하위 프로세스 이름Subprocess name of mutation detection Germline mutation callingGermline mutation calling 필수essential 도구 이름tool name 변이 검출에 사용되는 도구의 이름The name of the tool used to detect the mutation GATK HaplotypeCallerGATK HaplotypeCaller 필수essential 도구 버전tool version 변이 검출에 사용되는 도구 버전Version of the tool used for mutation detection V3.8 V3.8 필수essential 도구 옵션tool options 변이 검출에 사용되는 도구의 옵션 정보About options for tools used to detect mutations - T- T 선택사항options 추가 입력additional input 사용자가 변이 검출에 사용하는 도구의 추가 입력 정보 예를 들어, 릴리스 이름이 있는 게놈Additional input information from the tool the user uses to detect the mutation, for example, a genome with a release name. GRCh38GRCh38 필수essential 출력Print 변이 검출에 사용되는 도구 출력Tool output used for mutation detection VCFVCF 선택사항options

아래 [표 13]은 변이 주석에 관한 정보를 테이블로 정리한 것이다.[Table 13] below summarizes information on mutation annotations in a table.

범주category 메트릭metric 설명Explanation 예시example 선택사항options 변이 주석mutation annotation 프로세스 이름process name 변이 주석의 하위 프로세스 이름Subprocess name in mutation annotation Variant annotationVariant annotations 필수essential 도구 이름tool name 변이 주석에 사용되는 도구의 이름The name of the tool used to annotate the mutation. VarAFTVarAFT 필수essential 도구 버전tool version 변이 주석에 사용되는 도구 버전Tool version used for mutation annotation V 2.16V 2.16 필수essential 도구 옵션tool options 변이 주석에 사용되는 도구의 옵션 정보About options for tools used for mutation annotations 선택사항options 추가 입력additional input 사용자가 변이 주석에 사용하는 도구의 추가 입력 정보 예를 들어, 릴리스 이름이 있는 게놈Additional input information from the tool the user uses to annotate the variant, for example, a genome with a release name. 필수essential 출력Print 변이 주석에 사용되는 도구 출력Tool output used for mutation annotations MAFMAF 선택사항options

아래 [표 14]는 대상 교차(target intersection, 340)에 관한 정보를 테이블로 정리한 것이다.[Table 14] below summarizes information on target intersection (340) in a table.

범주category 메트릭metric 설명Explanation 예시example 대상 교차target intersection 도구 이름tool name Bed 툴을 사용하며, 다양한 게놈 파일 형식의 여러 파일에서 게놈 간격을 교차Cross genomic gaps in multiple files in different genomic file formats using the Bed tool BedtoolsBedtools 도구 버전tool version Bedtools v2.26 사용Using Bedtools v2.26 v2.26v2.26 도구 옵션tool options - b bed 파일 할당- b bed file allocation - b- b 추가 입력additional input 융합 중단 점, 발현 제어 및 표적 분석에 대한 정보를 포함하는 표적 베드 파일Target bed file containing information about fusion breakpoints, expression control, and target analysis Target bed filetarget bed file 출력Print 전처리된 BAM filePreprocessed BAM file BAM fileBAM file

아래 [표 15]는 복제 제거(remove duplication, 350)에 관한 정보를 테이블로 정리한 것이다.[Table 15] below is a table of information on remove duplication (350).

범주category 메트릭metric 설명Explanation 예시example 복제 제거Remove duplicates 도구 이름tool name PICARD 툴을 사용하며, PICARD 도구는 파일의 모든 읽기를 하나의 새 읽기 그룹에 할당I use the PICARD tool, which assigns all reads of the file to one new read group. PICARDPICARD 도구 버전tool version PICARD v1.93 사용Using PICARD v1.93 v1.93v1.93 도구 옵션tool options METRICS_FILE, 중복 메트릭을 쓸 파일을 할당REMOVE_DUPLICATES, 플래그가 지정된 읽기를 제거할지 여부를 결정
CREATE_INDEX, 좌표별로 정렬된 BAM 파일을 작성할 때 BAM 인덱스를 생성할지 여부를 결정
METRICS_FILE, allocates a file to write duplicate metrics to REMOVE_DUPLICATES, determines whether to remove flagged reads
CREATE_INDEX, determines whether to create a BAM index when creating a BAM file sorted by coordinates
METRICS_FILE
REMOVE_DUPLICATES
CREATE_INDEX
METRICS_FILE
REMOVE_DUPLICATES
CREATE_INDEX
추가 입력additional input 출력Print 전처리된 BAM filePreprocessed BAM file BAM fileBAM file

본 발명에서, 변이 검출(Variant calling, 360)은 생식선 돌연변이 검출(germline mutation calling, 361)과 체세포 돌연변이 검출(somatic mutation calling, 362)로 구성될 수 있다.아래 [표 16]은 생식선 돌연변이 검출(361)에 관한 정보를 테이블로 정리한 것이다.In the present invention, variant calling (360) may consist of germline mutation calling (361) and somatic mutation calling (362). [Table 16] below shows germline mutation detection ( 361) is arranged in a table.

범주category 메트릭metric 설명Explanation 예시example 생식선 돌연변이 검출Germline mutation detection 도구 이름tool name GATK HaplotypeCaller 툴을 사용하며, germline SNP 및 indel caller임.Using the GATK HaplotypeCaller tool, germline SNP and indel caller. GATK HaplotypeCallerGATK HaplotypeCaller 도구 버전tool version GATK v3.8 사용Using GATK v3.8 V3.8V3.8 도구 옵션tool options -T 사용할 임시 디렉토리를 지정-R 참조 시퀀스 파일을 할당
- I 읽기를 포함하는 BAM 파일을 할당
-O 변형을 작성해야하는 파일을 할당
-T Specifies the temporary directory to use -R Allocates a reference sequence file
- Allocate BAM file containing read I
-O allocate the file the variant should be written to
- T
- R
- I
- O
- T
- R
- I
- O
추가 입력additional input 인간 참조 게놈human reference genome 참조 게놈reference genome 출력Print VCF 파일, 각 샘플에 대해 위에서 언급한 개별 변형 호출 정보와 품질 점수가 포함되어 있음.VCF file, containing the individual variant call information and quality scores mentioned above for each sample. VCF fileVCF file

아래 [표 17]은 체세포 돌연변이 검출(362)에 관한 정보를 테이블로 정리한 것이다.[Table 17] below summarizes information on somatic mutation detection 362 in a table.

범주category 메트릭metric 설명Explanation 예시example 체세포 돌연변이 검출Somatic mutation detection 도구 이름tool name VarScan 툴을 사용하며, somatic SNP 및 indel caller임.It uses the VarScan tool and is a somatic SNP and indel caller. VarScanVarScan 도구 버전tool version VarScan v2.3.9 사용Using VarScan v2.3.9 V2.3.9V2.3.9 도구 옵션tool options mpileup2snp, 사용자 정의 매개 변수를 기반으로 mpileup 파일에서 SNP를 검출mpileup2snp, detect SNPs in mpileup files based on user-defined parameters mpileup2snpmpileup2snp 추가 입력additional input 인간 참조 게놈human reference genome 참조 게놈reference genome 출력Print VCF 파일, 각 샘플에 대해 위에서 언급한 개별 변형 호출 정보와 품질 점수가 포함되어 있음.VCF file, containing the individual variant call information and quality scores mentioned above for each sample. VCF fileVCF file

아래 [표 18]은 체세포 돌연변이 검출(362)에 관한 정보를 테이블로 정리한 것이다.[Table 18] below is a table of information on somatic mutation detection (362).

범주category 메트릭metric 설명Explanation 예시example 체세포 돌연변이 검출Somatic mutation detection 도구 이름tool name MuTect2툴을 사용하며, somatic SNP 및 indel caller임.It uses the MuTect2 tool and is a somatic SNP and indel caller. MuTect2MuTect2 도구 버전tool version 도구 옵션tool options 법선 패널을 만들기 위해 아티팩트 감지 활성화Enable Artifact Detection to Create Normal Panels artifact_detection_Modeartifact_detection_Mode 추가 입력additional input 인간 참조 게놈
dbSNP와 함께 COSMIC 데이터를 사용하여 정상에서 변이의 증거에 대한 임계 값을 조정
human reference genome
Adjusting the threshold for evidence of variation from normal using COSMIC data with dbSNP
참조 게놈

dbSNP
COSMIC
reference genome

dbSNP
COSMIC
출력Print VCF 파일, 각 샘플에 대해 위에서 언급한 개별 변형 호출 정보와 품질 점수가 포함되어 있음VCF file, containing the individual variant call information and quality scores mentioned above for each sample VCF fileVCF file

아래 [표 19]는 번호 변이 검출복사(Copy number variant calling, 363)에 관한 정보를 테이블로 정리한 것이다.[Table 19] below summarizes information on copy number variant calling (363) into a table.

범주category 메트릭metric 설명Explanation 예시example 번호 변이 검출 복사Copy number variation detection 도구 이름tool name CNVkit 툴을 사용하며, 높은 처리량 시퀀싱을 통해 게놈 전체의 복제 수 변이 및 변경을 감지.Detect genome-wide copy number variations and alterations through high-throughput sequencing using the CNVkit tool. CNVkitCNVkit 도구 버전tool version CNVkit v0.9.6 사용 Using CNVkit v0.9.6 v0.9.6v0.9.6 도구 옵션tool options batch -t -f --access --output-reference --output-dir --drop-low-coveragebatch -t -f --access --output-reference --output-dir --drop-low-coverage 추가 입력additional input 인간 참조 게놈human reference genome 참조 게놈
access-5k mappable(cnvkit optional)
reference genome
access-5k mappable (cnvkit optional)
출력Print SNV 대립 유전자 수 파일SNV Allele Count File 텍스트 파일 (tab delimiter)text file (tab delimiter)

아래 [표 20]은 구조 변형 호출(Structure variant calling, 364)에 관한 정보를 테이블로 정리한 것이다.[Table 20] below summarizes information on structure variant calling (364) into a table.

범주category 메트릭metric 설명Explanation 예시example 구조 변형 호출Structural transformation calls 도구 이름tool name Lumpy 툴을 사용하며, 구조적 변형 발견을 위한 확률적 프레임 워크Using the Lumpy tool, a probabilistic framework for structural deformation discovery LumpyLumpy 도구 버전tool version Lumpy v0.2.14 사용Using Lumpy v0.2.14 v0.2.14v0.2.14 도구 옵션tool options Lumpyexpress, 표준 분석을 위한 중단점 감지를 자동화-S 좌표 정렬 분할기 BAM 파일 제공
-D 불일치 BAM 파일 제공
-B 좌표 정렬 BAM 파일 할당
-r 트림 임계값 할당
-o 출력 할당
-m 호출에 대한 최소 샘플 가중치 할당
Lumpyexpress Provides Automated Breakpoint Detection for Standard Analysis-S Coordinate Alignment Divider BAM File
-D provide mismatched BAM file
-B coordinate alignment BAM file allocation
-r assign trim threshold
-o assign output
-m assign minimum sample weight to invocation
lumpyexpress
-S
-B
-D
-r
-o
-m
lumpyexpress
-S
-B
-D
-r
-o
-m
추가 입력additional input 인간 참조 게놈human reference genome 참조 게놈reference genome 출력Print VCF 파일, 각 샘플에 대해 위에서 언급한 개별 변형 호출 정보와 품질 점수가 포함되어 있음VCF file, containing the individual variant call information and quality scores mentioned above for each sample VCF fileVCF file

도 1의 파생 데이터(derived data, S106)는 FASTQ, SAM, BAM, CRAM, VCF, MAF 파일을 포함할 수 있다. 시퀀서(sequencer)는 디코딩된 NGS 서열(decoded sequence of NGS)을 FASTQ 형식 또는 BAM 파일로 저장한다. The derived data S106 of FIG. 1 may include FASTQ, SAM, BAM, CRAM, VCF, and MAF files. The sequencer stores the decoded sequence of NGS in FASTQ format or BAM file.

FASTQ 또는 BAM에서 변이 검출 또는 변이 주석 프로세스는 크게 원시 데이터 (raw data) 생성, 정렬(alignment), 변이 검출 (variant calling) 및 변이 주석 (variant annotation) 4단계로 이루어진다. The mutation detection or mutation annotation process in FASTQ or BAM consists of four steps: raw data generation, alignment, variant calling, and variant annotation.

각 단계의 결과로 아래의 6가지 종류의 파생 데이터 파일이 생성될 수 있다. 다른 파일과 데이터는 분석 방법의 진전에 따라 추가할 수 있다. As a result of each step, the following six types of derived data files can be created. Other files and data may be added as the analysis method evolves.

본 발명에서 FASTQ는 생물학적 서열(biological sequence 또는 nucleotide sequence)과 해당 품질 점수(QC)를 모두 저장하는 텍스트 기반 형식이다. In the present invention, FASTQ is a text-based format that stores both a biological sequence or a nucleotide sequence and a corresponding quality score (QC).

서열 문자(sequence letter)와 품질 점수(QC) 모두 간결성을 위해 단일 ASCII 문자로 인코딩된다.Both the sequence letter and quality score (QC) are encoded as a single ASCII character for brevity.

본 발명에서, 시퀀스 정렬 지도(sequence alignment map, SAM)은 참조 서열에 정렬된 생물학적 서열을 저장하기 위한 텍스트 기반 형식이다.In the present invention, a sequence alignment map (SAM) is a text-based format for storing biological sequences aligned to a reference sequence.

본 발명에서, BAM은 게놈 염기서열의 종합적인 원시 데이터(raw data)로, SAM의 정보 손실이 없이 압축된 이진(binary) 표현으로 구성되어 있다.In the present invention, BAM is comprehensive raw data of a genome sequence, and is composed of a compressed binary representation without loss of information in SAM.

본 발명에서, CRAM은 생물학적 서열를 참조 서열에 맞춰 저장하기 위해 압축된 칼럼니스트 파일(columnar file) 형식이다.In the present invention, CRAM is a compressed columnar file format for storing biological sequences according to reference sequences.

본 발명에서, VCF는 생물정보학(bioinformatics)에서 유전자 서열 변이를 저장하기 위해 사용되는 텍스트 파일의 형식이다.In the present invention, VCF is a format of a text file used to store gene sequence variations in bioinformatics.

본 발명에서, MAF는 생물정보학(bioinformatics)에서 주석이 달린 변이에 사용되는 텍스트 파일의 형식이다.In the present invention, MAF is the format of a text file used for annotated mutations in bioinformatics.

아래 [표 21]은 파생 데이터 관련 정보를 테이블로 정리한 것이다.[Table 21] below is a table of information related to derived data.

범주category 이름name 설명Explanation 선택사항options 파생 데이터derived data FASTQFASTQ 선택사항options SAMSAM 선택사항options BAMBAM 선택사항options CRAMCRAM 선택사항options VCFVCF 필수essential MAFMAF 선택사항options

이하 여러 실시예들을 통해 사용자의 관점에서 바라본 시스템의 특성을 기술하도록 한다. 즉, 사람에 의해 시작된 시나리오 세트, 시간의 흐름, 또는 다른 시스템을 기술하도록 한다.즉 본 발명은 시스템에서 제공하는 서비스 또는 기능, 시스템이 사용자에게 제공하는 사용자 관점에의 기능적인 장치, 사용자의 요구에 응하여 원하는 과정을 수정하거나 정보를 제공할 수 있다.Hereinafter, the characteristics of the system viewed from the user's point of view will be described through various embodiments. That is, a set of scenarios initiated by a person, the passage of time, or another system can be described. That is, the present invention relates to a service or function provided by a system, a functional device from the user's point of view that the system provides to a user, and a user's request. In response, you may modify the desired course or provide information.

또한 본 발명은 사용자와 한번 이상의 접촉을 통해 관련 번들(bundle)의 시스템 조치, 중요한 독립적인(self-contained) 서비스 구성할 수 있다.The present invention can also constitute system actions of related bundles, important self-contained services, through one or more contact with the user.

이러한 동작은 사용자 관점에서 정의 필요하다.These behaviors need to be defined from the user's point of view.

본 발명에서 관계자는 해부학적(Anatomic), 외과적 병리학/혈액 병리학 (surgical pathology/hematopathology)적으로, 암 자료수집에서 병리학적 진단 및 검사와 그 외의 것에 핵심적인 역할을 할 것이다.In the present invention, the person concerned will play a key role in pathological diagnosis and examination and others in anatomic, surgical pathology/hematopathology, and cancer data collection.

본 발명에서 환자 개인은 건강 관리(healthcare) 및 웰빙(wellbeing) 서비스를 사용하는 일반인들로 구성될 것이다.In the present invention, individual patients will be composed of ordinary people who use health care and wellbeing services.

도 4는 본 발명의 일 실시예에 따른, 임상 실습에서 차세대 염기 서열 분석 프로세스를 나타낸 도면이다.4 is a diagram illustrating a next-generation sequencing process in clinical practice, according to an embodiment of the present invention.

도 4에 도시된 바와 같이, 차세대 염기 서열 분석에 의한 임상 시퀀싱에는 환자, 의료 제공자(healthcare provider), 실험실 및 유전학자/의학적 유전학자/분자 병리학자 (geneticist/medical geneticist/molecular pathologist)의 통합이 포함될 수 있다. 정확하고 효과적으로 환자를 진료하기 위해 필요한 경우 임상의의 재량에 따라 진행된다. 의료 제공자가 시료를 채취한 후 실험실이 시료를 수령, 처리 및 시퀀싱 한다. 해당 데이터는 분석 및 처리준비를 한 후 연구실에서 자주 근무하는 유전학자/의학적 유전학자/분자 병리학자에게 전달된다. 이 곳에서, 데이터는 해석을 위해 변환되고 보고서로 정리된다. 이 후, 의료 제공자가 보고서를 확인하고 환자 관리 계획을 세울 수 있도록 보고서는 환자의 전자 의무 기록(HER, Electronic Health Records)에 추가된다.As shown in FIG. 4, in clinical sequencing by next-generation sequencing analysis, integration of patients, healthcare providers, laboratories, and geneticists/medical geneticists/molecular pathologists is required. may be included. It is done at the discretion of the clinician when necessary to treat patients accurately and effectively. After the healthcare provider collects the sample, the laboratory receives, processes, and sequence the sample. After the data is analyzed and prepared for processing, it is passed on to a geneticist/medical geneticist/molecular pathologist who frequently works in the laboratory. Here, data is transformed for interpretation and organized into reports. The report is then added to the patient's Electronic Health Records (HER) so that the health care provider can view the report and develop a patient care plan.

도 4에 도시된 바와 같이, 환자가 병원을 방문한다. 병원은 차세대 염기 서열 분석을 통해 환자의 상태를 분석하고 다음과 같은 조건에 따라 임상 과정과 치료를 결정한다. 환자에 대한 모든 의료 정보는 환자의 동의 하에 EHR에 포함될 것이다.As shown in FIG. 4 , the patient visits the hospital. The hospital analyzes the patient's condition through next-generation sequencing and determines the clinical course and treatment based on the following conditions. All medical information about the patient will be included in the EHR with the patient's consent.

다음으로, 방문한 환자에 대해 임상 처리 및 진단을 하게 된다(S401, S402, S403). Next, clinical treatment and diagnosis are performed on the visited patient (S401, S402, S403).

여기서, 병원 진단은 병원의 검사와 기기를 사용하여 환자의 증상과 징후를 병이나 질환으로 설명하는 과정이다. 특히 암 환자의 경우 악성 종양을 진단하기 위해 간단한 생체 검사(biopsy)이 필요할 수 있다. 생체 검사에는 수많은 종류가 있다. 거의 모든 생체 검사들은 소량의 조직을 제거하기 위해 날카로운 도구를 사용한다. Here, hospital diagnosis is a process of explaining a patient's symptoms and signs as a disease or disease using the hospital's examination and equipment. In particular, a simple biopsy may be required to diagnose a malignant tumor in cancer patients. There are numerous types of biopsies. Almost all biopsies use sharp instruments to remove small amounts of tissue.

대부분의 생체검사는 니들 생체 검사 (needle biopsy)이다. Most biopsies are needle biopsy.

환자의 의심스러운 조직에 접근하기 위해 니들을 사용하는 것이다. 하지만 니들 생체 검사는 광범위한 병변을 다루지 않기 때문에 염기서열 분석을 위한 샘플을 얻기 위해서는 수술 생체 검사(surgical biopsy)도 필요하다. 이 생체 검사는 간단한 혈액 채혈로 검사할 수 있기 때문에 편리하지만 혈액 내 CTC의 양이 너무 적어 정확한 검출 기술을 폭넓게 이용할 수 없다는 단점이 있다.The use of a needle to access the patient's suspicious tissue. However, since needle biopsy does not cover a wide range of lesions, a surgical biopsy is also required to obtain a sample for sequencing. Although this biopsy is convenient because it can be tested with a simple blood sample, the amount of CTC in the blood is too small, so an accurate detection technique cannot be widely used.

다음으로, 임상 처리를 수행하여 시료를 획득할 수 있다(S403). 차세대 염기 서열 검사를 위해 환자의 장기로부터 시료를 채취해야 한다. 일반적으로 이 과정은 병원에서 수술 생체 검사(surgical biopsy)로 이뤄진다. Next, a sample may be obtained by performing a clinical process (S403). Samples must be taken from the patient's organs for next-generation sequencing. Typically, this procedure is performed in a hospital as a surgical biopsy.

생체 검사는 암을 식별하고 차세대 염기 서열 분석을 위한 샘플을 얻기 위해 가장 빈번하게 시행된다. 수술 생체 검사와 혈액 검사는 암 조직과 혈액의 샘플 채취에 가장 일반적으로 사용된다. 이 샘플은 염기서열 분석을 위해 습식 실험실(wet laboratory)로 보내진다.Biopsies are most frequently performed to identify cancer and obtain samples for next-generation sequencing. Surgical biopsies and blood tests are most commonly used to take samples of cancerous tissue and blood. This sample is sent to a wet laboratory for sequencing.

다음으로, 실험실에서는 라이브러리를 준비한다(S404). 차세대 염기 서열 분석의 라이브러리 준비에서는 고밀도 염기서열(high-throughput sequencing)을 얻기 위해 핵산을 표적으로 하는 효소 반응을 사용하여 특정 크기의 DNA 조각을 무작위로 수집한다. Next, the laboratory prepares a library (S404). In library preparation for next-generation sequencing, DNA fragments of a specific size are randomly collected using an enzymatic reaction that targets nucleic acids to obtain high-throughput sequencing.

차세대 염기 서열 분석의 라이브러리 준비 키트는 표준 분자 생물학적 반응에 대한 일관성과 재현성을 보장한다. 차세대 염기 서열 분석의 라이브러리 준비에는 시퀀싱을 위한 DNA조각화 과정도 포함이 된다. 차세대 염기 서열 분석의 라이브러리는 일반적으로 유전체 DNA 또는 cDNA 샘플을 조각들로 나누고 조각들 끝에 특수 어댑터(adapter)를 연결함으로써 준비된다. Library preparation kits for next-generation sequencing ensure consistency and reproducibility for standard molecular biological reactions. Library preparation for next-generation sequencing also includes DNA fragmentation for sequencing. Libraries for next-generation sequencing are generally prepared by dividing a genomic DNA or cDNA sample into fragments and attaching special adapters to the ends of the fragments.

이러한 과정은 "태그먼트화(tagmentation)"로 정의될 수 있다.This process may be defined as "tagmentation".

리는 이 과정은 조각화와 결찰 반응(ligation reactions)을 한 단계로 결합한다. 어댑터로 지정된 조각은 PCR-amplified 및 gel-purified된다.This process combines fragmentation and ligation reactions in one step. Fragments designated as adapters are PCR-amplified and gel-purified.

다음으로, 실험실에서 시퀀싱 단계를 거치게된다(S405). 진유전체(exome)는 엑손(exon)으로 구성된 게놈의 모든 부분을 설명하는데 사용되는 용어다. Next, a sequencing step is performed in the laboratory (S405). Exome is a term used to describe any part of the genome made up of exons.

엑손은 인트론(intron)과 반대로, 접합 단백질(splicing protein)에 의해 메신저 RNA(messenger RNA)로 변경될 수 있는 DNA 영역이다. 진유전체 염기서열은 단백질 기능에 영향을 주는 유전자의 코딩 영역에서 변이를 식별하기 위해 개발된 캡처 기반 방법(capture-based method)이다. PCR, 혼합 캡처(hybrid capture), molecular inversion probes exist를 이용한 진유전체 캡처 방법이 존재하지만, 가장 보편적이고 효율적인 전략은 인솔루션 캡처 방식(in-solution capture method)이다. 인솔루션 캡처는 자기 비드(bead)에 결합된 올리고뉴클레오타이드 (Oligonucleotide)의 풀(pool)이나 프로브(probe)를 활용하는데, 이 프로브의 염기서열은 Exon 영역까지 혼합되도록 설계되었다. 게놈 DNA에 결합한 후, 이 프로브들은 아래로 당겨지고 세척되어 엑손 영역을 선택적으로 배열할 수 있다.An exon, as opposed to an intron, is a DNA region that can be changed into messenger RNA by a splicing protein. Genome sequencing is a capture-based method developed to identify mutations in the coding region of genes that affect protein function. Although there exist methods for capturing the genome using PCR, hybrid capture, and molecular inversion probes exist, the most common and efficient strategy is the in-solution capture method. In-solution capture utilizes a pool or probe of oligonucleotides bound to magnetic beads, and the probe's nucleotide sequence is designed to mix up to the Exon region. After binding to genomic DNA, these probes can be pulled down and washed to selectively align exon regions.

다음으로, 차세대 염기서열 처리를 거치게 된다(S406). Next, next-generation sequencing is performed (S406).

시퀀싱에서 얻은 서열 리드의 파일은 FASTQ 형식으로 저장된다. 이 파일 형식은 각 뉴클레오티드(nucleotide)의 뉴클레오티드 서열(nucleotide sequence)와 품질을 포함한다. 이 파일은 시퀀싱을 평가하기 위해 품질 검사를 거친다. Files of sequence reads obtained from sequencing are saved in FASTQ format. This file format contains the nucleotide sequence and quality of each nucleotide. These files are subjected to quality checks to evaluate sequencing.

이후, 서열들은 각 서열 리드의 위치를 결정하기 위해 참고 서열에 정렬시킨다. 이후 로컬 정렬(local realignment)과 기본 품질 점수 재측정은 시퀀싱의 기술 결함을 최소화하기 위해 수행된다. 마지막으로 중복된 리드들이 제거되고, 변이 검출은 각 리드 깊이로 총 변이 량을 고려하여 수행된다. 차세대 염기 서열 분석 결과 데이터는 VCF에 저장된다. 이 파일은 단순히 변이 검출 과정에서 인식된 변이들의 염색체 위치와 대립유전자 정보를 포함하고 있다. 그러나 임상적으로 해석하기 위해서는 생물학적이고 임상적 관련성을 가지고 있는 다양한 정보들의 주석이 필요하다. 어떤 유전자에 어떤 돌연변이가 존재하는지, 체세포 돌연변이에 의해 아미노산이 어떻게 변화하는지, 돌연변이가 어떻게 보존되는지, 단백질 구조가 얼마나 바뀌었는지, 어떤 질병이 돌연변이와 관련이 있는지에 대한 정보가 필요하다. 이 모든 정보가 주석으로 달려야 임상 해석이 가능하다.The sequences are then aligned to a reference sequence to determine the location of each sequence read. Afterwards, local realignment and basic quality score re-measurement are performed to minimize technical deficiencies in sequencing. Finally, duplicate reads are removed, and disparity detection is performed by considering the total disparity amount for each read depth. Next-generation sequencing result data is stored in the VCF. This file simply contains the chromosomal location and allele information of the mutations recognized during the mutation detection process. However, in order to interpret it clinically, it is necessary to annotate various information that has biological and clinical relevance. We need information about which mutations are present in which genes, how amino acids are changed by somatic mutations, how mutations are conserved, how much protein structure is altered, and which diseases are associated with mutations. All this information must be annotated to enable clinical interpretation.

이후, 차례적으로, 유전/게놈 결과를 임상 결과를 위해 유전학자가 해석하고(S407), 유전학자는 염기 서열 분석 보고서를 작성하게 된다(S408). 여기서, 차세대 염기 서열 분석의 보고서는 서술적 발견(narrative finding)과 해석을 포함하여 작성된다.Thereafter, in turn, the geneticist interprets the genetic/genomic results for clinical results (S407), and the geneticist prepares a nucleotide sequence analysis report (S408). Here, the report of next-generation sequencing is prepared including narrative finding and interpretation.

다음으로, 의료 제공자인 임상의는 환자의 치료 계획을 구상하기 위해 차세대 염기 서열 분석 결과/보고서를 검토한다(S409).Next, the clinician who is a health care provider reviews the next-generation sequencing result/report in order to design a treatment plan for the patient (S409).

다음으로, 의료 제공자는 의료 제공자는 차세대 염기 서열 분석을 고려하는 치료 계획을 수립하거나 수정한다(S410).Next, the healthcare provider establishes or modifies a treatment plan in consideration of the next-generation sequencing of the healthcare provider ( S410 ).

다음으로, 임상의는 환자와 함께 차세대 염기 서열 분석 보고서 및 치료 계획에 대해 논의한다(S411).Next, the clinician discusses the next-generation sequencing report and treatment plan with the patient (S411).

도 5는 본 발명의 일 실시예에 따른, 병렬 시퀀싱 파일을 이용한 환자 중심의 건강 정보 교환 프로세스를 나타낸 도면이다.5 is a diagram illustrating a patient-centered health information exchange process using a parallel sequencing file according to an embodiment of the present invention.

환자 중심의 대규모 병렬 시퀀싱 기반 건강 정보 교환에는 두 병원의 환자, 의료 제공자, 실험실 및 유전 학자, 의학 유전 학자, 분자 병리학자가 모두 필요할 수 있다. 단일 병원 방문에서 진단, 테스트 및 결과 획득에 이르는 과정은 도 4에 도시된 것과 대응될 수 있다. 그러나, 환자가 다른 병원으로 이송되는 프로세스인(S512)인 "환자 이송 준비"는 도 5에 도시된 바와 같이 시나리오에 따라 다를 수 있다.Patient-centric, massively parallel sequencing-based health information exchange may require patients from both hospitals, health care providers, laboratory and geneticists, medical geneticists, and molecular pathologists all. A process from a single hospital visit to diagnosis, testing, and result acquisition may correspond to that shown in FIG. 4 . However, "patient transfer preparation", which is the process ( S512 ) in which the patient is transferred to another hospital, may differ depending on the scenario as shown in FIG. 5 .

한편 도4 및 도 5에서 설명한 동작은 본 발명의 일 실시예에 불과하며 차세대 염기서열 프로세스의 활용 실시예에는 그 제한이 없다.Meanwhile, the operations described with reference to FIGS. 4 and 5 are only an embodiment of the present invention, and there is no limitation thereto.

도 6은 본 발명의 일 실시예에 따른 차세대 염기 서열 분석 방법의 전체적인 동작을 나타낸 도면이다.6 is a view showing the overall operation of the next-generation nucleotide sequence analysis method according to an embodiment of the present invention.

도 6을 참고하면, 차세대 염기 서열 분석 장치는 시료를 수집하고, 프로세싱하여 저장할 수 있다(S601).Referring to FIG. 6 , the next-generation sequencing apparatus may collect, process, and store a sample ( S601 ).

이후 차세대 염기 서열 분석 장치는 시료에서 DNA를 추출할 수 있다(S602). 또한 이렇게 추출된 DNA를 기초로 차세대 염기 서열 분석 장치는 DNA 프로세싱을 수행하고 라이브러리를 형성할 수 있다(S603).Thereafter, the next-generation sequencing apparatus may extract DNA from the sample (S602). In addition, the next-generation sequencing apparatus may perform DNA processing and form a library based on the extracted DNA (S603).

이어서 염기 서열 분석 장치는 라이브러리에 포함된 시료의 리드 파일을 획득하기 위한 시료의 시퀀싱을 수행할 수 있다(S604). 이어서 시퀀싱된 상기 리드 파일로부터 염기 검출(base calling)을 수행할 수 있다.Subsequently, the nucleotide sequence analysis apparatus may perform sequencing of the sample to obtain a read file of the sample included in the library ( S604 ). Subsequently, base calling may be performed from the sequenced read file.

차세대 염기 서열 분석 장치는 리드 파일을 정렬하고 매핑할 수 있다(S605).The next-generation sequencing apparatus may align and map the read file (S605).

이어서 전처리된 리드 파일로부터 리드 파일에 변이 검출(variant calling)을 수행할 수 있다(S606).Subsequently, variant calling may be performed on the read file from the pre-processed read file ( S606 ).

또한 차세대 염기 서열 분석 장치는 변이에 대하여 어노테이션과 필터링을 수행할 수 있다(S607).In addition, the next-generation sequencing apparatus may perform annotation and filtering on the mutation (S607).

또한 차세대 염기 서열 분석 장치는 변이를 결정할 수 있다(S608).In addition, the next-generation sequencing device may determine the mutation (S608).

이후 차세대 염기 서열 분석 장치는 상술한 동작을 기초로 도출한 정보를 기초로 보고서를 작성할 수 있다(S609).Thereafter, the next-generation sequencing apparatus may create a report based on the information derived based on the above-described operation (S609).

본 발명의 다양한 실시예들은 기기(machine)에 의해 읽을 수 있는 저장 매체(storage medium)(예를 들어, 메모리)에 저장된 하나 이상의 인스트럭션들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서는, 저장 매체로부터 저장된 하나 이상의 인스트럭션들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 인스트럭션에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 인스트럭션들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예를 들어, 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예를 들어, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.Various embodiments of the present invention may be implemented as software including one or more instructions stored in a storage medium (eg, memory) readable by a machine. For example, the processor of the device may call at least one of the one or more instructions stored from the storage medium and execute it. This makes it possible for the device to be operated to perform at least one function according to the called at least one instruction. The one or more instructions may include code generated by a compiler or code executable by an interpreter. The device-readable storage medium may be provided in the form of a non-transitory storage medium. Here, the 'non-transitory storage medium' is a tangible device and only means that it does not include a signal (eg, electromagnetic wave), and this term means that data is semi-permanently stored in the storage medium. and temporary storage. For example, the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.

일 실시예에 따르면, 본 명세서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예를 들어, compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다. 이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다. According to one embodiment, the method according to various embodiments disclosed herein may be provided as included in a computer program product. Computer program products may be traded between sellers and buyers as commodities. The computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or via an application store (eg Play Store™) or two user devices. It can be distributed (eg downloaded or uploaded) directly or online between devices (eg smartphones). In the case of online distribution, at least a portion of the computer program product (eg, a downloadable app) is stored at least on a machine-readable storage medium, such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created. In the above, embodiments of the present invention have been described with reference to the accompanying drawings, but those of ordinary skill in the art to which the present invention pertains can realize that the present invention can be embodied in other specific forms without changing the technical spirit or essential features thereof. you will be able to understand Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

Claims (16)

염기 서열 분석 방법에 있어서,
환자에 대해 임상 처리 및 생체 검사를 포함하는 진단을 수행하는 단계;
상기 임상 처리를 통해 차세대 염기 서열 검사를 위한 시료를 획득하는 단계;
상기 차세대 염기 서열 검사를 위한 라이브러리를 준비하는 단계;
상기 라이브러리에 포함된 시료의 리드 서열을 획득하기 위한 상기 시료의 시퀀싱을 수행하는 단계;
시퀀싱된 상기 리드 서열로부터 염기 검출(base calling)을 수행하는 단계;
상기 리드 서열을 정렬하는 단계;
정렬된 상기 리드 서열을 전처리하는 단계;
전처리된 상기 리드 서열로부터 상기 리드 파일에 변이 검출(variant calling)을 수행하는 단계; 및
상기 환자, 상기 시료, 상기 시료 실험에 이용되는 실험 장비, 상기 시료 분석에 이용되는 분석 장비 및 상기 시료로부터 파생된 데이터를 포함하는 유전자 데이터를 형성하는 단계;를 포함하는,
차세대 염기 서열 분석 방법.
In the nucleotide sequence analysis method,
performing a diagnosis, including clinical treatment and biopsy, on the patient;
obtaining a sample for next-generation sequencing through the clinical process;
preparing a library for the next-generation sequencing;
performing sequencing of the sample to obtain a read sequence of the sample included in the library;
performing base calling from the sequenced read sequence;
aligning the read sequences;
pre-processing the aligned read sequences;
performing variant calling on the read file from the preprocessed read sequence; and
Forming genetic data including the patient, the sample, the laboratory equipment used for the sample experiment, the analysis equipment used for the sample analysis, and data derived from the sample;
Next-generation sequencing method.
제 1항에 있어서,
상기 유전자 데이터를 형성하는 단계는,
상기 환자의 이름, 상기 환자의 고유 식별자, 상기 환자의 생년월일, 상기 환자의 성별, 상기 환자의 인종, 상기 환자의 진단 정보, 상기 환자의 치료 정보 중 적어도 하나를 포함하는 상기 환자 정보를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함하는 차세대 염기 서열 분석 방법.
The method of claim 1,
The step of forming the genetic data is,
based on the patient information including at least one of the patient's name, the patient's unique identifier, the patient's date of birth, the patient's gender, the patient's race, the patient's diagnostic information, and the patient's treatment information A next-generation nucleotide sequence analysis method comprising; forming genetic data.
제1항에 있어서,
상기 유전자 데이터를 형성하는 단계는,
상기 시료의 획득 기관, 상기 시료를 샘플링 한 날짜, 상기 시료의 종류 중 적어도 하나를 포함하는 상기 시료 정보를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함하는 자세대 염기 서열 분석 방법.
According to claim 1,
The step of forming the genetic data is,
and forming the genetic data based on the sample information including at least one of an institution for obtaining the sample, the date the sample was sampled, and the type of the sample.
제1항에 있어서,
상기 유전자 데이터를 형성하는 단계는,
상기 시료 실험에 이용되는 실험 장비의 데이터 품질 관리 지표, 상기 실험 장비의 염기 검출(base calling) 정보, 상기 리드 서열의 심도, 상기 리드 서열의 참조 대립형질의 심도, 상기 리드 서열의 대체 대립형질의 심도, 상기 리드 서열의 대립 유전자 빈도, 상기 리드 서열의 유전자형, 상기 리드 서열의 시퀀싱 플랫폼 정보, 상기 리드 서열의 시퀀서 유형, 상기 리드 서열의 라이브러리 준비 기법, 상기 리드 서열의 타겟 캡쳐 방법, 상기 리드 서열의 유형, 상기 리드 서열의 길이 중 적어도 하나를 포함하는 상기 실험 장비 정보를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함하는 차세대 염기 서열 분석 방법.
According to claim 1,
The step of forming the genetic data is,
Data quality control index of the experimental equipment used for the sample experiment, base calling information of the experimental equipment, the depth of the read sequence, the depth of the reference allele of the read sequence, the replacement allele of the read sequence Depth, allele frequency of the read sequence, genotype of the read sequence, sequencing platform information of the read sequence, sequencer type of the read sequence, library preparation technique of the read sequence, target capture method of the read sequence, the read sequence A next-generation nucleotide sequence analysis method comprising a;
제1 항에 있어서,
상기 유전자 데이터를 형성하는 단계는,
상기 리드 서열을 정렬하고, 정렬된 상기 리드 서열을 보정하고, 보정된 상기 리드 서열로부터 유전자 변이를 검출하고, 상기 검출된 유전자 변이에 주석을 매칭하여 상기 분석 장비 정보를 형성하고,
상기 분석 장비 정보를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함하는 차세대 염기 서열 분석 방법.
According to claim 1,
The step of forming the genetic data is,
aligning the read sequence, correcting the aligned read sequence, detecting a genetic mutation from the corrected read sequence, and matching an annotation to the detected genetic mutation to form the analysis equipment information,
A next-generation nucleotide sequence analysis method comprising a; forming the genetic data based on the analysis equipment information.
제1 항에 있어서,
상기 유전자 데이터를 형성하는 단계는,
유전자 시퀀스 및 시퀀스 품질 점수를 포함하는 FASTQ, 유전자 시퀀스 정렬 지도, BAM, CRAM, VCF, MAF 중 적어도 하나를 포함하는 파생 데이터를 기초로 상기 유전자 데이터를 형성하는 단계;를 포함하는 차세대 염기 서열 분석 방법.
According to claim 1,
The step of forming the genetic data is,
A next-generation sequencing method comprising a; forming the gene data based on the derived data including at least one of FASTQ, gene sequence alignment map, BAM, CRAM, VCF, and MAF including gene sequence and sequence quality score .
제1항에 있어서,
상기 라이브러리에 포함된 시료의 리드 파일을 획득하기 위한 상기 시료의 시퀀싱을 수행하는 단계는,
미리 결정된 복수의 방식 중 하나를 이용하여 상기 리드 파일 중 엑손 영역을 추출하여 선택적으로 배열하는 단계;를 포함하는 차세대 염기 서열 분석 방법.
According to claim 1,
The step of sequencing the sample to obtain a read file of the sample included in the library includes:
A next-generation sequencing method comprising a; extracting and selectively arranging an exon region from the read file using one of a plurality of predetermined methods.
차세대 염기 서열 분석을 수행하는 장치에 있어서,
메모리; 및
상기 메모리와 통신을 수행하는 적어도 하나의 프로세서;를 포함하고,
상기 적어도 하나의 프로세서는,
환자에 대해 임상 처리 및 생체 검사를 포함하는 진단을 수행하고,
상기 임상 처리를 통해 차세대 염기 서열 검사를 위한 시료를 획득하고,
상기 차세대 염기 서열 검사를 위한 라이브러리를 준비하고,
상기 라이브러리에 포함된 시료의 리드 파일을 획득하기 위한 상기 시료의 시퀀싱을 수행하고,
시퀀싱된 상기 리드 파일로부터 염기 검출(base calling)을 수행하고,
상기 리드 파일을 정렬하고,
정렬된 상기 리드 파일을 전처리하고,
전처리된 상기 리드 파일로부터 상기 리드 파일에 변이 검출(variant calling)을 수행하고,
상기 환자, 상기 시료, 상기 시료 실험에 이용되는 실험 장비, 상기 시료 분석에 이용되는 분석 장비 및 상기 시료로부터 파생된 데이터를 포함하는 유전자 데이터를 형성하는 차세대 염기 서열 분석 장치.
In an apparatus for performing next-generation sequencing,
Memory; and
Including; at least one processor to communicate with the memory;
the at least one processor,
performing diagnostics, including clinical treatment and biopsies, on the patient;
Obtaining a sample for next-generation sequencing through the clinical treatment,
Prepare a library for the next-generation sequencing,
performing sequencing of the sample to obtain a read file of the sample included in the library;
Perform base calling from the sequenced read file,
sort the lead file;
pre-processing the aligned read file;
performing variant calling on the read file from the preprocessed read file;
A next-generation sequencing device for generating genetic data including the patient, the sample, the laboratory equipment used for the sample experiment, the analysis equipment used for the sample analysis, and data derived from the sample.
제 8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 환자의 이름, 상기 환자의 고유 식별자, 상기 환자의 생년월일, 상기 환자의 성별, 상기 환자의 인종, 상기 환자의 진단 정보, 상기 환자의 치료 정보 중 적어도 하나를 포함하는 상기 환자 정보를 기초로 상기 유전자 데이터를 형성하는 차세대 염기 서열 분석 장치.
9. The method of claim 8,
the at least one processor,
based on the patient information including at least one of the patient's name, the patient's unique identifier, the patient's date of birth, the patient's gender, the patient's race, the patient's diagnostic information, and the patient's treatment information A next-generation sequencing device that forms genetic data.
제 8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 시료의 획득 기관, 상기 시료를 샘플링 한 날짜, 상기 시료의 종류 중 적어도 하나를 포함하는 상기 시료 정보를 기초로 상기 유전자 데이터를 형성하는 차세대 염기 서열 분석 장치.
9. The method of claim 8,
the at least one processor,
A next-generation sequencing apparatus for forming the genetic data based on the sample information including at least one of an institution for obtaining the sample, a date the sample was sampled, and a type of the sample.
제 8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 시료 실험에 이용되는 실험 장비의 데이터 품질 관리 지표, 상기 실험 장비의 염기 검출(base calling) 정보, 상기 리드 서열의 심도, 상기 리드 서열의 참조 대립형질의 심도, 상기 리드 서열의 대체 대립형질의 심도, 상기 리드 서열의 대립 유전자 빈도, 상기 리드 서열의 유전자형, 상기 리드 서열의 시퀀싱 플랫폼 정보, 상기 리드 서열의 시퀀서 유형, 상기 리드 서열의 라이브러리 준비 기법, 상기 리드 서열의 타겟 캡쳐 방법, 상기 리드 서열의 유형, 상기 리드 서열의 길이 중 적어도 하나를 포함하는 상기 실험 장비 정보를 기초로 상기 유전자 데이터를 형성하는 차세대 염기 서열 분석 장치.
9. The method of claim 8,
the at least one processor,
Data quality control index of the experimental equipment used for the sample experiment, base calling information of the experimental equipment, the depth of the read sequence, the depth of the reference allele of the read sequence, the replacement allele of the read sequence Depth, allele frequency of the read sequence, genotype of the read sequence, sequencing platform information of the read sequence, sequencer type of the read sequence, library preparation technique of the read sequence, target capture method of the read sequence, the read sequence A next-generation sequencing device for forming the genetic data based on the experimental equipment information including at least one of the type of the read sequence and the length of the read sequence.
제 8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 리드 서열을 정렬하고, 정렬된 상기 리드 서열을 보정하고, 보정된 상기 리드 서열로부터 유전자 변이를 검출하고, 상기 검출된 유전자 변이에 주석을 매칭하여 상기 분석 장비 정보를 형성하고,
상기 분석 장비 정보를 기초로 상기 유전자 데이터를 형성하는 차세대 염기 서열 분석 장치.
9. The method of claim 8,
the at least one processor,
aligning the read sequence, correcting the aligned read sequence, detecting a genetic mutation from the corrected read sequence, and matching an annotation to the detected genetic mutation to form the analysis equipment information,
A next-generation nucleotide sequence analysis device that forms the genetic data based on the analysis equipment information.
제 8항에 있어서,
상기 적어도 하나의 프로세서는,
유전자 시퀀스 및 시퀀스 품질 점수를 포함하는 FASTQ, 유전자 시퀀스 정렬 지도(sequence alignment map, SAM), BAM(binary alignment map), CRAM, VCF, MAF 중 적어도 하나를 포함하는 파생 데이터를 기초로 상기 유전자 데이터를 형성하는 차세대 염기 서열 분석 장치.
9. The method of claim 8,
the at least one processor,
the genetic data based on derived data comprising at least one of a FASTQ comprising a gene sequence and a sequence quality score, a gene sequence alignment map (SAM), a binary alignment map (BAM), CRAM, VCF, MAF; Next-generation sequencing device to form.
제8 항에 있어서,
상기 적어도 하나의 프로세서는,
미리 결정된 복수의 방식 중 하나를 이용하여 상기 리드 파일 중 엑손 영역을 추출하여 선택적으로 배열하는 차세대 염기 서열 분석 장치.
9. The method of claim 8,
the at least one processor,
A next-generation sequencing apparatus for selectively arranging exon regions in the read file using one of a plurality of predetermined methods.
하드웨어인 컴퓨터와 결합되어,
환자에 대해 임상 처리 및 생체 검사를 포함하는 진단을 수행하는 단계;
상기 임상 처리를 통해 차세대 염기 서열 검사를 위한 시료를 획득하는 단계;
상기 차세대 염기 서열 검사를 위한 라이브러리를 준비하는 단계;
상기 라이브러리에 포함된 시료의 리드 서열을 획득하기 위한 상기 시료의 시퀀싱을 수행하는 단계;
시퀀싱된 상기 리드 서열로부터 염기 검출(base calling)을 수행하는 단계;
상기 리드 서열을 정렬하는 단계;
정렬된 상기 리드 서열을 전처리하는 단계;
전처리된 상기 리드 서열로부터 상기 리드 파일에 변이 검출(variant calling)을 수행하는 단계; 및
상기 환자, 상기 시료, 상기 시료 실험에 이용되는 실험 장비, 상기 시료 분석에 이용되는 분석 장비 및 상기 시료로부터 파생된 데이터를 포함하는 유전자 데이터를 형성하는 단계;를 실행시키기 위하여 매체에 저장된 차세대 염기 서열 분석 프로그램.
In combination with the computer, which is hardware,
performing a diagnosis, including clinical treatment and biopsy, on the patient;
obtaining a sample for next-generation sequencing through the clinical process;
preparing a library for the next-generation sequencing;
performing sequencing of the sample to obtain a read sequence of the sample included in the library;
performing base calling from the sequenced read sequence;
aligning the read sequences;
pre-processing the aligned read sequences;
performing variant calling on the read file from the preprocessed read sequence; and
The next-generation nucleotide sequence stored in the medium to execute; forming genetic data including the patient, the sample, the laboratory equipment used for the sample experiment, the analysis equipment used for the sample analysis, and data derived from the sample analysis program.
제 15항에 있어서,
상기 유전자 데이터는,
상기 환자의 이름, 상기 환자의 고유 식별자, 상기 환자의 생년월일, 상기 환자의 성별, 상기 환자의 인종, 상기 환자의 진단 정보, 상기 환자의 치료 정보 중 적어도 하나를 포함하는 상기 환자 정보를 포함하고,
상기 시료의 획득 기관, 상기 시료를 샘플링 한 날짜, 상기 시료의 종류 중 적어도 하나를 포함하는 상기 시료 정보를 포함하고,
상기 시료 실험에 이용되는 실험 장비의 데이터 품질 관리 지표, 상기 실험 장비의 염기 검출(base calling) 정보, 상기 리드 서열의 심도, 상기 리드 서열의 참조 대립형질의 심도, 상기 리드 서열의 대체 대립형질의 심도, 상기 리드 서열의 대립 유전자 빈도, 상기 리드 서열의 유전자형, 상기 리드 서열의 시퀀싱 플랫폼 정보, 상기 리드 서열의 시퀀서 유형, 상기 리드 서열의 라이브러리 준비 기법, 상기 리드 서열의 타겟 캡쳐 방법, 상기 리드 서열의 유형, 상기 리드 서열의 길이 중 적어도 하나를 포함하는 상기 실험 장비 정보를 포함하고,
상기 리드 서열을 정렬하고, 정렬된 상기 리드 서열을 보정하고, 보정된 상기 리드 서열로부터 유전자 변이를 검출하고, 상기 검출된 유전자 변이에 주석을 매칭하여 상기 분석 장비 정보를 포함하고,
유전자 시퀀스 및 시퀀스 품질 점수를 포함하는 FASTQ, 상기 유전자 시퀀스 정렬 지도(sequence alignment map, SAM), BAM(binary alignment map), CRAM, VCF, MAF 중 적어도 하나를 포함하는 파생 데이터를 포함하는 차세대 염기 서열 분석 프로그램.
16. The method of claim 15,
The genetic data is
the patient information including at least one of the patient's name, the patient's unique identifier, the patient's date of birth, the patient's gender, the patient's race, the patient's diagnostic information, and the patient's treatment information,
and the sample information including at least one of an institution acquiring the sample, a date the sample was sampled, and a type of the sample,
Data quality control index of the experimental equipment used for the sample experiment, base calling information of the experimental equipment, the depth of the read sequence, the depth of the reference allele of the read sequence, the replacement allele of the read sequence Depth, allele frequency of the read sequence, genotype of the read sequence, sequencing platform information of the read sequence, sequencer type of the read sequence, library preparation technique of the read sequence, target capture method of the read sequence, the read sequence and the experimental equipment information including at least one of the type of the read sequence and the length of the read sequence,
Aligning the read sequence, correcting the aligned read sequence, detecting a genetic mutation from the corrected read sequence, and matching the annotation to the detected genetic mutation to include the analysis equipment information,
Next-generation nucleotide sequence comprising at least one of FASTQ including gene sequence and sequence quality score, the gene sequence alignment map (SAM), binary alignment map (BAM), CRAM, VCF, and MAF analysis program.
KR1020210097573A 2020-12-15 2021-07-26 Next-generation sequencing method for sharing genetic data, next-generation sequencing device and next-generation sequencing program KR20220086458A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200175596 2020-12-15
KR1020200175596 2020-12-15

Publications (1)

Publication Number Publication Date
KR20220086458A true KR20220086458A (en) 2022-06-23

Family

ID=82221584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210097573A KR20220086458A (en) 2020-12-15 2021-07-26 Next-generation sequencing method for sharing genetic data, next-generation sequencing device and next-generation sequencing program

Country Status (1)

Country Link
KR (1) KR20220086458A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116348A (en) * 2023-02-07 2023-11-24 杭州联川基因诊断技术有限公司 Method, apparatus and medium for correcting mTag sequence of target sequencing data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101007926B1 (en) 2006-12-27 2011-01-12 (주)레퍼런스바이오랩 Data processing, analysis method of gene expression data to identify endogenous reference genes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101007926B1 (en) 2006-12-27 2011-01-12 (주)레퍼런스바이오랩 Data processing, analysis method of gene expression data to identify endogenous reference genes

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116348A (en) * 2023-02-07 2023-11-24 杭州联川基因诊断技术有限公司 Method, apparatus and medium for correcting mTag sequence of target sequencing data

Similar Documents

Publication Publication Date Title
JP7458360B2 (en) Systems and methods for detection and treatment of diseases exhibiting disease cell heterogeneity and communicating test results
US20210118559A1 (en) Artificial intelligence assisted precision medicine enhancements to standardized laboratory diagnostic testing
US20200258601A1 (en) Targeted-panel tumor mutational burden calculation systems and methods
CN106795558B (en) Detection of fetal sub-chromosomal aneuploidy and copy number variation
JP6420543B2 (en) Genome data processing method
JP6231654B2 (en) Systems and methods for analysis and reporting of disease-related human genome variants
KR20020075265A (en) Method for providing clinical diagnostic services
CN108138227A (en) Inhibit error in DNA fragmentation is sequenced using the redundancy read that (UMI) is indexed with unique molecular
JP2014508994A5 (en)
KR20190019219A (en) Noninvasive prenatal molecular karyotyping from maternal plasma
WO2012104764A2 (en) Method for estimation of information flow in biological networks
AU2010211246A1 (en) Automated system for the comparison of individual genome, transcriptome, proteome, epigenome, and metabolome data with data from bonemarrow donor registers and blood banks, umbilical cord blood banks, and tissue banks
KR20220086458A (en) Next-generation sequencing method for sharing genetic data, next-generation sequencing device and next-generation sequencing program
US20220375544A1 (en) Kit and method of using kit
US20230162815A1 (en) Methods and systems for accurate genotyping of repeat polymorphisms
Guevara‐Fujita et al. MLPA followed by target‐NGS to detect mutations in the dystrophin gene of Peruvian patients suspected of DMD/DMB
Han et al. Whole-genome sequencing analysis of suicide deaths integrating brain-regulatory eQTLs data to identify risk loci and genes
Billingsley et al. Genome-wide analysis of structural variants in Parkinson’s disease using short-read sequencing data
US20200082947A1 (en) Methods and Systems for Pedigree Enrichment and Family-Based Analyses Within Pedigrees
US20080268443A1 (en) Broad-based disease association from a gene transcript test
KR20210120782A (en) Construction method of customized variant-based reference data set
CN112837749B (en) Optimization method of gene chip probe for cancer screening
US20230289569A1 (en) Non-Transitory Computer Readable Medium, Information Processing Device, Information Processing Method, and Method for Generating Learning Model
Thapa Non-Invasive Prenatal Testing (NIPT) by DNA Sequencing Method
Sherman Discovering novel human structural variation from diverse populations and disease patients: an exploration of what human genomics misses by relying on reference-based analyses

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application