KR20190061771A - Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법 - Google Patents

Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법 Download PDF

Info

Publication number
KR20190061771A
KR20190061771A KR1020170160479A KR20170160479A KR20190061771A KR 20190061771 A KR20190061771 A KR 20190061771A KR 1020170160479 A KR1020170160479 A KR 1020170160479A KR 20170160479 A KR20170160479 A KR 20170160479A KR 20190061771 A KR20190061771 A KR 20190061771A
Authority
KR
South Korea
Prior art keywords
data
analysis
dielectric
genome
rna
Prior art date
Application number
KR1020170160479A
Other languages
English (en)
Inventor
강근수
한규동
문세영
손근홍
Original Assignee
단국대학교 천안캠퍼스 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 단국대학교 천안캠퍼스 산학협력단 filed Critical 단국대학교 천안캠퍼스 산학협력단
Priority to KR1020170160479A priority Critical patent/KR20190061771A/ko
Publication of KR20190061771A publication Critical patent/KR20190061771A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 차세대 염기서열 데이터를 이용한 유전체 분석 방법에 관한 것이다.
본 발명에 따르면, 유전체 분석 장치를 이용한 유전체 분석 방법에 있어서, 유전체 분석 방법은 사용자로부터 입력된 고유번호에 대응하는 압축 유전체 데이터를 수신하는 단계, 상기 압축 유전체 데이터를 이용하여 염기서열 분석 데이터를 생성한 후, 상기 염기서열 분석 데이터의 라이브러리 형식(library)에 따라 기 설정된 조건에 매칭되는 일부 데이터를 제거하여 전처리 유전체 데이터를 생성하는 단계, 상기 전처리 유전체 데이터에 대응하는 기 저장된 데이터 분석 기법을 선택하는 단계, 그리고 상기 선택된 데이터 분석 기법에 따라 상기 전처리 유전체 데이터를 분석하는 단계를 포함한다.
이와 같이 본 발명에 따르면, 일반 연구자가 쉽고 간편하게 사용 가능한 자동화 파이프 라인 개발을 통해 생명현상 연구에 어려움을 해소하고 차세대 염기서열을 쉽고 빠르게 분석함으로써 독자적인 분석 시스템을 구축할 뿐만 아니라 기존의 유전체 진단 연구 효율이 증가시킬 수 있다.

Description

GEO에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법{METHOD OF GENOME ANALYSIS USING PUBLIC NEXT-GENERATION SEQUENCING DATA IN THE GENE EXPRESSION OMNIBUS DATABASE}
본 발명은 차세대 염기서열 데이터를 이용한 유전체 분석 방법에 관한 것으로서, 더욱 상세하게는 차세대 염기서열을 쉽고 빠르게 분석함으로써 유전체 진단 연구 효율을 높이기 위한 차세대 염기서열 데이터를 이용한 유전체 분석 방법에 관한 것이다.
차세대 염기서열분석(Next-Generation Sequencing, NGS)은 유전체와 전사체를 무수히 많은 조각으로 분해하여 각 조각을 동시에 읽어낸 뒤, 조합함으로써 방대한 유전 정보를 빠르게 해독하는 방법이다. 차세대 염기서열 분석 기술이 개발된 후 현재까지 비약적으로 기술이 발전하였으며 유전체 연구 및 임상 진단 분야에서 보편적으로 활용되고 있다. 하나의 샘플에서 다양한 질병에 관련된 유전자 후보 군을 동시에 분석할 수 있어 유전체 분석을 통한 의학적 검사 및 분자 단위의 진단이 각광을 받고 있다.
이와 같은 차세대 염기서열 분석, 즉 NGS 기술의 장점은 적은 양의 샘플로 대량의 염기서열 분석이 가능하고 단시간에 수많은 유전정보를 취득할 수 있다는 점이다. 하지만 이렇게 생성된 빅데이터 유전정보를 정확하게 분석하기 위해서는 고도화된 생명정보학적 분석 기술들의 개발이 필요한 실정이다. 즉, 일반 연구자가 운용 가능한 컴퓨팅 프로세스를 통해서는 과량의 유전정보의 데이터를 효과적으로 처리할 수 없다는 단점이 있다. 또한 분석 과정이 여러 단계로 세분화 되어 있어서 정확한 분석 방법을 사전에 알고 있어야 하는 제약이 있다.
현재 차세대염기서열 분석을 활용한 임상 진단 검사 방법이 발전하고 있음에도 불구하고 생명정보학적 지식이 부족한 연구자가 이러한 NGS 데이터를 분석하기 위해서는 다양한 분석도구들을 사용하여야 하며 진단에 활용하기 위해서는 보다 체계화 되고 검증된 도구가 필요한 실정이다.
그리고 다양한 차세대염기서열 분석은 의학/생물학적 연구에 폭넓게 이용되고 있지만 생명정보학 분석의 적용은 매우 복잡하면서도 전문적인 수준을 필요로 하기 때문에 일반 연구자들이 직접적으로 활용 가능한 생명정보학 도구의 발전이 절대적으로 필요하다.
본 발명의 배경이 되는 기술은 한국공개특허 제10-2016-0051010호(2016.05.11.공개)에 개시되어 있다.
본 발명이 이루고자 하는 기술적 과제는 GENE EXPRESSION OMNIBUS 데이터베이스에 공개된 차세대 염기서열 및 개인에 의해 생성된 차세대 염기서열 데이터를 쉽고 빠르게 분석함으로써 유전체 진단 연구 효율을 높이기 위한 차세대 염기서열 데이터를 이용한 유전체 분석 방법을 제공하기 위한 것이다.
이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따르면 유전체 분석 장치를 이용한 유전체 분석 방법에 있어서, 유전체 분석 방법은 사용자로부터 입력된 미국립보건원 산하 NCBI gene expression omnibus 데이터베이스 등록된 고유번호에 대응하는 압축 유전체 데이터를 수신하는 단계, 상기 압축 유전체 데이터를 이용하여 염기서열 분석 데이터를 생성한 후, 상기 염기서열 분석 데이터의 라이브러리 형식(library)에 따라 기 설정된 조건에 매칭되는 일부 데이터를 제거하여 전처리 유전체 데이터를 생성하는 단계, 상기 전처리 유전체 데이터에 대응하는 기 저장된 데이터 분석 기법을 선택하는 단계, 그리고 상기 선택된 데이터 분석 기법에 따라 상기 전처리 유전체 데이터를 분석하는 단계를 포함한다.
상기 전처리 유전체 데이터를 생성하는 단계는, 상기 압축 유전체 데이터를 압축 해제하여 복수의 반복실험 데이터를 생성하는 단계, 상기 복수의 반복실험 데이터를 병합하여 하나의 염기서열 분석 데이터를 생성하는 단계, 상기 염기서열 분석 데이터의 라이브러리 형식을 검출하는 단계, 그리고 상기 검출된 라이브러리 형식 중 기 설정된 라이브러리 형식에 대응하는 신뢰성 판단 알고리즘을 통해 상기 염기서열 분석 데이터 중 기 설정된 신뢰도보다 낮은 데이터를 삭제하여 전처리 유전체 데이터를 생성하는 단계를 포함할 수 있다.
상기 압축 유전체 데이터를 수신하는 단계는, 사용자로부터 입력된 고유번호와 부합되는 염기서열 분석 데이터 및 개인 염기서열 분석 데이터를 수신하며, 상기 전처리 유전체 데이터를 생성하는 단계는, 염기서열 분석 데이터를 라이브러리 형식에 따라 기 설정된 조건에 매칭되는 데이터를 제거하여 전처리 유전체 데이터를 생성할 수 있다.
상기 데이터 타입은, DNA, RNA 및 CHIP 중 적어도 하나를 포함하고, 상기 데이터 분석 기법은, SNP calling 분석 기법, RNA-seq 분석 기법 및 ChIP-seq 분석 기법 중 적어도 하나를 포함할 수 있다.
상기 데이터 분석 기법을 선택하는 단계는, 상기 전처리 유전체 데이터의 데이터 타입을 검출하는 단계, 그리고 상기 검출된 데이터 타입에 매칭되는 데이터 분석 기법을 선택하는 단계를 포함하며, 상기 데이터 타입이 DNA이면 SNP calling 분석 기법을 선택하고, RNA이면 RNA-seq 분석 기법을 선택하며, CHIP이면 ChIP-seq 분석 기법을 선택할 수 있다.
이와 같이 본 발명에 따르면, 일반 연구자가 쉽고 간편하게 사용 가능한 자동화 파이프 라인 개발을 통해 생명현상 연구에 어려움을 해소하고 미국립보건원 산하 NCBI gene expression omnibus 데이터베이스 공개된 차세대 염기서열을 쉽고 빠르게 분석함으로써 독자적인 분석 시스템을 구축할 뿐만 아니라 기존의 유전체 진단 연구 효율이 증가시킬 수 있다.
도 1은 본 발명의 실시예에 따른 유전체 분석 장치의 구성도이다.
도 2는 본 발명의 실시예에 따른 유전체 분석 장치를 이용한 유전체 분석 방법의 순서도이다.
도 3은 도 2의 S220 단계를 상세하게 나타난 순서도이다.
도 4는 도 2의 S230 단계를 상세하게 나타낸 순서도이다.
도 5는 본 발명의 실시예에 따른 데이터 분석 기법에 따른 분석 과정을 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
우선 도 1을 통해 본 발명의 실시예에 따른 유전체 분석 장치에 대해 살펴보도록 한다.
도 1은 본 발명의 실시예에 따른 유전체 분석 장치의 구성도이다.
도 1에 나타난 바와 같이, 본 발명의 실시예에 따른 유전체 분석 장치(100)는 수신부(110), 생성부(120), 선택부(130) 및 분석부(140)를 포함한다.
우선 수신부(110)는 사용자로부터 입력된 고유번호에 대응하는 압축 유전체 데이터를 수신한다.
그리고 수신부(110)는 사용자로부터 입력된 개인 염기서열 분석 데이터를 수신한다.
다음으로 생성부(120)는 압축 유전체 데이터를 이용하여 염기서열 분석 데이터를 생성한 후, 염기서열 분석 데이터의 라이브러리 형식(library)에 따라 기 설정된 조건에 매칭되는 일부 데이터를 제거하여 전처리 유전체 데이터를 생성한다.
구체적으로 생성부(120)는 압축 유전체 데이터를 압축 해제하여 복수의 반복실험 데이터를 생성한다. 그리고 생성부(120)는 복수의 반복실험 데이터를 병합하여 하나의 염기서열 분석 데이터를 생성한다.
그러면 생성부(120)는 검출된 라이브러리 형식 중 기 설정된 라이브러리 형식에 대응하는 신뢰성 판단 알고리즘을 통해 염기서열 분석 데이터 중 기 설정된 신뢰도보다 낮은 데이터를 삭제하여 전처리 유전체 데이터를 생성한다.
한편 생성부(120)는 개인 염기서열 분석 데이터를 수신하는 경우, 상기 개인 염기서열 분석 데이터를 라이브러리 형식에 따라 기 설정된 조건에 매칭되는 데이터를 제거하여 전처리 유전체 데이터를 생성한다.
다음으로 선택부(130)는 전처리 유전체 데이터에 대응하는 기 저장된 데이터 분석 기법을 선택한다.
구체적으로 선택부(130)는 전처리 유전체 데이터의 데이터 타입을 검출한다. 이때 데이터 타입은DNA, RNA 및 CHIP 중 적어도 하나를 포함한다.
그리고 선택부(130)는 검출된 데이터 타입에 매칭되는 데이터 분석 기법을 선택한다. 이때 데이터 분석 기법은 SNP calling 분석 기법, RNA-seq 분석 기법 및 ChIP-seq 분석 기법 중 적어도 하나를 포함한다.
선택부(130)는 데이터 타입이 DNA이면 SNP calling 분석 기법을 선택하고, RNA이면 RNA-seq 분석 기법을 선택하며, CHIP이면 ChIP-seq 분석 기법을 선택한다.
다음으로 분석부(140)는 선택된 데이터 분석 기법에 따라 전처리 유전체 데이터를 분석한다.
이하에서는 도 2 내지 도 5를 통해 본 발명의 실시예에 따른 유전체 분석 장치를 이용한 유전체 분석 방법에 대해 살펴보도록 한다.
도 2는 본 발명의 실시예에 따른 유전체 분석 장치를 이용한 유전체 분석 방법의 순서도이다.
도 2에 나타난 바와 같이, 우선 수신부(110)는 사용자로부터 입력된 고유번호에 대응하는 압축 유전체 데이터를 수신한다(S210).
예를 들어, 사용자가 본 발명의 실시예에 따른 유전체 분석 장치(100)를 통해 고유번호를 입력하면, 본 발명의 실시예에 따른 유전체 분석 장치(100)는 압축 유전체 데이터가 저장된 서버로부터 고유번호에 대응하는 압축 유전체 데이터를 수신한다.
이때 압축 유전체 데이터 베이스는 미국립보건원 산하 NCBI gene expression omnibus 데이터베이스에 공개 등록된 데이터일 수 있다.
한편 수신부(110)는 입력된 고유번호에 대응하는 압축 유전체 데이터 이외에도 사용자로부터 입력된 개인 염기서열 분석 데이터를 수신할 수 있다. 즉 수신부(110)는 고유번호에 대응하는 압축 유전체 데이터 및 사용자로부터 입력된 개인 염기서열 분석 데이터 중 적어도 하나를 수신할 수 있다.
다음으로 생성부(120)는 압축 유전체 데이터를 이용하여 염기서열 분석 데이터를 생성한 후, 염기서열 분석 데이터의 라이브러리 형식(library)에 따라 기 설정된 조건에 매칭되는 일부 데이터를 제거하여 전처리 유전체 데이터를 생성한다(S220).
도 3은 도 2의 S220 단계를 상세하게 나타난 순서도이다.
도 3에 나타난 바와 같이, 먼저 생성부(120)는 압축 유전체 데이터를 압축 해제하여 복수의 반복실험 데이터를 생성한다(S221). 즉 압축 유전체 데이터에는 고유번호에 대응하는 2개 이상의 반복실험 데이터가 포함된다.
예를 들어 미국립보건원 산하 NCBI gene expression omnibus 데이터베이스에서 압축 유전체 데이터를 수신하는 경우, 생성부(120)는 NCBI의 Fastq-dump 알고리즘을 이용하여 압축 유전체 데이터의 압축을 해제할 수 있다.
그러면 생성부(120)는 복수의 반복실험 데이터를 병합하여 하나의 염기서열 분석 데이터를 생성한다(S222).
그리고 생성부(120)는 염기서열 분석 데이터의 라이브러리 형식을 검출한다(S223). 이때 라이브러리 형식은 paired-end read와 single-end read를 포함한다.
검출된 라이브러리 형식 중 기 설정된 라이브러리 형식에 대응하는 신뢰성 판단 알고리즘을 통해 염기서열 분석 데이터 중 기 설정된 신뢰도보다 낮은 데이터를 삭제하여 전처리 유전체 데이터를 생성한다(S224). 이때 신뢰성 판단 알고리즘은 Trim Galore 알고리즘을 포함한다.
한편 개인 염기서열 분석 데이터를 수신하는 경우, 생성부(120)는 압축 유전체 데이터를 압축 해제하는 S221 단계 및 복수의 반복실험 데이터를 병합하는 S222 단계를 수행하지 않을 수 있다. 따라서 생성부(120)는 라이브러리 형식을 검출하는 S223 단계 및 개인 염기서열 분석 데이터를 라이브러리 형식에 따라 기 설정된 조건에 매칭되는 데이터를 제거하여 전처리 유전체 데이터를 생성하는 단계를 수행한다.
다음으로 선택부(130)는 전처리 유전체 데이터에 대응하는 기 저장된 데이터 분석 기법을 선택한다(S230).
도 4는 도 2의 S230 단계를 상세하게 나타낸 순서도이다.
우선 선택부(130)는 전처리 유전체 데이터의 데이터 타입을 검출한다(S231). 이때 데이터 타입은 DNA, RNA 및 CHIP 중 적어도 하나를 포함한다.
그러면 선택부(130)는 검출된 데이터 타입에 매칭되는 데이터 분석 기법을 선택한다(S232). 이때 데이터 분석 기법은 SNP calling 분석 기법, RNA-seq 분석 기법 및 ChIP-seq 분석 기법 중 적어도 하나를 포함한다.
구체적으로 선택부(130)는 데이터 타입이 DNA이면 SNP calling 분석 기법을 선택하고, RNA이면 RNA-seq 분석 기법을 선택하며, CHIP이면 ChIP-seq 분석 기법을 선택한다.
다음으로 분석부(140)는 선택된 데이터 분석 기법에 따라 전처리 유전체 데이터를 분석한다(S240).
도 5는 본 발명의 실시예에 따른 데이터 분석 기법에 따른 분석 과정을 설명하기 위한 도면이다.
도 5에 나타난 바와 같이, 분석부(140)는 각 데이터 분석 기법에 따라 유전체 데이터의 염기서열 변이를 분석한다. 우선 SNP calling 분석 기법은 DNA 또는 RNA 조각들이 Genome의 어느 부위에서 유래했는지 알기 위해 생물의 각 종에 대해 정형화된 참조유전체서열 (Genome Reference)에 맵핑 과정을 진행하며, 이때 분석부(140)는 BWA 프로그램을 이용할 수 있다. 이후 분석부(140)는 Samtools 프로그램을 이용하여 데이터 정렬을 마치고 PCR 등의 실험을 통해 생긴 bias를 제거하기 위해 Sambamba 프로그램을 이용하여 복제된 염기 조각 (Duplicate fragments)를 제거한다. 분석부(140)는 필터링을 마친 데이터를 Strelka 프로그램의 입력으로 사용하여 염기서열 변이 결과를 출력한다.
다음으로 RNA-seq 분석 기법과 ChIP-seq 분석 기법은 아래와 같이 수행된다. RNA-seq과 ChIP-seq의 경우, 분석부(140)는 맵핑 과정에 HISAT2 프로그램을 이용할 수 있다. HISAT2 프로그램은 진핵 세포의 핵 속에서 유전자 발현에 의해 형성된 pre-mRNA의 필요 없는 부분을 제거하는 Splicing 현상을 고려하기 때문에 RNA-seq 분석에 사용 가능하며 Splicing을 고려하지 않아도 되는 ChIP-seq 분석에 또한 사용 가능하다.
이후 염기서열 변이 분석과 같이, 분석부(140)는 Samtools과 Sambamba 프로그램을 이용하여 데이터 정렬 및 필터링을 수행한다. 실험을 통한 현상을 눈으로 확인하기 위한 Visualization과정은 HOMER 프로그램을 이용한다. ChIP-seq 데이터 분석 경우 연구하고자 하는 단백질의 게놈상의 결합 부위를 알기 위해 Peak Calling과정을 수행하며 이 또한 분석부(140)는 HOMER 프로그램을 이용한다. RNA-seq 데이터 분석 경우 분석부(140)는 모든 유전자 및 기타 전사체에 대하여 발현 값 계산 및 정량화와 샘플 간 발현 값 비교 분석을 위해 Cufflinks 프로그램 내부의 Cuffquant, Cuffnorm, Cuffdiff 프로그램들을 사용한다.
각 분석 프로그램을 서로 연계되어 있으므로 특정 분석 프로그램 분석을 수행 후 생성된 데이터는 다른 프로그램의 입력으로 사용될 수 있다.
본 발명의 실시예에 따르면, 일반 연구자가 쉽고 간편하게 사용 가능한 자동화 파이프 라인 개발을 통해 생명현상 연구에 어려움을 해소하고 차세대 염기서열을 쉽고 빠르게 분석함으로써 독자적인 분석 시스템을 구축할 뿐만 아니라 기존의 유전체 진단 연구 효율이 증가시킬 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100 : 유전체 분석 장치 110 : 수신부
120 : 생성부 130 : 선택부
140 : 분석부

Claims (5)

  1. 유전체 분석 장치를 이용한 유전체 분석 방법에 있어서,
    사용자로부터 입력된 고유번호에 대응하는 압축 유전체 데이터를 수신하는 단계,
    상기 압축 유전체 데이터를 이용하여 염기서열 분석 데이터를 생성한 후, 상기 염기서열 분석 데이터의 라이브러리 형식(library)에 따라 기 설정된 조건에 매칭되는 일부 데이터를 제거하여 전처리 유전체 데이터를 생성하는 단계,
    상기 전처리 유전체 데이터에 대응하는 기 저장된 데이터 분석 기법을 선택하는 단계, 그리고
    상기 선택된 데이터 분석 기법에 따라 상기 전처리 유전체 데이터를 분석하는 단계를 포함하는 유전체 분석 방법.
  2. 제1항에 있어서,
    상기 전처리 유전체 데이터를 생성하는 단계는,
    상기 압축 유전체 데이터를 압축 해제하여 복수의 반복실험 데이터를 생성하는 단계,
    상기 복수의 반복실험 데이터를 병합하여 하나의 염기서열 분석 데이터를 생성하는 단계,
    상기 염기서열 분석 데이터의 라이브러리 형식을 검출하는 단계, 그리고
    상기 검출된 라이브러리 형식 중 기 설정된 라이브러리 형식에 대응하는 신뢰성 판단 알고리즘을 통해 상기 염기서열 분석 데이터 중 기 설정된 신뢰도보다 낮은 데이터를 삭제하여 전처리 유전체 데이터를 생성하는 단계를 포함하는 유전체 분석 방법.
  3. 제1항에 있어서,
    상기 압축 유전체 데이터를 수신하는 단계는,
    사용자로부터 입력된 개인 염기서열 분석 데이터를 더 수신하며
    상기 전처리 유전체 데이터를 생성하는 단계는,
    상기 개인 염기서열 분석 데이터를 수신하는 경우, 상기 개인 염기서열 분석 데이터를 라이브러리 형식에 따라 기 설정된 조건에 매칭되는 데이터를 일부 제거하여 전처리 유전체 데이터를 생성하는 유전체 분석 방법.
  4. 제1항에 있어서,
    상기 데이터 타입은,
    DNA, RNA 및 CHIP 중 적어도 하나를 포함하고,
    상기 데이터 분석 기법은,
    SNP calling 분석 기법, RNA-seq 분석 기법 및 ChIP-seq 분석 기법 중 적어도 하나를 포함하는 유전체 분석 방법.
  5. 제1항에 있어서,
    상기 데이터 분석 기법을 선택하는 단계는,
    상기 전처리 유전체 데이터의 데이터 타입을 검출하는 단계, 그리고
    상기 검출된 데이터 타입에 매칭되는 데이터 분석 기법을 선택하는 단계를 포함하며,
    상기 데이터 타입이 DNA이면 SNP calling 분석 기법을 선택하고, RNA이면 RNA-seq 분석 기법을 선택하며, CHIP이면 ChIP-seq 분석 기법을 선택하는 유전체 분석 방법.
KR1020170160479A 2017-11-28 2017-11-28 Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법 KR20190061771A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170160479A KR20190061771A (ko) 2017-11-28 2017-11-28 Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170160479A KR20190061771A (ko) 2017-11-28 2017-11-28 Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법

Publications (1)

Publication Number Publication Date
KR20190061771A true KR20190061771A (ko) 2019-06-05

Family

ID=66844886

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170160479A KR20190061771A (ko) 2017-11-28 2017-11-28 Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법

Country Status (1)

Country Link
KR (1) KR20190061771A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599192A (zh) * 2020-12-31 2021-04-02 杭州柏熠科技有限公司 基于纳米孔测序的新冠病毒全基因组分析系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599192A (zh) * 2020-12-31 2021-04-02 杭州柏熠科技有限公司 基于纳米孔测序的新冠病毒全基因组分析系统

Similar Documents

Publication Publication Date Title
US11837328B2 (en) Methods and systems for detecting sequence variants
US20220411881A1 (en) Methods and systems for identifying disease-induced mutations
US20210398616A1 (en) Methods and systems for aligning sequences in the presence of repeating elements
US20210280272A1 (en) Methods and systems for quantifying sequence alignment
US11211146B2 (en) Methods and systems for aligning sequences
AU2014324438B2 (en) Methods and system for detecting sequence variants
EP2923293B1 (en) Efficient comparison of polynucleotide sequences
KR20220109707A (ko) 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법
US7848890B2 (en) Method and system for predicting gene pathway using gene expression pattern data and protein interaction data
KR20190061771A (ko) Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법
Chong et al. SeqControl: process control for DNA sequencing
CN117672343B (zh) 测序饱和度评估方法及装置、设备及存储介质
US20220284986A1 (en) Systems and methods for identifying exon junctions from single reads
CN117672343A (zh) 测序饱和度评估方法及装置、设备及存储介质
Townsend December 2012 Biochem 218 A critical review of ChIP-seq enrichment analysis tools
Clarke Bioinformatics challenges of high-throughput SNP discovery and utilization in non-model organisms

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination