KR101798229B1 - 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법 - Google Patents

전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법 Download PDF

Info

Publication number
KR101798229B1
KR101798229B1 KR1020160180336A KR20160180336A KR101798229B1 KR 101798229 B1 KR101798229 B1 KR 101798229B1 KR 1020160180336 A KR1020160180336 A KR 1020160180336A KR 20160180336 A KR20160180336 A KR 20160180336A KR 101798229 B1 KR101798229 B1 KR 101798229B1
Authority
KR
South Korea
Prior art keywords
length
rdna
rrna
sequence
full
Prior art date
Application number
KR1020160180336A
Other languages
English (en)
Inventor
윤석환
김태욱
Original Assignee
주식회사 천랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 천랩 filed Critical 주식회사 천랩
Priority to KR1020160180336A priority Critical patent/KR101798229B1/ko
Application granted granted Critical
Publication of KR101798229B1 publication Critical patent/KR101798229B1/ko
Priority to US15/772,172 priority patent/US20190119717A1/en
Priority to PCT/KR2017/015377 priority patent/WO2018124661A1/ko
Priority to EP17886616.6A priority patent/EP3511847A4/en

Links

Images

Classifications

    • G06F19/24
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • G06F19/22
    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Toxicology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 전장 유전체 DNA 서열정보로부터 rRNA 서열 추출하는 단계, 상기 rRNA를 어셈블리하여 rDNA 콘티그 (contig)를 형성하는 단계; 및 상기 rDNA 콘티그 로부터 전장 16S rRNA를 추출하고 어셈블리 오류를 수정하는 단계를 포함하는, rRNA 서열 정보를 얻는 방법, 및 상기 rDNA 정보를 이용하여 미생물을 동정하는 방법에 관한 것이다.

Description

전장 리보솜 RNA 서열정보를 얻는 방법 및 상기 리보솜 RNA 서열정보를 이용하여 미생물을 동정하는 방법 {ribosomal RNA sequence extraction method and microorganism identification method using extracted ribosomal RNA sequence}
본 발명은 전장 리보솜 RNA 서열정보를 얻는 방법 및 상기 리보솜 RNA 서열정보를 이용하여 미생물을 동정하는 방법에 관한 것으로서, 구체적으로 NGS 리드로부터 리보좀 DNA (rDNA)의 서열정보를 추출하고, 상기 추출한 서열정보를 어셈블리하여 rDNA 콘티그 (contig)를 형성하고, 상기 rDNA 콘티그로부터 전장 rDNA 서열정보를 추출하고 어셈블리 오류를 수정하는 과정을 통해 전장 리보솜 RNA 서열정보를 얻는 방법에 관한 것이다.
전통적으로 특정 미생물의 동정에는 배지법 (culture method)이 이용되었으나, 지난 20여년간 배지를 이용하지 않는 동정이 가능한 분자생물학적인 기법들(culture-independent molecularbiology methods)이 많이 개발되었으며, 이 기술들은 미생물의 동정뿐만 아니라 다양한 환경에 서식하는 미생물의 다양성을 연구하는데 크게 기여하고 있다. 특히, Sanger 등(1977)이 개발한 염기서열분석법에 의하여 미생물 균총에 대한 초기 연구가 가능하게 되었다. Sanger법은 세균의 16S rRNA를 증폭한 후 이것을 클로닝하고 염기서열을 분석함으로써 미생물 균총을 확인할 수 있는 기술이다. 이 기술은 DNA의 염기서열을 밝히고 분자생물학의 발전에 크게 기여한 기술 이지만, 다양한 시료에서 얻은 많은 수의 유전자를 동시에 분석하기에는 많은 분석비용 및 시간 등 기술적 한계점을 가지고 있기 때문에 미생물 생태학을 연구하기에 어려움을 가지고 있었다. Sanger 방법은 많은 시간이 소요되고 동시에 분석할 수 있는 시료의 수에도 제한이 있다.
Sanger 방법을 대체하기 위해 차세대 염기서열 분석 기술이 연구되고 있다. 각각의 분석 방법은 분석된 염기서열의 길이, 처리량 등에 차이가 있으며 다양한 생명과학 분야에 널리 사용되고 있다.
이 때 분석에 사용되는 유전자는 세균과 고세균에서 리보솜 RNA (rRNA)의 소 단위체 (16S rRNA) 영역의 염기서열이 이용된다. 16S rRNA 유전자는 다른 유전자에 비해, 첫째, 변이가 적은 영역은 PCR 프라이머 디자인에 사용되며, 둘째, 변이가 많은 영역은 군집 구성원의 정확한 분류학적, 계통학적 동정을 할 수 있게 하고, 셋째, 분류군 사이의 수평적 유전자 전이(horizontalgene transfer)가 드물며, 넷째, 현재 광범위한 16S rRNA 염기서열 데이터가 데이터베이스로 축적되어 있어, 정확한 분류가 가능하므로 다양성 분석에 있어 많은 이점을 가지고 있다. 진균의 경우는 종식별 마커로서 18S rRNA 유전자나 ITS 영역(InternalTranscribed Spacer region)이 이용된다.
그러나, 다양한 차세대 염기서열 분석 기술은 대상 미생물의 전장 유전체 DNA로 부터 대용량의 염기서열 정보가 얻어지므로, 이들 염기서열 데이터 (sequence reads)를 모으고 (assembly), 특정 염기서열정보의 추출 및 추출된 염기서열 정보의 분석을 통해 분석하고자 하는 대상 유전자, 예를 들면 16S rRNA의 서열을 기존 데이터 풀에 적용하여 분석 대상 미생물의 동정을 하게 된다. 그러나, 상기 리드 데이터를 이용한 어셈블리 과정은, 대용량의 데이터, 복잡한 데이터 구조 및 처리 과정 등으로 매우 많은 시간이 소요될 뿐만 아니라, 어셈블리 과정의 효율성을 위해서 짧은 단편서열 (k-mer)로 조각내어 어셈블리하게 되고 이러한 알고리즘 상의 한계점으로 인해 일정 크기 이하의 단편서열 정보가 누락됨으로써 16S rRNA 유전자의 전체영역에 대한 정보를 얻기 어렵다는 문제점이 있다.
본 발명의 일예는 게놈 DNA 서열정보로부터 rDNA 서열을 추출, 및 어셈블리 (assembly) 하는 단계를 포함하는 염기서열 분석법을 이용한 전장 rRNA 서열정보, 예컨대 16S rRNA 서열정보를 얻는 방법을 제공하는 것이다.
본 발명의 또 다른 일예는 상기 전장 rRNA 서열정보, 예컨대 16S rRNA 서열정보를 16S rRNA 데이터베이스와 alignment하여 미생물을 동정하는 단계를 포함하는 전장 rRNA 서열정보, 예컨대 16S rRNA 서열정보를 이용하여 미생물을 동정하는 방법을 제공하는 것이다.
본 발명의 또 다른 예는 실험 시료에 대해 염기서열 분석법을 이용한 전장 rRNA 서열정보를 얻는 컴퓨터 판독 방법을 제공한다.
본 발명의 추가 일예는 실험 시료에 대해 염기서열 분석법을 이용한 전장 rRNA 서열정보를 얻는 방법을 실행시키기 위한 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에서 실행 가능한 프로그램(computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)을 제공하는 것이다.
본 발명의 일예는 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 얻어진 생물체의 전체 게놈 NGS 리드(read)를 제공하는 단계, 상기 NGS 리드로부터 리보좀 DNA (rDNA)의 서열정보를 1차 추출하는 단계; 상기 추출한 서열정보를 K-mer 7 내지 36값으로 어셈블리하여 rDNA 콘티그(contig)를 형성하는 단계; 및 상기 rDNA 콘티그로부터 전장 rDNA 서열정보를 2차 추출하는 단계를 포함하는 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 방법에 관한 것이다.
상기 rDNA는 16S rDNA, 23S rDNA, 또는 5S rDNA일 수 있으나, 이에 제한되는 것은 아니다. 상기 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 방법은 추가로 상기 2차 추출된 rDNA 서열정보의 어셈블리 오류를 수정하는 단계를 추가로 포함할 수 있다.
본 발명의 또 다른 일예는 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 단계, 및 상기 전장 리보솜 RNA 서열정보를 전장 리보솜 RNA 서열정보 분류학적 데이터베이스와 비교하여 미생물을 동정하는 단계를 포함하는, 전장 리보솜 RNA 서열정보 분석법을 이용한 미생물 동정 방법에 관한 것이다.
본 발명의 추가 일예는 염기서열 분석법을 이용한 전장 rRNA 서열정보를 얻는 단계를 포함하는, 염기서열 분석법을 이용한 전장 rRNA 서열정보 분석을 위한 컴퓨터 판독 방법에 관한 것이다.
본 발명의 추가 일예는 염기서열 분석법을 이용한 전장 rRNA 서열정보를 얻는 단계를 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 저장 매체에 관한 것이다.
이하, 본 발명을 더욱 자세히 설명하고자 한다.
본 발명은 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 얻어진 생물체의 전체 게놈 NGS 리드(read)를 제공하고, 상기 NGS 리드로부터 리보좀 DNA(rDNA)의 서열정보를 추출하는 단계; 상기 추출한 서열정보를 K-mer값이 7 내지 36으로 어셈블리하여 rDNA 콘티그(contig)를 형성하는 단계; 및 상기 rDNA 콘티그로부터 전장 rDNA 서열정보를 추출하는 단계를 포함하는, 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 방법에 관한 것이다.
상기 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 방법은 추가로 상기 2차 추출된 rDNA 서열정보의 어셈블리 오류를 수정하는 단계를 추가로 포함할 수 있다.
본 발명에 따른 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 얻어진 생물체의 전체 게놈 NGS 리드(read)를 제공하는 단계는, 대용량 병렬형 서열서열 분석법(massively parallel DNA sequencing)은 유전체 DNA를 무수히 많은 조각으로 나눈 뒤 각 조각의 염기서열 데이터를 얻고, 다양한 생물 정보학적 기법을 이용하여 상기 조각의 염기서열 데이터를 조합하여 유전체를 해독하는 분석방법이다.
종래의 rRNA 서열정보를 얻는 방법은, 모든 유전자의 정보가 포함된 유전체 (Genome) 전체를 de novo 게놈 어셈블리를 수행한 후 얻은 데이터에서 16S rRNA 서열로 추정되는 영역을 추출하여 전장 16S rRNA를 얻는 방법이 알려져 있었다. 종래기술에서는 de novo 게놈 어셈블리 과정 및 전장 rRNA를 추출하는 과정에서 rRNA의 염기서열이 일부 손실이 있어 정확한 전장 rRNA 서열정보를 얻지 못하거나 rRNA 유전자의 일부만을 포함한 짧은 길이의 rRNA 서열정보를 얻게 되고 따라서 미생물 동정 결과의 오류가 빈번하다는 문제점이 있다.
이에, 본 발명은 rRNA 유전자의 모든 영역을 포함하는 정확한 전장 16S rRNA 유전자 서열을 추출하기 위해서, 유전체 어셈블리를 수행한 후 얻은 데이터에서 16S rRNA 서열의 조각들을 추출하지 않고, 유전체 염기서열 데이터로부터 rRNA 유전자 서열을 포함하는 리드 (read, 조각)들을 먼저 추출하고 추출한 리드들을 사용하여 어셈블리를 수행하는 방법이다.
종래에는 de novo 게놈 어셈블리를 수행한 후 얻은 데이터에서 16S rRNA 서열정보의 영역을 추출하여 전장 16S rRNA를 얻는 방법에 비해, 본 발명에 따른 전장 16S rRNA 서열정보를 얻는 방법은, 전장 16S rRNA가 추출된 시료 수, 16S rRNA 서열의 추출 완전성, 전장 16S rRNA 가 추출된 시료의 비율 및 어셈블리 단계에서 누락되는 16s rRNA 서열정보 측면에서 모두 우수한 효과를 나타낸다.
본 발명에 따른 염기서열 분석법을 이용한 전장 16S rRNA 서열정보를 얻는 방법을 각 단계별로 자세히 설명하고자 한다.
본 발명에 따른 염기서열 분석법에서, 먼저 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 얻어진 생물체의 전체 게놈 NGS 리드(read)를 제공하는 단계를 수행할 수 있다.
본 발명에서, 생물체의 전체 게놈 NGS 리드(read)는 예컨대, 차세대 서열 분석법 중 대규모 병렬형 염기 서열 분석 방법에 의하여 얻어진 것일 수 있으며, 차세대 서열 분석 방법을 이용하여 서열정보를 얻을 수 있다. 이 경우, 상기 서열정보는 폴리뉴클레오타이드 단편은 차세대 염기서열 분석에 사용되는 리드 (read)이며, 상기 폴리뉴클레오타이드 단편 수는 리드 수 (read count) 또는 리드 깊이 (read depth)이며, 상기 평균 폴리뉴클레오타이드 단편 수는 평균 리드 수일 수 있다.
용어, "대규모 병렬 염기서열분석 (massively parallel sequencing)"은 하나의 유전체 (genome)를 무수히 많은 폴리뉴클레오타이드 단편 (리드)으로 랜덤하게 분해하여 각 조각의 서열을 동시에 읽어낸 뒤, 이렇게 얻은 서열 데이터를 생물 정보학적 기법 (bioinformatics)을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하는 염기서열 분석 방법을 총칭한다.
상기 차세대 염기서열 분석법은, 예컨대 454 플랫폼 (platform) (Margulies, 등, Nature (2005) 437:376~380), Illumina Genome Analyzer (또는 Solexa™ platform), Illumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, 또는 SOLiD (Applied Biosystems) 또는 Helicos True Single Molecule DNA 서열분석 기술 (Harris, 등, Science (2008) 320:106~109), Pacific Biosciences의 단일 분자, 및/또는 실시간(SMRT™) 기술 등에 의하여 수행될 수 있다. 또한 나노포어 서열 분석 (Soni and Meller, Clin Chem (2007) 53:1996~2001) 상에서 가능한 대규모 병렬 염기서열분석은 표본으로부터 분리된 많은 핵산 분자들의 서열분석을 병렬 방식의 높은 차수의 멀티플렉싱(multiplexing)으로 가능하게 한다 (Dear, Brief Funct Genomic Proteomic (2003) 1:397~416). 이들 플랫폼들 각각은 핵산 단편들의 클론적으로 확장된 또는 증폭되지 않은 단일 분자들을 서열화한다. 상업적으로 입수 가능한 서열분석 기기를 사용하여 폴리뉴클레오타이드 단편들의 서열정보를 수득할 수 있다. 이 외에도 상기 서열 분석이 다른 다양한 공지된 서열분석 방법들 및 또는 이들의 변형 방법들에 의하여 수행될 수 있다.
상기 시료의 전체 게놈 DNA의 서열정보는 시료의 유전정보를 차세대 서열 분석법을 활용하여 직접 분석할 수도 있고, 또는 컴퓨터 저장 매체에 저장된 유전정보일 수도 있다. National Center for Biotechnology Information (NCBI)의 Sequence Read Archive (SRA)에서 임의로 bacteria genome을 검색하여 다운로드 받을 수 있으며, SRA accession과 SRA toolkit 프로그램을 사용하여 다운로드가 가능할 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 서열분석으로 얻고자 하는 rRNA (ribosomal RNA)는 16S rDNA, 5S rDNA, 또는 23S rDNA일 수 있다. 16S rRNA는 원핵생물 리보솜의 30S 소단위체를 구성하고 있는 rRNA로, 1,500 뉴클레오타이드 정도의 길이를 갖는 것으로 알려져 있으며, 특히 미생물의 16S rRNA 유전자의 염기 서열은 원핵생물 사이에서 유사성을 지니고 있으며 각각의 박테리아에 대해 특이적인 염기 서열 부분이 존재하여, 미생물의 동정에 활용될 수 있음이 알려져있다.
본 발명의 일예에 따른 염기서열 분석법에서, 상기 NGS 리드로부터 리보좀 DNA(rDNA)의 서열정보를 추출하는 단계 (calling step)를 수행할 수 있다.
본 발명은 rRNA 유전자의 모든 영역을 포함하는 정확한 전장 rRNA 유전자 서열을 추출하기 위해서, 유전체 어셈블리를 수행한 후 얻은 데이터에서 16S rRNA 서열의 조각들을 추출하지 않고, 유전체 염기서열 데이터로부터 rRNA 유전자 서열을 포함하는 리드 (read, 조각)들을 먼저 추출하고 추출한 리드들을 사용하여 어셈블리를 수행하는 방법이다. 종래에는 de novo 게놈 어셈블리를 수행한 후 얻은 데이터에서 rRNA 서열정보의 영역을 추출하여 전장 rRNA를 얻는 방법에 비해, 본 발명에 따른 전장 rRNA 서열정보를 얻는 방법은, 전장 rRNA가 추출된 시료 수, rRNA 서열의 추출 완전성, 전장 rRNA 가 추출된 시료의 비율 및 어셈블리 단계에서 누락되는 rRNA 서열정보 측면에서 모두 우수한 효과를 나타낸다.
상기 rDNA의 서열을 추출하는 프로그램은 CMsearch, Hmmsearch, BLAST 및 Usearch으로 이루어진 군에서 선택된 1종 이상일 수 있으며, 바람직하게는 CMsearch, Hmmsearch, BLAST 프로그램일 수 있다. 추출방식에는 rRNA 서열정보를 포함하는 리드 전체를 추출할 수 있고 리드내의 rRNA 영역만을 잘라내어 추출할 수도 있으며, 바람직하게는 상기 추출 단계에서는 rRNA 서열정보를 포함하는 리드 전체를 추출한다.
상기 추출한 리드는, 16S rRNA을 기준으로 살펴보면, 각각의 프로그램으로부터 E-value 1x10-20 (1e-20) 이하의 값으로 16S rRNA 서열정보 또는 16S rRNA 서열 데이터베이스에 Hiddem markov model 또는 Covariance Model을 적용하여 얻어진 서열 패턴정보와 유의미하게 유사한 영역을 가지고 있는 서열이며 어셈블리에 사용될 K-mer 수치 이상의 길이를 가지고 있는 리드만을 포함할 수 있다.
본 발명의 일예에 따른 염기서열 분석법에서, 상기 rRNA 리드를 추출한 후에, 추출한 서열정보를 K-mer값이 7 내지 36값으로 어셈블리하여 rDNA 콘티그(contig)를 형성하는 단계를 수행할 수 있다.
종래에는 de novo 게놈 어셈블리를 수행한 후 얻은 데이터에서 rRNA 서열정보의 영역을 추출하여 전장 rRNA를 얻는 방법에 비해, 유전체 염기서열 데이터로부터 rRNA 유전자 서열을 포함하는 리드 (read, 조각)들을 먼저 추출하고 추출한 리드들을 사용하여 어셈블리를 수행하는 방법이다. 본 발명에 따른 방법에 따라 rRNA 유전자의 모든 영역을 포함하는 정확한 전장 rRNA 유전자 서열을 얻을 수 있다. 본 발명에 따른 염기서열 분석법을 수행하는 경우, 전체 유전체 서열을 de novo 게놈 어셈블리로 얻어진 콘티그에 비해서, rRNA를 추출한 이후에 어셈블리를 수행하여 콘티그의 크기가 짧을 뿐만 아니라 개수가 적을 수 있다. 예를 들면, 본 발명에 따라 얻어지는 콘티그는 100 내지 3000bp, 바람직하게는 200 내지 2000bp의 크기일 수 있으며, 개수는 20개 미만, 예를 들면 1 내지 20개일 수 있다.
예를 들면, 종래에 전체 유전제를 먼저 de novo 게놈 어셈블리를 수행하는 경우, 200bp 이하를 버리는 부분은 동일하게 적용되거나 또는 500bp 이하를 버리기도 하며 최대 길이는 미생물 전장 유전체 사이즈보다는 작으며 일반적으로 수만 ~ 수십만 bp 정도의 contig들이 생성되게 된다.
rRNA를 어셈블리 (assembly)하여 형성된 DNA 콘티그 (contig)는 중복되면서 연속하는 클론화 DNA의 집합체를 말한다. 본 명세서에서는 중복되면서 연속하는 데이터 세트를 얻을 수 있는데, 이러한 데이터 세트를 콘티그라고 부른다.
상기 콘티그를 형성하는 단계에서는 RNA 서열 어셈블리 (assembly) 전용 프로그램을 사용할 수 있으며, 상기 RNA 서열 어셈블리 (assembly) 전용 프로그램은 Rockhopper일 수 있으나, 이에 제한되는 것은 아니다. 또한, RNA 서열 어셈블리 전용 프로그램이란, RNA 서열에 대응하는 DNA 단편들을 어셈블리하기 위해 사용되는 프로그램을 의미할 수 있다.
상기 RNA 서열 어셈블리 전용 프로그램의 어셈블리 알고리즘은 종래 NGS raw data로부터 게놈을 de novo 어셈블리하기 위한 프로그램들 (SPAdes, Velvet, SOAPdenovo 등)과 다음과 같은 점에 차이가 있다. 종래 NGS raw data로부터 De novo 게놈 어셈블리하기 위한 프로그램들 (예, SPAdes, Velvet, SOAPdenovo 등)의 경우 De Bruijn 그래프 알고리즘을 일반적으로 사용한다. 상기 De Bruijn 그래프 알고리즘은 K-mer 길이에 의존하여 결과물의 변동이 매우 심한 방법으로 전장 유전체에 가까운 콘티그를 얻기 위한 K-mer size와 16S rRNA 전장 유전자를 얻기 위한 K-mer parameter가 다를 수 있다. 통상 de novo 게놈 어셈블리에서는 repeat 서열 부분에 대한 어셈블리 정확도를 높이기 위해, 예를 들면 비교적 높은 K-mer 값 (SPAdes=127)을 사용하게 된다.
상기 용어 'k-mer'는 일반적으로 문자열에 포함된 k 길이 (하위 서열)의 가능한 모든 하위 문자열을 나타낸다. 유전체학에서, k-mer는 DNA 염기 서열 분석을 통해 얻어진 서열정보로부터 가능한 모든 길이의 하위 서열 (k 길이)을 의미한다. L 길이의 문자열이 주어진 경우 가능한 k-mer의 양은 L-K+1이지만, n 개의 가능성 (DNA의 경우 4 (ACTG))이 주어진 k-mer의 가능한 숫자는 nk이다. K-mer는 일반적으로 서열 어셈블리 (sequence assembly) 과정에서 사용되지만, 서열 정렬 (sequence alignment)에서도 사용될 수 있다.
k-mer 길이 또는 크기의 선택은 서열 어셈블리에 많은 영향을 미치고, 상기 영향은 길이가 작은 k-mer와 길이가 긴 k-mer에서 서로 상당히 다름이 하기와 같이 알려져 있다. K-mer 길이가 작을수록 그래프에 저장된 모서리의 양이 감소하므로, DNA 서열을 저장하는 데 필요한 공간을 줄이는 데 도움이 된다. 다만, k-mer 길이가 작으면 모든 k-mer들이 겹쳐질 확률이 높아지므로 de Bruijn 그래프를 구성하기 위해서 하위 서열이 필요하게 된다. 그러나 길이가 작은 k-mer를 사용하면 그래프에 많은 정점이 하나의 k-mer로 이어질 가능성이 높아지고, 이로 인해서 통과해야 할 정점 (vertex)수가 많아 경로 모호성이 높아지게 되어 유전체 재구성이 어려워질 수 있다는 문제점이 존재한다. 또한, k-mer 값이 작아짐에 따라 정보 손실이 증가한다는 문제점이 존재한다. 또한, k-mer 값이 작아짐에 따라 작은 microsatellites 또는 반복서열이 존재하는 DNA를 분석할 수 없다는 문제점이 존재한다. k-mer 값이 작아짐에 따라서 반복서열 내에 k-mer가 존재하는 경향이 증가하고, 따라서 실제로 반복이 존재하는 양을 결정하기 어렵기 때문이다.
그러나, K-mer 길이가 커질수록 그래프에서 모서리의 양이 늘어나 DNA 서열을 저장하는 데 필요한 메모리 양이 증가하게 된다. 또한, k-mer 길이를 늘리면 그래프에서 통과하는 경로가 줄어들어 정점의 수가 감소되고, 따라서 유전체 재구성이 보다 수월해 질 수 있다는 장점이 있다. 또한, k-mer 값이 높아질수록 k-1만큼 다른 k-mer와 겹치지 않을 위험성을 증가시키기 때문에 모든 k-mer에서 바깥쪽에 정점을 가지지 않을 위험이 더 높게 된다. 이로 인해서, 리드의 분리가 유발될 수 있고, 더 작은 크기의 콘티그가 생성될 수 있다는 가능성이 증가하는 문제점이 존재한다. K-mer 길이가 길어질수록 k-mer가 반복 서열 영역과 인접한 DNA 서열 사이의 균형을 포함하고 있기 때문에 상기 작은 반복 서열의 서열분석과정에서 발생하는 문제점의 해결이 용이해지는 장점이 있다.
따라서, 상기 K-mer수치의 크기에 따른 어셈블리에 영향을 미치기 때문에, de novo 유전체 어셈블리 프로그램의 경우 비교적 높은 K-mer를 적용하여 수행하고 있다(예, K-mer=127).
de novo 유전체 어셈블리 프로그램과 달리, RNA 서열 어셈블리 전용 프로그램, 예를 들면 RNA 어셈블러인 Rockhopper의 경우 De Bruijn 그래프 알고리즘과 함께 주로 mapping에 사용되는 Burrow-wheeler indexing 기법을 사용하여 어셈블리 대상이 되는 K-mer 후보군에 대해 필터링을 추가로 수행한다는 점에서 기존의 게놈 De novo 어셈블리 알고리즘과 차이를 보인다. 예를 들면 Rockhopper 프로그램의 경우 K-mer=25를 사용하며, 이미 16S rRNA를 추출한 이후에 어셈블리 과정을 수행하므로, K-mer 값이 낮은 경우 De novo 게놈 어셈블리 방법에서 반복 서열로 인한 낮은 어셈블리 정확성의 문제가 없다는 장점이 있다.
이에, 본 발명의 일예에서, rRNA를 추출한 이후에 수행되는 어셈블리 과정에서 K-mer값이 7 내지 36범위일 수 있다.
상기 rDNA 콘티그로부터 전장 rDNA 서열정보를 추출하고 어셈블리 오류를 수정하는 단계를 수행할 수 있다.
상기 rDNA 콘티그로부터 전장 rDNA 서열정보를 추출하고 어셈블리 오류를 수정하는 단계에서는 반복된 서열의 어셈블리 결과로 인해 발생할 수 있는 유전자 끝부분의 추가 및 반복 서열 부분을 제외시키기 위해 리드내의 16S rRNA 영역만을 잘라내어 추출하는 방법을 사용한다.
상기 어셈블리 오류는 염기서열 오류, 가짜 갭(false gap), 종렬중복(tandem repeat) 오류, 단일중합체(monopolymer) 오류 또는 단일염기 다형성(SNP) 오류인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.
상기 rDNA 콘티그로부터 전장 rDNA 서열정보를 추출하고 어셈블리 오류를 수정하는 단계는 NGS 리드로부터 리보좀 DNA(rDNA)의 서열정보를 추출하는 단계시 사용한 프로그램을 사용할 수 있으며, 예를 들면 CMsearch, Hmmsearch, BLAST, 및 Usearch으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 또 다른 일예는 상기 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 단계, 및 상기 전장 리보솜 RNA 서열정보를 전장 리보솜 RNA 분류학적 데이터베이스와 비교하여 미생물을 동정하는 단계를 포함하는, 전장 리보솜 RNA 서열정보 분석법을 이용한 미생물 동정 방법을 제공한다.
상기 전장 리보솜 RNA 서열정보를 전장 리보솜 RNA 분류학적 데이터베이스와 비교하여 미생물을 동정하는 단계는 전장 리보솜 RNA 분류학적 데이터베이스와 alignment하여 미생물을 동정하는 것일 수 있으나, 이에 제한되는 것은 아니다. 상기 전장 리보솜 RNA 분류학적 데이터베이스는 National Center for Biotechnology Information (NCBI)의 Nucleotide Database, EzBioCloud (http://www.ezbiocloud.net/), Greengenes (http://greengenes.lbl.gov/), SILVA (https://www.arb-silva.de/), 및 RDP Database (https://rdp.cme.msu.edu/) 에서 검색하여 다운로드 받을 수 있으나 이에 제한되는 것은 아니다.
상기 전장 리보솜 RNA 분류학적 데이터베이스와 alignment하여 미생물을 동정하는 과정은 추출된 전장 리보솜 RNA 서열정보를 이미 알려진 미생물의 전장 리보솜 RNA 서열 데이터베이스와 NCBI BLAST 프로그램을 이용하여 유사한 서열들을 찾고 찾아낸 서열들과 Pairwise Alignment를 통해 가장 유사도가 높은 미생물 종으로 해당 미생물을 판단하는 것을 통해 수행될 수 있으나, 이에 제한되는 것은 아니다.
한편, 본 발명은 상기 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 단계를 포함하는, 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보 분석을 위한 컴퓨터 판독 방법을 제공한다.
상기 컴퓨터 판독 방법은 본 명세서에 기재된 방법을 수행하기 위해서 상기 기재된 각 단계를 실행시킬 수 있도록 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 이용하여 컴퓨터상에서 데이터를 분석하는 것을 의미할 수 있으나, 반드시 이에 제한되는 것은 아니다.
본 명세서에 기재된 방법 및 정보는 상기 기재된 단계를 실행시킬 수 있는 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 하드웨어와 결합된 것일 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 상기 단계를 컴퓨터에서 실행시키기 위한 프로그램이며, 이 때 상기한 모든 단계가 하나의 프로그램에 의하여 실행되거나, 하나 이상의 단계를 실행하는 두 개 이상의 프로그램에 의하여 실행될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 프로그램 또는 소프트웨어는, 예컨대, 전화선, 인터넷, 무선 접속 등과 같은 통신 채널 상에서, 또는 컴퓨터 판독 가능한 디스크, 플래쉬 드라이브 등과 같은, 휴대용 매체(transportable medium)를 통한 것을 포함하는 모든 공지된 전달 방법을 통하여 컴퓨터 장치에 전달될 수 있다.
또한, 다른 예는 상기 방법의 단계를 실행시키기 위한 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 단계를 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 저장 매체 (또는 기록 매체)를 제공한다.
상기 컴퓨터 판독 가능한 프로그램을 기록한 저장 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다.
컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 예를 들면, 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리(e.g., USB 메모리, SD 메모리, SSD, CF 메모리, xD 메모리 등), 자기 디스크, 레이저디스크, 또는 기타 메모리, CD-ROM, DVD(digital versatile disk) 또는 기타 광학적 디스크, 자기 카세트(magnetic cassette), 자기테이프, 자기 디스크 저장 또는 기타 자기 저장 장치, 또는 원하는 정보를 저장하기 위해 이용될 수 있고 컴퓨터에 의해 접근 가능한 모든 매체들 중에서 하나 이상 선택될 수 있으나, 이에 제한되지 않는다.
통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. 예컨대, 상기 통신 매체는 유선 네트워크 또는 직접-유선 연결 (direct-wired connection)과 같은 유선 매체, 및 음향 (acoustic) 매체, RF, 적외선 및 기타 무선 매체와 같은 무선 매체들 중에서 하나 이상 선택될 수 있다.
상기한 매체들 중 하나 이상의 조합도 컴퓨터 판독 가능한 매체의 범위 내에 포함될 수 있다. 본 발명의 일예에 따른 컴퓨터 판독가능 매체의 예는 도 3에 도시하였으며, 예를 들면 컴퓨터 시스템 (500)의 일 구성요소로서, 상기 컴퓨터 시스템은 하나 이상의 프로세서 (510), 하나 이상의 컴퓨터 판독가능 저장 매체 (530) 및 메모리 (520)을 포함할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.
본 발명은 NGS 리드로부터 리보좀 DNA (rDNA)의 서열정보를 추출하고, 상기 추출한 서열정보를 어셈블리하여 rDNA 콘티그 (contig)를 형성하고, 상기 rDNA 콘티그로부터 전장 rDNA 서열정보를 추출하고 어셈블리 오류를 수정하는 단계를 통해 전장 rRNA 서열정보를 얻는 방법에 관한 것으로서, 본 발명의 방법으로 얻은 전장 16S rRNA 서열정보를 이용하여 미생물의 동정이 가능하다.
도 1은 16S rRNA 전체 서열을 추출하는 종래기술의 방법과 본 발명의 실시예에 의한 방법을 비교한 그림이다.
도 2는 종래기술의 방법과 본 발명의 실시예에 의한 방법을 사용하여 16S rRNA 전체 서열이 추출된 샘플의 숫자를 나타내는 그림으로서,'New'는 본 발명의 실시예에 의한 방법, 'Old'는 종래기술의 방법, 'Both'는 종래기술 및 본 발명의 방법 모두, 'New only'는 본 발명의 일 실시예에 의한 방법에서만 16S rRNA 전체 서열이 추출된 경우를 나타낸 그림이다.
도 3은 본 발명의 일예에 따른 컴퓨터 판독가능 매체의 예를 도시한 것이다.
이하 본 발명을 실시예를 통하여 더욱 상세히 설명한다. 그러나, 이들 실시예는 본 발명을 예시하기 위한 것으로, 본 발명을 제한하는 것으로 해석되어서는 아니 된다.
< 비교예 1> 전체 16S rRNA 서열의 추출방법
215개의 미생물 시료에 대하여 NGS (Next Generation Sequencing) raw data를 얻었다. NGS raw data는 National Center for Biotechnology Information (NCBI)의 Sequence Read Archive (SRA)에서 임의로 bacteria genome을 검색하여 다운로드 받았으며, SRA accession과 SRA toolkit 프로그램을 사용하여 다운로드 가 가능하다.
상기 미생물의 전체 NGS raw data에 대하여 SPAdes genome assembler 프로그램을 이용하여 어셈블리 (assembly)를 수행하여, DNA contig을 얻었다.
상기 얻어진 DNA contig로 부터 CMsearch 프로그램을 사용하여 16S rRNA 서열을 추출하였다. <Parameter: E-value cutoff : 1e-20, Search space size : 700Mb>
<실시예 1> 전체 16S rRNA 서열의 추출방법
비교예 1에서 NGS raw data를 어셈블리 (assembly)하고 16S rRNA 전체 서열을 추출한 것과는 달리, 실시예 1은 NGS raw data에 대해 16S rRNA를 CMsearch 프로그램을 사용하여 1차로 추출하고 1차로 추출된 16S rRNA를 어셈블리 (assembly)하고, CMsearch 프로그램을 사용하여 2차로 16S rRNA 전체 서열을 추출하였다.
구체적으로, 215개의 미생물 시료에 대하여 NGS (Next Generation Sequencing) raw data를 얻었다. NGS raw data는 National Center for Biotechnology Information (NCBI)의 Sequence Read Archive (SRA)에서 임의로 bacteria genome을 검색하여 다운로드 받았으며, SRA accession과 SRA toolkit 프로그램을 사용하여 다운로드가 가능하다.
CMsearch 프로그램을 사용하여, 16S rRNA 서열정보를 포함하는 리드 전체를 추출하는 방식으로 상기 NGS raw data로부터 16S rRNA 서열을 추출하였다 (1차 16S rRNA 서열의 추출). <Parameter: E-value cutoff : 1e-20>
상기 추출된 16S rRNA 서열에 대하여 RNA assembler 프로그램인 Rockhopper 를 사용하여 어셈블리 (assembly)를 수행하였다. <Parameter : mismatch allow : 0.5, minimum length : 1, minimum length denovo : 50, minimum count of k-mer : 1>
상기 어셈블리 (assembly)를 수행한 후 CMsearch 프로그램을 사용하여, 리드내의 16S rRNA 서열정보만을 잘라내어 추출하는 방식으로 2차로 16S rRNA 전체 서열을 추출하였다 (2차 16S rRNA 서열의 추출). <Parameter : E-value cutoff : 1e-20>1
< 실험예 1> 전장 16S rRNA 가 추출된 시료 수 분석
215개의 테스트 데이터 중 비교예 1과 실시예 1의 방법을 통해 전장 16S rRNA가 추출된 sample 수를 나타낸다. 상기 분석결과를 하기 표 1와 도 2에 나타냈다. 구체적으로, 총 215개의 미생물 샘플에 대하여 비교예 1과 실시예 1의 방법을 사용하여 16S rRNA 서열을 추출하고, 전체서열이 추출되었는지 여부를 판단하여 결과를 분석하였다. 상기 분석결과를 표 1 및 도 2에 나타냈다.
추출방법 completeness 샘플수(퍼센트) Average completeness
실시예 1 0.9이상 210 samples (97.67%) 0.9999
실시예 1 0.9미만 5 samples (2.32%) 0.751
비교예 1 0.9이상 196 samples (91.16%) 0.997
비교예 1 0.9미만 19 samples (8.83%) 0.706
도 2는 215개의 테스트 데이터 중 비교예 1과 실시예 1의 방법을 통해 전장 16S rRNA가 추출된 sample 수를 나타낸다. 도 2에서 전체 215 샘플중에서, 실시예 1의 방법으로 전장 16S rRNA가 추출된 sample 수는 210개이고, 비교예 1의 방법으로 전장 16S rRNA가 추출된 sample 수는 196개이고, 실시예 1 및 비교예 1 방법 모두에서 전장 16S rRNA가 추출된 sample 수는 192개이었다. 또한, 실시예 1의 방법만으로 전장 16S rRNA가 추출 가능한 샘플수는 19개이었으며, 이들 샘플에 대해서는 비교예 1의 방법을 적용한 경우, 전장 16S rRNA가 추출되지 않아 짧은 단편이 얻어지거나 (18개 샘플) 또는 추출 자체가 되지 않는 경우(1개 샘플)가 포함되었다.
< 실험예 2> 16S rRNA 서열의 추출 완전성 분석
16S rRNA 서열 추출의 완전성을 비교하기 위해서, 비교예 1과 실시예 1에서 얻어진 16S rRNA 추출물에 대해 하기와 같은 완전성 (Completeness) 분석을 수행하였다. 구체적으로, 완전성 (Completeness)는 전체 16S rRNA 서열 데이터베이스로부터 16S rRNA 서열의 Universal Primer (27F, 1492R)까지의 region을 모두 포함하고 있는 서열을 따로 모아서 완전한 16S rRNA 서열 데이터베이스를 만들고, 상기 서열들과 match 및 alignment 하여 기준 서열이 데이터베이스 서열보다 앞/뒤 쪽에 몇 개의 서열이 결실되었는지를 계산하여 완전성(Completeness) 계산하였다 .
실시예 1의 분석결과를 표 2에 나타냈다. 그 결과, 실시예 1의 방법에 의해서 16S rRNA 서열을 추출한 경우 총 215개의 미생물 샘플 중 210개의 샘플의 completeness가 0.9 이상이었고, 5개의 샘플은 completeness가 0.9 미만이었다. 상기 5개의 샘플 중에서 1개의 샘플에서는 16S rRNA가 아예 추출되지 않았으며, 이중에서 4개의 샘플은 completeness가 1이었고, 1개의 샘플은 completeness가 0.805였다.
비교예 1의 분석결과를 표 3에 나타냈다. 비교예 1에 따라 16S rRNA 서열을 추출한 경우, 총 215개의 미생물 샘플중 196개의 샘플의 completeness가 0.9 이상이었다. 19개의 샘플은 completeness가 0.9 미만이었으며, 이중에서 실시예 1과 같은 방법을 사용하여 16S rRNA 서열을 추출했을 때, 18개의 샘플은 completeness가 1이었고, 1개의 샘플은 16S rRNA가 아예 추출되지 않았다.
시료 ID Seq Length Completeness Similarity Assign
Taxon
NCBI
10000078 1529 1 1 Bacteroides ovatus Bacteroides
10000083 1540 1 0.994 Salmonella enterica subsp. enterica Salmonella enterica subsp. enterica serovar Typhimurium str. LT2
10000084 1542 1 0.993 Salmonella enterica subsp. enterica Salmonella enterica subsp. enterica serovar Typhimurium str. LT2
10000115 1552 1 1 Bacillus anthracis Bacillus anthracis
10000136 1504 1 0.997 Orientia tsutsugamushi Orientia tsutsugamushi str. TA716
10000165 1542 1 0.998 Citrobacter freundii Citrobacter sp. AATXR
10000210 1560 1 0.999 Enterococcus faecium Enterococcus faecium
10000247 1503 1 03997 Clostridium difficile Peptoclostridium difficile 5.3
10000253 1503 1 0.997 Clostridium difficile Peptoclostridium difficile
10000265 1552 1 1 Bacillus anthracis Bacillus anthracis
시료 ID Seq Length Completeness Similarity Assign
Taxon
NCBI
10000078 968 0.667 1 Bacteroides ovatus Bacteroides
10000083 1083 0.727 0.996 Salmonella enterica subsp. enterica Salmonella enterica subsp. enterica serovar Typhimurium str. LT2
10000084 1001 0.671 0.998 Salmonella enterica subsp. enterica Salmonella enterica subsp. enterica serovar Typhimurium str. LT2
10000115 1130 0.755 1 Bacillus anthracis Bacillus anthracis
10000136 1137 0 0.588 Orientia tsutsugamushi Orientia tsutsugamushi str. TA716
10000165 1067 0.704 0.998 Citrobacter freundii Citrobacter sp. AATXR
10000210 781 0.526 1 Enterococcus hirae Enterococcus faecium
10000247 608 0.411 1 Clostridium difficile Peptoclostridium difficile 5.3
10000253 893 0.615 0.997 Clostridium difficile Peptoclostridium difficile
10000265 1041 0.693 1 Bacillus anthracis Bacillus anthracis
< 실험예 3> 전장 16S rRNA 가 추출된 시료의 비율 분석
실시예 1의 방법으로만 전장 16S rRNA가 추출된 시료의 비율 (raw data completeness =1)을 분석하고자 하였다.
구체적인 분석 방법은, 실시예 1의 방법을 사용하여 추출한 16S rRNA 서열과 비교예 1의 방법을 사용하여 추출한 16S rRNA 서열의 completeness를 비교하여 실시예 1의 방법에서는 completeness가 1로 전장의 16S rRNA 서열이 추출되었지만, 비교예 1의 방법으로는 completeness 가 0.9 미만인 sample의 비율을 비교 분석하는 것이다. 실시예 1의 방법으로만 전장의 16S rRNA 서열을 추출한 sample은 18개로, 전체 샘플 중 약 8.37%의 sample은 종래 방법으로는 전장 16S rRNA 서열을 추출할 수 없었다. 이중 절반 이상인 10개의 샘플은 completeness가 0.8 미만으로 작았으며, average completeness가 0.57로 몇몇 sample을 제외하고는 현저히 낮은 값을 나타냈다. 7개의 샘플은 completeness가 0.7 이하로 16S rRNA를 사용하여 미생물 동정하는데 큰 영향을 미칠 만한 수준이었으며, average completeness 또한 0.51로 매우 낮은 수준을 나타내었다.
즉, 215개의 샘플 중 18개의 샘플은 실시예 1의 방법을 사용하여야만 미생물 동정에 적합한 16S rRNA 서열을 추출할 수 있었다.
< 비교예 2> 어셈블리 (Assembly) 프로그램에 따른 추출된 16S rRNA 서열의 차이
서열 어셈블리 (assembly) 프로그램에 따른 추출된 16S rRNA 서열의 차이를 확인하기 위해서, 실시예 1의 방법과 실질적으로 동일한 방법으로 수행하되, 다만 1차 추출된 16S rRNA 서열의 어셈블리하는 방법을 실시예 1의 Rockhopper 프로그램 대신에 비교예 1에서 사용한 DNA assembler SPAdes assembly 프로그램을 사용하여 수행하고, 구체적 분석대상 미생물 시료를 표 1에 나타낸 10개 미생물 시료를 사용하였다.
따라서, 실시예 1과 동일한 방법으로 10개 시료에 대해서, NGS raw data에서 1차 16S rRNA서열을 추출하고, genome DNA assembler SPAdes assembly 프로그램을 사용하여 어셈블리를 수행하고, 2차 추출을 수행하였다. 상기 2차 추출된 16S rRNA 서열에 대해서, 실험예 1과 동일한 방법으로 전장 16S rRNA가 추출된 sample 수를 확인했다. 구체적으로, 총 215개의 미생물 샘플에 대하여 비교예 1과 실시예 1의 방법을 사용하여 16S rRNA 서열을 추출하고, 전체서열이 추출되었는지 여부를 판단하여 결과를 분석하였다. 상기 분석결과를 하기 표 4에 나타냈다.
시료 ID 실시예 1
(Rockhopper)
비교예 2
(SPAdes 3.7.0)
NCBI Taxon
Seq Length Assign
Taxon
Seq Length Similarity Assign
Taxon
10000078 1529 Bacteroides ovatus 1529 1 Bacteroides ovatus Bacteroides
10000083 1540 Salmonella enterica subsp. enteric 1083 0.996 Salmonella enterica subsp. enterica Salmonella enterica subsp. enterica serovar Typhimurium str. LT2
10000084 1542 Salmonella enterica subsp. enterica 1001 0.998 Salmonella enterica subsp. enterica Salmonella enterica subsp. enterica serovar Typhimurium str. LT2
10000115 1552 Bacillus anthracis 1552 1 Bacillus anthracis Bacillus anthracis
10000136 1504 Orientia tsutsugamushi 1504 0.997 Orientia tsutsugamushi Orientia tsutsugamushi str. TA716
10000165 1542 Citrobacter freundii 1542 0.998 Citrobacter freundii Citrobacter sp. AATXR
10000210 1560 Enterococcus faecium 474 0.99 Enterococcus faecium Enterococcus faecium
10000247 1503 Clostridium difficile 608 1 Clostridium difficile Peptoclostridium difficile 5.3
10000253 1503 Clostridium difficile 893 0.997 Clostridium difficile Peptoclostridium difficile
10000265 1552 Bacillus anthracis 1561 0.99 Enterococcus faecalis ATCC 19433(T) Bacillus anthracis
상기 표 4에 나타낸 바와 같이, 총 10개의 sample에 대한 실시예 1 및 비교예 2의 분석 결과로서, 4개의 sample에서 실시예 1의 Rockhopper와 비교예 2의 SPAdes 모두 전장의 16S rRNA sequence 추출하였다(10000078, 10000115, 10000136. 10000165). 5개의 sample에서 실시예 1의 Rockhopper에서만 전장의 16S rRNA sequence 추출하고 비교예 2의 SPAdes은 추출을 진행하지 못했다(ID: 10000083, 10000084, 10000210. 10000247, 10000253). 또한, 1개의 sample(ID 10000265)에 대해, 비교예 2의 SPAdes은 전장의 sequence를 추출하였으나 16s rRNA가 아닌 다른 sequence를 추출하였으며, 실시예 1의 Rockhopper를 통해 생성된 16S rRNA를 이용한 미생물 동정 결과가 비교예 2의 SPAdes를 통해 생성된 16S rRNA를 사용하여 미생물을 동정한 결과보다 정확함을 확인하였다.
< 실험예 4> 추출한 전체 16S rRNA 서열을 이용한 미생물의 동정방법
실시예1과 비교예 1의 16S rRNA 추출방법과 비교하여 미생물 동정의 정확성을 확인하고자, 표 2에 나타낸 10개 미생물 시료에 대해서, 실시예 1 및 비교예 1에서 각각 얻어진 추출된 16S rRNA 서열을 이용하여 하기 방법으로 미생물을 동정하였다.
구체적으로, 실시예 1의 방법을 통해서 추출된 16S rRNA 전체 서열을 이미 알려진 미생물의 16S rRNA 서열 데이터베이스와 NCBI BLAST 프로그램을 이용하여 유사한 서열들을 찾고 찾아낸 서열들과 Pairwise Alignment를 통해 가장 유사도가 높은 미생물 종으로 해당 미생물을 판단하였다. 실험결과는 상기 표 2 및 표 3에 나타냈다.
상기 표 2 및 표 3에 나타낸 바와 같이, ID 10000210에서 비교예 1에 따른 방법으로 16S rRNA를 추출하여 미생물을 동정한 경우, NCBI에 등재된 올바른 미생물과 다른 종으로 동정하였으나, 실시예 1의 방법으로 16S rRNA를 추출하여 미생물을 동정한 경우, NCBI에 등재된 올바른 미생물과 동일한 종으로 동정하였다.
< 실험예 5> 추출한 전체 16S rRNA 서열을 이용한 미생물의 동정방법
실시예1과 비교예 2의 16S rRNA 추출방법과 비교하여 미생물 동정의 정확성을 확인하고자, 표 2에 나타낸 10개 미생물 시료에 대해서, 실시예 1 및 비교예 2에서 얻어진 추출된 16S rRNA 서열을 이용하여 실험예 4와 같은 방법으로 미생물을 동정하였다. 실험결과는 상기 표 4에 나타냈다.
상기 표 4에 나타낸 바와 같이, 9개 샘플에서는 비교예 2의 SPAdes assembly 프로그램 또는 실시예 1의 RNA assembler인 Rockhopper 프로그램을 사용하였을 경우 모두 동일한 동정 결과를 나타냈다. 그러나, 그 중에서 1개의 미생물 샘플 (상기에서 SPAdes assembly 프로그램 또는 RNA assembler인 Rockhopper 프로그램 모두에서 전체 서열의 16S rRNA를 추출한 것)은 Rockhopper 프로그램을 사용했을 때 SPAdes 프로그램을 사용했을 때 보다 정확한 미생물 동정 결과를 나타냈다(ID: 10000265).
< 실험예 6> 어셈블리 (assembly) 시 버려지는 서열들에서 16S rRNA 단편 확인
6-1: 분석방법
종래기술을 사용하여 어셈블리하는 경우 손실 되는 서열에서 16S rRNA 조각이 존재하는지 여부를 확인하고자, 어셈블리 수행 후에 버려진 리드 들만 사용하여 16S rRNA를 추출하여, 어셈블리 수행 후에 버려진 16S rRNA의 정도를 분석했다. 비교예 1의 방법에 따라 NGS raw data에 대하여 assembly을 수행하는 경우, DNA 어셈블리 과정에서, NGS raw data를 얻는 과정에서 생기는 서열분석 오류로 인해, 짧은 길이의 서열에 대해서 다른 서열들과 어셈블리 되지 않은 것으로 간주하여 전장 유전체의 어셈블리 결과물 quality의 향상을 위해 어셈블리 과정에서 짧은 길이(200bp)의 서열을 버리게 된다. 따라서, 상기 어셈블리 과정에서 버려지는 짧은 길이(200bp)의 서열에 16S rRNA 서열이 포함되는 경우, 16S rRNA 서열 정보의 일부가 손실되는 문제가 있다. 그러나, 본 발명의 방법은 비교예 1과 다르게 16S rRNA 서열정보의 손실이 없을 것으로 예상하고 이를 입증하기 위해서 하기와 같은 방법으로 어셈블리 시 버려지는 서열들을 분석하였다.
표 2에 기재된 10개 미생물 시료(ID 10000078, 10000083, 10000084, 10000115, 10000136, 10000165, 10000210, 10000247, 10000253, 10000265)에 대해서, 비교예 1의 분석방법에서 어셈블리 후 버려진 리드[(paired(2), unpaired(1)]에 대해여 CMsearch 프로그램을 사용하여 16S rRNA 서열을 추출하여, 버려진 리드로부터 얻어지는 16S rRNA 서열 추출물을 얻었다. 상기 결과물과, 비교예 1에서 얻어진 16S rRNA 서열 추출물과의 비교하고자, 16S rRNA 추출물에 대해, 전체 리드에 대한 버려진 리드(drop read)의 비율을 분석하였다.
NGS 서열분석 방법으로 DNA 조각의 양쪽 끝을 읽는 방식인 paired end 방식과 한쪽만 읽는 single end 방식이 있으며, 어떤 방식의 NGS 서열분석방법을 사용한 것인지에 따라 어셈블리 후 생성되는 drop read를 가진 파일의 개수가 달라진다. paired end 방식의 NGS 서열분석방법의 경우, 양쪽에서 DNA를 읽어 pair로 생성되는 read들을 포함하는 파일(P1, P2)과 unpaired로 생성되는 파일 (U) 총 3개의 파일을 가진다. single end 방식의 NGS 서열분석방법의 경우, pair가 형성되지 않기 때문에 하나의 파일(P1)만을 가진다. ID 10000083 샘플의 경우 single end sequencing을 사용했기 때문에 P1 하나의 값만 가진다.
6-2: 비교예 1의 방법으로 전장이 뽑히지 않는 경우에 누락된 리드에서 16S rRNA 서열이 차지하는 비율 분석
비교예 1의 방법으로 전장이 뽑히지 않는 경우에 drop된 read에서 16S rRNA 서열이 차지하는 비율을 하기 식을 이용하여 그 값을 구하여 하기 표 5에 나타냈다. 표 5는 각각의 파일에서 16S rRNA 서열이 차지하는 비율을 표시한다.
[수학식 1]
Figure 112016128175443-pat00001
시료 ID Rate(16S reads: drop reads) completeness
P1(%) P2(%) U(%)
10000078 1.51 1.82 4.10 0.667
10000083 12.47 - - 0.727
10000084 0.79 0.80 0.0 0.671
10000115 2.73 7.69 10.52 0.755
10000136 8.04 4.77 0.0 0
10000165 2.38 4.88 0.0 0.704
10000210 1.25 1.95 3.82 0.526
10000247 2.75 3.91 4.05 0.411
10000253 2.25 3.60 0.0 0.615
10000265 2.98 6.45 0.0 0.693
표 5에 나타난 것과 같이, 비교예 1과 같이 어셈블리 후 16S rRNA sequence를 추출된 경우, drop read들에 16S rRNA 서열이 포함되어 있지 않거나 또는 적은 비율로 포함되어 있음을 확인할 수 있었다.
6-3: 비교예 1의 방법으로 전장이 추출된 경우에 누락된 리드에서 16S rRNA 서열이 차지하는 비율 분석
비교예 1의 방법으로 전장 16S rRNA sequennce가 잘 추출된 경우에 누락된 read에서 16S rRNA 서열이 차지하는 비율을 상기 수학식 1을 이용하여 그 값을 구하여 표 6에 나타냈다.
시료 ID Rate(16S reads: drop reads) completeness
P1(%) P2(%) U(%)
10000068 1.10 0.69 2.56 1
10000069 0.99 3.24 0.0 1
10000070 0.48 9.61 6.66 1
10000071 14.96 2.50 7.01 1
10000072 2.14 1.76 5.88 1
10000073 0.40 0.52 6.66 1
10000074 0.25 1.04 2.43 1
10000075 0.25 0.34 1.21 1
10000076 0.41 0.65 0 1
10000077 0.54 0.97 5.26 1
상기 표 6에 나타난 것과 같이, 비교예 1의 방법으로 16S rRNA 전체 서열의 추출가능한 경우에, 총 10개의 미생물 샘플의 NGS raw data에 대하여 어셈블리 후 생성된 손실된 서열에서도 일정양의 16S rRNA 서열이 존재함을 확인하였고, 이 서열들은 16S rRNA 전체 서열을 추출하는데 필요한 서열일 수도 있으므로, 추출한 16S rRNA에 손실이 있다고 판단할 수 있다.
표 6에 나타난 것과 같이, 10개의 sample 중 ID 10000068, 10000073, 10000074, 10000075, 10000076, 10000077 등 6개의 sample은 drop 된 16S rRNA reads의 비율이 현저히 낮다. 예외적으로 ID 10000069, 10000070, 10000071, 10000072 등 4개 시료의 경우 누락된 리드의 비율이 높게 나오는데, 누락된 리드를 제외하고 나머지 16S rRNA 리드만으로도 전체 16S rRNA 서열이 추출가능한 경우로 판단된다.
표 5와 표 6의 결과를 비교했을 때, 몇 개의 sample을 제외하고, 비교예 1의 방법으로 전장 16s rRNA sequence가 추출되지 않을 경우가 누락된 리드에 속한 16S rRNA의 비율이 더 높게 나타났다.

Claims (12)

  1. 적어도 하나의 프로세서에 의해 동작하는 컴퓨터 장치가, 염기서열 분석법을 이용하여 획득한 전장 (full length) rDNA 서열정보를 포함하는 단일 생물체의 게놈 서열정보로 부터, 단일 생물체의 전장 리보솜 RNA 서열정보를 얻는 방법으로서,
    차세대 서열분석법(NGS, next generation sequencing) 방법으로 얻어진 단일 생물체의 전장 rDNA 서열정보를 포함하는 게놈 NGS 리드 (read)를 획득하는 단계,
    상기 단일 생물체의 게놈 NGS 리드중에서, 리보좀 DNA (rDNA)의 서열영역을 포함하고 어셈블리에 사용될 K-mer 수치 이상의 길이를 갖는 리드의 전체서열을 추출하는 리보좀 DNA (rDNA)의 서열정보를 1차 추출하는 단계;
    상기 추출한 리드를 K-mer값이 7 내지 36가 되게 조각화하고 상기 조각을 어셈블리하여 rDNA 콘티그 (contig)를 형성하는 단계; 및
    상기 rDNA 콘티그 내에서 전장 rDNA 서열영역을 잘라내는 2차 추출을 수행하여 전장 rDNA 서열을 얻는 단계를 포함하는, 염기서열 분석법을 이용하여 획득한 전장 rDNA 서열정보를 포함하는 단일 생물체의 게놈 서열정보로 부터, 단일 생물체의 전장 리보솜 RNA 서열정보를 얻는 방법.
  2. 제1항에 있어서, 어셈블리하여 rDNA 콘티그 (contig)를 형성하는 단계에서 형성된 rDNA 콘티그는 100 내지 3000 bp의 길이가 1개 내지 20개인 것인, 방법.
  3. 제1항에 있어서, 상기 2차 추출을 수행하여 얻어진 전장 rDNA 서열정보의 어셈블리 오류를 수정하는 단계를 더 포함하는, 방법.
  4. 제3항에 있어서, 상기 어셈블리 오류는 염기서열 오류, 가짜 갭 (false gap), 종렬중복 (tandem repeat) 오류, 단일중합체 (monopolymer) 오류 또는 단일염기 다형성 (SNP) 오류인 것을 특징으로 하는, 방법.
  5. 삭제
  6. 제1항에 있어서, 상기 rDNA 서열정보의 1차 추출 및 2차 추출은 CMsearch, Hmmsearch, BLAST, 및 Usearch으로 이루어진 군에서 선택된 1종 이상의 프로그램으로 수행되는 것인, 방법.
  7. 삭제
  8. 제1항에 있어서, 상기 rDNA 콘티그 (contig)를 형성하는 단계는 Rockhopper 프로그램으로 수행되는 것인, 방법.
  9. 제1항에 있어서, 상기 rDNA는 16S rDNA, 23S rDNA, 또는 5S rDNA인, 방법.
  10. 제1항 내지 제4항, 제6항, 및 제8항 내지 제9항 중 어느 한 항에 따른 방법을 이용하여 전장 리보솜 RNA 서열정보를 얻는 단계, 및
    상기 전장 리보솜 RNA 서열정보를, 리보솜 RNA 분류학적 데이터베이스와 비교하여 미생물을 동정하는 단계를 포함하는, 전장 리보솜 RNA 서열정보 분석법을 이용한 미생물 동정 방법.
  11. 제1항 내지 제4항, 제6항, 및 제8항 내지 제9항 중 어느 한 항에 따른 단계를 실행시킬 수 있는 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
  12. 제1항 내지 제4항, 제6항, 및 제8항 내지 제9항 중 어느 한 항에에 따른 염기서열 분석법을 이용한 전장 리보솜 RNA 서열정보를 얻는 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 컴퓨터 저장 매체.
KR1020160180336A 2016-12-27 2016-12-27 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법 KR101798229B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020160180336A KR101798229B1 (ko) 2016-12-27 2016-12-27 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법
US15/772,172 US20190119717A1 (en) 2016-12-27 2017-12-22 Ribosomal rna sequence extraction method and microorganism identification method using extracted ribosomal rna sequence
PCT/KR2017/015377 WO2018124661A1 (ko) 2016-12-27 2017-12-22 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna를 이용하여 미생물을 동정하는 방법
EP17886616.6A EP3511847A4 (en) 2016-12-27 2017-12-22 METHOD FOR OBTAINING RIBOSOME RNA (RNA) SEQUENCE INFORMATION AND METHOD FOR IDENTIFYING MICROORGANISM USING RNA

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160180336A KR101798229B1 (ko) 2016-12-27 2016-12-27 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법

Publications (1)

Publication Number Publication Date
KR101798229B1 true KR101798229B1 (ko) 2017-12-12

Family

ID=60943790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160180336A KR101798229B1 (ko) 2016-12-27 2016-12-27 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법

Country Status (4)

Country Link
US (1) US20190119717A1 (ko)
EP (1) EP3511847A4 (ko)
KR (1) KR101798229B1 (ko)
WO (1) WO2018124661A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018124661A1 (ko) * 2016-12-27 2018-07-05 주식회사 천랩 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna를 이용하여 미생물을 동정하는 방법
WO2020050627A1 (ko) * 2018-09-05 2020-03-12 주식회사 천랩 시료 미생물의 동정 및 분류 방법
KR20200027900A (ko) * 2018-09-05 2020-03-13 주식회사 천랩 시료 미생물의 동정 및 분류 방법
CN114373508A (zh) * 2022-01-24 2022-04-19 浙江天科高新技术发展有限公司 一种基于16S rDNA序列的菌种鉴定方法
WO2022196859A1 (ko) * 2021-03-18 2022-09-22 주식회사 이지놈 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법
WO2024101492A1 (ko) * 2022-11-11 2024-05-16 엘지전자 주식회사 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101447593B1 (ko) 2013-12-31 2014-10-07 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002008265A2 (en) * 2000-07-19 2002-01-31 Pharmacia & Upjohn Company Staphylococcus aureus ribosomal protein s20, corresponding gene and methods for the identification of antibacterial substances
GB201409282D0 (en) * 2014-05-23 2014-07-09 Univ Sydney Tech Sequencing process
KR101798229B1 (ko) * 2016-12-27 2017-12-12 주식회사 천랩 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101447593B1 (ko) 2013-12-31 2014-10-07 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
C. Yuan 'Reconstruction of rRNA from metagenome'*

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018124661A1 (ko) * 2016-12-27 2018-07-05 주식회사 천랩 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna를 이용하여 미생물을 동정하는 방법
WO2020050627A1 (ko) * 2018-09-05 2020-03-12 주식회사 천랩 시료 미생물의 동정 및 분류 방법
KR20200027900A (ko) * 2018-09-05 2020-03-13 주식회사 천랩 시료 미생물의 동정 및 분류 방법
KR102349921B1 (ko) 2018-09-05 2022-01-12 주식회사 천랩 시료 미생물의 동정 및 분류 방법
WO2022196859A1 (ko) * 2021-03-18 2022-09-22 주식회사 이지놈 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법
KR20220130379A (ko) * 2021-03-18 2022-09-27 주식회사 이지놈 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법
KR102624180B1 (ko) 2021-03-18 2024-01-15 조서애 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법
CN114373508A (zh) * 2022-01-24 2022-04-19 浙江天科高新技术发展有限公司 一种基于16S rDNA序列的菌种鉴定方法
CN114373508B (zh) * 2022-01-24 2024-02-02 浙江天科高新技术发展有限公司 一种基于16S rDNA序列的菌种鉴定方法
WO2024101492A1 (ko) * 2022-11-11 2024-05-16 엘지전자 주식회사 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법

Also Published As

Publication number Publication date
EP3511847A1 (en) 2019-07-17
US20190119717A1 (en) 2019-04-25
WO2018124661A1 (ko) 2018-07-05
EP3511847A4 (en) 2020-05-13

Similar Documents

Publication Publication Date Title
KR101798229B1 (ko) 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법
Antipov et al. plasmidSPAdes: assembling plasmids from whole genome sequencing data
Caputo et al. Genome and pan-genome analysis to classify emerging bacteria
Grabherr et al. Trinity: reconstructing a full-length transcriptome without a genome from RNA-Seq data
Burke et al. Standing genetic variation drives repeatable experimental evolution in outcrossing populations of Saccharomyces cerevisiae
Dröge et al. Taxonomic binning of metagenome samples generated by next-generation sequencing technologies
Grabherr et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome
Kozich et al. Development of a dual-index sequencing strategy and curation pipeline for analyzing amplicon sequence data on the MiSeq Illumina sequencing platform
CN109923217B (zh) 宏基因组样品中病原体的鉴定和抗生素表征
Gupta et al. Comparative proteogenomics: combining mass spectrometry and comparative genomics to analyze multiple genomes
US10777301B2 (en) Hierarchical genome assembly method using single long insert library
Zhu et al. Proteogenomics produces comprehensive and highly accurate protein-coding gene annotation in a complete genome assembly of Malassezia sympodialis
Qi et al. The haplotype-resolved chromosome pairs of a heterozygous diploid African cassava cultivar reveal novel pan-genome and allele-specific transcriptome features
Scheunert et al. Can we use it? On the utility of de novo and reference-based assembly of Nanopore data for plant plastome sequencing
Acuña-Amador et al. Genomic repeats, misassembly and reannotation: a case study with long-read resequencing of Porphyromonas gingivalis reference strains
Brealey et al. Dental calculus as a tool to study the evolution of the mammalian oral microbiome
Pible et al. Improving the quality of genome, protein sequence, and taxonomy databases: A prerequisite for microbiome meta‐omics 2.0
US10658069B2 (en) Biological sequence variant characterization
Guo et al. Dime: A novel framework for de novo metagenomic sequence assembly
Moniruzzaman et al. Endogenous giant viruses contribute to intraspecies genomic variability in the model green alga Chlamydomonas reinhardtii
Kuster et al. ngsComposer: an automated pipeline for empirically based NGS data quality filtering
Du et al. Improve homology search sensitivity of PacBio data by correcting frameshifts
Solovyev et al. Automatic annotation of bacterial community sequences and application to infections diagnostic
US20160103955A1 (en) Biological sequence tandem repeat characterization
Neubert et al. Testing assembly strategies of Francisella tularensis genomes to infer an evolutionary conservation analysis of genomic structures

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant