WO2020055076A1 - 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법 - Google Patents

유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법 Download PDF

Info

Publication number
WO2020055076A1
WO2020055076A1 PCT/KR2019/011665 KR2019011665W WO2020055076A1 WO 2020055076 A1 WO2020055076 A1 WO 2020055076A1 KR 2019011665 W KR2019011665 W KR 2019011665W WO 2020055076 A1 WO2020055076 A1 WO 2020055076A1
Authority
WO
WIPO (PCT)
Prior art keywords
gcf
lactic acid
acid bacteria
species
strain
Prior art date
Application number
PCT/KR2019/011665
Other languages
English (en)
French (fr)
Inventor
조서애
곽우리
설동혁
장지성
김혜강
김희발
곽효선
김순한
이우정
Original Assignee
주식회사 조앤김지노믹스
대한민국 (식품의약품안전처장)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 조앤김지노믹스, 대한민국 (식품의약품안전처장) filed Critical 주식회사 조앤김지노믹스
Publication of WO2020055076A1 publication Critical patent/WO2020055076A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the reference sequence becomes very long and it may be inefficient because the alignment takes a very long time.
  • the leads are not concentrated in one place, but are divided into several places and the coverage is very low.
  • it is difficult to set a reference value for coverage because the number of strains in which the entire genome is disclosed is different for each lactic acid bacteria.
  • the reference genome was designated as 1-1 pairwise in the species, and each coverage (sorting is the default option for bowtie2, Bam file sorting-samtools (samtools.sourceforge.net/), and the calculation of coverage is genomecov of bedtools) (input Command to sort the .bam file to generate the output_sorted.bam file: samtools sort input.bam -o output_sorted.bam).

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로서, 상기 방법을 이용하면 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 검출할 수 있으므로, 이를 효과적으로 유산균의 동정에 이용할 수 있다.

Description

유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법
본 발명은 식품의약품안전처의 지원 하에서 과제번호 DY0002256516-17162식위안043-1에 의해 이루어진 것으로서, 상기 과제의 연구관리전문기관은 식품의약품안전평가원, 연구사업명은 "식품등안전관리", 연구과제명은 "유산균주 확인을 위한 메타게놈 파이프라인 개발 및 시험법 마련 연구", 주관기관은 ㈜조앤김지노믹스, 연구기간은 2017.08.16 ~ 2018.08.15이다.
본 특허출원은 2018년 9월 10일에 대한민국 특허청에 제출된 대한민국 특허출원 제 10-2018-0108016호에 대하여 우선권을 주장하며, 상기 특허출원의 개시 사항은 본 명세서에 참조로서 삽입된다.
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로서, 더욱 상세하게는 유산균 종별 대표 균주를 선정하고 서열 정보를 멀티-파스타 파일로 생성한 참조서열을 제조하는 방법 및 이를 이용하여 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 검출하는 동정방법에 관한 것이다.
최근 건강에 대한 관심이 높아가면서 다양한 건강기능식품들이 출시되고 있다. 그 중 프로바이오틱스 시장은 2016년 기준 처음으로 시장점유율에서 비타민·무기질을 따돌리는 등 가파른 성장세를 보이고 있다. 안전한 건강기능식품 제조유통관리를 위해서는 지속적인 수거검사 등을 통해 원재료로 사용하였다고 제품에 표시한 균들의 정확한 확인이 필수적이다. 하지만 최근의 프로바이오틱스 제품들은 원재료로 단일 균이 아닌 다양한 유산균을 복합적으로 사용하고 있어 정확한 성상 파악에 큰 어려움이 있다.
지금처럼 시퀀싱 기술의 발달로 미생물의 전장 유전체 정보가 축적되기 전에는 미생물의 분류 동정을 위해 실험적인 기법이 사용되었으며 그 중 현재까지 표준으로 여겨지는 것으로는 DNA-DNA 혼성화(DNA-DNA hybridization; DDH)가 있다. DDH는 한 가닥의 DNA가 일정한 조건 하에서 다른 특정한 염기서열과 상보적으로 염기쌍을 형성하는 성질을 이용한 방법으로 70%의 DDH를 기준으로 동일 종 여부를 판단하였다. 하지만 유전체 정보가 쏟아져 나오고 있는 현재에 상대적으로 오랜 시간이 걸리고, 실험적인 로드가 큰 DDH 기법은 미생물 분류 동정에 더 이상 적합하지 않다.
그 후, DDH 실험보다 상대적으로 쉬운 PCR을 이용하여 16s rRNA 유전자를 증폭하고 시퀀싱하여 유사성(similarity)을 산출하고, 이를 두 균주의 유사도를 측정하는 지표로 사용하여 종을 구분하는 방법도 등장하였다. 이 때 70% DDH에 해당하는 종 구분의 기준은 97% 16s rRNA 유사성이다. 이 방법은 대중적으로 사용되고 있지만 여전히 프로바이오틱스 제품과 같이 다양한 균이 섞인 샘플에서의 미생물 동정에는 적합하지 않다. 보통 1600 bp의 길이를 갖는 16s rRNA 유전자 서열을 단일 리드로 한 번에 시퀀싱하게 되면 현재의 기술로는 에러율이 10%를 초과하는데 이는 종 구분의 기준인 97%를 확인하기에 부적합하며, 또한 여러 균들이 섞여 있기 때문에 짧은 리드들을 어셈블리하는 것도 불가능하기 때문이다.
차세대 염기서열 분석(Next-Generation Sequencing; NGS)이 보편화되면서 미생물의 전장 유전체를 쉽게 얻게 되었고, 이를 통한 인실리코(in silico) 기반 미생물 동정 방법도 등장하게 되었다. ANI(average nucleotide identity)는 비교하려는 균의 유전체 서열을 1020 bp씩 잘라낸 후 서로 높은 유사성을 가진 가닥들의 아이덴티티(identity)를 구한 값으로 95% 값을 기준으로 같은 종 여부를 파악한다. 하지만 이 또한 이미 정보를 알고 있는 타입의 균과 비교하려는 균을 정렬을 통해 짝을 이루어 참조서열 커버율을 계산하는 것이므로 여러 유산균이 섞여있는 샘플의 동정에는 사용할 수 없다.
기존 미생물의 동정법들은 대부분 단일 종에 대한 동정 분석이어서 여러 균이 섞여있는 메타지놈 샘플에 사용하기에 부적합하다. 메타지놈 샘플에서 단일종을 하나씩 분리하는데 실험적인 어려움이 있을뿐더러 혼합된 미지의 균을 단일종과 비교할 수도 없기 때문이다.
이에 본 발명자들은 종별 대표 균주를 선정하고 이로부터 생성한 참조서열을 이용하여 시료에 함유된 유산균을 동정하는 경우 검출능이 우수한 것을 확인하였다.
이에, 본 발명의 목적은 유산균 동정용 참조서열 제조방법을 제공하는 것이다.
본 발명의 또 다른 목적은 유산균 동정방법을 제공하는 것이다.
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로, 본 발명에 따른 방법에 의하면 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 동정할 수 있다.
이하 본 발명을 더욱 자세히 설명하고자 한다.
본 발명의 일 양태는 다음 단계를 포함하는 유산균 동정용 참조서열 제조방법이다:
유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계; 및
종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계.
상기 대표 균주 선정 단계는 하기와 같이 수행되는 것일 수 있다:
각각의 종 내에서 균주 간 페어와이즈 커버리지(pairwise coverage) 최소값을 도출하는 커버리지 계산 단계; 및
종마다 균주 중 커버리지 최소값이 가장 큰 균주를 선택하는 균주 선택 단계.
본 명세서상의 용어 커버리지(breadth of coverage)는, 참조서열을 기준으로 한 특정 영역을 의미한다. 구체적으로, 대상이 되는 염기서열을 랜덤하게 잘라 리드를 생성하고, 상기 리드를 참조서열에 맞추어 정렬하였을 때, 리드가 쌓인 부분의 비율을 커버리지라고 지칭한다.
예를 들어, 커버리지가 높을수록 리드가 참조서열의 보다 더 넓은 영역에 쌓인다는 것을 의미하므로, 대상이 되는 염기서열이 참조서열과의 유사도가 높음을 의미한다.
본 명세서상의 용어 뎁스(depth of coverage)는, 참조서열을 기준으로 한 특정 지점에서의 수치를 의미한다. 구체적으로, 대상이 되는 염기서열을 랜덤하게 잘라 리드를 생성하고, 상기 리드를 참조서열에 맞추어 정렬하였을 때, 특정 지점에 쌓인 리드의 개수를 표현한 수치를 뎁스라고 지칭한다.
본 명세서상의 용어 1-1 페어와이즈 커버리지는 리드를 참조서열에 맞추어 정렬함으로써 커버율을 계산하는 방법을 의미한다.
상기 유산균은 박테리아, 균류 및 바이러스로 이루어진 군으로부터 선택되는 2종 이상인 것일 수 있으나, 이에 한정되는 것은 아니다.
참조서열로 대표균주가 아닌 모든 균을 다 포함시킬 경우 참조서열이 매우 길어지며 정렬을 시키는데 시간이 굉장히 오래 걸리므로 비효율적일 수 있다. 또한 종 내에서 리드들이 한 곳에 집중해서 붙지 않고 여러 군데 나눠서 붙게 되어 커버리지가 매우 낮아진다. 뿐만 아니라 각 유산균마다 전체 유전체가 공개된 균주 수가 전부 달라 커버리지의 기준값을 설정하기 어렵게 된다.
따라서 종내의 균주들 중 커버리지 최소값이 가장 큰 균주를 선택함으로써, 자신을 제외한 나머지 균주들과 가장 유사성이 높은(1-1 페어와이즈 커버리지가 높은) 균주를 대표균주로 설정한 뒤 진행하는 것이 바람직하다.
본 발명의 다른 양태는 다음 단계를 포함하는 유산균 동정방법이다:
유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계;
종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계;
참조서열 및 종별 대표 균주들의 서열정보 간 페어와이즈 커버리지 최소값을 계산하여 기준값으로 설정하는 기준값 설정 단계; 및
시료에 함유된 유산균의 전체 유전체 서열 정보 및 상기 참조서열 간의 페어와이즈 커버리지(pairwise coverage) 값을 계산하는 서열 비교 단계.
본 발명의 유산균 동정방법은 박테리아, 균류 및 바이러스로 이루어진 군으로부터 선택되는 2종 이상에 대하여 수행될 수 있으나, 이에 한정되는 것은 아니다. 다만, 동정방법을 수행함에 있어서 과도하게 넓은 종을 포함하는 범위 내에서 수행하는 경우 많은 시간이 소요될 수 있고, 종간 유사성이 높은 종을 동정 대상으로 할 경우 구별에 어려움이 발생할 수 있다.
상기 대표 균주 선정 단계는 하기와 같이 수행되는 것일 수 있다:
각각의 종 내에서 균주 간 페어와이즈 커버리지(pairwise coverage) 최소값을 도출하는 커버리지 계산 단계; 및
종마다 균주 중 커버리지 최소값이 가장 큰 균주를 선택하는 균주 선택 단계.
상기 서열 비교 단계에서 도출된 값이 상기 기준값을 초과한 경우 해당 균주가 검출된 것으로 판단하는 검출 확인 단계를 추가적으로 포함하는 것일 수 있다.
상기 방법은 시료에 함유된 2종 이상의 유산균을 동시에 검출하는 것일 수 있다.
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로서, 상기 방법을 이용하면 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 검출할 수 있으므로, 이를 효과적으로 유산균의 동정에 이용할 수 있다.
도 1은 대표 균주의 선정 과정을 나타낸 모식도이다.
도 2a는 본 발명의 실시예에서 참조서열 제조에 이용한 유산균 중 비피도박테리움 롱검(Bifidobacterium longum; B.longum)에 대한 1-1 페어와이즈 ANI(average nucleotide identity) 결과를 나타낸 그림이다.
도 2b는 본 발명의 실시예에서 참조서열 제조에 이용한 유산균 중 락토코커스 락티스(Lactococcus lactis; Lc.lactis)에 대한 1-1 페어와이즈 ANI 결과를 나타낸 그림이다.
도 2c는 본 발명의 실시예에서 참조서열 제조에 이용한 유산균 중 락토바실러스 파라카제이(Lactobacillus paracasei; L.paracasei)와 락토바실러스 카제이(Lactobacillus paracasei; L.paracasei)에 대한 1-1 페어와이즈 ANI 결과를 나타낸 그림이다.
도 3은 본 발명의 유산균 동정 방법으로 샘플 내 유산균의 상대 비율을 측정한 그래프이다.
도 4a는 검출능 확인을 위한 시뮬레이션 수행 시 19종의 유산균이 들어간 실제 데이터를 이용하여 샘플링을 통해 데이터 용량별 소요 시간을 비교한 그래프이다.
도 4b는 검출능 확인을 위한 시뮬레이션 수행 시 19종의 유산균이 들어간 실제 데이터를 이용하여 정렬 옵션별 소요시간을 비교한 그래프이다.
도 5는 본 발명의 실시예에 따라 시료 053의 종별 검출 여부를 나타내는 커버리지 그래프이다.
본 발명은 다음 단계를 포함하는 유산균 동정용 참조서열 제조방법에 관한 것이다:
유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계; 및
종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계.
이하, 본 발명을 하기의 실시예에 의하여 더욱 상세히 설명한다. 그러나 이들 실시예는 본 발명을 예시하기 위한 것일 뿐이며, 본 발명의 범위가 이들 실시예에 의하여 한정되는 것은 아니다.
실시예 1: 유산균 종별 대표 균주의 선정
하기 표 1과 같이 식약처 고시 유산균 3속 19종 257균주를 포함한 9속 126종 597균주를 대상으로 하여 전체 유전체 데이터를 수집하였다.
Genus # of species # of strain
Lactobacillus 42 183
Bacillus 35 195
Bifidobacterium 17 70
Streptococcus 10 36
Enterococcus 7 43
Leuconostoc 7 18
Pediococcus 4 18
Lactococcus 3 33
Oenococcus 1 1
Total 126 597
구체적으로 상기 유산균에 해당하는 균주는 하기 표 2와 같다.
유산균 목록
GCF_000195515.1, GCF_000196735.1, GCF_000204275.1, GCF_000221645.1, GCF_000242855.2, GCF_000262385.1, GCF_000494835.1, GCF_000508265.1, GCF_000833005.1, GCF_000835145.1, GCF_000973485.1, GCF_001483885.1, GCF_001586105.1, GCF_001593765.1, GCF_001593785.1, GCF_001596755.1, GCF_001705195.1, GCF_001874385.1, GCF_001889285.1, GCF_001922005.1, GCF_002173635.1, GCF_002209305.1, GCF_000165925.1, GCF_000830075.1, GCF_002173495.1, GCF_002243495.1, GCF_001721685.1, GCF_000177235.2, GCF_000009825.1, GCF_000737305.2, GCF_002250115.1, GCF_000169195.2, GCF_000217835.1, GCF_000832905.1, GCF_000876545.1, GCF_001039495.1, GCF_001870065.1, GCF_002250055.1, GCF_000972245.3, GCF_002024265.1, GCF_001719185.1, GCF_900093775.1, GCF_000011145.1, GCF_002157855.1, GCF_002276165.1, GCF_002109385.1, GCF_000706725.1, GCF_000008425.1, GCF_000011645.1, GCF_001596055.1, GCF_001726125.1, GCF_002074075.1, GCF_002074095.1, GCF_002074115.1, GCF_002074135.1, GCF_002173615.1, GCF_002173675.1, GCF_002174255.1, GCF_002236895.1, GCF_000025805.1, GCF_000025825.1, GCF_000225265.1, GCF_000832985.1, GCF_001050455.1, GCF_002009195.1, GCF_000724485.1, GCF_001645685.2, GCF_000294775.2, GCF_000408885.1, GCF_000876525.1, GCF_002068155.1, GCF_000005825.2, GCF_000017885.4, GCF_000590455.1, GCF_000972685.1, GCF_001191605.1, GCF_001431145.1, GCF_001431785.1, GCF_001548215.1, GCF_001578165.1, GCF_001578205.1, GCF_001700735.1, GCF_001704975.1, GCF_001908475.1, GCF_900186955.1, GCF_001895885.1, GCF_001938665.1, GCF_001938685.1, GCF_001938705.1, GCF_002077215.1, GCF_000093085.1, GCF_001578185.1, GCF_002243645.1, GCF_001050115.1, GCF_002202015.1, GCF_000009045.1, GCF_000146565.1, GCF_000186745.1, GCF_000209795.2, GCF_000227465.1, GCF_000227485.1, GCF_000293765.1, GCF_000321395.1, GCF_000338735.1, GCF_000344745.1, GCF_000349795.1, GCF_000497485.1, GCF_000523045.1, GCF_000699465.1, GCF_000699525.1, GCF_000706705.1, GCF_000737405.1, GCF_000772125.1, GCF_000772165.1, GCF_000772205.1, GCF_000782835.1, GCF_000789275.1, GCF_000789295.1, GCF_000827065.1, GCF_000953615.1, GCF_000971925.1, GCF_000973605.1, GCF_001015095.1, GCF_001037985.1, GCF_001465815.1, GCF_001534785.1, GCF_001541905.1, GCF_001565875.1, GCF_001597265.1, GCF_001604995.1, GCF_001660525.1, GCF_001697265.1, GCF_001703495.1, GCF_001704095.1, GCF_001720505.1, GCF_001746575.1, GCF_001747445.1, GCF_001808235.1, GCF_001889385.1, GCF_001889625.1, GCF_001890405.1, GCF_001902555.1, GCF_002055965.1, GCF_002072735.1, GCF_002096095.1, GCF_002142595.1, GCF_002163815.1, GCF_002173695.1, GCF_002173715.1, GCF_002201955.1, GCF_002201995.1, GCF_002202035.1, GCF_002202055.1, GCF_002216085.1, GCF_002269175.1, GCF_002269195.1, GCF_000496285.1, GCF_002113805.1, GCF_000015785.1, GCF_000283695.1, GCF_000284395.1, GCF_000319475.1, GCF_000341875.1, GCF_000455565.1, GCF_000455585.1, GCF_000493375.1, GCF_000583065.1, GCF_000685725.1, GCF_000769555.1, GCF_000973585.1, GCF_000987825.1, GCF_000988345.1, GCF_001023595.1, GCF_001536925.1, GCF_001593395.2, GCF_001685645.1, GCF_001687745.1, GCF_001723585.1, GCF_001752685.1, GCF_001854345.1, GCF_001857985.1, GCF_002005345.1, GCF_002057535.1, GCF_002072695.1, GCF_002105595.1, GCF_002117165.1, GCF_002157265.1, GCF_002192235.1, GCF_002205715.1, GCF_002216755.1, GCF_002237515.1, GCF_002238395.1, GCF_002243325.1, GCF_001889165.1, GCF_001857925.1, GCF_001263395.1, GCF_000010425.1, GCF_000737885.1, GCF_000817995.1, GCF_000966445.2, GCF_001025155.1, GCF_000021425.1, GCF_000022705.1, GCF_000022965.1, GCF_000025245.1, GCF_000092765.1, GCF_000220885.1, GCF_000224965.2, GCF_000260715.1, GCF_000277325.1, GCF_000277345.1, GCF_000414215.1, GCF_000471945.1, GCF_000695895.1, GCF_000816205.1, GCF_000817045.1, GCF_000818055.1, GCF_001688645.2, GCF_002220485.1, GCF_000304215.1, GCF_000164965.1, GCF_000165905.1, GCF_000265095.1, GCF_001025135.1, GCF_001281345.1, GCF_000213865.1, GCF_000220135.1, GCF_000568955.1, GCF_000568975.1, GCF_000569015.1, GCF_000569035.1, GCF_000569055.1, GCF_000569075.1, GCF_001025175.1, GCF_001281425.1, GCF_001990225.1, GCF_001025195.1, GCF_000737865.1, GCF_000024445.1, GCF_001042595.1, GCF_000706765.1, GCF_000800455.1, GCF_001042615.1, GCF_000007525.1, GCF_000008945.1, GCF_000020425.1, GCF_000092325.1, GCF_000166315.1, GCF_000196555.1, GCF_000196575.1, GCF_000219455.1, GCF_000269965.1, GCF_000730205.1, GCF_000772485.1, GCF_000829295.1, GCF_001281305.1, GCF_001293145.1, GCF_001446255.1, GCF_001446275.1, GCF_001719085.1, GCF_001725985.1, GCF_001025215.1, GCF_000800475.2, GCF_001042635.1, GCF_000347695.1, GCF_000157355.2, GCF_001267395.1, GCF_001267865.1, GCF_000007785.1, GCF_000172575.2, GCF_000281195.1, GCF_000317915.1, GCF_000550745.1, GCF_000742975.1, GCF_001598635.1, GCF_001689055.2, GCF_001878735.1, GCF_001886675.1, GCF_001989555.1, GCF_002163735.1, GCF_000174395.2, GCF_000250945.1, GCF_000336405.1, GCF_000444405.1, GCF_000737555.1, GCF_001298485.1, GCF_001412695.1, GCF_001518735.1, GCF_001587115.1, GCF_001635875.1, GCF_001720945.1, GCF_001721065.1, GCF_001721905.1, GCF_001750885.1, GCF_001886635.1, GCF_001895905.1, GCF_001953235.1, GCF_001953255.1, GCF_002007625.1, GCF_002024245.1, GCF_002025045.1, GCF_002025065.1, GCF_900066025.1, GCF_900092475.1, GCF_001558875.1, GCF_000271405.2, GCF_001641305.1, GCF_000504125.1, GCF_001042405.1, GCF_900116935.1, GCF_000011985.1, GCF_000389675.2, GCF_000934625.1, GCF_002224305.1, GCF_002240375.1, GCF_002075105.1, GCF_001936335.1, GCF_000191545.1, GCF_000194115.1, GCF_001663655.1, GCF_001663675.1, GCF_001663715.1, GCF_001663735.1, GCF_001663755.1, GCF_000014465.1, GCF_000359625.1, GCF_001676805.1, GCF_002117225.1, GCF_002117325.1, GCF_002117345.1, GCF_002117375.1, GCF_002138395.1, GCF_002173555.1, GCF_002174235.1, GCF_000211375.1, GCF_000298115.2, GCF_000019245.4, GCF_000026485.1, GCF_000194765.1, GCF_000194785.1, GCF_000309565.2, GCF_000318035.1, GCF_000418515.1, GCF_000829055.1, GCF_002192215.1, GCF_001951175.1, GCF_000785105.2, GCF_001663835.1, GCF_001698165.1, GCF_001723545.1, GCF_002224425.1, GCF_002224505.1, GCF_000014405.1, GCF_000056065.1, GCF_000182835.1, GCF_000191165.1, GCF_001469775.1, GCF_001888905.1, GCF_001888925.1, GCF_001888945.1, GCF_001888965.1, GCF_001888985.1, GCF_001908415.1, GCF_001953135.1, GCF_002000885.1, GCF_002142575.1, GCF_900196735.1, GCF_000010145.1, GCF_000210515.1, GCF_000397165.1, GCF_000466785.3, GCF_001742205.1, GCF_001941785.1, GCF_002119645.1, GCF_002192435.1, GCF_001314245.2, GCF_000014425.1, GCF_002158885.1, GCF_001050475.1, GCF_000831645.3, GCF_000015385.1, GCF_000165775.1, GCF_000189515.1, GCF_000422165.1, GCF_000525715.1, GCF_000961015.1, GCF_001006025.1, GCF_001308285.1, GCF_001702095.1, GCF_001746265.1, GCF_000829395.1, GCF_001936235.1, GCF_000008065.1, GCF_000091405.1, GCF_000204985.1, GCF_000498675.1, GCF_001714745.1, GCF_002176835.1, GCF_002176855.1, GCF_000214785.1, GCF_001050435.1, GCF_001314945.1, GCF_001702115.1, GCF_001702135.1, GCF_000248095.2, GCF_001922025.1, GCF_000014525.1, GCF_000155515.2, GCF_000582665.1, GCF_000829035.1, GCF_001191565.1, GCF_001244395.1, GCF_001514415.1, GCF_002079285.1, GCF_002257625.1, GCF_001702155.1, GCF_001702175.1, GCF_001702195.1, GCF_001443645.1, GCF_002211885.1, GCF_000023085.1, GCF_000148815.2, GCF_000203855.3, GCF_000338115.2, GCF_000392485.3, GCF_000412205.1, GCF_000604105.1, GCF_000931425.1, GCF_001278015.1, GCF_001296095.1, GCF_001302645.1, GCF_001484005.1, GCF_001581895.1, GCF_001596095.1, GCF_001617525.1, GCF_001659745.1, GCF_001660025.1, GCF_001672035.1, GCF_001704315.1, GCF_001704335.1, GCF_001715615.1, GCF_001874125.1, GCF_001880185.1, GCF_001908455.1, GCF_001990145.1, GCF_002024845.1, GCF_002109405.1, GCF_002109425.1, GCF_002116955.1, GCF_002117245.1, GCF_002117265.1, GCF_002117285.1, GCF_002117305.1, GCF_002173655.1, GCF_002174195.1, GCF_002205775.2, GCF_002220175.1, GCF_002220815.1, GCF_000010005.1, GCF_000016825.1, GCF_000159455.2, GCF_000236455.2, GCF_000410995.1, GCF_000439275.1, GCF_001046835.1, GCF_001618905.1, GCF_001688685.2, GCF_000011045.1, GCF_000026505.1, GCF_000026525.1, GCF_000233755.1, GCF_000418475.1, GCF_000418495.1, GCF_001721925.1, GCF_001988935.1, GCF_002076955.1, GCF_002158925.1, GCF_900070175.1, GCF_000224985.1, GCF_000026065.1, GCF_002224565.1, GCF_002250035.1, GCF_000008925.1, GCF_000143435.1, GCF_000758365.1, GCF_001011095.1, GCF_001723525.1, GCF_002162055.1, GCF_900094615.1, GCF_000225325.1, GCF_900183405.1, GCF_000269925.1, GCF_000269945.1, GCF_000006865.1, GCF_000009425.1, GCF_000014545.1, GCF_000025045.1, GCF_000143205.1, GCF_000192705.1, GCF_000236475.1, GCF_000312685.1, GCF_000344575.1, GCF_000468955.1, GCF_000478255.1, GCF_000479375.2, GCF_000761115.1, GCF_000807375.1, GCF_002078375.1, GCF_002078415.1, GCF_002078435.1, GCF_002078475.1, GCF_002078495.1, GCF_002078615.1, GCF_002078765.1, GCF_002078855.1, GCF_002078895.1, GCF_002078915.1, GCF_002078935.1, GCF_002078955.1, GCF_002078975.1, GCF_002078995.1, GCF_002148215.1, GCF_900088425.1, GCF_000981525.1, GCF_000300135.1, GCF_000026405.1, GCF_001998805.1, GCF_000196855.1, GCF_000298875.1, GCF_001536305.1, GCF_000092505.1, GCF_001698145.1, GCF_000014445.1, GCF_000234825.3, GCF_000512955.1, GCF_001047695.1, GCF_001583825.1, GCF_001886915.1, GCF_001891125.1, GCF_002009375.1, GCF_002117185.1, GCF_002148235.1, GCF_000014385.1, GCF_001767275.1, GCF_001922325.1, GCF_002173575.1, GCF_002173595.1, GCF_002174215.1, GCF_000237995.1, GCF_001702215.1, GCF_001702235.1, GCF_001611035.1, GCF_001611075.1, GCF_001611115.1, GCF_001611135.1, GCF_001611155.1, GCF_000014505.1, GCF_000496265.1, GCF_001411765.2, GCF_002173535.1, GCF_002202155.1, GCF_000385925.1, GCF_000017005.1, GCF_000970665.2, GCF_001281105.1, GCF_002073435.1, GCF_001598035.1, GCF_001708305.1, GCF_000283635.1, GCF_001623565.1, GCF_900187085.1, GCF_001642085.1, GCF_000253315.1, GCF_000253335.1, GCF_000448685.2, GCF_000785515.1, GCF_001543085.1, GCF_002073835.1, GCF_002094955.1, GCF_002094975.1, GCF_000011825.1, GCF_000011845.1, GCF_000014485.1, GCF_000182875.1, GCF_000253395.1, GCF_000262675.1, GCF_000698885.1, GCF_000971665.1, GCF_001008015.1, GCF_001280285.1, GCF_001514435.1, GCF_001663795.1, GCF_001685375.1, GCF_001705585.1, GCF_001855705.1, GCF_002012365.1, GCF_900094135.1
NCBI(www.ncbi.nlm.nih.gov/)에서 종별로 전체 유전체(complete genome)를 받아서 종내 1-1 페어와이즈(pairwise) ANI(github.com/chjp/ANI)를 구한 후 95%를 기준으로 필터링하였다(A균과 B균의 ANI를 구하는 명령어: perl ANI.pl --fd formatdb --bl blastall --qr A.fa --sb B.fa --od result > A_B_ANI.txt).
그 후 종내 균주(strain) 각각에 대해 ART 시뮬레이션(www.niehs.nih.gov/research/resources/software/biostatistics/art/)을 이용(art_illumina -p -l 100 -f 100 -m 350 -s 10)하였고, 시뮬레이션 데이터(illumina pair-end simulation data)를 얻었다(A균을 illumina paired-end 리드로 시뮬레이션 하는 명령어: ART/art_illumina -i A.fa -p -l 100 -f 100 -m 350 -s 10 -o A_).
위와 마찬가지로 종내에서 1-1 페어와이즈로 참조 유전체를 지정해 각각의 커버리지(정렬은 bowtie2 기본 옵션, Bam file sorting - samtools(samtools.sourceforge.net/), 커버리지 계산은 bedtools의 genomecov)를 구하였다(input.bam 파일을 정렬하여 output_sorted.bam 파일을 생성하는 명령어: samtools sort input.bam -o output_sorted.bam).
도 1과 같이 참조 유전체로 사용한 각 균주의 커버리지 최소값을 구한 후, 그 중 가장 큰 최소값을 보인 균주를 그 종의 대표 균주로 설정하였다.
구체적으로, NCBI에서 모은 전체 유전체에 대해 종별로 모은 후 종내에서 ANI 기준 95%가 넘지 않는 균주를 필터링하였다. 그 후 필터링된 대표 균주에 대해 1-1 페어와이즈 커버리지를 구하였다.
예를 들어 종내 균주가 총 4개일 때 (Strain_1, Strain_2, Strain_3, Strain_4), 각 균주가 참조서열이 될 때 가지는 커버리지 값들 중 최소값을 뽑아(Stain_1: 0.79, Strain_2: 0.86, Strain_3: 0.87, Strain_4: 0.83) 균주별로 비교하여 가장 큰 커버리지 값을 보이는 Strain_3을 이 종의 대표 균주라 선정하였다.
상기 대표 균주 130개에 대하여 멀티-파스타(multi-fasta) 파일을 생성하여 메타지놈 샘플의 성분을 파악하는 참조서열로 준비하였다. 참조서열이 대표 균주일 때 및 대표 균주들의 집단일 때의 커버리지 차이를 보아 위에서 정한 커버리지의 기준값을 사용하여도 되는지 확인하였다.
한편, ANI를 기준으로 필터링할 때 둘 이상의 그룹을 보인다면 그룹을 따로 분리하여 커버리지를 계산해 둘 이상의 대표 균주를 설정하였고 종내 전체 유전체가 2개 균주일 경우 둘 중 하나를 랜덤으로, 1개 균주일 경우 별도의 계산 없이 바로 대표 균주로 설정하였다. 70% DDH 내지 95% ANI에 해당하는 커버리지는 종별 대표 균주가 가진 커버리지 값들 중 최소값으로 설정하였다.
실시예 2: 검출능 검정
NCBI-SRA(www.ncbi.nlm.nih.gov/SRA)에서 단일 균종에 대한 WGS(Whole genome shotgun) 데이터를 다운받아 대표 균주 집단에 정렬하여 해당 균을 검출해 내는지 확인하였다. 이 때 하나의 균이 아닌 두 개의 균이 검출된 종 (L.casei, L.paracasei, L.helveticus)에 대해서는 검출된 두 종에 대한 모든 전체 유전체를 참조 서열로 사용하여 bowtie2 -a 옵션으로 정렬, 가장 높은 커버리지를 보인 종을 검출종으로 지정하였다.
다음으로 메타지놈 샘플에서의 검출능을 살펴보기 위하여 시뮬레이션 데이터, NCBI-SRA 데이터, 실제 유산균 데이터(illumina, ion torrent의 두 가지 플랫폼) 세 가지 단계로 프로그램을 구동하였다.
구체적으로, 시뮬레이션 데이터의 경우 유산균 종마다의 실제 유전 정보를 마치 시퀀싱한 것처럼 리드로 만들어 낸 데이터를 말한다. 전체 유전정보가 있으면 컴퓨터 소프트웨어(ART simulator)로 시뮬레이션 리드 데이터를 생성할 수 있다. 즉, 실제 데이터가 아닌 시뮬레이션 데이터를 만들어 이를 합산한 것을 말한다.
NCBI-SRA 데이터는 공개 데이터로 다른 실험자가 유산균 단일 종에 대해 실제 시퀀싱한 데이터를 말하며 10개의 독립 시퀀싱 데이터를 하나로 합산한 것이다.
실제 유산균 데이터란 프로바이오틱스 제품에서 뽑아낸 시퀀싱 데이터로 여러 종의 데이터를 포함하는 메타게놈 시퀀싱 데이터를 말한다.
첫째 시뮬레이션 데이터를 활용한 경우, 유산균 10종(L.reuteri, L.delbrueckii , L.rhamnosus, B.longum, L.acidophilus, B.bifidum, L.salivarius, L.fermentum, B.breve, E.faecalis)에 대해 각각의 전체 유전체에서 ART 시뮬레이션을 이용하여 리드(simulated illumina pair-end)를 얻고(art_illumina -p -l 100 -f 100 -m 350 -s 10) 이를 결합하여 하나의 커다란 메타지놈 데이터를 만들었다. 이 때 각 종의 리드 수는 그 종의 시퀀스 길이에 비례해서 넣어주었다.
메타지놈 샘플을 위와 같은 방식으로 대표 균주 집단에 정렬하고 커버리지 측정을 이용하여 균을 검출하였으며, 기존의 메타지놈 분석 소프트웨어인 MetaPhlan(huttenhower.sph.harvard.edu/metaphlan), MetaPhlan 2(huttenhower.sph.harvard.edu/metaphlan2)와 비교하였다. 이 때 설정한 커버리지 기준값인 0.7137을 넘어서는 종을 검출종으로 판단하였고, MetaPhlan과 MetaPhlan 2는 종 수준으로 판별된 것을 검출종으로 판단하였다.
추가적으로 비율의 분포를 구하기 위해 식약처 고시 유산균 19종에 해당하는 전체 유전체를 모두 사용하였는데, 하기 표 3과 같이 19종 내 대표 균주인 23 균주별 각 그룹의 모든 균주를 연결하여 하나의 fasta 파일로 만들고 이를 합쳐 참조 서열로 이용하였다. 그 후 비율은 각 그룹별 뎁스(depth)의 상대 비율을 구해 사용하였으며 뎁스는 그룹 내 균주들의 평균 길이로 나누어 구하였다.
Species Accession
Bifidobacterium_animalis GCF_000260715.1
Bifidobacterium_bifidum GCF_000164965.1
Bifidobacterium_breve GCF_000568955.1
Bifidobacterium_longum GCF_001719085.1
GCF_000092325.1
GCF_001281305.1
Enterococcus_faecalis GCF_001886675.1
Enterococcus_faecium GCF_900066025.1
Lactobacillus_acidophilus GCF_000389675.2
Lactobacillus_casei GCF_000829055.1
GCF_000019245.4
Lactobacillus_delbrueckii GCF_001953135.1
Lactobacillus_fermentum GCF_001742205.1
Lactobacillus_gasseri GCF_002158885.1
Lactobacillus_helveticus GCF_000525715.1
Lactobacillus_paracasei GCF_001514415.1
Lactobacillus_plantarum GCF_001581895.1
Lactobacillus_reuteri GCF_001046835.1
Lactobacillus_rhamnosus GCF_000418475.1
Lactobacillus_salivarius GCF_900094615.1
Lactococcus_lactis GCF_000006865.1
GCF_002078765.1
Streptococcus_thermophilus GCF_900094135.1
두 번째로 NCBI-SRA 데이터를 활용한 경우, 상기 데이터를 다운받아 종별로 가장 가까운 균주를 찾고, 해당 균주의 서열 길이에 비례하여 리드 수를 맞춘 후 결합하여 상기와 같은 방법으로 비교하여 표 4와 같이 나타내었다.
Species Accesion Nearest strain Strain's length(bp) # of Read
L.delbrueckii ERR231531 GCF_001953135.1 1,868,180 1,774,959
L.gasseri ERX980028 GCF000014425.1 1,894,360 1,799,833
L.salivarius ERX529268 GCF001011095.1 1,978,364 1,879,645
L.acidophilus SRX456377 GCF_000934625.1 1,991,969 1,892,571
L.reuteri SRX456270 GCF_001046835.1 1,993,967 1,894,470
B.bifidum SRX456396 GCF_001025135.1 2,211,039 2,100,710
L.helveticus SRX456228 GCF_000422165.1 2,225,962 2,114,888
B.breve SRX456387 GCF_001025175.1 2,269,415 2,156,173
Lc.lactis ERX231530 GCF_000192705.1 2,518,737 2,393,054
B.longum SRX456377 GCF_000269965.1 2,828,958 2,687,795
마지막으로 실제 데이터의 검출능을 살펴보기 위하여 유산균 19종이 모두 포함된 시뮬레이션 전체 유전체 데이터와 4 내지 11개의 유산균이 포함된 유산균 제품의 이온 토렌트(on torrent) 전체 유전체 데이터를 사용하여 분석하였으며 마찬가지로 MetaPhlan, MetaPhlan 2와 비교하였다. 먼저, TRIMMOMATIC(TRAILING:30, 퀄리티가 떨어지는 시퀀싱 리드를 제거하는 명령어)을 이용하여 품질관리(quality control)를 한 뒤 사용하였다.
이 때 일루미나(Illumina) 데이터의 경우 용량을 30Gb, 15Gb, 7.5Gb, 3Gb, 1.5Gb 줄여가면서 수행, 소요시간을 측정하였으며 bowtie2의 -very-fast와 130종 참조 서열을 연결시켰을 때의 시간도 비교하였다. 이온 토렌트 데이터의 경우 정렬 프로그램으로 bowtie2가 아닌 TMAP aligner를 사용하였으며 stage1 map4 옵션을 사용하였다.
상기 3가지 방법을 사용하여, MetaPhlan, MetaPhlan 2와 비교하여 표 5와 같이 나타내었다.
Species 서열 길이 (bp) Fastq 리드 계수 데이터 용량 (Mb)
L.reuteri 1,993,967 1,809,765 446.11
L.delbrueckii 1,868,180 1,695,598 424.36
L.rhamnosus 2,883,376 2,617,011 650.3
B.longum 2,477,838 2,054,903 508.65
L.acidophilus 1,991,579 1,807,598 452.41
B.bifidum 2,186,882 1,984,859 493.1
L.salivarius 2,033,361 1,845,520 460.23
L.fermentum 1,949,874 1,769,745 439.61
B.breve 2,244,624 2,037,266 502.29
E.faecalis 2,668,255 2,421,763 597.34
실시예 3: 기준값의 설정
사용한 전체 유전체는 126종 597균주였으며, 종 내에는 1 내지 61개의 균주를 포함하였다. 대표 균주를 구하기에 앞서 종내 1-1 페어와이즈 ANI를 구하여 필터링하였다.
도 2a 내지 2c에서 확인할 수 있듯이, 95% 기준 두 개 이상의 그룹을 보인 경우는 식약처 고시 19종 중 비피도박테리움 롱검(Bifidobacterium longum; B.longum) 및 락토코커스 락티스(Lactococcus lactis; Lc.lactis), 그리고 서로 다른 종이지만 ANI 기준 같은 종으로 구분되는 락토바실러스 카제이(Lactobacillus casei; L.casei) 및 락토바실러스 파라카제이(Lactobacillus paracasei; L.paracasei)까지 3종류로 나타났다. B.longum의 경우 97% ANI를 기준으로 세 그룹으로 묶였으며, 나머지 종은 95% ANI 기준으로 두 그룹으로 묶였다.
같은 종임에도 불구하고 서로 간의 유사성이 낮아(ANI 기준 다른 종으로 구분) 아종을 구분하지 못하여 검출을 하지 못하는 일이 생길 수 있기 때문에, 이들 중 종별 대표 균주를 B.longum 2 균주, L.casei 1 균주, Lc.lactis 1 균주 추가로 선정하여 126종으로부터 총 130균주를 얻었다.
구체적으로, Lc.lactisLc.lactis.lactis, Lc.lactis.cremoris 두 가지의 아종을 가지고 있다. 같은 종임에도 불구하고 두 아종 사이의 ANI는 78 정도 밖에 되지 않는데(ANI 기준 95%가 넘는 것이 같은 종의 기준) 이는 Lc.lactis.lactis에서만 대표 균주를 뽑아 참조 데이터베이스로 이용하면 Lc.lactis.cremoris를 검출해 내지 못하는 일을 발생시킨다. 그러므로 종내에 ANI 기준으로 그룹이 생기는 경우 그룹별로 대표균주를 추가 선정하였다.
종내 대표 균주를 참조서열로 하여 구한 1-1 페어와이즈 커버리지는 종별로 큰 차이를 보였는데 그 중 최소값은 B.longum에서 95% ANI 기준 0.7137이었다. 이 값은 종 내에 전체 유전체 서열상의 변이들이 얼마나 많은지에 따라 달라지는 것으로 보인다. 특히, 0.7137의 최소값을 보인 B.longum의 경우 97% ANI 기준 3개의 그룹으로 나뉘어졌었고, 그룹별로 나누어 그룹내 대표 균주와의 1-1 페어와이즈 커버리지는 0.8453까지 증가하였다. 이 수치는 종내의 아종에 대한 분리 기준이므로, 종 간의 분리 기준은 0.7137로 이용하였다.
표 6에서 확인할 수 있듯이, 각 균주들을 종내 대표 균주에 정렬시켰을 때와 대표 균주 130개를 한 번에 묶은 집단에 정렬시켰을 때의 커버리지 차이가 매우 적어(<0.17%) 95% ANI에 해당하는 커버리지 기준 값을 0.7137로 이용하였다.
Lactobacillus_brevis Lactobacillus_helveticus
균주 ANI 커버리지 차이 균주 ANI 커버리지 차이
대표 균주 대표 집단 대표 균주 대표 집단
52693 99.073 0.9448 0.9451 0.0003 52819 98.668 0.9269 0.9265 0.0004
52707 97.383 0.8934 0.8939 0.0005 52821 97.254 0.874 0.8734 0.0006
52713 96.866 0.8857 0.887 0.0013 52822 97.941 0.8905 0.8898 0.0007
52714 96.92 0.8854 0.8865 0.0011 52823 98.765 0.9321 0.9318 0.0003
52715 97.264 0.9026 0.9009 0.0017 52832 98.955 0.9359 0.9355 0.0004
52716 97.198 0.9026 0.9011 0.0015 52833 99.153 0.9479 0.9476 0.0003
52717 99.298 0.9455 0.9462 0.0007 52834 97.838 0.8824 0.8816 0.0008
52718 99.09 0.9572 0.9581 0.0009 52839 98.712 0.9439 0.9431 0.0008
52719 98.953 0.9496 0.9502 0.0006 52840 98.717 0.9439 0.9431 0.0008
식약처 고시 19종 유산균에 대한 단일 균 WGS 데이터를 NCBI-SRA에서 받아 단일 균에 대한 검출능을 살펴본 결과, 표 7에 나타난 바와 같이 L.casei, L.paracasei, L.helveticus에서 두 개 이상의 종이 검출되었고, 나머지 종들은 하나의 종만 검출되었다.
Species 접근번호 검출 (커버리지) Next (커버리지)
Lc.lactis ERX231530 0.92 0.07
S.thermophilus SRX2610845 0.97 0.25
L.acidophilus SRX2610831 1.00 0.05
L.plantarum ERX1625346 0.94 0.14
E.faecium ERX2085159 0.89 0.07
B.longum ERX1960389 0.74 0.18
B.animalis SRX2610848 0.89 0.05
B.breve SRX2610844 0.94 0.15
L.delbrueckii ERX231531 0.96 0.17
E.faecalis ERX2102726 0.93 0.01
L.rhamnosus SRX2610827 0.93 0.04
L.salivarius SRX2268576 0.88 0.19
L.gasseri ERX980028 0.77 0.19
L.reuteri SRX2268579 0.83 0.10
L.fermentum SRX2268582 0.88 0.11
B.bifidum ERX1101269 0.94 0.02
L.casei ERX450901 0.88 0.86 (L.paracasei) 0.07
L.paracasei ERX178725 0.87 0.88 (L.casei) 0.17
L.helveticus SRX2268585 0.85 0.73 (L.gallinarum) 0.11
표 7의 Next는 검출된 종 그 다음으로 높게 나온 커버리지 값이다. 단일 종의 시퀀싱 데이터를 이용한 것이기에 검출 파이프라인의 결과로 단 하나의 종만 검출이 되어야 하지만, 만약 Lc.lactis의 단일 종 데이터에서 0.92의 커버리지로 Lc.lactis가 검출되었고 그 다음으로 높게 나온 커버리지가 0.6의 커버리지가 나오게 되면 이는 검출되지는 않았지만 여러 종이 섞인 데이터에서는 잘못 검출될 수도 있음을 의미한다. 두 번째로 높게 나온 커버리지가 0.0 내지 0.2로 낮게 나와 정확히 하나의 종만을 검출했다는 것을 확인할 수 있는 항목이다.
ANI를 기준으로 구별할 수 없었던 종이 동시에 검출된 경우 참조 서열로 두 종내 모든 균주를 이용하였는데, L.paracasei의 SRA 데이터를 L.paracaseiL.casei의 전체 유전체(18 균주)를 참조서열로 삼아 정렬하여 표 8과 같이 나타내었다.
검출 디폴트 옵션 All (-a) All+perfect(-a --score-min 'C,0,-1')
L.paracasei 0.7420 0.9119 0.6933
L.casei 0.7337 0.9006 0.6896
기본 옵션, multi-fasta 기준 모든 곳에 다 붙는 All 옵션 및 참조서열과 정확히 일치해야 붙는 perfect 옵션까지 총 세 가지 옵션 전부에서 L.paracasei 균주가 제일 높은 커버리지를 보여 정확히 검출되었다. L.caseiL.paracasei의 경우 bowtie2 -a 옵션을 주었을 때 정확히 해당하는 종이 검출되었다. 또한, L.helveticus의 경우 L.gallinarum의 균주가 1개 밖에 없어 서로의 ANI가 95%가 넘는 것만을 확인하였다.
실시예 4: 혼합 메타지놈 샘플로부터의 검출능 확인
첫째로 시뮬레이션 데이터를 사용한 경우, 본 발명에 따른 방법과 MetaPhlan, MetaPhlan 2 모두에서 정확히 시뮬레이션한 10종이 검출되었다.
뎁스의 경우 genomcov 파일에서 참조 서열의 bp 하나당 리드가 쌓인 횟수를 모두 더한 뒤 시퀀스 길이로 나누어 구했으며 리드 개수의 경우 samtools idxstats를 이용하여 실제 각 대표 균주에 붙은 리드 수를 적어 표 9로 나타내었다.
Species Methphaln 1 Methphaln 2 뎁스
L.reuteri 8.17 7.92 9.98
L.delbrueckii 10.29 10.17 10.06
L.rhamnosus 10.84 9.62 10.13
B.longum 8.69 7.95 9.77
L.acidophilus 12.06 11.78 10.51
B.bifidum 11.27 11.35 10.39
L.salivarius 8.83 9.34 10.08
L.fermentum 10.74 11.12 9.51
B.breve 9.46 10.56 10.07
E.faecalis 9.66 10.18 9.49
표 9 및 도 3에서 확인할 수 있듯이, 리드의 길이가 100 bp로 모두 같아 각 대표 균주의 리드 개수/시퀀스 길이의 비율과 뎁스의 비율이 일치하였다.
표 10에서 확인할 수 있듯이, 시뮬레이션 샘플 안의 각종 비율의 분산 값은 뎁스에서 0.11이 나와 MetaPhlan 1의 1.56, MetaPhlan 2의 1.75보다 낮았다.
프로그램명 분산
Depth 0.11
MetaPhlan 1 1.56
MetaPhlan 2 1.75
두 번째로 NCBI-SRA에서 단일 균종 데이터 10개를 받아 합친 메타지놈에 대해 프로그램을 작동시킨 결과 10종이 검출되었고, MetaPhlan에선 41종, MetaPhlan 2에선 37종이 검출되어 MetaPhlan 1 또는 MetaPhlan 2에 비해 정확한 결과를 도출할 수 있음을 확인하였다.
세 번째 실제 데이터는 19종의 유산균이 들어간 illumina paired-end 데이터를 이용하여 데이터의 용량별, 정렬시킬 때의 옵션별 소요시간을 확인하고 각각 표 11 및 12로 나타내었다.
수행 프로그램 (버전) 디폴트 50% 25% 10% 5%
Align Bowtie2 (2.3.3.1) 383 105 60 20 10
BAM file sorting Samtools (1.3.1) 40 15 8 3 2
genomecov Bedtools (v2.20.1) 28 10 5 2 1
Sum 451 130 73 25 13
표 11 및 도 4a에서 확인할 수 있듯이, Illumina paired-end 데이터의 경우 용량이 약 60Gb(30Gb*2) 이었는데 용량을 30Gb, 15Gb, 7.5Gb 및 3Gb(각각 15Gb*2, 7.5Gb*2, 3Gb*2 및 1.5Gb*2)로 줄여가면서 소요된 시간을 계산한 결과, 차례로 451분, 130분, 73분, 25분, 15분으로 줄어들었다.
데이터의 용량을 줄이는 것은 리드 생성량을 줄여서 수행할 수 있고, 리드 생성량은 시퀀싱 과정에서 조절할 수 있다. 또는 생성된 리드에서 랜덤 샘플링을 통해 용량을 원하는 만큼 줄일 수 있다(sampling을 통해 리드 수를 10,000개로 줄이는 명령어: seqtk sample -s100 read1.fq 10,000 > sub1.fq).
표 12 및 도 4b에서 확인할 수 있듯이, Bowtie2의 -very-fast 옵션(Bowtie2의 옵션 중 하나로 덜 민감하게 정렬시켜 시간을 줄이는 옵션)과 참조 서열을 연결할 때의 경우는 각각 242분, 295분으로 줄어들었다.
수행 프로그램 (버전) 디폴트 very-fast 참조서열 연결
Align Bowtie2 (2.3.3.1) 383 190 235
BAM file sorting Samtools (1.3.1) 40 35 44
genomecov Bedtools (v2.20.1) 28 17 16
Sum 451 242 295
표 13에서 확인할 수 있듯이, 식약처 고시 유산균 19종이 모두 포함된 illumina platform 형식의 실제 데이터의 각 프로그램 별 검출 현황으로서는 비피도박테리움 비피덤(Bifidobacterium bifidum; B.bifidum)이 0.3722로 불검출되었고 나머지 18종은 검출되었다. MetaPhlan의 경우 19종에 2종이 추가 검출되었으며, MetaPhlan 2의 경우 바이러스 2종을 포함하여 5종이 추가로 검출되었다.
프로그램 검출 불검출
본 발명의 실시예 18 1 (B.bifidum)
MetaPhlan 1 21 -
MetaPhlan 2 24 -
표 14에서 확인할 수 있듯이, 5개의 유산균 제품에서 뽑아낸 ion torrent 데이터의 경우 다음과 같은 유산균을 가지고 있다고 표시되었다.
유산균 제품 # Detect species
1_051 12 L.rhamnosus, L.paracasei, L.casei, B.longum, B.breve, B.animalis, E.faecium, L.plantarum, L.acidophilus, S.thermophilus, Lc.lactis, B.subtilis
4_052 4 B.longum, B.breve, L.plantarum, S.thermophilus
7_053 10 L.reuteri, L.rhamnosus, L.casei, B.longum, L.delbrueckii, B.breve, B.animalis, L.plantarum, L.acidophilus
10_054 7 B.bifidum, L.rhamnosus, B.longum, B.animalis, L.plantarum, L.acidophilus, L.casei
19_055 5 B.bifidum, L.rhamnosus, B.longum, L.plantarum, L.acidophilus
상기 5개의 유산균 제품 시료에 대한 각 프로그램 별 검출종의 결과를 하기 표 15에 나타내었다.
프로그램 검출
1_051 4_052 7_053 10_054 19_055
본 발명의 실시예 12 4 9(B.bifidum 불검출) 7 5
MetaPhlan 1 1167 335 1178 1035 757
MetaPhlan 2 12 4 10 8(L.casei 불검출) 9
표 14 및 15 모두에서, 053번 유산균 제품에서는 B.bifidum이 0.6004의 커버리지로 기준인 0.7137을 넘지 못하여 불검출되었다.
MetaPhlan의 경우 5개 모든 제품에서 초과검출이 나왔으며 많게는 1100여종까지 검출되었다. MetaPhlan 2에선 054 제품에서 L.casei 불검출 및 바이러스 한 종, L.zeae 검출되었고 055 제품에서 표시된 균 5종 외에 바이러스 한 종과 L.helveticus, Lc.lactis, S.thermophilus가 추가 검출되었다.
초과검출이 나오는 동정방법을 이용할 경우, 유산균 제품 허가 등과 같은 상황에서 실제로 제품 안에 존재하지 않은 유산균을 존재한다고 표시하고 허가를 받는 문제가 발생할 수 있다.
본 발명에 따른 방법은, 특히 여러 가지 균이 섞여 있는 경우, MetaPhlan, MetaPhlan 2와 비교하여 초과검출을 확실하게 제어할 수 있어 샘플 내 종의 존재에 대해 신뢰성 높은 결과를 보여주었다. 커버리지에 대한 동정법은 MetaPhlan과 MetaPhlan 2와는 달리 초과검출이 없었다.
표 16 및 도 5에서 확인할 수 있듯이, 본 발명에 따른 방법을 수행하였을 경우 불검출을 해결하지 못하였다. 구체적으로, 19종의 illumina 데이터에서 B.bifidum을 검출해 내지 못하였고, 053 유산균에서도 B.bifidum을 검출해 내지 못하였다.
Probiotics_7_053
Bifidobacterium_bifidum 0.600371
Lactobacillus_reuteri 0.999836
Lactobacillus_fermentum 0.022901
Lactobacillus_salivarius 0.012528
Lactobacillus_rhamnosus 0.914346
Lactobacillus_gasseri 0.01631
Enterococcus_faecalis 0.013727
Lactobacillus_paracasei 0.878662
Lactobacillus_casei 0.867051
Bifidobacterium_longum 0.859162
Lactobacillus_helveticus 0.030859
Lactobacillus_delbrueckii 0.914613
Bifidobacterium_breve 0.891793
Bifidobacterium_animalis 0.907533
Enterococcus_faecium 0.022237
Lactobacillus_plantarum 0.940538
Lactobacillus_acidophilus 0.999796
Streptococcus_thermophilus 0.013184
Lactococcus_lactis 0.013601
이 이유는 각 종별 뎁스와 리드 수를 파악함으로써 알 수 있었는데 19종 데이터에서의 B.bifidum에 대한 뎁스는 1.21, 리드 수는 17,678개로 극히 낮았고, 053 유산균에서의 B.bifidum에 대한 뎁스는 2.28, 리드 수는 25529로 역시 부족하였다.
19종 데이터에서 B.bifidum에 대한 커버리지는 0.3722였고 053 유산균 제품 시료에서 B.bifidum에 대한 커버리지가 0.6이었는데, 이는 샘플량을 늘려 뎁스를 충분하게 조절해주면 검출 가능할 것으로 추측되었다. 19종 유산균 데이터에서 용량을 줄여가면서 분석한 결과를 살펴보면 샘플 내 종의 비율이 1%로 예상될 때 illumina paired-end 데이터로 3Gb*2 만큼의 샘플을 뽑아내면 종을 검출해 내기에 충분하였다.
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로서, 더욱 상세하게는 유산균 종별 대표 균주를 선정하고 서열 정보를 멀티-파스타 파일로 생성한 참조서열을 제조하는 방법 및 이를 이용하여 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 검출하는 동정방법에 관한 것이다.

Claims (6)

  1. 다음 단계를 포함하는 유산균 동정용 참조서열 제조방법:
    유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계; 및
    종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계.
  2. 제1항에 있어서, 상기 대표 균주 선정 단계는 하기와 같이 수행되는 것인, 유산균 동정용 참조서열 제조방법:
    각각의 종 내에서 균주 간 페어와이즈 커버리지(pairwise coverage) 최소값을 도출하는 커버리지 계산 단계; 및
    종마다 균주 중 커버리지 최소값이 가장 큰 균주를 선택하는 균주 선택 단계.
  3. 다음 단계를 포함하는 유산균 동정방법:
    유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계;
    종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계;
    참조서열 및 종별 대표 균주들의 서열정보 간 페어와이즈 커버리지 최소값을 계산하여 기준값으로 설정하는 기준값 설정 단계; 및
    시료에 함유된 유산균의 전체 유전체 서열 정보 및 상기 참조서열 간의 페어와이즈 커버리지(pairwise coverage) 값을 계산하는 서열 비교 단계.
  4. 제3항에 있어서, 상기 대표 균주 선정 단계는 하기와 같이 수행되는 것인, 유산균 동정방법:
    각각의 종 내에서 균주 간 페어와이즈 커버리지(pairwise coverage) 최소값을 도출하는 커버리지 계산 단계; 및
    종마다 균주 중 커버리지 최소값이 가장 큰 균주를 선택하는 균주 선택 단계.
  5. 제3항에 있어서, 상기 서열 비교 단계에서 도출된 값이 상기 기준값을 초과한 경우 해당 균주가 검출된 것으로 판단하는 검출 확인 단계를 추가적으로 포함하는 것인, 유산균 동정방법.
  6. 제3항에 있어서, 상기 방법은 시료에 함유된 2종 이상의 유산균을 동시에 검출하는 것인, 유산균 동정방법.
PCT/KR2019/011665 2018-09-10 2019-09-09 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법 WO2020055076A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180108016A KR102270719B1 (ko) 2018-09-10 2018-09-10 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법
KR10-2018-0108016 2018-09-10

Publications (1)

Publication Number Publication Date
WO2020055076A1 true WO2020055076A1 (ko) 2020-03-19

Family

ID=69777192

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/011665 WO2020055076A1 (ko) 2018-09-10 2019-09-09 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법

Country Status (2)

Country Link
KR (1) KR102270719B1 (ko)
WO (1) WO2020055076A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420212A (zh) * 2022-01-27 2022-04-29 上海序祯达生物科技有限公司 一种大肠杆菌菌株鉴定方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230167285A (ko) 2022-05-31 2023-12-08 종근당건강 주식회사 프로바이오틱스 조성물 내 균종 판별을 위한 프라이머 세트 및 이를 이용한 균종 판별 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364523A1 (en) * 2015-06-11 2016-12-15 Seven Bridges Genomics Inc. Systems and methods for identifying microorganisms
KR20170135351A (ko) * 2016-05-31 2017-12-08 강원대학교산학협력단 엔테로코커스 종들 중 특정 종 특이적인 프라이머 및 이를 이용한 해당 균주 분리 및 동정 방법 및 그 조성물

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364523A1 (en) * 2015-06-11 2016-12-15 Seven Bridges Genomics Inc. Systems and methods for identifying microorganisms
KR20170135351A (ko) * 2016-05-31 2017-12-08 강원대학교산학협력단 엔테로코커스 종들 중 특정 종 특이적인 프라이머 및 이를 이용한 해당 균주 분리 및 동정 방법 및 그 조성물

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAN, N. ET AL.: "ANItools web: a web tool for fast genome comparison within multiple bacterial strains", 2016, pages 1 - 5, XP055693083 *
RICHTER, M. ET AL.: "JSpeciesWS: a web server for prokaryotic species circumscription based on pairwise genome comparison", BIOINFORMATICS, vol. 32, no. 6, 2016, pages 929 - 931, XP055693080 *
SEOL, D. ET AL.: "Accurate and Strict Identification of Probiotic Species Based on Coverage of Whole-Ivletagenome Shotgun Sequencing Data", FRONTIERS IN MICROBIOLOGY, vol. 10, no. 1683, 7 August 2019 (2019-08-07), pages 1 - 12, XP055693074 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420212A (zh) * 2022-01-27 2022-04-29 上海序祯达生物科技有限公司 一种大肠杆菌菌株鉴定方法和系统
CN114420212B (zh) * 2022-01-27 2022-10-21 上海序祯达生物科技有限公司 一种大肠杆菌菌株鉴定方法和系统

Also Published As

Publication number Publication date
KR20200029689A (ko) 2020-03-19
KR102270719B1 (ko) 2021-07-01

Similar Documents

Publication Publication Date Title
Ramasamy et al. A polyphasic strategy incorporating genomic data for the taxonomic description of novel bacterial species
Ventura et al. Specific identification and targeted characterization of Bifidobacterium lactis from different environmental isolates by a combined multiplex-PCR approach
Tanizawa et al. DFAST and DAGA: web-based integrated genome annotation tools and resources
Amor et al. Advanced Molecular Tools for the Identification of Lactic Acid Bacteria1
Bessède et al. Matrix-assisted laser-desorption/ionization biotyper: experience in the routine of a University hospital
CN107653306B (zh) 一种基于高通量测序的双歧杆菌快速检测方法及应用
Korach-Rechtman et al. Murine genetic background has a stronger impact on the composition of the gut microbiota than maternal inoculation or exposure to unlike exogenous microbiota
WO2020055076A1 (ko) 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법
Kim et al. Novel real-time PCR assay for Lactobacillus casei group species using comparative genomics
WO2023098152A1 (zh) 一种微生物基因数据库的构建方法及系统
Quartieri et al. Comparison of culture-dependent and independent approaches to characterize fecal bifidobacteria and lactobacilli
Seol et al. Accurate and strict identification of probiotic species based on coverage of whole-metagenome shotgun sequencing data
Sato et al. Ribosomal protein profiling by matrix-assisted laser desorption/ionization time-of-flight mass spectrometry for phylogenety-based subspecies resolution of Bifidobacterium longum
Almeida et al. Parallel evolution of group B Streptococcus hypervirulent clonal complex 17 unveils new pathoadaptive mutations
Stage et al. Lactobacillus rhamnosus GG genomic and phenotypic stability in an industrial production process
Nakayama Pyrosequence-based 16S rRNA profiling of gastro-intestinal microbiota
Culot et al. Isolation of Harveyi clade Vibrio spp. collected in aquaculture farms: How can the identification issue be addressed?
Bi et al. A newly developed PCR‐based method revealed distinct Fusobacterium nucleatum subspecies infection patterns in colorectal cancer
Kim et al. Development of real-time PCR assay to specifically detect 22 Bifidobacterium species and subspecies using comparative genomics
Nie et al. Strain-level variation and diverse host bacterial responses in episymbiotic Saccharibacteria
van de Velde et al. Fast quantification of gut bacterial species in cocultures using flow cytometry and supervised classification
CN104946769B (zh) 肺炎支原体快速检测和基因分型的试剂盒
CN116814822B (zh) 一种长双歧杆菌婴儿亚种cicc 6069菌株的鉴定方法和应用
Mahenthiralingam et al. Use of colony-based bacterial strain typing for tracking the fate of Lactobacillus strains during human consumption
Svobodová et al. Novel method for reliable identification of Siccibacter and Franconibacter strains: from “Pseudo-Cronobacter” to new Enterobacteriaceae genera

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19860834

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19860834

Country of ref document: EP

Kind code of ref document: A1