WO2020055076A1 - 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법 - Google Patents
유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법 Download PDFInfo
- Publication number
- WO2020055076A1 WO2020055076A1 PCT/KR2019/011665 KR2019011665W WO2020055076A1 WO 2020055076 A1 WO2020055076 A1 WO 2020055076A1 KR 2019011665 W KR2019011665 W KR 2019011665W WO 2020055076 A1 WO2020055076 A1 WO 2020055076A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- gcf
- lactic acid
- acid bacteria
- species
- strain
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Definitions
- the reference sequence becomes very long and it may be inefficient because the alignment takes a very long time.
- the leads are not concentrated in one place, but are divided into several places and the coverage is very low.
- it is difficult to set a reference value for coverage because the number of strains in which the entire genome is disclosed is different for each lactic acid bacteria.
- the reference genome was designated as 1-1 pairwise in the species, and each coverage (sorting is the default option for bowtie2, Bam file sorting-samtools (samtools.sourceforge.net/), and the calculation of coverage is genomecov of bedtools) (input Command to sort the .bam file to generate the output_sorted.bam file: samtools sort input.bam -o output_sorted.bam).
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로서, 상기 방법을 이용하면 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 검출할 수 있으므로, 이를 효과적으로 유산균의 동정에 이용할 수 있다.
Description
본 발명은 식품의약품안전처의 지원 하에서 과제번호 DY0002256516-17162식위안043-1에 의해 이루어진 것으로서, 상기 과제의 연구관리전문기관은 식품의약품안전평가원, 연구사업명은 "식품등안전관리", 연구과제명은 "유산균주 확인을 위한 메타게놈 파이프라인 개발 및 시험법 마련 연구", 주관기관은 ㈜조앤김지노믹스, 연구기간은 2017.08.16 ~ 2018.08.15이다.
본 특허출원은 2018년 9월 10일에 대한민국 특허청에 제출된 대한민국 특허출원 제 10-2018-0108016호에 대하여 우선권을 주장하며, 상기 특허출원의 개시 사항은 본 명세서에 참조로서 삽입된다.
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로서, 더욱 상세하게는 유산균 종별 대표 균주를 선정하고 서열 정보를 멀티-파스타 파일로 생성한 참조서열을 제조하는 방법 및 이를 이용하여 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 검출하는 동정방법에 관한 것이다.
최근 건강에 대한 관심이 높아가면서 다양한 건강기능식품들이 출시되고 있다. 그 중 프로바이오틱스 시장은 2016년 기준 처음으로 시장점유율에서 비타민·무기질을 따돌리는 등 가파른 성장세를 보이고 있다. 안전한 건강기능식품 제조유통관리를 위해서는 지속적인 수거검사 등을 통해 원재료로 사용하였다고 제품에 표시한 균들의 정확한 확인이 필수적이다. 하지만 최근의 프로바이오틱스 제품들은 원재료로 단일 균이 아닌 다양한 유산균을 복합적으로 사용하고 있어 정확한 성상 파악에 큰 어려움이 있다.
지금처럼 시퀀싱 기술의 발달로 미생물의 전장 유전체 정보가 축적되기 전에는 미생물의 분류 동정을 위해 실험적인 기법이 사용되었으며 그 중 현재까지 표준으로 여겨지는 것으로는 DNA-DNA 혼성화(DNA-DNA hybridization; DDH)가 있다. DDH는 한 가닥의 DNA가 일정한 조건 하에서 다른 특정한 염기서열과 상보적으로 염기쌍을 형성하는 성질을 이용한 방법으로 70%의 DDH를 기준으로 동일 종 여부를 판단하였다. 하지만 유전체 정보가 쏟아져 나오고 있는 현재에 상대적으로 오랜 시간이 걸리고, 실험적인 로드가 큰 DDH 기법은 미생물 분류 동정에 더 이상 적합하지 않다.
그 후, DDH 실험보다 상대적으로 쉬운 PCR을 이용하여 16s rRNA 유전자를 증폭하고 시퀀싱하여 유사성(similarity)을 산출하고, 이를 두 균주의 유사도를 측정하는 지표로 사용하여 종을 구분하는 방법도 등장하였다. 이 때 70% DDH에 해당하는 종 구분의 기준은 97% 16s rRNA 유사성이다. 이 방법은 대중적으로 사용되고 있지만 여전히 프로바이오틱스 제품과 같이 다양한 균이 섞인 샘플에서의 미생물 동정에는 적합하지 않다. 보통 1600 bp의 길이를 갖는 16s rRNA 유전자 서열을 단일 리드로 한 번에 시퀀싱하게 되면 현재의 기술로는 에러율이 10%를 초과하는데 이는 종 구분의 기준인 97%를 확인하기에 부적합하며, 또한 여러 균들이 섞여 있기 때문에 짧은 리드들을 어셈블리하는 것도 불가능하기 때문이다.
차세대 염기서열 분석(Next-Generation Sequencing; NGS)이 보편화되면서 미생물의 전장 유전체를 쉽게 얻게 되었고, 이를 통한 인실리코(in silico) 기반 미생물 동정 방법도 등장하게 되었다. ANI(average nucleotide identity)는 비교하려는 균의 유전체 서열을 1020 bp씩 잘라낸 후 서로 높은 유사성을 가진 가닥들의 아이덴티티(identity)를 구한 값으로 95% 값을 기준으로 같은 종 여부를 파악한다. 하지만 이 또한 이미 정보를 알고 있는 타입의 균과 비교하려는 균을 정렬을 통해 짝을 이루어 참조서열 커버율을 계산하는 것이므로 여러 유산균이 섞여있는 샘플의 동정에는 사용할 수 없다.
기존 미생물의 동정법들은 대부분 단일 종에 대한 동정 분석이어서 여러 균이 섞여있는 메타지놈 샘플에 사용하기에 부적합하다. 메타지놈 샘플에서 단일종을 하나씩 분리하는데 실험적인 어려움이 있을뿐더러 혼합된 미지의 균을 단일종과 비교할 수도 없기 때문이다.
이에 본 발명자들은 종별 대표 균주를 선정하고 이로부터 생성한 참조서열을 이용하여 시료에 함유된 유산균을 동정하는 경우 검출능이 우수한 것을 확인하였다.
이에, 본 발명의 목적은 유산균 동정용 참조서열 제조방법을 제공하는 것이다.
본 발명의 또 다른 목적은 유산균 동정방법을 제공하는 것이다.
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로, 본 발명에 따른 방법에 의하면 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 동정할 수 있다.
이하 본 발명을 더욱 자세히 설명하고자 한다.
본 발명의 일 양태는 다음 단계를 포함하는 유산균 동정용 참조서열 제조방법이다:
유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계; 및
종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계.
상기 대표 균주 선정 단계는 하기와 같이 수행되는 것일 수 있다:
각각의 종 내에서 균주 간 페어와이즈 커버리지(pairwise coverage) 최소값을 도출하는 커버리지 계산 단계; 및
종마다 균주 중 커버리지 최소값이 가장 큰 균주를 선택하는 균주 선택 단계.
본 명세서상의 용어 커버리지(breadth of coverage)는, 참조서열을 기준으로 한 특정 영역을 의미한다. 구체적으로, 대상이 되는 염기서열을 랜덤하게 잘라 리드를 생성하고, 상기 리드를 참조서열에 맞추어 정렬하였을 때, 리드가 쌓인 부분의 비율을 커버리지라고 지칭한다.
예를 들어, 커버리지가 높을수록 리드가 참조서열의 보다 더 넓은 영역에 쌓인다는 것을 의미하므로, 대상이 되는 염기서열이 참조서열과의 유사도가 높음을 의미한다.
본 명세서상의 용어 뎁스(depth of coverage)는, 참조서열을 기준으로 한 특정 지점에서의 수치를 의미한다. 구체적으로, 대상이 되는 염기서열을 랜덤하게 잘라 리드를 생성하고, 상기 리드를 참조서열에 맞추어 정렬하였을 때, 특정 지점에 쌓인 리드의 개수를 표현한 수치를 뎁스라고 지칭한다.
본 명세서상의 용어 1-1 페어와이즈 커버리지는 리드를 참조서열에 맞추어 정렬함으로써 커버율을 계산하는 방법을 의미한다.
상기 유산균은 박테리아, 균류 및 바이러스로 이루어진 군으로부터 선택되는 2종 이상인 것일 수 있으나, 이에 한정되는 것은 아니다.
참조서열로 대표균주가 아닌 모든 균을 다 포함시킬 경우 참조서열이 매우 길어지며 정렬을 시키는데 시간이 굉장히 오래 걸리므로 비효율적일 수 있다. 또한 종 내에서 리드들이 한 곳에 집중해서 붙지 않고 여러 군데 나눠서 붙게 되어 커버리지가 매우 낮아진다. 뿐만 아니라 각 유산균마다 전체 유전체가 공개된 균주 수가 전부 달라 커버리지의 기준값을 설정하기 어렵게 된다.
따라서 종내의 균주들 중 커버리지 최소값이 가장 큰 균주를 선택함으로써, 자신을 제외한 나머지 균주들과 가장 유사성이 높은(1-1 페어와이즈 커버리지가 높은) 균주를 대표균주로 설정한 뒤 진행하는 것이 바람직하다.
본 발명의 다른 양태는 다음 단계를 포함하는 유산균 동정방법이다:
유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계;
종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계;
참조서열 및 종별 대표 균주들의 서열정보 간 페어와이즈 커버리지 최소값을 계산하여 기준값으로 설정하는 기준값 설정 단계; 및
시료에 함유된 유산균의 전체 유전체 서열 정보 및 상기 참조서열 간의 페어와이즈 커버리지(pairwise coverage) 값을 계산하는 서열 비교 단계.
본 발명의 유산균 동정방법은 박테리아, 균류 및 바이러스로 이루어진 군으로부터 선택되는 2종 이상에 대하여 수행될 수 있으나, 이에 한정되는 것은 아니다. 다만, 동정방법을 수행함에 있어서 과도하게 넓은 종을 포함하는 범위 내에서 수행하는 경우 많은 시간이 소요될 수 있고, 종간 유사성이 높은 종을 동정 대상으로 할 경우 구별에 어려움이 발생할 수 있다.
상기 대표 균주 선정 단계는 하기와 같이 수행되는 것일 수 있다:
각각의 종 내에서 균주 간 페어와이즈 커버리지(pairwise coverage) 최소값을 도출하는 커버리지 계산 단계; 및
종마다 균주 중 커버리지 최소값이 가장 큰 균주를 선택하는 균주 선택 단계.
상기 서열 비교 단계에서 도출된 값이 상기 기준값을 초과한 경우 해당 균주가 검출된 것으로 판단하는 검출 확인 단계를 추가적으로 포함하는 것일 수 있다.
상기 방법은 시료에 함유된 2종 이상의 유산균을 동시에 검출하는 것일 수 있다.
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로서, 상기 방법을 이용하면 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 검출할 수 있으므로, 이를 효과적으로 유산균의 동정에 이용할 수 있다.
도 1은 대표 균주의 선정 과정을 나타낸 모식도이다.
도 2a는 본 발명의 실시예에서 참조서열 제조에 이용한 유산균 중 비피도박테리움 롱검(Bifidobacterium longum; B.longum)에 대한 1-1 페어와이즈 ANI(average nucleotide identity) 결과를 나타낸 그림이다.
도 2b는 본 발명의 실시예에서 참조서열 제조에 이용한 유산균 중 락토코커스 락티스(Lactococcus lactis; Lc.lactis)에 대한 1-1 페어와이즈 ANI 결과를 나타낸 그림이다.
도 2c는 본 발명의 실시예에서 참조서열 제조에 이용한 유산균 중 락토바실러스 파라카제이(Lactobacillus paracasei; L.paracasei)와 락토바실러스 카제이(Lactobacillus paracasei; L.paracasei)에 대한 1-1 페어와이즈 ANI 결과를 나타낸 그림이다.
도 3은 본 발명의 유산균 동정 방법으로 샘플 내 유산균의 상대 비율을 측정한 그래프이다.
도 4a는 검출능 확인을 위한 시뮬레이션 수행 시 19종의 유산균이 들어간 실제 데이터를 이용하여 샘플링을 통해 데이터 용량별 소요 시간을 비교한 그래프이다.
도 4b는 검출능 확인을 위한 시뮬레이션 수행 시 19종의 유산균이 들어간 실제 데이터를 이용하여 정렬 옵션별 소요시간을 비교한 그래프이다.
도 5는 본 발명의 실시예에 따라 시료 053의 종별 검출 여부를 나타내는 커버리지 그래프이다.
본 발명은 다음 단계를 포함하는 유산균 동정용 참조서열 제조방법에 관한 것이다:
유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계; 및
종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계.
이하, 본 발명을 하기의 실시예에 의하여 더욱 상세히 설명한다. 그러나 이들 실시예는 본 발명을 예시하기 위한 것일 뿐이며, 본 발명의 범위가 이들 실시예에 의하여 한정되는 것은 아니다.
실시예 1: 유산균 종별 대표 균주의 선정
하기 표 1과 같이 식약처 고시 유산균 3속 19종 257균주를 포함한 9속 126종 597균주를 대상으로 하여 전체 유전체 데이터를 수집하였다.
Genus | # of species | # of strain |
Lactobacillus | 42 | 183 |
Bacillus | 35 | 195 |
Bifidobacterium | 17 | 70 |
Streptococcus | 10 | 36 |
Enterococcus | 7 | 43 |
Leuconostoc | 7 | 18 |
Pediococcus | 4 | 18 |
Lactococcus | 3 | 33 |
Oenococcus | 1 | 1 |
Total | 126 | 597 |
구체적으로 상기 유산균에 해당하는 균주는 하기 표 2와 같다.
유산균 목록 |
GCF_000195515.1, GCF_000196735.1, GCF_000204275.1, GCF_000221645.1, GCF_000242855.2, GCF_000262385.1, GCF_000494835.1, GCF_000508265.1, GCF_000833005.1, GCF_000835145.1, GCF_000973485.1, GCF_001483885.1, GCF_001586105.1, GCF_001593765.1, GCF_001593785.1, GCF_001596755.1, GCF_001705195.1, GCF_001874385.1, GCF_001889285.1, GCF_001922005.1, GCF_002173635.1, GCF_002209305.1, GCF_000165925.1, GCF_000830075.1, GCF_002173495.1, GCF_002243495.1, GCF_001721685.1, GCF_000177235.2, GCF_000009825.1, GCF_000737305.2, GCF_002250115.1, GCF_000169195.2, GCF_000217835.1, GCF_000832905.1, GCF_000876545.1, GCF_001039495.1, GCF_001870065.1, GCF_002250055.1, GCF_000972245.3, GCF_002024265.1, GCF_001719185.1, GCF_900093775.1, GCF_000011145.1, GCF_002157855.1, GCF_002276165.1, GCF_002109385.1, GCF_000706725.1, GCF_000008425.1, GCF_000011645.1, GCF_001596055.1, GCF_001726125.1, GCF_002074075.1, GCF_002074095.1, GCF_002074115.1, GCF_002074135.1, GCF_002173615.1, GCF_002173675.1, GCF_002174255.1, GCF_002236895.1, GCF_000025805.1, GCF_000025825.1, GCF_000225265.1, GCF_000832985.1, GCF_001050455.1, GCF_002009195.1, GCF_000724485.1, GCF_001645685.2, GCF_000294775.2, GCF_000408885.1, GCF_000876525.1, GCF_002068155.1, GCF_000005825.2, GCF_000017885.4, GCF_000590455.1, GCF_000972685.1, GCF_001191605.1, GCF_001431145.1, GCF_001431785.1, GCF_001548215.1, GCF_001578165.1, GCF_001578205.1, GCF_001700735.1, GCF_001704975.1, GCF_001908475.1, GCF_900186955.1, GCF_001895885.1, GCF_001938665.1, GCF_001938685.1, GCF_001938705.1, GCF_002077215.1, GCF_000093085.1, GCF_001578185.1, GCF_002243645.1, GCF_001050115.1, GCF_002202015.1, GCF_000009045.1, GCF_000146565.1, GCF_000186745.1, GCF_000209795.2, GCF_000227465.1, GCF_000227485.1, GCF_000293765.1, GCF_000321395.1, GCF_000338735.1, GCF_000344745.1, GCF_000349795.1, GCF_000497485.1, GCF_000523045.1, GCF_000699465.1, GCF_000699525.1, GCF_000706705.1, GCF_000737405.1, GCF_000772125.1, GCF_000772165.1, GCF_000772205.1, GCF_000782835.1, GCF_000789275.1, GCF_000789295.1, GCF_000827065.1, GCF_000953615.1, GCF_000971925.1, GCF_000973605.1, GCF_001015095.1, GCF_001037985.1, GCF_001465815.1, GCF_001534785.1, GCF_001541905.1, GCF_001565875.1, GCF_001597265.1, GCF_001604995.1, GCF_001660525.1, GCF_001697265.1, GCF_001703495.1, GCF_001704095.1, GCF_001720505.1, GCF_001746575.1, GCF_001747445.1, GCF_001808235.1, GCF_001889385.1, GCF_001889625.1, GCF_001890405.1, GCF_001902555.1, GCF_002055965.1, GCF_002072735.1, GCF_002096095.1, GCF_002142595.1, GCF_002163815.1, GCF_002173695.1, GCF_002173715.1, GCF_002201955.1, GCF_002201995.1, GCF_002202035.1, GCF_002202055.1, GCF_002216085.1, GCF_002269175.1, GCF_002269195.1, GCF_000496285.1, GCF_002113805.1, GCF_000015785.1, GCF_000283695.1, GCF_000284395.1, GCF_000319475.1, GCF_000341875.1, GCF_000455565.1, GCF_000455585.1, GCF_000493375.1, GCF_000583065.1, GCF_000685725.1, GCF_000769555.1, GCF_000973585.1, GCF_000987825.1, GCF_000988345.1, GCF_001023595.1, GCF_001536925.1, GCF_001593395.2, GCF_001685645.1, GCF_001687745.1, GCF_001723585.1, GCF_001752685.1, GCF_001854345.1, GCF_001857985.1, GCF_002005345.1, GCF_002057535.1, GCF_002072695.1, GCF_002105595.1, GCF_002117165.1, GCF_002157265.1, GCF_002192235.1, GCF_002205715.1, GCF_002216755.1, GCF_002237515.1, GCF_002238395.1, GCF_002243325.1, GCF_001889165.1, GCF_001857925.1, GCF_001263395.1, GCF_000010425.1, GCF_000737885.1, GCF_000817995.1, GCF_000966445.2, GCF_001025155.1, GCF_000021425.1, GCF_000022705.1, GCF_000022965.1, GCF_000025245.1, GCF_000092765.1, GCF_000220885.1, GCF_000224965.2, GCF_000260715.1, GCF_000277325.1, GCF_000277345.1, GCF_000414215.1, GCF_000471945.1, GCF_000695895.1, GCF_000816205.1, GCF_000817045.1, GCF_000818055.1, GCF_001688645.2, GCF_002220485.1, GCF_000304215.1, GCF_000164965.1, GCF_000165905.1, GCF_000265095.1, GCF_001025135.1, GCF_001281345.1, GCF_000213865.1, GCF_000220135.1, GCF_000568955.1, GCF_000568975.1, GCF_000569015.1, GCF_000569035.1, GCF_000569055.1, GCF_000569075.1, GCF_001025175.1, GCF_001281425.1, GCF_001990225.1, GCF_001025195.1, GCF_000737865.1, GCF_000024445.1, GCF_001042595.1, GCF_000706765.1, GCF_000800455.1, GCF_001042615.1, GCF_000007525.1, GCF_000008945.1, GCF_000020425.1, GCF_000092325.1, GCF_000166315.1, GCF_000196555.1, GCF_000196575.1, GCF_000219455.1, GCF_000269965.1, GCF_000730205.1, GCF_000772485.1, GCF_000829295.1, GCF_001281305.1, GCF_001293145.1, GCF_001446255.1, GCF_001446275.1, GCF_001719085.1, GCF_001725985.1, GCF_001025215.1, GCF_000800475.2, GCF_001042635.1, GCF_000347695.1, GCF_000157355.2, GCF_001267395.1, GCF_001267865.1, GCF_000007785.1, GCF_000172575.2, GCF_000281195.1, GCF_000317915.1, GCF_000550745.1, GCF_000742975.1, GCF_001598635.1, GCF_001689055.2, GCF_001878735.1, GCF_001886675.1, GCF_001989555.1, GCF_002163735.1, GCF_000174395.2, GCF_000250945.1, GCF_000336405.1, GCF_000444405.1, GCF_000737555.1, GCF_001298485.1, GCF_001412695.1, GCF_001518735.1, GCF_001587115.1, GCF_001635875.1, GCF_001720945.1, GCF_001721065.1, GCF_001721905.1, GCF_001750885.1, GCF_001886635.1, GCF_001895905.1, GCF_001953235.1, GCF_001953255.1, GCF_002007625.1, GCF_002024245.1, GCF_002025045.1, GCF_002025065.1, GCF_900066025.1, GCF_900092475.1, GCF_001558875.1, GCF_000271405.2, GCF_001641305.1, GCF_000504125.1, GCF_001042405.1, GCF_900116935.1, GCF_000011985.1, GCF_000389675.2, GCF_000934625.1, GCF_002224305.1, GCF_002240375.1, GCF_002075105.1, GCF_001936335.1, GCF_000191545.1, GCF_000194115.1, GCF_001663655.1, GCF_001663675.1, GCF_001663715.1, GCF_001663735.1, GCF_001663755.1, GCF_000014465.1, GCF_000359625.1, GCF_001676805.1, GCF_002117225.1, GCF_002117325.1, GCF_002117345.1, GCF_002117375.1, GCF_002138395.1, GCF_002173555.1, GCF_002174235.1, GCF_000211375.1, GCF_000298115.2, GCF_000019245.4, GCF_000026485.1, GCF_000194765.1, GCF_000194785.1, GCF_000309565.2, GCF_000318035.1, GCF_000418515.1, GCF_000829055.1, GCF_002192215.1, GCF_001951175.1, GCF_000785105.2, GCF_001663835.1, GCF_001698165.1, GCF_001723545.1, GCF_002224425.1, GCF_002224505.1, GCF_000014405.1, GCF_000056065.1, GCF_000182835.1, GCF_000191165.1, GCF_001469775.1, GCF_001888905.1, GCF_001888925.1, GCF_001888945.1, GCF_001888965.1, GCF_001888985.1, GCF_001908415.1, GCF_001953135.1, GCF_002000885.1, GCF_002142575.1, GCF_900196735.1, GCF_000010145.1, GCF_000210515.1, GCF_000397165.1, GCF_000466785.3, GCF_001742205.1, GCF_001941785.1, GCF_002119645.1, GCF_002192435.1, GCF_001314245.2, GCF_000014425.1, GCF_002158885.1, GCF_001050475.1, GCF_000831645.3, GCF_000015385.1, GCF_000165775.1, GCF_000189515.1, GCF_000422165.1, GCF_000525715.1, GCF_000961015.1, GCF_001006025.1, GCF_001308285.1, GCF_001702095.1, GCF_001746265.1, GCF_000829395.1, GCF_001936235.1, GCF_000008065.1, GCF_000091405.1, GCF_000204985.1, GCF_000498675.1, GCF_001714745.1, GCF_002176835.1, GCF_002176855.1, GCF_000214785.1, GCF_001050435.1, GCF_001314945.1, GCF_001702115.1, GCF_001702135.1, GCF_000248095.2, GCF_001922025.1, GCF_000014525.1, GCF_000155515.2, GCF_000582665.1, GCF_000829035.1, GCF_001191565.1, GCF_001244395.1, GCF_001514415.1, GCF_002079285.1, GCF_002257625.1, GCF_001702155.1, GCF_001702175.1, GCF_001702195.1, GCF_001443645.1, GCF_002211885.1, GCF_000023085.1, GCF_000148815.2, GCF_000203855.3, GCF_000338115.2, GCF_000392485.3, GCF_000412205.1, GCF_000604105.1, GCF_000931425.1, GCF_001278015.1, GCF_001296095.1, GCF_001302645.1, GCF_001484005.1, GCF_001581895.1, GCF_001596095.1, GCF_001617525.1, GCF_001659745.1, GCF_001660025.1, GCF_001672035.1, GCF_001704315.1, GCF_001704335.1, GCF_001715615.1, GCF_001874125.1, GCF_001880185.1, GCF_001908455.1, GCF_001990145.1, GCF_002024845.1, GCF_002109405.1, GCF_002109425.1, GCF_002116955.1, GCF_002117245.1, GCF_002117265.1, GCF_002117285.1, GCF_002117305.1, GCF_002173655.1, GCF_002174195.1, GCF_002205775.2, GCF_002220175.1, GCF_002220815.1, GCF_000010005.1, GCF_000016825.1, GCF_000159455.2, GCF_000236455.2, GCF_000410995.1, GCF_000439275.1, GCF_001046835.1, GCF_001618905.1, GCF_001688685.2, GCF_000011045.1, GCF_000026505.1, GCF_000026525.1, GCF_000233755.1, GCF_000418475.1, GCF_000418495.1, GCF_001721925.1, GCF_001988935.1, GCF_002076955.1, GCF_002158925.1, GCF_900070175.1, GCF_000224985.1, GCF_000026065.1, GCF_002224565.1, GCF_002250035.1, GCF_000008925.1, GCF_000143435.1, GCF_000758365.1, GCF_001011095.1, GCF_001723525.1, GCF_002162055.1, GCF_900094615.1, GCF_000225325.1, GCF_900183405.1, GCF_000269925.1, GCF_000269945.1, GCF_000006865.1, GCF_000009425.1, GCF_000014545.1, GCF_000025045.1, GCF_000143205.1, GCF_000192705.1, GCF_000236475.1, GCF_000312685.1, GCF_000344575.1, GCF_000468955.1, GCF_000478255.1, GCF_000479375.2, GCF_000761115.1, GCF_000807375.1, GCF_002078375.1, GCF_002078415.1, GCF_002078435.1, GCF_002078475.1, GCF_002078495.1, GCF_002078615.1, GCF_002078765.1, GCF_002078855.1, GCF_002078895.1, GCF_002078915.1, GCF_002078935.1, GCF_002078955.1, GCF_002078975.1, GCF_002078995.1, GCF_002148215.1, GCF_900088425.1, GCF_000981525.1, GCF_000300135.1, GCF_000026405.1, GCF_001998805.1, GCF_000196855.1, GCF_000298875.1, GCF_001536305.1, GCF_000092505.1, GCF_001698145.1, GCF_000014445.1, GCF_000234825.3, GCF_000512955.1, GCF_001047695.1, GCF_001583825.1, GCF_001886915.1, GCF_001891125.1, GCF_002009375.1, GCF_002117185.1, GCF_002148235.1, GCF_000014385.1, GCF_001767275.1, GCF_001922325.1, GCF_002173575.1, GCF_002173595.1, GCF_002174215.1, GCF_000237995.1, GCF_001702215.1, GCF_001702235.1, GCF_001611035.1, GCF_001611075.1, GCF_001611115.1, GCF_001611135.1, GCF_001611155.1, GCF_000014505.1, GCF_000496265.1, GCF_001411765.2, GCF_002173535.1, GCF_002202155.1, GCF_000385925.1, GCF_000017005.1, GCF_000970665.2, GCF_001281105.1, GCF_002073435.1, GCF_001598035.1, GCF_001708305.1, GCF_000283635.1, GCF_001623565.1, GCF_900187085.1, GCF_001642085.1, GCF_000253315.1, GCF_000253335.1, GCF_000448685.2, GCF_000785515.1, GCF_001543085.1, GCF_002073835.1, GCF_002094955.1, GCF_002094975.1, GCF_000011825.1, GCF_000011845.1, GCF_000014485.1, GCF_000182875.1, GCF_000253395.1, GCF_000262675.1, GCF_000698885.1, GCF_000971665.1, GCF_001008015.1, GCF_001280285.1, GCF_001514435.1, GCF_001663795.1, GCF_001685375.1, GCF_001705585.1, GCF_001855705.1, GCF_002012365.1, GCF_900094135.1 |
NCBI(www.ncbi.nlm.nih.gov/)에서 종별로 전체 유전체(complete genome)를 받아서 종내 1-1 페어와이즈(pairwise) ANI(github.com/chjp/ANI)를 구한 후 95%를 기준으로 필터링하였다(A균과 B균의 ANI를 구하는 명령어: perl ANI.pl --fd formatdb --bl blastall --qr A.fa --sb B.fa --od result > A_B_ANI.txt).
그 후 종내 균주(strain) 각각에 대해 ART 시뮬레이션(www.niehs.nih.gov/research/resources/software/biostatistics/art/)을 이용(art_illumina -p -l 100 -f 100 -m 350 -s 10)하였고, 시뮬레이션 데이터(illumina pair-end simulation data)를 얻었다(A균을 illumina paired-end 리드로 시뮬레이션 하는 명령어: ART/art_illumina -i A.fa -p -l 100 -f 100 -m 350 -s 10 -o A_).
위와 마찬가지로 종내에서 1-1 페어와이즈로 참조 유전체를 지정해 각각의 커버리지(정렬은 bowtie2 기본 옵션, Bam file sorting - samtools(samtools.sourceforge.net/), 커버리지 계산은 bedtools의 genomecov)를 구하였다(input.bam 파일을 정렬하여 output_sorted.bam 파일을 생성하는 명령어: samtools sort input.bam -o output_sorted.bam).
도 1과 같이 참조 유전체로 사용한 각 균주의 커버리지 최소값을 구한 후, 그 중 가장 큰 최소값을 보인 균주를 그 종의 대표 균주로 설정하였다.
구체적으로, NCBI에서 모은 전체 유전체에 대해 종별로 모은 후 종내에서 ANI 기준 95%가 넘지 않는 균주를 필터링하였다. 그 후 필터링된 대표 균주에 대해 1-1 페어와이즈 커버리지를 구하였다.
예를 들어 종내 균주가 총 4개일 때 (Strain_1, Strain_2, Strain_3, Strain_4), 각 균주가 참조서열이 될 때 가지는 커버리지 값들 중 최소값을 뽑아(Stain_1: 0.79, Strain_2: 0.86, Strain_3: 0.87, Strain_4: 0.83) 균주별로 비교하여 가장 큰 커버리지 값을 보이는 Strain_3을 이 종의 대표 균주라 선정하였다.
상기 대표 균주 130개에 대하여 멀티-파스타(multi-fasta) 파일을 생성하여 메타지놈 샘플의 성분을 파악하는 참조서열로 준비하였다. 참조서열이 대표 균주일 때 및 대표 균주들의 집단일 때의 커버리지 차이를 보아 위에서 정한 커버리지의 기준값을 사용하여도 되는지 확인하였다.
한편, ANI를 기준으로 필터링할 때 둘 이상의 그룹을 보인다면 그룹을 따로 분리하여 커버리지를 계산해 둘 이상의 대표 균주를 설정하였고 종내 전체 유전체가 2개 균주일 경우 둘 중 하나를 랜덤으로, 1개 균주일 경우 별도의 계산 없이 바로 대표 균주로 설정하였다. 70% DDH 내지 95% ANI에 해당하는 커버리지는 종별 대표 균주가 가진 커버리지 값들 중 최소값으로 설정하였다.
실시예 2: 검출능 검정
NCBI-SRA(www.ncbi.nlm.nih.gov/SRA)에서 단일 균종에 대한 WGS(Whole genome shotgun) 데이터를 다운받아 대표 균주 집단에 정렬하여 해당 균을 검출해 내는지 확인하였다. 이 때 하나의 균이 아닌 두 개의 균이 검출된 종 (L.casei, L.paracasei, L.helveticus)에 대해서는 검출된 두 종에 대한 모든 전체 유전체를 참조 서열로 사용하여 bowtie2 -a 옵션으로 정렬, 가장 높은 커버리지를 보인 종을 검출종으로 지정하였다.
다음으로 메타지놈 샘플에서의 검출능을 살펴보기 위하여 시뮬레이션 데이터, NCBI-SRA 데이터, 실제 유산균 데이터(illumina, ion torrent의 두 가지 플랫폼) 세 가지 단계로 프로그램을 구동하였다.
구체적으로, 시뮬레이션 데이터의 경우 유산균 종마다의 실제 유전 정보를 마치 시퀀싱한 것처럼 리드로 만들어 낸 데이터를 말한다. 전체 유전정보가 있으면 컴퓨터 소프트웨어(ART simulator)로 시뮬레이션 리드 데이터를 생성할 수 있다. 즉, 실제 데이터가 아닌 시뮬레이션 데이터를 만들어 이를 합산한 것을 말한다.
NCBI-SRA 데이터는 공개 데이터로 다른 실험자가 유산균 단일 종에 대해 실제 시퀀싱한 데이터를 말하며 10개의 독립 시퀀싱 데이터를 하나로 합산한 것이다.
실제 유산균 데이터란 프로바이오틱스 제품에서 뽑아낸 시퀀싱 데이터로 여러 종의 데이터를 포함하는 메타게놈 시퀀싱 데이터를 말한다.
첫째 시뮬레이션 데이터를 활용한 경우, 유산균 10종(L.reuteri, L.delbrueckii , L.rhamnosus, B.longum, L.acidophilus, B.bifidum, L.salivarius, L.fermentum, B.breve, E.faecalis)에 대해 각각의 전체 유전체에서 ART 시뮬레이션을 이용하여 리드(simulated illumina pair-end)를 얻고(art_illumina -p -l 100 -f 100 -m 350 -s 10) 이를 결합하여 하나의 커다란 메타지놈 데이터를 만들었다. 이 때 각 종의 리드 수는 그 종의 시퀀스 길이에 비례해서 넣어주었다.
메타지놈 샘플을 위와 같은 방식으로 대표 균주 집단에 정렬하고 커버리지 측정을 이용하여 균을 검출하였으며, 기존의 메타지놈 분석 소프트웨어인 MetaPhlan(huttenhower.sph.harvard.edu/metaphlan), MetaPhlan 2(huttenhower.sph.harvard.edu/metaphlan2)와 비교하였다. 이 때 설정한 커버리지 기준값인 0.7137을 넘어서는 종을 검출종으로 판단하였고, MetaPhlan과 MetaPhlan 2는 종 수준으로 판별된 것을 검출종으로 판단하였다.
추가적으로 비율의 분포를 구하기 위해 식약처 고시 유산균 19종에 해당하는 전체 유전체를 모두 사용하였는데, 하기 표 3과 같이 19종 내 대표 균주인 23 균주별 각 그룹의 모든 균주를 연결하여 하나의 fasta 파일로 만들고 이를 합쳐 참조 서열로 이용하였다. 그 후 비율은 각 그룹별 뎁스(depth)의 상대 비율을 구해 사용하였으며 뎁스는 그룹 내 균주들의 평균 길이로 나누어 구하였다.
Species | Accession |
Bifidobacterium_animalis | GCF_000260715.1 |
Bifidobacterium_bifidum | GCF_000164965.1 |
Bifidobacterium_breve | GCF_000568955.1 |
Bifidobacterium_longum | GCF_001719085.1 |
GCF_000092325.1 | |
GCF_001281305.1 | |
Enterococcus_faecalis | GCF_001886675.1 |
Enterococcus_faecium | GCF_900066025.1 |
Lactobacillus_acidophilus | GCF_000389675.2 |
Lactobacillus_casei | GCF_000829055.1 |
GCF_000019245.4 | |
Lactobacillus_delbrueckii | GCF_001953135.1 |
Lactobacillus_fermentum | GCF_001742205.1 |
Lactobacillus_gasseri | GCF_002158885.1 |
Lactobacillus_helveticus | GCF_000525715.1 |
Lactobacillus_paracasei | GCF_001514415.1 |
Lactobacillus_plantarum | GCF_001581895.1 |
Lactobacillus_reuteri | GCF_001046835.1 |
Lactobacillus_rhamnosus | GCF_000418475.1 |
Lactobacillus_salivarius | GCF_900094615.1 |
Lactococcus_lactis | GCF_000006865.1 |
GCF_002078765.1 | |
Streptococcus_thermophilus | GCF_900094135.1 |
두 번째로 NCBI-SRA 데이터를 활용한 경우, 상기 데이터를 다운받아 종별로 가장 가까운 균주를 찾고, 해당 균주의 서열 길이에 비례하여 리드 수를 맞춘 후 결합하여 상기와 같은 방법으로 비교하여 표 4와 같이 나타내었다.
Species | Accesion | Nearest strain | Strain's length(bp) | # of Read |
L.delbrueckii | ERR231531 | GCF_001953135.1 | 1,868,180 | 1,774,959 |
L.gasseri | ERX980028 | GCF000014425.1 | 1,894,360 | 1,799,833 |
L.salivarius | ERX529268 | GCF001011095.1 | 1,978,364 | 1,879,645 |
L.acidophilus | SRX456377 | GCF_000934625.1 | 1,991,969 | 1,892,571 |
L.reuteri | SRX456270 | GCF_001046835.1 | 1,993,967 | 1,894,470 |
B.bifidum | SRX456396 | GCF_001025135.1 | 2,211,039 | 2,100,710 |
L.helveticus | SRX456228 | GCF_000422165.1 | 2,225,962 | 2,114,888 |
B.breve | SRX456387 | GCF_001025175.1 | 2,269,415 | 2,156,173 |
Lc.lactis | ERX231530 | GCF_000192705.1 | 2,518,737 | 2,393,054 |
B.longum | SRX456377 | GCF_000269965.1 | 2,828,958 | 2,687,795 |
마지막으로 실제 데이터의 검출능을 살펴보기 위하여 유산균 19종이 모두 포함된 시뮬레이션 전체 유전체 데이터와 4 내지 11개의 유산균이 포함된 유산균 제품의 이온 토렌트(on torrent) 전체 유전체 데이터를 사용하여 분석하였으며 마찬가지로 MetaPhlan, MetaPhlan 2와 비교하였다. 먼저, TRIMMOMATIC(TRAILING:30, 퀄리티가 떨어지는 시퀀싱 리드를 제거하는 명령어)을 이용하여 품질관리(quality control)를 한 뒤 사용하였다.
이 때 일루미나(Illumina) 데이터의 경우 용량을 30Gb, 15Gb, 7.5Gb, 3Gb, 1.5Gb 줄여가면서 수행, 소요시간을 측정하였으며 bowtie2의 -very-fast와 130종 참조 서열을 연결시켰을 때의 시간도 비교하였다. 이온 토렌트 데이터의 경우 정렬 프로그램으로 bowtie2가 아닌 TMAP aligner를 사용하였으며 stage1 map4 옵션을 사용하였다.
상기 3가지 방법을 사용하여, MetaPhlan, MetaPhlan 2와 비교하여 표 5와 같이 나타내었다.
Species | 서열 길이 (bp) | Fastq 리드 계수 | 데이터 용량 (Mb) |
L.reuteri | 1,993,967 | 1,809,765 | 446.11 |
L.delbrueckii | 1,868,180 | 1,695,598 | 424.36 |
L.rhamnosus | 2,883,376 | 2,617,011 | 650.3 |
B.longum | 2,477,838 | 2,054,903 | 508.65 |
L.acidophilus | 1,991,579 | 1,807,598 | 452.41 |
B.bifidum | 2,186,882 | 1,984,859 | 493.1 |
L.salivarius | 2,033,361 | 1,845,520 | 460.23 |
L.fermentum | 1,949,874 | 1,769,745 | 439.61 |
B.breve | 2,244,624 | 2,037,266 | 502.29 |
E.faecalis | 2,668,255 | 2,421,763 | 597.34 |
실시예 3: 기준값의 설정
사용한 전체 유전체는 126종 597균주였으며, 종 내에는 1 내지 61개의 균주를 포함하였다. 대표 균주를 구하기에 앞서 종내 1-1 페어와이즈 ANI를 구하여 필터링하였다.
도 2a 내지 2c에서 확인할 수 있듯이, 95% 기준 두 개 이상의 그룹을 보인 경우는 식약처 고시 19종 중 비피도박테리움 롱검(Bifidobacterium longum; B.longum) 및 락토코커스 락티스(Lactococcus lactis; Lc.lactis), 그리고 서로 다른 종이지만 ANI 기준 같은 종으로 구분되는 락토바실러스 카제이(Lactobacillus casei; L.casei) 및 락토바실러스 파라카제이(Lactobacillus paracasei; L.paracasei)까지 3종류로 나타났다. B.longum의 경우 97% ANI를 기준으로 세 그룹으로 묶였으며, 나머지 종은 95% ANI 기준으로 두 그룹으로 묶였다.
같은 종임에도 불구하고 서로 간의 유사성이 낮아(ANI 기준 다른 종으로 구분) 아종을 구분하지 못하여 검출을 하지 못하는 일이 생길 수 있기 때문에, 이들 중 종별 대표 균주를 B.longum 2 균주, L.casei 1 균주, Lc.lactis 1 균주 추가로 선정하여 126종으로부터 총 130균주를 얻었다.
구체적으로, Lc.lactis는 Lc.lactis.lactis, Lc.lactis.cremoris 두 가지의 아종을 가지고 있다. 같은 종임에도 불구하고 두 아종 사이의 ANI는 78 정도 밖에 되지 않는데(ANI 기준 95%가 넘는 것이 같은 종의 기준) 이는 Lc.lactis.lactis에서만 대표 균주를 뽑아 참조 데이터베이스로 이용하면 Lc.lactis.cremoris를 검출해 내지 못하는 일을 발생시킨다. 그러므로 종내에 ANI 기준으로 그룹이 생기는 경우 그룹별로 대표균주를 추가 선정하였다.
종내 대표 균주를 참조서열로 하여 구한 1-1 페어와이즈 커버리지는 종별로 큰 차이를 보였는데 그 중 최소값은 B.longum에서 95% ANI 기준 0.7137이었다. 이 값은 종 내에 전체 유전체 서열상의 변이들이 얼마나 많은지에 따라 달라지는 것으로 보인다. 특히, 0.7137의 최소값을 보인 B.longum의 경우 97% ANI 기준 3개의 그룹으로 나뉘어졌었고, 그룹별로 나누어 그룹내 대표 균주와의 1-1 페어와이즈 커버리지는 0.8453까지 증가하였다. 이 수치는 종내의 아종에 대한 분리 기준이므로, 종 간의 분리 기준은 0.7137로 이용하였다.
표 6에서 확인할 수 있듯이, 각 균주들을 종내 대표 균주에 정렬시켰을 때와 대표 균주 130개를 한 번에 묶은 집단에 정렬시켰을 때의 커버리지 차이가 매우 적어(<0.17%) 95% ANI에 해당하는 커버리지 기준 값을 0.7137로 이용하였다.
Lactobacillus_brevis | Lactobacillus_helveticus | ||||||||
균주 | ANI | 커버리지 | 차이 | 균주 | ANI | 커버리지 | 차이 | ||
대표 균주 | 대표 집단 | 대표 균주 | 대표 집단 | ||||||
52693 | 99.073 | 0.9448 | 0.9451 | 0.0003 | 52819 | 98.668 | 0.9269 | 0.9265 | 0.0004 |
52707 | 97.383 | 0.8934 | 0.8939 | 0.0005 | 52821 | 97.254 | 0.874 | 0.8734 | 0.0006 |
52713 | 96.866 | 0.8857 | 0.887 | 0.0013 | 52822 | 97.941 | 0.8905 | 0.8898 | 0.0007 |
52714 | 96.92 | 0.8854 | 0.8865 | 0.0011 | 52823 | 98.765 | 0.9321 | 0.9318 | 0.0003 |
52715 | 97.264 | 0.9026 | 0.9009 | 0.0017 | 52832 | 98.955 | 0.9359 | 0.9355 | 0.0004 |
52716 | 97.198 | 0.9026 | 0.9011 | 0.0015 | 52833 | 99.153 | 0.9479 | 0.9476 | 0.0003 |
52717 | 99.298 | 0.9455 | 0.9462 | 0.0007 | 52834 | 97.838 | 0.8824 | 0.8816 | 0.0008 |
52718 | 99.09 | 0.9572 | 0.9581 | 0.0009 | 52839 | 98.712 | 0.9439 | 0.9431 | 0.0008 |
52719 | 98.953 | 0.9496 | 0.9502 | 0.0006 | 52840 | 98.717 | 0.9439 | 0.9431 | 0.0008 |
식약처 고시 19종 유산균에 대한 단일 균 WGS 데이터를 NCBI-SRA에서 받아 단일 균에 대한 검출능을 살펴본 결과, 표 7에 나타난 바와 같이 L.casei, L.paracasei, L.helveticus에서 두 개 이상의 종이 검출되었고, 나머지 종들은 하나의 종만 검출되었다.
Species | 접근번호 | 검출 (커버리지) | Next (커버리지) | |
Lc.lactis | ERX231530 | 0.92 | 0.07 | |
S.thermophilus | SRX2610845 | 0.97 | 0.25 | |
L.acidophilus | SRX2610831 | 1.00 | 0.05 | |
L.plantarum | ERX1625346 | 0.94 | 0.14 | |
E.faecium | ERX2085159 | 0.89 | 0.07 | |
B.longum | ERX1960389 | 0.74 | 0.18 | |
B.animalis | SRX2610848 | 0.89 | 0.05 | |
B.breve | SRX2610844 | 0.94 | 0.15 | |
L.delbrueckii | ERX231531 | 0.96 | 0.17 | |
E.faecalis | ERX2102726 | 0.93 | 0.01 | |
L.rhamnosus | SRX2610827 | 0.93 | 0.04 | |
L.salivarius | SRX2268576 | 0.88 | 0.19 | |
L.gasseri | ERX980028 | 0.77 | 0.19 | |
L.reuteri | SRX2268579 | 0.83 | 0.10 | |
L.fermentum | SRX2268582 | 0.88 | 0.11 | |
B.bifidum | ERX1101269 | 0.94 | 0.02 | |
L.casei | ERX450901 | 0.88 | 0.86 (L.paracasei) | 0.07 |
L.paracasei | ERX178725 | 0.87 | 0.88 (L.casei) | 0.17 |
L.helveticus | SRX2268585 | 0.85 | 0.73 (L.gallinarum) | 0.11 |
표 7의 Next는 검출된 종 그 다음으로 높게 나온 커버리지 값이다. 단일 종의 시퀀싱 데이터를 이용한 것이기에 검출 파이프라인의 결과로 단 하나의 종만 검출이 되어야 하지만, 만약 Lc.lactis의 단일 종 데이터에서 0.92의 커버리지로 Lc.lactis가 검출되었고 그 다음으로 높게 나온 커버리지가 0.6의 커버리지가 나오게 되면 이는 검출되지는 않았지만 여러 종이 섞인 데이터에서는 잘못 검출될 수도 있음을 의미한다. 두 번째로 높게 나온 커버리지가 0.0 내지 0.2로 낮게 나와 정확히 하나의 종만을 검출했다는 것을 확인할 수 있는 항목이다.
ANI를 기준으로 구별할 수 없었던 종이 동시에 검출된 경우 참조 서열로 두 종내 모든 균주를 이용하였는데, L.paracasei의 SRA 데이터를 L.paracasei와 L.casei의 전체 유전체(18 균주)를 참조서열로 삼아 정렬하여 표 8과 같이 나타내었다.
검출 | 디폴트 옵션 | All (-a) | All+perfect(-a --score-min 'C,0,-1') |
L.paracasei | 0.7420 | 0.9119 | 0.6933 |
L.casei | 0.7337 | 0.9006 | 0.6896 |
기본 옵션, multi-fasta 기준 모든 곳에 다 붙는 All 옵션 및 참조서열과 정확히 일치해야 붙는 perfect 옵션까지 총 세 가지 옵션 전부에서 L.paracasei 균주가 제일 높은 커버리지를 보여 정확히 검출되었다. L.casei와 L.paracasei의 경우 bowtie2 -a 옵션을 주었을 때 정확히 해당하는 종이 검출되었다. 또한, L.helveticus의 경우 L.gallinarum의 균주가 1개 밖에 없어 서로의 ANI가 95%가 넘는 것만을 확인하였다.
실시예 4: 혼합 메타지놈 샘플로부터의 검출능 확인
첫째로 시뮬레이션 데이터를 사용한 경우, 본 발명에 따른 방법과 MetaPhlan, MetaPhlan 2 모두에서 정확히 시뮬레이션한 10종이 검출되었다.
뎁스의 경우 genomcov 파일에서 참조 서열의 bp 하나당 리드가 쌓인 횟수를 모두 더한 뒤 시퀀스 길이로 나누어 구했으며 리드 개수의 경우 samtools idxstats를 이용하여 실제 각 대표 균주에 붙은 리드 수를 적어 표 9로 나타내었다.
Species | Methphaln 1 | Methphaln 2 | 뎁스 |
L.reuteri | 8.17 | 7.92 | 9.98 |
L.delbrueckii | 10.29 | 10.17 | 10.06 |
L.rhamnosus | 10.84 | 9.62 | 10.13 |
B.longum | 8.69 | 7.95 | 9.77 |
L.acidophilus | 12.06 | 11.78 | 10.51 |
B.bifidum | 11.27 | 11.35 | 10.39 |
L.salivarius | 8.83 | 9.34 | 10.08 |
L.fermentum | 10.74 | 11.12 | 9.51 |
B.breve | 9.46 | 10.56 | 10.07 |
E.faecalis | 9.66 | 10.18 | 9.49 |
표 9 및 도 3에서 확인할 수 있듯이, 리드의 길이가 100 bp로 모두 같아 각 대표 균주의 리드 개수/시퀀스 길이의 비율과 뎁스의 비율이 일치하였다.
표 10에서 확인할 수 있듯이, 시뮬레이션 샘플 안의 각종 비율의 분산 값은 뎁스에서 0.11이 나와 MetaPhlan 1의 1.56, MetaPhlan 2의 1.75보다 낮았다.
프로그램명 | 분산 |
Depth | 0.11 |
MetaPhlan 1 | 1.56 |
MetaPhlan 2 | 1.75 |
두 번째로 NCBI-SRA에서 단일 균종 데이터 10개를 받아 합친 메타지놈에 대해 프로그램을 작동시킨 결과 10종이 검출되었고, MetaPhlan에선 41종, MetaPhlan 2에선 37종이 검출되어 MetaPhlan 1 또는 MetaPhlan 2에 비해 정확한 결과를 도출할 수 있음을 확인하였다.
세 번째 실제 데이터는 19종의 유산균이 들어간 illumina paired-end 데이터를 이용하여 데이터의 용량별, 정렬시킬 때의 옵션별 소요시간을 확인하고 각각 표 11 및 12로 나타내었다.
수행 | 프로그램 (버전) | 디폴트 | 50% | 25% | 10% | 5% |
Align | Bowtie2 (2.3.3.1) | 383 | 105 | 60 | 20 | 10 |
BAM file sorting | Samtools (1.3.1) | 40 | 15 | 8 | 3 | 2 |
genomecov | Bedtools (v2.20.1) | 28 | 10 | 5 | 2 | 1 |
Sum | 451 | 130 | 73 | 25 | 13 |
표 11 및 도 4a에서 확인할 수 있듯이, Illumina paired-end 데이터의 경우 용량이 약 60Gb(30Gb*2) 이었는데 용량을 30Gb, 15Gb, 7.5Gb 및 3Gb(각각 15Gb*2, 7.5Gb*2, 3Gb*2 및 1.5Gb*2)로 줄여가면서 소요된 시간을 계산한 결과, 차례로 451분, 130분, 73분, 25분, 15분으로 줄어들었다.
데이터의 용량을 줄이는 것은 리드 생성량을 줄여서 수행할 수 있고, 리드 생성량은 시퀀싱 과정에서 조절할 수 있다. 또는 생성된 리드에서 랜덤 샘플링을 통해 용량을 원하는 만큼 줄일 수 있다(sampling을 통해 리드 수를 10,000개로 줄이는 명령어: seqtk sample -s100 read1.fq 10,000 > sub1.fq).
표 12 및 도 4b에서 확인할 수 있듯이, Bowtie2의 -very-fast 옵션(Bowtie2의 옵션 중 하나로 덜 민감하게 정렬시켜 시간을 줄이는 옵션)과 참조 서열을 연결할 때의 경우는 각각 242분, 295분으로 줄어들었다.
수행 | 프로그램 (버전) | 디폴트 | very-fast | 참조서열 연결 |
Align | Bowtie2 (2.3.3.1) | 383 | 190 | 235 |
BAM file sorting | Samtools (1.3.1) | 40 | 35 | 44 |
genomecov | Bedtools (v2.20.1) | 28 | 17 | 16 |
Sum | 451 | 242 | 295 |
표 13에서 확인할 수 있듯이, 식약처 고시 유산균 19종이 모두 포함된 illumina platform 형식의 실제 데이터의 각 프로그램 별 검출 현황으로서는 비피도박테리움 비피덤(Bifidobacterium bifidum; B.bifidum)이 0.3722로 불검출되었고 나머지 18종은 검출되었다. MetaPhlan의 경우 19종에 2종이 추가 검출되었으며, MetaPhlan 2의 경우 바이러스 2종을 포함하여 5종이 추가로 검출되었다.
프로그램 | 검출 | 불검출 |
본 발명의 실시예 | 18 | 1 (B.bifidum) |
MetaPhlan 1 | 21 | - |
MetaPhlan 2 | 24 | - |
표 14에서 확인할 수 있듯이, 5개의 유산균 제품에서 뽑아낸 ion torrent 데이터의 경우 다음과 같은 유산균을 가지고 있다고 표시되었다.
유산균 제품 | # | Detect species |
1_051 | 12 | L.rhamnosus, L.paracasei, L.casei, B.longum, B.breve, B.animalis, E.faecium, L.plantarum, L.acidophilus, S.thermophilus, Lc.lactis, B.subtilis |
4_052 | 4 | B.longum, B.breve, L.plantarum, S.thermophilus |
7_053 | 10 | L.reuteri, L.rhamnosus, L.casei, B.longum, L.delbrueckii, B.breve, B.animalis, L.plantarum, L.acidophilus |
10_054 | 7 | B.bifidum, L.rhamnosus, B.longum, B.animalis, L.plantarum, L.acidophilus, L.casei |
19_055 | 5 | B.bifidum, L.rhamnosus, B.longum, L.plantarum, L.acidophilus |
상기 5개의 유산균 제품 시료에 대한 각 프로그램 별 검출종의 결과를 하기 표 15에 나타내었다.
프로그램 | 검출 | ||||
1_051 | 4_052 | 7_053 | 10_054 | 19_055 | |
본 발명의 실시예 | 12 | 4 | 9(B.bifidum 불검출) | 7 | 5 |
MetaPhlan 1 | 1167 | 335 | 1178 | 1035 | 757 |
MetaPhlan 2 | 12 | 4 | 10 | 8(L.casei 불검출) | 9 |
표 14 및 15 모두에서, 053번 유산균 제품에서는 B.bifidum이 0.6004의 커버리지로 기준인 0.7137을 넘지 못하여 불검출되었다.
MetaPhlan의 경우 5개 모든 제품에서 초과검출이 나왔으며 많게는 1100여종까지 검출되었다. MetaPhlan 2에선 054 제품에서 L.casei 불검출 및 바이러스 한 종, L.zeae 검출되었고 055 제품에서 표시된 균 5종 외에 바이러스 한 종과 L.helveticus, Lc.lactis, S.thermophilus가 추가 검출되었다.
초과검출이 나오는 동정방법을 이용할 경우, 유산균 제품 허가 등과 같은 상황에서 실제로 제품 안에 존재하지 않은 유산균을 존재한다고 표시하고 허가를 받는 문제가 발생할 수 있다.
본 발명에 따른 방법은, 특히 여러 가지 균이 섞여 있는 경우, MetaPhlan, MetaPhlan 2와 비교하여 초과검출을 확실하게 제어할 수 있어 샘플 내 종의 존재에 대해 신뢰성 높은 결과를 보여주었다. 커버리지에 대한 동정법은 MetaPhlan과 MetaPhlan 2와는 달리 초과검출이 없었다.
표 16 및 도 5에서 확인할 수 있듯이, 본 발명에 따른 방법을 수행하였을 경우 불검출을 해결하지 못하였다. 구체적으로, 19종의 illumina 데이터에서 B.bifidum을 검출해 내지 못하였고, 053 유산균에서도 B.bifidum을 검출해 내지 못하였다.
Probiotics_7_053 | |
Bifidobacterium_bifidum | 0.600371 |
Lactobacillus_reuteri | 0.999836 |
Lactobacillus_fermentum | 0.022901 |
Lactobacillus_salivarius | 0.012528 |
Lactobacillus_rhamnosus | 0.914346 |
Lactobacillus_gasseri | 0.01631 |
Enterococcus_faecalis | 0.013727 |
Lactobacillus_paracasei | 0.878662 |
Lactobacillus_casei | 0.867051 |
Bifidobacterium_longum | 0.859162 |
Lactobacillus_helveticus | 0.030859 |
Lactobacillus_delbrueckii | 0.914613 |
Bifidobacterium_breve | 0.891793 |
Bifidobacterium_animalis | 0.907533 |
Enterococcus_faecium | 0.022237 |
Lactobacillus_plantarum | 0.940538 |
Lactobacillus_acidophilus | 0.999796 |
Streptococcus_thermophilus | 0.013184 |
Lactococcus_lactis | 0.013601 |
이 이유는 각 종별 뎁스와 리드 수를 파악함으로써 알 수 있었는데 19종 데이터에서의 B.bifidum에 대한 뎁스는 1.21, 리드 수는 17,678개로 극히 낮았고, 053 유산균에서의 B.bifidum에 대한 뎁스는 2.28, 리드 수는 25529로 역시 부족하였다.
19종 데이터에서 B.bifidum에 대한 커버리지는 0.3722였고 053 유산균 제품 시료에서 B.bifidum에 대한 커버리지가 0.6이었는데, 이는 샘플량을 늘려 뎁스를 충분하게 조절해주면 검출 가능할 것으로 추측되었다. 19종 유산균 데이터에서 용량을 줄여가면서 분석한 결과를 살펴보면 샘플 내 종의 비율이 1%로 예상될 때 illumina paired-end 데이터로 3Gb*2 만큼의 샘플을 뽑아내면 종을 검출해 내기에 충분하였다.
본 발명은 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법에 관한 것으로서, 더욱 상세하게는 유산균 종별 대표 균주를 선정하고 서열 정보를 멀티-파스타 파일로 생성한 참조서열을 제조하는 방법 및 이를 이용하여 시료 내에 존재하는 2종 이상의 유산균을 간단하고 정확하게 검출하는 동정방법에 관한 것이다.
Claims (6)
- 다음 단계를 포함하는 유산균 동정용 참조서열 제조방법:유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계; 및종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계.
- 제1항에 있어서, 상기 대표 균주 선정 단계는 하기와 같이 수행되는 것인, 유산균 동정용 참조서열 제조방법:각각의 종 내에서 균주 간 페어와이즈 커버리지(pairwise coverage) 최소값을 도출하는 커버리지 계산 단계; 및종마다 균주 중 커버리지 최소값이 가장 큰 균주를 선택하는 균주 선택 단계.
- 다음 단계를 포함하는 유산균 동정방법:유산균으로부터 유래한 전체 유전체 서열 정보 데이터를 이용하여 종별 대표 균주(strain)를 선정하는 대표 균주 선정 단계;종별 대표 균주들의 서열 정보를 멀티-파스타(multi-fasta) 파일로 생성하는 참조서열 생성 단계;참조서열 및 종별 대표 균주들의 서열정보 간 페어와이즈 커버리지 최소값을 계산하여 기준값으로 설정하는 기준값 설정 단계; 및시료에 함유된 유산균의 전체 유전체 서열 정보 및 상기 참조서열 간의 페어와이즈 커버리지(pairwise coverage) 값을 계산하는 서열 비교 단계.
- 제3항에 있어서, 상기 대표 균주 선정 단계는 하기와 같이 수행되는 것인, 유산균 동정방법:각각의 종 내에서 균주 간 페어와이즈 커버리지(pairwise coverage) 최소값을 도출하는 커버리지 계산 단계; 및종마다 균주 중 커버리지 최소값이 가장 큰 균주를 선택하는 균주 선택 단계.
- 제3항에 있어서, 상기 서열 비교 단계에서 도출된 값이 상기 기준값을 초과한 경우 해당 균주가 검출된 것으로 판단하는 검출 확인 단계를 추가적으로 포함하는 것인, 유산균 동정방법.
- 제3항에 있어서, 상기 방법은 시료에 함유된 2종 이상의 유산균을 동시에 검출하는 것인, 유산균 동정방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180108016A KR102270719B1 (ko) | 2018-09-10 | 2018-09-10 | 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법 |
KR10-2018-0108016 | 2018-09-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020055076A1 true WO2020055076A1 (ko) | 2020-03-19 |
Family
ID=69777192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2019/011665 WO2020055076A1 (ko) | 2018-09-10 | 2019-09-09 | 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102270719B1 (ko) |
WO (1) | WO2020055076A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420212A (zh) * | 2022-01-27 | 2022-04-29 | 上海序祯达生物科技有限公司 | 一种大肠杆菌菌株鉴定方法和系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230167285A (ko) | 2022-05-31 | 2023-12-08 | 종근당건강 주식회사 | 프로바이오틱스 조성물 내 균종 판별을 위한 프라이머 세트 및 이를 이용한 균종 판별 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160364523A1 (en) * | 2015-06-11 | 2016-12-15 | Seven Bridges Genomics Inc. | Systems and methods for identifying microorganisms |
KR20170135351A (ko) * | 2016-05-31 | 2017-12-08 | 강원대학교산학협력단 | 엔테로코커스 종들 중 특정 종 특이적인 프라이머 및 이를 이용한 해당 균주 분리 및 동정 방법 및 그 조성물 |
-
2018
- 2018-09-10 KR KR1020180108016A patent/KR102270719B1/ko active IP Right Grant
-
2019
- 2019-09-09 WO PCT/KR2019/011665 patent/WO2020055076A1/ko active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160364523A1 (en) * | 2015-06-11 | 2016-12-15 | Seven Bridges Genomics Inc. | Systems and methods for identifying microorganisms |
KR20170135351A (ko) * | 2016-05-31 | 2017-12-08 | 강원대학교산학협력단 | 엔테로코커스 종들 중 특정 종 특이적인 프라이머 및 이를 이용한 해당 균주 분리 및 동정 방법 및 그 조성물 |
Non-Patent Citations (3)
Title |
---|
HAN, N. ET AL.: "ANItools web: a web tool for fast genome comparison within multiple bacterial strains", 2016, pages 1 - 5, XP055693083 * |
RICHTER, M. ET AL.: "JSpeciesWS: a web server for prokaryotic species circumscription based on pairwise genome comparison", BIOINFORMATICS, vol. 32, no. 6, 2016, pages 929 - 931, XP055693080 * |
SEOL, D. ET AL.: "Accurate and Strict Identification of Probiotic Species Based on Coverage of Whole-Ivletagenome Shotgun Sequencing Data", FRONTIERS IN MICROBIOLOGY, vol. 10, no. 1683, 7 August 2019 (2019-08-07), pages 1 - 12, XP055693074 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420212A (zh) * | 2022-01-27 | 2022-04-29 | 上海序祯达生物科技有限公司 | 一种大肠杆菌菌株鉴定方法和系统 |
CN114420212B (zh) * | 2022-01-27 | 2022-10-21 | 上海序祯达生物科技有限公司 | 一种大肠杆菌菌株鉴定方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
KR20200029689A (ko) | 2020-03-19 |
KR102270719B1 (ko) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ramasamy et al. | A polyphasic strategy incorporating genomic data for the taxonomic description of novel bacterial species | |
Ventura et al. | Specific identification and targeted characterization of Bifidobacterium lactis from different environmental isolates by a combined multiplex-PCR approach | |
Tanizawa et al. | DFAST and DAGA: web-based integrated genome annotation tools and resources | |
Amor et al. | Advanced Molecular Tools for the Identification of Lactic Acid Bacteria1 | |
Bessède et al. | Matrix-assisted laser-desorption/ionization biotyper: experience in the routine of a University hospital | |
CN107653306B (zh) | 一种基于高通量测序的双歧杆菌快速检测方法及应用 | |
Korach-Rechtman et al. | Murine genetic background has a stronger impact on the composition of the gut microbiota than maternal inoculation or exposure to unlike exogenous microbiota | |
WO2020055076A1 (ko) | 유산균 동정용 참조서열 제조방법 및 이를 이용한 유산균 동정방법 | |
Kim et al. | Novel real-time PCR assay for Lactobacillus casei group species using comparative genomics | |
WO2023098152A1 (zh) | 一种微生物基因数据库的构建方法及系统 | |
Quartieri et al. | Comparison of culture-dependent and independent approaches to characterize fecal bifidobacteria and lactobacilli | |
Seol et al. | Accurate and strict identification of probiotic species based on coverage of whole-metagenome shotgun sequencing data | |
Sato et al. | Ribosomal protein profiling by matrix-assisted laser desorption/ionization time-of-flight mass spectrometry for phylogenety-based subspecies resolution of Bifidobacterium longum | |
Almeida et al. | Parallel evolution of group B Streptococcus hypervirulent clonal complex 17 unveils new pathoadaptive mutations | |
Stage et al. | Lactobacillus rhamnosus GG genomic and phenotypic stability in an industrial production process | |
Nakayama | Pyrosequence-based 16S rRNA profiling of gastro-intestinal microbiota | |
Culot et al. | Isolation of Harveyi clade Vibrio spp. collected in aquaculture farms: How can the identification issue be addressed? | |
Bi et al. | A newly developed PCR‐based method revealed distinct Fusobacterium nucleatum subspecies infection patterns in colorectal cancer | |
Kim et al. | Development of real-time PCR assay to specifically detect 22 Bifidobacterium species and subspecies using comparative genomics | |
Nie et al. | Strain-level variation and diverse host bacterial responses in episymbiotic Saccharibacteria | |
van de Velde et al. | Fast quantification of gut bacterial species in cocultures using flow cytometry and supervised classification | |
CN104946769B (zh) | 肺炎支原体快速检测和基因分型的试剂盒 | |
CN116814822B (zh) | 一种长双歧杆菌婴儿亚种cicc 6069菌株的鉴定方法和应用 | |
Mahenthiralingam et al. | Use of colony-based bacterial strain typing for tracking the fate of Lactobacillus strains during human consumption | |
Svobodová et al. | Novel method for reliable identification of Siccibacter and Franconibacter strains: from “Pseudo-Cronobacter” to new Enterobacteriaceae genera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19860834 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19860834 Country of ref document: EP Kind code of ref document: A1 |