WO2024096149A1

WO2024096149A1 - 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법

Info

Publication number: WO2024096149A1
Application number: PCT/KR2022/016888
Authority: WO
Inventors: 최용진; 어해석; 오재현; 김동원; 김태환; 김필수
Original assignee: 엘지전자 주식회사
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2024-05-10

Abstract

본 실시예는 외부의 NGS 서버로부터 타겟 환경에 대한 한 세트의 NGS 분석 파일을 수신하는 입력부; 상기 NGS 분석 파일 중 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 페어링을 수행하여 통합 리드 파일을 생성하고, 페어링에 실패한 리드 파일 중 유효 싱글 리드 파일을 정의하는 필터링을 수행하는 전처리부; 상기 전처리부로부터 상기 통합 리드 파일 및 상기 유효 싱글 리드 파일을 최종 리드 파일로 수신하고, 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 분류기; 및 상기 특정된 미생물 정보를 가공하여 사용자 단말로 전송하는 정보 가공부를 포함하는 미생물 분석 장치를 제공한다. 따라서, NGS 기술에 의한 FASTQ 파일이 진행되는 Illumia 사의 NGS 장비에서 읽혀지는 bp(basepoint)보다 긴 길이의 ITS1, ITS2를 가지는 진균류 등의 경우에도 필터링되지 않고 함께 검출 가능하다.

Description

차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법

본 실시예는 미생물의 염기 서열 재조합 방법에 대한 것으로, 상세하게는 차세대 시퀀싱 방법을 이용한 미생물의 염기 서열 분석 방법 및 그 시스템에 대한 것이다.

근래, 환경 오염, 바이러스 등에 의한 오염 문제가 대두되면서, 주변 환경의 오염도에 대한 관심이 증가하고 있다.

eDNA란 다양한 환경 샘플에서 채취되는 미생물의 DNA로 주변 환경의 오염 정도를 진단할 수 있는 바이오 지표로 정의되며 각각의 미생물 종마다 DNA 서열이 다르기 때문에, 관심있는 환경의 샘플을 채취하고, 해당 샘플 내 미생물의 종류를 측정할 수 있는 다양한 기술이 제시되어 있다.

특히, 다양한 미생물의 종(species)를 구별하는 데이터베이스가 개발되어 공유되고 있어, 관심있는 환경의 샘플에서 미생물의 DNA 서열 정보를 추출하면 이를 해당 데이터베이스의 정보와 대조함으로써 환경 내 미생물의 정의가 가능하다.

현재, Illumina 사의 기술인 NGS 장비를 통해 판독되어 전달되는 해당 미생물의 샘플의 시퀀스 리드는 표준화된 양식으로 생성된다.

즉, 각각의 샘플 데이터는 배치에서 리드 단위로 절단되고 증식된 상태로 시퀀스가 읽혀 각각의 시퀀스 리드 데이터는 FASTQ 파일로 기록된다.

이와 같은 각 샘플의 FASTQ 파일을 가공하여 원하는 DNA 서열 정보를 생성하는 Bioinformatrics 기술 및 이에 대한 미생물 분류 기술 또한 다양하게 제시되고 있다.

미국 특허 US 11335436B2 에서는 복수의 미생물에 대하여 복수의 대상에 대한 동시 비교가 가능한 분류 기술이 제시되어 있다.

그러나, 이와 같은 NGS 기술은 FASTQ 파일 자체에 대한 특정 방식의 가공을 제시하고 있지 않고, 일반적인 절차인 짧은 단위의 리드를 증식하여 분석함으로써 DNA 자체가 특정 길이보다 긴 종의 경우, 해당 NGS 기술에 의한 FASTQ 파일로는 분석이 불가능한 문제가 있다.

[선행기술문헌]

특허문헌

미국 특허 US 11335436B2 호 (등록일 : 2022.05.17.)

본 실시예는 NGS 기술에 의한 FASTQ 파일을 가공하여 특정 길이 이상의 길이를 가지는 미생물의 경우 누락되지 않고 검출 가능한 미생물 분석 방법을 제공하는 것이다.

본 실시예의 제2 과제는 NGS 기술에 의한 FASTQ 파일의 페어링되지 않는 미생물의 시퀀스 리드 파일도 함께 유효 데이터로 가공하여 분석할 수 있는 미생물 분석 방법을 제공하는 것이다.

본 실시예의 제3 과제는 매칭된 미생물의 종류와 양을 함께 검출 가능하고, 검출된 미생물을 사용자에게 가공된 데이터로 제공하여 직접 활용 가능한 결과 데이터를 제공하는 미생물 분석 방법을 제공하는 것이다.

본 실시예는 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어들이는 단계; 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 오버랩구간을 검출하여 페어링을 수행하는 단계; 상기 오버랩 구간이 없는 경우, 상기 포워드 리드 파일과 리버스 리드 파일중 유효 싱글 리드 파일이 존재하는지 판단하는 단계; 상기 페어링되는 하나의 아이디에 대한 상기 포워드 리드 파일과 리버스 리드 파일을 머지(merge)하여 통합 리드 파일을 생성하는 단계; 및 상기 유효 싱글 리드 파일과 상기 통합 리드 파일을 최종 리드 파일로서 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 단계를 포함하는 미생물 분석 방법을 제공한다.

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 NGS 분석된 FASTQ 파일일 수 있다.

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 타겟 환경에서 추출된 미생물 샘플에 대하여 NGS 분석을 통해 분할된 복수의 리드 각각에 대응하도록 생성될 수 있다.

하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 각각의 염기포인트는 각각의 상기 퀄리티 스코어를 포함할 수 있다.

상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효를 카운트하여 결정할 수 있다.

상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 리드 파일로 정의할 수 있다.

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 모두 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 경우, 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 더 큰 리드 파일을 상기 유효 싱글 리드로 정의할 수 있다.

상기 제2 임계값은 상기 포워드 리드 파일 또는 리버스 리드 파일의 염기포인트의 전체 수효의 50% 이상일 수 있다.

상기 표준 DNA 염기서열과 매칭하는 단계는, 개별적인 환경에 대한 각각의 표준 DNA 염기서열 데이터베이스 중 상기 타겟 환경에 대응하는 상기 표준 DNA 염기서열 데이터베이스로부터 상기 최종 리드 파일을 매칭할 수 있다.

상기 최종 리드 파일과 상기 표준 DNA 염기 서열 데이터베이스의 매칭하는 단계는 상기 최종 리드 파일과 매칭되는 미생물의 종류와 양을 모두 특정할 수 있다.

상기 미생물의 종류와 양에 대한 정보를 가공하여 사용자 단말로 전송하는 단계를 더 포함할 수 있다.

상기 사용자 단말에 대한 상기 타겟 환경의 미생물 분석 히스토리가 존재하는 경우, 상기 히스토리를 업데이트하여 상기 사용자 단말로 전송할 수 있다.

판독된 상기 미생물의 종류 중 유해 위험 미생물이 존재하는 경우, 상기 사용자 단말로 알람할 수 있다.

한편, 본 실시예는 외부의 NGS 서버로부터 타겟 환경에 대한 한 세트의 NGS 분석 파일을 수신하는 입력부; 상기 NGS 분석 파일 중 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 페어링을 수행하여 통합 리드 파일을 생성하고, 페어링에 실패한 리드 파일 중 유효 싱글 리드 파일을 정의하는 필터링을 수행하는 전처리부; 상기 전처리부로부터 상기 통합 리드 파일 및 상기 유효 싱글 리드 파일을 최종 리드 파일로 수신하고, 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 분류기; 및 상기 특정된 미생물 정보를 가공하여 사용자 단말로 전송하는 정보 가공부를 포함하는 미생물 분석 장치를 제공한다.

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 모두 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 경우, 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 더 큰 리드 파일을 상기 유효 싱글 리드 파일로 정의할 수 있다.

상기 해결 수단을 통하여, NGS 기술에 의한 FASTQ 파일을 가공하여 분류되어 있는 미생물은 모두 매칭 및 검출 가능하다.

특히, NGS 기술에 의한 FASTQ 파일이 진행되는 Illumia 사의 NGS 장비에서읽혀지는 bp(basepoint)보다 긴 길이의 ITS1, ITS2를 가지는 진균류 등의 경우에도 필터링되지 않고 함께 검출 가능하다.

또한, 페어링 되지 않는 싱글 시퀀스의 경우, 퀄리티 스코어가 높은 유효 싱글 리드를 선별하여 매칭함으로써 매칭 확률을 향상시킬 수 있다.

그리고, 매칭된 미생물의 종류와 양을 함께 검출하여 시각화하여 사용자에게 제공함으로써, 즉각적인 대응이 가능하고, 해당 데이터를 다시 각 분류기 별 데이터 베이스의 레퍼런스로 적용함으로써 각 분류기의 모델링이 더욱 적응되는 효과를 가진다.

도 1은 본 실시예에 따른 미생물 분석 시스템을 나타내는 도면이다.

도 2는 도 1의 미생물 분석 장치의 구성도이다.

도 3은 도 2의 미생물 분석 방법을 나타내는 순서도이다.

도 4a 내지 도 4d는 NGS 분석을 위한 각 미생물의 DNA 시퀀스의 특징을 나타내는 개념도이고, 도 4e는 균류의 ITS1 및 ITS 2의 BP 길이를 나타내는 그래프이다.

도 5는 NGS 분석에 의한 FASTQ 파일을 나타내는 것이다.

도 6은 미생물 분석 장치의 전처리 단계를 나타내는 상세 순서도이다.

도 7a 및 도 7b는 페어링되는 시퀀스 리드의 FASTQ 파일의 머지 동작 전후를 나타내는 도면이다.

도 8은 페어링되지 않는 시퀀스 리드의 유효 싱글 리드를 선택하는 과정을 나타내는 순서도이다.

도 9a 및 도 9b는 유효 싱글 리드를 정의하는 동작 전후를 나타내는 도면이다.

이하에서 언급되는 “전(F)/후(R)/좌(Le)/우(Ri)/상(U)/하(D)” 등의 방향을 지칭하는 표현은 도면에 표시된 바에 따라 정의하나, 이는 어디까지나 본 실시예가 명확하게 이해될 수 있도록 설명하기 위한 것이며, 기준을 어디에 두느냐에 따라 각 방향들을 다르게 정의할 수도 있음은 물론이다.

이하에서 언급되는 구성요소 앞에 ‘제1, 제2' 등의 표현이 붙는 용어 사용은, 지칭하는 구성요소의 혼동을 피하기 위한 것일 뿐, 구성요소 들 사이의 순서, 중요도 또는 주종관계 등과는 무관하다. 예를 들면, 제1 구성요소 없이 제2 구성요소만을 포함하는 실시예도 구현 가능하다.

본 명세서에서 이용되는 용어, "NGS (Next Generation Sequencing)"는 차세대 염기서열 분석으로서, 유전체의 염기서열의 고속 분석 방법 중 하나이다. NGS는 임상적 연구를 포함하는 다양한 목적을 달성하기 위해 유전체 및 전체 분석에 적용될 수 있다. 한편, 대부분의 NGS 분석은 다수의 대상 샘플에 대한 동시 분석이 수행될 수 있다.

본 명세서에서 이용되는 용어, "대상 샘플"은 NGS 분석의 표적이 되는 샘플을 의미한다. 이때, 대상 샘플은 특정 환경, 즉, 타겟 환경(300)으로부터 수득된 미생물에서 채취된 생물학적 시료일 수 있다. 각 샘플에 대한 NGS 데이터는 한 쌍의 파일로서 제공될 수 있다.

본 실시예에 따른 미생물 분석 시스템은 타겟 환경(300)에서의 미생물 시료를 채취하여 이를 NGS 분석한 후, NGS 분석된 FASTQ 파일을 수득하면 이를 가공하여 매칭할 때, 매칭 정확도를 향상시킬 수 있는 미생물 분석 시스템에 대한 것이다.

FASTQ 파일은 표준화된 파일 형태로서, 각 샘플의 리드(read)마다 포워드, 리버스로 염기 서열, 즉 시퀀스를 읽어낸 파일이며, 포워드(Forward), 리버스(Reverse)에 해당하는 FASTQ 파일을 한 쌍으로 포함한다.

해당 미생물 분석 시스템은 타겟 환경(300)으로부터 채취한 미생물 샘플을 수득하여 NGS 분석하는 NGS 서버(400), NGS 서버(400)로부터 FASTQ 파일을 수신하고, 이를 가공하여 특정 미생물과 매칭하고, 그에 대한 대응 방법을 제공하는 미생물 분석 장치(100) 및 사용자 단말(200)을 포함한다.

타겟 환경(300)은 사용자가 위치하는 다양한 주변 환경, 또는 사용자가 관심있는 다양한 주변 환경일 수 있으며, 가정, 특히 가정 내의 미생물에 취약한 환경으로서, 주방, 냉장고, 싱크대 등의 특정 구역일 수 있다. 또는 사업장 내의 특정 환경일 수 있으며, 편의점 또는 음식점 등의 리테일 구역의 진열대, 조리대 등일 수 있다.

상기 사용자 단말(200)은 미생물 분석 장치(100)로부터 데이터 수신 가능한 유무선 통신 가능한 장치로서, 태블릿 PC, PDA(Personal Digital Assistant), 노트북, 셀룰러폰, PCS(Personal Communication Service)폰, 핸드 헬드 PC(Hand-Held PC), GSM(Global System for Mobile)폰, W-CDMA(Wideband CDMA)폰, CDMA-2000폰 및 스마트폰 등을 포함한다.

사용자 단말(200)은 미생물 분석 장치(100)로부터의 미생물 최종 정보를 디스플레이할 수 있는 디스플레이 장치를 포함하며, 미생물 분석 장치(100)로부터의 미생물 최종 정보를 다양한 형태로 제공받을 수 있는 어플리케이션이 설치되어 있을 수 있다.

일 예로, 사용자의 타겟 환경(300)이 장기간 동일 미생물에 감염되어 있는 경우, 주기적인 검사 결과를 누적하여 표시할 수 있도록 데이터 가공이 가능하며, 상기 가공된 결과를 어플리케이션을 통해 제공 가능하다. 따라서, 사용자 단말(200)은 상기 미생물에 대한 대응 및 결과 분석, 예상 회복 시간을 판단 가능할 수 있다.

NGS 분석하는 NGS 서버(400)는 채취한 미생물 샘플로부터 DNA를 채취하고, 상기 DNA를 소정 길이로 절단한 리드(read)를 배양하여 각 리드의 양 끝부분으로부터 염기를 읽어들여 FASTQ 파일을 생성하여 제공한다.

다양한 NGS 서버(400)가 적용가능하며, 일 예로 Illumina 사의 NGS 장비가 적용될 수 있다.

한편, 본 실시예의 미생물 분석 장치(100)는 상기 NGS 서버(400)로부터 FASTQ 파일을 수신하고, 상기 FASTQ 파일을 가공하여 분류되어 있는 복수의 분류기(140)의 데이터베이스의 기준 염기서열과 매칭한 후 각 FASTQ 파일의 미생물을 정의한다.

본 실시예의 미생물 분석 장치(100)는 각각 정의된 미생물의 염기서열을 각 카테고리의 데이터베이스에 저장하고, 각 분류기(140)의 매칭 모델을 강화하여 점차적으로 최적화된 모델링이 가능해진다.

본 실시예의 미생물 분석 장치(100)는 사용자 주변의 특정 환경에서 발견 가능한 다양한 미생물, 특히 균류 및 바이러스와 같은 짧은 길이의 DNA 수용체에 대하여 동시 배양되어 읽혀진 상기 FASTQ 파일을 가공함으로써 누락 없이 검출 가능하다.

구체적으로 미생물 분석 장치(100)는 진균류 및 박테리아 사이의 DNA 길이 차에 따라 더 긴 DNA 길이를 가지는 진균류의 경우, 페어링에 실패하여 필터링되는 오류를 보상함으로써 진균류의 검출이 가능하다.

이하에서는 진균(곰팡이)류와 세균(박테리아)류 모두 검출 가능하도록 상기 FASTQ 파일을 가공하여 분석하는 미생물 분석 장치(100)의 분석 방법을 설명한다.

도 2는 도 1의 미생물 분석 장치(100)의 구성도이고, 도 3은 도 2의 미생물 분석 방법을 나타내는 순서도이다.

도 2를 참고하면, 미생물 분석 장치(100)는 입력부(111)와 출력부(113)를 포함하는 통신부(110), 전처리부(120), 정규화 모듈(130), 분류기(140) 및 가공부(150)를 포함한다.

상기 통신부(110)는 유무선 통신을 이용하여 NGS 서버(400)와 통신하고, 사용자 단말(200)과 통신하는 통신 모듈로서, 지정된 네트워크에 따라 다양하게 가변 가능하다.

이때, 네트워크는 예를 들어, IEEE 802.11 WLAN, IEEE 802.15 WPAN, UWB, Wi-Fi, Zigbee, Z-wave, Blue-Tooth 등과 같은 무선 통신 기술을 적용가능하며, 적어도 하나 이상의 통신 기술 적용가능하다.

전처리부(120)는 입력부(111)를 통해 입력된 FASTQ 파일을 가공하여 정규화 및 매칭 가능한 상태로 제공한다.

일 예로, 전처리부(120)는 수신된 FASTQ 파일의 트리밍을 통해 프라이머를 제거하고, 한 아이디의 FASTQ 파일을 각각 페어링함으로써 하나의 머지된 리드를 생성하는 필터링을 수행한다.

이와 같이 머지된 리드가 정규화 모듈(130)로 제공되어 정규화를 통해 분류기(140)의 모델링으로 매칭이 진행된다.

이때, 상기 전처리부(120)는 페어링에 실패하는 긴 길이의 DNA를 수반하는 진균류를 보상하기 위해 싱글 리드의 퀄리티에 따라 유효 싱글 리드를 판별한다.

따라서, 전처리부(120)는 머지된 리드와 유효 싱글 리드를 최종 리드로 정규화 모듈(130)로 제공한다.

정규화 모듈(130)은 수신된 복수의 최종 리드에 대한 다양성 분석 시 각 샘플 별 서로 다른 sequencing depth(미생물 군집의 정보량)에 의해, 과도하게 또는 과소하게 다양성 분석 결과가 도출되어, 정보량의 동일화를 위한 정규화를 진행한다.

즉, 정규화 모듈(130)은 최대한 많은 정보량을 살릴 수 있는 한도 내에서 샘플 별 최종 리드 수준을 최대로 설정하여 최적 정보량을 통해 다양성 분석을 수행할 수 있다.

즉, 각 샘플의 타겟 환경(300)에 따라 특정 다양성 테이블을 로딩하고, 로딩된 다양성 테이블(diversity table)에 따라 정규화 모듈(130)을 활성화할 수 있다.

이때, 가정용, 병원용, 리테일(Retail) 용, 식품생산시설용 마다 서로 다른 다양성 테이블을 저장할 수 있다.

다양성 테이블의 데이터는 이전 보유 중인 데이터들을 분석하여 최종 리드 별로 다양성(diversity) 정도를 그린 후, 다양성 포화값 대비 소정 범위 이상이 되는 다양성에 대해서만 최종 리드와 다양성 관계를 저장하여 데이터베이스화한다.

따라서, 각각의 다양성 테이블은 해당 환경에 대하여 특화된 상태가 더욱 강화되도록 학습된다.

각각의 특화된 다양성 테이블에 근거하여, 필터링된 최종 리드를 로딩하고, 해당하는 다양성 테이블 데이터를 읽어들여 상기 다양성 테이블 데이터 상에서 최종 리드 값 중 필터링 되는 리드의 수가 전체 리드 수 중 제1 임계범위보다 작고, 가장 큰 값을 가지는 최종 리드 값을 선출하여 정규화를 수행한다.

이와 같이 선출된 값을 최종 리드값을 소정 회 반복하여 최종 sequencing depth값을 생성한다.

한편, 분류기(140)는 선출된 최종 리드를 분야별 분류기(140)를 적용하여 기준 서열 데이터베이스와 비교 및 매칭함으로써 샘플 내에 어떤 종(species), 속(genera)의 미생물이 있는지 분석한다.

즉, 본 실시에에 따른 분류기(140)는 해당 환경마다 기준 서열 데이터베이스를 별도로 구축하고, 각 환경에 대한 기준 서열 데이터베이스로부터 최종 리드의 매칭을 수행한다.

각 환경에 대한 기준 서열 데이터베이스는 다양성 분석과 유사하게, 가정용, 병원용, 리테일(Retail) 용, 식품생산시설용으로 분류 가능하나 이와 별개로 구분 가능하다.

이를 위해, 특정 환경에 대한 분류기(140), 즉 기준 서열 데이터베이스를 별도 구축하고 이를 매칭하는 분류 알고리즘을 각각 구동함으로써, 특정 환경에 대하여 특화된 미생물만이 한정적으로 비교가능하다.

또한 이와 같이 매칭된 최종 리드의 경우, 각 기준 서열 데이터베이스에 다시 저장됨으로써 데이터베이스의 업데이트 및 분류 알고리즘의 학습이 가능하다.

고정되어 있는 기준 데이터 베이스를 활용하는 경우에는 해당 데이터 베이스의 업데이트가 늦고, 통합 데이터 베이스를 사용하고 있어 기준 데이터 값이 많아 연산이 복잡하고, 매칭 확률이 매우 낮아진다.

따라서, 이와 같이 각 환경별 특화되어 있는 기준 서열 데이터 베이스를 별개로 구축하고 이를 각 환경별로 매칭하는 개별 분류 알고리즘을 적용함으로서 연산 시간이 단축되고 정확도가 향상된다. 또한, 각 알고리즘이 점점 더 정교화됨으로써 정확도는 점점 더 향상될 수 있다.

이때, 각 분야별 특화된 기준 서열 데이터베이스는 공개되어 있는 미국 국립생물공학정보센터 (NCBI)에 등록된 개별 16S rRNA 유전자의 유전정보를 선별 및 가공하여 각 환경별로 분류한 것으로서 초기에 생성가능하다.

이를 위해, 해당 기초 데이터베이스에 환경 별 먼지를 샘플링하고, 각 세부 구역 별 미생물 오염 특징을 반영할 수 있는 표지자를 선발하여, 이에 대한 발생빈도를 카운트함으로써 가중치를 인가할 수 있으며, 가중치가 높은 순서로 매칭을 수행함으로써 매칭 확률을 더 높일 수 있다.

가공부(150)는 분류기(140)에 의해 최종 리드에 대하여 매칭된 미생물의 종류 및 양에 대한 정보를 확보하면, 이를 가공하여 사용자 단말(200)에 제공한다.

가공부(150)는 수신된 최종 리드에 대한 정보를 Alpha diversity 분석과 Beta diversity 분석을 함께 수행할 수 있다.

이때, Alpha diversity 분석은 개개 최종 리드에 대한 레벨을 분석하여 표시하는 것이며, Beta diversity은 각 최종 리드들 사이의 비유사성에 대한 정도를 분석하여 제공하는 것으로서, 표 및 그래프로서 제공가능하다.

또한, 상기 가공부(150)는 상기 사용자 단말(200)에 대하여 동일 환경에 대한 미생물 분석 히스토리가 존재하는 경우, 히스토리 분석을 통해 상기 타겟 환경(300)에서의 미생물 변화 추이 및 대응 방법을 함께 제공 가능하다.

상기 출력부(113)는 상기 가공부(150)로부터 제공되는 결과 데이터를 지정된 사용자 단말(200)에 전송하고, 검출된 미생물 중 소정 레벨 이상의 위험 미생물이 포함되어 있는 경우, 사용자 알람을 수행할 수 있다.

상기 미생물 분석 장치(100)는 데이터 저장부(도시하지 않음)로서 메모리 카드, 미생물 분석을 위한 라이브러리 파일, 신호처리 장치를 갖춘 임베디드 시스템 보드로 구성될 수 있다. 예를 들어, 임베디드 시스템 보드에는 출력신호 데이터를 저장할 수 있는 메모리카드가 삽입되며, 메모리카드에는 시스템 OS와, 구동 프로그램, 분석을 위한 라이브러리 파일 등이 저장된다. 또한, 복수의 최종 리드의 분석을 위한 신호 처리는 임베디드 시스템 보드의 CPU에서 라이브러리 파일과 비교 분석을 통해 계산되며, 분석된 결과는 다시 메모리 카드에 저장된다. 또한, 이와 같은 임베디드 시스템 보드 내에 통신부(110)가 함께 실장 가능하나 이에 한정되지 않는다.

이하에서는 도 3 내지 도 9를참고하여 미생물 분석 장치(100)의 미생물 분석 방법을 설명한다.

도 3은 도 2의 미생물 분석 방법을 나타내는 순서도이고, 도 4a 내지 도 4d는 NGS 분석을 위한 각 미생물의 DNA 시퀀스의 특징을 나타내는 개념도이고, 도 4e는 균류의 ITS1 및 ITS 2의 BP 길이를 나타내는 그래프이며, 도 5는 NGS 분석에 의한 FASTQ 파일을 나타내는 것이다.

도 4a와 같이 특정 환경에서 발견 가능한 미생물은 크게 세균류(박테리아)와 진균류(곰팡이)를 포함하고, 이들은 수십만 종에 이른다.

각 세균류와 진균류의 DNA 염기서열(시퀀스)은 분류기(140) 데이터베이스에 저장되어 있으며, 이와 같은 DNA 염기서열은 각 환경에 따라 구분되어 저장되어 있다.

세균류인 박테리아의 경우, 도 4b의 DNA 시퀀스와 같이 각기 종(species)을 구별하기 위해 16S RNA 유전자의 V4 또는 V3~V4 영역 DNA 시퀀스 정보가 일반적으로 활용된다.

이때, V4의 경우, DNA 시퀀스의 길이는 약 300bp(base point) 이하를 충족한다. 또는, V3~V4 영역 DNA 시퀀스의 길이는 약 500bp 이하를 충족한다.

한편, 수많은 진균들(fungi), 곰팡이들의 경우, 도 4c의 DNA 시퀀스와 같이 각기 종(species)을 구별하기 위해 ITS 유전자의 ITS1 또는 ITS2 영역 DNA 시퀀스 일반적으로 활용된다.

이때, 도 4d를 참고하면, 하나의 진균에 대한 ITS1의 시퀀스는 앞단 18S 시퀀스가 68bp, 끝단의 5.8S 시퀀스 50bp를 갖는다.

일반적으로 NGS 장비에서 염기서열을 읽을 수 있는 리드의 BP는 최대 600bp이며, 그 이상의 리드는 읽히지 않거나 고비용의 장비를 활용하거나, 정확성이 현저히 낮아져 활용도가 낮다.

따라서, 짧은 리드에 대한 시퀀스를 읽고, 이를 페어링하여 길게 머지(marged)한 후 매칭을 시도함으로써 정확도를 향상시킬 수 있다.

이때, 페어링(pairing)된 최종 리드는 앞단과 뒷단의 제거에 의해 473bp 이하를 갖는다.

따라서, ITS1의 포워드 리드의 DNA 시퀀스의 길이는 약 232bp(base point), 바람직하게는 300 내지 68bp의 길이를 가지고, ITS1의 리버스 리드의 길이는 약 250bp이며, 최소 오버랩 길이로 15bp를 갖는 경우만이 최종 리드의 길이로서 약 473bp를 충족한다.

따라서, 진균류 중 ITS1의 길이가 250bp, 더 짧게는 232bp 이상인 DNA 시퀀스를 가지는 종은 NGS 장비에서 전송되는 포워드 리드와 리버스 리드 사이에 오버랩 구간이 존재하지 않는다.

도 4e를 참고하면, 일반적으로 지금까지 밝혀진 진균류의 ITS 1과 ITS 2의 DNA bp의 길이를 산출하면, 400 bp 이상의 길이를 가지는 진균류가 많이 존재하는 것을 볼 수 있다.

즉, A 서클 내의 종은 서로 오버랩되는 구간이 존재하지 않아 페어링에서 실패함으로써 머지되지 못하고 필터링되어 버려진다.

이를 보완하기 위하여, 본 실시예의 미생물 분석 방법은 NGS 서버(400)로부터 타겟 환경(300)의 샘플에 대한 FASTQ 파일의 세트를 수득한다(S10).

한 ID에 대한 FASTQ 파일은 도 5a 및 도 5b와 같이 한 쌍으로 전송되며, 도 5a는 포워드 리드 파일이고, 도 5b는 동일 ID의 리버스 리드 파일이다.

한 ID의 포워드 리드 파일과 리버스 리드 파일을 서로 비교하면, 하나의 샘플 리드에 대하여 5번에서 3번으로 염기 서열, 시퀀스를 읽어나가는 포워드 리드 파일과 반대 방향으로 3번에서 5번으로 읽어나가는 리버스 리드 파일로 구현됨을 알 수 있다.

이때, 각 FASTQ 파일은 동일한 형식으로 생성되며, 첫행은 해당 샘플 리드의 ID로서 포워드 리드와 대응하는 리버스 리드가 동일한 ID를 갖는다.

두번째 행은 순차적인 염기서열을 나타내며, 포워드 리드와 리버스 리드는 상보적으로 작성된다.

세번째 행은 구분자이며, 네번째 행은 각 염기서열의 퀄리티 스코어를 나타내는 인코더로 구성된다.

다음으로, 전처리부(120)에서 입력된 FASTQ 파일의 트리밍을 통해 프라이머를 제거하고, 한 아이디의 FASTQ 파일을 각각 페어링하고, 싱글 시퀀스 리드 중 유효한 시퀀스 리드를 선택하는 필터링을 수행한다(S20).

이때, 전처리부(120)는 페어링이 완료된 한 아이디의 FASTQ 파일의 경우, 이를 머지하여 하나의 머지된 리드 파일을 생성한다.

머지된 리드 파일과 유효 싱글 리드 파일이 최종 리드의 최종 리드 파일로서 정규화 모듈(130)로 입력된다(S30).

이하에서는 도 6 내지 도 9를 참고하여 본 발명의 전처리에 의한 최종 리드 파일의 생성 과정을 설명한다.

도 6을 참고하면, 전처리부(120)는 도 5a와 도 5b와 같이 한 id에 해당하는 포워드 리드 파일과 리버스 리드 파일을 오픈한다(S21).

이때, ID를 확인하면 한 ID에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어낸다(S22).

한 ID에 대하여 두 개의 파일쌍이 존재하지 않는 경우, 다음 ID의 포워드 리드 파일과 리버스 리드 파일을 읽어내도록 전환된다(S23).

한 ID에 대하여 두 개의 파일쌍이 존재하면, 전처리부(120)는 두 개의 리드 파일에서 오버랩 구간(OS)이 존재하는지 판단한다(S24).

오버랩 구간(OS)의 경우, 도 7a 및 도 7b를 참고하면, 한 아이디의 두 개의 파일쌍의 두번째 행인 DNA 염기서열에서 끝단으로부터 서로 상보하는 오버랩 구간(OS)이 발생하는지 판단한다.

도 7a 및 도 7b에서와 같이 끝단에서 서로 상보하는 오버랩 구간(OS)이 존재하는 경우, 상기 오버랩 구간(OS)을 기준으로 포워드 리드의 끝단으로부터 리버스 리드의 끝단의 오버랩 구간(OS)을 중첩하면서 머지된 리드를 생성한다.

도 7b와 같이 머지된 리드는 오버랩 구간(OS) 뒤로 상기 리버스 리드의 염기서열을 상보적인 염기 서열로 전환하여 나열함으로써 생성가능하다(S25).

이와 같이 생성되는 머지된 리드 파일은 도 7b와 같이 네번째 행의 퀄리티 스코어 역시 머지되어 생성된다.

이때, 각각의 퀄리티 스코어는 각 염기서열의 자리에 대응하여 읽어냄으로써 값 자체가 변하지 않는다.

따라서, 머지된 리드 파일은 두 개의 리드에서 오버랩 구간(OS)을 제외한 길이의 bp를 가지는, 길이가 증강된 염기 서열을 포함하며, 상기 길이가 증강된 머지된 리드 파일이 최종 리드로서 출력된다(S27).

한편, 전처리부(120)는 두 개의 리드 파일에서 오버랩 구간(OS)이 존재하지 않는 경우, 필터링하여 버리지 않고, 두 개의 리드 파일 중 하나를 유효 싱글 리드로 선택한다(S26).

즉, 도 4와 같이 진균류의 경우 길이가 긴 DNA 염기서열을 포함하므로 정해진 길이로 절단된 리드에서는 오버랩 구간(OS)이 발생하지 않을 수 있다. 그러나 이와 같이 오버랩 구간(OS)이 발생하지 않는 리드의 경우에도 유효 데이터를 확보함으로써 누락되는 미생물 없이 검출이 가능하다.

구체적으로 도 8 및 도 9를 참고하여 유효 싱글 리드 선택 동작을 설명한다.

도 8을 참고하면, 전처리부(120)는 한 아이디의 두 개의 파일쌍의 두번째 행인 DNA 염기서열에서 끝단으로부터 서로 상보하는 오버랩 구간(OS)이 존재하지 않는 경우, 두개의 리드 파일 중 유효 싱글 리드가 존재하는지 판단한다.

유효 싱글 리드의 판단은 각각의 염기 서열에 대한 퀄리티 스코어를 기준으로 판단한다.

FASTQ 파일의 4번째 행인 퀄리티 스코어는 각각 관련 없는 문자 또는 숫자열로서, 각 문자 또는 숫자는 인코딩된 퀄리티 레벨 정보를 포함하고 있다.

이는 Phred+33 스코어라고도 불리며 각 레벨은 0 내지 41 내에서 하나를 나타낸다.

전처리부(120)는 이와 같은 퀄리티 스코어의 Phred+33 스코어 레벨이 α값이상인 염기서열의 수를 카운트한다(S261).

이와 같은 α값은 전체 레벨의 중간값인 20일 수 있으나, 이보다 더 높은 값을 충족할 수도 있다.

이때, 하나의 리드에 대한 FASTQ 파일의 염기 서열 내에서 α값 이상의 퀄리티 스코어를 가지는 bp의 수가 임계값 β 이상인 리드 파일이 존재하는지 판단하다(S262).

임계값 β의 값은 총 염기 서열의 bp 값에 따라 상이할 수 있으나, 일 예로 150, 바람직하게는 180 이상일 수 있다.

또한, 이와 같은 임계값 β는 전체 bp에 대한 비율로 산정가능하며, 전체 bp에 대한 50% 이상인 경우, 바람직하게는 60% 이상인 경우로 산정 가능하다.

이와 같이 소정 이상의 퀄리티 스코어를 가지는 염기 서열이 임계값 β 이상 존재하는 리드 파일이 두 쌍 중 적어도 하나 포함하는 경우(S263), 해당 아이디의 FASTQ 파일 내에 유효 싱글 리드가 존재하는 것으로 판단한다.

이때, 전처리부(120)는 소정 이상의 퀄리티 스코어를 가지는 염기 서열이 임계값 β 이상을 두 쌍 중 하나만 충족하는 경우, 상기 조건을 충족하는 리드 파일을 유효 싱글 파일로 정의한다(S265).

한편, 두 쌍 모두 소정 이상의 퀄리티 스코어를 가지는 염기 서열이 임계값 β 이상 존재하는 리드 파일인 경우, 소정 이상의 퀄리티 스코어를 가지는 염기 서열이 더 많은 리드 파일을 유효 싱글 파일로 정의한다(S264).

일 예로, 도 9a와 같이 입력된 FASTQ 파일의 포워드 리드와 리버스 리드의 오버랩 구간(OS)이 존재하지 않는 경우, 각각의 퀄리티 스코어를 읽어내어 임계값 α이상, 도 9a에서는 20이상으로서 해당 코드로는 5 이상인 경우를 카운트한다.

이는 공개되어 있는 퀄리티 스코어 인코딩 기법에 따른다. 따라서, 도 9a에서 퀄리티 스코어 20 이상인 bp가 포워드 리드의 경우 282개를 충족하고, 리버스 리드의 경우 235개를 충족하므로 두 리드 모두 임계값 β 이상이다.

이와 같이 두 개의 리드가 모두 임계값 β 이상을 충족하면 두 개의 리드 파일 중 더 큰 값을 가지는 포워드 리드를 유효 싱글 리드로서 출력한다.

이때, 두 쌍 중 상기 조건을 충족하는 파일이 하나도 없는 리드 파일 쌍은 필터링되어 폐기된다.

정의된 유효 싱글 파일의 경우, 최종 리드의 최종 리드 파일로서 머지된 리드 파일과 함께 정규화 모듈(130)로 전송된다(S266).

이와 같이 DNA 염기 서열이 매우 길어 NGS 장비로부터 읽어내는 리드의 길이보다 긴 경우, 페어링에 실패하여 폐기되던 진균류의 염기 서열도 유효한 싱글 리드로서 매칭가능하다.

다시 도 6으로 돌아가면, 이와 같이 머지된 리드와 유효 싱글 리드를 최종 리드로서 정규화 모델링을 위한 정규화 모듈(130)로 인가함으로써 필터링이 보다 정교해질 수 있다(S27).

한편, 도 3에서와 같이 수신된 최종 리드에 대한 리드 파일로부터 정규화 모델링을 수행하여 정규화한다(S40).

이때, 앞서 설명한 바와 같이 복수의 최종 리드에 대한 다양성 분석 시 각 샘플 별 서로 다른 sequencing depth (미생물 군집의 정보량)에 의해, 과도하게 또는 과소하게 다양성 분석 결과가 도출되어, 정보량의 동일화를 위한 정규화를 진행한다.

특히, 각 샘플에 대하여 환경 정보를 참고하여, 특정 다양성 테이블을 로딩하고, 로딩된 다양성 테이블 (diversity table)에 따라 정규화 모듈(130)을 수행한다.

다음으로 정규화가 종료되면, 분류기(140)에서 선출된 최종 리드를 분야별 분류기(140)를 적용하여 기준 서열 데이터베이스와 비교함으로써 샘플 내에 어떤 종(species), 속(genera)의 미생물이 있는지 분석한다(S50).

즉, 가정 내에서 샘플링된 경우, 가정용 분류기(140)로부터 기준 데이터베이스를 읽어내고 각각의 모델링을 수행하여 최종 리드의 염기 서열과 가정용 기준 데이터베이스의 각 DNA 염기 서열 사이의 매칭을 진행한다.

다음으로, 미생물 분석 장치(100)는 최종 리드에 대하여 매칭된 미생물의 종류 및 양에 대한 정보를 확보하면, 이를 가공하여 사용자 단말(200)에 제공한다(S60).

상기 가공부(150)는 상기 사용자 단말(200)에 대하여 동일 환경에 대한 미생물 분석 히스토리가 존재하는 경우, 히스토리 분석을 통해 상기 타겟 환경(300)에서의 미생물 변화 추이 및 대응 방법을 함께 제공 가능하다.

이와 같이 페어링 되지 않는 싱글 시퀀스의 경우, 퀄리티 스코어가 높은 유효 싱글 리드를 선별하여 매칭함으로써 매칭 확률을 향상시킬 수 있다.

그리고, 매칭된 미생물의 종류와 양을 함께 검출하여 시각화하여 사용자에게 제공함으로써, 즉각적인 대응이 가능하고, 해당 데이터를 다시 각 분류기(140) 별 데이터 베이스의 레퍼런스로 적용함으로써 각 분류기(140)의 모델링이 더욱 적응되는 효과를 가진다.

[부호의 설명]

100: 미생물 분석 장치

200: 사용자 단말

300: 타겟 환경

400: NGS 서버

Claims

하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어들이는 단계;

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 오버랩구간을 검출하여 페어링을 수행하는 단계;

상기 오버랩 구간이 없는 경우, 상기 포워드 리드 파일과 리버스 리드 파일중 유효 싱글 리드 파일이 존재하는지 판단하는 단계;

상기 페어링되는 하나의 아이디에 대한 상기 포워드 리드 파일과 리버스 리드 파일을 머지(merge)하여 통합 리드 파일을 생성하는 단계; 및

상기 유효 싱글 리드 파일과 상기 통합 리드 파일을 최종 리드 파일로서 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 단계

를 포함하는 미생물 분석 방법.
제1항에 있어서,

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 NGS 분석된 FASTQ 파일인 미생물 분석 방법.
제1항에 있어서,

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 타겟 환경에서 추출된 미생물 샘플에 대하여 NGS 분석을 통해 분할된 복수의 리드 각각에 대응하도록 생성되는 미생물 분석 방법.
제3항에 있어서,

하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 각각의 염기포인트는 각각의 상기 퀄리티 스코어를 포함하는 미생물 분석 방법.
제4항에 있어서,

상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효를 카운트하여 결정하는 미생물 분석 방법.
제5항에 있어서,

상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 리드 파일로 정의하는 미생물 분석 방법.
제6항에 있어서,

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 모두 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 경우, 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 더 큰 리드 파일을 상기 유효 싱글 리드로 정의하는 미생물 분석 방법.
제7항에 있어서,

상기 제2 임계값은 상기 포워드 리드 파일 또는 리버스 리드 파일의 염기포인트의 전체 수효의 50% 이상인 미생물 분석 방법.
제7항에 있어서,

상기 표준 DNA 염기서열과 매칭하는 단계는,

개별적인 환경에 대한 각각의 표준 DNA 염기서열 데이터베이스 중 상기 타겟 환경에 대응하는 상기 표준 DNA 염기서열 데이터베이스로부터 상기 최종 리드 파일을 매칭하는 미생물 분석 방법.
제9항에 있어서,

상기 최종 리드 파일과 상기 표준 DNA 염기 서열 데이터베이스의 매칭하는 단계는 상기 최종 리드 파일과 매칭되는 미생물의 종류와 양을 모두 특정하는 미생물 분석 방법.
제10항에 있어서,

상기 미생물의 종류와 양에 대한 정보를 가공하여 사용자 단말로 전송하는 단계를 더 포함하는 미생물 분석 방법.
제11항에 있어서,

상기 사용자 단말에 대한 상기 타겟 환경의 미생물 분석 히스토리가 존재하는 경우, 상기 히스토리를 업데이트하여 상기 사용자 단말로 전송하는 미생물 분석 방법.
제12항에 있어서,

판독된 상기 미생물의 종류 중 유해 위험 미생물이 존재하는 경우, 상기 사용자 단말로 알람하는 미생물 분석 방법.
외부의 NGS 서버로부터 타겟 환경에 대한 한 세트의 NGS 분석 파일을 수신하는 입력부;

상기 NGS 분석 파일 중 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 페어링을 수행하여 통합 리드 파일을 생성하고, 페어링에 실패한 리드 파일 중 유효 싱글 리드 파일을 정의하는 필터링을 수행하는 전처리부;

상기 전처리부로부터 상기 통합 리드 파일 및 상기 유효 싱글 리드 파일을 최종 리드 파일로 수신하고, 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 분류기; 및

상기 특정된 미생물 정보를 가공하여 사용자 단말로 전송하는 정보 가공부

를 포함하는 미생물 분석 장치.
제14항에 있어서,

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 NGS 분석된 FASTQ 파일인 미생물 분석 장치.
제15항에 있어서,

하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 각각의 염기포인트는 각각의 상기 퀄리티 스코어를 포함하는 미생물 분석 장치.
제16항에 있어서,

상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효를 카운트하여 결정하는 미생물 분석 장치.
제17항에 있어서,

상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 리드 파일로 정의하는 미생물 분석 장치.
제18항에 있어서,

상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 모두 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 경우, 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 더 큰 리드 파일을 상기 유효 싱글 리드 파일로 정의하는 미생물 분석 장치.
제18항에 있어서,

상기 제2 임계값은 상기 포워드 리드 파일 또는 리버스 리드 파일의 염기포인트의 전체 수효의 50% 이상인 미생물 분석 장치.