KR20220109707A

KR20220109707A - 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법

Info

Publication number: KR20220109707A
Application number: KR1020210013042A
Authority: KR
Inventors: 진강남; 유수연; 김경현; 김상인; 이경명
Original assignee: 대한민국(관리부서: 행정안전부 국립과학수사연구원장)
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-08-05
Also published as: KR102572274B1

Abstract

본 발명의 실시 예에 따른 방법은, 분석 장치의 동작 방법에 있어서, 염기 서열 분석 장비에서 출력된 시퀀싱 데이터를 입력받는 단계; 실험 환경 설정에 따라 입력된 매니페스트(Manifest) 정보에 기초하여, 상기 시퀀싱 데이터로부터 염기 정보가 나열된 서열 정보를 분석하는 단계; 상기 서열 정보 분석 결과를 시각화 처리하는 단계; 및 상기 시각화 처리된 서열 정보 분석 결과를 출력하는 단계를 포함한다.

Description

염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법{AN APPARATUS FOR ANALYZING NUCLEIC SEQUENCING DATA AND A METHOD FOR OPERATING IT}

본 발명은 염기서열 분석 장치 및 그 동작 방법에 관한 것이다. 보다 구체적으로, 본 발명은 시퀀서 플랫폼 간 호환작업 없이도 염기서열 분석정보를 신속하게 시각적으로 확인할 수 있는 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법에 관한 것이다.

다양한 생체 정보는 DNA 염기서열의 유전자로 표현되고, 개체의 완전한 DNA 염기서열 정보는 생명현상을 이해하고 질병과 관련된 정보를 얻을 수 있어 매우 중요하다. 이러한 DNA염기서열 정보의 해독, 즉 게놈시퀀싱(genome Sequencing)은 유전체 프로파일링 기술을 제공하며, 시퀀싱된 게놈 데이터는 유전체 분석, 유전자 발현 등의 정보들을 제공하며, 이는 유전자 발현 분석이나 치료 등의 영역에서 다양하게 활용되고 있다.

이에 따라 염기서열에 대한 정확하면서도 신속하게 분석하고 필요한 유전 바이오마커를 찾거나, 분석대상을 계층화하기 위한 다양한 시퀀싱 플랫폼(platforms)들이 연구되고 있다.

이러한 시퀀싱 플랫폼은 세대에 따라 순차적으로 발전되어 왔으며, 현재 염기서열 분석 시퀀싱 플랫폼이 탑재된 장비는 분석할 실험 데이터를 입력하면 염기 서열 분석 결과 데이터를 출력하는 프로세스를 제공하되, 특징에 따라 크게 3가지로서, 1 세대 (Sanger chain termination method), 차세대 (next generation, sequencing by synthesis), 3세대 이상 (Single molecule sequencing)의 플랫폼으로 구분되어 진다.

1세대는 PCR (중합효소연쇄반응, chain termination)을 이용한 Chain termination(연쇄 정지반응) 단계가 필요하며 이로 생성되는 주형을 기준으로 여러가지 길이로 생성되고 말단의 염기에 붙어있는 형광염료의 다른 정보의 조합으로 서열을 판단하는 방식으로서, HLA, STR처럼 이미 많은 연구로 밝혀진 개체의 유전적 특징 (Genotyping)을 연구하는데 유용하게 주로 쓰인다.

반면, 2세대 및 3세대의 차세대 염기서열 분석장치는 크게 주형가닥을 합성하면서 내는 발광 염료의 정보로 염기를 분석하므로, 1세대에서 필수적인 Chain Termination 단계가 필요하지 않으며, 세부 기술의 특징의 차이는 있지만 1세대 보다 훨씬 길게 읽고 빠르다.

이에 따라, 각 플랫폼별 산출되는 게놈 시퀀싱 데이터는 일반적으로 데이터 생성 환경 등을 나타내는 헤더 라인과, 분석된 염기서열 데이터를 포함할 수 있으며, 헤더 라인의 구성은 플랫폼에 따라 필요한 서로 다른 구조를 가지게 된다.

이와 같이, 각 플랫폼에서 산출되는 게놈 시퀀싱 데이터는 플랫폼별 고유의 헤더 라인 및 데이터 포맷을 가지므로, 시퀀싱 데이터 분석을 위한 플랫폼 변환 과정을 거쳐야 분석이 가능하게 되는 문제점이 있다.

또한, 이러한 변환 과정에서, 데이터 손실도 발생할 수 있어, 다양한 플랫폼을 지원하는 분석 툴 개발에 많은 어려움이 있는 실정이다.

본 발명은 상기한 바와 같은 문제점을 해결하고자 안출된 것으로, 시퀀싱 데이터의 플랫폼에 관계 없이, 시퀀싱 데이터 및 매니페스트 정보만 입력되면 별도의 시퀀싱 데이터의 플랫폼 변환 없이도 시각화된 염기서열 분석 결과를 출력할 수 있는 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법을 제공하는데 그 목적이 있다.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 분석 장치의 동작 방법에 있어서, 염기 서열 분석 장비에서 출력된 시퀀싱 데이터를 입력받는 단계; 실험 환경 설정에 따라 입력된 매니페스트(Manifest) 정보에 기초하여, 상기 시퀀싱 데이터로부터 염기 정보가 나열된 서열 정보를 분석하는 단계; 상기 서열 정보 분석 결과를 시각화 처리하는 단계; 및 상기 시각화 처리된 서열 정보 분석 결과를 출력하는 단계를 포함한다.

또한, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 분석 장치에 있어서, 염기 서열 분석 장비에서 출력된 시퀀싱 데이터를 입력받는 데이터 입력부; 실험 환경 설정에 따라 입력된 매니페스트(Manifest) 정보에 기초하여, 상기 시퀀싱 데이터로부터 염기 정보가 나열된 서열 정보를 분석하는 서열 분석 처리부; 상기 서열 정보 분석 결과를 시각화 처리하는 시각화 처리부; 및 상기 시각화 처리된 서열 정보 분석 결과를 출력하는 출력부를 포함한다.

한편, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 상기 방법을 컴퓨터에서 실행시키기 위한 컴퓨터 판독 가능한 매체에 저장되는 컴퓨터 프로그램 및 그 기록매체로 구현될 수 있다.

본 발명의 실시 예에 따르면, 염기 서열 분석 장비에서 출력한 시퀀싱 데이터가 입력되면, 실험 환경에 대응하는 실험설정 정보가 입력된 매니페스트(Manifest) 정보에 기초하여, 상기 시퀀싱 데이터로부터 염기 정보가 나열된 서열 정보를 분석하여 상기 서열 정보 분석 결과를 시각화 처리 및 출력할 수 있다.

이에 따라, 본 발명의 실시 예에 따르면, 시퀀싱 데이터의 플랫폼에 관계 없이, 시퀀싱 데이터 및 매니페스트 정보만 입력되면 별도의 시퀀싱 데이터의 변환 없이도 시각화된 염기서열 분석 결과를 출력할 수 있다.

따라서, 본 발명의 실시 예에 따른 방법은 호환성을 위한 포맷 변환 과정을 필요로 하지 않으므로, 포맷별 데이터 분석 프로그래밍 언어 등에 익숙하지 않은 연구자의 접근성을 높이며, 각 분석 방식별 특장점들을 연구에 원활하게 활용할 수 있게 한다.

특히, 본 발명의 실시 예에 따른 방법은, 오랜 연구로 잘 알려진 서열들을 연구하는데 도움이 될 수 있는 바, 예를 들어 진단의학에서 2,3세대 방식으로 많은 시료 분석을 한꺼번에 진행해야 하거나, 1세대 장치를 사용하는 것이 비용 절감이 되는 등의 여러 복합적 환경에서의 활용성이 증대될 수 있다.

더욱이 본 발명의 실시 예에 따른 방법은, 국립과학수사연구원의 분석 프로세스로서 효과적으로 이용될 수 있다. 현재 국립과학수사연구원은 STR(Short Tandem Repeat) 기법상 크기에 따른 분석법으로서 Capillary Electrophoresis 방식을 사용하고 있어 염기서열의 변이를 확인하기 어려우며, 이로 인해 세계적인 STR 좌위의 직접염기서열분석을 신원확인을 하는 방법을 사용하거나 또는 단일염기서열변이의 확인을 시퀀싱을 통해 확인하는 기법으로 변경하고 있는 과도기에 있다. 그러나, 본 발명의 실시 예에 따른 방법을 활용하면, STR의 정확도에 따라 시퀀싱 플랫폼의 선택을 다양하게 선택하여 분석하게 할 수 있으며, 2,3세대 방식이 1세대 장치를 사용하는 것 보다 비용 절감이 되는 경우 등의 여러 복합적 환경에서의 각 이점을 선택적으로 활용할 수 있게 하므로, 그 효용성이 증대될 수 있다.

특히, 예방이나 잠재적인 유전질병을 알아내기 위해 외부 데이터와 전세대 기술을 차세대 분석기술과 병행 분석하고자 하는 의료서비스도 대두되고 있는 바, 본 발명의 실시 예에 따른 분석 장치 및 그 동작 방법에 따라 이러한 세대 복합적인 병행 분석 프로세스를 제공할 수 있는 장점이 있다.

또한, 진단의학 목적 이외에도 현재 국립과학수사연구원의 신원확인을 위한 차세대염기서열 및 다양한 분석 기술 방법의 적극 도입이 필요한 바, 본 발명의 실시 예에 따른 분석 장치 및 그 동작 방법에 따라 이러한 시퀀싱 플랫폼의 세대 복합적인 병행 분석 프로세스로 데이터의 신뢰도를 높일 수 있는 장점이 있다.

도 1은 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 3 내지 도 9는 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치의 사용자 인터페이스를 설명하기 위한 도면들이다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 저장부를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.

본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치 구성을 설명하기 위한 블록도이다.

본 명세서에서 설명되는 염기서열 데이터 분석 장치(100)는, 통상의 입출력 장치일 수 있으며, 컴퓨터, PC, 태블릿 PC, 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), PDA(Personal Digital Assistants) 등으로 예시될 수 있다.

또한, 염기서열 데이터 분석 장치(100)는, 유선 또는 무선으로 네트워크에 연결될 수 있으며, 네트워크간 상호간 통신을 위해 염기서열 데이터 분석 장치(100)는 근거리 네트워크, 인터넷 네트워크, LAN, WAN, PSTN(Public Switched Telephone Network), PSDN(Public Switched Data Network), 케이블 TV 망, WIFI, 이동 통신망 및 기타 유무선 통신망 등을 통하여 데이터를 송수신할 수 있다. 이를 위해 도시되지는 않았으나 염기서열 데이터 분석 장치(100)는 통신을 위한 하나 이상의 통신 모듈을 구비할 수 있다.

그리고, 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치(100)는, 염기 서열 분석 장비에서 출력된 시퀀싱 데이터를 입력받고, 실험 환경 설정에 따라 입력된 매니페스트(Manifest) 정보에 기초하여, 상기 시퀀싱 데이터로부터 염기 정보가 나열된 서열 정보를 하나 이상의 분석 프로세스로 분석하며, 상기 서열 정보 분석 결과를 시각화 처리하여 상기 시각화 처리된 서열 정보 분석 결과를 출력할 수 있는 바, 시퀀싱 데이터의 플랫폼에 관계 없이, 시퀀싱 데이터 및 매니페스트 정보만 입력되면 별도의 시퀀싱 데이터의 플랫폼 변환 없이도 시각화된 염기서열 분석 결과를 출력할 수 있다.

이를 위해, 염기서열 데이터 분석 장치(100)는, 데이터 입력부(110), 참조 데이터베이스 관리부(120), 서열 분석 처리부(130), 시각화 처리부(140), 출력부(150) 및 저장부(160)를 포함한다.

데이터 입력부(110)는, 염기 서열 분석 장비에서 출력된 시퀀싱 데이터를 입력받을 수 있는 바, 시퀀싱 데이터는 염기 서열 분석 장비의 종류에 따른 다양한 데이터 포맷으로 구성될 수 있다.

예를 들어, 시퀀싱 데이터는, 제1 세대 생어 프로세스에 의해 생성되는 FASTA 표준 포맷 파일이거나, 제2 또는 3세대의 차세대 프로세스에 의해 생성되는 FASTQ 표준 포맷이거나, FASTA 및 QUAL 표준 포맷 파일이거나, 네이티브 포맷 파일이거나, SRF 표준 포맷 파일이거나, BAM 표준 포맷 파일이거나, CSFASTA 및 QV.qual 표준 포맷 파일이거나, HDF5 표준 포맷 파일 중 적어도 하나를 포함할 수 있다.

이에 따라 데이터 입력부(110)는, 입력된 시퀀싱 데이터의 헤더 정보로부터 시퀀싱 데이터 대응하는 적합한 포맷 정보를 식별할 수 있으며, 포맷 정보에 따라 식별된 시퀀싱 데이터를 파싱하여 인덱싱 처리할 수 있다. 데이터 입력부(110)는, 인덱싱 처리에 오류가 발생되거나 시퀀싱 데이터의 퀄리티가 일정 수치 이하인 경우에는 출력부(150)를 통해 오류 메시지를 출력하고 데이터 입력 과정을 중단할 수 있다.

또한, 데이터 입력부(110)에 입력되는 시퀀싱 데이터는 하나 이상의 세대별 시퀀싱 데이터 포맷으로 구분될 수 있다.

여기서, 제1 세대 데이터는 생어(SANGER) 염기서열 분석 방식에 의해 생성된 제1 포맷 데이터일 수 있으며, 시퀀스 정의 라인 및 헤더 라인을 포함하고, 각 헤더 라인에 대응하는 하나 이상의 라인 시퀀스가 연속적으로 나열될 수 있다.

그리고, 제2 세대 데이터는 샘플 퀄리티 및 DNA 라이브러리 매핑 기반의 차세대 분석 방식(NGS)에 의해 생성된 제2 포맷 데이터일 수 있으며, 시퀀스 정의 라인 및 헤더 라인을 포함하고, 각 헤더 라인에 대응하는 하나 이상의 라인 시퀀스 및 퀄리티 정보가 연속적으로 나열될 수 있다.

한편, 제3 세대 데이터는 DNA 분자합성을 기반으로 복합화된 염기 시퀀스와 서열 비교 가능한 유사성 검사 정보를 포함하는 제3 포맷 데이터일 수 있으며, 시퀀싱 데이터 및 유사성 검사 정보를 포함할 수 있다.

그리고, 참조 데이터베이스 관리부(120)는, 시퀀싱 데이터와 함께, 서열 분석 처리부(130)의 정렬 단계에서 필요한 참조 유전체 정보가 데이터 입력부(110)에 입력된 경우, 참조 유전체 정보를 서열 분석 처리부(130)로 전달하거나, 참조 유전체 정보 또는 매니페스트 정보를 데이터베이스에서 색인하여 서열 분석 처리부(130)로 전달한다.

여기서, 참조 유전체 정보(Reference genome)는 시퀀싱 데이터가 생성되는 장비의 실험에 사용된 특정 키트나 패널에 대응하는 앰플리콘(amplicon) 정보 등을 포함할 수 있으며, 참조 데이터베이스 관리부(120)는 WGA(whole genome association) 서버와 같은 외부 서버로부터 오픈 소스로 공개된 참조 유전체 정보 또는 메니페스트 정보를 사전 수집하여 데이터베이스화 할 수 있다.

따라서, 참조 데이터베이스 관리부(120)는, 데이터 입력부(110)를 통해 입력된 사용자 입력에 따라 특정 메니페스트 정보 또는 참조 유전체 정보를 내부 또는 외부 데이터베이스에서 색인하여 서열 분석 처리부(130)로 제공할 수 있다.

여기서, 매니페스트 정보는, 데이터 입력부(110)에서 입력되어 서열 분석 처리부(130)로 전달될 수 있으며, 시퀀싱 데이터에 대응하는 시료 정보로서, 시퀀싱 데이터의 종류, 이름, 버전, 라이센싱, 기관 정보 등을 포함하는 그룹핑 메타데이터를 포함할 수 있다.

예를 들어 매니페스트 정보는, 미리 저장된 하나 이상의 단일 염기 다형성(SNP) 패널 중 적어도 하나를 선택함에 따라 결정된 SNP 패널 정보를 포함할 수 있다. 이러한 SNP 후보 패널의 입력에 따라, 서열 분석 처리부(130)에서는 직접 증폭 분석을 수행하지 않고도, 시퀀싱 데이터에 대응하는 다양한 분석(예를 들어 Germline vriant, Somatic Variant 등)을 수행할 수 있다. 따라서, 이는 연구의 유효성 검증의 용이성 및 시간과 비용 절감 효과를 가져올 수 있다.

한편, 서열 분석 처리부(130)는, 데이터 입력부(110)에서 입력된 시퀀싱 데이터와, 사용자 입력에 따라 결정된 메니페스트 정보 또는 참조 유전체 정보에 기초하여, 서열 염기 서열을 정렬 및 나열하는 분석 처리를 수행할 수 있다.

여기서, 정렬 분석은 시퀀싱 데이터로부터, 유전 변이와 시퀀싱 오류를 포함하고 있는 리드들을 메니페스트 정보 및 참조 유전체 정보로부터 획득되는 참조 염기서열과 비교하여, 리드의 염기서열과 일치하는 위치를 참조 염기서열에서 색인하고, 이를 마킹하는 분석 프로세스를 포함할 수 있으며, 분석 결과에 따른 서열 정보는 시각화 처리부(140)로 전달될 수 있다.

예를 들어, 서열 분석 처리부(130)는 상기 단일 염기 다형성 패널에 대응하는 참조 유전체 정보를 획득하고, 상기 참조 유전체 정보를 상기 시퀀싱 데이터에 매칭시켜 상기 서열 정보를 분석할 수 있는 것이다.

또한, 서열 분석 처리부(130)는, 데이터 입력부(110)에서 식별된 하나 이상의 세대별 시퀀싱 데이터 포맷 구분 정보를 이용하여, 사전 설정된 하나 이상의 세대별 분석 프로세스를 병행 처리함으로써 별도의 변환 처리 없이 구현된 세대 복합적 분석 처리를 수행할 수 있다.

서열 분석 처리부(130)에서 처리되는 상기 하나 이상의 세대별 분석 프로세스는, 헤더 라인에 대응하는 시퀀싱 데이터가 각각 포함되는 제1 세대 데이터 분석, 헤더 라인에 대응하는 시퀀싱 데이터 및 퀄리티 정보가 포함되는 제2 세대 데이터 분석 및 시퀀싱 데이터 및 유사성 검사 정보를 포함하는 제3 세대 데이터 분석 중 적어도 하나를 포함할 수 있다.

서열 분석 처리부(130)는 각 분석 프로세스를 선택적으로 적용함으로써 시퀀싱 데이터 포맷에 적합한 정렬 처리를 수행하고, 이에 기초한 서열 정보를 분석할 수 있게 된다.

예를 들어, 서열 분석 처리부(130)는 분석 프로세스의 제1 세대 데이터 분석, 제2 세대 데이터 및 제3 세대 데이터 분석 중 STR(Short Tandem Repeat) 시퀀스의 염기 정확도에 따라 어느 하나의 시퀀싱 플랫폼에 대응하는 세대별 데이터 분석 프로세스를 선택하게 할 수 있다. 이는 환경 설정 등에 따라 선택적으로 적용될 수 있으므로, 복합적 환경에서의 적응적 사용성이 증대될 수 있다.

예를 들어, 서열 분석 처리부(130)에서는 리드 정렬에 따라 염기 정확도가 높은 경우에는 유일 매핑을 처리하거나, 반복서열이거나 상동 영역인 경우 부분 매핑을 처리할 수 있으며, 정렬 후속 프로세스 및 염기 정확도 재보정에 따라, 인공적 결함 제거 및 동시 정렬 리드 제거, 지역적 재정렬 등의 처리를 수행할 수 잇다. 정렬과 후속 과정을 마친 염기서열 데이터의 특성은 예를 들어, 너비(breath)와 깊이(depth 혹은 coverage) 등 크게 두 가지 척도로 표현될 수 있으며, 시각화 처리부(140)를 통해 출력될 수 있다. 너비는 규명한 유전체 정도를 나타내고, 깊이는 유전체에서 각 염기가 리드에 의해 평균적으로 규명된 정도를 나타낼 수 있다. 깊이는 염기에 대하여 대략적으로 정규분포를 따를 수 있다.

이에 따라, 시각화 처리부(140)는 상기 서열 정보 분석 결과를 시각화 처리하고, 시각화 처리된 분석 결과 정보를 포함하는 시각화 인터페이스를 출력부(150)로 전달할 수 있다.

출력부(150)는 시각화 인터페이스를 출력하기 위한 하나 이상의 출력 모듈을 포함할 수 있으며, 출력 모듈은 디스플레이 및 음성 출력부를 포함할 수 있다.

여기서, 시각화 처리부(140)는 분석된 서열 정보에 대응하는 상기 시각화 인터페이스에 상기 서열 정보에 포함된 하나 이상의 염기에 대응하는 히스토그램 분석 정보가 포함되도록 시각화 처리할 수 있으며, 시각화 처리 방식은 SAM(sequence alignment map) 표준 기반의 정렬 데이터를 이진 형식으로 압축한 BAM(binariy alignment map) 표준 기반의 데이터를 이용한 시각화 처리 프로세스를 포함할 수 있다.

예를 들어, 상기 히스토그램 분석 정보는, 상기 하나 이상의 염기에 대응하는 퀄리티 스코어, 깊이 정보 및 피크 강도 정보 중 적어도 하나를 포함할 수 있다.

한편 저장부(160)는 염기서열 데이터 분석 장치(100)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들을 임시 저장할 수도 있다. 저장부(160)는 플래시 저장부 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 저장부(예를 들어 SD 또는 XD 저장부 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 저장부, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 염기서열 데이터 분석 장치(100)는 인터넷(internet)상에서 상기 저장부(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

저장부(160)는, 출력부(150)를 통해 출력된 서열 정보 분석 결과를 사전 설정된 파일 포맷으로 저장할 수 있으며, 여기서 상기 파일 포맷은 염기 서열 분석 결과를 나타내는데 유용한 VCF(VARIANT CALL FORMAT)인 것이 바람직할 수 있다.

도 2는 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치의 동작 방법을 설명하기 위한 흐름도이며, 도 3 내지 도 9는 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치의 사용자 인터페이스를 설명하기 위한 도면들이다.

도 2를 참조하면, 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치(100)는, 먼저 데이터 입력부(110)를 통해 실험 환경 정보를 사용자로부터 입력받는다(S101).

도 3 및 도 4를 참조하면, 실험 환경 정보는 출력부(150)를 통해 출력되는 사용자 인터페이스를 통해 입력받을 수 있다. 실험 환경 정보는 도 3에 도시된 바와 같이 사용자 정보를 포함할 수 있고, 도 4에 도시된 바와 같이 실험일 정보, 분석 장치 종류 정보, 실험 제목 정보 및 고유번호 정보 중 적어도 하나를 포함할 수 있다.

그리고, 다시 도 2를 참조하면, 염기서열 데이터 분석 장치(100)는, 데이터 입력부(110)를 통해 시퀀싱 데이터 및 매니페스트 정보를 입력받는다(S103). 여기서, 입력된 시퀀싱 데이터는 서열분석을 위한 전처리가 사전 수행될 수 있다(S105). 전처리 과정은 예를 들어, 앞서 설명한 바와 같은 인덱싱 프로세스 및 퀄리티 판단 프로세스가 포함될 수 있다.

또한, 염기서열 데이터 분석 장치(100)는 사용자 입력에 따라, 참조 유전체 데이터를 참조 데이터베이스 관리부(120)로부터 호출할 수 있다(S107).

도 5는 본 발명의 실시 예에 따른 매니페스트 정보 설정 인터페이스를 도시한 것으로, 사용자는 매니페스트 정보 설정 인터페이스를 통해 정렬 또는 나열 단계에 필요한 참조유전체를 선택 입력하거나, 사전 설정된 특정 키트나 SNP 패널 정보를 매니페스트 정보로서 입력하거나, 외부 데이터베이스로부터 로드된 참조 유전체를 직접 로드하도록 입력할 수도 있다.

그리고, 다시 도 2를 참조하면, 염기서열 데이터 분석 장치(100)는 1차 분석에 기초한 시퀀스 정보를 이용한 염기 서열로의 시각화 처리를 수행하고(S109), 2차 분석에 기초한 서열 분석 정보를 획득하여(S111), 최종 시각화된 서열 분석 결과를 출력부(150)의 디스플레이를 통해 출력한다(S113).

도 6 및 도 7은 본 발명의 실시 예에 따른 사용자 인터페이스를 도시한 것으로, 출력부(150)는 나열 및 분석 중이라는 제1 대기 화면과, BAM 방식으로 가시화 처리 중임을 나타내는 제2 대기 화면을 순차적으로 출력할 수 있다.

그리고, 도 8은 본 발명의 실시 예에 따른 서열 분석 결과 인터페이스를 도시한 것으로, 본 발명의 실시 예에 따른 염기서열 데이터 분석 장치(100)는, 1차 분석에 기초한 시퀀싱 데이터의 서열 정보를 가시화 처리할 수 있으며, 만약 중복 데이터가 존재하는 경우에는 서열 비교 분석 정보를 가시화 처리할 수 있다.

그리고, 처리된 서열 정보에 대응하는 2차 분석에 따라, 도 8에 도시된 서열 정보의 각 염기에 대응하는 퀄리티 스코어, 깊이 정보 또는 피크 강도(PEAK INTENSITY) 정보 중 적어도 하나를 히스토그램 방식으로 병행 출력할 수도 있는 바, 이는 분석 결과의 출력 설정에 따라 가변될 수 있다.

한편, 다시 도 2를 참조하면, 염기서열 데이터 분석 장치(100)는, 사용자 입력에 따라 서열 분석 결과를 사전 설정된 공용 데이터 포맷으로 저장 처리할 수 있다(S115).

도 9에 도시된 바와 같이, 사전 설정된 공용 데이터 포맷은 염기 서열 정보를 위해 표준화된 VCF 파일 포맷일 수 있으며, 사용자는 저장부(160)에 저장된 VCF 파일을 이용하여, 염기서열 분석 시퀀싱 데이터의 포맷 변환 없이도 다양한 세대를 아우르는 복합적인 서열 분석을 수행할 수 있다.

한편, 이와 같은 본 발명의 실시 예에 따른 방법은, 국립과학수사연구원의 분석 프로세스로서 효과적으로 이용될 수 있다. 현재 국립과학수사연구원은 STR(Short Tandem Repeat) 기법상 크기에 따른 분석법으로서 Capillary Electrophoresis 방식을 사용하고 있어 염기서열의 변이를 확인하기 어려우며, 이로 인해 세계적인 STR 좌위의 직접염기서열분석을 신원확인을 하는 방법을 사용하거나 또는 단일염기서열변이의 확인을 시퀀싱을 통해 확인하는 기법으로 변경하고 있는 과도기에 있다.

그러나, 본 발명의 실시 예에 따른 방법을 활용하면, STR의 정확도에 따라 시퀀싱 플랫폼의 선택을 다양하게 선택하여 분석하게 할 수 있으며, 2,3세대 방식이 1세대 장치를 사용하는 것 보다 비용 절감이 되는 경우 등의 여러 복합적 환경에서의 각 이점을 선택적으로 활용할 수 있게 하므로, 그 효용성이 증대될 수 있다.

한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법은 단말 장치에서 실행되기 위한 설치 데이터 형태로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 각 서버 또는 기기들에 제공될 수 있다. 이에 따라, 사용자 단말(100)은 서버 또는 기기에 접속하여, 상기 설치 데이터를 다운로드할 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

분석 장치의 동작 방법에 있어서,
염기 서열 분석 장비에서 출력된 시퀀싱 데이터를 입력받는 단계;
실험 환경 설정에 따라 입력된 매니페스트(Manifest) 정보에 기초하여, 상기 시퀀싱 데이터로부터 염기 정보가 나열된 서열 정보를 하나 이상의 분석 프로세스로 분석하는 단계;
상기 서열 정보 분석 결과를 시각화 처리하는 단계; 및
상기 시각화 처리된 서열 정보 분석 결과를 출력하는 단계를 포함하는
염기서열 데이터 분석 장치의 동작 방법.
제1항에 있어서,
상기 분석하는 단계는,
미리 저장된 하나 이상의 단일 염기 다형성(SNP) 패널 중 적어도 하나를 선택하여 상기 매니페스트 정보를 설정하는 단계를 포함하는
염기서열 데이터 분석 장치의 동작 방법.
제2항에 있어서,
상기 분석하는 단계는,
상기 단일 염기 다형성 패널에 대응하는 참조 유전체 정보를 획득하는 단계; 및
상기 참조 유전체 정보를 상기 시퀀싱 데이터에 매칭시켜 상기 서열 정보를 분석하는 단계를 포함하는
염기서열 데이터 분석 장치의 동작 방법.
제1항에 있어서,
상기 분석 결과를 출력하는 단계는,
상기 서열 정보 분석 결과를 포함하는 시각화 인터페이스를 출력하는 단계를 포함하고,
상기 시각화 인터페이스는 상기 서열 정보에 포함된 하나 이상의 염기에 대응하는 히스토그램 분석 정보를 포함하는
염기서열 데이터 분석 장치의 동작 방법.
제4항에 있어서,
상기 히스토그램 분석 정보는, 상기 하나 이상의 염기에 대응하는 퀄리티 스코어, 깊이 정보 및 피크 강도 정보 중 적어도 하나를 포함하는
염기서열 데이터 분석 장치의 동작 방법.
제1항에 있어서,
상기 출력하는 단계는,
상기 서열 정보 분석 결과를 사전 설정된 파일 포맷으로 저장하는 단계를 더 포함하는
염기서열 데이터 분석 장치의 동작 방법.
제1항에 있어서,
상기 파일 포맷은 VCF(VARIANT CALL FORMAT)인 것을 특징으로 하는
염기서열 데이터 분석 장치의 동작 방법.
분석 장치에 있어서,
염기 서열 분석 장비에서 출력된 시퀀싱 데이터를 입력받는 데이터 입력부;
실험 환경 설정에 따라 입력된 매니페스트(Manifest) 정보에 기초하여, 상기 시퀀싱 데이터로부터 염기 정보가 나열된 서열 정보를 하나 이상의 분석 프로세스로 분석하는 분석하는 서열 분석 처리부;
상기 서열 정보 분석 결과를 시각화 처리하는 시각화 처리부; 및
상기 시각화 처리된 서열 정보 분석 결과를 출력하는 출력부를 포함하는
염기서열 데이터 분석 장치.
제8항에 있어서,
상기 서열 분석 처리부는,
미리 저장된 하나 이상의 단일 염기 다형성(SNP) 패널 중 적어도 하나를 선택하여 상기 매니페스트 정보를 설정하는
염기서열 데이터 분석 장치.
제9항에 있어서,
상기 서열 분석 처리부는,
참조 데이터베이스 관리부로부터 상기 단일 염기 다형성 패널에 대응하는 참조 유전체 정보를 획득하고, 상기 참조 유전체 정보를 상기 시퀀싱 데이터에 매칭시켜 상기 서열 정보를 분석하는
염기서열 데이터 분석 장치.
제8항에 있어서,
상기 출력부는,
상기 서열 정보 분석 결과를 포함하는 시각화 인터페이스를 출력하고,
상기 시각화 인터페이스는 상기 서열 정보에 포함된 하나 이상의 염기에 대응하는 히스토그램 분석 정보를 포함하는
염기서열 데이터 분석 장치의 동작 방법.
제11항에 있어서,
상기 히스토그램 분석 정보는, 상기 하나 이상의 염기에 대응하는 퀄리티 스코어, 깊이 정보 및 피크 강도 정보 중 적어도 하나를 포함하는
염기서열 데이터 분석 장치.
제8항에 있어서,
상기 서열 정보 분석 결과를 사전 설정된 파일 포맷으로 저장하는 저장부를 더 포함하는
염기서열 데이터 분석 장치.
제13항에 있어서,
상기 파일 포맷은 VCF(VARIANT CALL FORMAT)인 것을 특징으로 하는
염기서열 데이터 분석 장치.
제8항에 있어서,
상기 하나 이상의 분석 프로세스는, 헤더 라인에 대응하는 시퀀싱 데이터가 각각 포함되는 제1 세대 데이터 분석, 헤더 라인에 대응하는 시퀀싱 데이터 및 퀄리티 정보가 포함되는 제2 세대 데이터 분석 및 시퀀싱 데이터 및 유사성 검사 정보를 포함하는 제3 세대 데이터 분석 중 적어도 하나를 포함하는
염기서열 데이터 분석 장치.
제15항에 있어서,
상기 서열 분석 처리부는, STR(Short tandem repeat) 기법에 의해 검출된 STR 염기 서열의 정확도에 기초하여, 상기 제1 세대 데이터 분석, 중 상기 제2 세대 데이터 분석, 상기 제3 세대 데이터 분석 중 어느 하나를 상기 하나 이상의 분석 프로세스로서 선택 결정하는
염기서열 데이터 분석 장치.
제1항 내지 제7항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 컴퓨터 판독 가능한 매체에 저장되는 컴퓨터 프로그램.