KR20220089211A

KR20220089211A - 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치

Info

Publication number: KR20220089211A
Application number: KR1020200179632A
Authority: KR
Inventors: 송길태; 이도현
Original assignee: 부산대학교 산학협력단
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-06-28
Also published as: US20220199202A1; KR102497634B1

Abstract

문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터 장치로 구현되는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법은, 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계; 분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계; 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계; 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계; 및 정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 단계를 포함하여 이루어질 수 있다.

Description

문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법 및 장치{METHOD AND APPARATUS FOR COMPRESSING FASTQ DATA THROUGH CHARACTER FREQUENCY-BASED SEQUENCE REORDERING}

아래의 실시예들은 유전자 데이터의 대표적인 포맷인 FASTQ 데이터를 효율적으로 저장하고 전송하기 위한 전용 압축 기술에 관한 것으로, 더욱 상세하게는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법 및 장치에 관한 것이다.

유전체 서열 데이터(Genome sequencing data)는 차세대 염기서열 시퀀싱(Next Generation Sequencing, NGS) 기술로 인한 생산 비용의 감소와 세포 분석 기법의 발달로 급속하게 증가하고 있다. 2008년 등장한 차세대 염기서열 시퀀싱(NGS) 기술로 인해 유전체 서열 데이터의 생산 능력이 향상되고 있다. 그 이후 등장한 3세대, 4세대 시퀀싱 기술과 단일 세포 분석의 등장으로 유전체 서열 데이터 생산 능력은 무어의 법칙(Moore's Law)을 넘어 7개월에 2배씩 증가하고 있다. 이런 경향으로 인해 2025년 기준으로 유전체 서열 데이터는 문자와 영상과 함께 빅데이터의 영역으로 진입할 것으로 추정하고 있다. 이로 인해 유전체 서열 데이터를 보관하고 전송시키는 비용이 문제가 되고 있다.

이 문제를 해결하기 위해 일반적인 압축 기법을 많이 사용하고 있지만, 유전체 서열 데이터는 특수한 포맷으로 저장되어 있어 일반 압축 기법은 압축률이 떨어지는 문제가 있다. 이를 해결하기 위해 유전체 서열 전용 압축 프로그램들은 다음과 같은 유전체 서열 데이터의 구조를 이용해서 새로운 방법을 개발하고 있다.

유전체 서열 데이터는 염기서열과 이에 상응하는 품질 점수를 저장하기 위한 텍스트 기반 포맷으로 FASTQ를 사용하는데, ASCII 문자로 구성되어 있다. FASTQ 포맷은 일반적으로 염기서열 당 4개의 라인을 사용한다. 1행은‘@’문자로 시작되고 염기서열 식별자와 부가적인 설명, 2행은 염기서열 리드 정보로 주로 알파벳(A, C, T, G, N)으로 구성되어 있으나, 기기에 따라 숫자의 형태(0, 1, 2, 3)로 표시할 수 있다. 3행은 ‘+’문자로 시작되고 선택적으로 1행과 똑같은 데이터가 있을 수 있다. 4행은 2행의 염기서열 리드에 대한 품질 값으로 염기의 정확도로 Phred Quality Score를 사용한다. Q가 10일 경우 염기의 정확도는 90%를 의미하고 20일 경우 99%를 의미한다. Q의 수치가 높을수록 출력된 염기가 정확하다. 이 값은 ASCII 코드로 표시하고 일반적으로 40종류의 문자로 표시하지만 최근 4종류의 문자로 표현하는 기기들이 등장하고 있다.

위와 같은 특징을 이용해 기존 유전체 서열 압축 프로그램들은 유전체 서열 데이터를 각 구성요소인 식별자, 염기서열 리드, 예측품질점수의 분포와 의미를 고려해 압축을 진행해 왔다. 하지만 최근 새로운 시퀀싱 기술의 발전으로 데이터의 길이가 변화하고 생산 플랫폼이 다양함에 따라 데이터의 종류가 증가하게 되었다. 이런 데이터의 변화로 인해 기존 유전체 서열 압축 프로그램은 데이터의 크기와 생산하는 플랫폼의 종류에 따라 동작하지 않는 문제가 발생하고 있다.

이와 같이, FASTQ 데이터는 유전자 데이터의 대표적인 표준 포맷으로 널리 사용되고 있으나, 그 용량이 매우 커서 저장이 용이하지 않고 저장에 따른 비용도 높아서 문제가 되고 있다. 이러한 문제에 압축 용량을 줄이기 위한 기존기술들이 존재하나 염기서열의 성호 겹치는 비율 등을 이용할 뿐 압축률이 높지 않고, 또한 압축률을 높이기 위해 퀄리티 밸류(quality value)라고 부르는 데이터의 예측품질정보를 복원할 수 없도록 압축하는 경우도 발생하고 있다. 따라서 다양한 데이터에 상관없이 안정적으로 동작하는 유전체 서열 데이터 전용 압축 방법이 요구된다.

Bonfield, J. K., & Mahoney, M. V. (2013). Compression of FASTQ and SAM format sequencing data. PloS one, 8(3).

실시예들은 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법 및 장치에 관하여 기술하며, 보다 구체적으로 다양한 유전체 서열 데이터에서 안정적으로 동작하고 최근에 생산된 데이터에 대해서 좋은 성능을 보이는 유전체 서열 데이터 전용 압축 기술을 제공한다.

실시예들은 염기서열의 상호 겹치는 비율이거나 사전식 정렬 방식이 아닌, 염기서열의 문자 빈도를 기반의 새로운 정렬 방식을 이용하여 압축률을 향상시킴으로써, 퀄리티 밸류라고 부르는 데이터의 예측품질정보까지도 무손실로 압축이 가능하여 압축률 향상뿐만 아니라 데이터 자체의 품질도 훼손하지 않는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법 및 장치를 제공하는데 있다.

일 실시예에 따른 컴퓨터 장치로 구현되는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법은, 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계; 분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계; 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계; 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계; 및 정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 단계를 포함하여 이루어질 수 있다.

상기 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계는, 상기 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리하는 단계를 포함하고, 상기 압축된 유전체 서열 데이터의 생성을 위해 상기 압축 프로그램을 통해 압축 시, 상기 식별자의 기타정보를 상기 식별자의 정보로 사용할 수 있다.

상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계는, 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 상기 글자 분포가 임계 값보다 낮은 경우 제외시키는 단계를 포함하여 이루어질 수 있다.

상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하는 단계; 및 상기 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복하는 단계를 포함하여 이루어질 수 있다.

상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하는 단계; 및 상기 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복하는 단계를 포함할 수 있다.

상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 상기 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작할 수 있다.

상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계는, 상기 전체 염기서열 리드를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 단계를 포함할 수 있다.

상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계는, 상기 예측품질정보를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 단계를 포함할 수 있다.

상기 압축된 유전체 서열 데이터를 생성하는 단계는, 순서를 기억하기 위해 정렬된 상기 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장시키고, 정렬된 상기 예측품질정보와 상기 예측품질정보의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장할 수 있다.

상기 압축된 유전체 서열 데이터를 상기 일반 압축 프로그램을 이용하여 복원하는 단계; 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키는 단계; 및 정렬된 상기 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터를 제작하는 단계를 더 포함할 수 있다.

다른 실시예에 따른 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 장치는, 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 유전체 서열 데이터 분리부; 분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 문자 빈도 측정부; 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 점수 제작부; 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 점수 기반 정렬부; 및 정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 유전체 서열 데이터 압축부를 포함하여 이루어질 수 있다.

상기 유전체 서열 데이터 분리부는, 상기 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리하고, 상기 압축된 유전체 서열 데이터의 생성을 위해 상기 압축 프로그램을 통해 압축 시, 상기 식별자의 기타정보를 상기 식별자의 정보로 사용할 수 있다.

상기 문자 빈도 측정부는, 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 상기 글자 분포가 임계 값보다 낮은 경우 제외시킬 수 있다.

상기 점수 제작부는, 단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하고, 상기 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복할 수 있다.

상기 점수 제작부는, 단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하고, 상기 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복할 수 있다.

상기 점수 제작부는, 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 상기 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작할 수 있다.

상기 점수 기반 정렬부는, 상기 전체 염기서열 리드를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행할 수 있다.

상기 점수 기반 정렬부는, 상기 예측품질정보를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행할 수 있다.

상기 유전체 서열 데이터 압축부는, 순서를 기억하기 위해 정렬된 상기 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장시키고, 정렬된 상기 예측품질정보와 상기 예측품질정보의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장할 수 있다.

상기 압축된 유전체 서열 데이터를 상기 일반 압축 프로그램을 이용하여 복원한 후, 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키며, 정렬된 상기 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터를 제작하는 유전체 서열 데이터 복원부를 더 포함할 수 있다.

실시예들에 따르면 염기서열의 상호 겹치는 비율이거나 사전식 정렬 방식이 아닌, 염기서열의 문자 빈도를 기반의 새로운 정렬 방식을 이용하여 압축률을 향상시킴으로써, 퀄리티 밸류라고 부르는 데이터의 예측품질정보까지도 무손실로 압축이 가능하여 압축률 향상뿐만 아니라 데이터 자체의 품질도 훼손하지 않는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법 및 장치를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템(장치)의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 FASTQ 데이터 압축 장치를 나타내는 블록도이다.
도 3은 일 실시예에 따른 FASTQ 데이터 압축 방법을 나타내는 도면이다.
도 4는 일 실시예에 따른 유전체 서열 데이터를 구성요소 별로 분리하는 과정을 설명하기 위한 도면이다.
도 5a는 일 실시예에 따른 전체 염기서열에 대한 문자 빈도 측정 과정을 설명하기 위한 도면이다.
도 5b는 일 실시예에 따른 전체 예측품질정보에 대한 문자 빈도 측정 과정을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 단일 염기서열의 문자 분포를 설명하기 위한 도면이다.
도 7a는 일 실시예에 따른 단일 염기서열 리드의 문자 빈도를 이용한 점수 제작의 예시를 나타내는 도면이다.
도 7b는 일 실시예에 따른 전체 염기서열 리드의 문자 빈도를 이용한 점수 제작의 예시를 나타내는 도면이다.
도 8a는 일 실시예에 따른 점수 기반 전체 염기서열 리드의 사전식 정렬을 설명하기 위한 도면이다.
도 8b는 일 실시예에 따른 점수 기반 전체 염기서열 리드의 사전식 정렬의 예시를 나타내는 도면이다.
도 9a는 일 실시예에 따른 점수 기반 정렬의 예시를 나타내는 도면이다.
도 9b는 일 실시예에 따른 사전식 정렬의 예시를 나타내는 도면이다.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

유전체 서열 데이터는 2세대 시퀀싱(NGS)으로 인해 크기가 커지고 중복된 부분이 많아졌다. 이로 인해 유전체 서열 데이터를 보관하고 전송하는데 사용되는 시간과 비용이 증가했다. 이 문제를 해결하기 위해 많은 데이터 전용 압축 프로그램이 연구되었지만, 새로운 시퀀싱과 분석 기술의 등장으로 변화된 데이터에 제대로 동작하지 못하는 문제가 있다.

본 발명은 위와 같은 종래기술의 문제점을 해결하기 위한 것으로, 염기서열의 상호 겹치는 비율이거나 사전식 정렬 방식이 아닌, 새로운 정렬 (염기서열의 문자 빈도를 기반) 방식을 사용해 압축률을 향상시키는 것이다. 이 방식을 채택할 경우, 특히 퀄리티 밸류라고 부르는 데이터의 예측품질정보까지도 무손실로 압축이 가능하여 압축률 향상뿐만 아니라 데이터 자체의 품질도 훼손하지 않을 수 있다.

본 발명의 실시예들은 새롭게 등장한 긴 염기서열을 가지는 유전체 서열 데이터(long-read)에서 잘 동작하도록 제작되었다. 기존 유전체 서열 데이터 압축 프로그램과 유사하게 정렬을 기반으로 두고 있지만, 겹치는 부분이 아닌 염기서열의 문자 빈도를 이용해 정렬시킨다는 점에서 차이가 있다. 여기에서는 벤치마크 데이터로 다양한 종의 데이터를 사용했으며, 크기와 염기서열의 길이와 상관없이 잘 동작하는 것을 확인했다. 특히, 긴 염기서열 데이터의 경우 다른 압축 프로그램보다 높은 압축 성능을 보여준다.

대부분의 유전체 서열 데이터 전용 압축 프로그램은 일반 압축 기법을 내부적으로 사용하고 있다. 각 프로그램의 성능을 좌우하는 것은 데이터 전처리 과정을 이용한다. 기본적으로 유전체 서열 데이터의 전처리 과정은 FASTQ 포맷의 구성요소로 분리하는 과정이 선행되고 이후 식별자의 토큰화(read-identifier tokenization), 염기서열 리드의 비트 부호화(bit nucleotide encoding), 염기서열 리드의 참조 게놈 비교 기법과 염기서열 리드에 대한 예측품질정보(quality score)의 손실 압축, 전체 염기서열의 정렬과 같은 추가적인 전처리 과정을 통해 압축 성능을 올린다.

식별자의 경우 염기서열마다 고유한 값을 가지고 있다. 식별자 영역에는 이 외에도 데이터를 생성한 기기명, 실행 식별자, 타일 좌표 정보를 추가로 기록하고 있는데, 이 정보는 모든 염기서열에서 유사하거나 중복된다. 이런 불필요하게 중복된 정보는 유전체 서열 데이터 용량을 크게 만드는 원인이 되고 있다. 이를 해결하기 위해 식별자를 조금 더 세부적인 영역으로 분리하는 것을 식별자의 토큰화라고 한다. 식별자 영역을 점(.), 밑줄(_), 스페이스( ), 붙임표(-), 콜론(:), 등호(=), 빗금(/)을 기준으로 분리한다. 이 방법을 통해 불필요하게 중복된 영역을 제거하고, 이후 델타 부호화(delta encoding) 또는 반복 길이 부호화(run-length encoding)를 이용해 압축 성능을 올린다. 이와 같은 방식을 사용하는 프로그램으로는 LFastqC, LFQC, DSRC2, FQC, Fastqz가 있다.

염기서열 리드의 경우 대부분 A, C, G, T로 이루어져 있거나 추가로 N을 사용할 수 있다. 그래서 각 염기를 바이트 대신에 비트를 사용해 염기서열 리드를 표시하고자 한다. 이 방법은 일반 압축 기법이 기본적인 엔트로피 부호화를 포함하고 있어서 현재 압축률을 향상하는 용도로 사용하고 있지 않다. 하지만 이를 활용해 압축 속도를 효과적으로 향상하는 연구가 있다. 본 프로그램은 압축 속도보다 좀 더 안정적이고 높은 압축률을 목표로 제작되었기 때문에 비트 부호화 방법은 사용하지 않았다.

유전체 서열 데이터의 경우 참조 게놈이 존재한다. 참조 게놈은 한 개의 염기서열이 아닌 여러 명의 합성으로 희귀한 변이를 최소화한 데이터로, 한 종을 대표하는 가상의 완성된 염기서열이다. 분리된 염기서열을 완성된 참조 게놈과 비교하면 유사한 부분이 매우 많다. 이를 활용해 분리된 염기서열과 비슷한 참조 게놈의 위치를 기록하고, 차이가 나는 부분은 따로 기록하는 방법으로 데이터를 압축하는 방법이다. 하지만 이런 방식은 압축 데이터와 함께 참조 게놈을 보관해야 하는 문제와 참조 게놈이 변화하면 제대로 복원하지 않는 문제가 있다. 최근 연구에서는 유전체 서열 데이터를 이용해 가상의 참조 게놈을 만들어서 사용하는 방법을 사용하지만 느리다는 문제점이 있다. 그래서 최근 연구에서는 위와 같은 방법보다 정렬이나 예측품질정보의 손실 압축을 선호한다.

예측품질정보는 염기서열 리드보다 더 많은 문자를 활용해서 표시하고, 데이터를 생산하는 기기마다 달라 압축하기가 어렵다. 그래서 기존의 압축 프로그램은 예측품질정보를 압축하는 것이 유전체 서열 데이터의 용량을 줄이는 중요한 요소라고 생각하고 있다. 예측품질정보는 유전체 서열 데이터를 생산하는 동안 잡음(noise)이 섞일 수 있고, 위치가 인접한 점수끼리 비슷한 값을 표현한다는 특징이 있다. 이런 특징으로 인해 기존의 예측품질정보가 완벽하지 않고 손실 압축 기법을 결합한 새로운 예측품질정보를 사용하더라도 후속 연구에 영향을 미치지 않는다는 연구가 나오고 있다. 예측품질정보가 30보다 높으면 특정 바이트 패 턴으로 표시하고 낮으면 2로 표시하는 이진 임계 값(binary threshold) 방법이 있다. 전체 유전체 서열 데이터의 예측품질정보의 빈도를 활용해 낮은 빈도의 예측품질정보를 높은 빈도의 예측품질정보로 대체하는 방법을 사용하는 연구도 있다. 이 외에도 예측품질정보의 손실 압축을 사용하는 프로그램은 RQS, QVZ, QualComp, BEETL, PBlock와 같은 방법이 사용되고 있다. 이 방법은 과거 생산된 데이터에서 압축률을 높일 수 있지만, 최근에 생산된 짧은 염기서열 데이터(short-read)는 이미 손실압축기법이 적용되었기 때문에 불필요하다.

과거에 짧은 염기서열을 생산했던 기기 HiSeq 2000의 결과물은 2부터 40까지 분포가 다양하지만, 최근 짧은 염기서열을 생산하는 NovaSeq 6000은 4개 이하의 문자를 사용한다. 이로 인해 유전체 전용 압축 프로그램 중 하나인 SPRING의 손실 압축 기법이 과거의 HiSeq 2000 데이터에서는 압축률의 성능을 올리지만, 최근 NovaSeq 6000 데이터에서 그 성능이 미미하다.

FASTQ 형식의 포맷으로 저장된 유전체 서열 데이터의 경우 염기서열의 순서가 무작위로 정해지기 때문에 순서를 다시 정렬시키는 것으로 높은 압축률을 얻을 수 있다. 이 방법은 만약 유전체 서열 데이터의 염기서열 리드가 중복이 많은 경우 효율적이고 데이터의 지역성을 높이므로 추후 LZ-77를 기반으로 하는 일반 압축 기법에서 좋은 성능을 보일 수 있다. 정렬을 이용한 압축은 유전체 서열 데이터의 표 턴으로 표시하고 낮으면 2로 표시하는 이진 임계 값(binary threshold) 방법이 있다. 전체 유전체 서열 데이터의 예측품질정보의 빈도를 활용해 낮은 빈도의 예측품질정보를 높은 빈도의 예측품질정보로 대체하는 방법을 사용하는 연구도 있다. 이 외에도 예측품질정보의 손실 압축을 사용하는 프로그램은 RQS, QVZ, QualComp, BEETL, PBlock와 같은 방법이 사용되고 있다. 이 방법은 과거 생산된 데이터에서 압축률을 높일 수 있지만, 최근에 생산된 짧은 염기서열 데이터(short-read)는 이미 손실압축기법이 적용되었기 때문에 불필요하다.

FASTQ 형식의 포맷으로 저장된 유전체 서열 데이터의 경우 염기서열의 순서가 무작위로 정해지기 때문에 순서를 다시 정렬시키는 것으로 높은 압축률을 얻을 수 있다. 이 방법은 만약 유전체 서열 데이터의 염기서열 리드가 중복이 많은 경우 효율적이고 데이터의 지역성을 높이므로 추후 LZ-77를 기반으로 하는 일반 압축 기법에서 좋은 성능을 보일 수 있다. 정렬을 이용한 압축은 유전체 서열 데이터의 표준화를 진행하고 있는 MPEG HTS에서 제공하는 벤치마크 데이터에서 좋은 성능을 보인다.

하지만 기존 연구들은 새로운 기술의 발전으로 변화된 데이터에 제대로 동작하지 못하는 한계가 존재한다. 먼저 3세대 시퀀싱 기술의 등장과 암 유전체 서열 데이터 분석으로 인해 데이터의 크기가 커지면 동작하지 못한다. 대표적으로 LFastqC와 LFQC의 경우 17,696MB 이상에서 동작하지 못하는 것을 확인했다.

그리고 다양한 플랫폼의 등장으로 인해 유전체 서열 데이터의 구조가 달라지면 동작하지 못하는 문제도 있다. 대표적으로 SPRING의 경우 SOliD 타입에 대해 압축하지 못하는데, 이는 SOLiD 타입이 A, C, G, T 대신에 0, 1, 2, 3으로 표시하고 있기 때문이다. 따라서 이러한 기존 방식들의 문제들을 해결하고자 한다.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템(장치)의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 FASTQ 데이터 압축 장치가 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 FASTQ 데이터 압축 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.

프로세서(110)는 명령어들의 임의의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼, 이동 컴퓨팅 장치, 스마트폰, 태블릿, 셋톱 박스, 미디어 플레이어 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 동적 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 FASTQ 데이터의 압축을 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 FASTQ 데이터의 압축을 위한 정보가 입출력 인터페이스(150)를 통해 수신될 수 있다.

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 FASTQ 데이터의 압축을 위한 정보는 네트워크 인터페이스(160)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

아래의 실시예들은 데이터의 크기나 생산 플랫폼이 달라지더라도 안정적으로 동작하는 방법을 제안하며, 이를 위해 FASTQ_CLS(Compressor for Long-read Sequencing) 프로그램을 제공한다. 여기서, FASTQ_CLS 프로그램은 FASTQ 데이터 압축 장치에 포함되거나 FASTQ 데이터 압축 장치를 포함할 수 있다. 또한, FASTQ 데이터 압축 장치 및 FASTQ 데이터 압축 장치의 구성요소들은 도 3의 FASTQ 데이터 압축 방법이 포함하는 단계들(311 내지 315)을 수행할 수 있고, 또한 복원 방법인 단계들(321 내지 323)을 수행할 수 있다.

도 2는 일 실시예에 따른 FASTQ 데이터 압축 장치를 나타내는 블록도이다.

도 2는 도 1의 일 실시예에 따른 컴퓨터 시스템의 프로세서(110)가 포함할 수 있는 구성요소의 예를 도시한 도면이다. 여기서, 컴퓨터 시스템(100)의 프로세서(110)는 일 실시예에 따른 FASTQ 데이터 압축 장치(200)를 포함할 수 있다. 일 실시예에 따른 FASTQ 데이터 압축 장치(200)는 유전체 서열 데이터 분리부(210), 문자 빈도 측정부(220), 점수 제작부(230), 점수 기반 정렬부(240) 및 유전체 서열 데이터 압축부(250)를 포함하여 이루어질 수 있다. 또한 실시예에 따라 복원부를 더 포함하여 이루어질 수 있다.

프로세서(110) 및 프로세서(110)의 구성요소들은 도 3의 FASTQ 데이터 압축 방법이 포함하는 단계들(311 내지 315)을 수행할 수 있다. 또한, 프로세서(110) 및 프로세서(110)의 구성요소들은 복원 방법인 단계들(321 내지 323)을 수행할 수 있다. 예를 들어, 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(120)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 FASTQ 데이터 압축 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

FASTQ 데이터 압축 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.

도 3은 일 실시예에 따른 FASTQ 데이터 압축 방법을 나타내는 도면이다.

도 3을 참조하면, 본 프로그램인 FASTQ_CLS는 내부적으로 일반 압축 프로그램을 사용하고, 데이터 전처리 과정을 통해 압축 성능을 높일 수 있다.

일 실시예에 따른 컴퓨터 장치로 구현되는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법은, 유전체 서열 데이터(310)를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계(311), 분리된 염기서열 리드 및 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계(312), 측정된 염기서열 리드 및 예측품질정보에 대한 문자 빈도를 반영하여 점수를 제작하는 단계(313), 점수를 기반으로 기설정된 조건에 따라 염기서열 리드 및 예측품질정보를 정렬하는 단계(314), 및 정렬된 염기서열 리드 및 정렬된 예측품질정보를 포함하여, 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터(320)를 생성하는 단계(315)를 포함하여 이루어질 수 있다.

또한, 압축된 유전체 서열 데이터(320)를 일반 압축 프로그램을 이용하여 복원하는 단계(321), 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키는 단계(322), 및 정렬된 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터(310)를 제작하는 단계(323)를 더 포함할 수 있다.

일 실시예에 따른 FASTQ 데이터 압축 방법은 종래발명 (염기서열의 상호 겹치는 비율이거나 사전식 정렬) 방식이 아닌 새로운 정렬 (염기서열의 문자 빈도를 기반) 방식을 사용해 압축률을 향상시킬 수 있다. 특히, 데이터를 확인하는 전처리 과정을 추가하여 유전체 서열 데이터의 크기와 염기서열의 길이와 상관없이 잘 동작하도록 안정성을 향상시킬 수 있다. 이에 따라 실시예들은 예측품질정보(FASTQ 포맷 데이터의 일부)에 대한 최초의 무손실 압축 방법을 제시할 수 있다.

아래에서는 일 실시예에 따른 FASTQ 데이터 압축 장치(200)를 예를 들어 FASTQ 데이터 압축 방법의 각 단계를 보다 상세히 설명한다.

단계(311)에서, 유전체 서열 데이터 분리부(210)는 유전체 서열 데이터(310)를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리할 수 있다. 그리고, 유전체 서열 데이터 분리부(210)는 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리할 수 있다. 여기서, 식별자의 기타정보는 압축된 유전체 서열 데이터(320)의 생성을 위해 압축 프로그램을 통해 압축 시 식별자의 정보로 사용할 수 있다.

단계(312)에서, 문자 빈도 측정부(220)는 분리된 염기서열 리드 및 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정할 수 있다. 이를 통해 분포가 낮은 문자는 제외하고 후속으로 진행하는 점수 제작 단계에서 문자의 우선순위를 부여할 수 있다. 다시 말하면, 문자 빈도 측정부(220)는 염기서열 리드 및 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 글자 분포가 임계 값보다 낮은 경우 제외시킬 수 있다.

단계(313)에서, 점수 제작부(230)는 측정된 염기서열 리드 및 예측품질정보에 대한 문자 빈도를 반영하여 점수를 제작할 수 있다. 보다 구체적으로, 점수 제작부(230)는 단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하고, 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복할 수 있다. 예측품질정보도 같은 방식으로 진행할 수 있다. 다시 말하면, 점수 제작부(230)는 단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하고, 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복할 수 있다.

이러한 점수 제작부(230)는 측정된 염기서열 리드 및 예측품질정보에 대한 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작할 수 있다.

단계(314)에서, 점수 기반 정렬부(240)는 점수를 기반으로 기설정된 조건에 따라 염기서열 리드 및 예측품질정보를 정렬할 수 있다. 보다 구체적으로, 점수 기반 정렬부(240)는 전체 염기서열 리드를 식별자와 결합한 후, 제작한 점수를 기반으로 사전식 정렬을 수행할 수 있다. 또한, 점수 기반 정렬부(240)는 예측품질정보를 식별자와 결합한 후, 제작한 점수를 기반으로 사전식 정렬을 수행할 수 있다.

단계(315)에서, 유전체 서열 데이터 압축부(250)는 정렬된 염기서열 리드 및 정렬된 예측품질정보를 포함하여, 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터(320)를 생성할 수 있다.

즉, 식별자의 기타정보와 정렬된 염기서열 리드, 정렬된 예측품질정보, 염기서열 리드의 식별자, 예측품질정보의 식별자를 일반 압축 프로그램을 통해 압축할 수 있다. 이 때, 유전체 서열 데이터 압축부(250)는 순서를 기억하기 위해 정렬된 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 압축 프로그램을 통해 저장시키고, 정렬된 예측품질정보와 예측품질정보의 식별자를 결합한 상태로 압축 프로그램을 통해 저장할 수 있다.

또한, 복원부를 통해 압축된 유전체 서열 데이터(320)를 복원시킬 수 있다.

단계(321)에서, 복원부는 압축된 유전체 서열 데이터(320)를 일반 압축 프로그램을 이용하여 복원할 수 있다.

단계(322)에서, 복원부는 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시킬 수 있다.

단계(323)에서, 복원부는 정렬된 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터(310)를 제작할 수 있다.

아래에서 일 실시예에 따른 FASTQ 데이터 압축 방법 및 장치를 보다 상세히 설명한다.

유전체 서열 데이터를 구성요소 별 분리

도 4는 일 실시예에 따른 유전체 서열 데이터를 구성요소 별로 분리하는 과정을 설명하기 위한 도면이다.

유전체 서열 데이터의 FASTQ 포맷은 텍스트 포맷의 일종으로 유전체 서열 데이터 저장에 특화되어 있다. 이 FASTQ 포맷으로 저장된 유전체 서열 데이터는 염기서열(read)의 집합이다. 염기서열(read)은 FASTQ 포맷에서 식별자(identifier), 염기서열 리드(sequence) 및 예측품질정보(quality)로 구성된다. 이 중 식별자(identifier)의 경우 첫 공백을 기준으로 앞에는 모든 염기서열이 각기 다른 값을 가지는 고유번호를 저장하고 있고, 뒤에는 모든 염기서열이 유사하거나 똑같은 기타 정보(additional information)를 포함한다. 따라서 유전체 서열 데이터는 총 4개의 구성요소로 이루어져 있다고 생각할 수 있다. 각 구성요소에 사용된 문자의 종류와 수가 다르고 의미가 달라 분리해서 압축하는 방법이 효율적이다. 본 프로그램은, 도 4에 도시된 바와 같이, 유전체 서열 데이터(400)를 식별자의 고유번호(410), 식별자의 기타정보(420), 전체 염기서열 리드(430) 및 전체 예측품질정보(440) 중 적어도 어느 하나 이상으로 분리해서 저장할 수 있다.

전체 염기서열에 대한 문자 빈도 측정

전체 염기서열 리드는 대부분 A, C, G, T, N으로 구성되어 있다. 하지만 유전체 서열 데이터를 생산하는 기기에 따라 0, 1, 2, 3으로 표시하기 때문에 문자(글자)의 종류를 확인하는 과정은 필요하다. 이 과정은 전체 염기서열 리드에 있는 문자의 비율을 확인하는 과정으로 후속 단계의 점수 제작에 사용할 문자와 우선순위를 정의한다.

도 5a는 일 실시예에 따른 전체 염기서열에 대한 문자 빈도 측정 과정을 설명하기 위한 도면이다. 그리고, 도 5b는 일 실시예에 따른 전체 예측품질정보에 대한 문자 빈도 측정 과정을 설명하기 위한 도면이다.

도 5a에 도시된 바와 같이, 전체 염기서열 리드(510)에서 N이 차지하는 비율이 임계 값(threshold) 보다 낮으면 후속 단계에서 고려하지 않는다. 그리고 비율이 높을수록 높은 우선순위를 부여해 다음 점수 제작 단계에서 활용한다. 여기에서는, 일례로 임계 값(threshold)을 전체 염기서열 리드(510)를 기준으로 5%로 사용할 수 있다.

일반적으로 짧은 염기서열(short-read)의 경우 40가지의 문자로 이루어져 있지만 최근 기기에서는 8개나 4개의 문자만 사용한다. 긴 염기서열(long-read)의 경우 짧은 염기서열보다 더 많은 문자로 이루어진 경우가 많다.

도 5b에 도시된 바와 같이, 전체 예측품질정보(520)는 전체 염기서열 리드(510)보다 많은 문자로 이루어져 있다. 따라서 전체 염기서열 리드(510)와 똑같은 방식으로 점수를 만들지만, 임계 값(threshold)으로 더 작은 값을 사용할 수 있다. 예컨대, 전체 예측품질정보(520)의 임계 값(threshold)은 전체 예측품질정보(520)를 기준으로 1%로 사용할 수 있다. 그리고 예측품질정보는 범주형인 염기서열 리드 데이터와 달리, 이산형 데이터이므로 비율로 제작한 우선순위를 사용하지 않는다.

단일 염기서열 기반 점수 제작

전체 염기서열 리드는 단일 염기서열 리드의 반복으로 이루어져 있다. 본 프로그램은 단일 염기서열 리드 기준 점수 제작을 전체 염기서열 리드에서 반복한다. 단일 염기서열 리드 기준 점수 제작 방법은 이전 전체 염기서열에 대한 문자 빈도 측정을 통해 얻은 우선순위와 제외대상 정보를 이용한다. 추후 사전식 정렬을 사용하기 때문에 우선순위가 높다는 의미는 점수 제작 시 앞에 위치한다는 의미이다. 단일 염기서열 리드의 문자 빈도를 이용해서 점수를 제작하는데, 반올림한 분포를 함께 사용할 수 있다. 이 때, 반올림한 분포를 사용한 이유는 기존 분포만 사용하게 되면 가장 높은 우선순위를 가지는 문자에 영향을 너무 많이 받기 때문이다.

도 6은 일 실시예에 따른 단일 염기서열의 문자 분포를 설명하기 위한 도면이다.

도 5a에서 설명한 바와 같이, 단일 염기서열 리드의 문자 빈도가 구성되어 있다면 N은 제외대상이고, 우선순위는 A, T, C, G 순이다. 도 6에 도시된 바와 같이, 예를 들어 단일 염기서열 리드(610)에서 A, T, C, G의 문자 분포가 각각 15%, 25%, 35%, 20%라고 가정한다면 반올림한 분포는 20%, 30%, 40%, 20%가 될 수 있다.

도 7a는 일 실시예에 따른 단일 염기서열 리드의 문자 빈도를 이용한 점수 제작의 예시를 나타내는 도면이다. 또한, 도 7b는 일 실시예에 따른 전체 염기서열 리드의 문자 빈도를 이용한 점수 제작의 예시를 나타내는 도면이다.

도 7a에 도시된 바와 같이, 단일 염기서열 리드(720)의 점수(730)는 문자 분포의 반올림한 분포의 앞자리 및 문자 분포를 이용하여 점수(730)를 제작할 수 있다. 예컨대, 도 6에서 설명한 단일 염기서열 리드의 점수의 경우, 반올림한 분포 20%, 30%, 40%, 20%와 원래 문자 분포를 이용하여 순차적으로 나열함에 따라 234215253520의 값을 가지게 된다. 이를 각 식별자(710)에 따른 전체 염기서열 리드(720)에 대해서 반복하게 된다면, 도 7b에 도시된 바와 같은, 전체 염기서열 리드의 점수(730)를 얻을 수 있다. 전체 예측품질정보의 점수에 대해서도 위와 같은 방식으로 점수를 제작할 수 있다.

점수 기반 전체 염기서열 정렬

도 8a는 일 실시예에 따른 점수 기반 전체 염기서열 리드의 사전식 정렬을 설명하기 위한 도면이다. 또한, 도 8b는 일 실시예에 따른 점수 기반 전체 염기서열 리드의 사전식 정렬의 예시를 나타내는 도면이다.

추후 순서를 복원시키기 위해, 도 8a에 도시된 바와 같이, 정렬 전에 식별자의 고유번호(810)를 전체 염기서열 리드(820)와 결합한다. 이전 과정에서 얻은 전체 염기서열 리드 점수(830)를 기준으로 전체 염기서열 리드(820)를 정렬한다. 정렬 방식은 간단한 사전식 정렬로써 전체 염기서열 리드(820)의 점수가 클수록 먼저 배치된다.

정렬 이후, 전체 염기서열 리드 점수(830)의 경우 압축률을 올리기 위해 따로 저장하지 않는다. 이에 따라 정렬 후에는 정렬된 염기서열 식별자(840) 및 정렬된 전체 염기서열 리드(850)로 나타낼 수 있다. 전체 예측품질정보도 전체 염기서열 리드(820)와 동일한 방식으로 정렬한다. 즉, 도 8b에 도시된 바와 같이 점수 기반 전체 염기서열 리드의 사전식 정렬의 예시를 나타낼 수 있다.

이 정렬 방식은 유전체 서열 데이터 압축 프로그램에서 사용했던 일반적인 사전식 정렬과 차이가 있다. 일반적인 사전식 정렬의 경우 전체 문자 빈도를 고려하지 않기 때문에 먼저 나온 문자에 의해 해당 염기서열의 순서가 결정되는 경우가 많다.

도 9a는 일 실시예에 따른 점수 기반 정렬의 예시를 나타내는 도면이다. 또한, 도 9b는 일 실시예에 따른 사전식 정렬의 예시를 나타내는 도면이다.

도 9a 및 도 9b를 참조하면, 점수 기반 정렬과 사전식 정렬의 결과를 비교할 수 있다. 예를 들어, 도 9b에 도시된 바와 같이 전체 염기서열 리드들(940)이 구성되어 있다고 가정한다면, 먼저 나오는 문자들이 기준이 되어 정렬되어 식별자 7을 가지는 염기서열과 식별자 3을 가지는 염기서열이 매우 흡사하지만, 정렬 이후 서로 떨어져 있는 것을 확인할 수 있다. 하지만, 도 9a에 도시된 바와 같이, 점수 기반 정렬을 사용한다면 이러한 문제를 해결할 수 있다. 여기서, 910은 식별자, 920은 전체 염기서열 리드, 그리고 930은 전체 염기서열 리드의 점수를 나타낼 수 있다.

일반 압축 프로그램

본 프로그램은 압축 속도보다는 압축 비율을 중요하게 생각하기 때문에 일반 압축 프로그램을 사용할 수 있으며, 예컨대 ZPAQ을 사용할 수 있다. 이 방법은 기존 유전체 서열 데이터 압축 연구에서 압축률을 높이기 위해 자주 사용된 방식과 유사하다. 이 방식은 LZ77을 데이터 전처리로 활용하고 있는데, 이는 정렬을 통해 압축률을 높일 수 있어 본 방안도 이를 활용한다. 데이터 전처리 과정에서 염기서열 리드와 예측품질정보를 정렬시켜 압축률을 올리고, 각각을 일반 압축 프로그램을 통해 저장한다. 순서를 기억하기 위해 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 저장시키고, 예측품질정보 역시 마찬가지로 정렬된 식별자와 함께 저장한다. 이는 추후 복원 과정에서 활용한다. 마지막으로 분리된 식별자의 기타정보를 각각 저장한다.

복원

FASTQ_CLS에서 제안하는 복원 방안은 다음과 같은 단계로 구성될 수 있다. 첫째, 일반 압축프로그램(예컨대, ZPAQ)을 이용해서 압축한 부분을 해제할 수 있다. 둘째, 정렬된 염기서열 리드의 식별자를 통해 전체 염기서열 리드를 원래의 순서로 복원시킬 수 있다. 같은 방식으로 정렬된 예측품질정보 식별자를 통해 전체 예측품질정보를 원래 순서로 복원시킬 수 있다. 셋째, 복원된 전체 염기서열 리드와 복원된 전체 예측품질정보를 각각 식별자와 분리할 수 있다. 넷째, 분리된 전체 염기서열 리드와 전체 예측품질정보, 그리고 식별자와 식별자의 기타정보를 조합해 원본 FASTQ 포맷을 제작할 수 있다.

본 실시예들은 문자 빈도 기반 서열을 재정렬하는 방식을 사용한다. 최근에 정렬을 통해 유전체 서열 데이터의 압축률을 높이는 기존기술이 좋은 성과를 보여주고 있다. 이 기술은 염기서열 리드 사이에 가장 길게 겹치는 영역을 찾아 정렬시키는 방식을 사용하고 있는데, 이런 방식들은 가변적인 길이에서 제대로 동작하지 못하거나 성능이 떨어지는 문제가 있다.

이에 따라 아래의 실시예들은 염기서열 리드 사이에 겹치는 영역을 찾아 정렬시키는 방식이 아니라, 문자 빈도를 측정해서 비교하는 방식을 사용한다. 이를 통해 실시예들은 유전체 서열 데이터의 종류를 유추해 정확한 동작을 실행할 수 있다. 또한, 기존기술은 공통영역이 많이 존재하는 염기서열 리드에서만 동작시킬 수 있지만, 실시예들에 따르면 예측품질정보에서도 정렬을 실행시킬 수 있다는 장점이 있다. 이는 손실 압축에만 의존해 연구를 진행해 왔던 예측품질정보에 대한 새로운 무손실 방법을 제공할 수 있다. 이 방법을 통해 데이터의 생산 플랫폼과 크기에 상관없이 안정적으로 동작하는 FASTQ 데이터 압축 프로그램을 제작할 수 있고, 이는 높은 압축률을 보여준다.

과거의 유전체 서열 데이터는 짧은 염기서열 데이터를 이용했다. 하지만 최근 짧은 염기서열 데이터의 한계로 인해 긴 염기서열 데이터가 등장하고 있다. 이런 기술의 발전으로 인해 더 큰 생물에 대한 실험이 진행되고 있고, 이는 데이터의 크기를 증가시키는 요인이 되고 있다. 나아가 짧은 염기서열 데이터도 과거에 생산된 데이터보다 더 길어지고, 염기서열의 예측품질점수 값은 더 적은 종류를 사용하는 변화를 맞이하고 있어서 짧은 염기서열 데이터만을 이용해서 압축방법을 테스트한 기본방법에 한계가 있다.

따라서 본 실시예에서는 기존 표준벤치마크 데이터를 넘어 새롭게 생산된 데이터를 추가해 실험을 진행하였다. 실험 결과, 본 프로그램은 염기서열의 길이가 17,861bp인 데이터까지 잘 동작하고, 최대 164,432MB의 파일 크기까지 잘 동작한다. 또한, 압축 성능에 있어서 전반적으로 높은 결과를 보여주고 있으며 3세대 시퀀싱 이후의 데이터에 대해서는 가장 높은 압축률을 보여준다.

이상과 같이 실시예들에 따르면 다양한 유전체 서열 데이터에서 안정적으로 동작하고 최근에 생산된 데이터에 대해서 좋은 성능을 보이는 프로그램을 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 장치로 구현되는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법에 있어서,
유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계;
분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계;
측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계;
상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계; 및
정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 단계
를 포함하는, FASTQ 데이터 압축 방법.
제1항에 있어서,
상기 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계는,
상기 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리하는 단계를 포함하고,
상기 압축된 유전체 서열 데이터의 생성을 위해 상기 압축 프로그램을 통해 압축 시, 상기 식별자의 기타정보를 상기 식별자의 정보로 사용하는 것
을 특징으로 하는, FASTQ 데이터 압축 방법.
제1항에 있어서,
상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계는,
상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 상기 글자 분포가 임계 값보다 낮은 경우 제외시키는 단계
를 포함하는, FASTQ 데이터 압축 방법.
제1항에 있어서,
상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는,
단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하는 단계; 및
상기 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복하는 단계
를 포함하는, FASTQ 데이터 압축 방법.
제1항에 있어서,
상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는,
단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하는 단계; 및
상기 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복하는 단계
를 포함하는, FASTQ 데이터 압축 방법.
제1항에 있어서,
상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는,
측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 상기 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작하는 것
을 특징으로 하는, FASTQ 데이터 압축 방법.
제4항에 있어서,
상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계는,
상기 전체 염기서열 리드를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 단계
를 포함하는, FASTQ 데이터 압축 방법.
제5항에 있어서,
상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계는,
상기 예측품질정보를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 단계
를 포함하는, FASTQ 데이터 압축 방법.
제1항에 있어서,
상기 압축된 유전체 서열 데이터를 생성하는 단계는,
순서를 기억하기 위해 정렬된 상기 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장시키고, 정렬된 상기 예측품질정보와 상기 예측품질정보의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장하는 것
을 특징으로 하는, FASTQ 데이터 압축 방법.
제1항에 있어서,
상기 압축된 유전체 서열 데이터를 상기 일반 압축 프로그램을 이용하여 복원하는 단계;
복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키는 단계; 및
정렬된 상기 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터를 제작하는 단계
를 더 포함하는, FASTQ 데이터 압축 방법.
문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 장치에 있어서,
유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 유전체 서열 데이터 분리부;
분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 문자 빈도 측정부;
측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 점수 제작부;
상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 점수 기반 정렬부; 및
정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 유전체 서열 데이터 압축부
를 포함하는, FASTQ 데이터 압축 장치.
제11항에 있어서,
상기 유전체 서열 데이터 분리부는,
상기 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리하고,
상기 압축된 유전체 서열 데이터의 생성을 위해 상기 압축 프로그램을 통해 압축 시, 상기 식별자의 기타정보를 상기 식별자의 정보로 사용하는 것
을 특징으로 하는, FASTQ 데이터 압축 장치.
제11항에 있어서,
상기 문자 빈도 측정부는,
상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 상기 글자 분포가 임계 값보다 낮은 경우 제외시키는 것
을 특징으로 하는, FASTQ 데이터 압축 장치.
제11항에 있어서,
상기 점수 제작부는,
단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하고, 상기 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복하는 것
을 특징으로 하는, FASTQ 데이터 압축 장치.
제11항에 있어서,
상기 점수 제작부는,
단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하고, 상기 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복하는 것
을 특징으로 하는, FASTQ 데이터 압축 장치.
제11항에 있어서,
상기 점수 제작부는,
측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 상기 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작하는 것
을 특징으로 하는, FASTQ 데이터 압축 장치.
제14항에 있어서,
상기 점수 기반 정렬부는,
상기 전체 염기서열 리드를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 것
을 특징으로 하는, FASTQ 데이터 압축 장치.
제15항에 있어서,
상기 점수 기반 정렬부는,
상기 예측품질정보를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 것
을 특징으로 하는, FASTQ 데이터 압축 장치.
제11항에 있어서,
상기 유전체 서열 데이터 압축부는,
순서를 기억하기 위해 정렬된 상기 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장시키고, 정렬된 상기 예측품질정보와 상기 예측품질정보의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장하는 것
을 특징으로 하는, FASTQ 데이터 압축 장치.
제11항에 있어서,
상기 압축된 유전체 서열 데이터를 상기 일반 압축 프로그램을 이용하여 복원한 후, 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키며, 정렬된 상기 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터를 제작하는 유전체 서열 데이터 복원부
를 더 포함하는, FASTQ 데이터 압축 장치.