KR20120031838A - 시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템 - Google Patents

시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템 Download PDF

Info

Publication number
KR20120031838A
KR20120031838A KR1020100093463A KR20100093463A KR20120031838A KR 20120031838 A KR20120031838 A KR 20120031838A KR 1020100093463 A KR1020100093463 A KR 1020100093463A KR 20100093463 A KR20100093463 A KR 20100093463A KR 20120031838 A KR20120031838 A KR 20120031838A
Authority
KR
South Korea
Prior art keywords
encoding
sequencing data
data
sample
decoding
Prior art date
Application number
KR1020100093463A
Other languages
English (en)
Other versions
KR101218511B1 (ko
Inventor
박인호
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020100093463A priority Critical patent/KR101218511B1/ko
Publication of KR20120031838A publication Critical patent/KR20120031838A/ko
Application granted granted Critical
Publication of KR101218511B1 publication Critical patent/KR101218511B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/38Synchronous or start-stop systems, e.g. for Baudot code
    • H04L25/40Transmitting circuits; Receiving circuits
    • H04L25/49Transmitting circuits; Receiving circuits using code conversion at the transmitter; using predistortion; using insertion of idle bits for obtaining a desired frequency spectrum; using three or more amplitude levels ; Baseband coding techniques specific to data transmission systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/03Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
    • H04L25/03828Arrangements for spectral shaping; Arrangements for providing signals with specified spectral properties
    • H04L25/03834Arrangements for spectral shaping; Arrangements for providing signals with specified spectral properties using pulse shaping
    • H04L25/03853Shaping by digital methods other than look up tables or up/down converters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/38Flow control; Congestion control by adapting coding or compression rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Power Engineering (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

시퀀싱 데이터의 송수신 장치 및 방법 그리고 이를 포함하는 시퀀싱 데이터 송수신 시스템이 개시된다. 본 발명의 일 실시예에 따르면, 복수의 부호화 테이블을 저장하는 저장부; 복수의 부호화 테이블 중에서 샘플에 대한 샘플정보를 이용하여 부호화 테이블을 추출하는 부호화 테이블 추출부; 및 추출한 부호화 테이블을 이용하여 샘플로부터 획득한 시퀀싱 데이터를 부호화하는 부호화부; 를 포함하는 시퀀싱 데이터 부호화장치가 제공된다. 이에 의해, 대용량 시퀀싱 데이터의 압축 및 전송이 용이하다.

Description

시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템{Apparatus and method for sequencing data coding, apparatus, and system using the same}
본 발명은 시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템에 관한 것으로서, 보다 상세하게는 샘플의 특성에 따라 부호화를 달리함으로써 대용량의 시퀀싱 데이터에 대하여 압축 효율을 향상시킬 수 있는 시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템에 관한 것이다.
차세대 유전자 시퀀서(고속 염기서열 결정 장치)는 현재 일회 실행으로 약 수백기가 바이트에서 수 테라 바이트 이상이 되는 대용량의 시퀀싱 데이터를 생산하는데까지 발전하였으며, 이러한 시퀀싱 기술이 발전함에 따라 일회에 생산되는 시퀀싱 데이터의 양은 계속 증가하고 있다.
이와 같은 대용량 시퀀싱 데이터의 관리, 분석, 및 전송을 위해서는 대용량 스토리지 및 고속 네트워크 등이 필요하게 되는데, 그에 따른 비용도 증가하게 된다. 그러므로, 이러한 인프라에 대한 비용을 절감하기 위해서는 대용량 시퀀싱 데이터에 대한 효과적인 압축 및 전송 기술이 필수적으로 요구된다.
그러므로, 시퀀싱 데이터를 보다 효율적으로 압축 및 전송하기 위한 기술들이 안출되고 있다. 일 예로, 시퀀싱 데이터를 구성하는 복수의 DNA 조각에 대한 염기 서열들(short reads)을 기준 시퀀스의 위치정보를 이용하여 인코딩하는 방법으로, 휴먼 게놈 어셈블리(Human Genome Assembly)를 인코딩을 위한 기준으로 사용하는 기술이 개시되어 있다. 이는, DNA 조각들에 대한 염기 서열의 휴먼 게놈 어셈블리에 대비한 위치를 찾아야 하기 때문에 많은 시간이 소요되는 문제점이 있다.
다른 예로, 시퀀싱 데이터를 구성하는 복수의 DNA 조각에 대한 염기 서열들(short reads)과 각 염기 서열에서의 염기 결정(base calling)에 대한 정확도를 나타내는 퀄리티 데이터를 동시에 압축하는 G-SQZ(Compact Encoding of Genomic Sequence and Quality Data) 기술이 개시되어 있다. 이는, 염기에 대한 심볼 D={A,G,C,T}와 퀄리티를 표현하는 심볼 Q={q1, q2, ..., qn}을 결합하여 새로운 심볼을 만들고 이의 빈도수에 따른 호프만 코딩을 하는 기술이다. 하지만, 시퀀싱 데이터를 압축하기 위해서는 매번 호프만 코딩 테이블을 만들어야 하기 때문에, 기존의 시퀀싱 데이터에 나타나는 서열의 반복 특성을 활용할 수 없음은 물론 압축 시간 또한 많이 소요되는 문제점이 있다.
이와 같이, 시퀀싱 기술의 발전에 따라 대용량의 시퀀싱 데이터를 처리하기 위하여 다양한 방법의 압축 및 전송 기술이 안출되고 있기는 하지만, 대부분 대용량 시퀀싱 데이터의 처리를 위해서는 과다하게 많은 시간이 소요되는 문제점을 가지는 것이 현실이다.
본 발명은 시퀀싱 대상이 되는 샘플의 특성에 따라서 부호화/복호화를 달리함으로써, 대용량의 시퀀싱 데이터에 대하여도 압축효율을 향상시킬 수 있는 시퀀싱 데이터 부호화 방법을 제공함을 목적으로 한다.
또한, 본 발명은 시퀀싱 대상이 되는 샘플의 특성에 따라서 부호화/복호화를 달리함으로써 대용량의 시퀀싱 데이터에 대하여도 압축 및 전송 효율을 향상시킬 수 있는 시퀀싱 데이터의 송수신 장치 및 방법 그리고 이를 포함하는 시퀀싱 데이터 송수신 시스템을 제공함을 목적으로 한다.
본 발명의 일 실시예에 따르면, 복수의 부호화 테이블을 저장하는 저장부; 상기 복수의 부호화 테이블 중에서 샘플에 대한 샘플정보를 이용하여 부호화 테이블을 추출하는 부호화 테이블 추출부; 및 추출한 상기 부호화 테이블을 이용하여 상기 샘플로부터 획득한 시퀀싱 데이터를 부호화하는 부호화부; 를 포함하는 것을 특징으로 하는 시퀀싱 데이터 부호화장치가 제공된다.
상기 샘플정보는, 상기 시퀀싱 데이터를 획득한 샘플의 종류 또는 상기 시퀀싱 데이터의 일부일 수 있다.
상기 복수의 부호화 테이블 중 적어도 하나의 부호화 테이블은 적어도 하나의 서브 부호화 테이블을 포함할 수 있다.
상기 적어도 하나의 서브 부호화 테이블에는 각각 식별정보가 할당될 수 있다.
상기 복수의 부호화 테이블은 각각 샘플의 종류와 부호화 테이블이 매핑된 데이터일 수 있다.
상기 부호화부는, 상기 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보, 및 상기 부호화된 시퀀싱 데이터를 포함하는 전송 데이터를 생성할 수 있다.
상기 부호화부는, 상기 부호화된 시퀀싱 데이터에 대한 신뢰도 지수에 해당하는 퀄리티 값을 더 포함하는 상기 전송 데이터를 생성할 수 있다.
본 발명의 일 실시예에 따르면, 복수의 부호화 테이블 중에서 샘플에 대한 샘플정보를 이용하여 부호화 테이블을 추출하고, 추출한 상기 부호화 테이블을 이용하여 상기 샘플로부터 획득한 시퀀싱 데이터를 부호화하고, 부호화한 시퀀싱 데이터를 포함하는 전송 데이터를 구성하여 전송하는 시퀀싱 데이터 전송장치; 및 상기 시퀀싱 데이터 전송장치로부터 상기 전송 데이터를 수신하고, 상기 전송 데이터에 포함된 시퀀싱 데이터를 상기 부호화 테이블에 대응되는 복호화 테이블로 복호화하는 시퀀싱 데이터 수신장치;를 포함하는 시퀀싱 데이터 송수신 시스템이 제공된다.
상기 샘플정보는, 상기 시퀀싱 데이터를 획득한 샘플의 종류 또는 상기 시퀀싱 데이터의 일부일 수 있다.
상기 복수의 부호화 테이블 중 적어도 하나의 부호화 테이블은 적어도 하나의 서브 부호화 테이블을 포함할 수 있다.
상기 전송 데이터는, 상기 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보, 및 상기 부호화된 시퀀싱 데이터를 포함할 수 있다.
상기 수신장치는, 상기 부호화 테이블의 식별정보를 이용하여, 복수의 복호화 테이블 중에서 복호화에 사용할 복호화 테이블을 선택할 수 있다.
상기 시퀀싱 데이터 전송장치는 부호화 테이블을 저장하는 저장부를 포함하고, 상기 시퀀싱 데이터 수신장치는 복호화 테이블을 저장하는 저장부를 포함할 수 있다.
본 발명의 일 실시예에 따른 시퀀싱 테이블 송수신 시스템은 상기 부호화 테이블을 저장하는 저장부 및 상기 복호화 테이블을 저장하는 저장부를 동기화하는 동기 서버;를 더 포함할 수 있다.
상기 복호화 테이블 중 적어도 하나의 복호화 테이블은 적어도 하나의 서브 복호화 테이블을 포함할 수 있다.
본 발명의 일 실시예에 따르면, 샘플로부터 획득한 시퀀싱 데이터를 전송하는 방법에 있어서, 상기 샘플에 대한 샘플정보를 이용하여 상기 시퀀싱 데이터의 부호화를 위한 부호화 테이블을 추출하는 단계; 추출한 상기 부호화 테이블을 이용하여 상기 시퀀싱 데이터를 부호화하여 전송 데이터를 생성하는 단계; 및 상기 생성된 전송 데이터를 전송하는 단계;를 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 방법이 제공될 수 있다.
상기 부호화 테이블을 추출하는 단계는, 복수의 샘플 각각에 대하여 기정의된 부호화 테이블을 보유하는 부호화 테이블 저장부로부터 상기 샘플정보에 대응하는 부호화 테이블을 추출할 수 있다.
상기 전송 데이터를 생성하는 단계는, 상기 전송 데이터의 식별정보, 상기 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보, 및 상기 부호화된 시퀀싱 데이터를 포함하는 전송 데이터를 생성하는 단계를 포함할 수 있다.
상기 부호화 테이블은 적어도 하나의 서브 부호화 테이블을 포함할 수 있다.
상기 전송 데이터에 포함된 부호화 테이블의 식별정보는, 상기 서브 부호화 테이블의 식별정보일 수 있다.
본 발명의 일 실시예에 따른 시퀀싱 데이터 송수신 방법은, 상기 전송 데이터를 수신하는 단계; 상기 전송 데이터에 포함되어 있는 시퀀싱 데이터의 복호화를 위해서, 기저장된 복호화 테이블들 중에서 상기 시퀀싱 데이터의 부호화에 사용된 부호화 테이블에 대응된 복호화 테이블을 추출하는 단계; 및 상기 추출된 복호화 테이블을 이용하여 상기 시퀀싱 데이터를 복호화하는 단계;를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 시퀀싱 데이터 송수신 방법은, 상기 샘플정보를 수신하는 단계;를 더 포함하며, 상기 복호화 테이블을 추출하는 단계는, 상기 샘플정보에 대응하는 복호화 테이블을 추출할 수 있다.
본 발명의 실시예에 따른 시퀀싱 데이터의 송수신 장치 및 방법 그리고 이를 포함하는 시퀀싱 데이터 송수신 시스템은, 샘플의 종류에 따라 부호화 및 복호화 테이블을 미리 구축해 두고, 시퀀싱 데이터의 압축 및 전송에 이 테이블을 이용함으로써, 시퀀싱 대상이 되는 생물의 종류를 부호화에 반영하여 보다 효율적인 압축이 가능함은 물론 압축 및 전송에 소요되는 시간을 절감할 수 있는 효과가 있다.
또한, 본 발명의 실시예에 따른 시퀀싱 데이터의 송수신 장치 및 방법 그리고 이를 포함하는 시퀀싱 데이터 송수신 시스템은, 압축의 대상이 되는 시퀀싱 데이터의 특성에 따라서 적절하게 선정된 압축 테이블을 이용하여 압축함으로써 압축에 소요되는 시간을 단축시키는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 시퀀싱 데이터 송수신 시스템의 구성도,
도 2는 도 1에 도시한 시퀀싱 데이터 전송장치에서 생성되는 전송 데이터의 일 예를 나타낸 도면,
도 3은 도 1에 도시한 시퀀싱 데이터 전송장치에서 생성되는 전송 데이터의 다른 예를 나타낸 도면,
도 4는 본 발명의 일 실시예에 따른 시퀀싱 데이터 전송 방법을 설명하기 위한 흐름도,
도 5는 본 발명의 다른 실시예에 따른 시퀀싱 데이터 전송 방법을 설명하기 위한 흐름도,
도 6은 본 발명의 또 다른 실시예에 따른 시퀀싱 데이터 전송 방법을 설명하기 위한 흐름도, 그리고,
도 7은 본 발명의 일 실시예에 따른 시퀀싱 데이터 수신 방법을 설명하기 위한 흐름도이다.
이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다. 본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제 3의 구성요소가 개재될 수도 있다는 것을 의미한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다(comprises)' 및/또는 '포함하는(comprising)'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서, 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 어떤 경우에는, 발명을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 별 이유 없이 혼돈이 오는 것을 막기 위해 기술하지 않음을 미리 언급해 둔다.
용어의 정의
본원 명세서에서 '부호화'라고 함은 신호를 특정한 부호들의 나열로 그 형태를 바꾸는 것을 의미하며, 신호의 중복성을 효과적으로 제거함으로써 부호화의 결과로 나오는 데이터의 양을 줄이고, 결과적으로 전송 데이터의 양을 줄이는 부호화를 의미한다.
도 1은 본 발명의 일 실시예에 따른 시퀀싱 데이터 송수신 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 시퀀싱 데이터 송수신 시스템은 시퀀싱 데이터 전송장치(100), 시퀀싱 데이터 수신장치(200), 및 동기 서버(300)를 포함할 수 있다. 이들 구성요소는 직접 또는 네트워크를 통해서 연결될 수 있으며, 여기서 네트워크는 유선 및/또는 무선의 통신망을 통칭한다.
시퀀싱 데이터 전송장치(100)는 시퀀싱 데이터를 생성하고, 생성한 시퀀싱 데이터를 시퀀싱 데이터 수신장치(200)로 전송할 수 있다.
본 발명의 일 실시예에 따른 시퀀싱 데이터 전송장치(100)는, 데이터 생성부(110), 시퀀싱 데이터 부호화 장치(120, 130, 140), 및 전송부(150)를 포함할 수 있다.
데이터 생성부(110)는 샘플로부터 원시데이터를 생성하고, 원시데이터로부터 시퀀싱 데이터를 생성할 수 있다. 본 발명의 일 실시예에 따르면, 데이터 생성부(110)는 시퀀싱부(112), 및 서열 변환부(114)를 포함할 수 있다.
시퀀싱 데이터 부호화 장치(120, 130, 140)는 시퀀싱 데이터를 입력받아서 부호화할 수 있다. 본 발명의 일 실시예에 따른 시퀀싱 데이터 부호화 장치는 부호화 테이블 추출부(이하, '부호화 TB 추출부'라고도 함)(120), 부호화 테이블 저장부(130), 및 부호화부(140)를 포함할 수 있다.
시퀀싱부(112)는 샘플을 입력받아 원시데이터를 생성할 수 있다. 여기서, 원시데이터는 보통 이미지 데이터일 수 있다. 시퀀싱부(112)는 통상의 유전자 시퀀서에 사용되는 시퀀서에 해당하는 것으로, 시퀀서에서 원시데이터를 생성하는 것은 이미 공지된 사항에 해당하므로, 이에 대한 구체적인 설명은 생략하기로 한다.
서열 변환부(114)는 시퀀싱부(112)에 의해 생성된 원시데이터를 제공받아, 원시데이터를 염기서열(letter space) 혹은 컬러서열(color space)로 변환할 수 있다. 원시데이터를 서열 변환하는 기술도 이미 공지된 사항에 해당하므로, 이에 대한 설명은 생략하기로 한다. 한편, 본원 명세서에서 염기서열(letter space) 혹은 컬러서열(color space) 데이터를 '시퀀싱 데이터'라고 한다.
서열 변환부(114)는 원시데이터를 서열 변환하여 생성된 시퀀싱 데이터의 일부를 추출하여 부호화 테이블 추출부(120)로 제공할 수 있다.
본 발명의 일 실시예에 따른 서열 변환부(114)는 시퀀싱 데이터의 적어도 일부를 랜덤 또는 비랜덤하게 추출할 수 있다.
본 실시예에서는, 시퀀싱부(112)와 서열 변환부(114)가 서로 다른 기능블럭으로 구현되었으나, 이는 예시적인 형태로서 이와 다르게 구성되는 것도 가능하다. 예를 들면, 시퀀싱부(112)에 서열 변환부(114)가 내장되는 형태도 가능하다.
부호화 테이블 추출부(120)는 샘플에 대한 샘플정보를 이용하여 시퀀싱 데이터의 부호화에 사용될 부호화 테이블을 추출할 수 있다. 여기서, 샘플정보는 샘플의 종류에 대한 정보에 해당하는 것으로, 예를 들면, 생물 종, 및 조직 정보와 같이 구체적인 정보이거나 시퀀싱 데이터의 일부일 수 있다.
본 발명의 일 실시예에 따른 부호화 테이블 추출부(120)는 생물의 종 및/또는 조직 정보와 같은 샘플정보를 전송받거나, 또는 데이터 생성부(110)로부터 샘플정보를 전송받을 수 있다. 생물의 종 및/또는 조직정보와 같은 샘플정보는 사용자 인터페이스장치(미도시)로부터 입력받은 정보일 수 있으며, 부호화 테이블 추출부(120)는 사용자 인터페이스장치(미도시)를 통해서 입력받은 샘플정보를 이용하여 부호화 테이블을 추출할 수 있다. 본 전송 장치(100)는 이를 위해서 사용자 인터페이스장치(미도시)를 더 포함할 수 있다.
데이터 생성부(110)로부터 전송받는 샘플정보는 시퀀싱 데이터의 적어도 일부일 수 있다. 본 발명의 일 실시예에 따른 부호화 테이블 추출부(120)는 시퀀싱 데이터의 적어도 일부를 이용하여 부호화부(140)에서 사용되는 부호화 테이블을 추출할 수 있다.
본 발명의 일 실시예에 따르면 부호화 테이블은 부호화부(140)의 부호화 동작에 사용되는 정보로서, 예를 들어 부호화부(140)가 호프만 부호화 알고리즘을 사용하여 부호화 동작을 수행한다면 부호화 테이블은 호프만 테이블일 수 있다.
본 발명의 일 실시예에 따르면, 부호화 테이블 추출부(120)는 샘플정보를 이용하여 부호화 테이블 저장부(130)로부터 샘플정보에 대응하는 부호화 테이블을 추출할 수 있다.
상술한 바와 같이, 부호화 테이블 추출부(120)는 외부로부터 샘플정보를 입력받은 경우에는 이를 이용하여 부호화 테이블을 추출할 수 있다. 하지만, 샘플정보를 외부로부터 입력받지 못한 경우, 부호화 테이블 추출부(120)는 데이터 생성부(110)로부터 샘플정보를 획득할 수 있다. 예를 들면, 부호화 테이블 추출부(120)는 테이터 생성부(110)로부터 시퀀싱 데이터의 일부를 전송받을 수 있다. 이때 전송받은 시퀀싱 데이터는, 샘플정보로서 사용되며 이를 이용하여 부호화 테이블을 추출할 수 있다.
본 발명의 일 실시예에 따르면 외부로부터 입력된 샘플정보는 전송부(150)를 통해서 시퀀싱 데이터 수신장치(200)로 전송될 수 있다. 예를 들면, 본 장치(100)는 사용자 인터페이스장치(미도시) 또는 외부장치와 통신하는 통신부(미도시)를 구비하여 이들을 통해서 샘플정보를 수신하는 경우, 수신한 샘플정보는 부호화 테이블 추출부(120)이 부호화 테이블을 추출하는데 사용될 수 있고, 또한 전송부(150)를 통하여 시퀀싱 데이터 수신장치(200)로 전송될 수 있다.
본 실시예에서, 샘플정보를 시퀀싱 데이터 수신장치(200)로 전송하는 것은, 데이터 수신 장치(200)가 그 샘플정보를 이용하여 복호화 테이블을 선택할 수 있도록 하기 위함이다. 복호화를 위해서는 부호화 시에 사용된 부호화 테이블과 대응된 복호화 테이블을 사용해야 하며 이를 위해서 샘플정보를 이용할 수 있다.
한편, 샘플정보가 데이터 생성부(110)로부터 획득한 시퀀싱 데이터의 일부인 경우에도, 샘플정보를 시퀀싱 데이터 수신장치(200)로 전송해야 한다. 샘플정보가 시퀀싱 데이터의 일부인 경우에는 예를 들면 다음과 같은 방식으로 샘플정보를 전송할 수 있다.
첫 번째는, 데이터 생성부(110)로부터 획득한 '시퀀싱 데이터의 일부'를 그대로 시퀀싱 데이터 수신장치(200)로 전송하는 방법이다. 이러한 방법을 사용하기 위해서는, 시퀀싱 데이터 수신장치(200)가 '시퀀싱 데이터의 일부'로부터 복호화 테이블을 추출할 수 있어야 한다. 그 구체적인 과정은, 부호화 테이블 추출부(120)가 '시퀀싱 데이터의 일부'로부터 부호화 테이블을 추출하는 방법과 유사하므로, 아래에서 설명하는 부호화 테이블 추출부(120)가 '시퀀싱 데이터의 일부'로부터 부호화 테이블을 추출하는 방법을 참조하기 바란다.
두 번째는, 부호화 테이블 추출부(120)가 추출한 부호화 테이블에 대한 샘플정보(이때의 샘플정보는 예를 들면 샘플의 종류에 대한 정보일 수 있다)를 시퀀싱 데이터 수신장치(200)로 전송하는 방법이다. 즉, 부호화 테이블 추출부(120)가 '시퀀싱 데이터의 일부'로부터 추출한 부호화 테이블이 어떠한 샘플 종류에 관한 것인지를 알아내면, 그 정보가 시퀀싱 데이터 수신장치(200)로 전송될 수 있다. 이러한 실시예에서는, 부호화 테이블마다 샘플 종류가 매핑된 매핑 데이터가 있어야 하며 그러한 매핑 데이터는 부호화 테이블 저장부(130)나 또는 별도로 마련된 저장부(미도시)에 저장되거나 또는 부호화 테이블 추출부(120)가 내장할 수 있다.
상술한 실시예에서는, 시퀀싱 데이터 수신장치(200)가 복호화 테이블을 추출할때 사용할 수 있는 샘플정보를 시퀀싱 데이터 전송장치(100)가 전송하는 것으로 설명하였다. 그러나, 서브 부호화 테이블의 식별정보가 유일하게 할당되는 경우에는, 시퀀싱 데이터 수신장치(200)로 샘플정보를 전송할 필요가 없다. 이에 관하여는 <표1>과 <표2>를 참조하여 상세히 설명하기로 한다.
부호화 테이블 저장부(130)는 부호화 테이블을 저장할 수 있다.
본 발명의 일 실시예에 따르면 부호화 테이블 저장부(130)는 아래와 같은 <표1>의 데이터를 저장할 수 있다. <표1>에서의 서브 부호화 테이블 A-1, A-2, ... 은 테이블을 구성하는 데이터 자체이거나, 또는 그러한 테이블들이 저장된 저장부(미도시)의 주소일 수 있다.
또한, 본 발명의 일 실시예에 따르면 부호화 테이블 저장부(130)는 아래와 같은 <표2>의 데이터를 추가적으로 저장할 수 있다. <표2>를 구성하는 (염기)서열은 서열 자체에 대한 데이터이거나 그러한 서열을 저장하는 저장부(미도시)의 주소일 수 있다. 또한, 본 실시예에서 부호화 테이블 저장부(130)가 <표2>를 저장하는 것으로 설명하였지만, 별도로 마련된 저장부(미도시)에 저장하는 것도 가능하다.
샘플종류 서브 부호화 테이블
인간

식별정보 서브 부호화 테이블 A-1 서브 부호화 테이블 A-1 식별정보
서브 부호화 테이블 A-2 서브 부호화 테이블 A-2 식별정보
.
.
.
.
.
.


토끼
식별정보 서브 부호화 테이블 B-1 서브 부호화 테이블 B-2 식별정보
서브 부호화 테이블 B-2 서브 부호화 테이블 B-2 식별정보
.
.
.
거북이

식별정보 서브 부호화 테이블 C-1 서브 부호화 테이블 C-2 식별정보
서브 부호화 테이블 C-2 서브 부호화 테이블 C-2 식별정보
.
.
.
.
.
.


식별정보 서브 부호화 테이블 D-1 서브 부호화 테이블 D-1 식별정보
서브 부호화 테이블 D-2 서브 부호화 테이블 D-2 식별정보
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
샘플의 종류 서열
거북이 식별정보 거북이의 (염기)서열
토끼 식별정보 토끼의 (염기)서열
염소 식별정보 염소의 (염기)서열
인간 식별정보 인간의 (염기)서열
.
.
.
.
.
.
.
.
.
위 <표1>을 참조하면, 샘플의 종류와 부호화 테이블이 각각 매핑된 것을 알 수 있다. 따라서, 부호화 테이블 추출부(120)는 샘플의 종류를 알고 있는 경우, 부호화 테이블 저장부(130)에 저장된 <표1>과 같은 데이터를 이용하여 부호화 테이블을 추출할 수 있다.
본원 명세서에서, 예를 들면 서브 부호화 테이블 A-1, 서브 부호화 테이블 A-2, ...를 모두 통칭하여 부호화 테이블 A로서 지칭할 수 있으며, 부호화 테이블 A를 서브 부호화 테이블들(A-1, A-2, ...)과 구별할 필요가 있는 경우 '메인 부호화 테이블'이라고 부르기로 한다.
부호화 테이블 추출부(120)가 샘플의 종류에 대한 정보를 획득하지 못하여 데이터 생성부(110)로부터 획득한 시퀀싱 데이터의 일부를 이용하는 경우에는 <표2>과 <표1>을 이용하여 부호화 테이블을 추출할 수 있다. 예를 들면, 부호화 테이블 추출부(120)는, 먼저 <표2>에 있는 (염기)서열들과, 데이터 생성부(110)로부터 획득한 시퀀싱 데이터의 일부를 비교하여 동일하거나 가장 유사한 (염기)서열을 가진 샘플의 종류를 알 수 있다. 그리고, 샘플의 종류를 알고 있으므로 <표1>을 참조하면 부호화 테이블을 추출할 수 있다.
본 실시예에서, 부호화 테이블 추출부(120)가 샘플의 종류가 무엇인지를 판단하는 과정을 설명하였는데, 부호화 테이블 추출부(120)가 아닌 별도로 마련된 구성요소가 그러한 샘플의 종류가 무엇인지를 판단하도록 구성하는 것도 가능할 것이다.
<표1>을 참조하면, 각 샘플별로 부호화 테이블이 매핑되어 있고, 이 부호화 테이블은 적어도 하나의 서브 부호화 테이블을 포함한다. 서브 부호화 테이블은 시퀀싱 데이터의 패턴에 맞도록 마련된 부호화 테이블이다. 하나의 샘플 종류(예를 들면 토끼)가 가지는 전체 서열은 매우 길고 전체 서열을 구성하는 패턴의 형태가 상이하기 때문에 그 전체에 대하여 하나의 부호화 테이블을 사용하는 것보다는, 전체 서열을 패턴별로 분리하고, 그 패턴에 맞는 부호화 테이블을 마련하는 것이 효율적이다. 서브 부호화 테이블은 이처럼 전체 서열의 일부를 이루는 서열의 패턴에 맞도록 마련된 부호화 테이블이다.
상기 실시예에서 서브 부호화 테이블을 사용하는 것으로 설명하였지만, 본원 발명이 서브 부호화 테이블을 반드시 사용할 필요는 없다. 예를 들어 샘플을 이루는 염기서열이 짧고 패턴도 단순한 경우에는 서브 부호화 테이블을 마련할 필요없이, 샘플의 종류당 1개의 부호화 테이블을 매핑하여 사용할 수 있을 것이다.
한편, 샘플정보를 시퀀싱 데이터 수신장치(200)로 전송하는 경우, 예를 들면 <표1>과 <표2>를 이용할 수 있다. 즉, 샘플의 종류에 대응되는 샘플의 식별정보를 <표2>에서 결정할 수 있고, 그렇게 결정된 샘플의 식별정보는 시퀀싱 데이터 수신장치(200)로 전송될 수 있다.
본 발명의 일 실시예에 따르면 부호화 테이블 저장부(130)에 저장되어 있는 부호화 테이블은 호프만 코딩 방법에 사용되는 호프만 테이블(또는 '호프만 코드'라고도 불리운다)일 수 있다. 보다 구체적으로, 각 서열에서의 k-mer 빈도 수를 측정하여 호프만 코드를 생성하고, 이 호프만 코드 생성을 위한 호프만 이진 트리(binary tree)를 구성하여 부호화 테이블을 생성할 수 있다. 호프만 코딩 방법에 의해 호프만 코드를 생성하는 것은 이미 공지된 사항에 해당하므로, 이에 대한 구체적인 설명은 생략한다.
부호화부(140)는 부호화 테이블 추출부(120)에 의해 추출된 부호화 테이블을 사용하여 부호화를 할 수 있다. 본 발명의 일 실시예에 따른 부호화부(140)는, 데이터 생성부(110) 혹은 서열 변환부(114)로부터 제공받은 시퀀싱 데이터에 대하여, 부호화 테이블 추출부(120)에 의해 추출된 부호화 테이블을 이용하여 부호화를 수행한다. 본 실시예에서의 부호화부(140)는 샘플정보에 따라 부호화 테이블 저장부(130)로부터 추출된 부호화 테이블을 이용한 것이므로, 샘플의 특성에 맞는 부호화 동작을 수행할 수 있게 된다.
<표1>을 참조하면, 부호화부(140)에서 시퀀싱 데이터를 부호화할 때 사용하는 서브 부호화 테이블의 식별정보는 서브 부호화 테이블끼리를 식별시키기 위한 정보이다.
예를 들면, 서브 부호화 테이블 식별정보는 메인 부호화 테이블 내에서 상호간에 식별하기 위해서 사용되는 정보이며, 예를 들면 하나의 메인 부호화 테이블내에 속한 서브 부호화 테이블의 개수가 n일 때 log2(n) 비트로 이루어진 코드로 정해질 수 있다.
본 발명의 일 실시예를 <표1>을 참조하여 설명하면 서브 부호화 테이블 A-1은 서브 부호화 테이블 A-2, A-3, .... 과 식별되는 식별정보가 부여되고, 서브 부호화 테이블 B-1, B-2, ..., C-1, C-2, ...과는 식별되지 않아도 좋다. 이러한 경우는 적어도 메인 복호화 테이블을 결정할 수 있는 정보(예를 들면 샘플정보)가 시퀀싱 데이터 수신장치(200)로 전송되어야 할 것이다. 여기서, '메인 복호화 테이블'은 '메인 부호화 테이블'에 대응되는 것으로서 시퀀싱 수신 장치(200)에서 상세히 설명하기로 한다.
본 발명의 다른 실시예에 따르면, 메인 부호화 테이블과는 무관하게 서브 부호화 테이블 식별정보가 부여될 수 있다. 즉, 서브 부호화 테이블 A-1에 부여되는 식별정보는, 서브 부호화 테이블 A-2, A-2, A-3, ..., B-1, B-2, B-3, .... C-1, C-2, C-3, ... 들과도 유일하게 식별되는 정보가 부여된다. 이러한 경우, 시퀀싱 데이터 수신장치(200)는 복호화 테이블을 추출하기 위해서 메인 복호화 테이블을 반드시 결정할 필요는 없으며, 서브 부호화 테이블에 대한 식별정보를 이용하여 서브 복호화 테이블을 바로 추출할 수 있을 것이다. 여기서, '서브 복호화 테이블'은 '서브 부호화 테이블'에 대응되는 것으로서 시퀀싱 수신 장치(200)에서 상세히 설명하기로 한다.
부호화부(140)는 시퀀싱 데이터에 포함되어 있는 서열 조각별로 다른 부호화 테이블을 적용하여 부호화할 수 있다. 본 발명의 일 실시예에 따르면, 동일한 샘플정보를 갖는 샘플이라 할지라도 시퀀싱 데이터에 포함되는 복수의 서열 조각들의 패턴은 서로 상이할 수 있다. 그러므로, 각 서열 조각들에 대하여는 부호화 테이블 추출부(120)에 의해 추출된 부호화 테이블에 포함되어 있는 서브 부호화 테이블을 이용하여 부호화를 수행한다.
예를 들면, 복수의 서열 조각들은 A로 시작하는 염기서열, C로 시작하는 염기서열, G로 시작하는 염기서열, 및 T로 시작하는 염기서열과 같이 4가지의 패턴을 갖는 서열 조각을 포함할 수 있다. 이에 따라, 부호화부(140)는 각 패턴별로 대응된 서브 부호화 테이블들을 각각 사용하여 부호화를 할 수 있다.
본 발명의 일 실시예에 따른 부호화부(140)는 시퀀싱 데이터 수신장치(200)로 전송할 전송 데이터를 생성할 수 있다. 예를 들어, 부호화부(140)는 전송 데이터의 식별정보, 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보, 및 부호화된 시퀀싱 데이터를 포함하는 전송 데이터를 생성할 수 있다.
부호화부(140)는 상기와 같은 전송 데이터를 생성할 때, 부호화 테이블 저장부(130)에 저장된 데이터(예를 들면 <표1> 및/또는 <표2>)를 이용할 수 있다.
여기서, 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보는 각 서열 조각을 부호화하는데 사용된 서브 부호화 테이블들을 각각 유일하게 식별시킬 수 있는 정보이다. 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보는 예를 들면 <표1>에서 설명된 서브 부호화 테이블의 식별정보일 수 있다. 서브 부호화 테이블의 식별정보가 메인 부호화 테이블내에서만 유일하게 할당된 경우는 메인 복호화 테이블을 결정할 수 있는 정보가 시퀀싱 데이터 수신장치(200)로 전송되어야 함은 상술한 바가 있다. 한편, 서브 부호화 테이블의 식별정보가 메인 부호화 테이블내과는 무관하게 서브 부호화 테이블들에서 유일하게 할당된 경우는, 메인 복호화 테이블을 결정할 수 있는 정보를 시퀀싱 데이터 수신장치(200)로 반드시 전송할 필요는 없다.
본 발명의 일 실시예에 따르면, 부호화부(140)는 전송 데이터의 식별정보 및 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보도 부호화할 수 있다. 예를 들어, 전송 데이터와 부호화 테이블의 식별정보를 부호화할 때에는 시퀀싱 데이터를 부호화하는 방법과는 다른 부호화 방법을 사용할 수 있다. 예를 들면, 전송 데이터의 식별정보 및 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보의 부호화에는 일반적으로 알려져 있는 부호화 방법 중 하나를 선택하여 사용할 수 있다.
본 발명의 일 실시예에 따른 부호화부(140)는 메인 복호화 테이블을 결정할 수 있는 정보(예를 들면 샘플정보)를 메타 데이터의 형태로 구성하여, 전송부(150)를 통하여 시퀀싱 데이터 수신장치(200)로 전송할 수 있다. 설명의 편의를 위해서, 메인 복호화 테이블을 결정할 수 있는 정보를 '메타 데이터'라고 지칭하기로 한다. 본 명세서에서 메인 복호화 테이블을 결정할 수 있는 정보를 '메타 데이터'라고 지칭한다고 하여, 메인 복호화 테이블을 결정할 수 있는 정보가 반드시 메타 데이터의 형태로 전송되는 것을 의미하는 것은 아니며, 메타 데이터의 형태가 아닌 다른 형태로 전송되는 것도 당연히 가능할 것이다.
이상 설명한 실시예에서, 부호화부(140)가 전송데이터와 메타 데이터를 구성하는 것으로 설명하였다. 하지만 이는 예시적인 것으로 부호화부(140)는 부호화 동작을 수행하고, 전송데이터와 메타 데이터를 구성하는 것은 후술하는 전송부(150)나 별도로 마련된 구성요소(미도시)가 수행토록 하는 것도 가능할 것이다.
전송부(150)는 시퀀싱 데이터 전송장치(100)의 네트워크 인터페이스를 지원할 수 있다. 본 실시예에서 전송부(150)는 부호화 테이블 추출부(120)의 제어에 의한 샘플정보 및 부호화부(140)에 의해 생성된 전송 데이터를 네트워크를 통해 시퀀싱 데이터 수신장치(200)로 전송할 수 있다.
도시하지는 않았으나, 시퀀싱 데이터 전송장치(100)는 적어도 하나의 저장부(또는 '스토리지'라고도 함)를 포함할 수 있다. 예를 들면, 데이터 생성부(110), 부호화 테이블 추출부(120), 및 부호화부(140)가 공통으로 사용하는 스토리지가 구비될 수 있고, 혹은 부호화 테이블 추출부(120) 및 부호화부(140)가 사용되는 스토리지와 데이터 생성부(110)에 내장된 데이터 생성부(110) 전용의 스토리지가 구비될 수도 있다.
시퀀싱 데이터 수신장치(200)는 시퀀싱 데이터 전송장치(100)로부터 전송 데이터를 수신하는 장치로, 수신부(210), 복호화 테이블 추출부(220), 복호화 테이블 저장부(230), 및 복호화부(240)를 포함할 수 있다. 도시하지는 않았으나, 시퀀싱 데이터 수신장치(200)도 스토리지를 더 구비할 수 있다.
수신부(210)는 시퀀싱 데이터 수신장치(200)의 네트워크 인터페이스를 지원하는 것으로, 시퀀싱 데이터 전송장치(100)로부터 전송 데이터를 수신할 수 있다.
본 발명의 일 실시예에 따르면 수신부(210)는, 메타 데이터를 추가적으로 수신할 수 있다. 메타 데이터는 전송 데이터와 함께 수신될 수도 있으나, 전송 데이터가 수신되기 이전이나 이후에 수신될 수 있다. 메타 데이터는 전송 데이터가 수신되기 이전에 수신될 수 있으므로, 전송 데이터가 수신될 때까지 스토리지에 저장될 수 있다.
복호화 테이블 추출부(220)는 복호화부(240)가 사용할 복호화 테이블을 추출할 수 있다.
본 발명의 일 실시예에 따른 복호화 테이블 추출부(220)는, 수신부(210)가 수신하는 전송 데이터를 이용하여 복호화 테이블을 추출할 수 있다. 본 발명의 다른 실시예에 따른 복호화 테이블 추출부(220)는, 수신부(210)가 수신하는 전송 데이터와 메타 데이터를 이용하여 복호화 테이블을 추출할 수 있다.
예를 들어, 복호화 테이블 추출부(220)는, 수신부(210)가 수신한 전송 데이터에 포함된 '시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보'를 이용하여 복호화 테이블을 추출할 수 있다. 이를 위해서, 시퀀싱 데이터 수신장치(200)는, 부호화 테이블의 식별정보와 복호화 테이블이 매핑된 데이터를 저장하고 있을 수 있다. 구체적으로, 복호화 테이블 저장부(230) 또는 별도로 마련된 저장부(미도시)에 그러한 매핑 데이터가 저장되어 있을 수 있다.
다르게는(alternatively), 복호화 테이블 추출부(220)는, 메타 데이터를 이용하여 복호화 테이블을 추출할 수 있다. 이를 위해서, 시퀀싱 데이터 수신장치(200)는 메인 복호화 테이블을 결정할 수 있는 정보와 메인 복호화 테이블이 매핑된 매핑 데이터를 저장하고 있을 수 있다. 복호화 테이블 저장부(230) 또는 별도로 마련된 저장부(미도시)에 그러한 매핑 데이터가 저장되어 있을 수 있다.
본 발명의 일 실시예에 따른 복호화 테이블 추출부(220)는, 상기 수신부(210)가 수신한 메타 데이터에 포함된 샘플정보를 이용하여 복호화 테이블 저장부(230)로부터 복호화 테이블을 추출할 수 있다. 복호화 테이블 추출부(220)에 의해 추출되는 복호화 테이블은 부호화 테이블 추출부(120)에서 추출한 부호화 테이블과 대응한다. 한편, 특정 부호화 테이블에 의해 부호화된 데이터는 오직 그에 대응되는 복호화 테이블에 의해서만 복호화될 수 있다.
복호화 테이블 저장부(230)는 복호화 테이블을 저장할 수 있다.
본 발명의 일 실시예에 따르면 복호화 테이블 저장부(230)는 아래와 같은 <표3>의 데이터를 저장할 수 있다. <표3>에서의 서브 복호화 테이블 A-1, A-2, ... 은 테이블을 구성하는 데이터 자체이거나, 또는 그러한 테이블들이 저장된 저장부(미도시)의 주소일 수 있다.
또한, 본 발명의 일 실시예에 따르면 복호화 테이블 저장부(230)는 아래와 같은 <표4>의 데이터를 추가적으로 저장할 수 있다. 한편, <표4>을 구성하는 (염기)서열은 서열 자체에 대한 데이터이거나 그러한 서열을 저장하는 저장부(미도시)의 주소일 수 있다. 또한, 본 실시예에서 복호화 테이블 저장부(230)가 <표4>를 저장하는 것으로 설명하였지만, 별도로 마련된 저장부(미도시)에 저장되는 것도 가능하다.
샘플종류 서브 복호화 테이블
인간

식별정보 서브 복호화 테이블 A-1 서브 부호화 테이블 A-1 식별정보
서브 복호화 테이블 A-2 서브 부호화 테이블 A-2 식별정보
.
.
.
.
.
.


토끼
식별정보 서브 복호화 테이블 B-1 서브 부호화 테이블 B-2 식별정보
서브 복호화 테이블 B-2 서브 부호화 테이블 B-2 식별정보
.
.
.
거북이

식별정보 서브 복호화 테이블 C-1 서브 부호화 테이블 C-2 식별정보
서브 복호화 테이블 C-2 서브 부호화 테이블 C-2 식별정보
.
.
.
.
.
.


식별정보 서브 복호화 테이블 D-1 서브 부호화 테이블 D-1 식별정보
서브 복호화 테이블 D-2 서브 부호화 테이블 D-2 식별정보
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
샘플의 종류 서열
거북이 식별정보 거북이의 (염기)서열
토끼 식별정보 토끼의 (염기)서열
염소 식별정보 염소의 (염기)서열
인간 식별정보 인간의 (염기)서열
.
.
.
.
.
.
.
.
.
<표3>을 참조하면, 서브 부호화 테이블의 식별 정보에 의해서 서브 복호화 테이블이 일의적으로 결정될 수 있음을 알 수 있다. 즉, 복호화 테이블 추출부(220)는 전송 데이터에 포함된 (서브) 부호화 테이블의 식별 정보를 이용하면 <표3>으로부터 그에 대응되는 (서브) 복호화 테이블을 추출할 수 있다. 이처럼, 서브 부호화 테이블의 식별 정보만으로 서브 복호화 테이블을 결정하는 경우에는, 서브 부호화 테이블의 식별정보들이 메인 부호화 테이블과 무관하게 유일하게 할당된 것을 전제로 한다. 이에 관하여는 상세히 설명한 바가 있으므로 상세 내용은 생략하기로 한다.
<표3>을 참조하면, 서브 부호화 테이블의 식별 정보와 샘플 정보를 이용해서도 서브 복호화 테이블을 일의적으로 결정할 수 있다. 이러한 경우는 상술한 바와 같이 샘플 정보를 데이터 수신장치(200)가 전송받는 것을 전제로 한다. 샘플 정보는 메타 데이터의 형태로 데이터 송신장치(100)로부터 전송받을 수 있으며 이에 관하여 상세히 설명한 바가 있으므로 상세 내용은 생략하기로 한다.
<표3>에서, 예를 들면 서브 복호화 테이블 A-1, 서브 복호화 테이블 A-2, ...를 모두 통칭하여 복호화 테이블 A로서 지칭할 수 있으며, 복호화 테이블 A를 서브 복호화 테이블들(A-1, A-2, ...)과 구별할 필요가 있는 경우에는 '메인 복호화 테이블'이라고 부르기로 한다.
복호화 테이블 추출부(220)가 데이터 송신장치(100)로부터 샘플의 종류에 대한 정보를 전송받지 못하고, 데이터 생성부(110)가 획득한 시퀀싱 데이터의 일부를 전송받는 경우가 있을 수 있다. 이러한 경우, 복호화 추출부(220)는 <표4>를 참조하여 샘플의 종류를 결정하고, <표3>을 이용하여 서브 복호화 테이블을 추출할 수 있다. 예를 들면, 복호화 추출부(220)는, <표3>에 있는 (염기)서열들과, 시퀀싱 데이터의 일부를 비교하여 동일하거나 가장 유사한 (염기)서열을 가진 샘플의 종류를 결정할 수 있다. 이렇게 결정한 샘플의 종류와 <표3>을 참조하면 서브 복호화 테이블을 추출할 수 있다.
복호화 테이블 저장부(230)는 복호화 테이블을 저장할 수 있다.
본 발명의 일 실시예에 따른 복호화 테이블 저장부(230)는 상술한 <표3>와 같은 데이터를 저장할 수 있다. 또한, 복호화 테이블 저장부(230)는, <표4>와 같은 데이터를 더 저장할 수 있다.
본 발명의 일 실시예에 따른 복호화 테이블 저장부(230)는 동기 서버(300)에 의해 부호화 테이블 저장부(130)와 동기화될 수 있다.
복호화부(240)는 복호화 테이블 추출부(220)에 의해 추출된 복호화 테이블을 이용하여 전송 데이터 내의 시퀀싱 데이터를 복호화할 수 있다.
본 발명의 일 실시예에 따른 복호화부(240)는, 전송 데이터 내의 전송 데이터의 식별정보 및 부호화 테이블의 식별정보가 부호화된 경우, 기정해진 복호화 방법에 의해 복호화할 수 있다. 이때, 전송 데이터의 식별정보 및 부호화 테이블의 식별정보의 부호화 및 복호화 방법은 시퀀싱 데이터 전송장치(100) 및 시퀀싱 데이터 수신장치(200) 간에 미리 약속된 방법에 의해서 수행될 수 있다.
동기 서버(300)는 네트워크를 통해 시퀀싱 데이터 전송장치(100) 및 시퀀싱 데이터 수신장치(200)와 연결됨으로써, 두 장치간의 테이블 저장부를 서로 동기화시킨다. 동기 서버(300)는 동기화부(310), 및 부호화 및 복호화 테이블 저장부(이하, '부복호화 테이블 저장부')(320)를 포함할 수 있다.
동기화부(310)는 네트워크를 통해 부호화 테이블 저장부(130) 및 복호화 테이블 저장부(230)에 직접 접속하여 두 테이블 저장부에 저장되어 있는 부호화 테이블 및 복호화 테이블을 동기화시킬 수 있다.
부복호화 테이블 저장부(320)는 시퀀싱 데이터 전송장치(100)가 시퀀싱 데이터를 부호화할 때 사용할 부호화 테이블 및 시퀀싱 데이터 수신장치(200)가 시퀀싱 데이터를 복호화할 때 사용할 복호화 테이블을 모두 저장할 수 있다. 부복호화 테이블 저장부(320)는 수시로 업데이트될 수 있으며, 부복호화 테이블 저장부(320)의 업데이트된 내용은 동기화부(310)에 의해 부호화 테이블 저장부(130) 및 복호화 테이블 저장부(230)에도 반영될 수 있다.
상술한 도 1의 실시예에서 도시된 각각의 기능 블록들(시퀀싱 데이터 전송장치(100)의 시퀀싱부(112), 서열 변환부(114), 부호화 테이블 추출부(120), 부호화부(140), 전송부(150), 및 시퀀싱 데이터 수신장치(200)의 수신부(210), 복호화 테이블 추출부(220), 복호화부(240))은 서로 통합되거나 또는 더 세분화된 기능블록의 단위로 구현될 수 있다. 예를 들면,시퀀싱부(112) 및 서열 변환부(114)가 서로 통합되어 하나의 기능블록으로 구현되거나, 또는 부호화부(140) 및 전송부(150)가 서로 통합되어 하나의 기능블록으로 구현될 수 있다.
도 2는 도 1에 도시한 시퀀싱 데이터 전송장치에서 생성되는 전송 데이터의 일 예를 나타낸 도면이다.
도 2에 도시한 전송 데이터(400)는 시퀀싱 데이터 전송장치(100)에 의해 생성되어, 시퀀싱 데이터 수신장치(200)로 전송되는 것을 예시적으로 나타난 것이다.
본 발명의 일 실시예에 따르면 부호화부(140)가 전송 데이터(400)를 생성할 수 있다.
도시한 바와 같이, 본 실시예에 따른 전송 데이터(400)는 전송 데이터 식별정보가 포함되는 영역(410), 부호화 테이블의 식별정보가 포함되는 영역(420), 및 부호화된 시퀀싱 데이터가 포함되는 영역(430)을 포함할 수 있다.
전송 데이터 식별정보가 포함되는 영역(410)에는 전송 데이터 식별정보가 포함되며, 전송 데이터 식별정보는 복수의 전송 데이터 중 시퀀싱 데이터가 포함되는 영역(430)에 있는 전송 데이터를 식별하기 위한 정보로서, 예를 들면 일련 번호일 수 있다. 시퀀싱 데이터 수신 장치(200)는 전송 데이터 식별정보를 이용하여 전송 장치(100)로부터 부분적으로 전송받은 서열들을 전체적인 서열로 재구성할 수 있다.
본 발명의 일 실시예에 따르면, 전송 데이터 식별정보가 포함되는 영역(410)에 포함되는 전송 데이터 식별정보는 소정 부호화 방법에 의해 부호화된 것일 수 있다.
부호화 테이블의 식별정보가 포함되는 영역(420)에는 부호화 테이블의 식별정보가 포함되는데, 이 영역을 통해 시퀀싱 데이터 수신장치(200)에서 본 전송 데이터(400)에 실려 있는 시퀀싱 데이터의 부호화에 사용된 부호화 테이블을 결정할 수 있다. 시퀀싱 데이터 수신장치(200)는 부호화 테이블 식별정보와 상술한 <표3>과 같은 매핑 데이터를 이용하여 복호화에 사용할 복호화 테이블을 결정할 수 있다.
본 발명의 일 실시예에 따르면 영역(420)에 저장되는 정보는 서브 부호화 테이블의 식별정보일 수 있다. 예를 들면, <표1>에서의 서브 부호화 테이블 식별정보들 A-1, A-2, A-3, .... B-1, B-2, ... C-1, C-2, ... 중 어느 하나일 수 있다.
부호화된 시퀀싱 데이터가 포함되는 영역(430)은 부호화부(140)에 의해 부호화된 데이터가 포함되는 영역이다. 이 영역의 길이는 가변일 수 있다.
본 발명의 일 실시예에 따르면, 전송 데이터 식별정보가 포함되는 영역(410) 및 부호화 테이블의 식별정보가 포함되는 영역(420)은 고정된 길이일 수 있고, 부호화된 시퀀싱 데이터가 포함되는 영역(430)은 시퀀싱 데이터의 사이즈에 따라 가변의 길이일 수 있다.
상술한 실시예들에서 전송 장치(100)는 메인 복호화 테이블을 결정할 수 있는 정보를 메타 데이터의 형태로 수신 장치(200)로 전송한다고 설명한 바 있다. 하지만, 이는 예시적인 것으로서 다른 형태로 전송하는 것이 가능하다. 예를 들면, 상기 도 2에 도시된 데이터에 메인 복호화 테이블을 결정할 수 있는 정보를 포함시켜서 전송하는 것도 가능하다.
구체적으로, 1개의 샘플로부터 시퀀싱된 시퀀싱 데이터에 대하여 총 전송데이터 식별 정보가 1 ~ 35개가 할당되고, 도 2에 도시된 바와 같은 형태로 총 35개의 데이터가 수신 장치(200)로 전송된다고 가정한다. 이러한 경우 35개의 전송 데이터 중에 적어도 1개의 전송 데이터에 메인 복호화 테이블을 결정할 수 있는 정보를 포함시키는 구성이 가능할 것이다.
도 3은 도 1에 도시한 시퀀싱 데이터 전송장치에서 생성되는 전송 데이터의 다른 예를 나타낸 도면이다.
본 실시예에서는 도 2에서 도시한 전송 데이터(400)의 다른 형태를 예시하였다. 도시한 바와 같이, 전송 데이터(400)는 전송 데이터 식별정보가 포함되는 영역(410), 부호화 테이블의 식별정보가 포함되는 영역(420), 및 부호화된 시퀀싱 데이터가 포함되는 영역(430)을 포함한다. 도 2의 실시예와 달리, 본 실시예에서의 전송 데이터(400)는 퀄리티 값이 포함되는 영역(440)을 더 포함할 수 있다.
퀄리티(quality) 값이 포함되는 영역(440)은 부호화된 시퀀싱 데이터에 대한 신뢰도 지수에 해당하는 퀄리티 값이 실리는 영역이다. 유전자 시퀀서 분야에서 퀄리티 값에 대한 것은 공지된 사항에 해당하므로, 이에 대한 구체적인 설명은 생략하기로 한다.
도 4는 본 발명의 일 실시예에 따른 시퀀싱 데이터 전송 방법을 설명하기 위한 흐름도이다.
여기에서는 도 1 내지 도 4를 참조하여 본 발명의 일 실시예에 따른 시퀀싱 데이터 전송 방법을 설명한다. 도 4의 실시예는 부호화 테이블 추출부(120)가 외부(예를 들면 사용자)로부터 입력받은 샘플의 종류와 같은 샘플정보를 입력받는 것을 전제로 한 것이다. 하지만, 본 발명에 따른 시퀀싱 데이터 전송 방법은 외부로부터 샘플정보를 입력받는 것뿐만 아니라 부호화할 시퀀싱 데이터의 일부를 이용하는 방법도 가능할 것이다. 이에 관한 상세한 내용은 기설명한 실시예들을 참조하기 바란다.
도 4를 참조하여 본 방법을 설명하면, 시퀀싱부(112)는 외부로부터 샘플을 입력받는다(S501). 샘플이 입력되면, 시퀀싱부(112)는 입력된 샘플에 대한 원시데이터를 생성한다(S503). 이때, 원시데이터는 이미지 데이터일 수 있다.
시퀀싱부(112)에 의해 생성된 원시데이터는 서열 변환부(114)로 제공되고(S505), 원시데이터를 제공받은 서열 변환부(114)는 원시데이터를 서열 변환하여 시퀀싱 데이터를 생성한다(S507). 여기서, 서열 변환부(114)는 원시데이터를 염기서열 변환하거나 혹은 컬러서열 변환할 수 있다.
부호화 테이블 추출부(120)는 입력받은 샘플정보를 이용할 수 있다(S509). S509 단계는 설명의 편의상 S507 단계 이후에 이루어지는 것으로 도시하였으나, 이는 반드시 여기에 한정되는 것은 아니다. 예를 들면, S509 단계는 S501 단계와 동시에 이루어질 수 있고, S511 단계가 수행되기 이전에는 시간상의 구애를 받지 않고 이루어질 수 있다.
서열 변환부(114)는 시퀀싱 데이터의 생성을 완료한 후, 생성된 시퀀싱 데이터를 부호화부(140)로 전달한다(S511). 또한, 부호화 테이블 추출부(120)는 샘플정보를 이용하여 부호화 테이블 저장부(130)로부터 해당 부호화 테이블을 추출한다(S513). 여기서, S511 단계 및 S513 단계도 그 순서가 서로 바뀌어 수행될 수 있다. 즉, S509 단계 이후에 바로 S513 단계가 수행되고, 그 이후에 S511 단계가 수행될 수 있다.
부호화 테이블 추출부(120)는 샘플정보에 따른 부호화 테이블을 추출한 후, 이 추출된 부호화 테이블을 부호화부(140)로 전달하고(S515), 부호화부(140)에서는 부호화 테이블 추출부(120)로부터 전달받은 부호화 테이블을 이용하여 시퀀싱 데이터를 부호화하고, 전송데이터의 식별정보, 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보를 부가하여 전송 데이터를 생성한다(S517).
부호화부(140)에 의해 생성된 전송 데이터는 전송부(150)로 전달되고(S519), 전송부(150)는 네트워크를 통해 시퀀싱 데이터 수신장치(200)로 전송한다(S521).
도 4의 흐름도에서는 도시하지 않았으나, S509 단계에서 부호화 테이블 추출부(120)로 샘플정보가 입력되면, 부호화 테이블 추출부(120)는 전송부(150)를 통해 샘플정보를 시퀀싱 데이터 수신장치(200)로 전송한다.
이상 설명한 도 4의 실시예는 상술한 도 1 내지 도 3을 참조하여 설명한 다양한 실시예들처럼 변형이 가능함은 물론이다.
도 5는 본 발명의 다른 실시예에 따른 시퀀싱 데이터 전송 방법을 설명하기 위한 흐름도이다.
여기에서는 도 1 내지 도 3 및 도 5를 참조하여 본 발명의 다른 실시예에 따른 시퀀싱 데이터 전송 방법을 설명한다. 다만, 도 4에서와 다른 구조의 시퀀싱 데이터 전송장치(100)를 보이기 위하여, 시퀀싱부(112) 및 서열 변환부(114)가 데이터 생성부(110)로 통합된 경우를 설명한다.
데이터 생성부(110)는 외부 혹은 사용자로부터 샘플을 입력받고(S601), 입력된 샘플에 대한 원시데이터를 생성하며(S603), 원시데이터를 서열 변환하여 시퀀싱 데이터를 생성한다(S605).
부호화 테이블 추출부(120)는 부호화 테이블을 추출하여야 하는 시점에 기입력된 샘플정보가 존재하는지의 여부를 판단한다(S607). 여기서, 샘플정보가 존재하지 않는 경우(S607-Y), 부호화 테이블 추출부(120)는 데이터 생성부(110)로 시퀀싱 데이터의 일부에 대한 추출을 요청한다(S609). 이에, 데이터 생성부(110)는 기생성된 시퀀싱 데이터의 일부를 추출하고(S611), 추출된 시퀀싱 데이터의 일부를 부호화 테이블 추출부(120)로 전달한다(S613).
만약, S607 단계에서 기입력된 샘플정보가 존재하는 경우(S607-N)에는 기입력된 샘플정보를 이용하여 부호화 테이블을 추출하므로, S609 내지 S613 단계는 생략된다.
부호화 테이블 추출부(120)는 기입력된 샘플정보가 있는 경우에는 샘플정보를 이용하여 부호화 테이블을 추출하고, 기입력된 샘플정보가 없는 경우에는 데이터 생성부(110)로부터 전달받은 시퀀싱 데이터의 일부를 이용하여 부호화 테이블을 추출한다(S615).
부호화 테이블 추출부(120)는 부호화 테이블 저장부(130)로부터 부호화 테이블을 추출한 후, 부호화부(140)로 추출한 부호화 테이블을 전달한다(S617). 또한, 데이터 생성부(110)는 시퀀싱 데이터를 생성한 후, 부호화부(140)로 시퀀싱 데이터를 전달한다(S619). 여기서, S619 단계는 S605 단계 이후에 바로 수행되도록 변경될 수 있다.
부호화부(140)는 부호화 테이블 추출부(120)로부터의 부호화 테이블 및 데이터 생성부(110)로부터의 시퀀싱 데이터를 모두 전달받으면, 부호화 테이블 및 이 부호화 테이블을 사용하는 부호화 알고리즘을 이용하여 시퀀싱 데이터를 부호화하고, 전송데이터 식별정보 및 부호화 테이블의 식별정보를 포함하는 전송 데이터를 생성한다(S621).
이후, 부호화부(140)는 전송부(150)로 전송 데이터를 전달하고(S623), 전송부(150)는 네트워크를 통해 시퀀싱 데이터 수신장치(200)로 전송 데이터를 전송한다(S625).
이상 설명한 도 5의 실시예는 상술한 도 1 내지 도 3을 참조하여 설명한 다양한 실시예들처럼 변형이 가능함은 물론이다.
도 6은 본 발명의 또 다른 실시예에 따른 시퀀싱 데이터 전송 방법을 설명하기 위한 흐름도이다.
여기에서는 도 1 내지 도 3, 및 도 6을 참조하여 본 발명의 또 다른 실시예에 따른 시퀀싱 데이터 전송 방법을 설명한다. 다만, 부호화 테이블 추출부(120)가 외부로부터 입력받은 샘플정보를 이용하지 않는 것을 전제로 한다.
시퀀싱부(112)는 외부로부터 샘플을 입력받고(S701), 입력된 샘플에 대한 이미지 데이터 형태의 원시데이터를 생성한다(S703). 이후, 시퀀싱부(112)는 원시데이터를 서열 변환부(114)로 전달한다(S705).
서열 변환부(114)는 시퀀싱부(112)로부터 전달받은 원시데이를 서열 변환하여 즉, 염기서열 및 컬러서열 중 어느 하나로 변환하여 시퀀싱 데이터를 생성한다(S707).
서열 변환부(114)는 시퀀싱 데이터를 생성한 후, 시퀀싱 데이터의 일부를 추출한다(S709). 이때, 시퀀싱 데이터로부터 추출되는 일부는 무작위로 추출될 수 있으며, 추출되는 사이즈는 기결정되어 있을 수 있다. 서열 변환부(114)는 시퀀싱 데이터로부터 그 일부를 추출한 후, 추출한 시퀀싱 데이터의 일부를 부호화 테이블 추출부(120)로 전달한다(S711).
부호화 테이블 추출부(120)는 서열 변환부(114)로부터 전달받은 시퀀싱 데이터의 일부를 이용하여 부호화 테이블 저장부(130)로부터 부호화 테이블을 추출한다(S713). 이때, 부호화 테이블 추출부(120)는 시퀀싱 데이터의 일부를 부호화 테이블 저장부(130)에 저장되어 있는 부호화 테이블 상의 유전체 서열과의 비교 대조를 통해 해당하는 부호화 테이블을 추출할 수 있다.
부호화 테이블 추출부(120)는 부호화 테이블 저장부(130)로부터 부호화 테이블을 추출한 후, 추출된 부호화 테이블을 부호화부(140)로 전달한다(S715). 또한, 서열 변환부(114)는 시퀀싱 데이터를 생성한 후, 생성된 시퀀싱 데이터를 부호화부(140)로 전달한다(S717). 이전 실시예에서도 언급한 바와 같이, S717 단계는 S707 단계 이후에 바로 수행되거나 혹은 S707 단계 이후부터 S719 단계 이전까지는 어느 단계에서 라도 수행될 수 있다.
부호화부(140)는 부호화 테이블 추출부(120)로부터 전달받은 부호화 테이블을 이용하여 서열 변환부(114)로부터 전달받은 시퀀싱 데이터를 부호화하고, 여기에 전송 데이터 식별정보 및 부호화 테이블의 식별정보를 부가하여 전송 데이터를 생성한다(S719).
부호화부(140)는 생성된 전송 데이터를 전송부(150)로 전달하고(S721), 전송부(150)는 네트워크를 통해 전송 데이터를 시퀀싱 데이터 수신장치(200)로 전송한다(S723).
또한, 본 실시예에는 서열 변환부(114)가 시퀀싱 데이터를 생성한 이후에 무조건적으로 시퀀싱 데이터의 일부를 추출하는 것이다. 이에, 부호화 테이블 추출부(120)에서는 서열 변환부(114)로부터 시퀀싱 데이터의 일부를 제공받아 이를 이용하여 부호화 테이블을 추출하는 절차를 예시하였다.
하지만, 이를 변형하여 서열 변환부(114)가 시퀀싱 데이터 생성 이후 무조건적으로 시퀀싱 데이터의 일부를 추출하더라도, 부호화 테이블 추출부(120)에서는 도 5의 S607 내지 S615 단계와 같이 샘플정보의 존재 여부를 판단한 후, 샘플정보가 존재할 경우에는 샘플정보를 이용하여 부호화 테이블을 추출하고, 샘플정보가 존재하지 않을 경우에는 시퀀싱 데이터의 일부를 이용하여 부호화 테이블을 추출하도록 할 수 있다.
본 실시예에서는 데이터 생성부(110)가 시퀀싱부(112) 및 서열 변환부(114)를 포함하는 경우의 신호 흐름을 설명하였다. 하지만, 본 실시예의 경우에도 시퀀싱부(112) 및 서열 변환부(114)가 데이터 생성부(110)로 통합되어 구성될 수 있다. 이 경우, S701 내지 S711, 및 S717 단계는 모두 데이터 생성부(110)에 의해 수행될 것이다.
이상 설명한 도 6의 실시예는 상술한 도 1 내지 도 3을 참조하여 설명한 다양한 실시예들처럼 변형이 가능함은 물론이다.
도 7은 본 발명의 일 실시예에 따른 시퀀싱 데이터 수신 방법을 설명하기 위한 흐름도이다.
시퀀싱 데이터 전송장치(100)는 외부로부터 입력받은 샘플 정보를 네트워크를 통해 시퀀싱 데이터 수신장치(200)로 전송한다. 시퀀싱 데이터 수신장치(200)에서는 수신부(210)를 통해 샘플정보를 수신하고(S801), 이 샘플정보는 복호화 테이블 추출부(220)로 전달된다(S803).
복호화 테이블 추출부(220)는 수신부(210)를 통해 시퀀싱 데이터 전송장치(100)로부터 수신된 샘플정보를 이용하여 복호화 테이블 저장부(230)로부터 복호화 테이블을 추출한다(S805). 복호화 테이블 추출부(220)에 의해 추출된 복호화 테이블은 시퀀싱 데이터 전송장치(100)에서 부호화 테이블을 추출할 때 사용한 샘플정보를 이용하여 추출된 것이다.
복호화 테이블 추출부(220)는 추출된 복호화 테이블을 복호화부(240)로 전달한다(S807). 복호화부(240)로 전달된 복호화 테이블은 시퀀싱 데이터 전송장치(100)로부터 전송 데이터가 수신될 때까지 스토리지 중 복호화부(240)에게 할당된 영역에 저장될 수 있다.
이후, 시퀀싱 데이터 전송장치(100)가 도 3 내지 도 6에서 예시한 바와 같은 절차에 의해 생성된 전송 데이터를 전송하면, 시퀀싱 데이터 수신장치(200)는 수신부(210)를 통해 전송 데이터를 수신한다(S809).
수신부(210)는 시퀀싱 데이터 전송장치(100)로부터 수신한 전송 데이터를 복호화부(240)로 전달한다(S811). 이에, 복호화부(240)는 전송 데이터 중 시퀀싱 데이터를 이전에 복호화 테이블 추출부(220)로부터 전달받은 복호화 테이블을 이용하여 복호화하고, 전송 데이터 중 전송 데이터 식별정보 및 부호화 테이블의 식별정보는 시퀀싱 데이터 전송장치(100)와 기약속된 복호화 방법에 의해 복호화한다(S813).
여기에서는 시퀀싱 데이터 수신장치(200)의 동작을 설명한 것으로, 시퀀싱 데이터 전송장치(100)의 동작이 도 3 내지 도 6에 예시한 어느 것에 무관하게 시퀀싱 데이터 수신장치(200)의 동작은 본 실시예에서와 같이 동작할 수 있다.
본 실시예에서는 부호화 테이블 추출부(120)에서 부호화 테이블을 추출할 때 사용하는 부호화 테이블 저장부 및 복호화 테이블 추출부(220)에서 복호화 테이블을 추출할 때 사용하는 복호화 테이블 저장부(230)는 동기 서버(300)의 동작에 의해 부복호화 테이블 저장부(320)와 동기화되어 있으므로, 대상 샘플의 샘플정보를 서로 공유하는 것에 의해 서로 대응되는 부호화 코드 및 복호화 코드를 사용하여 부호화 및 복호화를 수행하게 된다.
이처럼, 본원 발명의 실시예들에서는 압축에 소요되는 시간을 단축시킴으로써 압축 효율을 향상시킬 수 있으며, 구체적으로 압축의 대상이 되는 시퀀싱 데이터의 특성에 따라서 적절하게 선정된 압축 테이블을 사용함으로써 압축에 소요되는 시간을 줄일 수 있게 된다. 또한, 복호화시에도 상기 적절하게 선정된 압축 테이블에 대응되는 복호 테이블을 사용함으로써 복호화에 소요되는 시간을 줄일 수 있게 된다.
상기와 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 시퀀싱 데이터 전송장치 110 : 데이터 생성부
120 : 부호화 테이블 추출부 130 : 부호화 테이블 저장부
140 : 부호화부 150 : 전송부
200 : 시퀀싱 데이터 수신장치 300 : 동기 서버

Claims (22)

  1. 복수의 부호화 테이블을 저장하는 저장부;
    상기 복수의 부호화 테이블 중에서 샘플에 대한 샘플정보를 이용하여 부호화 테이블을 추출하는 부호화 테이블 추출부; 및
    추출한 상기 부호화 테이블을 이용하여 상기 샘플로부터 획득한 시퀀싱 데이터를 부호화하는 부호화부; 를 포함하는 것을 특징으로 하는 시퀀싱 데이터 부호화장치.
  2. 제 1 항에 있어서,
    상기 샘플정보는, 상기 시퀀싱 데이터를 획득한 샘플의 종류 또는 상기 시퀀싱 데이터의 일부인 것을 특징으로 하는 시퀀싱 데이터 부호화장치.
  3. 제 1 항에 있어서,
    상기 복수의 부호화 테이블 중 적어도 하나의 부호화 테이블은 적어도 하나의 서브 부호화 테이블을 포함하는 것을 특징으로 하는 시퀀싱 데이터 부호화장치.
  4. 제 3 항에 있어서,
    상기 적어도 하나의 서브 부호화 테이블에는 각각 식별정보가 할당된 것을 특징으로 하는 서열 시퀀싱 데이터 부호화장치.
  5. 제 1 항에 있어서,
    상기 복수의 부호화 테이블은 각각 샘플의 종류와 부호화 테이블이 매핑된 데이터인 것을 특징으로 하는 시퀀싱 데이터 부호화장치.
  6. 제 1 항에 있어서,
    상기 부호화부는,
    상기 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보, 및 상기 부호화된 시퀀싱 데이터를 포함하는 전송 데이터를 생성하는 것을 특징으로 하는 시퀀싱 데이터 부호화장치.
  7. 제 6 항에 있어서,
    상기 부호화부는, 상기 부호화된 시퀀싱 데이터에 대한 신뢰도 지수에 해당하는 퀄리티 값을 더 포함하는 상기 전송 데이터를 생성하는 것을 특징으로 하는 시퀀싱 데이터 부호화장치.
  8. 복수의 부호화 테이블 중에서 샘플에 대한 샘플정보를 이용하여 부호화 테이블을 추출하고, 추출한 상기 부호화 테이블을 이용하여 상기 샘플로부터 획득한 시퀀싱 데이터를 부호화하고, 부호화한 시퀀싱 데이터를 포함하는 전송 데이터를 구성하여 전송하는 시퀀싱 데이터 전송장치; 및
    상기 시퀀싱 데이터 전송장치로부터 상기 전송 데이터를 수신하고, 상기 전송 데이터에 포함된 시퀀싱 데이터를 상기 부호화 테이블에 대응되는 복호화 테이블로 복호화하는 시퀀싱 데이터 수신장치;를 포함하는 시퀀싱 데이터 송수신 시스템.
  9. 제 8 항에 있어서,
    상기 샘플정보는, 상기 시퀀싱 데이터를 획득한 샘플의 종류 또는 상기 시퀀싱 데이터의 일부인 것을 특징으로 하는 시퀀싱 데이터 송수신 시스템.
  10. 제 8 항에 있어서,
    상기 복수의 부호화 테이블 중 적어도 하나의 부호화 테이블은 적어도 하나의 서브 부호화 테이블을 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 시스템.
  11. 제 8 항에 있어서,
    상기 전송 데이터는,
    상기 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보, 및 상기 부호화된 시퀀싱 데이터를 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 시스템.
  12. 제 11 항에 있어서,
    상기 수신장치는, 상기 부호화 테이블의 식별정보를 이용하여, 복수의 복호화 테이블 중에서 복호화에 사용할 복호화 테이블을 선택하는 것을 특징으로 하는 시퀀싱 데이터 송수신 시스템.
  13. 제11항에 있어서,
    상기 시퀀싱 데이터 전송장치는 부호화 테이블을 저장하는 저장부를 포함하고, 상기 시퀀싱 데이터 수신장치는 복호화 테이블을 저장하는 저장부를 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 시스템.
  14. 제13항에 있어서,
    상기 부호화 테이블을 저장하는 저장부 및 상기 복호화 테이블을 저장하는 저장부를 동기화하는 동기 서버;를 더 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 시스템.
  15. 제 11 항에 있어서,
    상기 복호화 테이블 중 적어도 하나의 복호화 테이블은 적어도 하나의 서브 복호화 테이블을 포함하는 것을 특징으로 하는 시퀀싱 테이블 송수신 시스템.
  16. 샘플로부터 획득한 시퀀싱 데이터를 전송하는 방법에 있어서,
    상기 샘플에 대한 샘플정보를 이용하여 상기 시퀀싱 데이터의 부호화를 위한 부호화 테이블을 추출하는 단계;
    추출한 상기 부호화 테이블을 이용하여 상기 시퀀싱 데이터를 부호화하여 전송 데이터를 생성하는 단계; 및
    상기 생성된 전송 데이터를 전송하는 단계;를 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 방법.
  17. 제 16 항에 있어서,
    상기 부호화 테이블을 추출하는 단계는, 복수의 샘플 각각에 대하여 기정의된 부호화 테이블을 보유하는 부호화 테이블 저장부로부터 상기 샘플정보에 대응하는 부호화 테이블을 추출하는 것을 특징으로 하는 시퀀싱 데이터 송수신 방법.
  18. 제 16 항에 있어서,
    상기 전송 데이터를 생성하는 단계는, 상기 전송 데이터의 식별정보, 상기 시퀀싱 데이터의 부호화에 사용된 부호화 테이블의 식별정보, 및 상기 부호화된 시퀀싱 데이터를 포함하는 전송 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 방법.
  19. 제 18 항에 있어서,
    상기 부호화 테이블은 적어도 하나의 서브 부호화 테이블을 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 방법.
  20. 제 19 항에 있어서,
    상기 전송 데이터에 포함된 부호화 테이블의 식별정보는, 상기 서브 부호화 테이블의 식별정보인 것을 특징으로 하는 시퀀싱 데이터 송수신 방법.
  21. 제 16 항에 있어서,
    상기 전송 데이터를 수신하는 단계;
    상기 전송 데이터에 포함되어 있는 시퀀싱 데이터의 복호화를 위해서, 기저장된 복호화 테이블들 중에서 상기 시퀀싱 데이터의 부호화에 사용된 부호화 테이블에 대응된 복호화 테이블을 추출하는 단계; 및
    상기 추출된 복호화 테이블을 이용하여 상기 시퀀싱 데이터를 복호화하는 단계;를 더 포함하는 것을 특징으로 하는 시퀀싱 데이터 송수신 방법.
  22. 제 21 항에 있어서,
    상기 샘플정보를 수신하는 단계;를 더 포함하며
    상기 복호화 테이블을 추출하는 단계는, 상기 샘플정보에 대응하는 복호화 테이블을 추출하는 것을 특징으로 하는 시퀀싱 데이터 수신 방법.
KR1020100093463A 2010-09-27 2010-09-27 시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템 KR101218511B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100093463A KR101218511B1 (ko) 2010-09-27 2010-09-27 시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100093463A KR101218511B1 (ko) 2010-09-27 2010-09-27 시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템

Publications (2)

Publication Number Publication Date
KR20120031838A true KR20120031838A (ko) 2012-04-04
KR101218511B1 KR101218511B1 (ko) 2013-01-18

Family

ID=46135191

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100093463A KR101218511B1 (ko) 2010-09-27 2010-09-27 시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템

Country Status (1)

Country Link
KR (1) KR101218511B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016167408A1 (ko) * 2015-04-14 2016-10-20 이원 다이애그노믹스 게놈센타(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
KR20220048362A (ko) 2020-10-12 2022-04-19 서울대학교산학협력단 Dna 저장 장치의 시퀀스 집단화 방식 기반 복호화 방법, 프로그램 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3277677B2 (ja) * 1994-04-01 2002-04-22 ソニー株式会社 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置
KR0148152B1 (ko) * 1994-05-28 1998-09-15 김광호 영상데이타의 적응가변장부호화 및 복호화방법과 그 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016167408A1 (ko) * 2015-04-14 2016-10-20 이원 다이애그노믹스 게놈센타(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
KR20220048362A (ko) 2020-10-12 2022-04-19 서울대학교산학협력단 Dna 저장 장치의 시퀀스 집단화 방식 기반 복호화 방법, 프로그램 및 장치

Also Published As

Publication number Publication date
KR101218511B1 (ko) 2013-01-18

Similar Documents

Publication Publication Date Title
KR100712104B1 (ko) 디지털 정보신호의 인코딩 장치와 디코딩 장치, 및 인코딩 방법
JP2009511951A (ja) 信号処理方法及び装置、エンコーディング及びデコーディング方法並びにそのための装置
JP5330453B2 (ja) 信号処理方法及び装置、エンコーディング及びデコーディング方法並びにそのための装置
KR20190117652A (ko) 압축된 게놈 서열 리드로부터 게놈 참조 서열의 복원 방법 및 시스템
CN110277998B (zh) 电网数据无损压缩方法和装置
JP2004240975A (ja) Dna配列符号化装置及び方法
CN106170921A (zh) 涉及符号压缩的数据的源编码和解码方法及装置
CN103841424B (zh) 随机存取存储器中压缩数据的系统及方法
KR101940464B1 (ko) 스펙트럼의 피크 위치의 코딩 및 디코딩
JP2007043595A (ja) 可変長符号復号化方法および装置ならびにデータ伸長装置
KR20150092585A (ko) 이진 영상에 기반한 유전체 데이터 압축 방법 및 장치
KR101218511B1 (ko) 시퀀싱 데이터의 부호화 방법 및 이를 이용한 장치 및 시스템
JP2007226615A (ja) 情報処理装置、圧縮プログラム生成方法及び情報処理システム
US20130082850A1 (en) Data encoding apparatus, data decoding apparatus and methods thereof
RU2709656C2 (ru) Кодер, декодер и способ, использующие модовые символы
CN103746701A (zh) 一种用于Rice无损数据压缩的快速编码选项选择方法
Long et al. GeneComp, a new reference-based compressor for SAM files
CN103974075A (zh) 移动设备中的基于jpeg文件格式的编解码方法及其装置
KR20190071741A (ko) 생물 정보학 데이터의 간략 표현 방법 및 장치
CN111384962B (zh) 数据压缩解压装置和数据压缩方法
CN111384963B (zh) 数据压缩解压装置和数据解压方法
CN111384968B (zh) 数据压缩解压装置和数据解压方法
CN111384964B (zh) 数据压缩解压装置和数据压缩方法
US11775172B1 (en) Genome data compression and transmission method for FASTQ-formatted genome data
KR100686354B1 (ko) 가변 트리를 이용한 허프만 복호화 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150930

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160920

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170928

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180927

Year of fee payment: 7