KR102219745B1 - 생물학적 서열 데이터 처리 방법 및 장치 - Google Patents

생물학적 서열 데이터 처리 방법 및 장치 Download PDF

Info

Publication number
KR102219745B1
KR102219745B1 KR1020187017962A KR20187017962A KR102219745B1 KR 102219745 B1 KR102219745 B1 KR 102219745B1 KR 1020187017962 A KR1020187017962 A KR 1020187017962A KR 20187017962 A KR20187017962 A KR 20187017962A KR 102219745 B1 KR102219745 B1 KR 102219745B1
Authority
KR
South Korea
Prior art keywords
base
file
decompressed
target base
fastq
Prior art date
Application number
KR1020187017962A
Other languages
English (en)
Other versions
KR20180086484A (ko
Inventor
제 리우
준 장
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20180086484A publication Critical patent/KR20180086484A/ko
Application granted granted Critical
Publication of KR102219745B1 publication Critical patent/KR102219745B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

본 출원은 생물학적 서열 데이터 처리 방법을 제공하고, 모든 염기 각각의 특성 정보에 따라 생물학적 서열 fastq 파일 내의 모든 염기로부터 타깃 염기를 선택하고, 타깃 염기의 특성 정보를 사용하여 염기 패치 파일을 생성하는 단계; 생물학적 서열 fastq 파일에 대해 무손실 압축을 수행하여 압축된 fastq 파일을 획득하고, 염기 패치 파일에 대해 무손실 압축을 수행하여 압축된 패치 파일을 획득하는 단계; 압축된 패치 파일 및 압축된 fastq 파일을 압축 해제하는 단계; 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인하는 단계; 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하지 않으면, 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보를 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보로 수정하는 단계를 포함한다. 본 출원에 따르면, 압축된 fastq 파일의 사이트 정밀도는 압축률이 보장될 때 향상된다.

Description

생물학적 서열 데이터 처리 방법 및 장치
본 출원은 생명 공학 분야, 특히 생물학적 서열 데이터 처리 방법 및 장치에 관한 것이다.
시퀀싱 기술의 발달에 따라, 생물학적 서열(sequence)의 수량이 폭발적으로 증가한다. 30X-깊이(30X-depth) 시퀀싱에서, 한 사람 전체 게놈(genome) 데이터의 기술적 데이터의 크기는 거의 200G에 도달하고, 큰 저장 공간을 차지한다. 따라서, 유전자 데이터의 저장 공간을 줄일 필요가 있다. 종래 기술의 해결책에서, 유전자 데이터의 저장 공간은 일반적으로 유전자 데이터를 압축함으로써 감소된다. 압축 방식은 손실 압축 및 무손실 압축을 포함한다.
도 1에 나타난 바와 같이, 도 1은 생물학적 서열 패스타큐(fastq) 파일의 개략적인 구조도이다. fastq 파일의 이름은 업계에서 잘 알려져 있다. 생물학적 서열 fastq 파일은 생물학적 서열(핵산 서열과 같은) 및 대응하는 품질 평가를 저장하는 데 사용되며, 4가지 부분: 파일 식별자(판독 ID), 염기 서열(5가지 유형의 염기: C, G, A, T 및 N을 포함함), +주석 정보 및 품질 스코어를 포함한다. 판독 ID는 판독 이름 및 시퀀싱 플랫폼과 같은 정보를 설명하는 데 사용된다. 서열은 DNA 프래그먼트를 기록하는 데 사용된다. 품질 스코어는 염기 서열의 각 기호에 대해 측정된 신뢰도를 나타내는 데 사용된다. 판독 ID, 서열 및 품질 스코어는 생물학적 서열 fastq 파일의 저장 공간을 감소시키기 위해 압축될 수 있다.
생물학적 서열 fastq 파일이 압축된 후, 돌연변이 사이트(mutation site)를 포함하는 VCF(visual component framework) 파일은 일반적으로 압축된 생물학적 서열 fastq 파일을 사용하여 다운스트림 사이트 분석 소프트웨어에 의해 생성되고, 정밀도, 리콜(recall) 및 F-스코어와 같은 측정 인덱스는 돌연변이 사이트를 분석하여 계산된 다음, 압축된 fastq 파일의 사이트 정밀도가 결정된다. 도 2에 나타난 바와 같이, 도 2는 VCF 파일의 돌연변이 사이트 간의 대응 관계의 개략도이다. VCF 파일은, 다운스트림 사이트 분석 소프트웨어가 손실 압축 및 무손실 압축이 수행되는 생물학적 서열 fastq 파일을 처리한 후 획득된다. FN(False negative)은 무손실 압축으로 생성된 VCF 파일의 돌연변이 사이트의 수량이다. FP(False positive)는 손실 압축으로 생성된 VCF 파일의 돌연변이 사이트의 수량이다. TP(True positive)는 무손실 압축으로 생성된 VCF 파일과 손실 압축으로 생성된 VCF 파일 모두에 존재하는 돌연변이 사이트의 수량이다.
정밀도, 리콜 또는 F-스코어와 같은 각 측정 인덱스의 값은 0부터 1까지의 범위를 갖는다는 점을 알아야 한다. 값이 클수록 사이트 정밀도가 높음을 나타낸다. 정밀도, 리콜 및 F-스코어와 같은 측정 인덱스의 계산 공식은 이하와 같다: 정밀도 = TP/(TP+FP), 이는 검색된 결과에서 정확한 결과의 수량을 나타내며 정확도(정밀도)를 반영한다. 리콜 = TP/(TP+FN), 이는 검색된 정확한 결과의 수량을 나타내며 커버리지(리콜율)를 반영한다. F-스코어 = 2*정밀도*리콜/(정밀도+리콜). F-스코어는 정밀도와 리콜의 가중 고조파 평균이며, 인덱스 정밀도와 인덱스 리콜이 서로 충돌할 때 포괄적으로 고려된다.
종래 기술의 해결책 1에서, fastqz 압축 알고리즘이 제공된다. fastqz 압축 알고리즘의 이름은 업계에서 잘 알려져 있으며, fastqz 압축 알고리즘은 2가지 압축 방식: 무손실 압축 및 손실 압축을 지원한다. 무손실 압축에서, 판독 ID, 서열 및 품질 스코어가 각각 인코딩된다. 판독 ID는 증분 인코딩 방식으로 인코딩된다. 서열의 경우, 기본적으로, 염기 N의 품질 스코어는 33%이고 다른 염기의 품질 스코어는 33%가 아니다. 서열이 인코딩될 때, 염기 유형 N의 염기는 스킵되고, 다른 3가지 염기 또는 4가지 염기는 인코딩을 위해 하나의 바이트로 결합된다. 서열이 디코딩될 때, 품질 스코어가 33%인 염기가 염기 N으로 설정된다. 품질 스코어의 경우, 하나의 염기의 품질 스코어 또는 2가지 또는 3가지 염기의 품질 스코어가 인코딩을 위해 하나의 바이트로 결합된다. 그러나, 실제로, 생물학적 서열 fastq 파일에서 염기 유형 N과 품질 스코어 33% 사이에 대응 관계가 없다. 임의의 염기의 품질 스코어는 33%일 수 있다. 따라서, 압축 후의 사이트 정밀도는 높지 않다. 손실 압축에서, 손실 압축은 주로 품질 스코어에 대해 수행된다. 품질 스코어는 등급이 매겨지고, 동일한 등급은 동일한 품질 스코어로 대체된다. 예를 들어, 파라미터가 c10일 때, [35%, 45%)의 품질 스코어가 35%로 대체될 수 있다. 도 3에 나타난 바와 같이, 도 3은 식도 편평 세포 암종의 엑손 데이터(exon data of an esophageal squamous cell carcinoma)에 대해 fastqz 압축(손실 압축 및 무손실 압축)이 수행된 후 획득된 성능 테스트 결과이다. 성능 테스트 결과에서, fastqz 압축률은 매우 높지만, 압축 후의 사이트 정밀도는 높지 않음을 알 수 있다.
종래 기술의 해결책 2에서, P-Block/R-Block 압축 알고리즘이 제공된다. fastq 파일의 품질 스코어는 2가지 알고리즘의 크기가 가변적인 블록에 독립적으로 저장된다. 하나의 블록의 모든 품질 스코어는 왜곡 합의를 위반하지 않는 동일한 대표값으로 대체된다. P-Block 왜곡 합의는 Qmax-Qmin <=2p이고, R-Block 왜곡 합의는 Qmax/Qmin <=r2이다. Qmax 및 Qmin은 각각 블록 내의 품질 스코어의 최대값 및 최소값이며, p 및 r은 자체 정의된 파라미터이다. 도 4에 나타난 바와 같이, 도 4는 식도 편평 세포 암종의 엑손 데이터에 대해 P-Block 압축 및 R-Block 압축이 각각 수행된 후 획득된 성능 테스트 결과이다. 성능 테스트 결과에서 P-Block/R-Block 압축을 통한 압축 품질 스코어 비율이 높지 않다는 것을 알 수 있다.
본 출원은 종래 기술의 해결책에서 데이터 압축률이 낮고 사이트 정밀도가 높지 않은 문제점을 해결하기 위해, 생물학적 서열 데이터 처리 방법 및 장치를 제공한다.
제1 측면에 따르면, 본 출원은 생물학적 서열 데이터 처리 방법을 제공하며, 먼저 생물학적 서열 패스타큐(fastq) 파일 내의 모든 염기 각각의 특성 정보를 획득하는 단계 - 상기 특성 정보는 적어도 상기 생물학적 서열 fastq 파일 내의 각 염기의 서열 위치 및 염기 유형을 포함함 -; 미리 설정된 규칙 및 각 염기의 특성 정보에 따라 상기 모든 염기로부터 타깃 염기를 선택하고, 상기 타깃 염기의 특성 정보를 사용하여 염기 패치 파일을 생성하는 단계; 그 다음, 상기 생물학적 서열 fastq 파일에 대해 무손실 압축을 수행하여 압축된 fastq 파일을 획득하고, 상기 염기 패치 파일에 대해 무손실 압축을 수행하여 압축된 패치 파일을 획득하는 단계; 마지막으로, 상기 압축된 패치 파일 및 상기 압축된 fastq 파일을 각각 압축 해제하고, 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인하는 단계; 및 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하지 않으면, 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보를 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보로 수정하는 단계를 포함한다. 이러한 방식으로, 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보는 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보를 사용하여 조정되며, 이로써 압축률이 보장될 때 압축 후의 사이트 정밀도가 향상된다.
가능한 설계에서, 타깃 염기 유형의 염기가 모든 염기로부터 타깃 염기로서 선택되며, 염기 패치 파일은 타깃 염기의 염기 유형 및 서열 위치를 사용하여 생성된다. 예를 들어, 염기 유형 N의 염기가 선택되며, 염기 패치 파일은 염기 유형 N 및 생물학적 서열 fastq 파일 내의 염기 유형 N의 모든 염기의 서열 위치를 사용하여 생성된다. 염기 유형 N의 염기의 수량이 상대적으로 작기 때문에, 염기 패치 파일의 크기는 염기 유형 N의 염기의 특성 정보에 관한 통계를 수집함으로써 감소될 수 있다.
가능한 설계에서, 특성 정보는 품질 스코어를 더 포함한다. 타깃 염기 유형이고, 품질 스코어가 미리 설정된 임계값과 상이한 염기 및/또는 타깃 염기 유형이 아니고, 품질 스코어가 미리 설정된 임계값인 염기는 모든 염기로부터 타깃 염기로서 선택된다. 염기 패치 파일은 타깃 염기의 염기 유형, 품질 스코어 및 서열 위치를 사용하여 생성된다. 예를 들어, 염기 유형 N이고, 품질 스코어가 q가 아닌 염기 및/또는 다른 염기 유형이고, 품질 스코어가 q인 염기는 생물학적 서열 fastq 파일로부터 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 타깃 염기의 품질 스코어, 염기 유형 및 서열 위치를 사용하여 생성된다. 염기 유형 N의 염기의 수량이 상대적으로 작기 때문에, 염기 패치 파일의 크기는 염기 유형 N이고, 품질 스코어가 q가 아닌 염기 및 다른 염기 유형이고, 품질 스코어가 q인 염기의 특성 정보에 관한 통계를 수집함으로써 감소될 수 있다.
가능한 설계에서, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 오리지널 생물학적 서열 fastq 파일에 대해 손실 압축이 수행될 수 있으며; 손실 압축 후 획득된 오리지널 생물학적 서열 fastq 파일이 압축 해제되면 상기 생물학적 서열 fastq 파일을 획득할 수 있다. 압축된 오리지널 생물학적 서열 fastq 파일이 압축 해제된 후 품질 스코어가 조정된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 향상될 수 있다.
가능한 설계에서, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 오리지널 생물학적 서열 fastq 파일의 품질 스코어가 추출될 수 있고, 손실 압축이 추출된 품질 스코어에 대해 수행되며; 손실 압축 후 획득된 품질 스코어가 압축 해제되며, 오리지널 생물학적 서열 fastq 파일 내의 품질 스코어는 상기 생물학적 서열 fastq 파일을 획득하기 위해 압축 해제된 품질 스코어로 대체된다. 압축 해제된 후 품질 스코어가 조정된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 향상될 수 있다.
가능한 설계에서, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 오리지널 생물학적 서열 fastq 파일에 대해 손실 압축이 수행될 수 있으며; 손실 압축 후 획득된 오리지널 생물학적 서열 fastq 파일은 품질 스코어 및 식별자 판독 ID가 조정된 fastq 파일을 획득하기 위해 압축 해제되며; 조정된 품질 스코어는 fastq 파일로부터 필터링되고, 오리지널 생물학적 서열 fastq 파일 내의 품질 스코어는 상기 생물학적 서열 fastq 파일을 획득하기 위해 조정된 품질 스코어로 대체된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 향상될 수 있다.
다른 가능한 설계에서, 염기 패치 파일을 생성하는 제1 방식에 대해, 압축된 패치 파일 및 압축된 fastq 파일이 각각 압축 해제된 후, 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하는지 여부를 확인할 수 있다. 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하지 않으면, 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형으로 수정된다. 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하면, 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형이 처리되지 않을 수 있다. 예를 들어, 압축된 패치 파일은 염기 유형 N의 모든 염기의 서열 위치를 포함한다. 압축된 패치 파일 및 압축된 fastq 파일이 각각 압축 해제된 후, 압축 해제된 패치 파일 내의 서열 위치는 염기 유형 A에 대응하지만, 압축 해제된 fastq 파일 내의 서열 위치는 염기 유형 N에 대응하고, 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형 N은 염기 유형 A로 수정될 수 있다. 이러한 방식으로, 압축 해제된 fastq 파일 내의 염기는 염기 패치 파일을 사용하여 조정되며, 이로써 fastq 파일의 사이트 정밀도가 향상된다.
다른 가능한 설계에서, 염기 패치 파일을 생성하는 제2 방식에 대해, 압축된 패치 파일 및 압축된 fastq 파일이 각각 압축 해제된 후, 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하는지 여부를 확인할 수 있다. 염기 유형이 일치하지 않으면, 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형으로 수정되며; 및/또는 품질 스코어가 일치하지 않으면, 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 품질 스코어는 압축 해제된 패치 파일 내의 서열 위치에 대응하는 품질 스코어로 수정된다. 염기 유형이 일치하고 품질 스코어 또한 일치하면, 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 처리되지 않을 수 있다. 이러한 방식으로, 압축 해제된 fastq 파일이 염기 패치 파일을 사용하여 조정되며, 이로써 압축된 fastq 파일의 사이트 정밀도가 향상된다.
제2 측면에 따르면, 본 출원은 생물학적 서열 데이터 처리 장치를 제공하며, 생물학적 서열 데이터 처리 장치는 제1 측면에서 제공되는 생물학적 서열 데이터 처리 방법의 단계를 구현하도록 구성된다. 생물학적 서열 데이터 처리 장치는 하드웨어/소프트웨어 및 기능에 대응하는 유닛을 포함하는 하드웨어/소프트웨어에 의해 구현된다.
제3 측면에 따르면, 본 출원은 프로세서, 메모리 및 통신 버스를 포함하는 생물학적 서열 데이터 처리 디바이스를 제공한다. 통신 버스는 프로세서와 메모리 사이의 연결 및 통신을 구현하도록 구성되며, 프로세서는 메모리에 저장된 프로그램을 실행하여 제1 측면에서 제공되는 생물학적 서열 데이터 처리 방법의 단계를 구현한다.
제4 측면에 따르면, 본 출원은 컴퓨터 판독 가능 저장 매체를 제공하며, 여기서 컴퓨터 판독 가능 저장 매체는 하나 이상의 프로그램을 저장한다. 하나 이상의 프로그램은 명령을 포함한다. 컴퓨팅 디바이스의 적어도 하나의 프로세서가 명령을 실행할 때, 컴퓨팅 디바이스는 제1 측면 또는 제1 측면의 선택적 방식 중 임의의 하나에서 설명된 생물학적 서열 데이터 처리 방법을 수행한다.
본 출원의 실시예에서의 기술적 해결책을 보다 명확하게 설명하기 위해, 이하에서는 실시예를 설명하기 위해 요구되는 첨부 도면을 간단히 설명한다. 명확한 것은, 이하의 설명에서의 첨부 도면은 본 출원의 단지 일부 실시예를 나타내며, 통상의 기술자는 창의적인 노력 없이도 이들 첨부 도면으로부터 여전히 다른 도면을 유도할 수 있다는 것이다.
도 1은 본 출원에 따른 생물학적 서열 fastq 파일의 개략적인 구조도이다.
도 2는 본 출원에 따른 VCF 파일 내의 돌연변이 사이트 간의 대응 관계의 개략도이다.
도 3은 종래 기술 해결책에 따른 압축 성능 테스트 결과의 개략도이다.
도 4는 종래 기술 해결책에 따른 다른 압축 성능 테스트 결과의 개략도이다.
도 5는 본 출원의 일 실시예에 따른 생물학적 서열 데이터 처리 방법의 개략적인 흐름도이다.
도 6은 본 출원의 일 실시예에 따른 생물학적 서열 데이터 처리 장치의 개략적인 구조도이다.
도 7은 본 출원의 일 실시예에 따른 생물학적 서열 데이터 처리 디바이스의 개략적인 구조도이다.
이하는 본 출원의 실시예에서의 첨부 도면을 참조하여 본 출원의 실시예에서의 기술적 해결책을 명확하게 설명한다. 명확한 것은, 설명된 실시예는 본 출원의 실시예의 단지 일부에 불과하지만 전부는 아니라는 것이다. 창의적인 노력 없이 본 출원의 실시예에 기초하여 통상의 기술자에 의해 획득된 다른 모든 실시예는 본 출원의 보호 범위 내에 있다.
도 5를 참조하면, 도 5는 본 출원의 일 실시예에 따른 생물학적 서열 데이터 처리 방법의 개략적인 흐름도이다. 흐름도에 나타난 바와 같이, 본 출원의 실시예에서의 방법은 이하의 단계를 포함한다.
S501. 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보를 획득하고, 여기서 특성 정보는 적어도 생물학적 서열 fastq 파일 내의 각 염기의 서열 위치 및 염기 유형을 포함한다.
특정 구현에서, 도 1에 나타난 바와 같이, 도 1은 본 출원의 일 실시예에 따른 생물학적 서열 fastq 파일의 개략도이다. 생물학적 서열 fastq 파일은 파일 식별자(판독 ID), 염기 서열(Sequence), +주석 정보 및 품질 스코어를 포함한다. 염기 서열은 5가지 유형: A, T, C, G 및 N의 염기를 포함한다. 두 번째 라인의 염기 서열은 네 번째 라인의 품질 스코어에 대응하며, 이는 각 염기가 하나의 품질 스코어에 대응함을 나타낸다. 특성 정보는 생물학적 서열 fastq 파일 내의 염기의 염기 유형 및 염기의 서열 위치를 포함할 수 있거나, 염기의 염기 유형, 생물학적 서열 fastq 파일 내의 염기의 서열 위치 및 염기의 품질 스코어를 포함할 수 있다. 서열 위치는 행 좌표 및 열 좌표를 포함한다.
선택적으로, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 오리지널 생물학적 서열 fastq 파일에 대해 손실 압축이 수행될 수 있으며; 손실 압축 후 획득된 오리지널 생물학적 서열 fastq 파일이 압축 해제되면 상기 생물학적 서열 fastq 파일을 획득할 수 있다. 압축된 오리지널 생물학적 서열 fastq 파일이 압축 해제된 후 품질 스코어가 조정된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 증가될 수 있다.
선택적으로, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 오리지널 생물학적 서열 fastq 파일의 품질 스코어가 추출될 수 있고, 손실 압축이 추출된 품질 스코어에 대해 수행되며; 손실 압축 후 획득된 품질 스코어가 압축 해제되며, 오리지널 생물학적 서열 fastq 파일 내의 품질 스코어는 상기 생물학적 서열 fastq 파일을 획득하기 위해 압축 해제된 품질 스코어로 대체된다. 압축 해제된 후 품질 스코어가 조정된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 증가될 수 있다.
선택적으로, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 손실 압축은 오리지널 생물학적 서열 fastq 파일에 대해 수행될 수 있고; 손실 압축 후 획득된 오리지널 생물학적 서열 fastq 파일은 품질 스코어 및 식별자 판독 ID가 조정된 fastq 파일을 획득하기 위해 압축 해제되고; 조정된 품질 스코어는 fastq 파일로부터 필터링되고, 오리지널 생물학적 서열 fastq 파일 내의 품질 스코어는 상기 생물학적 서열 fastq 파일을 획득하기 위해 조정된 품질 스코어로 대체된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 증가될 수 있다.
S502. 미리 설정된 규칙과 각 염기의 특성 정보에 따라 모든 염기로부터 타깃 염기를 선택하고, 타깃 염기의 특성 정보를 사용하여 염기 패치 파일을 생성한다.
특정 구현에서, 타깃 염기 유형의 염기는 모든 염기로부터 타깃 염기로서 선택될 수 있으며, 염기 패치 파일은 타깃 염기의 염기 유형 및 서열 위치를 사용하여 생성된다.
예를 들어, 염기 유형 N의 염기가 선택될 수 있으며, 염기 패치 파일은 염기 유형 N 및 생물학적 서열 fastq 파일 내의 염기 유형 N의 모든 염기의 서열 위치를 사용하여 생성된다. 염기 유형 N의 염기의 수량이 상대적으로 작기 때문에, 염기 패치 파일의 크기는 염기 유형 N의 염기의 특성 정보에 관한 통계를 수집함으로써 감소될 수 있다.
선택적으로, 특성 정보는 품질 스코어를 더 포함한다. 타깃 염기 유형이고, 품질 스코어가 미리 설정된 임계값과 상이한 염기 및/또는 타깃 염기 유형이 아니고, 품질 스코어가 미리 설정된 임계값인 염기는 모든 염기로부터 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 타깃 염기의 염기 유형, 품질 스코어 및 서열 위치를 사용하여 생성된다. 미리 설정된 임계값은 타깃 염기 유형의 염기 표준 품질 스코어이다. 예를 들어, 염기 유형 N이고 품질 스코어가 q가 아닌 염기 및/또는 다른 유형이고 품질 스코어가 q인 염기는 생물학적 서열 fastq 파일로부터 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 염기의 염기 유형, 품질 스코어 및 서열 위치를 사용하여 생성된다.
예를 들어, 염기 유형 N이고 품질 스코어가 q가 아닌 염기 및 다른 염기 유형이고 품질 스코어가 q인 염기는 생물학적 서열 fastq 파일로부터 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 타깃 염기의 품질 스코어, 염기 유형 및 서열 위치를 사용하여 생성된다. 염기 유형 N의 염기의 수량이 상대적으로 작기 때문에, 염기 패치 파일의 크기는 염기 유형 N이고 품질 스코어가 q가 아닌 염기 및 다른 염기 유형이고 품질 스코어가 q인 염기의 특성 정보에 관한 통계를 수집함으로써 감소될 수 있으며, 여기서 q는 33%일 수 있지만 제한되지는 않는다.
본 출원의 실시예에서, 타깃 염기는 다수의 미리 설정된 규칙에 따라 모든 염기로부터 선택될 수 있다는 것을 알아야 한다. 예를 들어, 타깃 염기는 미리 설정된 염기 간격에 따라 생물학적 서열 fastq 파일로부터 선택될 수 있다. 염기 패치 파일은 타깃 염기의 서열 위치 및 염기 유형을 사용하여 생성되거나, 염기 패치 파일은 타깃 염기의 서열 위치, 염기 유형 및 품질 스코어를 사용하여 생성된다. 또한, 생물학적 서열 fastq 파일 내의 여러 연속적인 염기가 동일한 염기 유형이면, 동일한 염기 유형의 염기 중 하나가 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 타깃 염기의 서열 위치 및 염기 유형을 사용하여 생성되거나, 또는 염기 패치 파일은 타깃 염기의 서열 위치, 염기 유형 및 품질 스코어를 사용하여 생성된다.
S503. 압축된 fastq 파일을 획득하기 위해 생물학적 서열 fastq 파일에서 무손실 압축을 수행하며, 압축된 패치 파일을 획득하기 위해 염기 패치 파일에서 무손실 압축을 수행한다.
특정 구현에서, 판독 ID, 서열 및 품질 스코어가 각각 인코딩될 수 잇다. 판독 ID는 증분 인코딩 방식으로 인코딩된다. 서열의 경우, 기본적으로, 염기 N의 품질 스코어는 33%이고 다른 염기의 품질 스코어는 33%가 아니다. 서열이 인코딩될 때, 염기 유형 N의 염기가 스킵되고, 다른 3가지 염기 또는 4가지 염기는 인코딩을 위해 하나의 바이트로 결합된다. 품질 스코어의 경우, 하나의 염기의 품질 스코어 또는 2가지 또는 3가지 염기의 품질 스코어는 인코딩을 위해 하나의 바이트로 결합된다. 압축 알고리즘에서 압축률이 상대적으로 높기 때문에, 생물학적 서열 fastq 파일의 압축률이 증가될 수 있다. 또한, 염기 패치 파일은 일반적인 압축 소프트웨어를 사용하여 압축될 수 있다. 예를 들어, 염기 패치 파일은 rar 또는 gzip 포맷의 압축된 패치 파일로 압축될 수 있다.
S504. 압축된 패치 파일 및 압축된 fastq 파일을 각각 압축 해제한다.
특정 구현에서, 압축된 패치 파일 및 압축된 fastq 파일은 S503에 대응하는 방법을 사용하여 압축 해제될 수 있다.
S505. 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보가 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인한다.
특정 구현에서, 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하는지 여부를 확인할 수 있다. 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형은 처리되지 않을 수 있다.
선택적으로, 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하는지 여부를 확인할 수 있다. 염기 유형이 일치하고 품질 스코어 또한 일치하면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 처리되지 않을 수 있다.
S506. 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보가 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보와 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보를 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보로 수정한다. 압축 해제된 압축 fastq 파일 내의 일부 타깃 염기의 특성 정보만이 압축 해제된 압축 패치 파일 내의 일부 타깃 염기의 특성 정보와 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 일부 염기의 특성 정보만이 대체된다.
특정 구현에서, 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형은 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형으로 수정될 수 있다.
예를 들어, 압축된 패치 파일은 염기 유형 N의 모든 염기의 서열 위치를 포함한다. 압축된 패치 파일 및 압축된 fastq 파일이 각각 압축 해제된 후, 압축 해제된 압축 패치 파일 내의 서열 위치가 염기 유형 A에 대응하지만, 압축 해제된 압축 fastq 파일 내의 서열 위치가 염기 유형 N에 대응하면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형 N은 염기 유형 A로 수정될 수 있다. 이러한 방식으로, 압축 해제된 압축 fastq 파일 내의 염기는 염기 패치 파일을 사용하여 조정되고, 이로써 fastq 파일의 사이트 정밀도가 향상된다.
선택적으로, 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 모두 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형은 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형으로 수정될 수 있고, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 품질 스코어는 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 품질 스코어로 수정될 수 있다.
예를 들어, 압축된 패치 파일은 품질 스코어가 q가 아닌 염기 N의 서열 위치, 품질 스코어 및 염기 유형 그리고 품질 스코어가 q인 다른 염기의 서열 위치, 품질 스코어 및 염기 유형을 포함한다. 압축 해제된 압축 패치 파일 내의 서열 위치(10)가 염기 유형 A 및 품질 스코어가 33%에 대응하지만, 압축 해제된 fastq 파일 내의 서열 위치(10)가 염기 유형 N 및 품질 스코어가 34%에 대응하면, 압축 해제된 패치 파일 내의 서열 위치(10)에 대응하는 염기 유형과 품질 스코어 모두가 압축 해제된 fastq 파일 내의 서열 위치(10)에 대응하는 염기 유형 및 품질 스코어와 상이하다는 것을 확인함으로써 학습될 수 있다. 이 경우, 압축 해제된 fastq 파일 내의 서열 위치(10)에 대응하는 염기 유형 N은 염기 유형 A로 대체될 수 있으며, 압축 해제된 fastq 파일 내의 서열 위치(10)에 대응하는 품질 스코어 34%는 품질 스코어 33%로 대체될 수 있다.
본 출원의 실시예에서, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 먼저 획득되며, 타깃 염기는 미리 설정된 규칙 및 각 염기의 특성 정보에 따라 모든 염기로부터 선택되고, 염기 패치 파일은 타깃 염기의 특성 정보를 사용하여 생성된다. 그 다음, 압축된 fastq 파일을 획득하기 위해 생물학적 서열 fastq 파일에서 무손실 압축이 수행되며, 압축된 패치 파일을 획득하기 위해 무손실 압축이 염기 패치 파일에 대해 수행된다. 마지막으로, 압축된 패치 파일 및 압축된 fastq 파일이 압축 해제되며, 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보가 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인한다. 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보가 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보와 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보가 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보로 수정된다. 이러한 방식으로, 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보는 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보를 사용하여 조정되며, 이로써 압축률이 보장될 때 압축 후의 사이트 정밀도가 향상된다.
도 6을 참조하면, 도 6은 본 출원의 일 실시예에 따른 생물학적 서열 데이터 처리 장치의 개략적인 구조도이다. 도면에 나타난 바와 같이, 본 출원의 실시예에서의 장치는 이하를 포함한다:
정보 획득 모듈(601)은 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보를 획득하도록 구성된다. 특성 정보는 적어도 생물학적 서열 fastq 파일 내의 각 염기의 서열 위치 및 염기 유형을 포함한다.
특정 구현에서, 도 1에 나타난 바와 같이, 도 1은 본 출원의 일 실시예에 따른 생물학적 서열 fastq 파일의 개략도이다. 생물학적 서열 fastq 파일은 파일 식별자(판독 ID), 염기 서열, +주석 정보 및 품질 스코어를 포함한다. 염기 서열은 5가지 염기 유형: A, T, C, G 및 N의 염기를 포함한다. 두 번째 라인의 염기 서열은 네 번째 라인의 품질 스코어에 대응하며, 이는 각 염기가 하나의 품질 스코어에 대응한다는 것을 나타낸다. 특성 정보는 생물학적 서열 fastq 파일 내의 염기의 염기 유형 및 염기의 서열 위치를 포함할 수 있거나, 또는 생물학적 서열 fastq 파일 내의 염기의 염기 유형, 염기의 서열 위치 및 염기의 품질 스코어를 포함할 수 있다. 서열 위치는 행 좌표 및 열 좌표를 포함한다.
선택적으로, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 손실 압축이 오리지널 생물학적 서열 fastq 파일에 대해 수행될 수 있으며; 손실 압축 후 획득된 오리지널 생물학적 서열 fastq 파일이 상기 생물학적 서열 fastq 파일을 획득하기 위해 압축 해제된다. 압축된 오리지널 생물학적 서열 fastq 파일이 압축 해제된 후 품질 스코어가 조정된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 증가될 수 있다.
선택적으로, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 오리지널 생물학적 서열 fastq 파일 내의 품질 스코어가 추출될 수 있으며, 손실 압축이 추출된 품질 스코어에 대해 수행될 수 있고; 손실 압축 후 획득된 품질 스코어가 압축 해제되며, 오리지널 생물학적 서열 fastq 파일 내의 품질 스코어는 상기 생물학적 서열 fastq 파일을 획득하기 위해 압축 해제된 품질 스코어로 대체된다. 품질 스코어는 압축 해제 후 조정된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 증가될 수 있다.
선택적으로, 생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보가 획득되기 전, 손실 압축이 오리지널 생물학적 서열 fastq 파일에 대해 수행될 수 있고; 손실 압축 후 획득된 오리지널 생물학적 서열 fastq 파일은 품질 스코어 및 식별자 판독 ID 모두가 조정된 fastq 파일을 획득하기 위해 압축 해제되며; 조정된 품질 스코어는 fastq 파일에서 필터링되고, 오리지널 생물학적 서열 fastq 파일 내의 품질 스코어는 상기 생물학적 서열 fastq 파일을 획득하기 위해 조정된 품질 스코어로 대체된다. 본 방법에 따르면, 생물학적 서열 fastq 파일의 압축률이 더욱 증가될 수 있다.
파일 생성 모듈(602)은, 미리 설정된 규칙 및 각 염기의 특성 정보에 따라 모든 염기로부터 타깃 염기를 선택하고, 타깃 염기의 특성 정보를 사용하여 염기 패치 파일을 생성하도록 구성된다.
특정 구현에서, 모든 염기로부터 타깃 염기 유형의 염기가 타깃 염기로서 선택될 수 있으며, 염기 패치 파일은 타깃 염기의 염기 유형 및 서열 위치를 사용하여 생성된다.
예를 들어, 염기 유형 N의 염기가 선택될 수 있으며, 염기 패치 파일은 염기 유형 N 및 생물학적 서열 fastq 파일 내의 염기 유형 N의 모든 염기의 서열 위치를 사용하여 생성된다. 염기 유형 N의 염기의 수량이 상대적으로 작기 때문에, 염기 패치 파일의 크기는 염기 유형 N의 염기의 특성 정보에 관한 통계를 수집함으로써 감소될 수 있다.
선택적으로, 특성 정보는 품질 스코어를 더 포함한다. 타깃 염기 유형이고, 품질 스코어가 미리 설정된 임계값과 상이한 염기 및/또는 타깃 염기 유형이 아니고, 품질 스코어가 미리 설정된 임계값인 염기는 모든 염기로부터 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 타깃 염기의 염기 유형, 품질 스코어 및 서열 위치를 사용하여 생성된다. 미리 설정된 임계값은 타깃 염기 유형의 염기의 표준 품질 스코어이다. 예를 들어, 염기 유형 N이고, 품질 스코어가 q가 아닌 염기 및/또는 다른 유형이고, 품질 스코어가 q인 염기는 생물학적 서열 fastq 파일로부터 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 염기의 염기 유형, 품질 스코어 및 서열 위치를 사용하여 생성된다.
예를 들어, 염기 유형 N이고, 품질 스코어가 q가 아닌 염기 및 다른 염기 유형이고 품질 스코어가 q인 염기는 생물학적 서열 fastq 파일로부터 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 타깃 염기의 품질 스코어, 염기 유형 및 서열 위치를 사용하여 생성된다. 염기 유형 N의 염기의 수량이 상대적으로 작기 때문에, 염기 패치 파일의 크기는 염기 유형 N이고 품질 스코어가 q가 아닌 염기 및 다른 염기 유형이고 품질 스코어가 q인 염기의 특성 정보에 관한 통계를 수집함으로써 감소될 수 있으며, 여기서 q는 33%일 수 있지만 이에 제한되는 것은 아니다.
본 출원의 실시예에서, 타깃 염기는 다수의 미리 설정된 규칙에 따라 모든 염기로부터 선택될 수 있다는 것을 알아야 한다. 예를 들어, 타깃 염기는 미리 설정된 염기 간격에 따라 생물학적 서열 fastq 파일로부터 선택될 수 있다. 염기 패치 파일은 타깃 염기의 서열 위치 및 염기 유형을 사용하여 생성되거나, 또는 염기 패치 파일은 타깃 염기의 서열 위치, 염기 유형 및 품질 스코어를 사용하여 생성된다. 다르게는, 생물학적 서열 fastq 파일 내의 여러 연속 염기가 동일한 염기 유형이면, 동일한 염기의 염기 중 임의의 하나가 타깃 염기로서 선택될 수 있다. 염기 패치 파일은 타깃 염기의 서열 위치 및 염기 유형을 사용하여 생성되거나, 염기 패치 파일은 타깃 염기의 서열 위치, 염기 유형 및 품질 스코어를 사용하여 생성된다.
파일 압축 모듈(603)은, 압축된 fastq 파일을 획득하기 위해 생물학적 서열 fastq 파일에서 무손실 압축을 수행하고, 압축된 패치 파일을 획득하기 위해 염기 패치 파일에서 무손실 압축을 수행하도록 구성된다.
특정 구현에서, 판독 ID, 서열 및 품질 스코어가 각각 인코딩될 수 있다. 판독 ID는 증분 인코딩 방식으로 인코딩된다. 서열의 경우, 기본적으로, 염기 N의 품질 스코어는 33%이고 다른 염기의 품질 스코어는 33%가 아니다. 서열이 인코딩될 때, 염기 유형 N의 염기가 스킵되고, 다른 3개의 염기 또는 4개의 염기는 인코딩을 위해 하나의 바이트로 결합된다. 품질 스코어의 경우, 하나의 염기의 품질 스코어 또는 2개 또는 3개의 염기의 품질 스코어는 인코딩을 위해 하나의 바이트로 결합된다. 이 압축 알고리즘에서 압축률이 상대적으로 높기 때문에, 생물학적 서열 fastq 파일의 압축률이 증가될 수 있다. 또한, 염기 패치 파일은 일반적인 압축 소프트웨어를 사용하여 압축될 수 있다. 예를 들어, 염기 패치 파일은 rar 또는 gzip 포맷의 압축된 패치 파일로 압축될 수 있다.
파일 압축 해제 모듈(604)은 압축된 패치 파일 및 압축된 fastq 파일을 각각 압축 해제하도록 구성된다.
특정 구현에서, 압축된 패치 파일 및 압축된 fastq 파일은 파일 압축 모듈(603)에 대응하는 방법을 사용하여 압축 해제될 수 있다.
정보 확인 모듈(605)은 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보가 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인하도록 구성된다.
특정 구현에서, 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하는지 여부를 확인할 수 있다. 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형은 처리되지 않을 수 있다.
선택적으로, 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하는지 여부를 확인할 수 있다. 염기 유형이 일치하고 품질 스코어 또한 일치하면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어는 처리되지 않을 수 있다.
정보 수정 모듈(606)은, 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보가 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보와 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 타깃 염기의 특성 정보를 압축 해제된 압축 패치 파일 내의 타깃 염기의 특성 정보로 수정하도록 구성된다. 압축 해제된 압축 fastq 파일 내의 일부 타깃 염기의 특성 정보만이 압축 해제된 압축 패치 파일 내의 일부 타깃 염기의 특성 정보와 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 일부 염기의 특성 정보만이 대체된다.
특정 구현에서, 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형이 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형과 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형은 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형으로 수정될 수 있다.
예를 들어, 압축된 패치 파일은 염기 유형 N의 모든 염기의 서열 위치를 포함한다. 압축된 패치 파일 및 압축된 fastq 파일이 각각 압축 해제된 후, 압축 해제된 압축 패치 파일 내의 서열 위치가 염기 유형 A에 대응하지만, 압축 해제된 압축 fastq 파일 내의 서열 위치가 염기 유형 N과 대응하면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형 N은 염기 유형 A로 수정될 수 있다. 이러한 방식으로, 압축 해제된 압축 fastq 파일 내의 염기는 염기 패치 파일을 사용하여 조정되어, fastq 파일의 사이트 정밀도가 향상된다.
선택적으로, 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어 모두가 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하지 않으면, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 염기 유형은 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 염기 유형으로 수정될 수 있으며, 압축 해제된 압축 fastq 파일 내의 서열 위치에 대응하는 품질 스코어는 압축 해제된 압축 패치 파일 내의 서열 위치에 대응하는 품질 스코어로 수정될 수 있다.
예를 들어, 압축된 패치 파일은 품질 스코어가 q가 아닌 염기 N의 서열 위치, 품질 스코어 및 염기 유형 및 품질 스코어가 q인 다른 염기의 서열 위치, 품질 스코어 및 염기 유형을 포함한다. 압축 해제된 압축 패치 파일 내의 서열 위치(10)가 염기 유형 A 및 품질 스코어 33%에 대응하지만, 압축 해제된 fastq 파일 내의 서열 위치(10)가 염기 유형 N 및 품질 스코어 34%에 대응하면, 압축 해제된 압축 패치 파일 내의 서열 위치(10)에 대응하는 염기 유형 및 품질 스코어가 모두 압축 해제된 압축 fastq 파일 내의 서열 위치(10)에 대응하는 염기 유형 및 품질 스코어와 상이한 것을 확인함으로써 알 수 있다. 이 경우, 압축 해제된 fastq 파일 내의 서열 위치(10)에 대응하는 염기 유형 N은 염기 유형 A로 대체될 수 있으며, 압축 해제된 fastq 파일 내의 서열 위치(10)에 대응하는 품질 스코어 34%는 품질 스코어 33%로 대체될 수 있다.
또한, 도 7을 참조하면, 도 7은 본 출원에 따른 생물학적 서열 데이터 처리 디바이스의 개략적인 구조도이다. 도면에 나타난 바와 같이, 디바이스는 CPU와 같은 적어도 하나의 프로세서(701), 적어도 하나의 메모리(703) 및 적어도 하나의 통신 버스(702)를 포함할 수 있다. 통신 버스(702)는 이들 구성요소 간의 연결 및 통신을 구현하도록 구성된다. 메모리(703)는 고속 RAM 메모리일 수 있거나 또는 적어도 하나의 자기 디스크 메모리와 같은 비휘발성 메모리(non-volatile memory)일 수 있다. 선택적으로, 메모리(703)는 프로세서(701)로부터 멀리 떨어져 위치한 적어도 하나의 저장 장치일 수 있다. 도 7에서의 디바이스는 도 6에 나타난 생물학적 서열 데이터 처리 장치일 수 있다. 메모리(703)는 프로그램 코드의 그룹을 저장한다. 프로세서(701)는 메모리(703)에 저장된 프로그램을 실행하여, 생물학적 서열 데이터 처리 장치에 의해 수행되는 방법을 수행하거나 또는 생물학적 서열 데이터 처리 장치에 의해 구현되는 기능을 구현한다.
간략한 설명을 위해, 상기 방법 실시예가 일련의 동작으로 표현된다는 것을 알아야 한다. 그러나, 통상의 기술자는 본 출원에 따라 일부 단계가 다른 순서 또는 동시에 수행될 수 있기 때문에, 본 출원이 설명된 동작의 순서에 제한되지 않는다는 것을 이해해야 한다. 통상의 기술자는 본 명세서에 설명된 실시예는 모두 예시적인 실시예에 속하며, 관련된 동작 및 모듈은 본 출원에 의해 반드시 요구되는 것은 아니라는 것을 더 이해할 수 있다.
상기 실시예에서, 실시예의 설명은 각각 초점을 가진다. 일 실시예에서 상세하게 설명되지 않은 부분에 대해서는, 다른 실시예에서의 관련 설명을 참조한다.
통상의 기술자는 상기 실시예에서의 방법의 전부 혹은 일부 단계가 관련 하드웨어를 지시하는 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 저장 매체는 플래시 메모리, 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기 디스크, 광 디스크 등을 포함할 수 있다.
이상은 본 출원의 실시예에서 제공되는 생물학적 서열 데이터 처리 방법 및 장치를 상세하게 설명한다. 본 명세서에서, 특정 예는 본 출원의 원리 및 구현을 설명하기 위해 적용된다. 실시예의 설명은 단지 본 출원의 방법 및 핵심 아이디어를 이해하는 것을 돕기 위한 것일 뿐이다. 한편, 통상의 기술자는 본 출원의 아이디어에 기초하여, 특정 구현 및 응용 범위에 대해 수정을 가할 수 있다. 따라서, 본 명세서의 컨텐츠는 본 출원의 제한으로 해석되어서는 안된다.

Claims (16)

  1. 생물학적 서열 데이터 처리 방법으로서,
    생물학적 서열 패스타큐(fastq) 파일 내의 모든 염기 각각의 특성 정보를 획득하는 단계 - 상기 특성 정보는 적어도 상기 생물학적 서열 fastq 파일 내의 각 염기의 서열 위치 및 염기 유형을 포함함 -;
    미리 설정된 규칙 및 각 염기의 상기 특성 정보에 따라 상기 모든 염기로부터 타깃 염기를 선택하고, 상기 타깃 염기의 특성 정보를 사용하여 염기 패치 파일을 생성하는 단계;
    상기 생물학적 서열 fastq 파일에 대해 fastqz 압축 알고리즘의 무손실 압축을 수행하여 압축된 fastq 파일을 획득하고, 상기 염기 패치 파일에 대해 압축 소프트웨어를 사용한 무손실 압축을 수행하여 압축된 패치 파일을 획득하는 단계;
    상기 압축된 패치 파일 및 상기 압축된 fastq 파일을 각각 압축 해제하는 단계;
    상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인하는 단계; 및
    상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하지 않으면, 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보를 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보로 수정하는 단계
    를 포함하는
    생물학적 서열 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 특성 정보는 품질 스코어를 더 포함하며,
    미리 설정된 규칙 및 각 염기의 특성 정보에 따라 상기 모든 염기로부터 타깃 염기를 선택하고, 상기 타깃 염기의 특성 정보를 사용하여 염기 패치 파일을 생성하는 단계는,
    상기 모든 염기로부터, 타깃 염기 유형이고, 품질 스코어가 미리 설정된 임계값과 상이한 염기 및/또는 타깃 염기 유형이 아니고, 품질 스코어가 상기 타깃 염기로 상기 미리 설정된 임계값인 염기를 선택하는 단계; 및
    상기 타깃 염기의 염기 유형, 품질 스코어 및 서열 위치를 사용하여 염기 패치 파일을 생성하는 단계
    를 포함하는,
    생물학적 서열 데이터 처리 방법.
  3. 제2항에 있어서,
    상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인하는 단계는, 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하는지 여부를 확인하는 단계를 포함하고;
    상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보를 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보로 수정하는 단계는,
    상기 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 염기 유형을 상기 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형으로 수정하는 단계; 및/또는
    상기 압축 해제된 fastq 파일 내의 서열 위치에 대응하는 품질 스코어를 상기 압축 해제된 패치 파일 내의 서열 위치에 대응하는 품질 스코어로 수정하는 단계
    를 포함하는,
    생물학적 서열 데이터 처리 방법.
  4. 제1항에 있어서,
    상기 미리 설정된 규칙 및 각 염기의 특성 정보에 따라 상기 모든 염기로부터 타깃 염기를 선택하고, 상기 타깃 염기의 특성 정보를 사용하여 염기 패치를 생성하는 단계는,
    상기 모든 염기로부터 타깃 염기 유형의 염기를 상기 타깃 염기로서 선택하는 단계; 및
    상기 타깃 염기의 염기 유형 및 서열 위치를 사용하여 상기 염기 패치 파일을 생성하는 단계
    를 포함하는,
    생물학적 서열 데이터 처리 방법.
  5. 제4항에 있어서,
    상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인하는 단계는, 상기 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형이 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형과 일치하는지 여부를 확인하는 단계를 포함하고,
    상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보를 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보로 수정하는 단계는, 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형을 상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 염기 유형으로 수정하는 단계를 포함하는,
    생물학적 서열 데이터 처리 방법.
  6. 생물학적 서열 데이터 처리 장치로서,
    생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보를 획득하도록 구성된 정보 획득 모듈 - 상기 특성 정보는 적어도 상기 생물학적 서열 fastq 파일 내의 각 염기의 서열 위치 및 염기 유형을 포함함 -;
    미리 설정된 규칙 및 각 염기의 특성 정보에 따라 상기 모든 염기로부터 타깃 염기를 선택하고, 상기 타깃 염기의 특성 정보를 사용하여 염기 패치 파일을 생성하도록 구성된 파일 생성 모듈;
    상기 생물학적 서열 fastq 파일에 대해 fastqz 압축 알고리즘의 무손실 압축을 수행하여 압축된 fastq 파일을 획득하고, 상기 염기 패치 파일에 대해 압축 소프트웨어를 사용한 무손실 압축을 수행하여 압축된 패치 파일을 획득하도록 구성된 파일 압축 모듈;
    상기 압축된 패치 파일 및 상기 압축된 fastq 파일을 각각 압축 해제하도록 구성된 파일 압축 해제 모듈;
    상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하는지 여부를 확인하도록 구성된 정보 확인 모듈; 및
    상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보와 일치하지 않으면, 상기 압축 해제된 fastq 파일 내의 타깃 염기의 특성 정보를 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보로 수정하도록 구성된 정보 수정 모듈
    을 포함하는
    생물학적 서열 데이터 처리 장치.
  7. 제6항에 있어서,
    상기 파일 생성 모듈은 구체적으로,
    상기 모든 염기로부터 타깃 염기 유형의 염기를 상기 타깃 염기로서 선택하고; 및
    상기 타깃 염기의 염기 유형 및 서열 위치를 사용하여 상기 염기 패치 파일을 생성하도록 구성되는,
    생물학적 서열 데이터 처리 장치.
  8. 제6항에 있어서,
    상기 파일 생성 모듈은 구체적으로,
    상기 모든 염기로부터, 타깃 염기 유형이고 품질 스코어가 미리 설정된 임계값과 상이한 염기 및/또는 타깃 염기 유형이 아니고 품질 스코어가 미리 설정된 임계값인 염기를 상기 타깃 염기로서 선택하며; 및
    상기 타깃 염기의 염기 유형, 품질 스코어 및 서열 위치를 사용하여 상기 염기 패치 파일을 생성하도록 구성되는,
    생물학적 서열 데이터 처리 장치.
  9. 제7항에 있어서,
    상기 정보 확인 모듈은 구체적으로, 상기 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형이 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형과 일치하는지 여부를 확인하도록 구성되며;
    상기 정보 수정 모듈은 구체적으로, 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형을 상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 염기 유형으로 수정하도록 구성되는,
    생물학적 서열 데이터 처리 장치.
  10. 제8항에 있어서,
    상기 정보 확인 모듈은 구체적으로, 상기 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하는지 여부를 확인하도록 구성되며; 및
    상기 정보 수정 모듈은 구체적으로,
    상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 상기 염기 유형을 상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 상기 염기 유형으로 수정하고; 및/또는
    상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 상기 품질 스코어를 상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 상기 품질 스코어로 수정하도록 구성되는,
    생물학적 서열 데이터 처리 장치.
  11. 생물학적 서열 데이터 처리 디바이스로서,
    메모리, 통신 버스 및 프로세서를 포함하고,
    상기 메모리는 프로그램 코드를 저장하도록 구성되며,
    상기 프로세서는 이하의 동작:
    생물학적 서열 fastq 파일 내의 모든 염기 각각의 특성 정보를 획득하는 동작 - 상기 특성 정보는 적어도 상기 생물학적 서열 fastq 파일 내의 각 염기의 서열 위치 및 염기 유형을 포함함 -;
    미리 설정된 규칙 및 각 염기의 상기 특성 정보에 따라 상기 모든 염기로부터 타깃 염기를 선택하고, 상기 타깃 염기의 특성 정보를 사용하여 염기 패치 파일을 생성하는 동작;
    상기 생물학적 서열 fastq 파일에 대해 fastqz 압축 알고리즘의 무손실 압축을 수행하여 압축된 fastq 파일을 획득하고, 상기 염기 패치 파일에 대해 압축 소프트웨어를 사용한 무손실 압축을 수행하여 압축된 패치 파일을 획득하는 동작;
    상기 압축된 패치 파일 및 상기 압축된 fastq 파일을 각각 압축 해제하는 동작;
    상기 압축 해제된 패치 파일 내의 상기 타깃 염기의 특성 정보가 상기 압축 해제된 fastq 파일 내의 상기 타깃 염기의 특성 정보와 일치하는지 여부를 확인하는 동작; 및
    상기 압축 해제된 패치 파일 내의 상기 타깃 염기의 상기 특성 정보가 상기 압축 해제된 fastq 파일 내의 타깃 염기의 상기 특성 정보와 일치하지 않으면, 상기 압축 해제된 fastq 파일 내의 타깃 염기의 상기 특성 정보를 상기 압축 해제된 패치 파일 내의 타깃 염기의 특성 정보로 수정하는 동작
    을 수행하기 위해 상기 프로그램 코드를 호출하도록 구성되는,
    생물학적 서열 데이터 처리 디바이스.
  12. 제11항에 있어서,
    상기 프로세서는 또한 이하의 동작 단계:
    상기 모든 염기로부터 타깃 염기 유형의 염기를 상기 타깃 염기로서 선택하는 동작 단계; 및
    상기 타깃 염기의 염기 유형 및 서열 위치를 사용하여 상기 염기 패치 파일을 생성하는 동작 단계
    를 수행하도록 구성되는,
    생물학적 서열 데이터 처리 디바이스.
  13. 제11항에 있어서,
    상기 특성 정보는 품질 스코어를 더 포함하고,
    상기 프로세서는 또한 이하의 동작 단계:
    상기 모든 염기로부터, 타깃 염기 유형이고 품질 스코어가 미리 설정된 임계값과 상이한 염기 및/또는 상기 타깃 염기 유형이 아니고 품질 스코어가 미리 설정된 임계값인 염기를 상기 타깃 염기로서 선택하는 동작 단계; 및
    상기 타깃 염기의 염기 유형, 품질 스코어 및 서열 위치를 사용하여 상기 염기 패치 파일을 생성하는 동작 단계
    를 수행하도록 구성되는,
    생물학적 서열 데이터 처리 디바이스.
  14. 제12항에 있어서,
    상기 프로세서는 또한 이하의 동작 단계:
    상기 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형이 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형과 일치하는지 여부를 확인하는 동작 단계; 및
    상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 염기 유형이 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형과 일치하지 않으면, 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형을 상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 염기 유형으로 수정하는 동작 단계
    를 수행하도록 구성되는,
    생물학적 서열 데이터 처리 디바이스.
  15. 제13항에 있어서,
    상기 프로세서는 또한 이하의 동작 단계:
    상기 압축 해제된 패치 파일 내의 서열 위치에 대응하는 염기 유형 및 품질 스코어가 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하는지 여부를 확인하는 동작 단계; 및
    상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 염기 유형 및 품질 스코어가 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형 및 품질 스코어와 일치하지 않으면, 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 염기 유형을 상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 염기 유형으로 수정하고; 및/또는 상기 압축 해제된 fastq 파일 내의 상기 서열 위치에 대응하는 품질 스코어를 상기 압축 해제된 패치 파일 내의 상기 서열 위치에 대응하는 품질 스코어로 수정하는 동작 단계
    를 수행하도록 구성되는,
    생물학적 서열 데이터 처리 디바이스.
  16. 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 판독 가능 저장 매체는 명령을 포함하고, 컴퓨팅 디바이스의 적어도 하나의 프로세서가 상기 명령을 실행할 때, 상기 컴퓨팅 디바이스는 제1항 내지 제5항 중 어느 한 항에 기재된 생물학적 서열 데이터 처리 방법을 수행하는, 컴퓨터 판독 가능 저장 매체.
KR1020187017962A 2016-08-31 2016-08-31 생물학적 서열 데이터 처리 방법 및 장치 KR102219745B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/097559 WO2018039983A1 (zh) 2016-08-31 2016-08-31 一种生物序列数据的处理方法及装置

Publications (2)

Publication Number Publication Date
KR20180086484A KR20180086484A (ko) 2018-07-31
KR102219745B1 true KR102219745B1 (ko) 2021-02-23

Family

ID=61299861

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187017962A KR102219745B1 (ko) 2016-08-31 2016-08-31 생물학적 서열 데이터 처리 방법 및 장치

Country Status (4)

Country Link
US (1) US11360940B2 (ko)
EP (1) EP3367275A4 (ko)
KR (1) KR102219745B1 (ko)
WO (1) WO2018039983A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102396789B1 (ko) * 2019-11-11 2022-05-11 주식회사 셀젠텍 Fastq 포맷의 유전체 데이터를 위한 유전체 데이터의 압축 및 전송 방법
US11775172B1 (en) * 2022-05-05 2023-10-03 CELLGENTEK Corp. Genome data compression and transmission method for FASTQ-formatted genome data

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6216175B1 (en) * 1998-06-08 2001-04-10 Microsoft Corporation Method for upgrading copies of an original file with same update data after normalizing differences between copies created during respective original installations
US10090857B2 (en) 2010-04-26 2018-10-02 Samsung Electronics Co., Ltd. Method and apparatus for compressing genetic data
CN102081707B (zh) 2011-01-07 2013-04-17 深圳大学 一种dna序列数据压缩和解压系统及方法
EP2608096B1 (en) * 2011-12-24 2020-08-05 Tata Consultancy Services Ltd. Compression of genomic data file
EP2770642B1 (en) 2013-02-26 2022-10-05 Tata Consultancy Services Limited Systems and methods for data archival
CN103559020B (zh) * 2013-11-07 2016-07-06 中国科学院软件研究所 一种dna读序数据fastq文件并行压缩和解压缩方法
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
CN105760706B (zh) * 2014-12-15 2018-05-29 深圳华大基因研究院 一种二代测序数据的压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. K. Bonfield 외, "Compression of FASTQ and SAM Format Sequencing Data", PLOS ONE, 8권, 3호, 2013.01.
M. Nicolae 외, "LFQC: a lossless compression algorithm for FASTQ files", Bioinformatics, 31권, 20호, 2015.06.20.

Also Published As

Publication number Publication date
EP3367275A4 (en) 2018-11-14
WO2018039983A1 (zh) 2018-03-08
KR20180086484A (ko) 2018-07-31
US11360940B2 (en) 2022-06-14
EP3367275A1 (en) 2018-08-29
US20180365260A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
US10600501B2 (en) System and methods for identifying a base call included in a target sequence
CN104036187A (zh) 计算机病毒类型确定方法及其系统
KR102219745B1 (ko) 생물학적 서열 데이터 처리 방법 및 장치
CN109685805B (zh) 一种图像分割方法及装置
CN116049345B (zh) 基于双向事件完全图的文档级事件联合抽取方法及系统
US10394763B2 (en) Method and device for generating pileup file from compressed genomic data
CN113127864B (zh) 特征码提取方法、装置、计算机设备和可读存储介质
He et al. De novo assembly methods for next generation sequencing data
WO2018121464A1 (zh) 一种病毒检测方法及装置、存储介质
CN113205857A (zh) 基因组性染色体非同源区域的鉴定方法和装置
CN110876072A (zh) 一种批量注册用户识别方法、存储介质、电子设备及系统
EP3938932B1 (en) Method and system for mapping read sequences using a pangenome reference
US20150142328A1 (en) Calculation method for interchromosomal translocation position
CN111552842A (zh) 一种数据处理的方法、装置和存储介质
CN114692168B (zh) 基于攻击大数据的云端服务应用程序漏洞分析方法及系统
CN111913945A (zh) 一种数据治理方法、装置及存储介质
JP2023513203A (ja) 新しいコンテキストに基づくアライメントされた配列決定データにおける改善されたクオリティ値圧縮フレームワーク
CN116740452B (zh) 一种基于图像修复的图像分类方法、系统和存储介质
CA2953675A1 (en) A method for finding associated positions of bases of a read on a reference genome
CN117935921B (zh) 确定缺失/重复类型的方法、设备、介质和程序产品
CN113449533B (zh) 一种基于条形码序列的读长比对方法和装置
CN111143744B (zh) 一种web资产检测的方法、装置、设备及可读存储介质
CN116663989B (zh) 线状工程地形复杂性测度方法及装置
CN116010423A (zh) 数据库的精确数据处理方法、存储介质与计算机设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant