KR101770962B1 - 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 - Google Patents

유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 Download PDF

Info

Publication number
KR101770962B1
KR101770962B1 KR1020140007344A KR20140007344A KR101770962B1 KR 101770962 B1 KR101770962 B1 KR 101770962B1 KR 1020140007344 A KR1020140007344 A KR 1020140007344A KR 20140007344 A KR20140007344 A KR 20140007344A KR 101770962 B1 KR101770962 B1 KR 101770962B1
Authority
KR
South Korea
Prior art keywords
sequence
quality
marker
ease
genetic
Prior art date
Application number
KR1020140007344A
Other languages
English (en)
Other versions
KR20140099189A (ko
Inventor
남궁정현
윤태균
이성곤
이병철
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to PCT/KR2014/000823 priority Critical patent/WO2014119914A1/ko
Priority to CN201480006935.9A priority patent/CN104968806B/zh
Publication of KR20140099189A publication Critical patent/KR20140099189A/ko
Priority to US14/817,067 priority patent/US20160078169A1/en
Application granted granted Critical
Publication of KR101770962B1 publication Critical patent/KR101770962B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Zoology (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 목적시료로부터 염기서열 정보를 수득하고, 수득된 염기서열에 대해 품질관리 를 수행하고, 상기 품질관리 를 수행한 염기서열과 참조서열을 대조하며, 상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하며, 상기 추출된 개인 식별 유전변이 마커의 적합성을 신뢰도, 용이성 및 유용성으로 평가하며, 상기 마커 적합성이 확인된 변이 서열을 출력하는 단계를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치를 제공한다. 이를 통하여, 개인 유전변이를 추출하고, 발굴된 유전변이 마커의 적합성을 평가하여 우선 순위를 제시하며, 타 분석 장비를 이용한 검증 실험에 사용될 수 있도록 주변서열정보를 추가로 제공한다.

Description

유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치{A METHOD AND APPARATUS OF PROVIDING INFORMATION ON A GENOMIC SEQUENCE BASED PERSONAL MARKER}
본 발명은 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치에 관한 것이다.
인간 유전체 프로젝트가 완료된 후 인간의 DNA 염기서열이 해독되고 이로부터 인간 유전자의 다양한 기능들이 밝혀지고 있다. 특히, 다양한 유전자 변이들이 발견되어 이것들이 인간의 형질의 차이를 일으킬 뿐만 아니라, 특정 질병의 원인으로 작용될 수 있음이 밝혀짐에 따라 인간 유전체 분석 연구는 점점 더 가속화 되어가고 있다. 하지만, 인간 유전체에서 발생할 수 있는 방대한 유전적 변이 중 어떠한 변이가 실질적으로 병인이 될 수 있는 것인가를 밝혀내는 데에는 어려움이 있을 수 밖에 없다.
차세대 시퀀싱 기술(NGS, Next Generation Sequencing)이 발달함에 따라 개별 인간의 전체 유전체의 염기 서열 해독이 가능하게 되었고, 질병군과 정상군의 염기서열 및 변이 비교 분석 방법을 통하여 질병 특이적 유전자 변이를 추출하는 것도 가능하게 되었다. 또한, 형질에 관련된 마커를 선별하고 뉴클레오티드 수준에 기존의 변이를 확인하며 표적 뉴클레오티드 교환에 의해 상기 마커의 불변 부위의 위치들에서 하나 또는 그 이상의 뉴클레오티드의 도입으로 선별가능한 마커를 도입하여 고유한 분자 마커들의 생성을 위한
방법을 활용하기도 하였다(KR 제 10-2011-0094268호 참조). 그러나 종래의 기술은 추출된 유전자 변이 정보로부터 특이도가 높아 신뢰할 수 있고 유용성이 있는 정보를 제공할 수 없다는 한계가 있었다.
본 발명은 상기와 같은 필요성을 고려하여 안출된 것으로, 목적시료로부터 얻은 염기서열 정보를 이용하여 유전자 서열 변이를 찾고 염기서열의 품질과 추출된 마커의 적합성을 평가하여 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법을 제공하는데 목적이 있다.
또한, 본 발명은 목적시료로부터 수득된 염기서열 정보에 대한 서열 입력부, 서열 품질 관리 (QC) 부, 서열 대조 연산부, 유전변이 추출부, 및 변이 서열 출력부를 포함하는 장치를 제공하는데 목적이 있다.
본 발명에서 “신뢰도 평가”란 선정된 마커의 확률적 유의성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 유전변이 발굴에 사용된 리드(Supporting reads)의 개수, 염기 서열의 개수 및 서열 품질 등 정보를 이용하여 유전변이 분석 결과를 평가하는 것을 말한다.
본 발명에서 “용이성 평가”란 실험적 마커 검출의 용이성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 반복서열의 존재여부 및 GC 염기 함량과 같은 서열조성특성, 그리고 해당 유전변이 주변에 추가 개인 변이 존재 여부를 분석하여 평가하는 것을 말한다.
본 발명에서 “유용성 평가”란 마커의 생물학적 형질에 대한 연관성에 기반한 유용성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 질환 위험도와 관련성, 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반으로 평가하는 것을 말한다.
본 발명의 일 구체예에서, 목적시료로부터 염기서열 정보를 수득하고, 수득된 염기정보가 분석가능한 염기서열인지를 품질을 확인하고, 상기 확인된 분석가능한 염기서열 정보와 참조 서열을 대조하며, 상기 서열 대조 결과로부터 개인 식별 마커를 추출하며, 상기 추출된 개인 식별 마커의 마커 적합성을 평가하며, 상기 마커 적합성이 확인된 서열을 출력하는 단계를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법을 제공한다. 상기 구체예에서, 마커의 적합성을 평가하는 단계는 신뢰도 평가, 용이성 평가 또는 유용성 평가를 수행하는 것을 특징으로 하는 방법을 제공하고, 품질을 확인하고 품질관리를 수행하는 단계는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법을 제공하며, 상기 대조하는 단계는 글로벌 정렬법(Global alignment) 및 로컬 정렬법(Local alignment)로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법을 제공하며, 상기 마커를 추출하는 단계는 단일염기다형성(SNP: single-nucleotide polymorphism) 또는 구조 변이(SV: structural variation)를 추출하는 것을 특징으로 하는 방법을 제공하며, 상기
마커 신뢰도를 평가하는 단계는 수득된 염기서열 리드의 개수 및 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 마커 용이성을 평가하는 단계는 반복서열의 존재여부 및 GC 함량을 고려하여 실험적 용이성을 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 마커 유용성을 평가하는 단계는 질환 위험도 및 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 확인된 서열을 출력하는 단계는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식 (fasta format) 등의 통용되는 표준서열 파일 형식으로 제시하는 것을 특징으로 하는 방법을 제공한다.
본 발명의 일 구체예에서, 목적시료로부터 수득된 염기서열 정보를 입력하는 입력부(110), 수득된 염기정보가 분석가능한 염기서열인지를 확인하는 품질 관리 연산부(120), 상기 확인된 분석가능한 염기서열 정보와 참조서열을 대조 연산하는 대조 연산부(130), 상기 서열 대조 결과로부터 개인 식별 마커를 추출하는 유전변이 추출부(140), 상기 추출된 개인 식별 마커의 마커 적합성을 확인 연산하는 적합성 연산부 (150) 및 상기 적합성 연산 결과를 출력하는 출력부(160)를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하기 위한 장치을 제공한다. 상기 구체예에서, 적합성 연산부(150)는 신뢰도 연산부, 용이성 연산부 및 유용성 연산부로 구성된 군으로부터 선택된 어느 하나 이상인 것을 특징으로 하는 장치를 제공하고, 품질 관리 연산부(120)는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 장치를 제공하며, 상기 대조 연산부(130)는 글로벌 정렬법(Global alignment) 및 로컬 정렬법(Local alignment)로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 장치를 제공하며, 상기 유전변이 추출부(140)는 단일염기다형성(single-nucleotide polymorphism) 또는 구조적 변이(structural variation)를 추출하는 것을 특징으로 하는 장치를 제공하며, 상기 적합성 연산부 (150)중 신뢰도 연산부는 수득된 염기서열 리드의 개수 및 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 용이성 연산부는 반복서열의 존재여부 및 GC 함량을 고려하여 실험적 용이성을 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 유용성 연산부는 질환 위험도 및 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 출력부(160)는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식 (fasta format) 등의 통용되는 표준서열 파일 형식으로 제시하는 것을 특징으로 하는 장치를 제공한다.
유전자 서열 분석 장치로부터 얻어진 염기서열 리드를 통해 발굴한 유전변이 정보는 불확실성을 내포하고 있어서 타 분석 장비를 이용한 검증 과정이 요구되는 경우가 많기 때문에 본 발명의 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치를 통하여 i) 개인 유전변이 발굴을 수행하고 ii) 발굴된 유전변이 마커를 신뢰도, 용이성 및 유용성 측면에서 평가하여 우선 순위를 제시하고 iii) 타 분석 장비를 이용한 검증 실험에 사용될 수 있도록 주변서열정보를 별도 프로그램을 사용하지 않고 동시에 획득할 수 있다. 특히 암세포 유전자의 경우 암세포 특이적 유전자변이 마커를 제공하여 피검체의 정상세포 유래 유전자와 구분되는 암세포로부터 유래한 유전자를 검출하는 데 유용한 도구로써 사용될 수 있다.
도 1은 본 발명의 일 구체예로서, 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법에 관한 일 구체예이다.
도 2는 서열 분석장치로부터 염기서열 리드를 읽고 각 리드별로 품질관리 과정을 수행하고, 공개된 참조 서열에 대해 매핑하는 일 구체예이다.
도 3은 공개된 참조 서열 또는 다른 염기서열 리드를 참조로 하여 개인 유전변이를 발굴 및 정보 제시하는 방법의 일 구체예이다.
도 4a 내지 도 4d는 표 1 및 표 2에 기재된 신뢰도 계산의 대상이 된 시뮬레이션을 통해 생성한 예제서열이고 도 4e 내지 도 4 h는 상기 서열 각각에 대한 계산결과를 나타낸 것이다.
도 5는 찾아진 유전변이 3개의 유용성 점수를 유전자 마커의 생물학적 형질에 대한 연관성에 기반하여 산정한 일 구체예이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1은 본 발명의 일 구체예로, 서열 분석 장치로부터 얻은 염기서열 자료로부터 개인 유전변이를 발굴하고 개별 유전변이 검증을 위한 실험에 적합한 형태의 서열을 제시하는 방법에 관한 개괄도로써, 서열 분석장치로부터 염기서열 리드를 읽고 각 리드별로 품질관리 과정을 수행하고, 공개된 참조 서열과 상기 수득한 염기서열을 배열시켜 매핑하며, 공개된 참조 서열 또는 다른 대조 염기서열과 비교하여 개인 유전변이를 발굴하고 이에 관한 정보를 제공한다. 이때, 개별 유전변이 중 개인 식별 마커로서 유용성 높은 마커를 선정하기 위하여 신뢰도 평가, 용이성 평가 및 유용성 평가를 수행한다. 또한, 평가 수행 결과 추출된 유전 정보는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식 (fasta format) 등의 통용되는 표준서열 파일 형식으로 제시한다.
본 발명의 다른 구체예 (도면 2) 에서, 서열 분석 장치로부터 얻은 염기서열 자료로부터 리드(read) 자료를 수득하고, 이 유전자 서열 리드 자료를 읽어 시스템에 저장한다. 각 위치별로 품질 점수를 기준으로 트리밍(trimming), N 마스킹, 저품질 리드 필터를 수행하여 품질관리 처리하고, 처리된 서열에 대하여 참조서열과 글로벌 정렬법 및 로컬 정렬법을 병행하고, BWA, BWASW, Bowtie2 등의 프로그램을 사용하여 배열을 수행하여 SAM 또는 BAM 형식의 출력 파일을 작성한다.
본 발명의 다른 구체예 (도면 3) 에서, 위 품질관리 과정을 거친 리드 파일을 이용하여 SNP 및 SV와 같은 변이 마커 발굴과정을 제시하였다. SNP 및 작은 인델(short INDEL) 변이 발굴은 GATK UnifiedGenotyper과 SAMtools mpileup 등을 사용하여 분석하고, 발굴 마커의 정확도를 향상시키기 위해 재보정(recalibration)과 재배열(realignment) 과정을 추가할 수 있다. SV 발굴은 상호 염색체 재배열(Inter/intrachromosomal rearrangement), 큰 인델(large INDEL), 역위(inversion), 긴 범위 반복 서열 변이(long range repeat sequence variation)와 같은 큰 구조 변이(large structural variation)를 발굴하기 위해 브레이크댄서(BreakDancer) 및 핀델(Pindel) 등의 프로그램을 사용할 수 있다.
본 발명의 일 구체예에서, 마커 평가는 i)신뢰도 평가, ii) 용이성 평가 및 iii)유용성 평가로 구분된다. 신뢰도 평가는 유전변이 발굴에 사용된 리드(Supporting reads)의 개수 및 서열 품질 등 정보를 이용하여 유전변이 결과를 평가하는 것이다. 용이성 평가는 반복서열의 존재여부 및 GC 함량과 같은 서열조성특성, 및 해당 유전변이 주변에 개인 변이 존재 여부를 분석하여 실험의 용이성을 평가하는 것을 말한다. 유용성 평가는 질환 위험도와 관련성, 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반한 평가를 말한다.
본 발명의 일 구체예서, ”신뢰도 평가”는 유전변이의 신뢰도를 평가하는 척도로서 유전변이 발굴에 사용된 지지 리드(supporting reads), 비정형 리드쌍 (discordant read pair)과 절단 리드 (clipped read)등의 개수 및 서열품질에 기반하여 점수화하고, 각 변이 끝단(Break point)에 대해 평가하는 것을 말하며, 하기와 같은 수식으로 산정한다:
Figure 112014006281466-pat00001
,
여기서,
f()는 연결함수(link function)이고;
wi() 는 가중치 함수이며;
Rij는 각 종류별 지지 리드의 맵핑 품질 및 개별 서열 품질을 고려한 점수이다.
본 발명의 일 구체예에서, SNP의 신뢰도는 매핑 품질(Qi M)과 염기 품질(Qi B)의 기하평균(Qi), 품질 기반의 변이비율(Ms), 변이를 포함하는 리드(지지 리드)의 품질(As), 해당위치의 깊이(depth)와 전체 평균 깊이비(Ds)의 곱으로 정의한다. 찾아진 SNP 위치에 전체 n개의 지지 리드가 있고(i=1,…,n), m-n개의 참조서열 염기를 가진 리드를 가정하였다. 이때 Qi B와 Qi M은 i번째 리드의 염기 품질과 매핑 품질을 나타내며 다음과 같이 계산될 수 있다.
Figure 112014006281466-pat00002
여기서,
Figure 112014006281466-pat00003
Figure 112014006281466-pat00004
는 각각 만족해야하는 최소 염기 품질과 매핑 품질값이며, 와 는 각각 해당샘플의 전체 서열 평균 염기 및 매핑 품질값을 나타낸다. CB와 CM은 스케일 상수로서 아래 예에서는
Figure 112014006281466-pat00005
를 사용하였다. Qi, 즉 i번째 리드의 품질값은 다음과 같이 리드의 염기 품질과 매핑 품질의 곱으로 정의하며,
Figure 112014006281466-pat00006
품질 기반의 변이비율(Ms), 지지 리드의 품질(As), 해당 위치의 깊이비(Ds)는 각각 다음과 같이 정의한다.
Figure 112014006281466-pat00007
(d는 해당 샘플의 전체 서열 평균 깊이임)
해당 SNP의 신뢰도는 아래와 같다.
표 1.
Figure 112014006281466-pat00008
본 발명의 일 구체예에서, 구조변이(SV)의 신뢰도(QSV)는 매핑 품질(Qi M) 와 염기 품질 (Qi B)의 곱으로 정의된다.
Figure 112014006281466-pat00009
상기 구조변이 신뢰도 계산을 위해, 찾아진 구조변이 영역(즉 절단면을 중심으로 짝지은-말단 리드(paired-end read)의 경우에는 삽입체 크기(insert size)에 해당하는 영역, 단일-말단 리드의 경우에는 리드 길이의 2배에 해당하는 영역)에 전체 n개의 지지 리드(비정형 리드 및 절단 리드)가 있고, m-n개의 참조서열을 갖는 리드를 가정하였다. 또한, Qi M은 지지 리드를 제외한 나머지 리드들의 평균으로, Qi B 지지 리드의 매핑 품질값으로 다음과 같이 정의하였다.
Figure 112014006281466-pat00010
,
l은 리드 길이이며,
Figure 112014006281466-pat00011
Figure 112014006281466-pat00012
은 참조서열과 잘 매핑된 서열의 평균 매핑 품질값으로 다음과 같이 정의되고,
Figure 112014006281466-pat00013
CB와 CM은 스케일 상수로서 아래 예에서는
Figure 112014006281466-pat00014
를 사용하였다.
표 2
Figure 112014006281466-pat00015
본 발명의 일 구체예에서, “용이성 평가”는 PCR 또는 표적 서열 분석과 같은 방법으로 발굴한 마커의 검증 용이성을 제시하는 척도로 하기와 같은 식으로 산정한다:
Figure 112014006281466-pat00016
여기서,
Ai는 항목별 용이도이고,
wi는 각 용이도의 가중치이다.
항목별 용이도를 산출하기 위하여, 영역 다형성(Regional polymorphisms)은, 이에 한정하지는 않지만, 예를 들어, SNP와 작은 인델을 들 수 있다. 목적하는 마커와 주변서열에 참조 서열과 다른 치환기나 작은 인델이 있을 경우 이에 대한 용이도를 도입한다. 예를 들어, 하기와 같이 산정된다:
Arp={호모 SNP의 경우 1; 호모 인델의 경우 0; 및 헤테로 SNP의 경우 -1; 및 헤테로 인델의 경우 -9}
또한, 서열복잡성(sequence complexity)은 자가 재구성(self assembly)이나 고유성(uniqueness)을 평가하기 위해 도입하는 것으로, 예를 들어, 하기와 같이 산정된다:
Figure 112014006281466-pat00017
여기서,
단어 길이는 l이고,
f(s)는 서열상 빈도에 관한 함수이고,
C는 상수이다.
또한 “GC 함량”은 PCR 등의 프라이머로 쓰기 위해서는 적합한 융점(melting point)를 제공할 수 있어야 하기 때문에, 함수 도입이 필요한데, 예를 들어 하기와 같이 산정된다:
Figure 112014006281466-pat00018
여기서,
Cn 은 계수이고,
p(XY)에서 XY 는 함량이다.
본 발명의 일 구체예에서, 찾아진 전좌(translocation) 유전변이 절단면의 업스트림(upstream) 및 다운스트림(downstream) 주변서열이 하기와 같을 경우, 용이성은 다음과 같이 계산될 수 있다.
- BP_upstream:
GACGCCCCAGGCCGCGGTGGAGTTGCGCGCGGCTTC [A] AAAGTGGAGTGGAGCAGGCCTGC
- BP_downstream:
AGCACAGGCAGGCACCAGCTGGGCAGTGT [A/T] AGGATGCTGGAGCAGCATCCGT [-] ACCCCAC
즉, 상기 업스트림 주변서열의 경우 호모 SNP를 하나 가지므로 Arp에는 감점이 없다. 한편, 다운스트림의 경우 헤테로 SNP와 호모 인델이 있으므로 1점을 감점한다. Asp의 경우, 예를 들어 참고논문 (Computers & Chemistry 23(3-4):263-201)에 나와있는 방식과 같은 방법으로 계산할 수 있고, 그것이 가질 수 있는 의미는 primer 제작 가능 개수 등일 수 있으나, 이에 제한되는 것은 아니다. Aqc는 예를 들어 Shannon 엔트로피를 이용하여 GC 함량에 대한 적절한 가중치(0.5일 때 가장 큰 값을 줌)를 계산하는 것이다. 이들에 대한 총합으로 용이성을 평가하며, 예를 들어 고려한 인자들에 대한 가중치를 모두 1/3으로 같게 한다면 그 결과는 하기 표 3과 같다.
표 3
Figure 112014006281466-pat00019
본 발명의 일 구체예에서, 찾아진 결실 유전변이 절단면의 측면 서열(flanking sequence)이 하기와 같을 경우,
- BP_upstream:
GGGCGCGGGCGCGCGGGGCGGCGGTGAGGGCGGCTGGCGGGGCCGGGGGCGCCGGGGGGG
- BP_downstream:
CCACTGGGGAGAGGCTGTTCTGACTCTGCAGGTGGGACAGGGACAGATGGCCACCAGGGT
상기 용이성 계산 방식을 적용한 결과는 하기 표 4와 같다.
표 4
Figure 112014006281466-pat00020
용이성 점수 A가 표 3에 비해 표 4가 작으므로 용이성이 떨어지는 것으로 판단할 수 있다.
본 발명의 일 구체예에서, “유용성 평가”는, 이에 한정하지는 않지만, 질환 위험도, 관련성 및 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반하여 평가하는데, 예를 들어 하기 식을 산정한다:
Figure 112014006281466-pat00021
여기서,
U i 는 항목별 유용성이고,
w i 는 각 유용성의 가중치이다.
각각의 유용성은 영역별 기능 (Function of the region)은 유전자 마커에 해당하는 영역의 기능군에 대하여 사용자의 목적에 적합한지 비교하여 유용성을 계산한다. 예를 들어 코딩 영역, 조절 영역, 유전자간 영역 (intergenic region), 중 사용자가 목적하는 영역에 해당하면 각각 c1, c2, c3 (U f =c1>c2>c3 ) 를 부여한다. 이때, 표적 항암제 관련성은 유전자 마커가 표적 항암제와 연관성이 있을 경우, 약물 반응성을 평가하여 유용성을 계산한다. 표적 항암제와 연관이 있는 유전자 마커는 치료 방법 결정시 사용될 수 있다. 예를 들어 하기와 같이 산정한다:
Um= f(표적 항암제 관련 변이 포함영역 여부, 1 or 0)
또한, 질환 위험도는 유전자 마커가 질환과 연관성이 있을 경우, 질환 발병 위험도를 평가하여 유용성을 계산하는데, 예를 들어 하기와 같은 식으로 산정한다:
Ui=f(질환위험인자 포함영역 여부,1 또는 0)
본 발명의 일 구체예(도 4)에서, 찾아진 유전변이 3개에 대한 유용성 점수는 하기와 같이 계산될 수 있다. 도 4의 유전변이 2의 경우 인트론에 위치하므로 영역별 기능 평가부에서 0.5점을 부여하였고, 유방암과 난소암의 관련성이 보고되어 있으므로 질환 연관성 점수 1점을 추가하였으며, 변이가 표적 항암제 herceptin 표적 영역에 위치하므로 표적 항암제 연관성 평가부에서 1점을 추가하여 상기 유용성 계산식에 따른 유용성 점수 U가 2.5점이었다. 따라서, 3개의 유전변이 중 유전변이 2가 유용성이 가장 높다고 판단할 수 있다.
본 발명의 일 구체예에서, “N 마스킹”은 지나치게 낮은 품질로 읽혀진 서열의 개별 뉴클레오타이드 에 대해 결측치로 처리하는 것을 말하고, “저품질 리드 필더”는 지나치게 낮은 품질로 읽혀진 서열(리드)에 대해 분석에서 제외하도록 처리하는 것을 말한다.
본 발명의 일 구체예에서, “글로벌 정렬법(Global alignment)”은 리드 전체서열을 참고 서열 중 가장 유사한 부분에 위치시키는 방법을 말하고, “로컬 정렬법(Local alignment)”은 리드서열 중 일부를 참고 서열 중 가장 유사한 부분에 위치시키는 방법을 말한다.
본 발명의 일 구체예에서, 유전변이 부근에 위치한 리드들을 이용하여 샘플의 유전변이 및 주변서열을 재구성(assembly)하고 완성된 유전변이 서열에 대한 출력 파일을 작성한다

Claims (18)

  1. a) 목적시료로부터 염기서열 정보를 수득하는 단계;
    b) 목적시료로부터 수득된 염기서열의 품질관리(QC: Quality Control)를 수행하는 단계;
    c) 상기 품질관리를 수행한 염기서열 정보와 참조서열을 대조하는 단계;
    d) 상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하는 단계;
    e) 상기 추출된 개인 식별 유전변이 마커의 적합성을 평가하는 단계; 및
    f) 상기 마커 적합성이 확인된 서열을 출력하는 단계를 포함하고,
    상기 개인 식별 유전변이 마커는 단일염기다형성(single-nucleotide polymorphism)이며,
    상기 마커의 적합성을 평가하는 단계는 신뢰도 평가, 용이성 평가 및 유용성 평가를 모두 수행하고,
    상기 신뢰도 평가는 매핑 품질과 염기 품질의 기하평균, 품질 기반의 변이비율, 변이를 포함하는 리드의 품질, 해당위치의 깊이 및 전체 평균 깊이비를 기반으로 평가하는,
    유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법.
  2. 삭제
  3. 제 1항에 있어서,
    품질관리 수행단계는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법.
  4. 제 1항에 있어서,
    대조하는 단계는 글로벌 정렬법(Global alignment) 또는 로컬 정렬법 (Local alignment)로 수행하는 것을 특징으로 하는 방법.
  5. 삭제
  6. 삭제
  7. 제 1항에 있어서,
    용이성 평가 단계는 반복서열의 존재여부, GC 함량 또는 주변 개인 식별 유전변이 마커 발견 빈도를 분석하여 실험의 용이성을 평가하는 것을 특징으로 하는 방법.
  8. 제 1항에 있어서,
    유용성 평가 단계는 목적하는 질환 위험도 또는 목적하는 질환 연관성을 생물학적 유용성을 평가하는 것을 특징으로 하는 방법.
  9. 제 1항에 있어서,
    확인된 서열을 출력하는 단계는 유전변이의 염기서열을 포함한 주변 서열을 포함한 파스타 형식(fasta format)으로 제시하는 것을 특징으로 하는 방법.
  10. A) 목적시료로부터 수득된 염기서열 정보를 입력하는 입력부;
    B) 수득된 염기서열의 품질관리 연산부;
    C) 상기 품질관리를 수행한 염기서열 정보와 참조서열을 대조 연산하는 대조 연산부;
    D) 상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하는 유전변이 추출부;
    E) 상기 추출된 개인 식별 유전변이 마커의 적합성을 연산하는 적합성 연산부; 및
    F) 상기 적합성 연산 결과를 출력하는 변이서열 출력부를 포함하고,
    상기 개인 식별 유전변이 마커는 단일염기다형성(single-nucleotide polymorphism)이며,
    상기 적합성 연산부는 신뢰도 연산부, 용이성 연산부 및 유용성 연산부로 구성되며,
    상기 신뢰도 연산부는 품질매핑 품질과 염기 품질의 기하평균, 품질 기반의 변이비율, 변이를 포함하는 리드의 품질, 해당위치의 깊이 및 전체 평균 깊이비를 기반으로 신뢰성을 평가하는,
    유전자 서열 기반 개인 마커에 관한 정보를 제공하기 위한 장치.
  11. 삭제
  12. 제 10항에 있어서,
    품질관리 연산부는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 장치.
  13. 제 10항에 있어서,
    대조 연산부는 글로벌 정렬법(Global alignment) 또는 로컬 정렬법(Local alignment)을 수행하는 것을 특징으로 하는 장치.
  14. 삭제
  15. 삭제
  16. 제 10항에 있어서,
    용이성 연산부는 반복서열의 존재여부, GC 함량 또는 주변 개인 식별 유전변이 마커 발견 빈도를 분석하여 실험적 용이성을 평가하는 것을 특징으로 하는 장치.
  17. 제 10항에 있어서,
    유용성 연산부는 목적하는 질환 위험도 또는 목적하는 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 장치.
  18. 제 10항에 있어서,
    변이서열 출력부는 유전변이의 염기서열을 포함한 주변 서열을 포함한 파스타 형식(fasta format) 으로 제시하는 것을 특징으로 하는 장치.
KR1020140007344A 2013-02-01 2014-01-21 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 KR101770962B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/KR2014/000823 WO2014119914A1 (ko) 2013-02-01 2014-01-28 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN201480006935.9A CN104968806B (zh) 2013-02-01 2014-01-28 提供与基于基因序列的个人标记有关的信息的方法和装置
US14/817,067 US20160078169A1 (en) 2013-02-01 2015-08-03 Method of and apparatus for providing information on a genomic sequence based personal marker

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130011803 2013-02-01
KR20130011803 2013-02-01

Publications (2)

Publication Number Publication Date
KR20140099189A KR20140099189A (ko) 2014-08-11
KR101770962B1 true KR101770962B1 (ko) 2017-08-24

Family

ID=51745680

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140007344A KR101770962B1 (ko) 2013-02-01 2014-01-21 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치

Country Status (3)

Country Link
US (1) US20160078169A1 (ko)
KR (1) KR101770962B1 (ko)
CN (1) CN104968806B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
KR101882867B1 (ko) * 2016-05-04 2018-07-27 삼성전자주식회사 변이 검출 표지의 신뢰도 결정 방법 및 장치
JP7067896B2 (ja) * 2017-10-27 2022-05-16 シスメックス株式会社 品質評価方法、品質評価装置、プログラム、および記録媒体
JP7320345B2 (ja) * 2017-10-27 2023-08-03 シスメックス株式会社 遺伝子解析方法、遺伝子解析装置、遺伝子解析システム、プログラム、および記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060008803A1 (en) 2002-06-14 2006-01-12 Andreas Brunner Identification of tissue/cell specific marker genes and use thereof
WO2012034251A2 (zh) * 2010-09-14 2012-03-22 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA200903761B (en) * 2006-11-30 2010-08-25 Navigenics Inc Genetic analysis systems and methods
AU2009269542A1 (en) * 2008-07-07 2010-01-14 Decode Genetics Ehf Genetic variants for breast cancer risk assessment
KR101003175B1 (ko) * 2008-12-09 2010-12-22 이화여자대학교 산학협력단 상호 연관 지도 작성법을 이용한 다목적 활용 가능 유전자 판별법
CN101914628B (zh) * 2010-09-02 2013-01-09 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060008803A1 (en) 2002-06-14 2006-01-12 Andreas Brunner Identification of tissue/cell specific marker genes and use thereof
WO2012034251A2 (zh) * 2010-09-14 2012-03-22 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统

Also Published As

Publication number Publication date
CN104968806B (zh) 2018-04-03
CN104968806A (zh) 2015-10-07
US20160078169A1 (en) 2016-03-17
KR20140099189A (ko) 2014-08-11

Similar Documents

Publication Publication Date Title
Favero et al. Sequenza: allele-specific copy number and mutation profiles from tumor sequencing data
Roth et al. PyClone: statistical inference of clonal population structure in cancer
Kan et al. Gene structure prediction and alternative splicing analysis using genomically aligned ESTs
US11043283B1 (en) Systems and methods for automating RNA expression calls in a cancer prediction pipeline
Krawitz et al. Microindel detection in short-read sequence data
CN109767810B (zh) 高通量测序数据分析方法及装置
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
CN116042833A (zh) 比对和变体测序分析管线
Booker et al. The recombination landscape in wild house mice inferred using population genomic data
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Oliva et al. Systematic benchmark of ancient DNA read mapping
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
Demidov et al. ClinCNV: novel method for allele-specific somatic copy-number alterations detection
Wood et al. Recommendations for accurate resolution of gene and isoform allele-specific expression in RNA-Seq data
Kuo et al. Illuminating the dark side of the human transcriptome with TAMA Iso-Seq analysis
Staadig et al. An overall limited effect on the weight-of-evidence when taking STR DNA sequence polymorphism into account in kinship analysis
KR101839088B1 (ko) 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법
CN105528532A (zh) 一种rna编辑位点的特征分析方法
CN110706747A (zh) 检测肿瘤新生抗原多肽的方法和装置
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
JPWO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
Arbabi et al. Cell-free DNA fragment-size distribution analysis for non-invasive prenatal CNV prediction
CN113862371A (zh) 一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant