KR101325736B1 - 바이오 마커 추출 장치 및 방법 - Google Patents
바이오 마커 추출 장치 및 방법 Download PDFInfo
- Publication number
- KR101325736B1 KR101325736B1 KR1020100105504A KR20100105504A KR101325736B1 KR 101325736 B1 KR101325736 B1 KR 101325736B1 KR 1020100105504 A KR1020100105504 A KR 1020100105504A KR 20100105504 A KR20100105504 A KR 20100105504A KR 101325736 B1 KR101325736 B1 KR 101325736B1
- Authority
- KR
- South Korea
- Prior art keywords
- gene
- hazard
- variation
- score
- importance
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 생물 정보학(Bioinformatics) 기술에 관한 것으로, 보다 상세하게는, 서열 상에 나타나는 변이가 유전자 기능에 미치는 유해도 분석을 바탕으로 보다 신뢰성 높은 바이오 마커를 추출하는 장치 및 방법에 관한 것이다. 서열상에 나타난 변이가 유전자 기능에 어떠한 변화를 주는가를 분석하여 특정 질병의 원인이 되는 바이오 마커를 추출하는 바이오 마커 추출 장치는, 유전자 샘플의 서열을 분석하여 유전자에 맵핑된 변이 데이터를 추출하는 전처리부와, 상기 변이 데이터로 인하여 상기 유전자의 기능에 발생되는 장애를 정량화한 유해도 스코어를 구하는 유해도 예측기와, 상기 유해도 스코어가 소정의 임계값 이상이 되는 유전자들이 집합된 서브 모듈을 유전자 네트워크 상에서 탐색하는 모듈화부를 포함하여 구성될 수 있다.
Description
본 발명은 생물 정보학(Bioinformatics) 기술에 관한 것으로, 보다 상세하게는, 서열 상에 나타나는 변이가 유전자 기능에 미치는 유해도 분석을 바탕으로 보다 신뢰성 높은 바이오 마커를 추출하는 장치 및 방법에 관한 것이다.
인간 유전체 프로젝트가 완료된 후 인간의 DNA 염기서열이 해독되고 이로부터 인간 유전자의 다양한 기능들이 밝혀지고 있다. 특히, 다양한 유전자 변이들이 발견되어 이것들이 인간의 형질의 차이를 일으킬 뿐만 아니라, 특정 질병의 원인으로 작용될 수 있음이 밝혀짐에 따라 인간 유전체 분석 연구는 점점 더 가속화 되어가고 있다. 하지만, 인간 유전체에서 발생할 수 있는 방대한 유전적 변이 중 어떠한 변이가 실질적으로 병인이 될 수 있는 것인가를 밝혀내는 데에는 어려움이 있을 수 밖에 없다.
최근에는 차세대 시퀀싱 기술(NGS, Next Generation Sequencing)이 이러한 어려움을 해소하는 하나의 대안으로서 연구되고 있다. 이 기술에 따라 개별 인간의 전체 유전체의 염기 서열화가 가능하게 되었고, 질병군과 정상군의 염기서열 및 변이 비교 분석 방법을 통하여 질병 특이적 유전자 변이를 추출하는 것도 가능하게 되었다.
한편, 이와는 달리, 염기서열 시퀀싱이 아닌 SNP(single nucleotide polymorphism) 칩을 통하여 개체군(population) 통계 분석에 의거한 GWAS(Genome Wide Association Study) 분석 기술도 연구되고 있다. 이 기술에 따르면, 수천 내지 수만 명에게서 얻어지는 SNP 데이터 분석을 통하여 특정 질병 군에서 빈번하게 발생되는 유의미한 유전적 변이들을 추출할 수 있다.
그러나, 다양한 분석 기술에 의하여 유전적 변이를 추출하였다 하더라도, 이러한 유전적 변이를 포함하는 유전자의 실제 발현 및 기능상의 장애 여부를 확인하기 위해서는 추가적인 실험이 요구되며, 이는 시간 및 비용에 있어서 상당한 손실로 이어진다. 더구나, 개별 유전자 변이 정보만을 통해서는 특정 질병 군을 일으키는 다양한 병인에 대하여 충분한 설명을 제공하지 못한다.
이를 극복하기 위하여 생물학적 요소의 상호작용을 분석하고 이에 기반하여 생물 시스템을 해독하고자 하는 소위 시스템 생물학으로 불리는 기술도 아울러 연구되고 있다. 즉, 유전자로부터 발현되는 생물학적 기능은 다른 유전자로부터 발현되는 기능과 합쳐져 생명을 유지하기 위하여 작동하며, 끊임없는 외부 환경의 변화에도 나름대로의 항상성을 유지하면서 살아갈 수 있다는 것이다. 이러한 기술은 생물학적 요소들의 네트워크 분석을 통해, 각각의 변이를 가지는 유전자의 기능적 위치 및 상호작용 분석을 수행하며, 유전적 변이가 주변 요소들에 어떠한 영향을 주고 이러한 영향이 어떻게 전파되는 지를 파악할 수 있게 해 준다. 또한, 유전적 변이가 기존에 알려진 유전자 상호작용, 유전자 조절 회로, 단백질 상호작용, 대사, 신호전달 회로들과 어떠한 연관성을 갖는지를 설명할 수 있는 기초를 제공한다.
정상적인 세포 활동을 위해서 필요한 세포 내의 다양한 프로세스들은 기능 모듈이란 더 작고 특수한 단백질 혹은 유전자의 집단으로 작동하고 있다. 개별 유전자에서 개별 nsSNP(non-synonymous Single Nucleotide Polymorphism)로 인해서 발생하는 단백질 기능의 유해도를 예측하는 일련의 방법들로서, SIFT(Sorting Tolerant From Intolerant), PolyPhen, MAPP(Map Annotator and Pathway Profiler) 등이 제시되고 있으나, 이러한 방법들 만으로는 복잡도가 높은 질병에 대한 병인이나 질병 마커(marker)를 찾아내는데 한계가 있다.
또한 일반적으로 SNP 중에서 단백질 기능에 유해도를 주는 SNP의 비율은 아주 낮다. 따라서, GSEA(Gene set enrichment analysis)와 SNP를 이용한 분석 방법의 경우 단백질 기능에 유해도를 미칠 수 있는 SNP 에 대한 구분이 없이 SNP로 예측된 모든 데이터를 이용하기 때문에, 실제로 특정 질환과 크게 상관없는 생물학적 패스웨이(pathway)나 유전자 세트들이 통계적으로 유의미하다고 오판될 가능성이 높다. 따라서, 질병 특이적 유전자 변이를 생체 분자 네트워크 기반으로 분석하고, 발견된 생체 분자 네트워크에 소속된 유전자들의 발현 패턴을 분석하여 특정 질병에 관계된 바이오 마커를 보다 정확하게 찾아낼 수 있는 기법의 개발이 필요하다
본 발명은 상기와 같은 필요성을 고려하여 안출된 것으로, 종래에 유전체 변이 혹은 유전자 발현 패턴의 각각의 한 부분만 이용하여 상호작용 모듈화 및 분석을 진행하였던 한계를 탈피하여, 서열 상에 나타나는 변이가 유전자 기능에 미치는 유해도 분석을 바탕으로 보다 신뢰성 높은 바이오 마커를 검출하는 것을 목적으로 한다.
특히, 본 발명은 상기 바이오 마커의 검출에 있어서 중요한 영향을 미치는 유해도를 다각적인 방법으로 정량화한 유해도 예측 기법을 개발하는 것을 다른 목적으로 한다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른, 서열상에 나타난 변이가 유전자 기능에 어떠한 변화를 주는가를 분석하여 특정 질병의 원인이 되는 바이오 마커를 추출하는 바이오 마커 추출 장치로서, 유전자 샘플의 서열을 분석하여 유전자에 맵핑된 변이 데이터를 추출하는 전처리부; 상기 변이 데이터로 인하여 상기 유전자의 기능에 발생되는 장애를 정량화한 유해도 스코어를 구하는 유해도 예측기; 및 상기 유해도 스코어가 소정의 임계값 이상이 되는 유전자들이 집합된 서브 모듈을 유전자 네트워크 상에서 탐색하는 모듈화부를 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른, 서열상에 나타난 변이 데이터가 유전자의 기능에 영향을 미치는 장애를 정량화하기 위한 유해도 예측 장치로서, 상기 변이 데이터를 복수의 유해도 예측 모델에 적용하여 각각의 유해도를 얻은 후 상기 각각의 유해도에 가중치를 적용함으로써 가중 유해도를 산출하는 유해도 산출부; 상기 변이 데이터의 빈도를 기초로 하여 해당 유전자 변이의 중요도를 산출하는 중요도 산출부; 및 상기 가중 유해도 및 상기 중요도를 조합하여 유해도 스코어를 계산하는 스코어 계산부를 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른, 서열상에 나타난 변이가 유전자 기능에 어떠한 변화를 주는가를 분석하여 특정 질병의 원인이 되는 바이오 마커를 추출하는 방법으로서, 유전자에 포함된 변이 데이터로 인하여 상기 유전자의 기능에 발생되는 장애를 정량화한 유해도 스코어를 구하는 단계; 상기 유해도 스코어가 소정의 임계값 이상이 되는 유전자들이 집합된 서브 모듈들을 유전자 네트워크 상에서 탐색하는 단계; 및 상기 탐색된 복수의 서브 모듈들 간의 우선 순위를 결정하는 우선 순위 결정부를 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른, 서열상에 나타난 변이 데이터가 유전자의 기능에 영향을 미치는 장애를 정량화하기 위한 유해도 예측 방법으로서, 상기 변이 데이터로부터 다양한 요소를 포함하는 특징 벡터들을 생성하는 단계; 상기 생성된 특징 벡터 중에서 각각의 예측 모델에서 필요한 요소들을 선별하는 단계; 상기 선별된 요소들을 입력받아 단백질 서열 내에서 개별적인 스코어를 제공하는 단계; 및 상기 예측 모델의 출력에 가중치를 적용하고 합산하여 가중 유해도를 얻는 단계를 포함한다.
상기와 같은 본 발명에 따르면, 질병군과 정상군을 비교하여 얻어진 질병 특이적 서열의 변이가 해당 유전자의 기능에 어떠한 변화나 장애를 일으키는지를 예측할 수 있으며, 이러한 발현 패턴 분석과 네트워크 분석을 병행함으로써 개별 유전자 장애가 전체 생물 시스템에서의 상호작용에 어떠한 영향을 미치는지에 대한 정보를 제공함으로써 질병 메커니즘에 기반한 바이오 마커를 발굴할 수 있는 효과가 있다.
이러한 바이오 마커는 특정 질병의 진단, 특정 질병을 치료하는 약물 개발, 부작용 예방에 광범위하게 이용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 바이오 마커 추출 장치를 도시한 블록도이다.
도 2는 도 1의 전처리부의 세부 구성을 도시한 블록도이다.
도 3은 도 1의 유해도 예측기의 세부 구성을 도시한 블록도이다.
도 4는 도 3의 유해도 산출부의 세부 구성을 도시한 블록도이다.
도 5는 유해도 산출부에서 사용되는 매핑 함수의 일 예를 보여주는 도면이다.
도 6은 모듈화부에서 수행되는 서브 모듈 탐색의 구체적인 과정을 보여주는 흐름도이다.
도 7은 유전자 서브 모듈과 특정 유전자 집합 내에 공통적으로 존재하는 유전자 개수로부터 유의성을 검증하는 개념을 보여주는 도면이다.
도 2는 도 1의 전처리부의 세부 구성을 도시한 블록도이다.
도 3은 도 1의 유해도 예측기의 세부 구성을 도시한 블록도이다.
도 4는 도 3의 유해도 산출부의 세부 구성을 도시한 블록도이다.
도 5는 유해도 산출부에서 사용되는 매핑 함수의 일 예를 보여주는 도면이다.
도 6은 모듈화부에서 수행되는 서브 모듈 탐색의 구체적인 과정을 보여주는 흐름도이다.
도 7은 유전자 서브 모듈과 특정 유전자 집합 내에 공통적으로 존재하는 유전자 개수로부터 유의성을 검증하는 개념을 보여주는 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1은 본 발명의 일 실시예에 따른 바이오 마커 추출 장치(100)를 도시한 블록도이다. 바이오 마커 추출 장치(100)은 전처리부(110), 유해도 예측기(120), 네트워크 병합부(130), 모듈화부(140), 우선 순위 결정부(150), 검증부(160)를 포함하여 구성될 수 있다. 여기서, 네트워크 병합부(130), 검증부(160)는 실시예에 따라서는 생략될 수도 있는 구성요소이다. 또한, 상호작용 데이터베이스(135)는 네트워크 병합부(130)와 연동하며, 패스웨이(pathway) 데이터베이스(165)는 검증부(160)와 연동한다. 이러한 도 1(후술하는 도 2 내지 도 4도 마찬가지임)에 도시된 기능 블록들은 하드웨어 시스템에서 동작할 수 있는데, 상기 하드웨어 시스템은 개인용 컴퓨터(휴대용 또는 고정된 장치임을 불문함) 또는 통신 네트워크로 연결되는 서버-클라이언트 장치이다. 예를 들어, 상기 기능 블록들은 소프트웨어 모듈로 구현되어, 프로세서와 메모리를 갖춘 하드웨어 시스템에서 동작할 수 있다. 상기 메모리는 상기 기능 블록에 관한 모듈들을 로딩하여 상기 프로세서에 제공하고, 상기 프로세서는 상기 로딩된 모듈들을 처리하는 방식으로 바이오 마커 추출 장치(100)가 실시될 수 있다.
전처리부(110)는 유전자 샘플로부터 유전자에 맵핑된 변이 데이터(variation)를 추출한다. 구체적으로, 전처리부(110)는 도 2에 도시된 바와 같이, 질병군 비교부(112), 변이 추출부(114), 변이 데이터베이스(115) 및 변이 매핑부(116)를 포함하여 구성될 수 있다.
구체적으로, 질병군 비교부(112)는 질병군의 변이들과 정상군의 변이들을 추출하고 양자 간의 상호 비교를 통하여 질병군에 존재하는 변이를 획득한다. 변이 추출부(114)는 상기 획득된 질병군 변이들을 기존에 알려진 변이 데이터베이스(115)를 참조하여 새로운 변이만을 추출한다. 또한, 변이 매핑부(116)는 상기 추출된 새로운 변이 중에서 단백질로 발현시 아미노산이 달라지는 종류, 즉 non-synonymous 종류 만을 추출하고 이를 기능적 유전자에 매핑한다.
시퀀싱 데이터로부터 유전자형이 분석된 유전자 변이 데이터는 GFF3 또는 GVF 등의 파일 형태로 저장되는데, 현재는 GFF3 (Genetic Feature Format) 가 가장 널리 사용되고 있다. 표 1은 유전자 변이를 데이터를 GFF3 파일 형태로 정리한 예를 보여준다.
Chr | Source | Type | Start | End | Score | Strand | Phase | Attributes |
Chr1 | diBayes | SNP | 10492 | 10492 | 0.006 | . | . | genotype=Y;reference=C;... |
Chr1 | diBayes | SNP | 28563 | 28563 | 0.000 | . | . | genotype=G;reference=A;... |
Chr1 | diBayes | SNP | 118617 | 118617 | 0.000 | . | . | genotype=Y;reference=T;... |
유전자 변이 데이터는 유전자 변이의 염색체 번호(Chr), 해당 염색체 상에서의 변이 시작 위치(Start), 해당 염색체 상에서의 변이 끝 위치(End) 정보와 함께, 사용한 표준 유전체에서의 해당 위치의 유전자 형(reference) 및 시퀀싱 대상의 유전자 형(genotype) 및 다른 부가 정보를 속성(attributes)에 포함하고 있다. 상기 유전자 형 정보가 이형접합체빈도(heterozygocity)를 갖는 경우 심볼 Y를 활용하여 2개의 염기서열을 동시에 표시한다.
특정 질병 군에서 얻은 유전자 변이 데이터에서 정상 군에서 얻은 유전자 변이 데이터 및 기존에 알려진 유전자 변이에 관한 정보(예: dbSNP, 1000 게놈 프로젝트(100 genome project) 등)를 제거하고 나면 해당 질병에 특이적인 유전자 변이 정보만 남게 된다. 질병군 비교부(112)는 이와 같은 방식으로 질병군에 존재하는 변이를 획득하고, 변이 추출부(114)는 상기 획득된 질병군 변이들을 기존에 알려진 변이 데이터베이스(115)를 참조하여 새로운 변이만을 추출할 수 있다.
변위 매핑부(116)는 상기 새로운 변이를 해당 질병에 특이적인 유전자 변이 정보에 대하여 알려진 유전자에 맵핑하고, 각 유전자 변이가 해당 유전자의 인트론에 위치하는지, 해당 유전자가 발현시키는 단백질의 아미노산을 변화시키는지, STOP 코돈(codon) 을 생성하는지 등의 정보를 추출한다.
다음의 표 2는 변이를 유전자에 매핑한 매핑 정보를 예시적으로 보여준다.
Chr | Start | End | 유전자 ID | 변이지역 | 단백질 ID | 아미노산변화 | Heterozygocity 유무 |
Chr1 | 1640667 | 1640667 | 984 | 코딩 | NP_277028 | K105K | Heterozygote |
Chr1 | 3227034 | 3227034 | 63976 | 인트론 | . | . | Homozygote |
Chr1 | 246195643 | 246195643 | 391191 | 코딩 | NP_001004491 | V203M | Homozygote |
Chr1 | 246856127 | 246856127 | 127077 | 코딩 | NP_001001964 | Q309R | Heterozygote |
표 2에서 예를 들어, K105K는 염기 서열의 변화가 있었음에도 단백질에서의 아미노산의 변이가 없는 변이를, V203M은 단백질 서열상의 203번째 V 가 M 으로 치환되었음을 의미한다. 또한, 변이지역이 인트론(intron)인 경우에는 코딩이 이루어지지 않으므로 단백질 ID 및 아미노산 변화 정보가 기록되어 있지 않다. 또한, "NP_xxxxxx"는 단백질 서열에 관한 ID의 일종으로서 미국 국립생물정보센터(NCBI의) 참조 서열 ID(refseq ID)이다.
다시, 도 1을 참조하면, 전처리부(110)에 의하여 추출된 변이 데이터는 유해도 예측기(120)에 제공된다. 유해도 예측기(120)는 상기 변이 데이터로 인하여 해당 유전자의 기능에 발생되는 장애를 정량화한다. 상기 변이 데이터는 유전자에 맵핑된 유전자 변이 정보, 특히, 단백질 코딩 지역에서 아미노산의 치환을 일으키는 변이를 포함한다.
이를 위하여, 유해도 예측기(120)는 도 3에 도시된 바와 같이, 유해도 산출부(170), 중요도 산출부(180) 및 스코어 계산부(190)를 포함하여 구성될 수 있다.
유해도 산출부(170)는 입력된 변이 데이터(var)를 복수의 유해도 예측 모델에 적용하여 각각의 유해도를 얻은 후, 각각의 유해도에 가중치를 적용하여 합산함으로써 변이 데이터의 유해도(가중 유해도)를 산출한다. 도 4는 유해도 산출부(170)의 구체적인 구성을 보여준다.
특징 벡터 생성부(171)는 입력된 변이 데이터로부터 다양한 요소를 포함하는 특징 벡터들을 생성한다. 이러한 특징 벡터를 구성하는 요소로는, 유전자 변이와 맵핑되는 유전자 및 단백질에서 해당 위치에서의 아미노산의 여러 생물 종간의 보존 정도(conservation score), 아미노산 치환이 일으키는 생화학 성질의 변화 (hydrophobicity), 단백질 구조적 특징 변화 (단백질 상호작용 인터페이스의 변화, 아미노산 크기 등), 인트론 스플라이스 접합점(intron splice junction) 위치 유무, 5-UTR(five prime untranslated region) 변이 위치 등을 예로 들 수 있다.
어댑터(172, 173, 174)는 상기 생성된 특징 벡터 중에서 각각의 예측 모델에서 필요한 요소들을 선별하여, 해당 예측 모델(175, 176, 177)에 제공한다. 상기 예측 모델은 단백질 서열 내에서 개별적인 nsSNP(non-synonymous Single Nucleotide Polymorphism)를 찾을 수 있도록 연구된 종래의 기법들이다. nsSNP는 유전적 변이 중에 단백질 서열을 구성하는 아미노산의 치환을 유발하는 유전적 변이를 의미하는데, nsSNP는 단백질 본래의 기능에 악영향을 미칠 수 있는 가능성이 있기 때문에 중요하게 다루어진다. 이러한 예측 모델로는 SIFT(Sorting Tolerant From Intolerant), PolyPhen, MAPP((Map Annotator and Pathway Profiler) 등을 사용할 수 있으나 이외의 모델이 사용될 수도 있다. 또한, 도 4에서는 예측 모델이 3개인 것으로 예시되어 있으나 임의의 복수의 예측 모델이 사용될 수 있음은 물론이다.
이하, 현재 알려져 있는 대표적인 예측 모델인 SIFT, PolyPhen 및 MAPP에 관하여 간략히 설명한다.
SIFT 기법의 기본 전제는 중요한 아미노산은 단백질 가족 (protein family) 내에서 보존되는 경향이 있으며 잘 보존된 위치의 아미노산의 치환은 단백질 원래 기능에 영향을 준다는 것이다. SIFT는 단백질 서열 데이터 베이스로부터 입력 서열과 서열 유사성을 지닌 단백질 서열들을 획득한 후, 이 서열들을 이용하여 PSSM(position specific scoring matrices)을 생성하여 입력서열의 각 아미노산의 서열 보존 점수, 아미노산의 비친수성, 서열 위치상에서 아미노산의 존재 확률을 계산하여 각 아미노산 치환이 갖는 유해도를 찾아준다.
다만, SIFT는 입력 단백질 서열이 서열 유사성 검색에 의해서 수집된 다른 서열 단백질들과 매우 유사한 경우에 PSSM이 매우 높게 보존된 성향으로 편향되어 생성되기 때문에, 유해하지 않을 아미노산 치환도 유해도가 높은 것으로 잘못 예측하는 오류가 발생될 수 있다. SIFT는 약 69%의 민감성(sensitivity)과 함께 13%의 특수성(specificity)을 나타낸다.
서열 유사성과 단백질의 특성정보, 단백질 구조 데이터를 결합하여 아미노산 치환에 의한 유해도를 예측하는 발전된 방법으로 PolyPhen이 있다. PolyPhen은 SIFT에서 이용하는 서열 보존성 데이터 이외에 스위스-프롯(Swiss-Prot)의 특징 테이블과 단백질 구조를 추가적으로 이용한다. PolyPhen은 PSIC(Position Specific Independent Counts) 스코어의 차이값, 아미노산 치환 부위 및 치환 형태를 종합하여 아미노산 치환의 유해도를 예측한다. PolyPhen은 약 68%의 민감성과 16%의 특수성을 나타낸다.
한편, 단백질 서열 유사성과 아미노산의 물리화학적인 특성을 결합하여 아미노산 치환의 유사성을 예측하는 모델로서 MAPP이 개발된 바 있다. MAPP는 서열 유사성을 보이는 단백질 가족을 이용하여 서열 정렬을 수행하고 각 위치에서 존재하는 아미노산의 서열 차이와 아미노산이 갖는 물리화학적 특성들 (비친수성, 극성, 부피) 함께 고려하여 단백질 기능에 영향을 미칠 수 있는 모든 가능한 아미노산 치환을 예측한다.
이상에서와 같은 다양한 예측 모델(175, 176, 177)을 통하면, 단백질 서열 내에서 개별적인 nsSNP를 찾음으로써 해당 유전자 변이가 갖는 스코어를 얻을 수 있다. 각각의 예측 모델에서 얻은 스코어(s1, s2, s3)는 가중치 적용부(178)에 제공된다.
가중치 적용부(178)는 상기 각각의 스코어(s1, s2, s3)를 0에서 1사이의 값으로 정규화한 후 각각의 정규화된 스코어에 가중치를 곱하고 이를 합산하여 유해도(F1(var))를 산출한다. 상기 가중치는 기존에 알려진 질병 유전자 변이들을 학습 데이터로 활용하여 경험적으로 얻을 수 있는 값이다. 따라서, 유해도(F1(var))는 다음의 수학식 1과 같이 계산될 수 있다.
가중치 적용부(178)는 이와 같이 계산된 유해도를 다시 0에서 1사이의 값으로 정규화할 수도 있다.
한편, 질병 군에 포함된 다수의 샘플에서 반복된 위치에서 발견된 유전자 변이는 중요한 변이로 판단할 수 있으므로, 각 유전자 변이의 빈도에 따라 중요도를 판단할 수 있다. 다시 도 3을 참조하면, 중요도 산출부(180)는 상기 유전자 변이의 빈도, 즉 확률 분포를 기초로 하여 해당 유전자 변이의 중요도를 산출한다. 상기 유전자 변이의 발생 확률(p(var))는 해당 유전자 변이가 질병군 샘플에서 발견된 확률을 의미하는 것으로, 예를 들어, 최대 우도 추정(MLE; Maximum Likelihood Estimation) 또는 베이지안 확률(Bayesian probability) 추론을 통하여 얻어질 수 있다.
이와 같이 얻어진 확률(p(var))을 직접 중요도로서 이용할 수도 있겠으나, 실제 중요도로 이용하기 위하여는 매핑 함수를 통한 수정이 필요하다. 매핑 함수는 도 5에 도시된 바와 같이, 0 내지 1사이의 확률(p(var))을 0 내지 1 사이의 중요도(F2(var))로 변환해 주는 함수이다. 매핑 함수의 형태는 다양하게 설정할 수 있겠지만, 바람직하게는 도 5와 같이, 0과 1 근처에서 상대적으로 작은 기울기를 갖고, 0.5 근처에서 상대적으로 큰 기울기를 가질 수 있다. 즉, 중요도는 0과 1 근처에서의 확률에 비하여, 0.5 근처에서 보다 높은 민감도를 갖는다. 이러한 매핑 함수는 예를 들어 수학식 2와 같이 표시될 수 있다. 여기서, α는 상수이다.
유해도 산출부(170)로부터 얻어진 유해도(0에서 1사이의 값)와, 중요도 산출부(180)로부터 얻어진 중요도(0에서 1사이의 값)는 최종적으로 스코어 계산부(190)에 제공된다. 스코어 계산부(190)는 상기 유해도 및 중요도를 조합하여 최종적인 유해도 스코어를 계산한다. 예를 들어, 유해도 스코어(f(var))는 다음의 수학식 3과 같이 유해도 및 중요도의 합산으로 구해질 수 있으나, 이에 한하지 않고 유해도 및 중요도 중 적어도 하나 이상을 반영할 수 있는 다양한 계산식으로 구해질 수 있다. 즉, 유해도와 중요도는 함께 사용될 때 바람직한 효과가 나타날 수 있으나 이에 한하지 않고 독립적으로 사용될 수도 있다.
이와 같이 각각 유전자 변이들은 특정 유전자에 매핑되어, 각각의 유전자의 유해도가 어느 정도인지를 추정하는데 사용된다. 그런데, 큰 영향을 주는 하나의 유전자 변이도 중요하지만, 비교적 적은 영향을 주는 다수의 유전자 변이들이 포함되는 유전자도 유의(有意)하다고 볼 수 있다. 따라서, 스코어 계산부(190)는 하나의 유전자 내에 포함된 유전자 변이들의 유해도 스코어(f(var))를 유전자의 길이로 나눈 값을 최종 유해도 스코어를 구할 수도 있다. 이 경우에는, 최종 유해도 스코어(s(Gene))은 다음의 수학식 4와 같이 구해질 수 있다.
하나의 유전자 내에 존재하는 유전자 변이가 갖는 유해도 스코어의 합(Σf(var))은 유전자 길이에 의하여 나누어짐에 의하여 최종 유해도(s(Gene))가 구해진다. 이는 전술한 바와 같이, 유전자 내에 큰 영향을 주는 하나의 유전자 변이만이 아니라, 다수의 유전자 변이의 종합적으로 고려하기 위한 것일 뿐만 아니라, 유해도 스코어의 합(Σf(var))이 동일하다면, 유전자의 길이가 짧을수록 최종 유해도 스코어가 커짐을 의미한다. 즉, 단위 유전자 길이당 더 높은 유해도 스코어는 유전자 변이가 해당 유전자에 대하여 보다 유의한 유해도를 나타낼 것이라고 추측할 수 있는 것이다.
다시 도 1을 참조하면, 네트워크 병합부(130)는 유해도 예측기(120)로부터 얻어진 유전자로부터 발현되는 단백질들을 기존의 알려진 단백질 상호작용 데이터베이스 (135)에 병합하여 상호작용 네트워크를 생성한다. 일반적으로, 유전자에서 얻어진 유전자 변이들의 실제 발현은 생체 기능을 나타내는 단백질 단위로 이루어진다고 볼 수 있다. 즉, 상기 유전자 변이들이 유해하다고 하더라도 실제 단백질 단위로는 잠재적인 유해도가 발현되지 않을 수도 있고 다양한 유전자 변이들의 조합에 의하여 다양한 발현 형태가 나타날 수 있다. 이러한 상호작용 네트워크는 유전자, 단백질 및 효소의 순으로 병합이 이루어지면서 유전자 노드의 수가 증가될 수 있다. 상호작용 네트워크의 병합 과정의 보다 상세한 과정은, 예를 들어, Automated Network Analysis Identifies Core Pathways in Clioblastoma (www.plosone.org, February 2010, volume 5, issue 2, e8918)을 참조하여 알 수 있다. 본 발명에 있어서, 상호작용 네트워크의 병합 과정은 유전자 단위에서의 유해도만을 구하고자 한다면 생략될 수도 있다.
모듈화부(140)는 유해도 스코어가 소정의 임계값 이상이 되는 유전자들이, 유전자 네트워크 상에 밀집되어 있는 유전자 네트워크의 서브 모듈을 탐색한다. 보다 구체적으로, 모듈화부(140)는 유전자 유해도가 임계값 이상이 되는 유전자들이 네트워크상에 밀집되어 있는 서브 모듈을 찾기 위하여 밀집 분포를 통계적으로 검사한다. 상기 통계적 검사 방법의 예로서, 초기하 분포(hypergeometic distribution)가 사용될 수 있다.
유전자 네트워크 상의 전체 유전자 개수가 N이고, 유전자 네트워크의 전체 유전자 중에서 유해도 스코어가 소정의 임계값을 상회하는 유전자의 개수가 n이며, 유전자 네트워크의 서브 모듈 내에 존재하는 유전자의 개수가 m이라고 가정하면, 유전자 네트워크의 서브 모듈에서 유해도 스코어가 상기 임계값을 상회하는 유전자의 개수가 k개가 될 확률(P(X=k))은 다음의 수학식 5에 나타낸 바와 같다.
여기서, 는 N개 중에서 n개를 조합한 개수, 즉 NCn를 의미한다.
따라서, 유전자 네트워크의 서브 모듈에서 유해도 스코어가 상기 임계값을 상회하는 유전자의 개수가 k개를 초과할 확률(p)은 다음의 수학식 6과 같이 계산될 수 있다.
상기 확률(p) 값은, 특정 서브 모듈 내에, 유해도 스코어가 소정의 임계값을 넘는 유전자 개수가 특정 개수(k)를 초과하여 밀집되어 있는 확률을 의미한다. 상기 임계값은 다양한 방법으로 정해질 수 있겠으나, 일예로 전체 유전자의 유해도 스코어 분포에서 소정의 백분위수(1 percentile, 5 percentile, 10 percentile 등)를 기준으로 결정될 수 있다. 이와 같이, 특정 서브 모듈에 대하여 상기 확률(p)이 높을수록 보다 유의한 서브 모듈로 평가할 수 있는 것이다.
모듈화부(140)는 통상에 알려진 greedy 탐색 알고리즘, 확률적 탐색 알고리즘 (예, simulated annealing) 등을 활용하여 실제로 서브 모듈을 탐색할 수 있는데, 구체적인 과정은 도 6의 흐름도를 참조하여 설명한다.
먼저, 모듈화부(140)는 초기 서브 네트워크를 설정한다(S1). 초기 네트워크는 유해도 스코어가 유의한 모든 유전자(예, 유해도 스코어가 상위 5% 이내인 유전자)를 단일의 노드로 갖는 네트워크를 의미한다. 이러한 초기 네트워크를 구성하는 노드들을 시작으로 탐색 알고리즘을 적용하여 최적의 유의성을 갖는 유전자 네트워크 서브 모듈을 탐색하게 되는 것이다.
모듈화부(140)는 인접 유전자(현재 유전자와 직접 연결된 유전자)를 선택하고 병합하여 새로운 네트워크를 생성하고(S2), 새로운 네트워크의 유의성을 평가한다(S3). 즉, 상기 초기 노드들의 인접 유전자를 새로운 노드로 병합하면서 새로운 네트워크를 생성한 후, 병합된 노드들로 구성된 단위(서브 모듈의 예비 단계)에 대하여 유의성을 평가하는 것이다. 이러한 유의성은 예를 들어, 전술한 초기하 분포에서의 확률(p)을 이용하여 평가될 수 있다.
모듈화부(140)는 이와 같이 구성한 새로운 네트워크가 유의한 경우(S4의 예)에는 현재의 네트워크를 상기 유의한 네트워크로 갱신하고(S5), 다시 단계 S2로 진행한다. 만약, 유의하지 않은 경우(S4의 아니오)에는 네트워크의 갱신 없이 종료 조건이 만족되는지를 확인하고, 종료조건이 만족되면(S6의 예) 서브 모듈 탐색을 종료한다. 상기 종료조건이 만족되지 않으면(S6의 아니오) 계속하여 단계 S2로 진행한다.
이와 같은 네트워크 갱신 과정이 종료되면 최종적으로 갱신된 유전자 네트워크에 포함되는 서브 모듈들이 확정(탐색 완료)될 수 있다.
다시 도 1을 참조하면, 우선 순위 결정부(150)는 모듈화부(140)에 의하여 탐색된 복수의 서브 모듈들 간의 우선 순위를 결정한다. 즉, 유전자 변이 기반으로 발견된 유전자 네트워크의 서브 모듈들에 대해 유전자 발현 데이터의 변화와 얼마나 상관 관계를 갖는지를 평가하여, 해당 서브 모듈의 우선순위를 결정하는 것이다.
탐색된 서브 모듈에 대한 유전자 발현 패턴의 분석은 해당 서브모듈뿐만 아니라, 해당 서브 모듈에 직접 연결된 유전자를 포함하여 이루어지는 것이 바람직하다. 이는 전사 조절 인자와 같은 유전자에 변이가 발생하였을 때는, 자신의 발현 보다 전사 조절 인자가 목표로 하는 타겟 유전자의 발현 패턴에서 변화가 발생하기 쉽기 때문이다.
정상 및 질병의 두 조건에서 조사된 유전자 발현 데이터는 전처리를 통해, 두 조건 사이에서의 발현 차이를 Z-스코어(z-score)의 형태로 계산될 수 있다. 예를 들어, 각각의 서브 모듈에 대해, 상기 서브 모듈에 직접 연결된 유전자 집합을 G라고 할 때, 서브 모듈의 우선도를 평가하는 지수(es)는 다음의 수학식 7과 같이 구해질 수 있다.
여기서, zi는 해당 서브 모듈에 직접 연결된 유전자의 집합에 있어서, 각각의 유전자가 갖는 유해도 스코어의 Z-스코어 값을 의미하고, |G|는 해당 서브 모듈에 직접 연결된 유전자 집합의 크기(유전자의 개수)를 의미한다. Z-스코어는 통계학 분야에서 알려져 있는 바와 같이, 현재 변수(x)에서 평균(μ)을 뺀 후 표준 편차(σ)로 나눈 값으로서, 현재 변수(유해도 스코어)가 평균(μ)에서부터 몇 σ 만큼 이격되어 있는가를 나타내는 지표이다. 이와 같은 과정을 통하여 얻어진 우선 순위로 정렬된 서브 모듈들은 결국, 특정 유전자의 발현과의 상관관계를 나타내 주는 바이오 마커로서의 기능을 갖는다. 따라서, 질병군과 정상군의 비교에 얻어진 질병 특이적 서열의 변이가 해당 유전자의 기능에 어떠한 변화나 장애를 일으키는지를 예측할 수 있고, 나아가 개별 유전자 장애가 전체 생물 시스템에서의 상호작용에 어떠한 영향을 미치는지에 대한 정보를 제공할 수 있게 된다.
검증부(160)는 상기 얻어진 우선 순위로 정렬된 서브 모듈들을 기존에 알려진 패스웨이 데이터베이스 (165)와 비교하여 기능별 연관도를 평가한다. 가장 널리 사용되는 방법은 초기하 분포를 사용하는 방법으로서, 각각의 서브 모듈에 대해 패스웨이 데이터베이스(165)에서 특정 생물학적 기능 단위로 추출한 유전자 집합들에 대해 중첩되는 유전자 숫자의 유의성을 계산한다. 즉, 도 7에 도시된 바와 같이, 전체적으로 조사된 유전자 개수(N), 특정 생물학적 기능과 관련된 유전자 집합의 유전자 개수(n), 유전자 네트워크에서 찾은 서브 모듈 내의 유전자 개수(m) 및 유전자 서브 모듈과 특정 유전자 집합 내에 공통적으로 존재하는 유전자 개수(k)로부터 유의성을 나타내는 확률을 계산하는 것이다. 상기 확률이 높게 나타날수록 최종적으로 얻은 서브 모듈들은 보다 높은 유의성을 가지게 된다.
지금까지 도 1 내지 도 4의 각 구성요소는 소프트웨어(software) 또는, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)를 의미할 수 있다. 그렇지만 상기 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성요소들 안에서 제공되는 기능은 더 세분화된 구성요소에 의하여 구현될 수 있으며, 복수의 구성요소들을 합하여 특정한 기능을 수행하는 하나의 구성요소로 구현할 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다.
100: 바이오 마커 추출 장치 110: 전처리부
120: 유해도 예측기 130: 네트워크 병합부
135: 상호작용 데이터베이스 140: 모듈화부
150: 우선 순위 결정부 160: 검증부
165: 패스웨이 데이터베이스 170: 유해도 산출부
180: 중요도 산출부 190: 스코어 계산부
120: 유해도 예측기 130: 네트워크 병합부
135: 상호작용 데이터베이스 140: 모듈화부
150: 우선 순위 결정부 160: 검증부
165: 패스웨이 데이터베이스 170: 유해도 산출부
180: 중요도 산출부 190: 스코어 계산부
Claims (34)
- 서열상에 나타난 변이가 유전자 기능에 어떠한 변화를 주는가를 분석하여 특정 질병의 원인이 되는 바이오 마커를 추출하는 바이오 마커 추출 장치로서,
유전자 샘플의 서열을 분석하여 유전자에 맵핑된 변이 데이터를 추출하는 전처리부;
상기 변이 데이터가 상기 유전자의 기능에 미치는 영향의 정도를 나타내는 스코어를 구하는 유해도 예측기; 및
상기 스코어가 상기 바이오 마커 추출 장치 내에서 미리 정해진 값을 상회하는 유전자들이 집합된 서브 모듈을 유전자 네트워크 상에서 탐색하는 모듈화부를 포함하는 바이오 마커 추출 장치. - 제1항에 있어서, 상기 전처리부는
질병군의 변이들과 정상군의 변이들을 상호 비교하여 상기 분석된 유전자 샘플로부터 상기 질병군에 존재하는 변이를 획득하는 질병군 비교부;
상기 획득된 질병군 변이들을 기존에 알려진 변이 데이터베이스를 참조하여 새로운 변이를 추출하는 변이 추출부; 및
상기 추출된 새로운 변이를 유전자에 맵핑하는 변이 맵핑부를 포함하는 바이오 마커 추출 장치. - 제2항에 있어서, 상기 변이 맵핑부는
상기 추출된 새로운 변이 중에서 단백질로 발현시 아미노산이 달라지는 종류만을 추출하여 관련된 유전자에 맵핑하는 바이오 마커 추출 장치. - 제1항에 있어서, 상기 유해도 예측기는
SIFT(Sorting Tolerant From Intolerant), PolyPhen, MAPP((Map Annotator and Pathway Profiler) 중에서 적어도 하나 이상을 포함하는 복수의 유해도 예측 모델에 상기 변이 데이터를 적용하여 각각의 유해도를 얻은 후 상기 각각의 유해도에 해당 가중치를 합산함으로써 가중 유해도를 산출하는 유해도 산출부를 포함하는 바이오 마커 추출 장치. - 제4항에 있어서, 상기 유해도 산출부는
상기 변이 데이터로부터 특징 벡터들을 생성하는 특징 벡터 생성부;
상기 생성된 특징 벡터를 구성하는 요소들 중에서 상기 복수의 유해도 예측 모델에 사용될 요소들을 선별하는 어댑터;
상기 선별된 요소들을 입력받아 단백질 서열 내에서 개별적인 nsSNP(non-synonymous Single Nucleotide Polymorphism)를 발견할 수 있도록 해 주는 적어도 둘 이상의 예측 모델; 및
상기 예측 모델의 출력에 가중치를 적용하여 합산하는 가중치 적용부를 포함하는 바이오 마커 추출 장치. - 제5항에 있어서, 상기 가중치 적용부는
상기 예측 모델의 출력을 0에서 1사이의 값으로 정규화한 후 상기 가중치를 적용하여 합산하고, 상기 합산된 결과를 0에서 1사이의 값으로 정규화하는 바이오 마커 추출 장치. - 제5항에 있어서, 상기 특징 벡터는
유전자 변이와 맵핑되는 유전자 및 단백질에서 해당 위치에서의 아미노산의 여러 생물 종간의 보존 정도(conservation score), 아미노산 치환이 일으키는 생화학 성질의 변화 (hydrophobicity), 단백질 구조적 특징 변화, 인트론 스플라이스 접합점(intron splice junction) 위치 유무, 5-UTR(five prime untranslated region) 변이 위치 중에서 적어도 둘 이상을 포함하는 바이오 마커 추출 장치. - 삭제
- 제4항에 있어서, 상기 유해도 예측기는
상기 변이 데이터의 빈도를 기초로 유전자 변이의 중요도를 산출하는 중요도 산출부; 및
상기 가중 유해도 및 상기 중요도를 조합하여 상기 스코어를 계산하는 스코어 계산부를 더 포함하는 바이오 마커 추출 장치. - 제9항에 있어서, 상기 중요도 산출부는
상기 중요도를 해당 유전자 변이가 질병군 샘플에서 발견된 확률에 의하여 산출하는데,
상기 확률은 최대 우도 추정 또는 베이지안 확률인 바이오 마커 추출 장치. - 제9항에 있어서, 상기 스코어 계산부는
하나의 유전자 내에서 유전자 변이가 갖는 상기 스코어의 합을 상기 유전자의 길이로 나눔으로써 최종 스코어를 구하는 바이오 마커 추출 장치. - 제1항에 있어서, 상기 모듈화부는
현재의 유전자 노드의 집합에 대한 인접 유전자의 병합이 유의한지를 기초로 유전자 네트워크를 갱신하는 과정을 반복함에 의하여 상기 서브 모듈들을 탐색하는 바이오 마커 추출 장치. - 제12항에 있어서, 상기 모듈화부는
상기 스코어가 소정의 임계값을 상회하는 유전자 개수에 대한 초기하 분포로부터 얻어진 확률을 이용하여 유의성을 판단하는 바이오 마커 추출 장치. - 제13항에 있어서, 상기 소정의 임계값은
전체 유전자가 갖는 스코어들에 대해 특정 백분위수를 기준으로 결정되는 바이오 마커 추출 장치. - 제1항에 있어서,
상기 스코어를 구한 유전자로부터 발현되는 단백질들을 기존의 알려진 단백질 상호작용 데이터베이스에 병합하여 상호작용 네트워크를 생성하는 네트워크 병합부를 더 포함하는 바이오 마커 추출 장치. - 제1항에 있어서,
상기 모듈화부에 의하여 탐색된 복수의 서브 모듈들 간의 우선 순위를 Z-스코어(z-score)를 기준으로 결정하는 우선 순위 결정부를 더 포함하는 바이오 마커 추출 장치. - 제16항에 있어서,
상기 우선 순위로 정렬된 서브 모듈들을 미리 설정된 데이터베이스와 비교하여 기능별 연관도를 평가하는 검증부를 더 포함하는 바이오 마커 추출 장치. - 서열상에 나타난 변이 데이터가 유전자의 기능에 영향을 미치는 장애를 정량화하기 위한 유해도 예측 장치로서,
SIFT(Sorting Tolerant From Intolerant), PolyPhen, MAPP((Map Annotator and Pathway Profiler) 중에서 적어도 하나 이상을 포함하는 복수의 유해도 예측 모델에 상기 변이 데이터를 적용한 결과 값들을 얻은 후 상기 결과 값들에 해당 가중치를 합산함으로써 가중 유해도를 산출하는 유해도 산출부;
상기 변이 데이터의 빈도를 기초로 유전자 변이의 중요도를 산출하는 중요도 산출부; 및
상기 가중 유해도 및 상기 중요도를 조합한 스코어를 계산하는 스코어 계산부를 포함하는 유해도 예측 장치. - 제18항에 있어서, 상기 유해도 산출부는
상기 변이 데이터로부터 특징 벡터들을 생성하는 특징 벡터 생성부;
상기 생성된 특징 벡터를 구성하는 요소들 중에서 상기 복수의 유해도 예측 모델에 필요한 요소들을 선별하는 어댑터;
상기 선별된 요소들을 입력받아 단백질 서열 내에서 개별적인 nsSNP(non-synonymous Single Nucleotide Polymorphism)를 발견할 수 있도록 해 주는 적어도 둘 이상의 예측 모델; 및
상기 예측 모델의 출력에 가중치를 적용하여 합산하는 가중치 적용부를 포함하는 유해도 예측 장치. - 제19항에 있어서, 상기 가중치 적용부는
상기 예측 모델의 출력을 0에서 1사이의 값으로 정규화한 후 상기 가중치를 적용하여 합산하고, 상기 합산된 결과를 0에서 1사이의 값으로 정규화하는 유해도 예측 장치. - 제19항에 있어서, 상기 특징 벡터는
유전자 변이와 맵핑되는 유전자 및 단백질에서 해당 위치에서의 아미노산의 여러 생물 종간의 보존 정도(conservation score), 아미노산 치환이 일으키는 생화학 성질의 변화 (hydrophobicity), 단백질 구조적 특징 변화, 인트론 스플라이스 접합점(intron splice junction) 위치 유무, 5-UTR(five prime untranslated region) 변이 위치 중에서 적어도 둘 이상을 포함하는 유해도 예측 장치. - 제19항에 있어서, 상기 예측 모델은
SIFT(Sorting Tolerant From Intolerant), PolyPhen, MAPP((Map Annotator and Pathway Profiler) 중에서 적어도 하나 이상을 포함하는 유해도 예측 장치. - 제18항에 있어서, 상기 중요도 산출부는
상기 중요도를 해당 유전자 변이가 질병군 샘플에서 발견된 확률에 의하여 산출하는데, 상기 확률은 최대 우도 추정 또는 베이지안 확률인 유해도 예측 장치. - 제18항에 있어서, 상기 스코어 계산부는
하나의 유전자 내에서 유전자 변이가 갖는 스코어의 합을 상기 유전자의 길이로 나눔으로써 최종 스코어를 구하는 유해도 예측 장치. - 서열상에 나타난 변이가 유전자 기능에 어떠한 변화를 주는가를 분석하여 특정 질병의 원인이 되는 바이오 마커를 추출하는 방법으로서,
유전자에 포함된 변이 데이터로 인하여 상기 유전자의 기능에 미치는 영향의 정도를 나타내는 스코어를 구하는 단계;
상기 스코어가 상기 바이오 마커 추출 장치 내에서 미리 정해진 값을 상회하는 유전자들이 집합된 서브 모듈들을 유전자 네트워크 상에서 탐색하는 단계; 및
상기 탐색된 복수의 서브 모듈들과 상기 유전자 기능의 변화 간의 상관 관계를 기초로, 상기 탐색된 복수의 서브 모듈들의 우선 순위를 결정하는 단계를 포함하는 바이오 마커 추출 방법. - 제25항에 있어서, 상기 우선 순위를 결정하는 단계는
상기 서브 모듈들이 갖는 각각의 Z-스코어(z-score) 기준으로 높은 Z-스코어를 갖는 서브 모듈에 높은 우선 순위를 결정하는 단계를 포함하는 바이오 마커 추출 방법. - 제25항에 있어서,
상기 스코어를 구한 유전자로부터 발현되는 단백질들을 기존의 알려진 단백질 상호작용 데이터베이스에 병합하여 상호작용 네트워크를 생성하는 단계를 더 포함하는 바이오 마커 추출 방법. - 제25항에 있어서,
상기 우선 순위로 정렬된 서브 모듈들을 미리 설정된 데이터베이스와 비교하여 기능별 연관도를 평가하는 단계를 더 포함하는 바이오 마커 추출 방법. - 서열상에 나타난 변이 데이터가 유전자의 기능에 영향을 미치는 장애를 정량화하기 위한 유해도 예측 방법으로서,
상기 변이 데이터로부터 특징 벡터들을 생성하는 단계;
상기 생성된 특징 벡터를 구성하는 요소들 중에서 일부의 요소들을 선별하는 단계;
상기 선별된 요소들을 입력받아 단백질 서열 내에서 개별적인 스코어를 제공하는 단계; 및
상기 개별적인 스코어에 가중치를 합산한 결과인 가중 유해도를 얻는 단계를 포함하는 유해도 예측 방법. - 제29항에 있어서, 상기 가중치는
기존에 알려진 질병 유전자 변이들을 학습 데이터로 활용하여 경험적으로 얻어지는 값인 유해도 예측 방법. - 제29항에 있어서, 상기 가중 유해도를 얻는 단계는
예측 모델의 출력을 0에서 1사이의 값으로 정규화한 후 상기 가중치를 적용하여 합산하고, 상기 합산된 결과를 0에서 1사이의 값으로 정규화하는 단계를 포함하는 유해도 예측 방법. - 제29항에 있어서,
상기 변이 데이터의 빈도를 기초로 유전자 변이의 중요도를 산출하는 단계; 및
상기 가중 유해도 및 상기 중요도를 조합하여 상기 스코어를 계산하는 단계를 더 포함하는 유해도 예측 방법. - 제32항에 있어서, 상기 중요도를 산출하는 단계는
최대 우도 추정 또는 베이지안 확률에 기초하여 해당 유전자 변이가 질병군 샘플에서 발견된 확률에 의하여 상기 중요도를 산출하는 단계를 포함하는 유해도 예측 방법. - 제32항에 있어서,
하나의 유전자 내에서 유전자 변이가 갖는 상기 스코어의 합을 상기 유전자의 길이로 나눔으로써 최종 스코어를 구하는 단계를 더 포함하는 유해도 예측 방법.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100105504A KR101325736B1 (ko) | 2010-10-27 | 2010-10-27 | 바이오 마커 추출 장치 및 방법 |
JP2011232749A JP5479431B2 (ja) | 2010-10-27 | 2011-10-24 | バイオマーカー抽出装置および方法 |
US13/283,144 US20120109615A1 (en) | 2010-10-27 | 2011-10-27 | Apparatus and method for extracting biomarkers |
EP11186897A EP2487617A1 (en) | 2010-10-27 | 2011-10-27 | Apparatus and method for extracting biomarkers |
CN201110342753.7A CN102542179B (zh) | 2010-10-27 | 2011-10-27 | 生物标记提取装置及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100105504A KR101325736B1 (ko) | 2010-10-27 | 2010-10-27 | 바이오 마커 추출 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120044100A KR20120044100A (ko) | 2012-05-07 |
KR101325736B1 true KR101325736B1 (ko) | 2013-11-08 |
Family
ID=44925345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100105504A KR101325736B1 (ko) | 2010-10-27 | 2010-10-27 | 바이오 마커 추출 장치 및 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20120109615A1 (ko) |
EP (1) | EP2487617A1 (ko) |
JP (1) | JP5479431B2 (ko) |
KR (1) | KR101325736B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102032484B1 (ko) | 2018-08-16 | 2019-10-15 | 제노플랜코리아 주식회사 | 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템 |
WO2021194227A1 (ko) | 2020-03-26 | 2021-09-30 | 주식회사 클리노믹스 | 이종생물 유래의 유전자 마커 매칭에 기반한 하나 혹은 그 이상의 모델생물의 유전자 마커와 그 패턴 정보를 목표하는 생물의 유전자 마커 정보로 이용하는 유전자 검사 서비스 제공 방법 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5963198B2 (ja) * | 2012-09-26 | 2016-08-03 | 国立研究開発法人科学技術振興機構 | 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム |
JP6164678B2 (ja) * | 2012-10-23 | 2017-07-19 | 国立研究開発法人科学技術振興機構 | ネットワークエントロピーに基づく生体の状態遷移の予兆の検出を支援する検出装置、検出方法及び検出プログラム |
EP2759953B1 (en) * | 2013-01-28 | 2022-03-02 | Hasso-Plattner-Institut für Softwaresystemtechnik GmbH | System and method for genomic data processing with an in-memory database system and real-time analysis |
EP3210141A1 (en) | 2014-10-22 | 2017-08-30 | Baylor College of Medicine | Method to identify genes under positive selection |
JP6270221B2 (ja) | 2015-02-13 | 2018-01-31 | 国立研究開発法人産業技術総合研究所 | バイオマーカー探索方法、バイオマーカー探索装置、及びプログラム |
US10395759B2 (en) | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
KR102508971B1 (ko) * | 2015-07-22 | 2023-03-09 | 주식회사 케이티 | 질병 위험도 예측 방법 및 이를 수행하는 장치 |
CN107851136B (zh) * | 2015-07-29 | 2022-04-05 | 皇家飞利浦有限公司 | 用于对未知重要性的变体划分优先级顺序的系统和方法 |
NZ745249A (en) | 2016-02-12 | 2021-07-30 | Regeneron Pharma | Methods and systems for detection of abnormal karyotypes |
WO2019003441A1 (ja) * | 2017-06-30 | 2019-01-03 | 日本電気株式会社 | 予測装置、予測方法、予測プログラムが記録された記録媒体、及び、遺伝子推定装置 |
JP6941353B2 (ja) * | 2017-07-12 | 2021-09-29 | 国立大学法人東海国立大学機構 | 毒性予測方法及びその利用 |
WO2019079464A1 (en) * | 2017-10-17 | 2019-04-25 | Jungla Inc. | PLATFORM OF MOLECULAR EVIDENCE FOR CONTINUOUS AND VERIFY OPTIMIZATION OF INTERPRETATION OF VARIANTS IN TESTS AND GENETIC ANALYZES |
JP6688418B1 (ja) * | 2019-04-16 | 2020-04-28 | ジェネシスヘルスケア株式会社 | 2型糖尿病のリスクを判定する方法 |
JP7107882B2 (ja) * | 2019-04-22 | 2022-07-27 | ジェネシスヘルスケア株式会社 | 偏頭痛のリスクを判定する方法 |
JP7108571B2 (ja) * | 2019-04-22 | 2022-07-28 | ジェネシスヘルスケア株式会社 | 拒食症のリスクを判定する方法 |
JP7108572B2 (ja) * | 2019-04-22 | 2022-07-28 | ジェネシスヘルスケア株式会社 | 過食症のリスクを判定する方法 |
JP7097852B2 (ja) * | 2019-04-23 | 2022-07-08 | ジェネシスヘルスケア株式会社 | 子宮内膜症のリスクを判定する方法 |
JP7097851B2 (ja) * | 2019-04-23 | 2022-07-08 | ジェネシスヘルスケア株式会社 | 乱視のリスクを判定する方法 |
JP7097845B2 (ja) * | 2019-04-23 | 2022-07-08 | ジェネシスヘルスケア株式会社 | 近視のリスクを判定する方法 |
JP7107884B2 (ja) * | 2019-04-23 | 2022-07-27 | ジェネシスヘルスケア株式会社 | 食物アレルギーのリスクを判定する方法 |
JP7107883B2 (ja) * | 2019-04-23 | 2022-07-27 | ジェネシスヘルスケア株式会社 | てんかんのリスクを判定する方法 |
JP7097853B2 (ja) * | 2019-04-23 | 2022-07-08 | ジェネシスヘルスケア株式会社 | 妊娠高血圧症候群のリスクを判定する方法 |
JP7096784B2 (ja) * | 2019-04-23 | 2022-07-06 | ジェネシスヘルスケア株式会社 | 妊娠糖尿病のリスクを判定する方法 |
JP7097850B2 (ja) * | 2019-04-23 | 2022-07-08 | ジェネシスヘルスケア株式会社 | 遠視のリスクを判定する方法 |
JP7097854B2 (ja) * | 2019-04-23 | 2022-07-08 | ジェネシスヘルスケア株式会社 | 子宮筋腫のリスクを判定する方法 |
JP7107886B2 (ja) * | 2019-04-24 | 2022-07-27 | ジェネシスヘルスケア株式会社 | 虫歯のリスクを判定する方法 |
JP7099986B2 (ja) * | 2019-04-24 | 2022-07-12 | ジェネシスヘルスケア株式会社 | 不正咬合のリスクを判定する方法 |
JP7097855B2 (ja) * | 2019-04-24 | 2022-07-08 | ジェネシスヘルスケア株式会社 | 歯周病のリスクを判定する方法 |
CN111755076B (zh) * | 2020-07-01 | 2024-08-09 | 北京小白世纪网络科技有限公司 | 基于空间可分离性的利用基因检测的疾病预测方法及系统 |
KR102351763B1 (ko) * | 2021-08-04 | 2022-01-17 | 주식회사 쓰리빌리언 | 유전자 변이의 기능 상실 유발 예측 시스템 및 방법 |
KR20240006270A (ko) * | 2022-07-06 | 2024-01-15 | 울산과학기술원 | 지방간 질환 진단을 위한 바이오마커 발굴 방법 |
CN118675613A (zh) * | 2024-08-20 | 2024-09-20 | 阿里巴巴达摩院(杭州)科技有限公司 | 遗传变异位点的处理方法、表型预测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006519436A (ja) | 2003-01-27 | 2006-08-24 | エフ.ホフマン−ラ ロシュ アーゲー | 表現型形質に影響する特定の遺伝子座を予測するシステムおよび方法 |
KR20060130039A (ko) * | 2003-10-15 | 2006-12-18 | 가부시끼가이샤 사인포스트 | 질환 위험도 판정용 유전자 다형의 결정 방법, 질환 위험도판정 방법 및 판정용 어레이 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4059517B2 (ja) * | 2005-07-12 | 2008-03-12 | トミーデジタルバイオロジー株式会社 | ホモ接合指紋法による同祖領域判定方法、同祖領域判定装置、及び遺伝子スクリーニング方法 |
US20080213768A1 (en) * | 2006-08-17 | 2008-09-04 | Zhauhui Cai | Identification and use of biomarkers for non-invasive and early detection of liver injury |
-
2010
- 2010-10-27 KR KR1020100105504A patent/KR101325736B1/ko not_active IP Right Cessation
-
2011
- 2011-10-24 JP JP2011232749A patent/JP5479431B2/ja not_active Expired - Fee Related
- 2011-10-27 US US13/283,144 patent/US20120109615A1/en not_active Abandoned
- 2011-10-27 EP EP11186897A patent/EP2487617A1/en not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006519436A (ja) | 2003-01-27 | 2006-08-24 | エフ.ホフマン−ラ ロシュ アーゲー | 表現型形質に影響する特定の遺伝子座を予測するシステムおよび方法 |
KR20060130039A (ko) * | 2003-10-15 | 2006-12-18 | 가부시끼가이샤 사인포스트 | 질환 위험도 판정용 유전자 다형의 결정 방법, 질환 위험도판정 방법 및 판정용 어레이 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102032484B1 (ko) | 2018-08-16 | 2019-10-15 | 제노플랜코리아 주식회사 | 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템 |
WO2021194227A1 (ko) | 2020-03-26 | 2021-09-30 | 주식회사 클리노믹스 | 이종생물 유래의 유전자 마커 매칭에 기반한 하나 혹은 그 이상의 모델생물의 유전자 마커와 그 패턴 정보를 목표하는 생물의 유전자 마커 정보로 이용하는 유전자 검사 서비스 제공 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP2487617A1 (en) | 2012-08-15 |
JP5479431B2 (ja) | 2014-04-23 |
KR20120044100A (ko) | 2012-05-07 |
JP2012094143A (ja) | 2012-05-17 |
US20120109615A1 (en) | 2012-05-03 |
CN102542179A (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101325736B1 (ko) | 바이오 마커 추출 장치 및 방법 | |
Schaid et al. | From genome-wide associations to candidate causal variants by statistical fine-mapping | |
Palamara et al. | High-throughput inference of pairwise coalescence times identifies signals of selection and enriched disease heritability | |
Niroula et al. | PON-P2: prediction method for fast and reliable identification of harmful variants | |
CN107229841B (zh) | 一种基因变异评估方法及系统 | |
Frousios et al. | Predicting the functional consequences of non-synonymous DNA sequence variants—evaluation of bioinformatics tools and development of a consensus strategy | |
Capriotti et al. | Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information | |
Hassan et al. | Evaluation of computational techniques for predicting non-synonymous single nucleotide variants pathogenicity | |
Sousa et al. | Identifying loci under selection against gene flow in isolation-with-migration models | |
CN111292802A (zh) | 用于检测突变的方法、电子设备和计算机存储介质 | |
US20110295902A1 (en) | Taxonomic classification of metagenomic sequences | |
KR101990429B1 (ko) | 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법 | |
CN107463795A (zh) | 一种识别酪氨酸翻译后修饰位点的预测算法 | |
Govender et al. | Benchmarking taxonomic classifiers with Illumina and Nanopore sequence data for clinical metagenomic diagnostic applications | |
Rashid et al. | Protein secondary structure prediction using a small training set (compact model) combined with a Complex-valued neural network approach | |
Pei et al. | CLADES: A classification‐based machine learning method for species delimitation from population genetic data | |
Ge et al. | Prediction of disease-associated nsSNPs by integrating multi-scale ResNet models with deep feature fusion | |
KR101770962B1 (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
Sherier et al. | Determining informative microbial single nucleotide polymorphisms for human identification | |
KR20180069651A (ko) | 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법 | |
Huang et al. | SySAP: a system-level predictor of deleterious single amino acid polymorphisms | |
KR102041504B1 (ko) | 환자 계층화를 위한 맞춤의학 분석 플랫폼 | |
McCallum et al. | Empirical Bayes scan statistics for detecting clusters of disease risk variants in genetic studies | |
CN111028885B (zh) | 一种检测牦牛rna编辑位点的方法及装置 | |
KR101853916B1 (ko) | 단백질 도메인의 생물경로 특이성 판단 방법, 및 이를 이용한 질병 유전자 발굴 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |