KR101295785B1

KR101295785B1 - 유전변이 데이터 베이스 구축 장치 및 방법

Info

Publication number: KR101295785B1
Application number: KR1020110112372A
Authority: KR
Inventors: 신수용; 권제근; 홍유진; 이승묵
Original assignee: 삼성에스디에스 주식회사
Priority date: 2011-10-31
Filing date: 2011-10-31
Publication date: 2013-08-12
Also published as: KR20130047384A

Abstract

본 발명의 실시예가 이루고자 하는 기술적 과제는, 차세대 시퀀싱(NGS)을 통해 획득한 유전변이를 이용한 질병 치료를 위해 유전변이-질병 연관관계 데이터베이스(DB)들의 질병 정보를 통합하여 연동시키고 이를 의료기관에서 사용하고 있는 국제표준코드를 기반으로 맵핑하여 의료기관에서 유전변이-질병 연관관계, 관련정보를 간편하게 활용할 수 있는 유전변이 데이터 베이스 구축 장치 및 방법을 제공하는데 있다.
본원발명에 따른 유전변이 데이터 베이스 구축 장치 및 방법에 의하면 의료기관의 기간계 시스템인 EMR (Electronic Medical Record) 시스템이나 OCS (Order Communication System)의 변경 없이 손쉽게 연동할 수 있는 효과가 있다.
본원 발명에 따른 유전변이 데이터 베이스 구축 장치 및 방법에 의하면 환자의 개인 정보를 익명화하는 등의 복잡한 과정을 거칠 필요 없으며, 국제표준 질병코드를 활용하여 유전변이-질병 정보를 획득할 수 있어 개인 정보 유출 등의 문제가 없다는 것이 특징이다.

Description

유전변이 데이터 베이스 구축 장치 및 방법{Apparatus and Method for Constructing Gene-Disease Relation Database}

본원 발명은 유전변이 데이터베이스 구축 장치 및 방법에 관한 것으로, 보다 상세하게는 특정 환자의 유전변이와 질병과의 상관관계를 쉽게 획득할 수 있는 유전 변이 데이터 베이스 구축 장치 및 방법에 관한 것이다.

미래 의학의 가장 큰 패러다임인 개인화된 의료(personalized medicine)를 실현하기 위해서는 개인의 유전변이를 파악하고, 유전변이와 관련이 있는 질병을 찾아내는 것이 가장 중요하다.

질병과 관련이 있는 유전 변이를 찾기 위한 연구들이 전세계에서 다양하게 진행되면서 연구 논문으로 발표되고 있다.

유전변이를 찾기 위한 연구활동에서 연구자들을 돕기 위해서 관련 논문들의 정보를 전문가의 큐레이션(curation)을 통하거나 아니면 자동화된 방법으로 정리해서 데이터베이스(database)화 하여 원척적으로 확보 하고 있다.

미국의 경우 NIH(미국국립보건원)에서 유전변이와 관련이 있는 질병 정보들을 관리하고 있다.

이미 유전변이-질병 연관성 데이터베이스들은 많이 구축되어 있고, 독일 Biobase사의 경우에는 해당 컨텐츠(contents)를 정리하여 HGMD (Human Gene Mutation Database)라는 상용서비스를 제공하고 있기도 하는 상황이다.

종래의 데이터베이스들은 모두 병원에서 의사들이 환자들을 치료하기 위해서 사용하는 것이 아니라, 연구자들을 대상으로 하면서 연구용으로 한정되어 사용되고 있는 실정이다.

그러나, 차세대 시퀀싱(Next Generation Sequencing, 이하 NGS) 기술의 발전으로 인해 의료 기관에서 차세대 시퀀싱(NGS)를 통해 염기서열 분석을 시작하였으며 환자의 진단에 해당 변이 정보를 부가적인 자료로 활용하기 시작하고 있다.

차세대 시퀀싱(NGS)은 염기서열분석을 의미하는 것으로, 분석기기의 발전 정도에 따라 세대를 구분하여 명명하고 있다.

현재는 2세대에 해당되며 NGS 기술의 발달에 힘입어 대용량 염기서열 정보가 전통적인 방법들에 비해 훨씬 쉽고 저비용으로 분석할 수 있게 되었다.

미국 Wisconsin 대학병원에서 염증성창자병(inflammatory bowel disease)를 가진 6살 환자에 대해서 차세대 시퀀싱(NGS)로 염기서열을 분석 하였고, 특정 변이를 발견하여 이를 기반으로 해당 환자의 치료법을 선택한 사례가 보고되었다 (Worthey et al., Making a definitive diagnosis: Successful clinical application of whole exome sequencing in a child with intractable inflammatory bowel disease, Genetics in Medicine, 13(3): 255-62, 2011). 그 외에도 다수의 병원들이 차세대 시퀀싱(NGS)을 진단에 활용하기 시작하고 있다.

이처럼 차세대 시퀀싱(NGS)를 병원에서 새로운 진단 기법으로 활용하기 시작하면서, NGS 분석 결과를 기존 병원의 시스템인 전자의무기록(EMR : Electronic Medic Record system) 등에 손쉽게 연결할 수 있는 방법에 대한 요구가 증가하고 있다.

차세대 시퀀싱(NGS) 분석 결과 활용을 위해 기존의 병원 전자의무기록(EMR)에 유전 정보를 포함시키는 기법이나, 기존 전자의무기록(EMR) 정보를 익명화해서 연구를 위해 유전 정보와 통합하는 방법 등에 대해서 연구되고 있었다.

그러나, 현실적으로 병원에서 차세대 시퀀싱(NGS) 결과를 쉽게 활용하기 위해서는 어떤 유전 변이 혹은 유전자가 해당 환자의 질환과 연관되어 있는지에 대해서 쉽고 빠르게 찾을 수 있어야 하고, 기존 기간계 시스템(전자의무기록(EMR 등)을 크게 변경하지 않고 쉽게 NGS 분석 정보를 확인할 수 있어야 한다.

종래의 구축된 데이터베이스들은 질병 명칭의 통합이 아닌 다른 특정 요소를 이용하여 관련 정보를 같이 보여주는 것으로 체계적 질병 명칭의 명시에는 제한적이다.

종래의 데이터베이스들이 이와 같은 형태로 구성된 것은 데이터의 원본이라 할 수 있는 대표적인 질병관련 데이터베이스(GAD, OMIM, HGMD)들이 표준화된 질병명을 사용하지 않고 각기 다른 기준에서 질병에 대한 정의를 내리고 있기 때문이다.

기존에 구축된 데이터베이스(DB) 대부분은 유전적 현상과 깊은 연관성을 가지고 있는 유전변이 또는 유전자를 기반으로 구축되었으며 유전자, 유전변이, 질병, 단백질, 문헌 등과 같은 정보를 포함하고 있다.

예를 들어 ssSNPTarget 데이터베이스(DB), VnD의 경우 각각 SNP와 단백질 구조에 대한 연구 목적을 가지지만 기본적인 데이터의 구성(유전자, 유전변이, 문헌정보 등)은 동일하다고 할 수 있다.

질병과 관련된 데이터베이스의 경우 연구자가 정보를 검색하기 위해 유사한 검색환경을 제공하고, 유전자 또는 유전변이를 기반으로 구축된 종래의 데이터베이스(DB)들이 대부분이기 때문에 유전자, 유전변이를 기반으로 이와 관련된 유전자 정보, 유전 변이 정보, 문헌정보 등을 보여주고 있다.

질병관련 데이터베이스(DB)라고는 하나 질병위주의 정보라 하기에는 무리가 있으며 특정 키워드와 관련된 질병들의 항목을 나열하는 수준이며 결과적으로 얻을 수 있는 정보는 각각 데이터베이스에 대한 질병명을 확인하는데 그친다.　

유전 변이 질병의 치료가 아닌 연구를 주목적으로 구축된 종래의 데이터베이스들을 의료기관에서 활용하기 위해서는 텍스트(text)로 저장된 질병 정보를 검색을 통해서 일일이 확인해 나가야 한다.

또한 질병 정보들이 표준화된 용어를 채용하고 있지 않기 때문에 실제 의료 기관에서 사용하고 있는 질병명과 일치하지 않는다는 문제점이 있다.　

본 발명의 실시예가 이루고자 하는 기술적 과제는, 차세대 시퀀싱(NGS)을 통해 획득한 유전변이를 이용한 질병 치료를 위해 유전변이-질병 연관관계 데이터베이스(DB)들의 질병 정보를 통합하여 연동시키고 이를 의료기관에서 사용하고 있는 국제표준코드를 기반으로 맵핑하여 의료기관에서 유전변이-질병 연관관계, 관련정보를 간편하게 활용할 수 있는 유전변이 데이터 베이스 구축 장치 및 방법을 제공하는데 있다.

상기 기술적 과제를 달성하기 위한 본 발명의 실시예에 따른 유전변이 데이터베이스 구축 장치는,입력 데이터를 기준값을 기초로 유전자 변이와 유전자 질병의 상관관계 데이터를 통합하는 데이터 통합부; 상기 유전자 질병의 국제표준코드 및 표준질병명칭을 기초로 상기 유전자 질병에 대한 부가 정보를 추출하는 부가 정보 획득부; 상기 유전자 질병의 표준질병명칭을 기초로 상기 유전자 질병의 국제표준코드 및 상기 상관관계 데이터를 맵핑하는 맵핑부; 및 상기 국제표준코드, 상기 표준질병 명칭, 상기 기준값 및 상기 부가 정보를 저장하는 저장부;를 포함하는 것을 특징으로 한다.

바람직하게는 상기 기준값은 상기 유전자 질병을 유발하는 유전자 이름 또는 상기 유전자변이의 염기서열인 것을 특징으로 한다.

바람직하게는 상기 데이터 통합부는 상기 상관 관계 데이터의 유전자 질병 명칭을 상기 표준질병명칭으로 대표명화하는 대표명화부;를 더 포함하는 것을 특징으로 한다.

바람직하게는 상기 부가 정보는상기 유전자 질병과 관련된 단일 염기 다형성 정보, 유전자 서열 정보, 유전자 변이 정보, 주석 정보 중 적어도 어느 하나이상을 포함하는 것을 특징으로 한다.

바람직하게는 상기 데이터 통합부는 중복된 상기 유전자 변이와 유전자 질병의 상관관계 데이터를 제거하는 필터링부;를 더 포함하는 것을 특징으로 한다.

바람직하게는 상기 국제 표준 코드는 ICD(Internation Classification of Disease) 또는 SNOMED(Systematized Nomenclature of Medicine)인 것을 특징으로 한다.

바람직하게는 상기 국제 표준 코드를 기초로 상기 유전자 질병의 치료를 수행하는 병원의 전자의무기록( EMR : Electronic Medical Record)시스템 또는 처방전달시스템(OCS : Order Communication System)과 연동 되는 것을 특징으로 한다.

바람직하게는 상기 부가정보는 상기 유전자 질병의 유전변이의 품질질수(QV : Quality Value)를 더 포함하고, 상기 유전변이의 품질지수를 기초로 사후확률(posterior Probability)를 구하는 것을 특징으로 한다.

상기 기술적 과제를 달성하기 위한 본 발명의 실시예에 따른 유전변이 데이터베이스 구축 방법은,입력 데이터를 기준값을 기초로 유전자 변이와 유전자 질병의 상관관계 데이터를 통합하는 데이터 통합단계; 상기 유전자 질병의 국제표준코드 및 표준질병명칭을 기초로 상기 유전자 질병에 대한 부가 정보를 추출하는 부가 정보 획득 단계; 상기 유전자 질병의 표준질병명칭을 기초로 상기 유전자 질병의 국제표준코드 및 상기 상관관계 데이터를 맵핑하는 맵핑단계; 및 상기 국제표준코드, 상기 표준질병 명칭, 상기 기준값 및 상기 부가 정보를 저장하는 저장 단계;를 포함하는 것을 특징으로 한다.

본원 발명에 따른 유전변이 데이터 베이스 구축 장치 및 방법에 의하면 유전변이- 질병과의 연관관계를 질병 명칭이 아닌 특정 요소에 의해 분류된 데이터베이스의 contents를 통합,관리하고, 의료기관에서 사용하고 있는 ICD (International Classification of Disease, 국제표준질병분류체계코드)를 기준으로 맵핑을 하여 손쉽게 유전변이-질병과의 연관관계 정보를 획득 활용할 수 있는 효과가 있다.

본원발명에 따른 유전변이 데이터 베이스 구축 장치 및 방법에 의하면 의료기관의 기간계 시스템인 EMR (Electronic Medical Record) 시스템이나 OCS (Order Communication System)의 변경 없이 손쉽게 연동할 수 있는 효과가 있다.

본원 발명에 따른 유전변이 데이터 베이스 구축 장치 및 방법에 의하면 환자의 개인 정보를 익명화하는 등의 복잡한 과정을 거칠 필요 없으며, 국제표준 질병코드를 활용하여 유전변이-질병 정보를 획득할 수 있어 개인 정보 유출 등의 문제가 없다는 것이 특징이다.

본원 발명에 의하면 의료기관에서 획득한 차세대 시퀀싱(NGS) 분석 정보를 활용할 수 있게 되어 유전적 특징에 의해 유발된 질병에 대하여 새로운 치료법 혹은 개인 맞춤형 치료법 개발 등 의료 분야에 큰 변화를 가져올 수 있다.

도 1은 본원 발명에 따른 유전변이 데이터 베이스 구축 장치 구성의 개요도를 보여주는 도면이다.
도 2는 본원 발명에 따른 유전변이 데이터 베이스 구축 장치의 실시예를 보여주는 도면이다.
도 3 은 본원 발명에 따른 유전변이 데이터베이스 구축 장치의 맵핑부의 개요를 보여주는 도면이다.
도 4는 하나의 유전자에 관계되는 여러 가지 유전자 질병 명칭의 일 실시예를 보여주는 도면이다.
도 5 는 하나의 유전자에 관계되는 유전자 질병 명칭의 유사명칭의 일 실시예를 보여주는 도면이다.
도 6은 본원발명에 따른 유전변이 데이터베이스 구축장치에 의한 유전변이 품질지수를 기초로 사후확률을 도출한 일 실시예를 보여주는 도면이다.
도 7은 본원발명에 따른 유전변이 데이터베이스 구축방법의 흐름도의 실시예를 보여주는 도면이다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본원 발명에 따른 유전변이 데이터 베이스 구축 장치 구성의 개요도를 보여주는 도면이다.

최근 차세대 시퀀싱(NGS) 기술의 발전에 힘입어 의료기관에서 NGS를 통해 획득한 유전변이 정보를 이용해 환자 진단이나 치료법 개발에 활용할 수 있다.

본원 발명은 특정 환자의 유전변이와 질병과의 상관관계를 쉽게 획득할 수 있는 유전 변이 데이터 베이스 구축 장치 및 방법에 관한 것으로, 상세하게는 전문가가 직접 큐레이션(curation) 작업을 수행하거나 실험적으로 또는 기계적으로 유전자 질병 치료를 수행하여 얻어진 결과를 입력, 저장하여 데이터베이스를 구축하는 노동 집약적인 방법에 의해 데이터베이스를 구축하는 것이 아니라, 이미 확립된 유전변이-유전질병의 상관관계에 대한 외부의 데이터베이스를 유전자 이름 등으로 통합 연동시키고, 이를 국제표준코드를 기초로 맵핑하여 통합 관리할 수 있도록 함으로써 의료기관에서 유전변이에 관련된 질병 진단에 활용도를 높이기 위한 것이 발명의 목적이다.

외부의 데이터베이스들은 각기 다른 기준에서 유전자 질병에 관한 데이터베이스를 운영하고 있어 병원에서 환자 각자의 유전적 특징을 고려하여 유전자 질병치료에 외부의 데이터베이스들의 컨텐츠(contents)를 활용하기가 거의 불가능하다.

본원발명은 이의 문제점을 해결하기 위한 것으로, 유전 변이 데이터베이스 구축 장치는 데이터 통합부(110), 부가정보 획득부(120), 맵핑부(130) 및 저장부(140)를 포함하여 이루어진다.

데이터 통합부(110)는 유전변이-질병 상관관계 정보를 가진 데이터베이스로부터 유전자 질병에 대한 복수개의 데이터를 입력받고 이를 기준값(관련 유전자 이름)을 기초로 분류, 통합한다.

기준값의 일 실시예로는 유전자 변이에 관여하는 유전자 이름이 될 수 있다.

부가정보 획득부(120)는 유전자 질병의 국제표준코드 및 표준질병명칭을 기초로 유전자 질병에 대한 부가 정보를 획득한다.

부가정보 획득부(120)에서 획득하는 부가정보는 유전자 질병의 단일 염기 다형성 정보, 유전자 서열 정보, 유전자 변이 정보, 주석 정보 등이 될 수 있다.

부가 정보는 public 데이터베이스로부터 획득할 수 있다.

맵핑부(130)는 표준질병 명칭을 기초로하여 데이터 통합부(110)에서 획득한 유전변이-유전자 질병 상관관계 데이터를 유전자 질병의 국제표준코드 및 부가정보와 매핑한다.

저장부(140)는 유전자 질병에 대한 국제표준코드, 표준 질병 명칭, 기준값인 유전자 이름 및 부가 정보를 저장한다.

도 2는 본원 발명에 따른 유전변이 데이터 베이스 구축 장치의 실시예를 보여주는 도면이다.

본원 발명의 유전변이 데이터 베이스 구축 장치는 유전변이-유전자 질병의 상관관계 정보를 가진 복수개의 데이터베이스(210)로부터 유전변이-유전자 질병의 상관관계 정보를 입력받는다.

다만, 각 데이터베이스(210)는 국제 표준 질병 코드, 질병 명칭이 아니라 유전자 이름또는 유전자 염기서열을 기초로 유전자 질병이나 치료에 관한 컨텐츠(contents)(예 단백질, 참고문헌)를 포함하고 있다.

데이터 베이스(210)는 유전변이-유전자 질병 상관관계 정보를 운영주체의 기준에 의해 개별적으로 분류, 관리함에 따라서 서로 다른 기준에 의해 운용되는 복수개의 데이터 베이스에서 유전변이-유전자 질병 상관관계 정보를 획득하여 활용하기 위해서는 특정 기준값으로 분류,통합하는 과정이 필수적으로 요구된다.

특정 기준값은 데이터 베이스(210)에서 공통적인 가지는 유전변이에 관여하는 유전자 이름 또는 유전자의 염기서열 등으로 설정할 수 있다.

데이터 통합부(201)는 복수개의 데이터 베이스의 유전변이-질병관련 정보를 하나의 기준값(관련 유전자 이름)으로 통합하며, 정보 추출을 위해 파서(parser)를 작성한다.

데이터 통합부(201)는 하나의 기준값(유전자 이름)으로 분류, 통합된 유전변이-유전자 질병의 상관관계 데이터는 비록 같은 유전자 이름으로 분류되었을지라도 유전자 질병은 명칭에 대해서는 표준화 과정을 거치지 아니하였기 때문에 여러가지 유사 질병 명칭을(도 5의 520) 가질 수 있다.

따라서 데이터 통합부(201)는 서로 다른 주체에 의해 관리되는 데이터 베이스로부터 표준화된 코드나 표준 질병명칭으로서 상관관계 데이터를 통합 관리하기 위해서는 서로 다른 유전자 질병 명칭을 가진 상관관계 데이터를 하나의 표준질병명칭으로 대표명화하는 대표명화부를 포함할 수 있다.

데이터 통합부(201)는 유전변이-질병 상관관계 정보를 용어 표준화 과정을 거치지 않고 유전자 이름등으로 관리함으로써 유전변이에 대하여 질병 명칭이 통일되지 아니하고 유사어, 동의어등이 아주 많기 때문에 중복된 상관관계 정보를 필터링 하기 위한 필터링부를 더 포함할 수 있다.

필터링 모듈은 전문가에 의한 curation을 하지 않고 기계적인 자동화에 의해 데이터베이스를 관리하는 경우에는 잘못된 정보를 수정하는 기능도 수행할 수 있다.

따라서 필터핑 모듈(filtering 모듈)(220)은 중복된 정보들을 제거하고, 잘못 입력된 정보를 추출하여 이를 수정하기 위한 것이다.

부가정보 획득부(202)는 데이터 베이스(210)에서 획득하지 못한 유전변이의 추가적인 정보, 단일 염기 다형성 정보, 유전자 서열 정보, 유전자 변이 정보, 주석 정보를 획득하는 것이다.

필요한 부가 정보를 public 데이터베이스(DB)(230)로부터 입력 받고, 국제표준질병코드 및 표준질병명칭을 통하여 public 데이터베이스(DB)(230)와 연동된다.

유전자 변이 정보는 유전자 질병과 관련된 직접 정보를 포함한 것으로 핵심정보 중 하나이다.

맵핑부(203)는 유전자 질병의 표준질병 명칭을 기초로 국제 표준 코드, 데이터통합부에서 획득한 유전변이-유전자 질병의 상관관계 데이터를 맵핑한다.

국제 표준 코드는 ICD(Internation Classification of Disease) 또는 SNOMED(Systematized Nomenclature of Medicine)에 따른다.

저장부(204)는 맵핑부의 맵핑 결과를 저장한다.

본원 발명의 유전변이 데이터 베이스 구축 장치(200)는 국제 표준 코드를 기초로 유전자 질병의 치료를 수행하는 병원의 전자의무기록( EMR : Electronic Medical Record)시스템(미도시) 또는 처방전달시스템(OCS : Order Communication System)(미도시)과 연동된다.

본원 발명의 유전변이 데이터 베이스 구축 장치(200)는 유전변이의 품질지수(QV)를 활용하여 데이터베이스(210)에서 발견된 유전변이의 신뢰도를 나타내기 위한 사후확률을 구할 수 있다.

병원의 전자의무기록( EMR : Electronic Medical Record)시스템(미도시) 또는 처방전달시스템(OCS : Order Communication System)(미도시)과 연동은 표준질병코드 또는 표준질병명칭을 통해서 수행된다.

병원정보시스템에서도 동일한 질병 코드를 사용하고 있기 때문에 일치하는 코드를 찾아서 병원정보시스템에 통합 데이터베이스(DB)의 정보를 출력해 주는 것으로 연동 작업은 쉽게 이루어 질 수 있다.

본원 발명에 따른 유전변이 데이터베이스 구축 장치 및 방법은 유전변이-질병 상관관계 정보 획득을 위하여 특정 유전자 이름이나 유전자 염기 서열을 기초로 하는 것이 아니라 국제표준 질병 코드 또는 표준화된 질병 명칭을 기초로 하여 각 데이터베이스와 연계되는 것을 특징으로 한다.

표준화된 국제표준 질병 코드 또는 표준화된 질병명칭으로 유전변이와 관계되는 다양한 유전자, 단백질, 변이 정보를 획득할 수 있다.

본원 발명에 따른 유전변이 데이터베이스 구축 장치 및 방법은 표준질병 코드 또는 질병 명칭에 의해 유전변이-질병 상관관계 데이터나 부가정보를 획득할 수 있다.

도 3 은 본원 발명에 따른 유전변이 데이터베이스 구축 장치의 맵핑부의 개요를 보여주는 도면이다.

본원 발명에 따른 유전변이 데이터베이스 구축 장치의 특징은 국제 표준코드나 표준질병명칭으로 유전변이-질병의 상관관계 데이터를 확보하여 제공하는 것이다.

종래의 데이터베이스에서 획득할 수 있는 유전변이-질병의 상관관계 데이터는 하나의 기준값(유전자 이름)을 가진다 할지라도 유전자 질병은 명칭에 대해서는 표준화 과정을 거치지 아니하였기 때문에 여러가지 유사 질병 명칭을(도 5의 520) 가질 수 있다.

따라서, 유전변이에 관계하는 유전자의 이름이 아닌 질병명칭에 의해 종래의 데이터베이스와 연동될 수 있도록 종래의 데이터베이스에서 같은 유전자 이름을 가진 데이터의 질병 명칭에 대한 통일화가 요구된다.

따라서 데이터 통합부(201)는 서로 다른 주체에 의해 관리되는 데이터 베이스로부터 표준화된 코드나 표준 질병명칭으로서 데이터를 통합 관리하기 위해서는 서로 다른 유전자 질병 명칭을 가진 상관관계 데이터를 하나의 표준질병명칭으로 대표명화하는 대표명화부를 포함할 수 있다.

도 3은 본원발명에서 국제표준코드(ICD code table)(301)와 서로 다른 주체에 의해 운영되는 복수개의 데이터베이스의 질병명칭(304)의 일 실시예를 보여주는 것이다.

종래의 유전-질병 데이터베이스(DB)들은 유전자 이름 또는 유전자 서열 기준으로 관리가 되기 때문에, 하나의 유전변이에 복수의 질병 명이 data entry로 들어가 있을 수 있다.

도 4는 하나의 유전자에 관계되는 여러 가지 유전자 질병 명칭의 일 실시예를 보여주는 도면이다.

여러 개의 질병명칭으로 분류된 데이터의 질병명칭 대표명화 과정은 아래와 같은 과정에 의해 이루어진다.

기계학습 기법에서 사용하는 classifier를 각각의 데이터베이스(DB)에 대해 학습시켜 질병명을 구분해 주는 규칙과 프로그램을 자동으로 생성할 수 있다.

또는 질병명으로 분리한 이후에, 동일한 질병에 대해서도 다양한 명칭(도면 5 참고)을 사용할 수 있기 때문에, synonym들이 정리되어 있는 UMLS 혹은 MeSH (Medical Subject Heading: http://www.ncbi.nlm.nih.gov/mesh)와 같은 thesaurus 및 서비스를 활용하여 질병 코드에서 사용하는 대표명을 정한 이후, 유사어들을 전부 일치시키면 된다.

도 5 는 하나의 유전자에 관계되는 유전자 질병 명칭의 유사명칭의 일 실시예를 보여주는 도면이다.

표준질병 명칭으로 대표명화 하는 과정에서 기존 데이터베이스(DB)들의 용어에 오타가 있는 경우에는 기존의 exact string matching algorithm을 활용하여 용어들을 비교하고, 특정 threshold 값을 결정하여 해당 값 이상의 경우에는 오타라고 판단하여 동일한 용어라고 판단할 수도 있다.

또는 유사어(synonym)으로 정리는 되어 있지 않으나 같은 의미로 사용되는 용어들이 있다면 (ex. Type II, diabetes; Diabetes, type II; Diabetes, type 2; Type 2, diabetes; T2DM 등. 여기서 보여주는 것은 단순한 예시일 뿐임) 추가과정이 필요할 수 있다.

이 경우에는 localized dictionary를 만드는 방법 또는 NLP (Natural Language Processing) 기법을 활용하는 방법 등이 있을 수 있다.

질병 명칭에 대한 정리가 끝나면 각 데이터베이스(DB)들의 용어를 대표질명명칭으로 변경한다.

대표명화된 수행된 다음에 맵핑부의 표준질병명칭과 상관관계 데이터에서 대표명화된 유전자 질병 명칭과의 연동은 exact string matching 기법 등을 활용한다.

도 6은 본원발명에 따른 유전변이 데이터베이스 구축장치에 의한 유전변이 품질지수를 기초로 사후확률을 도출한 일 실시예를 보여주는 도면이다.

본원 발명에 따른 유전변이 데이터베이스 구축장치는 데이터베이스의 정보에 대한 신뢰도를 함께 제공할 수 있다.

부가정보에 베이지안(Bayesian) 방법을 이용하여 유전변이의 품질지수(quality value, 이하 QV)가 포함된 경우, 데이터베이스에서 발견될 사후확률(posterior probability)를 구할 수 있다.

데이터베이스에서 유전변이가 발견되는 경우를 데이터베이스(DB)+라고 하고, 발견되지 않는 경우를 데이터베이스(DB)-라고 하자.

데이터베이스에서 유전변이가 발견될 사후확률은

으로 정의할 수 있다.

수학식1에 의해 계산된 사후확률은 주어진 유전변이가 해당 데이터베이스에서 발견될 수 있을 확률로서 데이터베이스에서 발견된 유전변이를 얼마나 신뢰할 수 있는가를 나타낸다고 할 수 있다.

도 6은 유전변이들의 품질지수에 대한 분포를 나타내는 하나의 예제로서 질환에 연관된 유전변이들이 데이터베이스에 속하는지 아닌지에 대한 분포를 나타내고 있다.

또한 Curve-fitting을 이용하면 데이터베이스(DB)+와 데이터베이스(DB)-에 대한 각각의 분포를 구할 수 있다. 이 분포를 이용하여 데이터베이스에서 발견된 유전변이의 신뢰성을 나타내는 사후확률을 계산할 수 있다.

유전변이의 품질지수(QV)는 여러 정보로부터 획득할 수 있는데, p-value, case-control group size 등에서부터 차세대 시퀀싱 결과인 경우에는 시퀀싱 결과로 주어지는 Phred score 등을 활용하여 계산할 수 있다.

도 7은 본원발명에 따른 유전변이 데이터베이스 구축방법의 흐름도의 실시예를 보여주는 도면이다.

본원 발명에 따른 유전변이 데이터베이스 구축방법은 입력 데이터를 기준값(유전자 이름 또는 유전자의 염기 서열)을 기초로 유전자 변이와 유전자 질병의 상관관계 데이터를 분류, 통합한다(S710).

데이터 통합 과정에서 상관 관계 데이터의 유전자 질병 명칭을 국제 표준질병명칭으로 대표명화하는 대표명화 과정을 더 포함할 수 있다.

데이터 통합 단계는 중복된 유전자 변이와 유전자 질병의 상관관계 데이터를 제거하는 필터링 단계 더 포함할 수 있다.

유전자 질병의 국제표준코드 및 표준질병명칭을 기초로 유전자 질병에 대한 부가 정보를 추출한다(S720).

부가정보는 유전자 질병과 관련된 단일 염기 다형성 정보, 유전자 서열 정보, 유전자 변이 정보, 주석 정보이 된다.

유전자 질병의 표준질병명칭을 기초로 유전자 질병의 국제표준코드 및 상관관계 데이터를 맵핑한다(S730).

국제표준코드, 상기 표준질병 명칭, 상기 기준값 및 상기 부가 정보를 저장한다(S740).

국제 표준 코드는 ICD(Internation Classification of Disease) 또는 SNOMED(Systematized Nomenclature of Medicine)이다.

본원발명의 유전변이 데이터베이스 구축 방법은 국제 표준 코드를 기초로 상기 유전자 질병의 치료를 수행하는 병원의 전자의무기록( EMR : Electronic Medical Record)시스템 또는 처방전달시스템(OCS : Order Communication System)과 연동되는 단계에 적용될 수 있다.

본원발명에 따른 유전변이 데이터베이스 구축 방법은 부가정보에 유전자 질병의 유전변이의 품질질수(QV: Quality Value)를 더 포함하고, 유전변이의 품질지수를 기초로 사후확률(posterior Probability)를 제공할 수 도 있다.

　본원 발명에 따른 유전변이 데이터베이스 구축 장치 및 방법은 표준화 코드를 기반으로 한 유전변이 데이터베이스는 기존에 중복되고 체계화되지 않았던 질병 관련 정보를 효과적으로 관리할 수 있고, 또한 병원정보시스템의 연동이 가능하다.

차세대시퀀싱(NGS)라는 최신 생명공학기술을 이용해 개인에 대한 대량의 데이터가 쏟아지는 현재에 이러한 질병관련 정보의 체계화는 의료진의 의사결정에 필요한 다양한 연구정보를 제공하게 되며 향후 환자정보를 기반으로 한 연구를 통해 맞춤의학 및 예방의학에 한 걸음 더 다가 설 수 있다.　

이상에서와 같이 도면과 명세서에서 최적 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

적어도 하나 이상의 데이터베이스에 포함된 유전자 변이와 유전자 질병의 상관관계 데이터를, 유전자 이름 또는 염기서열을 기준값으로 하여 분류하고 통합하는 데이터 통합부;
상기 유전자 질병의 국제표준코드 및 표준질병명칭을 기초로 상기 유전자 질병에 대한 부가 정보를 추출하는 부가 정보 획득부;
상기 유전자 질병의 표준질병명칭을 기초로 상기 유전자 질병의 국제표준코드 및 상기 상관관계 데이터를 맵핑하는 맵핑부; 및
상기 국제표준코드, 상기 표준질병 명칭, 상기 기준값 및 상기 부가 정보를 저장하는 저장부;를 포함하는 것을 특징으로 하는 유전변이 데이터베이스 구축 장치.
제 1 항에 있어서, 상기 기준값은
상기 유전자 질병을 유발하는 유전자 이름 또는 상기 유전자변이의 염기서열인 것을 특징으로 하는 유전변이 데이터베이스 구축 장치.
제 1 항에 있어서, 상기 데이터 통합부는
상기 상관 관계 데이터의 유전자 질병 명칭을 상기 표준질병명칭으로 대표명화하는 대표명화부;를 더 포함하는 것을 특징으로 하는 유전변이 데이터베이스 구축 장치.
제 1 항에 있어서, 상기 부가 정보는
상기 유전자 질병과 관련된 단일 염기 다형성 정보, 유전자 서열 정보, 유전자 변이 정보, 주석 정보 중 적어도 어느 하나이상을 포함하는 것을 특징으로 하는 유전변이 데이터베이스 구축 장치.
제 1 항에 있어서, 상기 데이터 통합부는
중복된 상기 유전자 변이와 유전자 질병의 상관관계 데이터를 제거하는 필터링부;를 더 포함하는 것을 특징으로 하는 유전변이 데이터베이스 구축 장치.
제 1 항에 있어서,
상기 국제 표준 코드는 ICD(Internation Classification of Disease) 또는 SNOMED(Systematized Nomenclature of Medicine)인 것을 특징으로 하는 유전변이 데이터베이스 구축 장치.
제 1 항에 있어서,
상기 국제 표준 코드를 기초로 상기 유전자 질병의 치료를 수행하는 병원의 전자의무기록(EMR : Electronic Medical Record)시스템 또는 처방전달시스템(OCS : Order Communication System)과 연동 되는 것을 특징으로 하는 유전변이 데이터베이스 구축 장치.
제 1 항에 있어서,
상기 부가정보는 상기 유전자 질병의 유전변이의 품질질수(QV: Quality Value)를 더 포함하고, 상기 유전변이의 품질지수를 기초로 사후확률(posterior Probability)를 구하는 것을 특징으로 하는 유전변이 데이터베이스 구축 장치.
적어도 하나 이상의 데이터베이스에 포함된 유전자 변이와 유전자 질병의 상관관계 데이터를, 유전자 이름 또는 염기서열을 기준값으로 하여 분류하고 통합하는 데이터 통합 단계;
상기 유전자 질병의 국제표준코드 및 표준질병명칭을 기초로 상기 유전자 질병에 대한 부가 정보를 추출하는 부가 정보 획득 단계;
상기 유전자 질병의 표준질병명칭을 기초로 상기 유전자 질병의 국제표준코드 및 상기 상관관계 데이터를 맵핑하는 맵핑단계; 및
상기 국제표준코드, 상기 표준질병 명칭, 상기 기준값 및 상기 부가 정보를 저장하는 저장 단계;를 포함하는 것을 특징으로 하는 유전변이 데이터베이스 구축 방법.
제 9 항에 있어서, 상기 기준값은
상기 유전자 질병을 유발하는 유전자 이름 또는 상기 유전자변이의 염기서열인 것을 특징으로 하는 유전변이 데이터베이스 구축 방법.
제 9 항에 있어서, 상기 데이터 통합 단계는
상기 상관 관계 데이터의 유전자 질병 명칭을 상기 표준질병명칭으로 대표명화하는 대표명화 단계;를 더 포함하는 것을 특징으로 하는 유전변이 데이터베이스 구축 방법.
제 9 항에 있어서, 상기 부가 정보는
상기 유전자 질병과 관련된 단일 염기 다형성 정보, 유전자 서열 정보, 유전자 변이 정보, 주석 정보 중 적어도 어느 하나이상을 포함하는 것을 특징으로 하는 유전변이 데이터베이스 구축 방법.
제 9 항에 있어서, 상기 데이터 통합 단계는
중복된 상기 유전자 변이와 유전자 질병의 상관관계 데이터를 제거하는 필터링 단계;를 더 포함하는 것을 특징으로 하는 유전변이 데이터베이스 구축 방법.
제 9 항에 있어서,
상기 국제 표준 코드는 ICD(Internation Classification of Disease) 또는 SNOMED(Systematized Nomenclature of Medicine)인 것을 특징으로 하는 유전변이 데이터베이스 구축 방법.
제 9 항에 있어서,
상기 국제 표준 코드를 기초로 상기 유전자 질병의 치료를 수행하는 병원의 전자의무기록(EMR : Electronic Medical Record)시스템 또는 처방전달시스템(OCS : Order Communication System)과 연동 되는 것을 특징으로 하는 유전변이 데이터베이스 구축 방법.
제 9 항에 있어서,
상기 부가정보는 상기 유전자 질병의 유전변이의 품질질수(QV: Quality Value)를 더 포함하고, 상기 유전변이의 품질지수를 기초로 사후확률(posterior Probability)를 구하는 것을 특징으로 하는 유전변이 데이터베이스 구축 방법.