KR20150076293A - 변이 정보의 어노테이션 방법 및 장치 - Google Patents

변이 정보의 어노테이션 방법 및 장치 Download PDF

Info

Publication number
KR20150076293A
KR20150076293A KR1020130163609A KR20130163609A KR20150076293A KR 20150076293 A KR20150076293 A KR 20150076293A KR 1020130163609 A KR1020130163609 A KR 1020130163609A KR 20130163609 A KR20130163609 A KR 20130163609A KR 20150076293 A KR20150076293 A KR 20150076293A
Authority
KR
South Korea
Prior art keywords
database
key value
field
predetermined
annotation
Prior art date
Application number
KR1020130163609A
Other languages
English (en)
Inventor
김상희
김광중
이미숙
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020130163609A priority Critical patent/KR20150076293A/ko
Publication of KR20150076293A publication Critical patent/KR20150076293A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자 변이 정보의 어노테이션(annotation) 방법에 있어서, 게놈에 관한 복수의 데이터베이스들을 획득하는 단계; 기 설정된 필드 명들에 대응하는 복수의 데이터베이스들의 필드 값들을 제 1 키 값으로 하여 복수의 데이터베이스들을 통합한 통합 게놈 데이터베이스를 생성하는 단계; 및 기 설정된 필드 명들에 대응하는 필드 값들을 제 2 키 값으로 포함하는 사용자 변이 정보 데이터베이스를 통합 게놈 데이터베이스에 매칭시켜 어노테이션(annotation) 데이터베이스를 생성하는 단계를 포함하는 것을 특징으로 하는 본 발명의 일 실시예에 따른 변이 정보의 어노테이션 방법이 개시된다.

Description

변이 정보의 어노테이션 방법 및 장치 {METHOD AND APPARATUS FOR ANNOTATING VARIATION INFORMATON}
본 발명은 변이 정보의 어노테이션 방법 및 장치에 관한 것이다. 보다 구체적으로, 본 발명은 사용자의 유전자 변이 정보를 어노테이션하는 어노테이션 방법 및 장치에 관한 것이다.
유전체 시퀀싱 결과물에서 추출된 변이 정보의 생물학적 및 유전학적 의미를 해석하는 작업을 어노테이션(annotation)이라고 하며, 이는 생물 정보학(bioinformatics)의 가장 일반적인 작업이다. 기본적으로 이러한 어노테이션은 생물학 연구자가 하나하나 찾아내야 하지만, 게놈 프로젝트와 같이 대량의 정보 처리(high-throughput)가 필요한 상황에서는 컴퓨터를 이용한 빠른 처리가 필요하기 때문에 현재 이러한 생물 정보학적 방법론은 게놈 프로젝트에서 매우 중요한 부분을 담당하고 있다.
대용량의 유전체 시퀀싱 결과물에서 변이 정보를 추출하여, 추출된 변이 정보가 생물학적 및 질병 관점에서 어떠한 의미가 있는지를 분석 또는 해석하려면 다양한 유전학 및 생물학적 지식이 필요하다. 생물 정보학은 주로 웹에서 조회 가능한 여러 데이터베이스를 비교 분석하여 필요한 정보를 수집 하는데, 이를 위해 각각의 데이터베이스가 제공하는 정보가 무엇인지, 어떻게 조회되어 결과가 도출되는지, 또는 조회 키 값이 무엇인지에 대한 기본 지식이 필요하다. 또한, 생물학 분야 특성상 이러한 데이터베이스는 지속적으로 변경되고 새로운 데이터베이스가 출시되면 기존의 조회 프로세스를 다시 수동으로 변경해야 하는 등, 많은 노력이 필요하다.
레퍼런스 게놈 데이터베이스의 구축은 유전체 해석 서비스에 중요한 요소이며 대용량의 변이 정보에서 유용하고 연구 가치가 있는 변이만을 추출해 내는데 중심 역할을 한다. 일반 검색 시스템과 비교하여, 데이터베이스의 주된 역할은 사용자의 샘플 데이터를 키 값으로 하여 최대한 많은 정보를 매칭시키는 것이다. 다시 말해, 광대한 사용자의 샘플 데이터에서 가장 중요한 정보만을 추출하여야 하므로 1차적으로는 되도록이면 많은 정보를 샘플 데이터에 어노테이션하여 각각의 데이터가 어떤 의미인지를 확인하고, 또한 필요 시 여러 데이터베이스를 비교 분석하여 새로운 정보를 추출할 수 있어야 한다. 
본 발명의 일 실시예에 따른 변이 정보의 어노테이션 방법 및 장치는 사용자의 변이 정보에 대한 어노테이션을 효율적으로 수행하는 것을 목적으로 한다.
또한, 본 발명의 일 실시예에 따른 변이 정보의 어노테이션 방법 및 장치는 통합 게놈 데이터베이스의 정보들을 사용자 변이 정보에 최대한 많이 매칭시키는 것을 목적으로 한다.
또한, 본 발명의 일 실시예에 따른 변이 정보의 어노테이션 방법 및 장치는 사용자에게 보다 정확한 필터링 결과를 제공하는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 변이 정보의 어노테이션 방법은,
사용자 변이 정보의 어노테이션(annotation) 방법에 있어서, 게놈에 관한 복수의 데이터베이스들을 획득하는 단계; 기 설정된 필드 명들에 대응하는 상기 복수의 데이터베이스들의 필드 값들을 제 1 키 값으로 하여 상기 복수의 데이터베이스을 통합한 통합 게놈 데이터베이스를 생성하는 단계; 및 상기 기 설정된 필드 명들에 대응하는 필드 값들을 제 2 키 값으로 포함하는 사용자 변이 정보 데이터베이스를 상기 통합 게놈 데이터베이스에 매칭시켜 어노테이션(annotation) 데이터베이스를 생성하는 단계를 포함할 수 있다.
상기 통합 게놈 데이터베이스를 생성하는 단계는, 상기 제 1 키 값을 포함하는 필드들을 제외한 상기 통합 게놈 데이터베이스의 필드들 중 상기 제 1 키 값에 대응하는 필드 값이 존재하지 않는 필드가 존재하는 경우, 필드 값의 부존재를 나타내는 식별자를 해당 필드에 포함시키는 단계를 포함할 수 있다.
상기 통합 게놈 데이터베이스를 생성하는 단계는, 상기 통합 게놈 데이터베이스의 소정의 제 1 키 값을 변경하여 상기 변경된 소정의 제 1 키 값을 포함하는 레코드를 상기 통합 게놈 데이터베이스에 추가하는 단계를 포함할 수 있다.
상기 추가하는 단계는, 상기 소정의 제 1 키 값에 대응하는 상기 통합 게놈 데이터베이스의 필드 값들 중 상기 소정의 제 1 키 값이 변경되더라도 변경되지 않은 필드 값을 상기 레코드에 포함시키는 단계를 포함할 수 있다.
상기 기 설정된 필드 명들은, 염색체 번호, 염색체 위치, 기준 염기 및 변경 염기를 포함할 수 있다.
상기 추가하는 단계는, 상기 소정의 제 1 키 값으로부터 상기 변경 염기의 종류를 변경하여 상기 소정의 제 1 키 값을 변경하는 단계를 포함할 수 있다.
상기 통합 게놈 데이터베이스는, 유전자의 종류를 나타내는 필드 명에 대응하는 필드 값들을 포함하되, 상기 추가하는 단계는, 상기 유전자의 종류를 나타내는 필드 명에 대응하는 상기 통합 게놈 데이터베이스의 필드 값들 중 상기 소정의 제 1 키 값에 대응하는 필드 값을, 상기 레코드에 포함시키는 단계를 포함할 수 있다.
상기 통합 게놈 데이터베이스를 생성하는 단계는, 상기 기 설정된 필드 명들 중 일부의 필드 명에 대응하는 제 1 서브 키 값이 존재하지 않는 소정의 제 1 키 값이 상기 통합 게놈 데이터베이스에 존재하는 경우, 임의의 제 1 서브 키 값을 상기 소정의 제 1 키 값에 추가하고, 상기 임의의 제 1 서브 키 값이 추가된 상기 소정의 제 1 키 값을 포함하는 레코드를 상기 통합 게놈 데이터베이스에 추가하는 단계를 포함할 수 있다.
상기 추가하는 단계는, 상기 소정의 제 1 키 값에 대응하는 상기 통합 게놈 데이터베이스의 필드 값들 중 상기 임의의 제 1 서브 키 값이 상기 소정의 제 1 키 값에 추가되더라도 변경되지 않은 필드 값을 상기 레코드에 포함시키는 단계를 포함할 수 있다.
상기 어노테이션 데이터베이스를 생성하는 단계는, 상기 제 1 키 값을 제외한 상기 통합 게놈 데이터베이스의 필드 값들 중 상기 사용자 변이 정보 데이터베이스의 제 2 키 값에 대응하는 필드 값들을 상기 사용자 변이 정보 데이터베이스에 추가하여 상기 어노테이션 데이터베이스를 생성하는 단계를 포함할 수 있다.
본 발명의 다른 실시예에 따른 어노테이션 장치는,
사용자 변이 정보를 어노테이션(annotation)하는 변이 정보의 어노테이션 장치에 있어서, 게놈에 관한 복수의 데이터베이스들을 획득하는 수신부; 기 설정된 필드 명들에 대응하는 상기 복수의 데이터베이스들의 필드 값들을 제 1 키 값으로 하여 상기 복수의 데이터베이스들을 통합한 통합 게놈 데이터베이스를 생성하는 통합 DB 생성부; 및 상기 기 설정된 필드 명들에 대응하는 필드 값들을 제 2 키 값으로 포함하는 사용자 변이 정보 데이터베이스를 상기 통합 게놈 데이터베이스에 매칭시켜 어노테이션(annotation) 데이터베이스를 생성하는 어노테이션부를 포함할 수 있다.
본 발명의 일 실시예에 따른 변이 정보의 어노테이션 방법 및 장치는 사용자의 변이 정보에 대한 어노테이션을 효율적으로 수행할 수 있다.
또한, 본 발명의 일 실시예에 따른 변이 정보의 어노테이션 방법 및 장치는 통합 게놈 데이터베이스의 정보들을 사용자 변이 정보에 최대한 많이 매칭시킬 수 있다.
또한, 본 발명의 일 실시예에 따른 변이 정보의 어노테이션 방법 및 장치는 사용자에게 보다 정확한 필터링 결과를 제공할 수 있다.
도 1은 일반적인 어노테이션 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 어노테이션 장치를 도시하는 개념도이다.
도 3은 본 발명의 일 실시예에 따른 어노테이션 방법의 순서를 도시하는 순서도이다.
도 4a는 게놈에 관한 복수의 데이터베이스를 도시하는 도면이고, 도 4b는 도 4a에 도시된 복수의 데이터베이스를 기초로 본 발명의 일 실시예에 따라 생성된 통합 게놈 데이터베이스를 도시하는 도면이다.
도 5는 도 3의 S320 단계를 상세하게 도시하는 순서도이다.
도 6a는 사용자 변이 정보 데이터베이스와 도 4b에 도시된 게놈 통합 데이터베이스를 도시하는 도면이고, 도 6b는 도 6a에 도시된 사용자 변이 정보 데이터베이스와 게놈 통합 데이터베이스에 기초하여 생성된 어노테이션 데이터베이스를 도시하는 도면이다.
도 7은 본 발명의 다른 실시예에 따라 생성되는 통합 게놈 데이터베이스를 도시하는 도면이다.
도 8은 본 발명의 일 실시예에 따른 어노테이션 장치의 구성을 도시하는 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 실시예에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.
또한, 본 명세서에서 데이터베이스의 '필드'는 하나의 데이터 값이 포함될 수 있는 엘리먼트를 의미하며, '필드 값'은 '필드'에 포함된 데이터 값을 의미한다. 또한, '레코드'는 하나의 열에 포함된 '필드'의 집합을 의미하며, '필드 명'은 하나의 행에 포함된 '필드'에 포함되는 '필드 값'의 대표 명칭을 의미한다.
도 1은 일반적인 어노테이션 방법을 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 일반적인 어노테이션 방법은 사용자의 샘플에서 추출된 사용자 변이 정보(10)를 순차적으로 복수의 데이터베이스(21, 22) 각각에 조회하고, 복수의 데이터베이스(21, 22) 각각으로부터 출력되는 어노테이션 데이터(11, 12)를 사용자의 변이 정보(10)에 순차적으로 추가시킨다. 그러나, 이러한 일반적인 어노테이션 방법은 여러 개의 데이터베이스(21, 22)를 통합 처리 하지 않고 개별적으로 조회하여 사용자의 변이 정보(10)를 매핑시키므로 어노테이션 시간이 오래 걸린다는 단점이 있다. 특히나 여러 개의 샘플을 분석 하고자 할 때, 각각의 샘플마다 전체 데이터베이스(21, 22)를 조회하므로, 시스템에 과도한 부하를 줄 수 있다는 문제점이 있다.
도 2는 본 발명의 일 실시예에 따른 어노테이션 장치(100)를 도시하는 개념도이다.
본 발명의 일 실시예에 따른 어노테이션 장치(100)는 게놈에 관한 복수의 데이터베이스(200)를 통합하여 게놈 통합 데이터베이스(300)를 생성한다. 또한, 본 발명의 일 실시예에 따른 어노테이션 장치(100)는 사용자 변이 정보 데이터베이스(400)가 획득되면, 사용자 변이 정보 데이터베이스(400)와 게놈 통합 데이터베이스(300)를 이용하여 어노테이션 데이터베이스(500)를 생성한다.
즉, 본 발명의 일 실시예에 따른 어노테이션 장치(100)는 복수의 데이터베이스(200)를 통합한 게놈 통합 데이터베이스(300)를 기초로 어노테이션을 수행하므로, 전술한 일반적인 어노테이션 방법에 비해 걸리는 시간이 적으며, 시스템에 가해지는 과도한 부하를 경감시킬 수 있다.
이하에서는, 도 3을 참조하여, 본 발명의 일 실시예에 따른 어노테이션 장치(100)의 구체적인 동작을 설명한다.
도 3은 본 발명의 일 실시예에 따른 어노테이션 방법의 순서를 도시하는 순서도이다.
S310 단계에서, 어노테이션 장치(100)는 게놈에 관한 복수의 데이터베이스들을 획득한다. 어노테이션 장치(100)는 게놈에 관한 복수의 데이터베이스들을 외부 서버로부터 수신할 수도 있다.
S320 단계에서, 어노테이션 장치(100)는 기 설정된 필드 명들에 대응하는 복수의 데이터베이스들의 필드 값들을 제 1 키 값으로 하여 복수의 데이터베이스들을 통합한 통합 게놈 데이터베이스를 생성한다.
기 설정된 필드 명들은 염색체 번호, 염색체 위치, 기준 염기 및 변경 염기를 포함할 수 있으나, 이에 한정되지 않는다. 기 설정된 필드 명들이 염색체 번호, 염색체 위치, 기준 염기 및 변경 염기와 문자 자체로 동일하지는 않더라도 염색체 번호, 염색체 위치, 기준 염기 및 변경 염기의 의미와 동일한 의미로 사용되는 필드 명들도 본 발명에 포함될 수 있다.
복수의 데이터베이스들 각각이 사용하는 키 값은 데이터베이스들마다 상이하기 때문에, 본 발명의 일 실시예에 따른 어노테이션 장치(100)는 복수의 데이터베이스들의 키 값을 재정렬하여 어노테이션의 효율성을 높일 수 있다.
복수의 데이터베이스 각각은 기 설정된 필드 명들에 대응하는 필드 값들을 모두 포함할 수도 있고, 일부만 포함할 수도 있다.
S330 단계에서, 어노테이션 장치(100)는 기 설정된 필드 명들에 대응하는 필드 값들을 제 2 키 값으로 포함하는 사용자 변이 정보 데이터베이스를 통합 게놈 데이터베이스에 매칭시킨다.
사용자 변이 정보 데이터베이스는 사용자에 대한 유전체 검사 결과 도출된 것으로서, 변이 발생 위치 및 변이 종류 등에 대한 정보를 포함할 수 있다.
사용자 변이 정보 데이터베이스는 염색체 번호, 염색체 위치, 기준 염기 및 변경 염기에 대한 필드 값들을 제 2 키 값으로 포함할 수 있으며. 어노테이션 장치(100)는 사용자 변이 정보 데이터베이스의 제 2 키 값과 통합 게놈 데이터베이스의 제 1 키 값을 서로 매칭시킬 수 있다.
S340 단계에서, 어노테이션 장치(100)는 S330 단계에서의 매칭 결과에 기초하여 어노테이션 데이터베이스를 생성한다. 구체적으로, 어노테이션 장치(100)는 제 1 키 값을 제외한 통합 게놈 데이터베이스의 필드 값들 중 사용자 변이 정보 데이터베이스의 제 2 키 값에 대응하는 필드 값들을 사용자 변이 정보 데이터베이스에 추가시킴으로써 어노테이션 데이터베이스를 생성할 수 있다.
사용자는 어노테이션 데이터베이스를 통해 유전자 변이 정보로부터 도출되는 유전학적, 질병학적 의미를 확인할 수 있다.
본 발명의 일 실시예에 따른 어노테이션 장치(100)는 게놈에 관한 복수의 데이터베이스를 제 1 키 값을 기준으로 통합함으로써, 시스템에 대한 부하와 어노테이션에 필요한 시간을 감소시킬 수 있다. 또한, 새로운 데이터베이스가 획득되더라도 통합 게놈 데이터베이스에 쉽게 추가시킬 수 있다.
이하에서는, 도 4a와 도 4b를 참조하여, 본 발명의 일 실시예에 따라 통합 게놈 데이터베이스를 생성하는 방법에 대해 설명한다.
도 4a는 게놈에 관한 복수의 데이터베이스(210, 220, 230)를 도시하는 도면이고, 도 4b는 도 4a에 도시된 복수의 데이터베이스(210, 220, 230)를 기초로 본 발명의 일 실시예에 따라 생성된 통합 게놈 데이터베이스(300)를 도시하는 도면이다.
도 4a를 보면, A 데이터베이스(210)는 필드 명으로서, 염색체 번호, 위치, 기준 염기, 변경 염기 및 1000G를 포함하고, B 데이터베이스(220)는 필드 명으로서, 염색체 번호, 위치, 기준 염기, 변경 염기 및 유전자를 포함하며, C 데이터베이스(230)는 필드 명으로서, 염색체 번호, 위치, 기준 염기, 변경 염기 및 Conservation을 포함하고 있다.
어노테이션 장치(100)는 염색체 번호, 위치, 기준 염기 및 변경 염기에 대응하는 필드 값들을 기준으로 A 데이터베이스(210), B 데이터베이스(220) 및 C 데이터베이스(230)를 통합한다. 도 4b는 염색체 번호, 위치, 기준 염기 및 변경 염기의 필드 값들을 제 1 키 값(320)으로 하여 통합된 통합 게놈 데이터베이스(300)를 도시하고 있다.
어노테이션 장치(100)는 제 1 키 값(320)을 포함하는 필드들을 제외한 통합 게놈 데이터베이스(300)의 필드들 중 제 1 키 값(320)에 대응하는 필드 값이 존재하지 않는 필드가 존재하는 경우, 필드 값을 0으로 할당하지 않고, 필드 값의 부존재를 나타내는 식별자(330)를 해당 필드에 포함시킬 수 있다.
도 4b를 보면, A 데이터베이스(210), B 데이터베이스(220) 및 C 데이터베이스(230)에 존재하지 않았던 필드 값들에 대해서는 통합 게놈 데이터베이스(300)에서 필드 값의 부존재를 나타내는 식별자인 'unknown'으로 표시된 것을 확인할 수 있다. 이는 사용자에게 보다 정확한 필터링 결과를 제공하기 위함이다.
예를 들어, 사용자가 1000G가 0.3보다 작은 변이 정보를 검색하고자 하는 경우, 도 4a에 도시된 A 데이터베이스(210), B 데이터베이스(220), C 데이터베이스(230)에서는 1 1003 AA와, 1 1004 C라는 변이 정보가 검색될 것이지만, 도 4b에 도시된 통합 게놈 데이터베이스(300)에서는 1 1003 AA와, 1 1004 C라는 변이 정보뿐만 아니라, 1 1002 A G의 변이 정보의 1000G 값이 'unknown'이라는 검색 결과를 도출할 수도 있다.
또한, 같은 종류의 여러 데이터베이스를 함께 필터링할 경우, 예를 들어, 제 1 빈도수 데이터베이스와 제 2 빈도수 데이터베이스를 대상으로 필터링을 할 경우, 통합 게놈 데이터베이스(300)에서는 제 1 빈도수 데이터베이스와 제 2 빈도수 데이터베이스 내에서 빈도수 필드 값을 갖지 않는 변이 정보만을 별도로 추출 할 수 있지만, 제 1 빈도수 데이터베이스와 제 2 빈도수 데이터베이스를 개별적으로 검색 할 경우에는 이러한 정보를 추출 할 수 없다.
즉, 다시 말하면, 어노테이션 장치(100)는 통합 게놈 데이터베이스(300)에 필드 값의 부존재를 나타내는 식별자를 필드에 포함시킴으로써, 정확한 필터링 결과를 도출할 수 있고, 필드 값의 부존재를 필터링 옵션을 활용할 수도 있다.
도 5는 도 3의 S320 단계를 상세하게 도시하는 순서도이다. 도 5는 어노테이션 장치(100)가 통합 게놈 데이터베이스를 확장하는 방법에 대해 설명하고 있다.
S510 단계에서, 어노테이션 장치(100)는 통합 게놈 데이터베이스의 소정의 제 1 키 값을 변경한다. 예를 들어, 어노테이션 장치(100)는 염색체 번호, 염색체 위치, 기준 염기 및 변경 염기의 필드 값들 중 변경 염기의 필드 값들을 다른 값으로 변경할 수 있다.
S520 단계에서, 어노테이션 장치(100)는 소정의 제 1 키 값에 대응하는 통합 게놈 데이터베이스의 필드 값들 중 상기 소정의 제 1 키 값이 변경되더라도 변경되지 않은 필드 값을 선택한다. 예를 들어, 소정의 제 1 키 값이 변경되더라도 변경되지 않은 필드 값은 유전자의 종류를 나타내는 필드 명의 필드 값을 포함할 수 있다. 유전자 변이 정보는 유전자의 일부 위치에서 발생되므로, 변경 염기의 종류가 변경되더라도 유전자의 종류는 동일하다.
S530 단계에서, 어노테이션 장치(100)는 변경된 소정의 제 1 키 값과 상기 선택된 필드 값을 레코드에 포함시켜 통합 게놈 데이터베이스에 추가한다.
본 발명의 일 실시예에 따른 어노테이션 장치(100)는 유전자 변이 정보의 특성에 맞춰 통합 게놈 데이터베이스를 확장시킴으로써, 사용자 유전 정보 데이터베이스에 매칭되는 정보들을 최대한으로 증가시킬 수 있다.
도 6a는 사용자 변이 정보 데이터베이스(400)와 도 4b에 도시된 게놈 통합 데이터베이스(300)를 도시하는 도면이고, 도 6b는 도 6a에 도시된 사용자 변이 정보 데이터베이스(400)와 게놈 통합 데이터베이스(300)에 기초하여 생성된 어노테이션 데이터베이스(500)를 도시하는 도면이다.
전술한 바와 같이, 어노테이션 장치(100)는 통합 게놈 데이터베이스(300)의 제 1 키 값을 제외한 필드 값들 중 사용자 변이 정보 데이터베이스(400)의 제 2 키 값에 대응하는 필드 값들을 사용자 변이 정보 데이터베이스(400)에 추가하여 어노테이션 데이터베이스(500)를 생성할 수 있다.
도 6a를 보면, 사용자 변이 정보 데이터베이스(400)에서 필드 명인 염색체 번호, 위치, 기준 염기 및 변경 염기의 필드 값들이 제 2 키 값에 해당되고, 게놈 통합 데이터베이스(300)에서 필드 명인 염색체 번호, 위치, 기준 염기 및 변경 염기의 필드 값들이 제 1 키 값에 해당된다.
도 6b를 참조하면, 사용자 변이 정보 데이터베이스(400)에서 염색체 번호 1, 위치 1002, 기준 염기 A, 변경 염기 T를 포함하는 제 2 키 값(510)과 염색체 번호 1, 위치 1004, 기준 염기 C, 변경 염기 A를 포함하는 제 2 키 값(520)에는 어느 데이터도 추가되지 않은 것을 알 수 있다.
이는 해당 제 2 키 값(510, 520)에 매칭되는 제 1 키 값들이 통합 게놈 데이터베이스(300)에 존재하지 않기 때문이다.
도 7은 본 발명의 다른 실시예에 따라 생성되는 통합 게놈 데이터베이스(700)를 도시하는 도면이다.
본 발명의 일 실시예에 따른 어노테이션 장치(100)는 통합 게놈 데이터베이스(700)를 확장하기 위해, 먼저 소정의 제 1 키 값을 변경한다. 도 7을 보면, 염색체 번호 1, 위치 1002, 기준 염기 A 및 변경 염기 G를 포함하는 제 1 키 값(710)의 제 1 서브 키 값인 변경 염기 G를 변경 염기 C와 변경 염기 T로 변경한 변경된 제 1 키 값(722, 724)을 도시하고 있다. 다음으로, 어노테이션 장치(100)는 소정의 제 1 키 값(710)에 대응하는 필드 값들 중 제 1 서브 키 값인 변경 염기의 필드 값이 변경되더라도 변경되지 않은 필드 값을 선택한다. 전술한 바와 같이, 유전자의 종류는 변경 염기의 종류가 변경되더라도 변경되지 않으므로, 소정의 제 1 키 값(710)에 대응하는 필드 값들 중 제 1 서브 키 값인 변경 염기의 필드 값이 변경되더라도 변경되지 않은 필드 값으로서 ABC(712)가 선택될 수 있다. 어노테이션 장치(100)는 변경된 소정의 제 1 키 값(722, 724)과, ABC(712)를 포함하는 레코드(720)를 통합 게놈 데이터베이스(700)에 추가시킬 수 있다.
만약, 도 6a에 도시된 사용자 유전 변이 데이터베이스(400)를 도 7에 도시된 통합 게놈 데이터베이스(700)에 매칭시킨 경우, 염색체 번호 1, 위치 1002, 기준 염기 A, 변경 염기 T를 포함하는 제 2 키 값(510)에는 유전자 종류를 나타내는 ABC 필드 값이 매칭될 것이다.
또한, 어노테이션 장치(100)는 기 설정된 필드 명들 중 일부의 필드 명에 대응하는 제 1 서브 키 값이 존재하지 않는 소정의 제 1 키 값(730)이 통합 게놈 데이터베이스(700)에 존재하는 경우, 임의의 제 1 서브 키 값을 소정의 제 1 키 값(730)에 추가할 수 있다.
도 7을 보면, 염색체 번호 1, 위치 1004 및 기준 염기 C를 포함하는 소정의 제 1 키 값(730)은 제 1 서브 키 값인 변경 염기의 필드 값을 포함하지 않는다는 것을 알 수 있다.
어노테이션 장치(100)는 변경 염기의 필드 값이 존재하지 않는 소정의 제 1 키 값(730)에 임의의 제 1 서브 키 값을 추가시킬 수 있다. 또한, 어노테이션 장치(100)는 소정의 제 1 키 값(730)에 대응하는 통합 게놈 데이터베이스(700)의 필드 값들 중 상기 임의의 제 1 서브 키 값이 상기 소정의 제 1 키 값(730)에 추가되더라도 변경되지 않는 필드 값을 선택한다. 변경 염기의 종류가 변경 또는 추가되더라도 유전자의 종류에는 영향을 끼치지 않으므로, 어노테이션 장치(100)는 염색체 번호 1, 위치 1004 및 기준 염기 C를 포함하는 소정의 제 1 키 값(730)에 대응하는 유전자 종류인 unknown(732)을 선택할 수 있다.
어노테이션 장치(100)는 임의의 제 1 서브 키 값이 추가된 소정의 제 1 키 값(742, 744, 746)과 상기 선택된 필드 값(732)을 레코드(740)에 포함시켜 통합 게놈 데이터베이스(700)에 추가한다. 도 7을 보면, 염색체 번호 1, 위치 1004, 기준 염기 C와, 변경 염기 A, G 및 T를 포함하는 제 1 키 값(742, 744, 746)과, 유전자 종류의 필드 값으로서 unknown을 포함하는 레코드(740)가 통합 게놈 데이터베이스(700)에 추가된 것을 확인할 수 있다. 이에 따라, 도 6a에 도시된 사용자 유전 변이 데이터베이스(400)에서 염색체 번호 1, 위치 1004, 기준 염기 C 및 변경 염기 A를 포함하는 제 2 키 값(520)에는 유전자 종류로서 unknown이 매칭될 것이다.
도 8은 본 발명의 일 실시예에 따른 어노테이션 장치(800)의 구성을 도시하는 블록도이다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 어노테이션 장치(800)는 수신부(810), 통합 DB 생성부(830) 및 어노테이션부(850)를 포함할 수 있다.
수신부(810)는 게놈에 관한 복수의 데이터베이스들을 획득한다. 수신부(810)는 저장부(미도시)에 저장된 복수의 데이터베이스들을 획득할 수 있고, 외부 서버로부터 복수의 데이터베이스들을 소정 네트워크를 통해 수신할 수도 있다.
통합 DB 생성부(830)는 기 설정된 필드 명들에 대응하는 복수의 데이터베이스들의 필드 값들을 제 1 키 값으로 하여 복수의 데이터베이스들을 통합한 통합 게놈 데이터베이스를 생성한다.
또한, 통합 DB 생성부(830)는 통합 게놈 데이터베이스의 필드 값들 중 소정의 제 1 키 값이 변경되더라도 변경되지 않는 필드 값을 선택하고, 변경된 소정의 제 1 키 값과 선택된 필드 값을 레코드에 포함시켜 통합 게놈 데이터베이스에 추가할 수 있다.
또한, 통합 DB 생성부(830)는 기 설정된 필드 명들 중 일부의 필드 명에 대응하는 제 1 서브 키 값이 존재하지 않는 소정의 제 1 키 값이 통합 게놈 데이터베이스에 존재하는 경우, 임의의 제 1 서브 키 값을 소정의 제 1 키 값에 추가하고, 임의의 제 1 서브 키 값이 추가된 소정의 제 1 키 값과, 소정의 제 1 키 값에 대응하는 통합 게놈 데이터베이스의 필드 값들 중 임의의 제 1 서브 키 값이 소정의 제 1 키 값에 추가되더라도 변경되지 않는 필드 값을 레코드에 포함시켜 통합 게놈 데이터베이스에 추가할 수도 있다.
어노테이션부(850)는 기 설정된 필드 명들에 대응하는 필드 값들을 제 2 키 값으로 포함하는 사용자 변이 정보 데이터베이스를 통합 게놈 데이터베이스에 매칭시켜 어노테이션(annotation) 데이터베이스를 생성한다.
또한, 본 발명의 일 실시예에 따른 어노테이션 장치(800)는 전송부(870)를 더 포함할 수 있다. 전송부(870)는 어노테이션부(850)에 의해 생성된 어노테이션 데이터베이스를 사용자의 단말을 포함한 외부 장치로 전송할 수 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100, 800: 어노테이션 장치
810: 수신부
830: 통합 DB 생성부
850: 어노테이션부
870: 전송부

Claims (11)

  1. 사용자 변이 정보의 어노테이션(annotation) 방법에 있어서,
    게놈에 관한 복수의 데이터베이스들을 획득하는 단계;
    기 설정된 필드 명들에 대응하는 상기 복수의 데이터베이스들의 필드 값들을 제 1 키 값으로 하여 상기 복수의 데이터베이스을 통합한 통합 게놈 데이터베이스를 생성하는 단계; 및
    상기 기 설정된 필드 명들에 대응하는 필드 값들을 제 2 키 값으로 포함하는 사용자 변이 정보 데이터베이스를 상기 통합 게놈 데이터베이스에 매칭시켜 어노테이션(annotation) 데이터베이스를 생성하는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  2. 제1항에 있어서,
    상기 통합 게놈 데이터베이스를 생성하는 단계는,
    상기 제 1 키 값을 포함하는 필드들을 제외한 상기 통합 게놈 데이터베이스의 필드들 중 상기 제 1 키 값에 대응하는 필드 값이 존재하지 않는 필드가 존재하는 경우, 필드 값의 부존재를 나타내는 식별자를 해당 필드에 포함시키는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  3. 제1항에 있어서,
    상기 통합 게놈 데이터베이스를 생성하는 단계는,
    상기 통합 게놈 데이터베이스의 소정의 제 1 키 값을 변경하여 상기 변경된 소정의 제 1 키 값을 포함하는 레코드를 상기 통합 게놈 데이터베이스에 추가하는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  4. 제3항에 있어서,
    상기 추가하는 단계는,
    상기 소정의 제 1 키 값에 대응하는 상기 통합 게놈 데이터베이스의 필드 값들 중 상기 소정의 제 1 키 값이 변경되더라도 변경되지 않은 필드 값을 상기 레코드에 포함시키는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  5. 제4항에 있어서,
    상기 기 설정된 필드 명들은,
    염색체 번호, 염색체 위치, 기준 염기 및 변경 염기를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  6. 제5항에 있어서,
    상기 추가하는 단계는,
    상기 소정의 제 1 키 값으로부터 상기 변경 염기의 종류를 변경하여 상기 소정의 제 1 키 값을 변경하는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  7. 제6항에 있어서,
    상기 통합 게놈 데이터베이스는,
    유전자의 종류를 나타내는 필드 명에 대응하는 필드 값들을 포함하되,
    상기 추가하는 단계는,
    상기 유전자의 종류를 나타내는 필드 명에 대응하는 상기 통합 게놈 데이터베이스의 필드 값들 중 상기 소정의 제 1 키 값에 대응하는 필드 값을, 상기 레코드에 포함시키는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  8. 제1항에 있어서,
    상기 통합 게놈 데이터베이스를 생성하는 단계는,
    상기 기 설정된 필드 명들 중 일부의 필드 명에 대응하는 제 1 서브 키 값이 존재하지 않는 소정의 제 1 키 값이 상기 통합 게놈 데이터베이스에 존재하는 경우, 임의의 제 1 서브 키 값을 상기 소정의 제 1 키 값에 추가하고, 상기 임의의 제 1 서브 키 값이 추가된 상기 소정의 제 1 키 값을 포함하는 레코드를 상기 통합 게놈 데이터베이스에 추가하는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  9. 제8항에 있어서,
    상기 추가하는 단계는,
    상기 소정의 제 1 키 값에 대응하는 상기 통합 게놈 데이터베이스의 필드 값들 중 상기 임의의 제 1 서브 키 값이 상기 소정의 제 1 키 값에 추가되더라도 변경되지 않은 필드 값을 상기 레코드에 포함시키는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  10. 제1항에 있어서,
    상기 어노테이션 데이터베이스를 생성하는 단계는,
    상기 제 1 키 값을 제외한 상기 통합 게놈 데이터베이스의 필드 값들 중 상기 사용자 변이 정보 데이터베이스의 제 2 키 값에 대응하는 필드 값들을 상기 사용자 변이 정보 데이터베이스에 추가하여 상기 어노테이션 데이터베이스를 생성하는 단계를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 방법.
  11. 사용자 변이 정보를 어노테이션(annotation)하는 변이 정보의 어노테이션 장치에 있어서,
    게놈에 관한 복수의 데이터베이스들을 획득하는 수신부;
    기 설정된 필드 명들에 대응하는 상기 복수의 데이터베이스들의 필드 값들을 제 1 키 값으로 하여 상기 복수의 데이터베이스들을 통합한 통합 게놈 데이터베이스를 생성하는 통합 DB 생성부; 및
    상기 기 설정된 필드 명들에 대응하는 필드 값들을 제 2 키 값으로 포함하는 사용자 변이 정보 데이터베이스를 상기 통합 게놈 데이터베이스에 매칭시켜 어노테이션(annotation) 데이터베이스를 생성하는 어노테이션부를 포함하는 것을 특징으로 하는 변이 정보의 어노테이션 장치.
KR1020130163609A 2013-12-26 2013-12-26 변이 정보의 어노테이션 방법 및 장치 KR20150076293A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130163609A KR20150076293A (ko) 2013-12-26 2013-12-26 변이 정보의 어노테이션 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130163609A KR20150076293A (ko) 2013-12-26 2013-12-26 변이 정보의 어노테이션 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20150076293A true KR20150076293A (ko) 2015-07-07

Family

ID=53789252

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130163609A KR20150076293A (ko) 2013-12-26 2013-12-26 변이 정보의 어노테이션 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20150076293A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021149913A1 (ko) * 2020-01-22 2021-07-29 가톨릭대학교 산학협력단 Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
WO2022145877A1 (ko) * 2020-12-29 2022-07-07 주식회사 피터페터 주기적으로 업데이트 되는 유전자 변이 검사 결과 리포트 자동 발행 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021149913A1 (ko) * 2020-01-22 2021-07-29 가톨릭대학교 산학협력단 Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
KR20210094783A (ko) * 2020-01-22 2021-07-30 가톨릭대학교 산학협력단 Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
WO2022145877A1 (ko) * 2020-12-29 2022-07-07 주식회사 피터페터 주기적으로 업데이트 되는 유전자 변이 검사 결과 리포트 자동 발행 시스템

Similar Documents

Publication Publication Date Title
Li Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences
Guarracino et al. ODGI: understanding pangenome graphs
Neukamm et al. DamageProfiler: fast damage pattern calculation for ancient DNA
Belinky et al. PathCards: multi-source consolidation of human biological pathways
Huang et al. Short read alignment with populations of genomes
Huang et al. mSignatureDB: a database for deciphering mutational signatures in human cancers
Conesa et al. Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research
Ghiurcuta et al. Evaluating synteny for improved comparative studies
US20080281529A1 (en) Genomic data processing utilizing correlation analysis of nucleotide loci of multiple data sets
CN110532019B (zh) 一种软件代码片段历史追溯的方法
Clement et al. AmpUMI: design and analysis of unique molecular identifiers for deep amplicon sequencing
Thiel et al. Analyzing HT-SELEX data with the Galaxy Project tools–A web based bioinformatics platform for biomedical research
Pache et al. NetAligner—a network alignment server to compare complexes, pathways and whole interactomes
Akers et al. STAR Chimeric Post for rapid detection of circular RNA and fusion transcripts
Bao et al. BRANCH: boosting RNA-Seq assemblies with partial or related genomic sequences
Orabi et al. Alignment-free clustering of UMI tagged DNA molecules
Huang et al. Integration of string and de Bruijn graphs for genome assembly
Thielecke et al. genBaRcode: a comprehensive R-package for genetic barcode analysis
Girgis et al. Identity: rapid alignment-free prediction of sequence alignment identity scores using self-supervised general linear models
Saripella et al. Benchmarking the next generation of homology inference tools
US20210074379A1 (en) Methods for detecting variants in next-generation sequencing genomic data
Wee et al. GALAXY Workflow for Bacterial Next‐Generation Sequencing De Novo Assembly and Annotation
Dishuck et al. GAVISUNK: genome assembly validation via inter-SUNK distances in Oxford Nanopore reads
Moshiri ViralConsensus: a fast and memory-efficient tool for calling viral consensus genome sequences directly from read alignment data
KR20150076293A (ko) 변이 정보의 어노테이션 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination