KR101858020B1 - 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법 - Google Patents

바이러스 유전체의 분류학적 기반 데이터베이스 구축방법 Download PDF

Info

Publication number
KR101858020B1
KR101858020B1 KR1020150183441A KR20150183441A KR101858020B1 KR 101858020 B1 KR101858020 B1 KR 101858020B1 KR 1020150183441 A KR1020150183441 A KR 1020150183441A KR 20150183441 A KR20150183441 A KR 20150183441A KR 101858020 B1 KR101858020 B1 KR 101858020B1
Authority
KR
South Korea
Prior art keywords
virus
sequence
database
taxonomic
information
Prior art date
Application number
KR1020150183441A
Other languages
English (en)
Other versions
KR20170074335A (ko
Inventor
김영창
강신덕
Original Assignee
주식회사 이노아이엔씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이노아이엔씨 filed Critical 주식회사 이노아이엔씨
Priority to KR1020150183441A priority Critical patent/KR101858020B1/ko
Publication of KR20170074335A publication Critical patent/KR20170074335A/ko
Application granted granted Critical
Publication of KR101858020B1 publication Critical patent/KR101858020B1/ko

Links

Images

Classifications

    • G06F19/28
    • G06F19/18
    • G06F19/24

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템 및 구축방법에 관한 것으로서, 더욱 상세하게는 시시각각 변하는 방대한 양의 유전자 정보를 효과적으로 이용하고 의료 연구에 효과적으로 적용될 수 있도록 유전자 데이터를 큐레이팅하고 일반적인 분석 도구들과 연계를 높여 체계적인 신종 변종 바이러스의 분석을 용이하게 하기 위한 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템 및 구축방법에 관한 것이다.
본 발명은 바이러스의 서열특성별 분류와 분류학적 분류를 동시에 수행하여 데이터베이스를 구축함으로써 동종간의 유전자 변이에 대한 검색 및 분석 속도를 증가시킬 수 있다.
또한 본 발명은 바이러스의 데이터베이스를 세분화 하였으며 바이러스 유전자 분석에 집중되어 있는 시스템을 확장하여 바이러스 분표 및 추적 관리가 가능하도록 시스템을 확장하여 바이러스에 대한 통합시스템으로서의 기반을 확보할 수 있는 효과가 있다.

Description

바이러스 유전체의 분류학적 기반 데이터베이스 구축방법{A building method of virus genome database based on taxonomy}
본 발명은 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템 및 구축방법에 관한 것으로서, 더욱 상세하게는 시시각각 변하는 방대한 양의 유전자 정보를 효과적으로 이용하고 의료 연구에 효과적으로 적용될 수 있도록 유전자 데이터를 큐레이팅하고 일반적인 분석 도구들과 연계를 높여 체계적인 신종 변종 바이러스의 분석을 용이하게 하기 위한 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템 및 구축방법에 관한 것이다.
바이오인포매틱스(bioinformatics)는 생명공학 산업 중의 한 분야로, 생명공학기술(biotechnololgy)과 정보기술(information technology)이 융합하여 생명 현상 관련 연구에서 나오는 다양한 정보를 수집, 관리, 저장, 분석하는 데 필요한 제반 분야를 말한다.
바이오인포매틱스는 제약, 농업, 화학, 환경에 이르는 다양한 산업에 많은 영향을 미치며 향후 5~10년 내에 관련 기술의 발전과 더불어 여러 혁신적 성과들이 가시화될 전망이다.
바이오인포매틱스는 1980년대 후반 개별 생물학자들이 발견한 여러 생물의 DNA 정보를 수록하는 공공의 데이터베이스가 만들어지면서부터 급속히 발전하게 되었다.
일찍이 선진국들은 방대한 양의 지놈(게놈) 및 유전자 정보를 체계적으로 수집ㆍ관리하는 국가 차원의 센터를 두고 관련 기술을 발전시켜 왔다.
대표적인 예로, 미국은 1988년 국립보건원(National Institutes of Health: NIH) 산하에 국립 생물정보센터(National Center for Biotechnology Information: NCBI)를 설립하여 생물학 데이터베이스를 구축하고 지놈 데이터 분석을 위한 각종 소프트웨어를 개발하였다.
유럽 연합은 1992년 유럽 분자생물학 연구소(European Molecular Biology Laboratory: EMBL) 산하에 바이오인포매틱스를 연구하고 서비스하는 생물정보연구원(European Bioinformatics Institute: EBI)을 두었으며, 1995년 일본의 생명정보연구센터(Center for Information Biology: CIB)는 국립유전학연구소(National Institute of Genetics: NIG) 부설로 설립되어 DNA 데이터 은행(DNA Data Bank of Japan: DDBJ)을 운영하고 있다.
1990년 다국적 컨소시엄인 HGP(Human Genome Project)의 시작으로 2001년 2월 인간 지놈 지도 완성에 이르면서 대량의 생물학 데이터가 생산되었다. 그리하여, 전세계 생물학 데이터베이스의 수는 500 여 개에 이르고 있으며, 6개월 단위로 데이터양이 두 배씩 증가되고 있는 실정이다.
초기 생물학 데이터는 서열과 3차원 구조에 관한 정보가 대부분을 이루었으나, 현재 DNA 칩을 이용한 gene expression profile 등 새로운 종류의 생물학적 의미를 가진 데이터가 생산되고 있다.
이러한 정보를 제공하는 생물학 관련 데이터베이스는 그 초점을 어디에 두는가에 따라 여러 가지 방식으로 데이터를 가공하고 표현한다. 현재, 생물학 전반에 걸친 정보를 제공하는 데이터베이스로부터 특정 화합물이나 기능에 대한 아주 자세한 정보를 제공하는 데이터베이스에 이르기까지 다양하며, 기존 데이터베이스로부터 특정 생물정보를 검색하여 효율적으로 재구성한 새로운 데이터베이스들이 구축되고 있다.
생물학자에 의해 발견된 기본적인 생물학적 데이터를 저장한 데이터베이스에는 DNA 염기 서열의 GenBank, EMBL, DDBJ(DNA Data Bank of Japan)가 대표적인 공개 데이터베이스로, 생물학자나 유전체 서열 프로젝트 등에 의한 직접 등록을 통해 데이터를 수집하고 있다. 서로 다른 데이터 포맷을 사용하는 이들은 국제 뉴클레오티드 서열 데이터베이스 협력(International Nucleotide Sequence Database Collaboration)의 그룹 원으로 하루에 한 번씩 데이터를 교환함으로써 동일한 분류 체계와 특징 목록(feature table)을 공유하고 있다.
기존의 바이러스 뿐 아니라 사회를 떠들썩하게 하는 신종 변종 바이러스들은 그 영향력이 인간의 건강과 생명에 직접적인 관련이 있기 때문에 관심이 집중되고 있다.
바이러스에 대한 치료는 예방이 가장 우선시 된다. 이를 위해서는 바이러스의 유전자 등록, 관리, 조건별 탐색 등이 체계적으로 수행되어야 하며 이를 통해 연구자들이 원하는 정보를 수집하고 활용하여 바이러스에 대한 치료 및 관리가 가능하다.
해외의 NCBI(National Center for Biotechnology Information), ICTV(International Committee on Taxonomy of Viruses) 등과 같은 유전체 연구 기관에서는 바이러스를 비롯한 유전체의 정보를 데이터베이스 형태로 무료 공개하며, 모든 유전체의 정보에 주석을 부여한 데이터베이스 형태로 가공하여 제공한다.
국내외의 바이러스 관련 데이터베이스 구축은 유전자 변형을 분석하기 위한 DB 구축이 중요한 연구과제가 되고 있으나 현재 제공되는 바이러스 DB는 바이러스 유전체 서열의 특성에 따라서 분류되어 있어 변형된 유사서열을 검색하기 위해서는 서열의 특성에 따라 분류된 전체 DB를 검색하여야 하므로, 긴 서열의 경우 검색 속도의 저하 및 유사성 없는 서열 등을 추출하는 등 여러 가지 오류를 발생시키고 있는 문제점이 있다.
한편 한국공개특허 제10-2000-0072527호, 한국등록특허 제10-0790870호 및 한국등록특허 제10-1482010호는 컴퓨터 통신망을 통해 유전자 데이터베이스를 이용한 질병정보를 제공하기 위한 장치, 유전자 서열 검색방법 및 전체 유전체 서열분석을 위한 초고속 범용 검색장치를 개시하고 있다.
한국공개특허 제10-2000-0072527호 한국등록특허 제10-0790870호 한국등록특허 제10-1482010호
본 발명은 상기 종래 기술의 문제점을 해결하기 위한 것으로서, 바이러스를 ICTV 분류학에 기초하여 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 분류하는 동시에 서열특성에 따라 분류함으로써 동종간의 유전자 변이에 대한 검색이 빠르고 검색의 오류를 줄일 수 있는 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템을 제공하는데 그 목적이 있다.
또한 본 발명은 DB를 세분화 하여 시시각각 변하는 방대한 양의 유전자 정보를 효과적으로 이용하고 의료 연구에 효과적으로 적용될 수 있도록 유전자 데이터를 큐레이팅하고 일반적인 분석 도구들과 연계를 높여 체계적인 신종 변종 바이러스의 분석을 용이하게 하기 위한 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법을 제공하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위하여 본 발명은 유전자은행(GenBank)에서 제공하는 유전자의 정보 중 바이러스와 관련된 정보를 수집하는 바이러스정보수집부(100); 상기 바이러스정보수집부(100)로부터 수집된 정보의 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하는 포맷변환부(200); 분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류하는 바이러스분류부(300); 및 상기 바이러스분류부(300)로부터 서열특성별 및 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 Blast(Basic Local Alignment Search Tool) 데이터베이스를 생성하는 데이터베이스구축부(400)를 포함하는 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템을 제공한다.
본 발명의 일 실시예에 있어서, 상기 포맷변환부(200)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하는 것을 특징으로 한다.
본 발명의 일 실시예에 있어서, 상기 바이러스분류부(300)는 서열의 특성에 따라 파일명을 구분하여 생성하는 것을 특징으로 한다.
본 발명의 일 실시예에 있어서, 상기 데이터베이스구축부(400)는 makeblastdb를 이용하여 Blast 데이터베이스를 생성하는 것을 특징으로 한다.
또한 본 발명은 컴퓨터를 포함하는 연산처리수단에 의하여 실행되는 프로그램 형태로 이루어지며, 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템을 이용한 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법에 있어서, 바이러스정보수집부(100)가 유전자은행(GenBank)으로부터 바이러스와 관련된 정보를 수집하는 바이러스정보수집 단계(S10); 포맷변환부(200)가 상기 바이러스정보수집부(100)로부터 수집된 정보를 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하는 포맷변환 단계(S20); 바이러스분류부(300)가 분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류하는 바이러스분류 단계(S30); 및 데이터베이스구축부(400)가 상기 바이러스분류부(300)로부터 서열특성별 및 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 Blast(Basic Local Alignment Search Tool) 데이터베이스를 생성하는 데이터베이스구축 단계(S40)를 포함하는 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법을 제공한다.
본 발명의 일 실시예에 있어서, 상기 바이러스정보수집 단계(S10)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하는 것을 특징으로 한다.
본 발명의 일 실시예에 있어서, 상기 바이러스분류 단계(S30)는 서열의 특성에 따라 파일명을 구분하여 생성하는 것을 특징으로 한다.
본 발명의 일 실시예에 있어서, 상기 데이터베이스구축 단계(S40)는 makeblastdb를 이용하여 Blast 데이터베이스를 생성하는 것을 특징으로 한다.
또한 본 발명은 상기 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체를 제공한다.
아울러 본 발명은 상기 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법을 구현하기 위해, 컴퓨터 판독 가능한 기록매체에 저장된 프로그램을 제공한다.
본 발명은 바이러스의 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하되, 바이러스를 ICTV 분류학에 기초하여 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 분류하는 동시에 서열의 특성에 따라 분류함으로써 동종간의 유전자 변이에 대한 검색이 빠르고 검색의 오류를 줄일 수 있다.
또한 본 발명은 바이러스의 데이터베이스를 세분화 하였으며 바이러스 유전자 분석에 집중되어 있는 시스템을 확장하여 바이러스 분표 및 추적 관리가 가능하도록 시스템을 확장하여 바이러스에 대한 통합시스템으로서의 기반을 확보할 수 있는 효과가 있다.
아울러 서열특성별 분류와 분류학적 분류를 동시에 수행함으로써 동종간의 유전자 변이에 대한 검색 및 분석 속도를 증가시킬 수 있는 효과가 있다.
본 발명은 신변종 바이러스에 대한 백신 개발의 기본이 되는 유전자 분석이 용이하고, 분류학적 데이터베이스와 GenBank 파일의 메타정보를 연계하여 바이러스 서열 등록 분포에 대한 맵을 구현할 수 있다.
또한 본 발명은 시퀀싱에 의해서 생산되어지는 바이러스 유전체에 대한 QC 수행 시 분류별 QC가 가능하며, 새로운 바이러스 출현 시 유사성 검사를 통해 신종 바이러스에 대한 분류를 손쉽게 할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템의 블록도.
도 2는 본 발명의 일 실시예에 따른 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템을 이용하여 서열의 특성에 따라 파일명을 구분한 예를 보여주는 도면,
도 3은 본 발명의 일 실시예에 따른 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템을 이용하여 데이터베이스를 구축하는 사례의 예를 보여주는 블록도.
도 4는 본 발명의 일 실시예에 따른 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템을 이용하여 구축된 데이터베이스를 보여주는 블록도.
도 5는 본 발명의 일 실시예에 따른 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법의 흐름도.
이하, 첨부된 도면을 참조하여 본 발명을 더욱 상세하게 설명한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정하여 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 또한, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다.
도 1은 본 발명의 일 실시예에 따른 분류학적 바이러스 유전체 데이터베이스 구축 시스템의 블록도이고, 도 2는 본 발명의 일 실시예에 따른 분류학적 바이러스 유전체 데이터베이스 구축 시스템을 이용하여 서열의 특성에 따라 파일명을 구분한 예를 보여주는 도면이며, 도 3은 본 발명의 일 실시예에 따른 분류학적 바이러스 유전체 데이터베이스 구축 시스템을 이용하여 데이터베이스를 구축하는 사례의 예를 보여주는 블록도이고, 도 4는 본 발명의 일 실시예에 따른 분류학적 바이러스 유전체 데이터베이스 구축 시스을 이용하여 구축된 데이터베이스를 보여주는 블록도이며, 도 5는 본 발명의 일 실시예에 따른 분류학적 바이러스 유전체 데이터베이스 구축 방법의 흐름도이다.
본 발명은 시시각각 변하는 방대한 양의 유전자 정보를 효과적으로 이용하고 의료 연구에 효과적으로 적용될 수 있도록 유전자 데이터를 큐레이팅하고 일반적인 분석 도구들과 연계를 높여 체계적인 신종 변종 바이러스의 분석을 용이하게 하기 위한 데이터베이스를 구축하기 위한 것이다. 여기서, 큐레이팅은 여러 정보를 수집, 선별하고 이에 새로운 가치를 부여해 전파하는 것을 말하는 큐레이션(curation)에 큐레이터의 활동을 포함하여 정보를 수집, 종합하고 정보가 필요한 사람들에게 안내해주는 활동을 의미한다.
특히 기존 바이러스 유전자 데이터베이스와의 차이점은 바이러스를 ICTV 분류학에 기초하여 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 데이터를 2차 가공하여 동종간의 유전자 변이에 대한 검색이 빠르고 효율적으로 할 수 있도록 데이터베이스를 세분화 하였으며, 바이러스 유전자 분석에 집중되어 있는 시스템을 확장할 수 있고 바이러스 분표 및 추적 관리가 가능하도록 시스템을 확장할 수 있도록 하여, 바이러스에 대한 통합시스템으로서의 기반을 확보할 수 있다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템은 바이러스정보수집부(100), 포맷변환부(200), 바이러스분류부(300) 및 데이터베이스구축부(400)를 포함한다.
바이러스정보수집부(100)는 유전자은행(GenBank)에서 제공하는 유전자의 정보 중 바이러스와 관련된 정보(gbvrl 파일)를 수집한다.
GenBank는 미국 NLM(National Li-brary of Medicine) 산하의 NCBI가 운영하는 핵산 및 단백질 서열의 데이터베이스를 말하는 것이다.
미국 국가생물공학센터 (NCBI; National Center for Biotechnology Information)는 미국 국립생물공학정보센터로도 불리며, 미국 국립보건원(NIH: National Institutes of Health) 산하의 국립의학도서관(NLM : National Library of Medicine)에서 운영하는 기관으로 1988년 11월 4일 설립되었다. NCBI는 전 세계 염기서열의 데이터베이스 '유전자은행(GenBank)', 문헌정보 데이터베이스인 '펍메드(PubMed)' 등을 통해 생명공학 정보들을 제공 및 공유하고 있다. 이 모든 정보들은 Entrez 검색엔진을 이용하여 온라인으로 열람할 수 있으며, 생정보학 전담부서로 컴퓨터를 활용하여 생물학 및 의학 분야의 방대한 데이터를 분석하기 위한 DB를 구축하고 분석도구를 개발하는 것이 주요 임무이다. 가장 널리 쓰이는 분석 도구인 서열 검색용 프로그램 등을 개발하였다. 생물학적으로 중요한 분자의 구조와 기능을 분석하기 위한 컴퓨터 정보 처리 기술 연구, 수학적, 전산학적 방법을 사용한 생물학 및 의학적 문제의 분자 수준에서의 연구, 분자생물학, 생화학, 유전학에 대한 지식을 저장, 분석하기 위한 자동화 시스템 개발, DB와 S/W 개발, 생명공학 기술 정보 수집, 연구소, 학회, 산업체, 정부 기관 등과의 협력, 과학적 정보교환 강화, 전산생물학의 기초 및 응용 연구 훈련 지원, 다양한 DB와 S/W의 사용 지원, DB, 데이터 축적 및 교환, 생물학적 명명법의 표준 개발 등의 활동을 하고 있다. 한편 GenBank는 일본의 DNA정보은행(DDBJ: DNA Data Bank of Japan), 유럽분자생물학연구소(EMBL : European Molecular Biology Laboratory)와 함께 염기서열 DB 협력체제를 구축했다.
포맷변환부(200)는 상기 바이러스정보수집부(100)로부터 수집된 정보를 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환한다.
여기서, 구문분석((syntactic) parsing)은 일련의 문자열을 의미 있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말하고, FASTA 포맷은 단일 문자 코드를 이용하여 표현된 뉴클레오티드 서열 또는 펩티드 서열 중 하나를 표현하기 위한 텍스트 기반 포맷을 말한다.
다시 말해, 상기 포맷변환부(200)는 데이터베이스 구축에 용이하도록 FASTA 포맷형식의 파일로 데이터를 1차 가공한다.
이때, 상기 포맷변환부(200)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하는 것을 특징으로 할 수 있다.
바이오파이썬(BioPython) 모듈은 생물학자들이 만든 파이썬 모듈(프로젝트)로 NCBI에 대한 접속이나 블라스트(BLAST) 등 기본적인 생물학적 툴이 갖추어져 있는 모듈이다. 또한, 바이오파이썬(Biopython) 프로젝트는 분자생물학 계산에 자유롭게 사용하기 위한 파이썬 라이브러리 구축 프로젝트이다.
바이러스분류부(300)는 분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류한다.
즉, 바이러스분류부(300)는 바이러스를 ICTV 분류학에 기초하여 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)로 데이터를 2차 가공한다.
이때, 상기 바이러스분류부(300)는 서열의 특성에 따라 파일명을 생성(구분)하는 것을 특징으로 할 수 있다.
현재 보편적으로 사용되는 NCBI의 GenBank 데이터는 유전체의 메타정보를 담고 있는 ANNOTAION 부분과 SEQUENCE 정보 부분 나누어지며, ANNOTATION 부분은 유전체에 대한 일반적인 메타정보(ACCESSION 번호, VERSION 번호, ORGANISM 정보 등)와 유전체의 부분별 특징을 담고 있는 메타정보(SOURCE, CDS, GENE 등)를 담고 있으며, SEQUENCE 부분은 유전체의 서열정보만을 수록하고 있어 메타정보 중 ACCESSION 정보와 VERSION 정보를 이용한 ICTV 분류체계에 따라 바이러스를 분류하여야 효율적인 데이터베이스의 구축에 용이하다.
바이러스의 분류는 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species (http://www.ictvonline.org/virustaxonomy.asp)) 별로 분류하는 동시에 바이러스 서열의 특성에 따라 Nucleotide, Protein, CDS 분류하여 DB에 대한 분류학적 체계를 설계할 수 있다.
체계적인 분류를 위해서는 NCBI TAXONOMY와 NCBI 분류체계를 병합하여 분류학적 정보를 기초로 ACCESSION 번호와 VERSION 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 ICTV 분류학에 기초하여 FASTA 파일을 분류하는 동시에 도 2와 같이 서열의 특성에 따라 파일명을 구분함으로써, 검색을 용이하게 할 수 있는 체계적인 데이터베이스 구축이 가능하다.
데이터베이스구축부(400)는 상기 바이러스분류부(300)로부터 서열특성별 및 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 BLAST(Basic Local Alignment Search Tool) 데이터베이스를 생성한다.
즉, 도 3에 도시된 바와 같이 서열 특성 및 분류학적 분류를 마친 후 BLAST 데이터베이스를 생성한다.
이렇게 생성된 데이터베이스의 예는 도 4에 도시된 바와 같다.
다시 말해, 데이터베이스구축부(400)는 상기 바이러스분류부(300)로부터 서열특성별 및 분류학적으로 분류되어진 각각의 데이터베이스를 구축할 수 있다.
이렇게 생성된 데이터베이스는 하나의 저장장치에 논리적으로 분할되어 구성될 수도 있고, 다수의 저장장치에 물리적으로 분할되어 구성될 수도 있다.
새로 시퀀싱 된 유전체를 분석하기 위해서는 상동성 검색(Homology search)이 필요하다. 상동성 검색은 구축되어있는 유전자 서열 데이터베이스에서 진화적, 기능적으로 유사한 서열을 검색하는 작업으로, 이는 새로 발견된 유전체에 대한 정보를 서열 패턴 매칭을 통해 신규 유전체에 대한 기능 및 진화관계를 알아보는 검색이다. 오랫동안 가장 많이 사용되고 있는 분석 도구로는 BLAST(Basic Local Alignment Search Tool)가 있다.
또한 분석도구에 의해서 도출되는 결과는 다양한 시각화 도구에 의해서 영상화가 가능하다. 염기서열의 상동성을 분석하기 위한 가장 기본적인 시각화는 Align 형태의 시각화로 상동성 서열분석 결과를 가장 잘 표현해 줄 수 있는 Genom Browser 시각화 도구 등을 이용할 수 있다.
이때, 상기 데이터베이스구축부(400)는 makeblastdb를 이용하여 Blast 데이터베이스를 생성하는 것을 특징으로 할 수 있다.
FASTA 형식의 시퀀스를 받아서 db를 만들 경우, formatdb를 사용하는 것도 가능하지만, makeblastdb를 사용하는 것이 바람직하다.
도 5에 도시된 바와 같이, 본 발명의 일 실시예에 따른 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법은 컴퓨터를 포함하는 연산처리수단에 의하여 실행되는 프로그램 형태로 이루어지며, 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템을 이용한 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법에 있어서, 바이러스정보수집 단계(S10), 포맷변환 단계(S20), 바이러스분류 단계(S30) 및 데이터베이스구축 단계(S40)를 포함한다.
바이러스정보수집 단계(S10)는 바이러스정보수집부(100)가 유전자은행(GenBank)으로부터 바이러스와 관련된 정보(gbvrl 파일)를 수집한다.
예를 들어, 바이러스정보수집 단계(S10)는 NCBI에서 제공하는 GenBank 파일데이터 중 바이러스와 관련된 gbvrl 파일을 수집할 수 있다.
포맷변환 단계(S20)는 포맷변환부(200)가 상기 바이러스정보수집부(100)로부터 수집된 정보를 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환한다.
다시 말해, 상기 포맷변환부(200)는 데이터 베이스 구축에 용이하도록 FASTA 포맷형식의 파일로 데이터를 1차 가공한다.
즉, 데이터베이스 구축을 위한 파일을 재생산한다.
이때, 상기 바이러스정보수집 단계(S10)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하는 것을 특징으로 할 수 있다.
바이오파이썬(BioPython) 모듈은 생물학자들이 만든 파이썬 모듈(프로젝트)로 NCBI에 대한 접속이나 블라스트(BLAST) 등 기본적인 생물학적 툴이 갖추어져 있는 모듈이다.
바이러스분류 단계(S30)는 바이러스분류부(300)가 분류학적 정보를 기초로 ACCESSION 번호와 VERSION 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류한다.
즉, 바이러스분류 단계(S30)는 서열의 특성 및 ICTV 분류학에 기초하여 바이러스와 관련된 정보를 분류한다.
이때, 상기 바이러스분류 단계(S30)는 서열의 특성에 따라 파일명을 생성(구분)하는 것을 특징으로 할 수 있다(도 2 참조).
데이터베이스구축 단계(S40)는 데이터베이스구축부(400)가 상기 바이러스분류부(300)로부터 서열특성별 및 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 BLAST(Basic Local Alignment Search Tool) 데이터베이스를 생성한다(도 4 및 도 5 참조).
이때, makeblastdb를 이용하여 Blast 데이터베이스를 생성하는 것을 특징으로 할 수 있다.
유전학적으로 동종의 서열은 그 유사성이 매우 높다. 따라서 기존 BLAST DB는 단지 서열의 특성에 따라 구성되어 있어 유사서열 검색 시 서열 특성에 의해서 구분된 전체 BLAST DB를 검색한다. 이때, 서열이 긴 유전체의 경우 검색 시간과 속도가 오래 걸리며 불필요한 서열 검색되어진다. 그러나 본 발명에 따라 구축된 데이터베이스는 서열의 특성별 분류 뿐 만 아니라 분류학적 분류를 동시에 구분하여 BLAST DB를 구축함으로써 서열 검색 시 동종 안에서의 유사서열 검색이 가능하므로 유전체 검색에 대한 속도가 향상되며 뿐만 아니라 유사성이 낮은 서열 검색에 대한 오류를 줄일 수 있어 유사서열 검색의 효율을 높일 수 있다. 이를 위해서 위 단계에서 서열특성별 및 분류학적으로 분류되어진 FASTA 파일을 makeblastdb를 이용하여 Blast DB를 생성할 수 있다.
본 발명에 따라 구축된 데이터베이스 구축 후 이를 활용할 수 있도록 사용자 인터페이스를 구현할 수 있다. 이때, 활용도룰 높이기 위하여 인터넷 NETWORK를 활용하여 구현하며 검색속도 증가를 위하여 SSD 하드를 사용할 수 있다.
이상에서 본 발명의 일 실시예에 따른 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법에 대하여 설명하였지만, 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체 및 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법을 구현하기 위한 컴퓨터 판독 가능한 기록매체에 저장된 프로그램 역시 구현 가능함은 물론이다.
즉, 상술한 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법은 이를 구현하기 위한 명령어들의 프로그램이 유형적으로 구현됨으로써, 컴퓨터를 통해 판독될 수 있는 기록매체에 포함되어 제공될 수도 있음을 당업자들이 쉽게 이해할 수 있을 것이다. 다시 말해, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능한 기록매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 상기 컴퓨터 판독 가능한 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리, USB 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
100: 바이러스정보수집부
200: 포맷변환부
300: 바이러스분류부
400: 데이터베이스구축부
S10: 바이러스정보수집 단계
S20: 포맷변환 단계
S30: 바이러스분류 단계 단계
S40: 데이터베이스구축 단계

Claims (10)

  1. 유전자은행(GenBank)에서 제공하는 유전자의 정보 중 바이러스와 관련된 정보를 수집하는 바이러스정보수집부(100);
    상기 바이러스정보수집부(100)로부터 수집된 정보의 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하는 포맷변환부(200);
    분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류하는 동시에 서열의 특성에 따라 FASTA 파일을 분류하는 바이러스분류부(300); 및
    상기 바이러스분류부(300)로부터 서열특성별 및 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 Blast(Basic Local Alignment Search Tool) 데이터베이스를 생성하는 데이터베이스구축부(400)를 포함하고,
    상기 포맷변환부(200)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하며,
    상기 바이러스분류부(300)는 서열의 특성에 따라 파일명을 fas, fna, ffn, faa 및 frn 으로 구분하여 생성하고,
    상기 Blast 데이터베이스는 Blast Order DB, Blast Family DB, Blast Subfamily DB, Blast Genus DB 및 Blast Species DB 를 포함하고,
    서열의 특성별 분류 뿐 만 아니라 분류학적 분류를 동시에 구분하여 BLAST DB를 구축함으로써 서열 검색 시 동종 안에서의 유사서열 검색이 가능하여, 유전체 검색에 대한 속도가 향상되고, 유사성이 낮은 서열 검색에 대한 오류를 줄일 수 있어 유사서열 검색의 효율을 높일 수 있는 것을 특징으로 하는 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 컴퓨터를 포함하는 연산처리수단에 의하여 실행되는 프로그램 형태로 이루어지며, 제1항의 바이러스 유전체의 분류학적 기반 데이터베이스 구축 시스템을 이용한 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법에 있어서,
    바이러스정보수집부(100)가 유전자은행(GenBank)으로부터 바이러스와 관련된 정보를 수집하는 바이러스정보수집 단계(S10);
    포맷변환부(200)가 상기 바이러스정보수집부(100)로부터 수집된 정보의 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하는 포맷변환 단계(S20); 및
    바이러스분류부(300)가 분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류하는 동시에 서열의 특성에 따라 FASTA 파일을 분류하는 바이러스분류 단계(S30); 및
    데이터베이스구축부(400)가 상기 바이러스분류부(300)로부터 서열특성별 및 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 Blast(Basic Local Alignment Search Tool) 데이터베이스를 생성하는 데이터베이스구축 단계(S40)를 포함하는 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020150183441A 2015-12-22 2015-12-22 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법 KR101858020B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150183441A KR101858020B1 (ko) 2015-12-22 2015-12-22 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150183441A KR101858020B1 (ko) 2015-12-22 2015-12-22 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법

Publications (2)

Publication Number Publication Date
KR20170074335A KR20170074335A (ko) 2017-06-30
KR101858020B1 true KR101858020B1 (ko) 2018-05-15

Family

ID=59279632

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150183441A KR101858020B1 (ko) 2015-12-22 2015-12-22 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법

Country Status (1)

Country Link
KR (1) KR101858020B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240006186A (ko) 2022-07-06 2024-01-15 (주)해나소프트 바이러스 기술 관련 빅데이터의 통합적 활용을 통한, 관련 기술-소재/물질-컨셉 별 시장성-유망성 높은 혁신 아이템 발굴 시스템
KR20240006187A (ko) 2022-07-06 2024-01-15 (주)해나소프트 바이러스 기술 관련 빅데이터를 통합적으로 활용을 통한 혁신 아이템의 발굴 및 혁신 아이템을 보유하고 있는 기업 및 개발 연구자 추천 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NCBI Viral Genomes database (last updated 2015. 4. 21.).
질병관리본부 학술연구용역사업 연구결과 보고서 (최종 수정일 2012. 9. 17.).

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240006186A (ko) 2022-07-06 2024-01-15 (주)해나소프트 바이러스 기술 관련 빅데이터의 통합적 활용을 통한, 관련 기술-소재/물질-컨셉 별 시장성-유망성 높은 혁신 아이템 발굴 시스템
KR20240006187A (ko) 2022-07-06 2024-01-15 (주)해나소프트 바이러스 기술 관련 빅데이터를 통합적으로 활용을 통한 혁신 아이템의 발굴 및 혁신 아이템을 보유하고 있는 기업 및 개발 연구자 추천 시스템

Also Published As

Publication number Publication date
KR20170074335A (ko) 2017-06-30

Similar Documents

Publication Publication Date Title
Dong et al. An integrated pipeline for annotation and visualization of metagenomic contigs
Laczny et al. VizBin-an application for reference-independent visualization and human-augmented binning of metagenomic data
Mitchell et al. EBI metagenomics in 2016-an expanding and evolving resource for the analysis and archiving of metagenomic data
Bassett et al. Gene expression informatics—it's all in your mine
Harb et al. ToxoDB: the functional genomic resource for Toxoplasma and related organisms
Wilhite et al. Strategies to explore functional genomics data sets in NCBI’s GEO database
Gurbich et al. MGnify genomes: a resource for biome-specific microbial genome catalogues
Habib et al. BioAnalyzer: Bioinformatic software of routinely used tools for analysis of genomic data
KR101858020B1 (ko) 바이러스 유전체의 분류학적 기반 데이터베이스 구축방법
McKillen et al. Marine genomics: a clearing-house for genomic and transcriptomic data of marine organisms
Bisognin et al. A-MADMAN: annotation-based microarray data meta-analysis tool
Chen et al. Optimal cDNA microarray design using expressed sequence tags for organisms with limited genomic information
Nagpure et al. FMiR: a curated resource of mitochondrial DNA information for fish
Radom et al. Poseidon: An information retrieval and extraction system for metagenomic marine science
Mrozek et al. A large-scale and serverless computational approach for improving quality of NGS data supporting big multi-omics data analyses
KR102030055B1 (ko) 바이러스별 특이적 단백질 서열 추출 방법
Guanliang et al. Andean giants: Priscula spiders from Ecuador, with notes on species groups and egg-sac troglomorphism (Araneae: Pholcidae)
Pandey et al. CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies
Sahli et al. StarDB: a large-scale DBMS for strings
Prasanna et al. Scalable Knowledge Graph Construction and Inference on Human Genome Variants
Sethi et al. Bioinformatics: Applications and Issues
Looso et al. Data mining in newt-omics, the repository for omics data from the newt
Zhu et al. Assembling a reference phylogenomic tree of bacteria and archaea by summarizing many gene phylogenies
Comolli Extension of the Genomic Conceptual Model to Integrate Genome-Wide Association Studies
Masseroli et al. MyWEST: My Web Extraction Software Tool for effective mining of annotations from web-based databanks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant