KR102030055B1 - A method for extracting specific protein sequence of virus - Google Patents

A method for extracting specific protein sequence of virus Download PDF

Info

Publication number
KR102030055B1
KR102030055B1 KR1020170176036A KR20170176036A KR102030055B1 KR 102030055 B1 KR102030055 B1 KR 102030055B1 KR 1020170176036 A KR1020170176036 A KR 1020170176036A KR 20170176036 A KR20170176036 A KR 20170176036A KR 102030055 B1 KR102030055 B1 KR 102030055B1
Authority
KR
South Korea
Prior art keywords
virus
unit
database
information
sequence
Prior art date
Application number
KR1020170176036A
Other languages
Korean (ko)
Other versions
KR20190074573A (en
Inventor
강신덕
Original Assignee
강신덕
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강신덕 filed Critical 강신덕
Priority to KR1020170176036A priority Critical patent/KR102030055B1/en
Publication of KR20190074573A publication Critical patent/KR20190074573A/en
Application granted granted Critical
Publication of KR102030055B1 publication Critical patent/KR102030055B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

본 발명은 바이러스별 특이적 단백질 서열 추출 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 시시각각 변하는 방대한 양의 유전자 정보를 효과적으로 이용하고 의료 연구에 효과적으로 적용될 수 있도록 유전자 데이터를 큐레이팅하고 일반적인 분석 도구들과 연계를 높여 체계적인 신종 변종 바이러스의 분석을 용이하게 하기 위한 바이러스별 특이적 단백질 서열 추출 시스템 및 방법에 관한 것이다.
본 발명은 바이러스의 분류학적 분류를 수행하여 데이터베이스를 구축함으로써 신종바이러스 출현 시 신종 바이러스 유전자 서열 중 바이러스 구조 및 기능에 영향을 미치는 단백질 코딩 지역에 단백질 서열의 유사성 분석을 통해 신종 바이러스에 대한 구조적, 기능적 분류검색 및 분석 속도를 증가시킬 수 있다.
또한 단백질공통데이터베이스구축부(900) 및 Taxonomy 데이터베이스구축부(1000)에 저장된 정보는 상기 데이터베이스구축부(400) 및/또는 상기 CDS 데이터베이스구축부(500)에 저장된 데이터베이스와 연계함으로써, 분석된 신규 바이러스에 대한 정보를 유전자은행(GenBank)으로부터 제공받지 않고도 자체적으로 분석된 신규 바이러스에 대한 정보를 주기적으로 축적하거나 업데이트하여 다양한 신종 바이러스에 대한 체계적이고 효율적인 분석이 가능하다.
The present invention relates to a virus-specific protein sequence extraction system and method, and more particularly, to curate the genetic data and to link with general analysis tools to effectively use the vast amount of varying gene information and to be applied to medical research effectively It relates to a virus-specific protein sequence extraction system and method for facilitating the analysis of systematic new strains of viruses.
The present invention is to construct a database by performing a taxonomic classification of viruses, structural and functional for the new virus through the analysis of the similarity of the protein sequence to the protein coding region that affects the virus structure and function of the new virus gene sequence when the new virus emerges It can increase the speed of classification search and analysis.
In addition, the information stored in the common protein database construction unit 900 and the taxonomy database construction unit 1000 is linked to the database stored in the database construction unit 400 and / or the CDS database construction unit 500, the new virus analyzed It is possible to systematically and efficiently analyze a variety of new viruses by periodically accumulating or updating information on new viruses analyzed on their own without receiving information from GenBank.

Description

바이러스별 특이적 단백질 서열 추출 방법 {A method for extracting specific protein sequence of virus}{A method for extracting specific protein sequence of virus}

본 발명은 바이러스별 특이적 단백질 서열 추출 방법에 관한 것으로서, 더욱 상세하게는 시시각각 변하는 방대한 양의 유전자 정보를 효과적으로 이용하고 의료 연구에 효과적으로 적용될 수 있도록 유전자 데이터를 큐레이팅하고 일반적인 분석 도구들과 연계를 높여 체계적인 신종 바이러스의 분석을 용이하게 하기 위한 바이러스별 특이적 단백질 서열 추출 방법에 관한 것이다.The present invention relates to a virus-specific protein sequence extraction method, and more specifically, to effectively utilize a large amount of varying amounts of genetic information, and to curate the genetic data to be effectively applied to medical research and to increase the linkage with general analysis tools It relates to a virus-specific protein sequence extraction method for facilitating the systematic analysis of new viruses.

바이오인포매틱스(bioinformatics)는 생명공학 산업 중의 한 분야로, 생명공학기술(biotechnololgy)과 정보기술(information technology)이 융합하여 생명 현상 관련 연구에서 나오는 다양한 정보를 수집, 관리, 저장, 분석하는 데 필요한 제반 분야를 말한다. Bioinformatics is a branch of the biotechnology industry that combines biotechnololgy and information technology to collect, manage, store, and analyze a variety of information from biopheneological research. It refers to various fields.

바이오인포매틱스는 제약, 농업, 화학, 환경에 이르는 다양한 산업에 많은 영향을 미치며 향후 5~10년 내에 관련 기술의 발전과 더불어 여러 혁신적 성과들이 가시화될 전망이다.Bioinformatics has a significant impact on a variety of industries, including pharmaceuticals, agriculture, chemistry, and the environment, and in the next 5 to 10 years, the development of related technologies will be visible and several innovative results will be visible.

바이오인포매틱스는 1980년대 후반 개별 생물학자들이 발견한 여러 생물의 DNA 정보를 수록하는 공공의 데이터베이스가 만들어지면서부터 급속히 발전하게 되었다. Bioinformatics developed rapidly in the late 1980s with the creation of a public database that contained DNA information from various organisms discovered by individual biologists.

대표적인 예로, 미국은 1988년 국립보건원(National Institutes of Health: NIH) 산하에 국립 생물정보센터(National Center for Biotechnology Information: NCBI)를 설립하여 생물학 데이터베이스를 구축하고 지놈 데이터 분석을 위한 각종 소프트웨어를 개발하였다. For example, in 1988, the US established the National Center for Biotechnology Information (NCBI) under the National Institutes of Health (NIH) to build a biological database and develop software for genome data analysis. .

초기 생물학 데이터는 서열과 3차원 구조에 관한 정보가 대부분을 이루었으나, 현재 DNA 칩을 이용한 gene expression profile 등 새로운 종류의 생물학적 의미를 가진 데이터가 생산되고 있다. Early biological data consisted mostly of information on sequence and three-dimensional structure, but new kinds of biological meaning data such as gene expression profile using DNA chip are being produced.

이러한 정보를 제공하는 생물학 관련 데이터베이스는 그 초점을 어디에 두는가에 따라 여러 가지 방식으로 데이터를 가공하고 표현한다. 현재, 생물학 전반에 걸친 정보를 제공하는 데이터베이스로부터 특정 화합물이나 기능에 대한 아주 자세한 정보를 제공하는 데이터베이스에 이르기까지 다양하며, 기존 데이터베이스로부터 특정 생물정보를 검색하여 효율적으로 재구성한 새로운 데이터베이스들이 구축되고 있다.Biological databases that provide this information process and present the data in different ways, depending on where the focus is. Currently, a wide range of databases are available, ranging from databases that provide information across biology to databases that provide very detailed information on specific compounds or functions, and new databases are being built that efficiently retrieve and reconstruct specific biological information from existing databases. .

기존의 바이러스 뿐 아니라 사회를 떠들썩하게 하는 신종 변종 바이러스들은 그 영향력이 인간의 건강과 생명에 직접적인 관련이 있기 때문에 관심이 집중되고 있다. In addition to existing viruses, new varieties of viruses that are noisy are attracting attention because their influence is directly related to human health and life.

바이러스에 대한 치료는 예방이 가장 우선시 된다. 이를 위해서는 바이러스의 유전자 등록, 관리, 조건별 탐색 등이 체계적으로 수행되어야 하며 이를 통해 연구자들이 원하는 정보를 수집하고 활용하여 바이러스에 대한 치료 및 관리가 가능하다.Treatment for viruses is a priority. To do this, the genetic registration, management, and conditional search of the virus must be systematically performed. Through this, researchers can collect and utilize the information desired by the researchers to treat and manage the virus.

국내외의 바이러스 관련 데이터베이스 구축은 유전자 변형을 분석하기 위한 DB 구축이 중요한 연구과제가 되고 있으나, 현재 제공되는 바이러스 DB는 바이러스 유전체 서열의 특성에 따라서 분류되어 있어 변형된 유사서열을 검색하기 위해서는 서열의 특성에 따라 분류된 전체 DB를 검색하여야 하므로, 긴 서열의 경우 검색 속도의 저하 및 유사성 없는 서열 등을 추출하는 등 여러 가지 오류를 발생시키고 있는 문제점이 있다.Database construction for domestic and overseas virus-related database has become an important research subject, but currently provided virus DB is classified according to the characteristics of the viral genome sequence, so that the characteristics of the sequence to search for modified similar sequences Since it is necessary to search the entire DB classified according to the, there is a problem that causes a variety of errors, such as the extraction of a sequence having no similarity, such as a decrease in the search speed for long sequences.

특히, 바이러스는 다른 생물체에 비해 유전자 변이 속도가 빠르고 인간에게 치명적인 손상을 가할 수 있으므로, 신종 바이러스 출현 시 신속한 대응을 위해서는 신종 바이러스에 대한 빠른 분류 및 대응을 가능하게 하는 체계적이고 효율적인 데이터베이스 구축이 필요하다. In particular, viruses have a higher rate of genetic variation than other organisms and can cause fatal damage to humans. Therefore, in order to respond quickly to emergence of new viruses, a systematic and efficient database is needed to enable rapid classification and response to new viruses. .

한편 한국공개특허 제10-2000-0072527호, 한국등록특허 제10-0790870호 및 한국등록특허 제10-1482010호는 컴퓨터 통신망을 통해 유전자 데이터베이스를 이용한 질병정보를 제공하기 위한 장치, 유전자 서열 검색방법 및 전체 유전체 서열분석을 위한 초고속 범용 검색장치를 개시하고 있다.Meanwhile, Korean Patent Laid-Open Publication Nos. 10-2000-0072527, 10-10790, and 10-1482010 are apparatuses for providing disease information using a genetic database through a computer communication network, and a gene sequence search method. And an ultrafast general-purpose search apparatus for whole genome sequencing.

한국공개특허 제10-2000-0072527호Korean Patent Publication No. 10-2000-0072527 한국등록특허 제10-0790870호Korea Patent Registration No. 10-0790870 한국등록특허 제10-1482010호Korea Patent Registration No. 10-1482010

본 발명은 상기 종래 기술의 문제점을 해결하기 위한 것으로서, 바이러스를 ICTV 분류학에 기초하여 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 분류함으로써 동종간의 유전자 변이에 대한 검색이 빠르고 검색의 오류를 줄일 수 있는 바이러스별 특이적 단백질 서열 추출 시스템을 제공하는데 그 목적이 있다. The present invention is to solve the problems of the prior art, the virus based on ICTV taxonomy (Order (-virales)), family (Family (-viridae)), subfamily (Subfamily (-virinae)), genus ( Genus (-virus)), by classifying by species (Species) is to provide a virus-specific protein sequence extraction system that can quickly search for allelic genetic variations and reduce the error of the search.

또한 본 발명은 데이터베이스구축부(400)로부터 Blast Family CDS 데이터베이스구축부와 Blast Genus CDS 데이터베이스구축부를 생성하여 신규 바이러스와 비교 분석함으로써 신규 바이러스의 분석을 용이하게 하기 위한 바이러스별 특이적 단백질 서열 추출 방법을 제공하는 것을 목적으로 한다. In another aspect, the present invention provides a method for extracting a specific protein sequence for each virus to facilitate analysis of a new virus by generating a Blast Family CDS database building unit and a Blast Genus CDS database building unit from the database building unit 400 and comparing and analyzing the new virus. It aims to provide.

상기와 같은 목적을 달성하기 위하여 본 발명은 유전자은행(GenBank)에서 제공하는 유전자의 정보 중 바이러스와 관련된 정보를 수집하는 바이러스정보수집부(100);In order to achieve the above object, the present invention provides a virus information collection unit 100 for collecting information related to the virus of the gene information provided by the gene bank (GenBank);

상기 바이러스정보수집부(100)로부터 수집된 정보의 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, Taxonomy 정보, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하는 포맷변환부(200);Parsing the GenBank GI number, GenBank Accession number, GenBank Version number, Taxonomy information, genome definition, and sequence portion of the information collected from the virus information collection unit 100, and sequence or protein sequence A format conversion unit 200 for converting to a FASTA format expressed as a character string;

분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 International Committee on Taxonomy of Viruses(ICTV)에서 정한 바이러스 분류체계에 따라 FASTA 파일을 분류하는 바이러스분류부(300); Based on the taxonomy information, based on the Accession number and Version number, the order (Order (-virales)), family (-viridae), subfamily (-virinae), genus (Genus (-virus)), A virus classification unit 300 for classifying FASTA files according to a virus classification system defined by International Committee on Taxonomy of Viruses (ICTV) for each species;

상기 바이러스분류부(300)로부터 ICTV 바이러스 표준 분류체계에 따라 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 Blast(Basic Local Alignment Search Tool) 데이터베이스를 생성하는 데이터베이스구축부(400);A database constructing unit 400 for generating a Blast (Basic Local Alignment Search Tool) database based on a file converted from the virus classification unit 300 into a FASTA format classified according to the ICTV virus standard classification system;

상기 데이터베이스구축부(400)의 ICTV 분류체계에서 Family로 분류된 데이터로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Family CDS 데이터베이스구축부와, 상기 데이터베이스구축부(400)의 ICTV 분류체계에서 Geuns로 분류된 데이터로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Genus CDS 데이터베이스구축부로 구성되는 CDS 데이터베이스구축부(500);The Blast Family CDS database construction unit for generating a database by extracting meta information and sequence information about CDS from data classified as a family in the ICTV classification system of the database construction unit 400, and the ICTV of the database construction unit 400. A CDS database construction unit 500 including a Blast Genus CDS database construction unit for generating a database by extracting meta information and sequence information about CDS from data classified as Geuns in the classification system;

신규 바이러스의 유전체 서열을 추출하고, 추출된 유전체 서열을 FASTA 포맷으로 변환한 후, 단백질로 코딩이 가능한 후보 유전자 서열을 추출하여 Multi ORF FASTA 파일을 생성한 다음 이를 Single ORF FASTA 파일로 나누는 ORF 단백질서열추출부(600);ORF protein sequence that extracts the genome sequence of the new virus, converts the extracted genome sequence into FASTA format, extracts the candidate gene sequence that can be encoded with protein, creates a Multi ORF FASTA file, and divides it into a single ORF FASTA file. Extracting unit 600;

상기 CDS 데이터베이스구축부(500)의 데이터베이스와 상기 ORF 단백질서열추출부(600)의 Single ORF FASTA 파일의 단백질 서열을 비교하는 단백질서열비교부(700);A protein sequence comparison unit 700 comparing the protein sequence of the database of the CDS database construction unit 500 and the single ORF FASTA file of the ORF protein sequence extraction unit 600;

상기 단백질서열비교부(700)에서 비교된 단백질 서열을 기반으로 상동성이 높은 신규 바이러스의 Single ORF FASTA 파일 및 CDS 데이터베이스구축부(500)의 바이러스를 확인한 후, 이들 간에 공통적으로 보유하고 있는 단백질 서열을 추출하기 위하여 Multiple Sequence Alignment (MSA)를 통해 유전자 서열간의 친화성을 분석하는 단백질서열분석부(800);After checking the virus of the single ORF FASTA file of the new virus with high homology and the CDS database constructing unit 500 based on the protein sequences compared in the protein sequence comparison unit 700, the protein sequences commonly held between them Protein sequence analysis unit 800 for analyzing the affinity between gene sequences through Multiple Sequence Alignment (MSA) to extract the;

상기 단백질서열분석부(800)에서 확인된 신규 바이러스의 Single ORF FASTA 파일에 대해 아이디 및 공통적인 단백질서열을 저장하는 단백질공통서열데이터베이스구축부(900); 및 A protein common sequence database constructing unit 900 for storing an ID and a common protein sequence for the single ORF FASTA file of the new virus identified by the protein sequence analyzing unit 800; And

상기 단백질서열분석부(800)에서 확인된 신규 바이러스가 어떤 계통에 속하는지에 대한 정보를 저장하는 Taxonomy 데이터베이스구축부(1000)를 포함하는 바이러스 유전체의 데이터베이스 구축 시스템을 제공한다.It provides a database system for building a viral genome comprising a taxonomy database construction unit 1000 for storing information about which strain the new virus identified in the protein sequence analysis unit 800 belongs.

본 발명의 일 실시예에 있어서, 상기 포맷변환부(200)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하는 것을 특징으로 한다.In one embodiment of the present invention, the format conversion unit 200 is characterized in that for converting the format using a BioPython (BioPython) module.

본 발명의 일 실시예에 있어서, 상기 데이터베이스구축부(400)는 makeblastdb를 이용하여 Blast 데이터베이스를 생성하는 것을 특징으로 한다. In one embodiment of the present invention, the database building unit 400 is characterized in that to create a Blast database using the makeblastdb.

또한 본 발명은 컴퓨터를 포함하는 연산처리수단에 의하여 실행되는 프로그램 형태로 이루어지며, 바이러스별 특이적 단백질 서열 추출 시스템을 이용한 바이러스별 특이적 단백질 서열 추출 방법에 있어서,In addition, the present invention is made in the form of a program to be executed by the processing unit including a computer, in the virus-specific protein sequence extraction method using a virus-specific protein sequence extraction system,

바이러스정보수집부(100)가 유전자은행(GenBank)으로부터 바이러스와 관련된 정보를 수집하는 바이러스정보수집 단계(S10);A virus information collecting step of collecting information related to a virus from a gene bank (GenBank) by the virus information collecting unit 100 (S10);

포맷변환부(200)가 상기 바이러스정보수집부(100)로부터 수집된 정보의 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, Taxonomy정보, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하는 포맷변환 단계(S20); The format conversion unit 200 parses (syntactic) parsing the GenBank GI number, GenBank Accession number, GenBank Version number, Taxonomy information, genome definition, and sequence portion of the information collected from the virus information collection unit 100. A format conversion step (S20) of converting the nucleotide sequence or the protein sequence into the FASTA format expressed as a string;

바이러스분류부(300)가 분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류하는 바이러스분류 단계(S30); Virus classification unit 300 based on taxonomy information based on Accession number and Version number (Order (-virales)), Family (-viridae), Subfamily (-virinae), Genus ( Genus (-virus)), virus classification step of classifying the FASTA file by the species (Species) (S30);

데이터베이스구축부(400)가 상기 바이러스분류부(300)로부터 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 Blast(Basic Local Alignment Search Tool) 데이터베이스를 생성하는 데이터베이스구축 단계(S40);A database building step of generating, by the database building unit 400, a Blast (Basic Local Alignment Search Tool) database based on a file converted into a FASTA format that is classified taxonomically from the virus classification unit 300 (S40);

CDS 데이터베이스구축부(500)가 상기 데이터베이스구축부(400)에서 ICTV 분류체계에서 Family로 분류된 데이터 중 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Family CDS 데이터베이스구축부와, 상기 데이터베이스구축부(400)의 ICTV 분류체계에서 Genus로 분류된 데이터 중 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Genus CDS 데이터베이스구축부를 생성하는 CDS 데이터베이스구축 단계(S50); The Blast Family CDS database construction unit 500 generates a database by extracting the meta information and the sequence information of the CDS among the data classified as Family in the ICTV classification system in the database construction unit 400, and A CDS database construction step (S50) of generating a Blast Genus CDS database construction unit for generating a database by extracting meta information and sequence information of CDS among data classified as Genus in the ICTV classification system of the database construction unit 400;

ORF단백질서열추출부(600)가 신규 바이러스의 유전자 서열을 추출하고, 추출된 유전자 서열을 FASTA 포맷으로 변환한 후, 단백질로 코딩이 가능한 후보 유전자 서열을 추출하여 Multi ORF FASTA 파일을 생성하고, 생성 과정에서 codon table에 의해서 단백질 코딩 시작 서열과 끝 서열에 따라 여러 개의 Single ORF FASTA 파일로 나누는 ORF단백질서열추출 단계(S60);The ORF protein sequence extracting unit 600 extracts the gene sequence of the new virus, converts the extracted gene sequence into the FASTA format, and extracts the candidate gene sequence that can be encoded by the protein to generate a multi ORF FASTA file. ORF protein sequence extraction step (S60) of dividing into a plurality of single ORF FASTA files according to the protein coding start sequence and end sequence by the codon table in the process;

단백질서열비교부(700)가 상기 CDS 데이터베이스구축부(500)의 데이터베이스와 상기 ORF단백질서열추출부(600)의 Single ORF FASTA 파일의 단백질 서열을 비교하는 단백질서열비교 단계(S70);A protein sequence comparison step 700 compares the protein sequence of the database of the CDS database construction unit 500 and the single ORF FASTA file of the ORF protein sequence extraction unit 600 (S70);

단백질서열분석부(800)가 상기 단백질서열비교부(700)에서 비교된 단백질 서열을 기반으로 상동성이 높은 신규 바이러스의 Single ORF FASTA 파일 및 CDS 데이터베이스구축부(500)의 바이러스를 확인한 후, 이들 간에 공통적으로 보유하고 있는 단백질 서열을 추출하고 이들 서열간의 친화성 및 계통수를 분석하는 단백질서열분석 단계(S80);After the protein sequence analysis unit 800 identifies the virus of the single ORF FASTA file and the CDS database constructing unit 500 of the highly homologous new virus based on the protein sequences compared in the protein sequence comparison unit 700, A protein sequence analysis step (S80) of extracting protein sequences commonly held in the liver and analyzing affinity and phylogenetic tree among these sequences;

단백질공통서열데이터베이스구축부(900)가 상기 단백질서열분석부(800)에서 확인된 신규 바이러스의 Single ORF FASTA 파일에 대해 아이디 및 공통적인 단백질서열을 저장하는 단백질공통유전자서열데이터베이스구축 단계(S90); 및 A common protein sequence database constructing step for storing a common protein sequence and a common protein sequence for a single ORF FASTA file of the new virus identified by the protein sequence analyzing unit 800 by the protein common sequence database constructing unit 900 (S90); And

Taxonomy 데이터베이스구축부(1000)가 상기 유전자서열분석부(800)에서 확인된 신규 바이러스가 어떤 바이러스Taxonomy에 속하는지에 대한 정보를 저장하는 Taxonomy 데이터베이스구축 단계(S100)를 포함하는 바이러스별 특이적 단백질 서열 추출 방법을 제공한다.Taxonomy database construction unit 1000 extracts a specific protein sequence for each virus comprising a Taxonomy database construction step (S100) for storing information on which virus Taxonomy the new virus identified in the gene sequence analysis unit 800 belongs to Provide a method.

본 발명의 일 실시예에 있어서, 상기 포맷변환 단계(S20)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하는 것을 특징으로 한다. In one embodiment of the present invention, the format conversion step (S20) is characterized in that the format conversion using a BioPython (BioPython) module.

본 발명의 일 실시예에 있어서, 상기 데이터베이스구축 단계(S40)는 makeblastdb를 이용하여 Blast 데이터베이스를 생성하는 것을 특징으로 한다.In one embodiment of the present invention, the database construction step (S40) is characterized in that to create a Blast database using the makeblastdb.

본 발명의 일 실시예에 있어서, 상기 ORF단백질서열추출 단계(S60)는 ORF Finder를 이용하여 단백질 코딩 가능지역을 탐색하여 Multi ORF FASTA 파일을 생성하는 것을 특징으로 한다.In one embodiment of the present invention, the ORF protein sequence extraction step (S60) is characterized by generating a multi ORF FASTA file by searching for a protein coding region using the ORF Finder.

본 발명은 바이러스의 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하되, 바이러스를 ICTV 분류학에 기초하여 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 분류함으로써 동종간의 유전자 변이에 대한 검색이 빠르고 검색의 오류를 줄일 수 있다. The present invention converts a nucleotide sequence or a protein sequence of a virus into a FASTA format expressed as a string, but the virus is based on ICTV taxonomy (Order (-virales)), Family (-viridae), and Subfamily (- virinae)), genus (Genus (-virus)), species (Species) can be classified by the search for genetic variations between homogeneous and faster search errors can be reduced.

또한 본 발명은 데이터베이스구축부(400)로부터 Blast Family CDS 데이터베이스구축부와 Blast Genus CDS 데이터베이스구축부를 생성하여 신규 바이러스와 비교 분석함으로써 신규 바이러스의 분석을 간편하게 할 수 있다. In addition, according to the present invention, the Blast Family CDS database building unit and the Blast Genus CDS database building unit are generated from the database building unit 400 and compared with the new virus to simplify the analysis of the new virus.

아울러 단백질공통데이터베이스구축부(900) 및 Taxonomy 데이터베이스구축부(1000)에 저장된 정보는 상기 데이터베이스구축부(400) 및/또는 상기 CDS 데이터베이스구축부(500)에 저장된 데이터베이스와 연계함으로써, 분석된 신규 바이러스에 대한 정보를 유전자은행(GenBank)으로부터 제공받지 않고도 자체적으로 분석된 신규 바이러스에 대한 정보를 주기적으로 축적하거나 업데이트하여 다양한 신종 바이러스에 대한 체계적이고 효율적인 분석이 가능하다. In addition, the information stored in the common protein database construction unit 900 and the taxonomy database construction unit 1000 is linked to the database stored in the database construction unit 400 and / or the CDS database construction unit 500, the new virus analyzed It is possible to systematically and efficiently analyze a variety of new viruses by periodically accumulating or updating information on new viruses analyzed on their own without receiving information from GenBank.

도 1은 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 시스템의 블록도.
도 2는 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 방법에 사용되어지는 서열의 특성에 따라 파일명을 구분한 예를 보여주는 도면,
도 3은 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 방법에서 이용되는 Blast 데이터베이스 생성 파일의 예를 보여주는 블록도.
도 4는 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 방법에서 사용되는 바이러스 원시테이터의 수집 및 바이러스 Taxonomy별 Blast 데이터베이스를 보여주는 블록도.
도 5는 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 방법의 흐름도.
1 is a block diagram of a virus-specific protein sequence extraction system according to an embodiment of the present invention.
2 is a view showing an example of dividing a file name according to a characteristic of a sequence used in a virus-specific protein sequence extraction method according to an embodiment of the present invention;
Figure 3 is a block diagram showing an example of a Blast database generation file used in the virus-specific protein sequence extraction method according to an embodiment of the present invention.
Figure 4 is a block diagram showing the collection of virus raw data used in virus-specific protein sequence extraction method according to an embodiment of the present invention and Blast database by virus Taxonomy.
5 is a flow chart of a virus-specific protein sequence extraction method according to an embodiment of the present invention.

이하 실시예를 바탕으로 본 발명을 상세히 설명한다. 본 발명에 사용된 용어, 실시예 등은 본 발명을 보다 구체적으로 설명하고 통상의 기술자의 이해를 돕기 위하여 예시된 것에 불과할 뿐이며, 본 발명의 권리범위 등이 이에 한정되어 해석되어서는 안 된다.Hereinafter, the present invention will be described in detail with reference to Examples. The terms, examples, etc. used in the present invention are merely illustrated to explain the present invention in more detail and to help those skilled in the art, and the scope of the present invention is not limited thereto.

본 발명에 사용되는 기술 용어 및 과학 용어는 다른 정의가 없다면 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 나타낸다.Technical terms and scientific terms used in the present invention represent the meanings that are commonly understood by those of ordinary skill in the art unless otherwise defined.

도 1은 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 시스템의 블록도이고, 도 2는 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 방법에 이용되어지는 서열의 특성에 따라 파일명을 구분한 예를 보여주는 도면이며, 도 3은 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 방법에서 사용되어지는 Blast 데이터베이스를 보여주는 블록도이고, 도 4는 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 방법에서 바이러스 원시데이터를 ICTV 분류체계에 따라 분리하고 Blast 데이터베이스를 구축하는 블록도이며, 도 5는 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 방법의 흐름도이다.1 is a block diagram of a virus-specific protein sequence extraction system according to an embodiment of the present invention, Figure 2 is a characteristic of the sequence used in the virus-specific protein sequence extraction method according to an embodiment of the present invention FIG. 3 is a block diagram illustrating a Blast database used in a virus-specific protein sequence extraction method according to an embodiment of the present invention, and FIG. 4 is one of the present inventions. In the virus-specific protein sequence extraction method according to an embodiment is a block diagram for separating the virus raw data according to the ICTV classification system and building a Blast database, Figure 5 is a virus-specific protein sequence according to an embodiment of the present invention Flow chart of the extraction method.

본 발명은 시시각각 변하는 방대한 양의 유전자 정보를 효과적으로 이용하고 의료 연구에 효과적으로 적용될 수 있도록 유전자 데이터를 큐레이팅하고 일반적인 분석 도구들과 연계를 높여 체계적인 신종 변종 바이러스의 분석을 용이하게 하기 위한 데이터베이스를 구축하기 위한 것이다. 여기서, 큐레이팅은 여러 정보를 수집, 선별하고 이에 새로운 가치를 부여해 전파하는 것을 말하는 큐레이션(curation)에 큐레이터의 활동을 포함하여 정보를 수집, 종합하고 정보가 필요한 사람들에게 안내해주는 활동을 의미한다.The present invention is to create a database to facilitate the systematic analysis of new strains of viruses by curating genetic data and improving linkage with general analysis tools to effectively use vast amounts of genetic information that are constantly changing and applied to medical research. will be. Here, curating refers to an activity that collects, selects, and adds new values to and propagates a variety of information, including activities of curators to collect, synthesize, and guide information to those who need the information.

특히 기존 바이러스 유전자 데이터베이스와의 차이점은 바이러스를 ICTV 분류학에 기초하여 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 데이터를 2차 가공하여 동종간의 유전자 변이에 대한 검색이 빠르고 효율적으로 할 수 있도록 데이터베이스를 세분화 하였으며, 바이러스 유전자 분석에 집중되어 있는 시스템을 확장할 수 있고 바이러스 분표 및 추적 관리가 가능하도록 시스템을 확장할 수 있도록 하여, 바이러스에 대한 통합시스템으로서의 기반을 확보할 수 있다. In particular, the difference from the existing viral gene database is that the virus is based on ICTV taxonomy (Order (-virales)), Family (-viridae), Subfamily (-virinae), Genus (-virus). By subdividing the data by species and Species, the database is subdivided for quick and efficient retrieval of homogeneous genetic variation, and the system can be expanded to concentrate on virus genetic analysis, and to manage virus classification and tracking. The system can be expanded to enable the system to secure a foundation as an integrated system for viruses.

또한 데이터베이스구축부(400)로부터 Blast Family CDS 데이터베이스구축부와 Blast Genus CDS 데이터베이스구축부를 생성하여 신규 바이러스와 비교 분석하고, 분석된 신규 바이러스에 대한 정보를 유전자서열데이터베이스구축부 및 Taxonomy 데이터베이스구축부에 저장함으로써 신규 바이러스의 분석을 간편하고 효율적으로 수행할 수 있다. In addition, the Blast Family CDS database building unit and the Blast Genus CDS database building unit are generated from the database building unit 400 and compared with the new virus, and the information about the analyzed new virus is stored in the gene sequence database building unit and the Taxonomy database building unit. As a result, the analysis of new viruses can be performed simply and efficiently.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 바이러스별 특이적 단백질 서열 추출 시스템은 바이러스정보수집부(100), 포맷변환부(200), 바이러스분류부(300), 데이터베이스구축부(400), CDS 데이터베이스구축부(500), ORF 단백질서열추출부(600), 단백질서열비교부(700), 단백질서열분석부(800), 단백질공통서열데이터베이스구축부(900) 및 Taxonomy 데이터베이스구축부(1000)를 포함한다.As shown in Figure 1, the virus-specific protein sequence extraction system according to an embodiment of the present invention is a virus information collection unit 100, format conversion unit 200, virus classification unit 300, database construction unit (400), CDS database construction unit 500, ORF protein sequence extraction unit 600, protein sequence comparison unit 700, protein sequence analysis unit 800, protein common sequence database construction unit 900 and Taxonomy database construction The unit 1000 is included.

바이러스정보수집부(100)는 유전자은행(GenBank)에서 제공하는 유전자의 정보 중 바이러스와 관련된 정보(gbvrl 파일)를 수집한다.The virus information collecting unit 100 collects virus-related information (gbvrl file) among information of genes provided by a gene bank (GenBank).

GenBank는 미국 NLM(National Li-brary of Medicine) 산하의 NCBI가 운영하는 핵산 및 단백질 서열의 데이터베이스를 말하는 것이다.GenBank refers to a database of nucleic acid and protein sequences operated by NCBI under the National Li-brary of Medicine (NLM).

미국 국가생물공학센터 (NCBI; National Center for Biotechnology Information)는 미국 국립생물공학정보센터로도 불리며, 미국 국립보건원(NIH: National Institutes of Health) 산하의 국립의학도서관(NLM : National Library of Medicine)에서 운영하는 기관으로 1988년 11월 4일 설립되었다. NCBI는 전 세계 염기서열의 데이터베이스 '유전자은행(GenBank)', 문헌정보 데이터베이스인 '펍메드(PubMed)' 등을 통해 생명공학 정보들을 제공 및 공유하고 있다. 이 모든 정보들은 Entrez 검색엔진을 이용하여 온라인으로 열람할 수 있으며, 생정보학 전담부서로 컴퓨터를 활용하여 생물학 및 의학 분야의 방대한 데이터를 분석하기 위한 DB를 구축하고 분석도구를 개발하는 것이 주요 임무이다. 가장 널리 쓰이는 분석 도구인 서열 검색용 프로그램 등을 개발하였다. 생물학적으로 중요한 분자의 구조와 기능을 분석하기 위한 컴퓨터 정보 처리 기술 연구, 수학적, 전산학적 방법을 사용한 생물학 및 의학적 문제의 분자 수준에서의 연구, 분자생물학, 생화학, 유전학에 대한 지식을 저장, 분석하기 위한 자동화 시스템 개발, DB와 S/W 개발, 생명공학 기술 정보 수집, 연구소, 학회, 산업체, 정부 기관 등과의 협력, 과학적 정보교환 강화, 전산생물학의 기초 및 응용 연구 훈련 지원, 다양한 DB와 S/W의 사용 지원, DB, 데이터 축적 및 교환, 생물학적 명명법의 표준 개발 등의 활동을 하고 있다. 한편 GenBank는 일본의 DNA정보은행(DDBJ: DNA Data Bank of Japan), 유럽분자생물학연구소(EMBL : European Molecular Biology Laboratory)와 함께 염기서열 DB 협력체제를 구축했다. The National Center for Biotechnology Information (NCBI) is also known as the National Center for Biotechnology Information (NCBI) and is located at the National Library of Medicine (NLM) under the National Institutes of Health (NIH). It was established on November 4, 1988 as an operating organization. NCBI provides and shares biotechnology information through GenBank, a worldwide database of databases, and PubMed, a bibliographic database. All of this information can be viewed online using the Entrez search engine, and the primary task of bioinformatics is to build a database and develop an analytical tool for analyzing vast amounts of data in biology and medicine using computers. We developed a program for sequence searching, which is the most widely used analysis tool. Research in computer information processing technology to analyze the structure and function of biologically important molecules, study at the molecular level of biological and medical problems using mathematical and computational methods, and store and analyze knowledge of molecular biology, biochemistry and genetics Development of automation system, development of DB and S / W, collection of biotechnology information, cooperation with research institutes, academic societies, industry, government agencies, strengthened scientific information exchange, support of basic and applied research training in computer biology, various DB and S / His activities include supporting the use of W, DB, data accumulation and exchange, and developing standards for biological nomenclature. GenBank has established a sequencing database cooperation system with the DNA Data Bank of Japan (DDBJ) and the European Molecular Biology Laboratory (EMBL).

포맷변환부(200)는 상기 바이러스정보수집부(100)로부터 수집된 정보를 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, Taxonomy정보, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환한다. The format converting unit 200 parses the information collected from the virus information collecting unit 100 by parsing the GenBank GI number, GenBank Accession number, GenBank Version number, Taxonomy information, genome definition, and sequence part. Converts nucleotide sequences or protein sequences into FASTA format expressed as a string.

여기서, 구문분석((syntactic) parsing)은 일련의 문자열을 의미 있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말하고, FASTA 포맷은 단일 문자 코드를 이용하여 표현된 뉴클레오티드 서열 또는 펩티드 서열 중 하나를 표현하기 위한 텍스트 기반 포맷을 말한다. Here, syntactic parsing refers to the process of decomposing a series of strings into meaningful tokens and creating a parse tree of them, and the FASTA format is represented using a single character code. Refers to a text based format for expressing either a nucleotide sequence or a peptide sequence.

다시 말해, 상기 포맷변환부(200)는 데이터베이스 구축에 용이하도록 FASTA 포맷형식의 파일로 데이터를 1차 가공한다.In other words, the format conversion unit 200 first processes the data into a file in FASTA format to facilitate the construction of a database.

이때, 상기 포맷변환부(200)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하는 것을 특징으로 할 수 있다.At this time, the format conversion unit 200 may be characterized in that for converting the format using a BioPython (BioPython) module.

바이오파이썬(BioPython) 모듈은 생물학자들이 만든 파이썬 모듈(프로젝트)로 NCBI에 대한 접속이나 블라스트(BLAST) 등 기본적인 생물학적 툴이 갖추어져 있는 모듈이다. 또한, 바이오파이썬(Biopython) 프로젝트는 분자생물학 계산에 자유롭게 사용하기 위한 파이썬 라이브러리 구축 프로젝트이다.The BioPython module is a Python module (project) created by biologists that contains basic biological tools such as access to NCBI and Blast. The Biopython project is also a project to build Python libraries for free use in molecular biology calculations.

바이러스분류부(300)는 분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류한다. Virus classification unit 300 is based on taxonomy information based on the Accession number and Version number (Order (-virales)), family (Family (-viridae)), subfamily (Subfamily (-virinae)), genus ( Genus (-virus)) and FASTA files are classified by Species.

즉, 바이러스분류부(300)는 바이러스를 ICTV 분류학에 기초하여 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)로 데이터를 2차 가공한다.That is, the virus classification unit 300 classifies the virus based on the ICTV taxonomy (Order (-virales)), Family (-viridae), Subfamily (-virinae), Genus (-virus). Secondary processing of data into Species.

이때 상기 바이러스분류부(300)는 Taxonomy 이름에 따라 파일명을 생성(분류)하는 것을 특징으로 할 수 있다.At this time, the virus classification unit 300 may be characterized in that to generate (classify) the file name according to the taxonomy name.

현재 보편적으로 사용되는 NCBI의 GenBank 데이터는 유전체의 메타정보를 담고 있는 ANNOTAION 부분과 SEQUENCE 정보 부분 나누어지며, ANNOTATION 부분은 유전체에 대한 일반적인 메타정보(ACCESSION 번호, VERSION 번호, ORGANISM 정보, Taxonomy 정보 등)와 유전체의 부분별 특징을 담고 있는 메타정보(SOURCE, CDS, GENE 등)를 담고 있으며, SEQUENCE 부분은 유전체의 서열정보만을 수록하고 있어 메타정보 중 ACCESSION 정보와 VERSION 정보, Taxonomy정보를 이용한 ICTV 분류체계에 따라 바이러스를 분류하여야 효율적인 바이러스 데이터베이스의 구축에 용이하다. GenBank data of NCBI which is widely used at present is divided into ANNOTAION part and SEQUENCE information part which contain meta information of genome. It contains meta information (SOURCE, CDS, GENE, etc.) that contain the characteristics of each part of the genome, and the SEQUENCE part contains only the sequence information of the genome, so it can be used for ICTV classification system using ACCESSION information, VERSION information, and Taxonomy information. The virus must be classified accordingly to facilitate the construction of an efficient virus database.

바이러스의 분류는 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species) 별로 분류하여 DB에 대한 분류학적 체계를 설계할 수 있다. Viruses are classified by order (Order (-virales)), Family (-viridae), Subfamily (-virinae), Genus (-virus), and Species. You can design a taxonomy.

체계적인 분류를 위해서는 분류학적 정보를 기초로 ACCESSION 번호와 VERSION 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 ICTV 분류학에 기초하여 FASTA 파일을 분류함으로써, 검색을 간편하고 효율적으로 할 수 있는 체계적인 데이터베이스 구축이 가능하다(도 2). For systematic classification, based on the taxonomy information and based on the ACCESSION and VERSION numbers, the order (Order (-virales)), Family (-viridae), Subfamily (-virinae), Genus (- virus)), by classifying FASTA files based on ICTV taxonomy by species, it is possible to construct a systematic database that can easily and efficiently search (FIG. 2).

데이터베이스구축부(400)는 상기 바이러스분류부(300)로부터 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 서열비교를 위해 BLAST(Basic Local Alignment Search Tool) 데이터베이스를 생성한다.The database constructing unit 400 generates a BLAST (Basic Local Alignment Search Tool) database for sequence comparison based on a file converted into a FASTA format that is classified taxonomically from the virus classification unit 300.

즉, 도 3에 도시된 바와 같이 서열 특성 및 분류학적 분류를 마친 후 BLAST 데이터베이스를 생성한다.That is, the BLAST database is generated after finishing the sequence characteristics and taxonomic classification as shown in FIG.

이렇게 생성된 데이터베이스의 예는 도 4에 도시된 바와 같다.An example of the database thus generated is shown in FIG. 4.

데이터베이스구축부(400)는 상기 바이러스분류부(300)로부터 서열특성별 및 분류학적으로 분류되어진 각각의 데이터베이스를 구축할 수 있다.The database constructing unit 400 may construct each database classified by sequence characteristics and taxonomically from the virus classification unit 300.

분류학적으로 분류되는 경우, 데이터베이스는 Genbank taxon DB 및 Refseq taxon DB 로 구분되며, 각각의 DB 는 Blast Order DB, Blast Family DB, Blast Subfamily DB, Blast Genus DB 및 Blast Species DB 를 포함한다. When classified taxonomically, the database is divided into Genbank taxon DB and Refseq taxon DB, each DB including Blast Order DB, Blast Family DB, Blast Subfamily DB, Blast Genus DB and Blast Species DB.

이렇게 생성된 데이터베이스는 하나의 저장장치에 논리적으로 분할되어 구성될 수도 있고, 다수의 저장장치에 물리적으로 분할되어 구성될 수도 있다.The generated database may be logically divided into one storage device or may be physically divided into a plurality of storage devices.

새로 시퀀싱 된 유전체를 분석하기 위해서는 상동성 검색(Homology search)이 필요하다. 상동성 검색은 구축되어있는 유전자 서열 데이터베이스에서 진화적, 기능적으로 유사한 서열을 검색하는 작업으로, 이는 새로 발견된 유전체에 대한 정보를 서열 패턴 매칭을 통해 신규 유전체에 대한 기능 및 진화관계를 알아보는 검색이다. 오랫동안 가장 많이 사용되고 있는 분석 도구로는 BLAST(Basic Local Alignment Search Tool)가 있다. Homology search is required to analyze the newly sequenced genome. Homology search is the search for evolutionary and functionally similar sequences in the established gene sequence database. This is a search that finds the function and evolution of new genomes through sequence pattern matching of newly discovered genomes. to be. The most popular analysis tool for a long time is BLAST (Basic Local Alignment Search Tool).

또한 분석도구에 의해서 도출되는 결과는 다양한 시각화 도구에 의해서 영상화가 가능하다. 염기서열의 상동성을 분석하기 위한 가장 기본적인 시각화는 Align 형태의 시각화로 상동성 서열분석 결과를 가장 잘 표현해 줄 수 있는 Genom Browser 시각화 도구 등을 이용할 수 있다.In addition, the results obtained by the analysis tool can be imaged by various visualization tools. The most basic visualization to analyze the homology of sequencing is the Align type visualization, and the Genom Browser visualization tool can be used to best express the homology sequencing results.

이때, 상기 데이터베이스구축부(400)는 makeblastdb를 이용하여 Blast 데이터베이스를 생성하는 것을 특징으로 할 수 있다.At this time, the database building unit 400 may be characterized by generating a Blast database using the makeblastdb.

CDS 데이터베이스구축부(500)는 상기 데이터베이스구축부(400)의 Refseq taxon DB로부터, 단백질로 전환이 가능한 단백질 코딩 지역인 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Family CDS 데이터베이스구축부와, 상기 데이터베이스구축부(400)의 Refseq taxon DB로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Genus CDS 데이터베이스구축부를 생성한다. The CDS database construction unit 500 constructs a Blast Family CDS database that generates a database by extracting meta information and sequence information about CDS, which is a protein coding region that can be converted into a protein, from the Refseq taxon DB of the database construction unit 400. And a Blast Genus CDS database construction unit for generating a database by extracting meta information and sequence information about CDS from the Refseq taxon DB of the database construction unit 400.

생성된 Blast Family CDS 데이터베이스구축부 및 Blast Genus CDS 데이터베이스구축부는 신규 바이러스의 유전자 서열과 비교를 통해 신규 바이러스가 어떤 Taxynomy에 속하는지에 대한 정보를 제공할 수 있다. The generated Blast Family CDS database construction unit and the Blast Genus CDS database construction unit may provide information on which taxynomy the new virus belongs to by comparing the gene sequence of the new virus.

ORF단백질서열추출부(600)는 신규 바이러스의 유전자 서열을 추출하고, 추출된 유전자 서열을 FASTA 포맷으로 변환한 후, 단백질로 코딩이 가능한 후보 유전자 서열을 추출하여 Multi ORF FASTA 파일을 생성한 다음 이를 Single ORF FASTA 파일로 나눈다. The ORF protein sequence extracting unit 600 extracts the gene sequence of the new virus, converts the extracted gene sequence into a FASTA format, extracts a candidate gene sequence that can be encoded with a protein, and generates a multi ORF FASTA file. Split into a single ORF FASTA file.

신규 바이러스의 유전자 서열을 추출하기 위하여 시퀀스 장비를 사용하는데, 바이러스는 다른 미생물에 비해 변이속도가 빠르고 서열 길이가 짧아 바이러스 발생 지역에 직접 투입하여 그 자리에서 수분 내에 서열 분석이 가능한 장비가 필요하다. 기존의 유전체 서열 분석 장비는 무겁고 비용이 비싼 반면에 MinION 시퀀스 장비는 소형이며 빠른 서열 추출이 가능하다. 이때 시퀀싱 된 서열만으로는 신규 바이러스가 어느 바이러스에 속하는지 알 수 없으므로 이에 대한 구체적인 분석 작업이 수행되어야 한다. In order to extract the gene sequence of the new virus, sequence equipment is used. Since the virus has a faster mutation rate and a shorter sequence length than other microorganisms, it is necessary to directly insert the virus into a virus generation area and to analyze the sequence within minutes. Conventional genomic sequencing equipment is heavy and expensive, while MinION sequence equipment is compact and allows fast sequence extraction. In this case, the sequence sequence alone does not know which virus the new virus belongs to, so a detailed analysis should be performed.

먼저 시퀀싱 된 유전자 서열은 표준 유전체 데이터 포맷인 FASTA 포맷으로 전환되고, ORF(Open Reading Frame) Finder를 이용하여 단백질로 코딩이 가능한 후보 단백질서열을 추출한다. 유전체는 Intron 지역과 Exon 지역으로 나눌 수 있는데, 그 중 단백질로 코딩이 가능한 지역은 Exon 지역으로, 이 지역에서 단백질로 코딩이 가능한 유전자 서열을 추출할 수 있다. 이 단계에서 ORF Finder는 유전체 서열을 포워드 방향과 리버스 방향으로 반복해서 진행하고, ATG 단백질 코딩 시작 유전자 코돈과 TAA, TGA, TAG 단백질 코딩 끝 유전자를 기준으로 ORF를 생성한다. First, the sequenced gene sequence is converted to FASTA format, which is a standard genomic data format, and a candidate protein sequence that can be encoded into a protein is extracted using an ORF (Open Reading Frame) Finder. The genome can be divided into the Intron region and the Exon region. Among them, the protein-encoded region is the Exon region, from which the protein sequence can be extracted. In this step, the ORF Finder repeats the genome sequence in the forward direction and the reverse direction, and generates an ORF based on the ATG protein coding start gene codon and TAA, TGA, and TAG protein coding end genes.

바이러스의 유전자 서열에 여러 개의 ORF 후보가 존재하므로, ORF 번호와 위치를 헤드로 한 Multi ORF FASTA 파일을 생성하고, 각각의 ORF는 특정 바이러스의 특이적 단백질 후보 서열을 담고 있다. 각각의 ORF에 대해서 1:1 비교를 위해 Multi ORF FASTA를 Biopython 툴을 사용하여 Single ORF FASTA 파일로 나눈다. Since there are several ORF candidates in the gene sequence of the virus, a Multi ORF FASTA file is generated heading the ORF number and position, and each ORF contains the specific protein candidate sequence of the specific virus. Divide the Multi ORF FASTA into a Single ORF FASTA file using the Biopython tool for a 1: 1 comparison for each ORF.

단백질서열비교부(700)는 상기 CDS 데이터베이스구축부(500)의 데이터베이스와 상기 유전자서열추출부(600)의 Single ORF FASTA 파일의 유전자 서열을 비교한다. 이때 PASC(Pairwise Sequence Comparison) 분석을 수행하며 이를 통해 상동성이 높은 서열을 추출할 수 있다. The protein sequence comparison unit 700 compares the database of the CDS database construction unit 500 and the gene sequence of the single ORF FASTA file of the gene sequence extraction unit 600. In this case, PASC (Pairwise Sequence Comparison) analysis is performed, and through this, highly homologous sequences can be extracted.

단백질서열분석부(800)는 상기 단백질서열비교부(700)에서 비교된 단백질 서열을 기반으로 상동성이 높은 신규 바이러스의 Single ORF FASTA 파일 및 CDS 데이터베이스구축부(500)의 바이러스를 확인한 후, 이들 간에 공통적으로 보유하고 있는 단백질 서열을 추출하고 이들 단백질 서열간의 진화적 친화성을 분석한다. The protein sequence analysis unit 800 checks the viruses of the Single ORF FASTA file and the CDS database construction unit 500 of the highly homologous new virus based on the protein sequences compared in the protein sequence comparison unit 700, and then, Protein sequences commonly possessed by the liver are extracted and the evolutionary affinity between these protein sequences is analyzed.

먼저 CDS 데이터베이스구축부(500)에 저장된 단백질 서열과 Single ORF의 단백질 서열을 X, Y 축으로 하는 Identity Matrix를 형성한 후, Single ORF와 상동성이 높은 단백질 서열을 확인한다. First, an identity matrix having the X and Y axes of the protein sequence stored in the CDS database construction unit 500 and the protein sequence of the single ORF is formed, and then the protein sequence having high homology with the single ORF is identified.

상동성이 높은 ORF를 추출한 후 MSA(Multiple Sequence Alignment)를 수행하여 공통적으로 보유하고 있는 단백질 서열을 추출한다. After extracting an ORF having high homology, MSA (Multiple Sequence Alignment) is performed to extract a protein sequence that is commonly held.

MSA가 수행된 ORF에 대한 Distance를 계산하여 계통수를 분석함으로써 서열간의 진화적 친화성을 분석할 수 있다. The evolutionary affinity between sequences can be analyzed by calculating the phylogenetic tree by calculating the distance to the ORF on which the MSA was performed.

단백질공통서열데이터베이스구축부(900)는 상기 단백질서열분석부(800)에서 확인된 신규 바이러스의 Single ORF FASTA 파일에 대해 아이디 및 공통적인 단백질 서열을 저장한다. The protein common sequence database constructing unit 900 stores an ID and a common protein sequence for the single ORF FASTA file of the new virus identified by the protein sequence analyzing unit 800.

Taxonomy 데이터베이스구축부(1000)는 상기 단백질서열분석부(800)에서 확인된 신규 바이러스가 어떤 Taxonomy에 속하는지에 대한 정보를 저장한다. Taxonomy database construction unit 1000 stores information about which taxonomy the new virus identified in the protein sequence analysis unit 800 belongs.

상기 단백질공통서열데이터베이스구축부(900) 및 Taxonomy 데이터베이스구축부(1000)에 저장된 정보는 상기 데이터베이스구축부(400) 및/또는 상기 CDS 데이터베이스구축부(500)에 저장된 데이터베이스와 연계할 수 있다. 이를 통해 분석된 신규 바이러스에 대한 정보를 유전자은행(GenBank)으로부터 제공받지 않고도 자체적으로 분석된 신규 바이러스에 대한 정보를 주기적으로 축적하거나 업데이트함으로써 다양한 신종 바이러스에 대한 체계적이고 효율적인 분석이 가능하다. Information stored in the protein common sequence database constructing unit 900 and the Taxonomy database constructing unit 1000 may be linked to a database stored in the database constructing unit 400 and / or the CDS database constructing unit 500. Through this, it is possible to systematically and efficiently analyze various new viruses by periodically accumulating or updating information about new viruses analyzed on their own without receiving information about new viruses analyzed from GenBank.

도 5에 도시된 바와 같이, 본 발명의 일 실시예에 따른 컴퓨터를 포함하는 연산처리수단에 의하여 실행되는 프로그램 형태로 이루어지며, 바이러스별 특이적 단백질 서열 추출 시스템을 이용한 바이러스별 특이적 단백질 서열 추출 방법은 바이러스정보수집 단계(S10); 포맷변환 단계(S20); 바이러스분류 단계(S30); 데이터베이스구축 단계(S40); CDS 데이터베이스구축 단계(S50); ORF단백질서열추출 단계(S60); 단백질서열비교 단계(S70); 단백질서열분석 단계(S80); 단백질공통서열데이터베이스구축 단계(S90); 및 Taxonomy 데이터베이스구축 단계(S100)를 포함한다.As shown in FIG. 5, a virus-specific protein sequence extraction system using a virus-specific protein sequence extraction system is formed in a program form executed by an arithmetic processing means including a computer according to an embodiment of the present invention. The method includes collecting virus information (S10); Format conversion step (S20); Virus classification step (S30); Database construction step (S40); CDS database construction step (S50); ORF protein sequence extraction step (S60); Protein sequence comparison step (S70); Protein sequencing step (S80); Protein common sequence database construction step (S90); And Taxonomy database construction step (S100).

바이러스정보수집 단계(S10)는 바이러스정보수집부(100)가 유전자은행(GenBank)으로부터 바이러스와 관련된 정보(gbvrl 파일)를 수집한다.In the virus information collecting step S10, the virus information collecting unit 100 collects virus-related information (gbvrl file) from a gene bank (GenBank).

예를 들어, 바이러스정보수집 단계(S10)는 NCBI에서 제공하는 GenBank 파일데이터 중 바이러스와 관련된 gbvrl 파일을 수집할 수 있다.For example, the virus information collecting step S10 may collect a gbvrl file related to a virus among GenBank file data provided by NCBI.

포맷변환 단계(S20)는 포맷변환부(200)가 상기 바이러스정보수집부(100)로부터 수집된 정보를 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, Taxonomy 정보, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환한다.Format conversion step (S20) is a format conversion unit 200 parses the information collected from the virus information collection unit 100 GenBank GI number, GenBank Accession number, GenBank Version number, Taxonomy information, genome definition and sequence parts ((syntactic) parsing) converts a nucleotide sequence or protein sequence into a FASTA format expressed as a string.

상기 포맷변환부(200)는 데이터베이스 구축에 용이하도록 데이터를 FASTA 포맷 형식의 파일로 1차 가공하는 것으로서, 데이터베이스 구축을 위한 파일을 재생산한다. The format conversion unit 200 first processes the data into a file in a FASTA format to facilitate database construction, and reproduces the file for database construction.

이때, 상기 포맷변환부(200)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하는 것을 특징으로 한다.At this time, the format conversion unit 200 is characterized in that for converting the format using a BioPython (BioPython) module.

바이오파이썬(BioPython) 모듈은 생물학자들이 만든 파이썬 모듈(프로젝트)로 NCBI에 대한 접속이나 블라스트(BLAST) 등 기본적인 생물학적 툴이 갖추어져 있는 모듈이다. The BioPython module is a Python module (project) created by biologists that contains basic biological tools such as access to NCBI and Blast.

바이러스분류 단계(S30)는 바이러스분류부(300)가 분류학적 정보를 기초로 ACCESSION 번호와 VERSION 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류한다.Virus classification step (S30) is the virus classification unit 300 based on the taxonomy information based on the ACCESSION number and VERSION number (Order (-virales)), family (Family (-viridae)), subfamily (Subfamily ( -virinae)), FAus files are classified by genus (-virus) and species (Species).

즉, 바이러스분류 단계(S30)는 ICTV 분류학에 기초하여 바이러스와 관련된 정보를 분류한다.That is, the virus classification step S30 classifies the information related to the virus based on the ICTV taxonomy.

데이터베이스구축 단계(S40)는 데이터베이스구축부(400)가 상기 바이러스분류부(300)로부터 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 BLAST(Basic Local Alignment Search Tool) 데이터베이스를 생성한다.Database building step (S40) generates a BLAST (Basic Local Alignment Search Tool) database on the basis of the file is converted into a FASTA format that the database building unit 400 is classified taxonomically from the virus classification unit 300.

CDS 데이터베이스구축 단계(S50)는 CDS 데이터베이스구축부(500)가 상기 데이터베이스구축부(400)의 Family DB로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Family CDS 데이터베이스구축부와, 상기 데이터베이스구축부(400)의 Genus DB로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Genus CDS 데이터베이스구축부를 생성한다. CDS database construction step (S50) is the CDS database construction unit 500, Blast Family CDS database construction unit for generating a database by extracting meta information and sequence information about the CDS from the Family DB of the database construction unit 400, The Blast Genus CDS database construction unit generates a database by extracting the meta information and the sequence information of the CDS from the Genus DB of the database construction unit 400.

ORF단백질서열추출 단계(S60)는 ORF단백질서열추출부(600)가 신규 바이러스의 단백질 서열을 추출하고, 추출된 단백질 서열을 FASTA 포맷으로 변환한 후, 단백질로 코딩이 가능한 후보 단백질 서열을 추출하여 Multi ORF FASTA 파일을 생성한 다음 이를 Single ORF FASTA 파일로 나눈다. ORF protein sequence extraction step (S60) is the ORF protein sequence extraction unit 600 extracts the protein sequence of the new virus, converts the extracted protein sequence to FASTA format, and then extracts the candidate protein sequence that can be encoded with a protein Create a Multi ORF FASTA file and split it into a Single ORF FASTA file.

단백질서열비교 단계(S70)는 단백질서열비교부(700)가 상기 CDS 데이터베이스구축부(500)의 데이터베이스와 상기 ORF단백질서열추출부(600)의 Single ORF FASTA 파일의 유전자 서열을 비교한다. In the protein sequence comparison step S70, the protein sequence comparison unit 700 compares the database of the CDS database constructing unit 500 and the gene sequence of the single ORF FASTA file of the ORF protein sequence extracting unit 600.

단백질서열분석 단계(S80)는 단백질서열분석부(800)가 상기 단백질서열비교부(700)에서 비교된 유전자 서열을 기반으로 상동성이 높은 신규 바이러스의 Single ORF FASTA 파일 및 CDS 데이터베이스구축부(500)의 바이러스를 확인한 후, 이들 간에 공통적으로 보유하고 있는 단백질 서열을 추출하고 이들 단백질 서열간의 친화성을 분석한다. Protein sequencing step (S80) is the protein sequence analysis unit 800 is a single ORF FASTA file and CDS database construction unit 500 of the new high homology based on the gene sequence compared in the protein sequence comparison unit 700 After identifying the virus of), the protein sequences commonly possessed between them are extracted and the affinity between these protein sequences is analyzed.

단백질공통서열데이터베이스구축 단계(S90)는 단백질공통서열데이터베이스구축부(900)가 상기 단백질서열분석부(800)에서 확인된 신규 바이러스의 Single ORF FASTA 파일에 대해 아이디 및 공통적인 단백질서열을 저장한다. In the protein common sequence database constructing step (S90), the protein common sequence database constructing unit 900 stores the ID and the common protein sequence for the single ORF FASTA file of the new virus identified in the protein sequence analyzing unit 800.

Taxonomy 데이터베이스구축 단계(S100)는 Taxonomy 데이터베이스구축부(1000)가 상기 단백질서열분석부(800)에서 확인된 신규 바이러스가 어떤 Taxonomy에 속하는지에 대한 정보를 저장한다. Taxonomy database construction step (S100) is the Taxonomy database construction unit 1000 stores information about which taxonomy the new virus identified in the protein sequence analysis unit 800 belongs.

또한 본 발명의 추출 방법은 연계하는 단계를 추가로 포함할 수 있는데, 상기 연계하는 단계에서 상기 유전자서열데이터베이스구축부(900) 및 Taxonomy 데이터베이스구축부(1000)에 저장된 정보는 상기 데이터베이스구축부(400) 및/또는 상기 CDS 데이터베이스구축부(500)에 저장된 데이터베이스와 연계할 수 있다. 이를 통해 분석된 신규 바이러스에 대한 정보를 유전자은행(GenBank)으로부터 제공받지 않고도 자체적으로 분석된 신규 바이러스에 대한 정보를 주기적으로 축적하거나 업데이트함으로써 다양한 신종 바이러스에 대한 체계적이고 효율적인 분석이 가능하다. In addition, the extraction method of the present invention may further comprise the step of linking, the information stored in the gene sequence database construction unit 900 and the Taxonomy database construction unit 1000 in the linking step is the database construction unit 400 And / or a database stored in the CDS database construction unit 500. Through this, it is possible to systematically and efficiently analyze various new viruses by periodically accumulating or updating information about new viruses analyzed on their own without receiving information about new viruses analyzed from GenBank.

유전학적으로 동종의 서열은 그 유사성이 매우 높다. 따라서 기존 BLAST DB는 모든 생물체에 대한 서열 DB로 구성되어 있다. 이는 신종 바이러스 출현 시 모든 서열을 비교하게 되어 검색 시간과 속도가 오래 걸리며 불필요한 서열 검색되어지는 단점이 있다. Genetically homologous sequences have very high similarities. Therefore, the existing BLAST DB is composed of the sequence DB for all organisms. This compares all sequences in the emergence of a new virus, which takes a long search time and speed and has the disadvantage of searching for unnecessary sequences.

그러나 본 발명에 따라 구축된 데이터베이스는 ICTV 바이러스 분류학적 분류를 수행하여 BLAST DB를 구축하는 동시에, 이를 기반으로 생물체의 구조와 기능을 좌우하는 단백질 서열을 비교검색을 용이하게 하기 위하여 분류학적 분류에 의한 BLAST DB를 CDS 기반의 BLAST DB로 더 세분화하여 신종 바이러스 출현 시 신종바이러스가 기존의 어떤 바이러스와 유사한지 여부와 어떤 기능을 가질 가능성이 높은지를 빠르게 파악할 수 있어 신종 바이러스에 대한 대응 속도를 높이고 임상적 실험 범위를 좁혀 줌으로써 경제적 비용 절감효과를 가져올 수 있다.However, the database constructed in accordance with the present invention performs the ICTV virus taxonomic classification to build a BLAST DB, and at the same time based on this to facilitate the comparative search for protein sequences that influence the structure and function of the organism based on the taxonomic classification. By further subdividing the BLAST DB into CDS-based BLAST DB, it is possible to quickly identify whether a new virus is similar to the existing virus and what function it is likely to have when a new virus emerges. By narrowing the scope of the experiment, economic savings can be achieved.

100: 바이러스정보수집부
200: 포맷변환부
300: 바이러스분류부
400: 데이터베이스구축부
500: CDS 데이터베이스구축부
600: ORF단백질서열추출부
700: 단백질서열비교부
800: 단백질서열분석부
900: 단백질공통서열데이터베이스구축부
1000: Taxonomy 데이터베이스구축부
S10: 바이러스정보수집 단계
S20: 포맷변환 단계
S30: 바이러스분류 단계 단계
S40: 데이터베이스구축 단계
S50: CDS 데이터베이스구축 단계
S60: ORF단백질서열추출 단계
S70: 단백질서열비교 단계
S80: 단백질서열분석 단계
S90: 단백질공통서열데이터베이스구축 단계
S100: Taxonomy 데이터베이스구축 단계
100: virus information collector
200: format conversion unit
300: virus classification unit
400: database construction unit
500: CDS database construction unit
600: ORF protein sequence extraction unit
700: protein sequence comparison
800: protein sequence analysis unit
900: common protein sequence database construction unit
1000: Taxonomy database construction unit
S10: Virus Information Collection Step
S20: Format Conversion Step
S30: virus classification step
S40: Database construction step
S50: CDS database construction step
S60: ORF protein sequence extraction step
S70: protein sequence comparison step
S80: Protein sequencing step
S90: Build Protein Common Sequence Database
S100: Taxonomy Database Construction Steps

Claims (6)

유전자은행(GenBank)에서 제공하는 유전자의 정보 중 바이러스와 관련된 정보를 수집하는 바이러스정보수집부(100);
상기 바이러스정보수집부(100)로부터 수집된 정보의 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, Taxonomy 정보, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하는 포맷변환부(200);
분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류하는 바이러스분류부(300);
상기 바이러스분류부(300)로부터 ICTV 바이러스 표준 분류체계에 따라 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 Blast(Basic Local Alignment Search Tool) 데이터베이스를 생성하는 데이터베이스구축부(400);
상기 데이터베이스구축부(400)의 Family DB로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Family CDS 데이터베이스구축부와, 상기 데이터베이스구축부(400)의 Genus DB로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Genus CDS 데이터베이스구축부로 구성되는 CDS 데이터베이스구축부(500);
신규 바이러스의 유전자 서열을 추출하고, 추출된 유전자 서열을 FASTA 포맷으로 변환한 후, 단백질로 코딩이 가능한 후보 유전자 서열을 추출하여 Multi ORF FASTA 파일을 생성한 다음 이를 Single ORF FASTA 파일로 나누는 ORF단백질서열추출부(600);
상기 CDS 데이터베이스구축부(500)의 데이터베이스와 상기 ORF단백질서열추출부(600)의 Single ORF FASTA 파일의 유전자 서열을 비교하는 단백질서열비교부(700);
상기 단백질서열비교부(700)에서 비교된 단백질 서열을 기반으로 상동성이 높은 신규 바이러스의 Single ORF FASTA 파일 및 CDS 데이터베이스구축부(500)의 바이러스를 확인한 후, 이들 간에 공통적으로 보유하고 있는 단백질 서열을 추출하고 이들 단백질 서열간의 친화성을 분석하는 단백질서열분석부(800);
상기 단백질서열분석부(800)에서 확인된 신규 바이러스의 Single ORF FASTA 파일에 대해 아이디 및 공통적인 단백질 서열을 저장하는 단백질공통서열데이터베이스구축부(900); 및
상기 단백질서열분석부(800)에서 확인된 신규 바이러스가 어떤 Taxonomy에 속하는지에 대한 정보를 저장하는 Taxonomy 데이터베이스구축부(1000)를 포함하는 바이러스별 특이적 단백질 서열 추출 시스템에 있어서,
상기 포맷변환부(200)는 바이오파이썬(BioPython) 모듈을 이용하여 포맷 변환을 하고,
상기 데이터베이스구축부(400)는 makeblastdb를 이용하여 Blast 데이터베이스를 생성하며,
상기 ORF단백질서열추출부(600)는 ORF Finder를 이용하여 단백질로 코딩이 가능한 후보 유전자 서열을 추출하며,
상기 단백질공통데이터베이스구축부(900) 및 Taxonomy 데이터베이스구축부(1000)에 저장된 정보는 상기 데이터베이스구축부(400) 및 CDS 데이터베이스구축부(500)에 저장된 데이터베이스와 연계함으로써, 분석된 신규 바이러스에 대한 정보를 유전자은행(GenBank)으로부터 제공받지 않고도 자체적으로 분석된 신규 바이러스에 대한 정보를 주기적으로 축적하거나 업데이트하여 다양한 신종 바이러스에 대한 체계적인 분석이 가능한 것을 특징으로 하는 바이러스별 특이적 단백질 서열 추출 시스템.
A virus information collecting unit 100 collecting information related to viruses among gene information provided by a gene bank (GenBank);
Parsing the GenBank GI number, GenBank Accession number, GenBank Version number, Taxonomy information, genome definition, and sequence portion of the information collected from the virus information collection unit 100, and sequence or protein sequence A format conversion unit 200 for converting to a FASTA format expressed as a character string;
Based on the taxonomy information, based on the Accession number and Version number, the order (Order (-virales)), family (-viridae), subfamily (-virinae), genus (Genus (-virus)), Virus classification unit 300 for classifying FASTA files by Species;
A database constructing unit 400 for generating a Blast (Basic Local Alignment Search Tool) database based on a file converted from the virus classification unit 300 into a FASTA format classified according to the ICTV virus standard classification system;
Blast Family CDS database construction unit for generating a database by extracting meta information and sequence information of the CDS from the Family DB of the database construction unit 400, and meta information about the CDS from the Genus DB of the database construction unit 400 And a CDS database construction unit 500 consisting of a Blast Genus CDS database construction unit for generating a database by extracting sequence information;
ORF protein sequence that extracts the gene sequence of the new virus, converts the extracted gene sequence into FASTA format, extracts the candidate gene sequence that can be encoded with protein, generates a Multi ORF FASTA file, and divides it into a single ORF FASTA file. Extracting unit 600;
A protein sequence comparison unit 700 for comparing the DNA sequence of the database of the CDS database construction unit 500 and the single ORF FASTA file of the ORF protein sequence extraction unit 600;
After checking the virus of the single ORF FASTA file of the new virus with high homology and the CDS database constructing unit 500 based on the protein sequences compared in the protein sequence comparison unit 700, the protein sequences commonly held between them Extracting the protein sequence analysis unit 800 for analyzing the affinity between these protein sequences;
A protein common sequence database constructing unit 900 for storing an ID and a common protein sequence for the single ORF FASTA file of the new virus identified by the protein sequence analyzing unit 800; And
In the virus-specific protein sequence extraction system comprising a Taxonomy database construction unit 1000 for storing information about which Taxonomy new virus identified in the protein sequence analysis unit 800,
The format conversion unit 200 converts the format using a BioPython module,
The database building unit 400 generates a Blast database using makeblastdb,
The ORF protein sequence extracting unit 600 extracts a candidate gene sequence that can be encoded into a protein using an ORF finder,
The information stored in the protein common database constructing unit 900 and the Taxonomy database constructing unit 1000 are linked to the databases stored in the database constructing unit 400 and the CDS database constructing unit 500, thereby analyzing the new virus. Virus-specific protein sequence extraction system, characterized in that the systematic analysis of a variety of new viruses by accumulating or updating the information about the new virus analyzed by itself without being provided from GenBank (GenBank).
삭제delete 삭제delete 삭제delete 컴퓨터를 포함하는 연산처리수단에 의하여 실행되는 프로그램 형태로 이루어지며, 제1항의 바이러스별 특이적 단백질 서열 추출 시스템을 이용한 바이러스별 특이적 단백질 서열 추출 방법에 있어서,
바이러스정보수집부(100)가 유전자은행(GenBank)으로부터 바이러스와 관련된 정보를 수집하는 바이러스정보수집 단계(S10);
포맷변환부(200)가 상기 바이러스정보수집부(100)로부터 수집된 정보의 GenBank GI 번호, GenBank Accession 번호, GenBank Version 번호, Taxonomy정보, 유전체 정의 및 서열 부분을 구문분석((syntactic) parsing)하여, 염기서열 또는 단백질서열을 문자열로 표현한 FASTA 포맷으로 변환하는 포맷변환 단계(S20);
바이러스분류부(300)가 분류학적 정보를 기초로 Accession 번호와 Version 번호를 기준으로 목(Order(-virales)), 과(Family(-viridae)), 아과(Subfamily(-virinae)), 속(Genus(-virus)), 종(Species)별로 FASTA 파일을 분류하는 바이러스분류 단계(S30);
데이터베이스구축부(400)가 상기 바이러스분류부(300)로부터 분류학적으로 분류되어진 FASTA 형식으로 변환된 파일을 바탕으로 Blast(Basic Local Alignment Search Tool) 데이터베이스를 생성하는 데이터베이스구축 단계(S40);
CDS 데이터베이스구축부(500)가 상기 데이터베이스구축부(400)의 Family DB로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Family CDS 데이터베이스구축부와, 상기 데이터베이스구축부(400)의 Genus DB로부터 CDS에 대한 메타정보와 서열정보를 추출하여 데이터베이스를 생성하는 Blast Genus CDS 데이터베이스구축부를 생성하는 CDS 데이터베이스구축 단계(S50);
ORF단백질서열추출부(600)가 신규 바이러스의 유전자 서열을 추출하고, 추출된 유전자 서열을 FASTA 포맷으로 변환한 후, 단백질로 코딩이 가능한 후보 유전자 서열을 추출하여 Multi ORF FASTA 파일을 생성한 다음 이를 Single ORF FASTA 파일로 나누는 ORF단백질서열추출 단계(S60);
단백질서열비교부(700)가 상기 CDS 데이터베이스구축부(500)의 데이터베이스와 상기 ORF단백질서열추출부(600)의 Single ORF FASTA 파일의 단백질 서열을 비교하는 단백질서열비교 단계(S70);
단백질서열분석부(800)가 상기 단백질서열비교부(700)에서 비교된 유전자 서열을 기반으로 상동성이 높은 신규 바이러스의 Single ORF FASTA 파일 및 CDS 데이터베이스구축부(500)의 바이러스를 확인한 후, 이들 간에 공통적으로 보유하고 있는 단백질 서열을 추출하고 이들 단백질 서열간의 친화성을 분석하는 단백질서열분석 단계(S80);
단백질공통서열데이터베이스구축부(900)가 상기 단백질서열분석부(800)에서 확인된 신규 바이러스의 Single ORF FASTA 파일에 대해 아이디 및 공통적인 단백질 서열을 저장하는 단백질공통서열데이터베이스구축 단계(S90); 및
Taxonomy 데이터베이스구축부(1000)가 상기 단백질서열분석부(800)에서 확인된 신규 바이러스가 어떤 Taxonomy에 속하는지에 대한 정보를 저장하는 Taxonomy 데이터베이스구축 단계(S100)를 포함하는 바이러스별 특이적 단백질 서열 추출 방법.
In the form of a program executed by a computer processing unit including a computer, in the virus-specific protein sequence extraction method using the virus-specific protein sequence extraction system of claim 1,
A virus information collecting step of collecting information related to a virus from a gene bank (GenBank) by the virus information collecting unit 100 (S10);
The format conversion unit 200 parses (syntactic) parsing the GenBank GI number, GenBank Accession number, GenBank Version number, Taxonomy information, genome definition, and sequence portion of the information collected from the virus information collection unit 100. A format conversion step (S20) of converting the nucleotide sequence or the protein sequence into the FASTA format expressed as a string;
Virus classification unit 300 based on taxonomy information based on Accession number and Version number (Order (-virales)), Family (-viridae), Subfamily (-virinae), Genus ( Genus (-virus)), virus classification step of classifying the FASTA file by the species (Species) (S30);
A database building step of generating, by the database building unit 400, a Blast (Basic Local Alignment Search Tool) database based on a file converted into a FASTA format that is classified taxonomically from the virus classification unit 300 (S40);
The CDS database construction unit 500 extracts the meta information and the sequence information of the CDS from the Family DB of the database construction unit 400 and generates a database of the Blast Family CDS database construction unit, and the database construction unit 400 A CDS database construction step (S50) of generating a Blast Genus CDS database construction unit for generating a database by extracting meta information and sequence information about CDS from a Genus DB;
The ORF protein sequence extracting unit 600 extracts the gene sequence of the new virus, converts the extracted gene sequence into a FASTA format, extracts a candidate gene sequence that can be encoded with a protein, and generates a multi ORF FASTA file. ORF protein sequence extraction step of dividing into a single ORF FASTA file (S60);
A protein sequence comparison step 700 compares the protein sequence of the database of the CDS database construction unit 500 and the single ORF FASTA file of the ORF protein sequence extraction unit 600 (S70);
After the protein sequence analysis unit 800 confirms the viruses of the single ORF FASTA file and the CDS database construction unit 500 of the highly homologous new virus based on the gene sequence compared in the protein sequence comparison unit 700, A protein sequence analysis step (S80) of extracting protein sequences commonly held in the liver and analyzing affinity between these protein sequences;
A common protein sequence database constructing step of storing a common protein sequence and a common protein sequence for the single ORF FASTA file of the new virus identified by the protein sequence analyzing unit 800 at step S90; And
Taxonomy database construction unit 1000 virus-specific protein sequence extraction method comprising a Taxonomy database construction step (S100) for storing information on which Taxonomy new virus identified in the protein sequence analysis unit 800 belongs to .
삭제delete
KR1020170176036A 2017-12-20 2017-12-20 A method for extracting specific protein sequence of virus KR102030055B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170176036A KR102030055B1 (en) 2017-12-20 2017-12-20 A method for extracting specific protein sequence of virus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170176036A KR102030055B1 (en) 2017-12-20 2017-12-20 A method for extracting specific protein sequence of virus

Publications (2)

Publication Number Publication Date
KR20190074573A KR20190074573A (en) 2019-06-28
KR102030055B1 true KR102030055B1 (en) 2019-10-08

Family

ID=67066317

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170176036A KR102030055B1 (en) 2017-12-20 2017-12-20 A method for extracting specific protein sequence of virus

Country Status (1)

Country Link
KR (1) KR102030055B1 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000072527A (en) 2000-09-07 2000-12-05 김현영 Method and apparatus for providing disease information with gene database through computer network
KR100790870B1 (en) 2006-03-17 2008-01-03 삼성전자주식회사 Method and apparatus for searching gene sequence
KR101482010B1 (en) 2013-01-23 2015-01-14 숭실대학교산학협력단 Ultrafast general searching device and method for whole genome sequencing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. R. White 외, "CloVR-Metagenomics: Functional and taxonomic microbial community charaterization from metagenomic whole-genome shotgun(WGS) sequences (후략)", Nature Precedings, 2011.10.12.*
J. R. White 외, "CloVR-Microbe: FAssembly, gene finding and functional annotation of raw sequence data from single microbial projects (후략)", Nature Precedings, 2011.10.12.*
Y. Bao 외, "Improvements to pairwise sequence comparison (PASC): a genome-based web tool for virus classification", Arch Virol, 159(12), pp.3293-3304, 2014.*

Also Published As

Publication number Publication date
KR20190074573A (en) 2019-06-28

Similar Documents

Publication Publication Date Title
Dong et al. An integrated pipeline for annotation and visualization of metagenomic contigs
Orengo et al. Bioinformatics: genes, proteins and computers
Rigoutsos et al. The emergence of pattern discovery techniques in computational biology
Pandey et al. Computational approaches for protein function prediction: A survey
Shastry et al. Machine learning for bioinformatics
US20130317755A1 (en) Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly
Fogel Computational intelligence approaches for pattern discovery in biological systems
Bhargava et al. DNA barcoding in plants: evolution and applications of in silico approaches and resources
Golestan Hashemi et al. Intelligent mining of large-scale bio-data: Bioinformatics applications
CN111710364A (en) Method, device, terminal and storage medium for acquiring flora marker
KR101858020B1 (en) A building method of virus genome database based on taxonomy
KR102030055B1 (en) A method for extracting specific protein sequence of virus
Qader et al. Motif discovery and data mining in bioinformatics
Vijayarani et al. Protein sequence classification in data mining–a study
JP2003256433A (en) Gene structure analysis method and apparatus
Nicolas et al. Finding and characterizing repeats in plant genomes
Shouman et al. Detecting Acute Lymphoblastic Leukemia in down Syndrome Patients Using Convolutional Neural Networks on Preprocessed Mutated Datasets
Saloom et al. A survey for the methods of detection and classification of genetic mutations
Natarajan et al. Functional gene clustering via gene annotation sentences, MeSH and GO keywords from biomedical literature
Upadhyay et al. Exploratory Data Analysis and Prediction of Human Genetic Disorder and Species Using DNA Sequencing
Aslanyan et al. On algorithmic technique of whole-genome analytics of viruses
Taylor et al. Iterated sequence databank search methods
Mishra et al. Probable Biomarker Identification Using Recursive Feature Extraction and Network Analysis
Ravikumar et al. Matching Pattern in DNA Sequences Using Machine Learning Approach Based on K-Mer Function
Havukkala Biodata mining and visualization: novel approaches

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant