KR20240013547A - Method, apparatus and system for classifying COVID-19 and alike virus based on genome sequence analysis using artificial intelligence - Google Patents
Method, apparatus and system for classifying COVID-19 and alike virus based on genome sequence analysis using artificial intelligence Download PDFInfo
- Publication number
- KR20240013547A KR20240013547A KR1020220091233A KR20220091233A KR20240013547A KR 20240013547 A KR20240013547 A KR 20240013547A KR 1020220091233 A KR1020220091233 A KR 1020220091233A KR 20220091233 A KR20220091233 A KR 20220091233A KR 20240013547 A KR20240013547 A KR 20240013547A
- Authority
- KR
- South Korea
- Prior art keywords
- virus
- genome sequence
- feature point
- sequence data
- genome
- Prior art date
Links
- 241000700605 Viruses Species 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 42
- 208000025721 COVID-19 Diseases 0.000 title abstract description 48
- 238000012300 Sequence Analysis Methods 0.000 title abstract description 21
- 238000013473 artificial intelligence Methods 0.000 title abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000013480 data collection Methods 0.000 claims abstract description 8
- 239000002773 nucleotide Substances 0.000 claims description 38
- 125000003729 nucleotide group Chemical group 0.000 claims description 29
- 108091026890 Coding region Proteins 0.000 claims description 21
- 201000003176 Severe Acute Respiratory Syndrome Diseases 0.000 claims description 21
- 150000001413 amino acids Chemical class 0.000 claims description 20
- 238000012706 support-vector machine Methods 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 14
- 241000711573 Coronaviridae Species 0.000 claims description 8
- 241001115402 Ebolavirus Species 0.000 claims description 6
- 241000127282 Middle East respiratory syndrome-related coronavirus Species 0.000 claims description 6
- 241000315672 SARS coronavirus Species 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 108020004414 DNA Proteins 0.000 description 20
- 208000001528 Coronaviridae Infections Diseases 0.000 description 14
- 208000025370 Middle East respiratory syndrome Diseases 0.000 description 14
- 201000011001 Ebola Hemorrhagic Fever Diseases 0.000 description 13
- 108090000623 proteins and genes Proteins 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 9
- 108700026244 Open Reading Frames Proteins 0.000 description 8
- 102000004169 proteins and genes Human genes 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 108020004705 Codon Proteins 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 229960005486 vaccine Drugs 0.000 description 5
- 241001678559 COVID-19 virus Species 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000002864 sequence alignment Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- FFKUHGONCHRHPE-UHFFFAOYSA-N 5-methyl-1h-pyrimidine-2,4-dione;7h-purin-6-amine Chemical compound CC1=CNC(=O)NC1=O.NC1=NC=NC2=C1NC=N2 FFKUHGONCHRHPE-UHFFFAOYSA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000010835 comparative analysis Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012268 genome sequencing Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000007794 visualization technique Methods 0.000 description 3
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 2
- 101000779242 Severe acute respiratory syndrome coronavirus 2 ORF3a protein Proteins 0.000 description 2
- 239000003443 antiviral agent Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002888 pairwise sequence alignment Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 102100031673 Corneodesmosin Human genes 0.000 description 1
- 101710139375 Corneodesmosin Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- 101710085938 Matrix protein Proteins 0.000 description 1
- 101710127721 Membrane protein Proteins 0.000 description 1
- 108091093105 Nuclear DNA Proteins 0.000 description 1
- 101710141454 Nucleoprotein Proteins 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002498 deadly effect Effects 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000005182 global health Effects 0.000 description 1
- 125000001909 leucine group Chemical group [H]N(*)C(C(*)=O)C([H])([H])C(C([H])([H])[H])C([H])([H])[H] 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/149—Modifications characterised by incorporating a coding sequence
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biochemistry (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Microbiology (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 COVID-19 및 유사 바이러스의 분류 방법, 장치 및 시스템에 관한 것으로서, 보다 구체적으로는 인공 지능을 이용한 게놈 서열 분석에 기반하여 COVID-19 및 유사 바이러스를 분류하는 방법, 장치 및 시스템에 관한 것이다.
본 발명에서는, 바이러스의 게놈 서열을 기반으로 바이러스의 종류를 분류하는 방법에 있어서, 바이러스 분류 시스템이, 분류 대상 바이러스의 게놈 서열 데이터를 수집하는 게놈 서열 데이터 수집 단계; 상기 게놈 서열 데이터에서 특징점(feature)을 추출하는 특징점 추출 단계; 및 추출된 상기 특징점을 미리 학습된 분류기로 입력하여 상기 바이러스의 종류를 분류하는 바이러스 분류 단계;를 포함하는 것을 특징으로 하는 바이러스 분류 방법을 개시한다.The present invention relates to a method, device, and system for classifying COVID-19 and similar viruses, and more specifically, to a method, device, and system for classifying COVID-19 and similar viruses based on genome sequence analysis using artificial intelligence. will be.
In the present invention, in a method of classifying types of viruses based on the genome sequence of the virus, the virus classification system includes a genome sequence data collection step of collecting genome sequence data of the virus to be classified; A feature point extraction step of extracting features from the genome sequence data; and a virus classification step of classifying the type of the virus by inputting the extracted feature points into a previously learned classifier.
Description
본 발명은 COVID-19 및 유사 바이러스의 분류 방법, 장치 및 시스템에 관한 것으로서, 보다 구체적으로는 인공 지능을 이용한 게놈 서열 분석에 기반하여 COVID-19 및 유사 바이러스를 분류하는 방법, 장치 및 시스템에 관한 것이다.The present invention relates to a method, device, and system for classifying COVID-19 and similar viruses, and more specifically, to a method, device, and system for classifying COVID-19 and similar viruses based on genome sequence analysis using artificial intelligence. will be.
최근 SARS-CoV-2로 인한 COVID-19(코로나 바이러스)가 빠른 속도로 확산하면서 수많은 사람들을 감염시키고 인류의 건강과 안위에 심각한 영향을 미치고 있다. Recently, COVID-19 (coronavirus) caused by SARS-CoV-2 is spreading at a rapid rate, infecting numerous people and seriously affecting human health and safety.
중국에서 시작된 COVID-19 또는 SARS-CoV-2라고도 하는 신종 코로나 바이러스는 급속히 확산되면서 전 세계적인 보건 비상 사태를 야기하고 있으며, 이에 대하여 WHO(세계보건기구)에서는 2020년 3월 11일 전 세계적인 팬데믹으로 공식 보고하였고, 2021년 7월 현재까지 COVID-19 전염병은 200개 이상의 국가/영토에 영향을 미쳤으며 4,067,517명의 사망을 포함하여 188,655,968명 이상의 감염 사례가 확인되었다. The new coronavirus, also known as COVID-19 or SARS-CoV-2, which originated in China, is rapidly spreading and causing a global health emergency, and the World Health Organization (WHO) declared it a global pandemic on March 11, 2020. As of July 2021, the COVID-19 pandemic has affected more than 200 countries/territories, with more than 188,655,968 confirmed cases, including 4,067,517 deaths.
이에 따라, 각국 정부와 보건 기관들은 치명적인 바이러스의 전파 및 확산에 대응하기 위한 예방 및 검역 조치를 실행하고 있으며, 관련 연구자들도 효과적인 백신 또는 약물을 개발/생산하기 위해 COVID-19의 게놈, 그 기능 및 행동을 파악하고 대응 방안을 도출하기 위하여 노력하고 있다.Accordingly, governments and health organizations in each country are implementing preventive and quarantine measures to respond to the spread and spread of the deadly virus, and related researchers are also investigating the genome of COVID-19 and its functions in order to develop/produce an effective vaccine or drug. Efforts are being made to identify and identify actions and come up with response plans.
이와 관련하여, 게놈 서열 분석과 첨단 인공 지능 기술은 연구자와 의료 전문가가 COVID-19 또는 SARS-CoV-2의 유전적 변이체를 이해하는 데 도움이 될 수 있으며, COVID-19의 게놈 서열 분석은 바이러스의 기원, 행동 및 구조를 이해하고, 백신, 항바이러스제의 생산/개발 및 효율적인 예방 전략의 수립에 도움이 될 수 있다. In this regard, genome sequencing and advanced artificial intelligence technologies can help researchers and medical professionals understand the genetic variants of COVID-19 or SARS-CoV-2, and genome sequencing of COVID-19 can help researchers and medical professionals understand the genetic variants of COVID-19 or SARS-CoV-2. Understanding the origin, behavior and structure of , can be helpful in the production/development of vaccines and antiviral agents and the establishment of efficient prevention strategies.
이에 따라, COVID-19 및 유사 바이러스에 대한 게놈 서열 분석을 기반으로 인공 지능을 이용하여 COVID-19 및 유사 바이러스를 분류할 수 있는 방안이 요구되고 있으나, 아직 이에 대한 적절한 해법이 제시되지 못하고 있다.Accordingly, there is a need for a method to classify COVID-19 and similar viruses using artificial intelligence based on genome sequence analysis of COVID-19 and similar viruses, but an appropriate solution has not yet been proposed.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위해 창안된 것으로, COVID-19 및 유사 바이러스에 대한 게놈 서열 분석을 기반으로 인공 지능을 이용하여 COVID-19 및 유사 바이러스를 분류할 수 있는 인공 지능을 이용한 게놈 서열 분석 기반 COVID-19 및 유사 바이러스의 분류 방법, 장치 및 시스템을 제공하는 것을 목적으로 한다.The present invention was created to solve the problems of the prior art as described above, and is an artificial intelligence that can classify COVID-19 and similar viruses using artificial intelligence based on genome sequence analysis of COVID-19 and similar viruses. The purpose is to provide methods, devices, and systems for classification of COVID-19 and similar viruses based on genome sequence analysis.
그 외 본 발명의 세부적인 목적은 아래에 기재되는 구체적인 내용을 통하여 이 기술 분야의 전문가나 연구자에게 자명하게 파악되고 이해될 수 있을 것이다.In addition, the detailed purpose of the present invention can be clearly understood and understood by experts or researchers in this technical field through the specific contents described below.
상기 과제를 해결하기 위한 본 발명의 한 측면에 따른 바이러스 분류 방법은, 바이러스의 게놈 서열을 기반으로 바이러스의 종류를 분류하는 방법에 있어서, 바이러스 분류 시스템이, 분류 대상 바이러스의 게놈 서열 데이터를 수집하는 게놈 서열 데이터 수집 단계; 상기 게놈 서열 데이터에서 특징점(feature)을 추출하는 특징점 추출 단계; 및 추출된 상기 특징점을 미리 학습된 분류기로 입력하여 상기 바이러스의 종류를 분류하는 바이러스 분류 단계;를 포함하는 것을 특징으로 한다.A virus classification method according to one aspect of the present invention for solving the above problem is a method of classifying types of viruses based on the genome sequence of the virus, wherein the virus classification system collects genome sequence data of the virus to be classified. Genome sequence data collection step; A feature point extraction step of extracting features from the genome sequence data; And a virus classification step of classifying the type of the virus by inputting the extracted feature points into a previously learned classifier.
여기서, 상기 바이러스에는 코로나(COVID-19), 사스(SARS), 중동호흡기증후군(MERS), 에볼라(Ebola) 바이러스 중 하나 또는 둘 이상이 포함될 수 있다.Here, the virus may include one or more of the coronavirus (COVID-19), SARS, Middle East Respiratory Syndrome (MERS), and Ebola virus.
또한, 상기 특징점 추출 단계에서는, 상기 게놈 서열 데이터에서 뉴클레오티드(nucleotide)의 빈도(frequency)를 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step, the frequency of nucleotides can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계에서는, 상기 게놈 서열 데이터에서 트리-뉴클레오티드(tri-nucleotides)의 빈도(frequency)를 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step, the frequency of tri-nucleotides can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계에서는, 상기 게놈 서열 데이터에서 아미노산의 조성(composition of amino acids)을 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step, the composition of amino acids can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계에서는, 상기 게놈 서열 데이터에서 뉴클레오티드 트리플렛의 서열(sequence of nucleotide triplets)을 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step, the sequence of nucleotide triplets can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계에서는, 상기 게놈 서열 데이터에서 코딩 서열(coding sequence, CDS)을 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step, a coding sequence (CDS) can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계에서는, 상기 게놈 서열 데이터에서 바이러스 종류간 정렬 유사도(alignment similarity)를 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step, alignment similarity between virus types can be extracted as feature points from the genome sequence data.
또한, 상기 특징점 추출 단계에서는, 상기 게놈 서열 데이터에서 바이러스 종류간 게놈 서열의 차이를 보여주는 도트 플롯(Dot Plot) 이미지를 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step, a dot plot image showing differences in genome sequences between virus types can be extracted as feature points from the genome sequence data.
또한, 상기 바이러스 분류 단계에서, 상기 분류기는, 훈련 데이터를 이용하여 뉴클레오티드(nucleotide)의 빈도(frequency), 트리-뉴클레오티드(tri-nucleotides)의 빈도(frequency), 아미노산의 조성(composition of amino acids), 뉴클레오티드 트리플렛의 서열(sequence of nucleotide triplets), 코딩 서열(coding sequence, CDS), 바이러스 종류간 정렬 유사도(alignment similarity), 바이러스 종류간 게놈 서열의 차이를 보여주는 도트 플롯(Dot Plot) 이미지 중 하나 이상을 이용하여 학습된 지원 벡터 머신(Support Vector Machine)을 기반으로 구성될 수 있다.Additionally, in the virus classification step, the classifier uses training data to determine the frequency of nucleotides, the frequency of tri-nucleotides, and the composition of amino acids. , one or more of the following: sequence of nucleotide triplets, coding sequence (CDS), alignment similarity between virus types, and dot plot images showing differences in genome sequence between virus types. It can be constructed based on a support vector machine learned using .
또한, 본 발명의 다른 측면에 따른 바이러스 분류 시스템은, 바이러스의 게놈 서열을 기반으로 바이러스의 종류를 분류하는 바이러스 분류 시스템에 있어서, 분류 대상 바이러스의 게놈 서열 데이터를 수집하는 게놈 서열 데이터 수집부; 상기 게놈 서열 데이터에서 특징점(feature)을 추출하는 특징점 추출부; 및 추출된 상기 특징점을 미리 학습된 분류기로 입력하여 상기 바이러스의 종류를 분류하는 바이러스 분류부;를 포함하는 것을 특징으로 한다.In addition, a virus classification system according to another aspect of the present invention classifies types of viruses based on the genome sequence of the virus, comprising: a genome sequence data collection unit that collects genome sequence data of the virus to be classified; a feature extraction unit that extracts features from the genome sequence data; and a virus classification unit that classifies the type of the virus by inputting the extracted feature points into a previously learned classifier.
이에 따라, 본 발명의 일 실시예에 따른 인공 지능을 이용한 게놈 서열 분석 기반 COVID-19 및 유사 바이러스의 분류 방법, 장치 및 시스템에서는, COVID-19 및 유사 바이러스에 대한 게놈 서열 분석을 기반으로 인공 지능을 이용하여 COVID-19 및 유사 바이러스를 분류할 수 있게 된다.Accordingly, in the method, device, and system for classifying COVID-19 and similar viruses based on genome sequence analysis using artificial intelligence according to an embodiment of the present invention, artificial intelligence is used based on genome sequence analysis for COVID-19 and similar viruses. It becomes possible to classify COVID-19 and similar viruses.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1 은 본 발명의 일 실시예에 따른 바이러스 분류 시스템(100)의 동작을 설명하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 바이러스 분류 방법의 순서도이다.
도 3 내지 및 도 4는 본 발명의 일 실시예에 따른 바이러스 분류 방법의 동작을 설명하는 도면이다.
도 5 내지 도 11은 본 발명의 일 실시예에 따른 바이러스 분류 방법에서의 특징점 추출을 설명하는 도면이다.
도 12 내지 도 14는 본 발명의 일 실시예에 따른 바이러스 분류 방법의 결과와 성능을 예시하는 도면이다.
도 15는 본 발명의 일 실시예에 따른 바이러스 분류 시스템의 블록도이다.The accompanying drawings, which are included as part of the detailed description to aid understanding of the present invention, provide embodiments of the present invention, and together with the detailed description, explain the technical idea of the present invention.
Figure 1 is a diagram explaining the operation of the
Figure 2 is a flowchart of a virus classification method according to an embodiment of the present invention.
3 to 4 are diagrams illustrating the operation of a virus classification method according to an embodiment of the present invention.
5 to 11 are diagrams illustrating feature point extraction in the virus classification method according to an embodiment of the present invention.
Figures 12 to 14 are diagrams illustrating the results and performance of a virus classification method according to an embodiment of the present invention.
Figure 15 is a block diagram of a virus classification system according to an embodiment of the present invention.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 이하에서는 특정 실시예들을 첨부된 도면을 기초로 상세히 설명하고자 한다.The present invention can be modified in various ways and can have various embodiments. Hereinafter, specific embodiments will be described in detail based on the accompanying drawings.
이하의 실시예는 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.The following examples are provided to provide a comprehensive understanding of the methods, devices and/or systems described herein. However, this is only an example and the present invention is not limited thereto.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시 예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다. In describing the embodiments of the present invention, if it is determined that a detailed description of the known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description will be omitted. In addition, the terms described below are terms defined in consideration of functions in the present invention, and may vary depending on the intention or custom of the user or operator. Therefore, the definition should be made based on the contents throughout this specification. The terminology used in the detailed description is only for describing embodiments of the present invention and should in no way be limiting. Unless explicitly stated otherwise, singular forms include plural meanings. In this description, expressions such as “comprising” or “comprising” are intended to indicate certain features, numbers, steps, operations, elements, parts or combinations thereof, and one or more than those described. It should not be construed to exclude the existence or possibility of any other characteristic, number, step, operation, element, or part or combination thereof.
또한, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되는 것은 아니며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.In addition, terms such as first, second, etc. may be used to describe various components, but the components are not limited by the terms, and the terms are used for the purpose of distinguishing one component from another component. It is used only as
먼저, 도 1에서는 본 발명의 일 실시예에 따른 바이러스 분류 시스템(100)의 동작을 설명하기 위한 도면을 예시하고 있다. 도 1에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 바이러스 분류 시스템(100)은 통신 네트워크(30)를 통해 하나 이상의 게놈 서열 입력 장치(20a, 20b)와 연결되어 분석 대상 바이러스에 대한 게놈 서열을 전송받아 바이러스에 대한 분류 작업을 수행할 수 있다.First, Figure 1 illustrates a diagram for explaining the operation of the
이때, 본 발명에서 상기 바이러스에는 코로나(COVID-19), 사스(SARS), 중동호흡기증후군(MERS), 에볼라(Ebola) 바이러스 중 하나 또는 둘 이상이 포함될 수 있다.At this time, in the present invention, the virus may include one or more of the coronavirus (COVID-19), SARS, Middle East Respiratory Syndrome (MERS), and Ebola virus.
또한, 상기 바이러스 분류 시스템(100)은 하나의 서버 컴퓨터로 구현되거나, 둘 이상의 서버 컴퓨터가 연동되어 구현될 수도 있으며, 상기 서버 컴퓨터의 예로는 서버 컴퓨팅 디바이스, 개인용 컴퓨터, 미니 컴퓨터, 및/또는 메인프레임 컴퓨터를 포함할 수 있지만 이러한 것으로만 한정되는 것은 아니고, 상기 서버 컴퓨터는 분산형 시스템일 수 있으며, 서버 컴퓨터의 동작들은 하나 이상의 프로세서들 상에서 동시에 그리고/또는 순차적으로 실행될 수 있다. In addition, the
나아가, 상기 바이러스 분류 시스템(100)은 클라우드 시스템을 이용하여 구현되거나 전용 하드웨어 등을 사용하여 별도의 장치로 구현되는 등 매우 다양한 형태로 구현하는 것이 가능하다.Furthermore, the
또한, 상기 게놈 서열 입력 장치(20)에는 분석 대상 바이러스의 게놈 서열을 전송할 수 있는 PC(personal computer), 노트북 컴퓨터(laptop computer), 랩탑 컴퓨터(laptop computer), 스마트폰(smart phone), 태블릿(tablet) 등 단말이거나, 상기 바이러스에 대한 분석을 통해 게놈 서열을 생성하는 모듈 등을 포함하여 구성하는 등 다양한 장치들이 폭넓게 포함될 수 있다.In addition, the genome
또한, 상기 통신 네트워크(30)로서는 유선 네트워크와 무선 네트워크를 포함할 수 있으며, 구체적으로, 근거리 통신망 (LAN: Local Area Network), 도시권 통신망 (MAN: Metropolitan Area Network), 광역 통신망 (WAN: Wide Area Network) 등의 다양한 통신망을 포함할 수 있다. 또한, 상기 통신 네트워크(30)는 공지의 월드 와이드 웹(WWW: World Wide Web)을 포함할 수도 있다. 그러나, 본 발명에서 통신 네트워크(30)는 상기 열거된 네트워크에 국한되지 않고, 공지의 무선 데이터 네트워크나 공지의 전화 네트워크 또는 공지의 유무선 텔레비전 네트워크를 적어도 일부로 포함할 수도 있다.In addition, the
또한, 도 2에서는 본 발명의 일 실시예에 따른 바이러스 분류 방법의 순서도를 도시하고 있다.Additionally, Figure 2 shows a flowchart of a virus classification method according to an embodiment of the present invention.
도 2에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 바이러스 분류 방법은, 바이러스의 게놈 서열을 기반으로 바이러스의 종류를 분류하는 방법으로서, 바이러스 분류 시스템(100)이, 분류 대상 바이러스의 게놈 서열 데이터를 수집하는 게놈 서열 데이터 수집 단계(S110), 상기 게놈 서열 데이터에서 특징점(feature)을 추출하는 특징점 추출 단계(S120) 및 추출된 상기 특징점을 미리 학습된 분류기로 입력하여 상기 바이러스의 종류를 분류하는 바이러스 분류 단계(S130)를 포함하여 구성될 수 있다.As can be seen in Figure 2, the virus classification method according to an embodiment of the present invention is a method of classifying the type of virus based on the genome sequence of the virus, and the
여기서, 상기 바이러스에는 코로나(COVID-19), 사스(SARS), 중동호흡기증후군(MERS), 에볼라(Ebola) 바이러스 중 하나 또는 둘 이상이 포함될 수 있다.Here, the virus may include one or more of the coronavirus (COVID-19), SARS, Middle East Respiratory Syndrome (MERS), and Ebola virus.
또한, 상기 특징점 추출 단계(S120)에서는, 상기 게놈 서열 데이터에서 뉴클레오티드(nucleotide)의 빈도(frequency)를 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step (S120), the frequency of nucleotides can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계(S120)에서는, 상기 게놈 서열 데이터에서 트리-뉴클레오티드(tri-nucleotides)의 빈도(frequency)를 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step (S120), the frequency of tri-nucleotides can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계(S120)에서는, 상기 게놈 서열 데이터에서 아미노산의 조성(composition of amino acids)을 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step (S120), the composition of amino acids can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계(S120)에서는, 상기 게놈 서열 데이터에서 뉴클레오티드 트리플렛의 서열(sequence of nucleotide triplets)을 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step (S120), the sequence of nucleotide triplets can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계(S120)에서는, 상기 게놈 서열 데이터에서 코딩 서열(coding sequence, CDS)을 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step (S120), a coding sequence (CDS) can be extracted as a feature point from the genome sequence data.
또한, 상기 특징점 추출 단계(S120)에서는, 상기 게놈 서열 데이터에서 바이러스 종류간 정렬 유사도(alignment similarity)를 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step (S120), alignment similarity between virus types can be extracted as feature points from the genome sequence data.
또한, 상기 특징점 추출 단계(S120)에서는, 상기 게놈 서열 데이터에서 바이러스 종류간 게놈 서열의 차이를 보여주는 도트 플롯(Dot Plot) 이미지를 특징점으로 추출할 수 있다.Additionally, in the feature point extraction step (S120), a dot plot image showing differences in genome sequences between virus types can be extracted as feature points from the genome sequence data.
또한, 상기 바이러스 분류 단계(S130)에서, 상기 분류기는, 훈련 데이터를 이용하여 뉴클레오티드(nucleotide)의 빈도(frequency), 트리-뉴클레오티드(tri-nucleotides)의 빈도(frequency), 아미노산의 조성(composition of amino acids), 뉴클레오티드 트리플렛의 서열(sequence of nucleotide triplets), 코딩 서열(coding sequence, CDS), 바이러스 종류간 정렬 유사도(alignment similarity), 바이러스 종류간 게놈 서열의 차이를 보여주는 도트 플롯(Dot Plot) 이미지 중 하나 이상을 이용하여 학습된 지원 벡터 머신(Support Vector Machine)을 기반으로 구성될 수 있다.Additionally, in the virus classification step (S130), the classifier uses training data to determine the frequency of nucleotides, the frequency of tri-nucleotides, and the composition of amino acids. Dot plot image showing differences in amino acids), sequence of nucleotide triplets, coding sequence (CDS), alignment similarity between virus types, and genome sequence between virus types. It may be configured based on a Support Vector Machine learned using one or more of the following.
이에 따라, 본 발명의 일 실시예에 따른 바이러스 분류 방법에서는, COVID-19 및 유사 바이러스에 대한 게놈 서열 분석을 기반으로 인공 지능을 이용하여 COVID-19 및 유사 바이러스를 분류할 수 있게 된다.Accordingly, in the virus classification method according to an embodiment of the present invention, COVID-19 and similar viruses can be classified using artificial intelligence based on genome sequence analysis of COVID-19 and similar viruses.
이하, 본 발명의 일 실시예에 따른 인공 지능을 이용한 게놈 서열 분석 기반 COVID-19 및 유사 바이러스의 분류 방법, 장치 및 시스템에 대한 예시적인 실시 형태들을 첨부된 도면을 참조하여 보다 자세하게 설명한다.Hereinafter, exemplary embodiments of a method, device, and system for classifying COVID-19 and similar viruses based on genome sequence analysis using artificial intelligence according to an embodiment of the present invention will be described in more detail with reference to the attached drawings.
이때, 본 발명에서는 COVID-19(코로나 바이러스)와 사스(SARS), 중동호흡기증후군(MERS), 에볼라(Ebola)와 같은 유사 바이러스의 유전체 염기서열 분석을 수행하는 인공 지능을 이용한 게놈 서열 분석 기반 바이러스 분류 방법, 장치 및 시스템을 개시한다.At this time, the present invention is a genome sequence analysis-based virus using artificial intelligence that performs genome sequence analysis of similar viruses such as COVID-19 (coronavirus), SARS, Middle East Respiratory Syndrome (MERS), and Ebola. Disclosed is a classification method, device, and system.
본 발명의 일 실시예에 따른 인공 지능을 이용한 게놈 서열 분석 기반 바이러스 분류 방법, 장치 및 시스템은 다양한 바이러스의 게놈 서열에서 중요한 정보를 얻는 데 도움이 될 수 있다. 이를 위하여, 본 발명에서는 코로나-19 및 기타 유전체 염기서열에 대하여 염기 조성 및 빈도, 트리뉴클레오티드(tri-nucleotide) 조성, 아미노산 개수, 염기 서열 간의 정렬, DNA 유사성 정보 등의 기본 정보를 추출하여 데이터에 대한 비교 분석을 수행하고, 이를 기반으로 다양한 시각화 방법을 적용하여 바이러스의 게놈 시퀀스를 분석하며, 나아가 머신 러닝 기반 분류기 지원 벡터 머신(SVM)을 적용하여 상이한 게놈 시퀀스를 분류하게 된다. A virus classification method, device, and system based on genome sequence analysis using artificial intelligence according to an embodiment of the present invention can help obtain important information from the genome sequences of various viruses. For this purpose, in the present invention, basic information such as base composition and frequency, tri-nucleotide composition, amino acid number, alignment between base sequences, and DNA similarity information is extracted from COVID-19 and other genome base sequences and stored in the data. Comparative analysis is performed, and based on this, various visualization methods are applied to analyze the genome sequence of the virus, and further, a machine learning-based classifier support vector machine (SVM) is applied to classify different genome sequences.
이를 위하여, 본 발명에서는 각 바이러스의 게놈 서열에 대한 데이터 세트는 공개 액세스가 가능한 온라인 데이터 센터 저장소에서 수집하였고, 이를 통해 본 발명의 일 실시예에 따른 인공 지능을 이용한 게놈 서열 분석 기반 바이러스 분류 방법, 장치 및 시스템에서는 COVID-19의 경우 97%, SARS의 경우 96%, MERS 및 에볼라의 게놈 서열에 대해 각각 95%의 높은 정확도로 분류 결과를 도출할 수 있었다.For this purpose, in the present invention, a data set for the genome sequence of each virus was collected from a publicly accessible online data center repository, and through this, a virus classification method based on genome sequence analysis using artificial intelligence according to an embodiment of the present invention, The device and system were able to produce classification results with high accuracy of 97% for COVID-19, 96% for SARS, and 95% for the genome sequences of MERS and Ebola, respectively.
보다 구체적으로, 본 발명의 일 실시예에 따른 인공 지능을 이용한 게놈 서열 분석 기반 바이러스 분류 방법, 장치 및 시스템에서는 유전체 염기 서열 분석 에서 개선된 인공 지능 기술에 기반하여 SARS, MERS, 에볼라 등 코로나19와 유사 바이러스의 유전체 염기서열 분석을 위한 시스템을 제공하는 것을 목적으로 한다. 이를 위하여, 본 발명에서는 이러한 바이러스의 게놈 염기서열의 기본 패턴을 연구하기 위해 비교 분석을 수행하고 분류를 위해 기계 학습 알고리즘을 추가로 활용하였다. 이와 관련하여, 본 발명의 목적을 달성하기 위한 기술적 기여로서 다음과 같은 내용들이 포함될 수 있다.More specifically, the virus classification method, device, and system based on genome sequence analysis using artificial intelligence according to an embodiment of the present invention are based on artificial intelligence technology improved in genome sequence analysis, such as SARS, MERS, and Ebola, and COVID-19. The purpose is to provide a system for analyzing the genome sequences of similar viruses. To this end, the present invention performed comparative analysis to study the basic pattern of the genome sequence of these viruses and additionally utilized a machine learning algorithm for classification. In this regard, the following contents may be included as technical contributions to achieve the purpose of the present invention.
i) 본 발명에서는 코로나-19, 사스, 메르스, 에볼라의 유전자 염기서열 분석을 위한 인공지능 기반 시스템을 제시하며, ii) 게놈 시퀀스에서 흥미로운 패턴을 찾기 위해 다양한 유형의 데이터 분석 및 시각화 기술을 사용하여 비교 분석을 수행할 수 있고, iii) 바이러스 분류를 위해 기계 학습 분류기(SVM)를 적용하여 서로 다른 게놈 시퀀스를 분류하고, iv) SVM 분류기의 결과를 다른 기계 학습 알고리즘과 비교하여 검증하였다.i) The present invention presents an artificial intelligence-based system for genetic sequence analysis of COVID-19, SARS, MERS, and Ebola, and ii) uses various types of data analysis and visualization techniques to find interesting patterns in genome sequences. iii) machine learning classifier (SVM) was applied to classify different genome sequences for virus classification, and iv) the results of the SVM classifier were verified by comparing them with other machine learning algorithms.
보다 구체적으로, 본 발명에서는 코로나-19, 사스, 메르스, 에볼라의 유전체 염기서열 분석 및 분류를 위한 인공지능 기반 시스템을 제시한다. 이와 관련하여, 도 3에서는 본 발명의 일 실시예에 따른 바이러스 분석 방법 및 시스템의 전반적인 동작 프로세스를 도시하고 있다. More specifically, the present invention presents an artificial intelligence-based system for genome sequence analysis and classification of COVID-19, SARS, MERS, and Ebola. In this regard, Figure 3 shows the overall operation process of the virus analysis method and system according to an embodiment of the present invention.
이때, 본 발명에서는 다양한 유형의 해석 및 시각화 기술을 사용하여 비교 데이터 분석을 수행하여, DNA의 뉴클레오타이드 빈도, 트리뉴클레오타이드 조성, 가장 안정적인 DNA를 갖는 게놈 서열을 나타내는 GC 백분율, 아미노산 수, 상이한 게놈 서열 간의 유사성 또는 정렬 등 이러한 바이러스의 게놈 내부 세부 정보를 도출하며, 게놈 서열의 길이를 포함하여 뉴클레오타이드에 대한 시각화를 수행하였다.At this time, the present invention performs comparative data analysis using various types of interpretation and visualization techniques to determine the nucleotide frequency of DNA, trinucleotide composition, GC percentage representing the genomic sequence with the most stable DNA, number of amino acids, and Internal details of the genomes of these viruses, such as similarity or alignment, were derived, and visualization of nucleotides, including the length of the genome sequence, was performed.
또한, 본 발명에서는 다양한 유형의 그래프를 사용하여 게놈 서열 정보에 대한 세부 정보를 제공했으며, 나아가 다른 게놈 서열을 분류하기 위해 기계 학습 기반 분류기를 적용하여 바이러스에 대한 분류를 수행하였다.In addition, the present invention provided detailed information on genome sequence information using various types of graphs, and further classified viruses by applying a machine learning-based classifier to classify different genome sequences.
이를 위하여, 먼저 GenBank의 .fasta 및 .gb 파일 확장자에서 서로 다른 바이러스의 게놈 서열을 수집하였고, 이때 4가지 유형의 바이러스 모두에 대해 총 300개의 서로 다른 게놈 코딩 서열을 사용하였다. 여기서 GenBank는 생물학적 주석을 추가로 촉진하는 뉴클레오티드 서열의 친숙한 온라인 오픈 액세스 데이터베이스 중 하나로서, NCBI(National Center for Biotechnology Information)에서 지원하며, GenBank는 약 18개월마다 시퀀스 파일이 증가하면서 지난 20년 동안 기하급수적으로 발전하면서, 전 세계의 연구 분석가가 게놈 서열의 특정 바이러스 구조와 기능을 즉시 평가할 수 있도록 지원하고 있다. 이때, 온라인 데이터베이스에서 수집한 바이러스에 대한 게놈 염기서열 데이터는 백신, 항바이러스 약물 및 진단 테스트 등을 수행하기 위해 필수적인 데이터라고 할 수 있다.For this purpose, we first collected the genome sequences of different viruses from GenBank with .fasta and .gb file extensions, using a total of 300 different genome coding sequences for all four types of viruses. Here, GenBank is one of the familiar online open access databases of nucleotide sequences that further facilitate biological annotation. Supported by the National Center for Biotechnology Information (NCBI), GenBank has been Rapid advancements enable research analysts around the world to immediately assess the structure and function of specific viruses in their genome sequences. At this time, genome sequence data for viruses collected from online databases can be said to be essential data for conducting vaccines, antiviral drugs, and diagnostic tests.
또한, 본 발명의 일 실시예로서, 게놈 서열의 비교 분석을 위해 Biopython을 사용할 수 있다. 게놈 서열 분석은 질병 발생을 연구하는 데 필수적인 도구가 되는 경우가 많으며, 본 발명에서는 코로나-19와 SARS, MERS, 에볼라 게놈을 포함한 기타 바이러스가 사용될 수 있다. Additionally, as an embodiment of the present invention, Biopython can be used for comparative analysis of genome sequences. Genome sequencing is often an essential tool in studying disease outbreaks, and other viruses, including COVID-19 and SARS, MERS, and Ebola genomes, can be used in the present invention.
보다 구체적으로, 본 발명에서는 DNA 서열을 읽어 들이는 것으로부터 분석을 시작할 수 있다. 본 발명에서는 이를 통해 염기 정보 또는 게놈 서열의 길이를 추출했는데, 예를 들어, COVID-19 게놈 서열의 길이는 29,903개, SARS 게놈 서열은 2975개, MERS 게놈 서열은 30,119개, 에볼라 게놈 서열 길이는 18,959개로 추출되었다. 본 발명의 일 실시예로서, 각 유전체 염기서열 DNA의 염기를 시각화한 결과는 도 4에 도시되어 있다. DNA는 세포의 핵(여기서 핵DNA라고 함)에서 발견되는 유기체의 유전 물질로서, DNA 정보는 도 4와 같이 Adenine-A, Guanine-G, Cytosine-C, Thymine-T의 4가지 화학 염기로 구성된 코드로 저장될 수 있다. More specifically, in the present invention, analysis can begin by reading the DNA sequence. In the present invention, the base information or length of the genome sequence was extracted through this. For example, the length of the COVID-19 genome sequence is 29,903, the SARS genome sequence is 2975, the MERS genome sequence is 30,119, and the Ebola genome sequence is 18,959 were extracted. As an example of the present invention, the results of visualizing the bases of each genome sequence DNA are shown in Figure 4. DNA is the genetic material of an organism found in the nucleus of a cell (herein referred to as nuclear DNA), and DNA information consists of four chemical bases: Adenine-A, Guanine-G, Cytosine-C, and Thymine-T, as shown in Figure 4. It can be saved as code.
이때, DNA의 뉴클레오티드는 다른 색상으로 표시되었는데, 예를 들어 게놈 서열의 처음 300개 뉴클레오티드를 표시했으며, 도 4에서 볼 수 있는 바와 같이, 뉴클레오티드의 분포가 다양하다는 것을 확인할 수 있다.At this time, the nucleotides of DNA were displayed in different colors, for example, the first 300 nucleotides of the genome sequence were displayed, and as can be seen in Figure 4, it can be seen that the distribution of nucleotides is diverse.
도 5에서는 서로 다른 게놈 서열의 DNA에 있는 각 뉴클레오티드의 구성을 보여주고 있다. 뉴클레오타이드 A와 T의 빈도가 C와 G의 빈도보다 높은 것을 알 수 있으며, 이때 뉴클레오타이드 쌍으로 인해 COVID-19, SARS, MERS에서 가장 많이 존재하는 뉴클레오타이드는 T인 반면, 에볼라에 존재하는 뉴클레오티드는 A라는 것을 확인할 수 있다. A와 T는 각 게놈 서열에서 가장 많이 존재하는 뉴클레오티드로 확인되는 반면, 다른 뉴클레오티드의 분포는 달라질 수 있다. 또한, 본 발명에서는 COVID-19와 SARS에서 Cytosine-Gua-9(GC)와 Adenine-Thymine(AT)의 양 사이에 큰 차이가 있음을 확인하였다. 이에 따라, 뉴클레오티드 빈도를 사용하여 각 게놈 서열에 대한 GC%를 결정할 수 있으며, 이는 DNA의 안정성에 관한 중요한 정보를 제공할 수 있다. 또한, GC의 양은 AT와 거의 비슷하므로 에볼라 바이러스 게놈 서열의 GC 백분율이 가장 높은 GC 백분율을 갖는 것으로 추정되는 45.50%, 즉 가장 안정적인 DNA를 가지고 있다고 가정할 수 있다. 다음으로, 사스(SARS)와 메르스(MERS) 바이러스 염기서열에서는 각각 40.76%, 41.76%로 GC 비율이 가장 낮고, DNA가 가장 불안정한 염기서열은 코로나-19(37.97%)로 파악되며, 상기 정보는 DNA의 안정성이 변화에 저항하는 데 필수적이기 때문에 중요한 의미를 가질 수 있다.Figure 5 shows the composition of each nucleotide in DNA of different genomic sequences. It can be seen that the frequency of nucleotides A and T is higher than that of C and G. At this time, due to the nucleotide pair, the most prevalent nucleotide in COVID-19, SARS, and MERS is T, while the nucleotide present in Ebola is A. You can check that. While A and T are identified as the most abundant nucleotides in each genome sequence, the distribution of other nucleotides may vary. Additionally, the present invention confirmed that there is a significant difference between the amounts of Cytosine-Gua-9 (GC) and Adenine-Thymine (AT) in COVID-19 and SARS. Accordingly, nucleotide frequencies can be used to determine GC% for each genomic sequence, which can provide important information about the stability of the DNA. Additionally, since the amount of GC is almost similar to AT, it can be assumed that the GC percentage of the Ebola virus genome sequence is estimated to have the highest GC percentage, i.e., 45.50%, i.e., the most stable DNA. Next, the SARS and MERS virus base sequences have the lowest GC ratio at 40.76% and 41.76%, respectively, and the most unstable DNA base sequence is found to be COVID-19 (37.97%), and the above information can have important implications because the stability of DNA is essential for resisting change.
다음으로, 도 6a 내지 도 6d에서는 tri-nucleotide 조성을 도시하고 있으며, 생물정보학에서는 생물학적 서열에 포함된 범위의 하위 서열에 해당한다. 상기 tri-nucleotide 조성은 주로 컴퓨터 유전체학 및 염기서열 분석(즉, A, T, G, C)을 포함하는 염기서열 분석에 적용되며, 이종 유전자 표현을 증가시키고 메타게놈 샘플에서 종을 구별하며 약독화 백신을 생산하는 데 도움이 될 수 있다. Next, Figures 6a to 6d show the tri-nucleotide composition, which in bioinformatics corresponds to a sub-sequence within the range included in the biological sequence. The above tri-nucleotide compositions are mainly applied in nucleotide sequence analysis, including computational genomics and sequencing (i.e. A, T, G, C), to increase heterologous gene expression, distinguish species in metagenomic samples, and attenuate It could help produce vaccines.
또한, 게놈 서열에는 바이러스에 대한 모든 암호화된 기본 정보가 포함되어 있으며, 유전 정보를 이해하는 것은 치료법과 백신을 얻는 열쇠가 될 수 있다. 이때, 유전자 발현의 과정에서 유전자의 데이터는 작동하는 유전자 산물을 합성하는 데 사용되고, 합성되는 산물은 종종 단백질이 된다. 따라서, 본 발명에서는 DNA가 전령 RNA(mRNA)로 복사되는 전사를 수행하고 번역을 사용하여 mRNA가 아미노산으로 번역되며, 이는 한 코드(뉴클레오티드 A T C G 서열)에서 다른 코드(아미노산 서열)로의 번역에 해당하게 된다. 이때, 모든 아미노산 서열이 단백질은 아니고, 20개 이상의 아미노산 코드를 갖는 서열만이 기능성 단백질에 해당할 수 있다. Additionally, the genome sequence contains all the encoded basic information about the virus, and understanding its genetic information could be the key to obtaining treatments and vaccines. At this time, in the process of gene expression, the data of the gene is used to synthesize a working gene product, and the synthesized product often becomes a protein. Therefore, in the present invention, transcription is performed where DNA is copied into messenger RNA (mRNA) and translation is used to translate the mRNA into amino acids, which corresponds to the translation from one code (nucleotide A T C G sequence) to another code (amino acid sequence). do. At this time, not all amino acid sequences are proteins, and only sequences with 20 or more amino acid codes can correspond to functional proteins.
이에 대하여, 도 7에서는 본 발명의 일 실시예에 따라 시각화된 각 아미노산의 빈도를 예시하고 있으며, 아미노산의 분포는 게놈 서열에 따라 다양함을 알 수 있다. 또한, 도 7에서는 모든 서열에서 류신(L)의 조성이 높은 반면, 최소 아미노산의 조성은 다양함을 보여주며, 두 가지 우세한 아미노산은 류신(L)과 세린(S)이고, 이때 도 7에서 y축의 단위 개수는 1000으로 작성되었다.In relation to this, Figure 7 illustrates the frequency of each amino acid visualized according to an embodiment of the present invention, and it can be seen that the distribution of amino acids varies depending on the genome sequence. Additionally, Figure 7 shows that while the composition of leucine (L) is high in all sequences, the composition of the minimum amino acid varies, with the two predominant amino acids being leucine (L) and serine (S), where y in Figure 7 The number of units on the axis was written as 1000.
또한, 도 8a 내지 도 8d에서는 COVID-19, SARS, MERS 및 에볼라 게놈의 오픈 리딩 프레임(ORF)을 예시하고 있다. 이때, DNA를 아미노산으로 변환하여 단백질 서열을 도출할 수 있게 되고, 이에 대하여 번역될 수 있는 리딩 프레임(reading frame)의 일부인 오픈 리딩 프레임(open reading frame, ORF)-즉, 아미노산으로 바뀔 때 노-스톱 코돈(no-stop codons)을 운반하는 DNA 분자의 일부-을 사용하였다. 여기서, 유전자 코드는 이중 가닥 DNA 분자가 역방향으로 3개, 순방향으로 3개와 같이 6개의 가능한 판독 프레임 중 하나로 해석될 수 있음을 결정하는 3개의 염기 파트너의 조합으로 DNA 서열을 보여줄 수 있다. 긴 리딩 프레임(long reading frame)은 유전자의 허용 가능한 구성 요소로서, 일반적으로 기점 코돈(보통 AUG)으로 시작하여 종결 코돈(보통 UAA, UAG 또는 UGA)에서 종결될 수 있으며, 본 발명에서는 (Genbank 형식)을 사용하여 전사 및 게놈 서열로의 번역을 사용하였다. 도 8a 내지 도 8d에서는 게놈 시퀀스의 ORF와 x축에서 GC% 함량을 보여주는 그래프를 도시하고 있다. 여기서, 코딩 영역이 게놈 서열에서 어디에 있는지 이해하는 것이 중요하며, 이때 COVID-19와 SARS는 주로 ORF1ab, ORF3a, E, M, S, N에서 더 유사함을 알 수 있으며, MERS와 에볼라의 ORF는 COVID-19와 약간 다르다는 점을 확인할 수 있다.Additionally, Figures 8A to 8D illustrate open reading frames (ORFs) of COVID-19, SARS, MERS, and Ebola genomes. At this time, it is possible to derive a protein sequence by converting DNA into amino acids, and an open reading frame (ORF), which is part of the reading frame that can be translated, - that is, when converted to amino acids, no - Parts of DNA molecules carrying stop codons (no-stop codons) were used. Here, the genetic code can show a DNA sequence as a combination of three base partners that determine that a double-stranded DNA molecule can be interpreted into one of six possible reading frames, such as three in the reverse direction and three in the forward direction. A long reading frame is an acceptable component of a gene, which generally begins with an origin codon (usually AUG) and may end with a stop codon (usually UAA, UAG, or UGA), and in the present invention (in Genbank format) ) was used for transcription and translation into the genome sequence. Figures 8a to 8d show graphs showing the ORF of the genome sequence and the GC% content on the x-axis. Here, it is important to understand where the coding region is in the genome sequence, where we can see that COVID-19 and SARS are more similar, mainly in ORF1ab, ORF3a, E, M, S, N, while the ORFs of MERS and Ebola are similar. You can see that it is slightly different from COVID-19.
또한, CDS(Coding Sequence)로도 인식되는 유전자 코딩 영역은 단백질을 코딩하는 유전자 DNA 또는 RNA의 일부로서, 게놈 서열에서 코딩 영역 CDS를 찾는 것은 유전자의 기능적 주석을 위한 필수 단계에 해당하며. 본 발명의 일 실시예로서 도 9a 내지 도 9d에서 볼 수 있는 바와 같이 CDS 그래프를 도시하였다. 이때, CDS는 단백질의 아미노산 서열과 유사한 뉴클레오티드 서열로도 알려져 있으며, 일반적인 CDS는 ATG로 시작하여 정지 코돈으로 종결하게 된다. 도 9a 내지 도 9d의 코드는 코딩 영역 CDS를 빨간색으로 강조해 표시하고 있으며, 주요 CDS는 ORF1ab, ORF3a, S 단백질, M 단백질 및 N 단백질을 포함하는 그림 6에서 이미 발견된 ORF 중 하나이고, 코로나19와 사스의 DNA 구조는 거의 동일한 반면 메르스와 에볼라의 DNA 구조는 약간 다르다는 것을 확인할 수 있다.In addition, the gene coding region, also recognized as CDS (Coding Sequence), is a part of genetic DNA or RNA that codes for a protein, and finding the coding region CDS in the genome sequence is an essential step for functional annotation of genes. As an example of the present invention, a CDS graph is shown as shown in FIGS. 9A to 9D. At this time, CDS is also known as a nucleotide sequence similar to the amino acid sequence of a protein, and a typical CDS starts with ATG and ends with a stop codon. The codes in Figures 9A-9D highlight the coding region CDS in red, the main CDS is one of the ORFs already discovered in Figure 6, including ORF1ab, ORF3a, S protein, M protein and N protein, and COVID-19 It can be seen that the DNA structures of SARS and SARS are almost identical, while those of MERS and Ebola are slightly different.
또한, 도 10에서는 COVID-19와 다른 게놈 서열의 정렬 유사성을 도시하고 있다. 이때, 4가지 유형의 DNA 염기서열 간의 유사성을 분석하기 위해 염기서열 정렬 방법을 사용하였으며, 서열 정렬은 둘 이상의 서열(DNA, RNA 또는 단백질 서열)을 특정 순서로 제공하여 이들 사이의 유사 영역을 인식하는데 도움이 될 수 있다. 여기서, 유사한 영역을 인식하면 종 사이에 어떤 특징이 보존되는지, 여러 종들이 유전적으로 어느 정도 가깝고 어떻게 종이 성장하는지 등과 같은 정보를 이해할 수 있으며, 페어와이즈(pairwise) 시퀀스 정렬은 두 개의 시퀀스만을 연관시키고 가장 신뢰할 수 있는 실행 가능한 시퀀스 정렬을 제공하여, 페어와이즈(pairwise) 시퀀스 정렬은 결과 시퀀스 정렬로부터 해석하고 판단하기 위한 쉽고 좋은 방법에 해당한다.Additionally, Figure 10 shows the alignment similarity between COVID-19 and other genome sequences. At this time, a base sequence alignment method was used to analyze the similarity between four types of DNA base sequences. Sequence alignment provides two or more sequences (DNA, RNA, or protein sequences) in a specific order to recognize similar regions between them. It can be helpful in doing so. Here, recognizing similar regions can help us understand information such as which features are conserved between species, how close different species are genetically, how species grow, etc. Pairwise sequence alignment only associates two sequences and Providing the most reliable and feasible sequence alignment, pairwise sequence alignment represents an easy and good way to interpret and make judgments from the resulting sequence alignment.
또한, 본 발명에서는 두 개의 생물학적 유전체 염기서열 사이의 상관관계를 제공하고 이들 사이에서 가장 유사한 영역을 인식하기 위해 도 11과 같은 도트 플롯(Dot Plot)을 사용하였다. 이때, 가장 쉬운 방법은 염기서열이 동일한 곳에 점을 배치하는 것이고, x축에서 하나의 시퀀스를 조정하고 y축에서 다른 시퀀스를 조정하여 두 시퀀스를 비교하여, 두 시퀀스의 초과가 동시에 플롯과 유사하면 해당 위치에 점이 표시될 수 있다. 이는 시퀀스의 역 또는 직접 반복에 대해 시퀀스를 시각적으로 검사하는 데에도 유용하게 적용할 수 있으며, 또한 염기서열 복잡도가 낮은 영역, 유사한 영역 또는 영역, 복제된 염기서열, 게놈 염기서열의 재배열, RNA 구조 및 유전자 순서를 조사하는 데에도 사용될 수 있다.Additionally, in the present invention, a dot plot as shown in Figure 11 was used to provide a correlation between two biological genome base sequences and recognize the most similar regions between them. At this time, the easiest way is to place a point where the base sequences are the same, and compare the two sequences by adjusting one sequence on the x-axis and the other sequence on the y-axis. If the excess of both sequences is similar to the plot at the same time, A dot may be displayed at that location. It can also be usefully applied to visually inspect a sequence for inverted or direct repeats of the sequence, as well as regions of low sequence complexity, similar regions or regions, duplicated sequences, rearrangements of genomic sequences, RNA It can also be used to investigate structure and gene sequence.
나아가, 본 발명의 일 실시예로서, 다른 게놈 시퀀스의 분류를 위해 앞서 도 3(b)에서 예시한 바와 같이 기계 학습 분류기를 학습할 수 있다. 종래에도 분류 목적으로 다양한 기계 학습 알고리즘을 활용하는 것이 가능하였으나, 본 발명에서는 회귀 및 분류 문제에 사용될 수 있는 효율적인 지도 머신 러닝 분류기인 SVM을 사용하는 것이 가능하다. 보다 구체적으로, 본 발명에서는 4가지 유형의 바이러스에 대한 다중 게놈 시퀀스를 사용하여 일부 전처리를 수행하며 클래스 레이블을 할당하고 SVM 분류기에 제공되는 특징점(feature)를 추출하게 된다. 또한, 본 발명에서는 수집된 게놈 코딩 시퀀스를 각각 80%와 20%의 비율로 훈련 및 테스트 샘플로 무작위로 분할하여 적용하였다. 이에 따라 본 발명의 일 실시예에 따른 분류기는 출력에서 도 3(b)와 같이 서로 다른 바이러스의 게놈 시퀀스를 분류하게 된다. 이때, SVM 분류기는 시퀀스 데이터를 4개의 클래스로 가장 정확하게 분리하는 특징 공간의 하이퍼-평면(hyper-plane)을 결정하게 되며, 데이터 포인트가 하이퍼-평면에서 멀어질수록 올바르게 분류될 가능성이 높아지고, 여기서 하이퍼-평면에 가장 가까운 데이터 포인트가 서포트 벡터(support vectors) 가 될 수 있다. 이때, 상기 서포트 벡터가 제거되면 하이퍼-평면의 위치가 변경될 수 있고, 따라서 서포트 벡터는 데이터 세트의 중요한 요소로 간주될 수 있으며, 상기 하이퍼-평면의 양쪽과 서포트 벡터 사이의 거리를 마진이라고 하면, 새로운 데이터를 올바르게 분류하기 위해 훈련 세트의 각 지점과 하이퍼-평면 사이의 마진이 가장 큰 하이퍼-평면을 선택하는 것이 중요한 목표가 될 수 있다. 나아가, SVM은 바이너리(binary)이므로 다중 클래스 문제는 여러 바이너리 분류 문제로 축소되어야 하며, 본 발명의 일 실시예로서 선형 SVM을 사용할 수 있다. Furthermore, as an embodiment of the present invention, a machine learning classifier can be learned as exemplified in FIG. 3(b) to classify other genome sequences. In the past, it was possible to use various machine learning algorithms for classification purposes, but in the present invention, it is possible to use SVM, an efficient supervised machine learning classifier that can be used for regression and classification problems. More specifically, in the present invention, multiple genome sequences for four types of viruses are used to perform some preprocessing, assign class labels, and extract features that are provided to the SVM classifier. Additionally, in the present invention, the collected genome coding sequences were randomly divided into training and test samples at a ratio of 80% and 20%, respectively. Accordingly, the classifier according to an embodiment of the present invention classifies the genome sequences of different viruses in the output as shown in FIG. 3(b). At this time, the SVM classifier determines the hyper-plane of the feature space that most accurately separates the sequence data into four classes. The farther a data point is from the hyper-plane, the higher the likelihood of being correctly classified, where The data points closest to the hyper-plane can be support vectors. At this time, if the support vector is removed, the position of the hyper-plane may change, and therefore the support vector can be considered an important element of the data set. If the distance between both sides of the hyper-plane and the support vector is called the margin, , in order to correctly classify new data, selecting the hyper-plane with the largest margin between each point in the training set and the hyper-plane can be an important goal. Furthermore, since SVM is binary, a multi-class problem must be reduced to several binary classification problems, and a linear SVM can be used as an embodiment of the present invention.
보다 구체적으로, 본 발명에서 SVM 분류의 목적 함수는 아래 수학식 1과 같이 제공될 수 있다.More specifically, in the present invention, the objective function of SVM classification can be provided as
[수학식 1][Equation 1]
또한, 아래에서는 본 발명의 일 실시예로서, 유전체 염기서열 분류에 사용되는 인공지능 기반 시스템의 성능 검증 결과를 제공하도록 한다. 통상의 경우 분류 정확도를 적용하여 시스템 성능을 평가하게 되나 알고리즘의 성능을 정확하게 평가하는 것만으로는 충분하지 않으므로, 본 발명에서는 상기 설명된 시스템의 성능을 검증하기 위해 다른 평가 메트릭을 적용하였고, 보다 구체적으로 아래와 같이 정의된 True Positive(TP), True Negative(TN), False Positive(FP) 및 False Negative(FN)와 같은 다양한 분류 메트릭(classification metrics)을 사용하였다.In addition, below, as an example of the present invention, performance verification results of an artificial intelligence-based system used for genome sequence classification are provided. In normal cases, classification accuracy is applied to evaluate system performance, but since it is not enough to accurately evaluate the performance of the algorithm, in the present invention, other evaluation metrics were applied to verify the performance of the system described above, and more detailed We used various classification metrics such as True Positive (TP), True Negative (TN), False Positive (FP), and False Negative (FN), defined as follows.
(1) 정확하게 예측된 양성 클래스에 대한 참 양성(TP).(1) True positives (TP) for correctly predicted positive classes.
(2) 부정확하게 예측된 양성 클래스에 대한 거짓 양성(FP).(2) False positives (FP) for incorrectly predicted positive classes.
(3) 정확하게 예측된 네거티브 클래스에 대한 TN(True Negative).(3) True Negative (TN) for correctly predicted negative classes.
(4) 부정확하게 예측된 음성 클래스에 대한 거짓 음성(FN).(4) False negatives (FN) for incorrectly predicted negative classes.
또한, 상기 메트릭을 사용하여 아래와 같은 파라미터가 산출될 수 있다.Additionally, the following parameters can be calculated using the metric.
먼저, 분류 정확도(Accuracy)는 전체 입력 샘플 수와 올바른 예측의 비율로서, 모든 클래스에 대해 동일한 수의 샘플이 있는 경우에는 정상 동작하게 된다. 분류 정확도는 아래 수학식 2와 같이 평가될 수 있다.First, classification accuracy is the ratio of the total number of input samples to the correct prediction, and operates normally when there are the same number of samples for all classes. Classification accuracy can be evaluated as shown in
[수학식 2][Equation 2]
또한, 정밀도(Precision)은 특정 클래스에 속할 것으로 예상되는 전체 샘플 중 중요한 샘플(True Positive)의 비율로부터 아래 수학식 3과 같이 결정될 수 있다.Additionally, precision can be determined as shown in Equation 3 below from the ratio of important samples (true positives) among all samples expected to belong to a specific class.
[수학식 3][Equation 3]
또한, 재현율(Recall)은 아래 수학식 4와 같이 클래스에 실제로 속하는 모든 샘플에 대하여 클래스에 속할 것으로 예측되는 샘플의 비율로 산출될 수 있다.Additionally, recall can be calculated as the ratio of samples predicted to belong to a class to all samples that actually belong to the class, as shown in
[수학식 4][Equation 4]
또한, 민감도(Sensitivity)라고도 하는 True Positive Rate(TPR)는 양성으로 올바르게 분류된 양성 샘플의 비율로부터 계산될 수 있으며, 아래 수학식 5와 같이 정의될 수 있다.Additionally, True Positive Rate (TPR), also known as sensitivity, can be calculated from the proportion of positive samples that are correctly classified as positive, and can be defined as
[수학식 5][Equation 5]
또한, True Negative rate(TNR)은 특이도(Specificity)라고도 하며, 음성으로 올바르게 분류된 음성 샘플의 비율로서, 아래 수학식 6과 같이 주어진다.In addition, True Negative rate (TNR), also called specificity, is the ratio of voice samples that are correctly classified as negative, and is given in
[수학식 6][Equation 6]
또한, False positive rate(FPR)은 양성으로 잘못 분류된 음성 샘플의 수를 나타내며, 아래 수학식 7과 같이 정의될 수 있다.Additionally, false positive rate (FPR) represents the number of negative samples incorrectly classified as positive, and can be defined as
[수학식 7][Equation 7]
또한, F1-Score는 Recall과 Precision 사이의 조화 평균으로 정의될 수 있으며, 분류기가 얼마나 정확한지(얼마나 많은 샘플이 올바르게 분류되었는지)와 견고성을 주로 결정하게 된다. 높은 정밀도와 낮은 재현율 값을 가지는 경우 매우 정확하지만 분류하기 어려운 많은 샘플을 놓칠 수 있으며, F1 Score의 값이 높을수록 알고리즘의 성능이 더 우수할 수 있다. 통상적으로 재현율과 정밀도 사이의 균형을 유지하는 방향으로 구성하게 되며, 아래 수학식 8과 같이 산출될 수 있다.Additionally, F1-Score can be defined as the harmonic mean between Recall and Precision, and largely determines how accurate the classifier is (how many samples were correctly classified) and robustness. If you have high precision and low recall values, you may miss many samples that are very accurate but difficult to classify, and the higher the value of F1 Score, the better the performance of the algorithm. Typically, it is configured to maintain a balance between recall and precision, and can be calculated as shown in
[수학식 8][Equation 8]
또한, 도 12에서는 본 발명의 일 실시예에 따른 바이러스 분류 방법, 장치 및 시스템에서 산출된 정밀도, 재현율, 정확도 및 F1 점수를 도시하고 있다. 여기서, 본 발명에 따른 SVM 분류기가 COVID-19의 경우 97%, SARS의 경우 96%, 메르스, 에볼라의 경우 각각 95%의 우수한 분류 정확도 결과를 보여주는 것을 확인할 수 있다. 또한, Precision, Recall 및 F1-Score는 COVID-19의 경우 96%, 77%, 96%, SARS의 경우 96%, 74%, 96%, MERS의 경우 95%, 74%, 95% 및 에볼라의 경우 95%, 74% 95%의 결과를 보였다.Additionally, Figure 12 shows precision, recall, accuracy, and F1 score calculated from the virus classification method, device, and system according to an embodiment of the present invention. Here, it can be seen that the SVM classifier according to the present invention shows excellent classification accuracy results of 97% for COVID-19, 96% for SARS, and 95% for MERS and Ebola. Additionally, Precision, Recall, and F1-Score were 96%, 77%, and 96% for COVID-19, 96%, 74%, and 96% for SARS, 95%, 74%, and 95% for MERS, and Ebola. Results were shown in 95%, 74%, and 95% of cases.
이어서, 상기 평가 매개변수를 사용하여 도 13과 같이 ROC 곡선을 도시하였다. 도 13의 ROC 곡선은 정의된 컷오프 값에 대한 TPR 대 위양성 비율 FPR 값을 사용하여 플로팅될 수 있고, ROC 곡선이 높을수록(즉, SVM이 선 y = 1에 더 가까울수록) 적합도가 우수하다고 할 수 있는데, 모든 알고리즘에서 95%에 가깝거나 보나 높은 우수한 결과를 보여주나, 특히 SVM의 성능이 모든 알고리즘 중에서 가장 우수함을 알 수 있습니다. 이에 대응하는 다른 기계 학습 알고리즘의 비교 결과는 도 14에 도시되어 있다.Subsequently, the ROC curve was plotted as shown in FIG. 13 using the above evaluation parameters. The ROC curve in Figure 13 can be plotted using the TPR versus false positive rate FPR values for a defined cutoff value, and the higher the ROC curve (i.e., the closer the SVM is to the line y = 1), the better the fit. All algorithms show excellent results close to or higher than 95%, but in particular, the performance of SVM is the best among all algorithms. The comparison results of other corresponding machine learning algorithms are shown in Figure 14.
또한, 도 15에서는 본 발명의 일 실시예에 따른 바이러스 분류 시스템(100)의 블록도를 도시하고 있다. 이때, 본 발명의 일 실시예에 따른 바이러스 분류 시스템(100)에 대해서는 앞서 설명한 본 발명의 일 실시예에 따른 바이러스 분류 방법에 대한 설명을 참조하여 통상의 기술자가 용이하게 구현 가능하므로, 아래에서는 자세한 설명은 생략하고 본 발명의 일 실시예에 따른 바이러스 분류 시스템(100)의 주요 구성에 대해서 간략하게 살핀다.Additionally, Figure 15 shows a block diagram of a
이때, 도 15에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 바이러스 분류 시스템(100)은, 바이러스의 게놈 서열을 기반으로 바이러스의 종류를 분류하는 바이러스 분류 시스템으로서, 분류 대상 바이러스의 게놈 서열 데이터를 수집하는 게놈 서열 데이터 수집부(110), 상기 게놈 서열 데이터에서 특징점(feature)을 추출하는 특징점 추출부(120) 및 추출된 상기 특징점을 미리 학습된 분류기로 입력하여 상기 바이러스의 종류를 분류하는 바이러스 분류부(130)를 포함하여 구성될 수 있다.At this time, as can be seen in FIG. 15, the
이때, 상기 바이러스에는 코로나(COVID-19), 사스(SARS), 중동호흡기증후군(MERS), 에볼라(Ebola) 바이러스 중 하나 또는 둘 이상이 포함될 수 있다.At this time, the virus may include one or more of the coronavirus (COVID-19), SARS, Middle East Respiratory Syndrome (MERS), and Ebola virus.
이에 따라, 본 발명의 일 실시예에 따른 인공 지능을 이용한 게놈 서열 분석 기반 COVID-19 및 유사 바이러스의 분류 방법, 장치 및 시스템에서는, COVID-19 및 유사 바이러스에 대한 게놈 서열 분석을 기반으로 인공 지능을 이용하여 COVID-19 및 유사 바이러스를 분류할 수 있게 된다.Accordingly, in the method, device, and system for classifying COVID-19 and similar viruses based on genome sequence analysis using artificial intelligence according to an embodiment of the present invention, artificial intelligence is used based on genome sequence analysis for COVID-19 and similar viruses. It becomes possible to classify COVID-19 and similar viruses.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely an illustrative explanation of the technical idea of the present invention, and various modifications and variations will be possible to those skilled in the art without departing from the essential characteristics of the present invention. Accordingly, the embodiments described in the present invention are for illustrative purposes rather than limiting the technical idea of the present invention, and are not limited to these embodiments. The scope of protection of the present invention should be interpreted in accordance with the claims below, and all technical ideas within the equivalent scope should be interpreted as being included in the scope of rights of the present invention.
20, 20a, 20b : 게놈 서열 입력 장치
30 : 통신 네트워크
100 : 바이러스 분류 시스템
110 : 게놈 서열 데이터 수집부
120 : 특징점 추출부
130 : 바이러스 분류부20, 20a, 20b: Genome sequence input device
30: communication network
100: Virus classification system
110: Genome sequence data collection unit
120: feature point extraction unit
130: Virus classification unit
Claims (11)
바이러스 분류 시스템이, 분류 대상 바이러스의 게놈 서열 데이터를 수집하는 게놈 서열 데이터 수집 단계;
상기 게놈 서열 데이터에서 특징점(feature)을 추출하는 특징점 추출 단계; 및
추출된 상기 특징점을 미리 학습된 분류기로 입력하여 상기 바이러스의 종류를 분류하는 바이러스 분류 단계;
를 포함하는 것을 특징으로 하는 바이러스 분류 방법.In the method of classifying types of viruses based on the genome sequence of the virus,
A genome sequence data collection step in which a virus classification system collects genome sequence data of a virus to be classified;
A feature point extraction step of extracting features from the genome sequence data; and
A virus classification step of classifying the type of virus by inputting the extracted feature points into a previously learned classifier;
A virus classification method comprising:
상기 바이러스에는 코로나(COVID-19), 사스(SARS), 중동호흡기증후군(MERS), 에볼라(Ebola) 바이러스 중 하나 또는 둘 이상이 포함되는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
A virus classification method, characterized in that the virus includes one or two or more of the coronavirus (COVID-19), SARS, Middle East Respiratory Syndrome (MERS), and Ebola virus.
상기 특징점 추출 단계에서는,
상기 게놈 서열 데이터에서 뉴클레오티드(nucleotide)의 빈도(frequency)를 특징점으로 추출하는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
In the feature point extraction step,
A virus classification method characterized by extracting the frequency of nucleotides as a feature point from the genome sequence data.
상기 특징점 추출 단계에서는,
상기 게놈 서열 데이터에서 트리-뉴클레오티드(tri-nucleotides)의 빈도(frequency)를 특징점으로 추출하는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
In the feature point extraction step,
A virus classification method characterized by extracting the frequency of tri-nucleotides as a feature point from the genome sequence data.
상기 특징점 추출 단계에서는,
상기 게놈 서열 데이터에서 아미노산의 조성(composition of amino acids)을 특징점으로 추출하는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
In the feature point extraction step,
A virus classification method characterized by extracting the composition of amino acids as a feature point from the genome sequence data.
상기 특징점 추출 단계에서는,
상기 게놈 서열 데이터에서 뉴클레오티드 트리플렛의 서열(sequence of nucleotide triplets)을 특징점으로 추출하는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
In the feature point extraction step,
A virus classification method characterized in that the sequence of nucleotide triplets is extracted from the genome sequence data as a feature point.
상기 특징점 추출 단계에서는,
상기 게놈 서열 데이터에서 코딩 서열(coding sequence, CDS)을 특징점으로 추출하는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
In the feature point extraction step,
A virus classification method characterized by extracting a coding sequence (CDS) as a feature point from the genome sequence data.
상기 특징점 추출 단계에서는,
상기 게놈 서열 데이터에서 바이러스 종류간 정렬 유사도(alignment similarity)를 특징점으로 추출하는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
In the feature point extraction step,
A virus classification method characterized by extracting alignment similarity between virus types from the genome sequence data as feature points.
상기 특징점 추출 단계에서는,
상기 게놈 서열 데이터에서 바이러스 종류간 게놈 서열의 차이를 보여주는 도트 플롯(Dot Plot) 이미지를 특징점으로 추출하는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
In the feature point extraction step,
A virus classification method characterized in that a dot plot image showing differences in genome sequence between virus types is extracted from the genome sequence data as a feature point.
상기 바이러스 분류 단계에서,
상기 분류기는, 훈련 데이터를 이용하여 뉴클레오티드(nucleotide)의 빈도(frequency), 트리-뉴클레오티드(tri-nucleotides)의 빈도(frequency), 아미노산의 조성(composition of amino acids), 뉴클레오티드 트리플렛의 서열(sequence of nucleotide triplets), 코딩 서열(coding sequence, CDS), 바이러스 종류간 정렬 유사도(alignment similarity), 바이러스 종류간 게놈 서열의 차이를 보여주는 도트 플롯(Dot Plot) 이미지 중 하나 이상을 이용하여 학습된 지원 벡터 머신(Support Vector Machine)을 기반으로 구성되는 것을 특징으로 하는 것을 특징으로 하는 바이러스 분류 방법.According to paragraph 1,
In the virus classification step,
The classifier uses training data to determine the frequency of nucleotides, the frequency of tri-nucleotides, the composition of amino acids, and the sequence of nucleotide triplets. A support vector machine trained using one or more of nucleotide triplets, coding sequence (CDS), alignment similarity between virus types, and dot plot images showing differences in genome sequences between virus types. A virus classification method characterized in that it is constructed based on a (Support Vector Machine).
분류 대상 바이러스의 게놈 서열 데이터를 수집하는 게놈 서열 데이터 수집부;
상기 게놈 서열 데이터에서 특징점(feature)을 추출하는 특징점 추출부; 및
추출된 상기 특징점을 미리 학습된 분류기로 입력하여 상기 바이러스의 종류를 분류하는 바이러스 분류부;
를 포함하는 것을 특징으로 하는 바이러스 분류 시스템.In a virus classification system that classifies types of viruses based on the genome sequence of the virus,
A genome sequence data collection unit that collects genome sequence data of viruses to be classified;
a feature extraction unit that extracts features from the genome sequence data; and
a virus classification unit that classifies the type of the virus by inputting the extracted feature points into a previously learned classifier;
A virus classification system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220091233A KR20240013547A (en) | 2022-07-22 | 2022-07-22 | Method, apparatus and system for classifying COVID-19 and alike virus based on genome sequence analysis using artificial intelligence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220091233A KR20240013547A (en) | 2022-07-22 | 2022-07-22 | Method, apparatus and system for classifying COVID-19 and alike virus based on genome sequence analysis using artificial intelligence |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240013547A true KR20240013547A (en) | 2024-01-30 |
Family
ID=89715045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220091233A KR20240013547A (en) | 2022-07-22 | 2022-07-22 | Method, apparatus and system for classifying COVID-19 and alike virus based on genome sequence analysis using artificial intelligence |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240013547A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220053642A (en) | 2019-08-28 | 2022-04-29 | 제노믹스 피엘씨 | Computer-implemented method and apparatus for analyzing genetic data |
-
2022
- 2022-07-22 KR KR1020220091233A patent/KR20240013547A/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220053642A (en) | 2019-08-28 | 2022-04-29 | 제노믹스 피엘씨 | Computer-implemented method and apparatus for analyzing genetic data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | A discriminative method for protein remote homology detection and fold recognition combining Top-n-grams and latent semantic analysis | |
Su et al. | Data analysis guidelines for single-cell RNA-seq in biomedical studies and clinical applications | |
Ahmed et al. | Enabling artificial intelligence for genome sequence analysis of COVID-19 and alike viruses | |
CN108171059B (en) | Malicious code detection and identification method and device based on software gene | |
Wei et al. | An improved protein structural classes prediction method by incorporating both sequence and structure information | |
Whata et al. | Deep learning for SARS COV-2 genome sequences | |
Bhargava et al. | DNA barcoding in plants: evolution and applications of in silico approaches and resources | |
Sharma et al. | Evaluation of DNA mapping schemes for exon detection | |
Arowolo et al. | A hybrid heuristic dimensionality reduction methods for classifying malaria vector gene expression data | |
CN112329012B (en) | Detection method for malicious PDF document containing JavaScript and electronic device | |
Yu et al. | Learning protein multi-view features in complex space | |
Tsukiyama et al. | Cross-attention PHV: Prediction of human and virus protein-protein interactions using cross-attention–based neural networks | |
Ravi et al. | Behavior-based malware analysis using profile hidden markov models | |
KR20240013547A (en) | Method, apparatus and system for classifying COVID-19 and alike virus based on genome sequence analysis using artificial intelligence | |
Li et al. | Protein sequence comparison and DNA-binding protein identification with generalized PseAAC and graphical representation | |
Nagpal et al. | Can machines learn the mutation signatures of SARS-CoV-2 and enable viral-genotype guided predictive prognosis? | |
Bhonde et al. | Predictive analytics to combat with COVID-19 using genome sequencing | |
Oğul et al. | SVM-based detection of distant protein structural relationships using pairwise probabilistic suffix trees | |
Bulla et al. | Improving Hidden Markov Models for classification of human immunodeficiency virus-1 subtypes through linear classifier learning | |
Raj et al. | Identifying hosts of families of viruses: a machine learning approach | |
EP4211691A1 (en) | Deep-learning-based techniques for generating a consensus sequence from multiple noisy sequences | |
Narra et al. | Use of extended phylogenetic profiles with E-values and support vector machines for protein family classification | |
Ali et al. | PCD2Vec: A Poisson Correction Distance Based Approach for Viral Host Classification | |
LaPierre et al. | CAMIL: Clustering and Assembly with Multiple Instance Learning for phenotype prediction | |
Murugaiah et al. | A novel frequency based feature extraction technique for classification of corona virus genome and discovery of COVID-19 repeat pattern |