KR20200102182A - 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치 - Google Patents

염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치 Download PDF

Info

Publication number
KR20200102182A
KR20200102182A KR1020190020483A KR20190020483A KR20200102182A KR 20200102182 A KR20200102182 A KR 20200102182A KR 1020190020483 A KR1020190020483 A KR 1020190020483A KR 20190020483 A KR20190020483 A KR 20190020483A KR 20200102182 A KR20200102182 A KR 20200102182A
Authority
KR
South Korea
Prior art keywords
species
data
sequence
nucleotide sequence
clustering
Prior art date
Application number
KR1020190020483A
Other languages
English (en)
Inventor
최은정
김동근
Original Assignee
상명대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교산학협력단 filed Critical 상명대학교산학협력단
Priority to KR1020190020483A priority Critical patent/KR20200102182A/ko
Publication of KR20200102182A publication Critical patent/KR20200102182A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

클러스터링 기법을 이용해서 미지 생물종의 염기서열을 군집화하고 군집화 된 군집 내 염기서열을 이용하여 생물종을 특정하는 생물종 분류 방법 및 장치를 개시한다. 방법:은 시료로부터 염기 서열 데이터를 추출하는 단계; 상기 염기 서열 데이터를 순차적으로 입력 데이터로 입력 받아 데이터 특성 별로 클러스터링 하는 단계; 클러스터링에 의해 형성된 군집의 염기 서열 데이터에 대응하는 생물 종을 검색하여 해당 서열 데이터에 대한 생물 종을 특정하는 단계;를 포함한다.

Description

염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치{Method and apparatus of the Classification of Species using Sequencing Clustering}
본 개시는 클러스터링 기법을 이용해 생물종을 특정 및 분류하는 염기 서열분석 방법 및 장치에 관한 것으로 대량의 염기서열 분석에 적합한 염기서열 분석 방법 및 장치에 관한 것이다.
생물 염기서열 분석의 활용도가 높아짐에 따라 특수 활용 목적에 맞는 적절한 방식의 생물 염기서열을 분석할 수 있는 시스템에 대한 연구도 활발하게 이루어지고 있다. 기존의 생물 염기서열을 분석하는 시스템의 제한된 기능을 넘어 대용량으로 처리할 수 있는 기존의 틀을 깨는 새로운 기술의 도입되었다.
이로 인해 염기서열 분석 기술의 혁신적인 발전이 이루어지게 되었다. 이는 차세대 염기서열 분석법 (Next Generation Sequencing: NGS) 이라는 분야의 발달을 이끌어 냈다. 대용량의 생물 염기서열의 분석은 NGS가 대중화되면서 점점 많은 주목을 받고 있다.
생물의 염기서열은 생물의 계통뿐 아니라 생물 특유의 특성을 파악할 수 있는 중요 수단이 될 수 있으며 그 중에서도 DNA 염기서열 분석은 최근 DNA뿐 아니라 RNA가 생물체 내에서 다양한 일을 수행한다는 사실이 밝혀짐으로써 DNA와 함께 RNA에 대한 많은 연구가 실시되고 있다.
기존의 연구에서는 이미 알고 있는 생물 종의 염기서열이 개별적으로 분석되고 품종이 특정되었는데, 생물의 염기서열 분석의 활용분야 또한 점점 더 확대되고 있어 기존의 생물학적인 의미뿐 아니라 생화학, 의학, 과학 수사 영역 등에서 활용할 수 있는 방안에 대한 연구들도 진행 중에 있다. 이처럼 차세대 염기서열분석의 활용방안에 대한 필요성이 대두되고 있는 상황에서 이용 목적에 알맞은 생물의 염기서열 분석 시스템 개발 역시 점점 필요성이 증가하고 있다.
권태수, (2017), 차세대 염기서열 분석법과 질병관련 유전자 변이의 발굴, 질병관리본부 유전체센터 이성규, (2017), DNA동생, RNA의 눈부신 활약 생명의 기원에서부터 생명기능 조절까지, ScienceTimes 최현수, 윤성로, (2013), 염기서열 군집화를 위한 커뮤니티 검출 알고리즘의 적용, 대한전자공학회, Vol.2013 No.11 : p806 - p808 BLAST Search System 구축, 한국생물정보시스템생물학회, Vol.1 No.2 : p99 - p102 권선일, (2012), Next Generation Sequencing (NGS), A Key Tool to open the Personalized Medicine Era, 대한임상검사과학회, Vol.44 No.4 :p167 - p177 안명주, (2017), 차세대 염기서열 분석(Next-Generation Sequencing)과 암 유전체 분석, BT NEWS, Vol.24 No.2 : p12 - p20 김병우, 이근우, 김효선, 노승희, 이윤호, 김시동, 전진태, 이지웅, 조용민, 정일정, 이정규, (2006), 생물정보시스템을 이용한 Local Animal 김선영, 김세주, 민기식, 양은진, 유만호, 최중기, (2007), 종 식별 분자 마커 개발을 위한 섬모충류 Euplotes의 small subunit ribosomal RNA 변이성 분석, 한국해양학회, Vol.12 No.3 : p225 - p233 BLAST Search System 구축, 한국생물정보시스템생물학회, Vol.1 No.2 :p99 - p 102 유현재, 안강식, 조석제, (2000), 화상 및 음성처리 : 평균내부거리를 적용한 퍼지 클러스터링 알고리즘에 의한 영상분할, 정보처리학회논문지, Vol.7 No.9 : p3029 - p3036 이신원, (2012), K-Means 클러스터링에서 초기 중심 선정 방법 비교, 인터넷정보학회논문지, Vol.13 No.6 : p1 - p8 (비특허문헌 14) 한세호, 김준선, 이호원, (2015), D2D 통신 기반 광고확산을 위한 계층적/비계층적 클러스터링 알고리즘의 성능분석, 한국통신학회, p36-37
본 개시는 염기서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치에 관련한다.
본 개시는 클러스터링 기법을 이용해서 미지 생물종의 염기서열을 군집화하고 군집화 된 군집 내 염기서열을 이용하여 생물종을 특정하는 생물종 분류 방법 및 장치에 관련한다.
모범적 실시 예에 따른 생물 종 분류 방법:은
시료로부터 염기 서열 데이터를 추출하는 단계;
상기 염기 서열 데이터를 순차적으로 입력 데이터로 입력 받아 데이터 특성 별로 클러스터링 하는 단계;
클러스터링에 의해 형성된 군집의 염기 서열 데이터에 대응하는 생물 종을 검색하여 해당 서열 데이터에 대한 생물 종을 특정하는 단계;를 포함한다.
모범적 실시 예에 따르면, 시료로부터 추출된 염기 서열 데이터를 전처리하는 단계;를 더 포함하고, 전처리 단계에서 전후에 입력되는 두 입력 데이터를 시작점을 일치시키는 과정을 포함할 수 있다.
모범적인 실시 예에 따르면, 상기 클러스터링에서 각 서열 데이터의 소정 수(K)의 요소에 의한 K-mer 시퀀스를 추출하고, 상기 K-mer 시퀀스를 이용해 상기 서열 데이터들의 일치/불일치를 판단할 수 있다.
모범적인 실시 예에 따르면, 상기 K는 4로 설정할 수 있다.
모범적인 실시 예에 따르면, 상기 입력 데이터들의 K-mer 시퀀스를 임의 변수인 스펙트럼 배열에 저장하고, 전후에 입력되는 한 쌍의 입력 데이터를 스펙트럼 배열에 비교하여 한 쌍의 입력 데이터에 대한 두 해밍거리를 계산하고, 두 해밍거리가 상이하면 다른 종으로 판단하여 새로운 군집을 형성할 수 있다.
모범적인 실시 예에 따르면, 상기 염기 서열 데이터를 저장하는 저장 장치와 저장 장치의 염기 서열 데이터로 부터의 전후 입력 데이터를 처리하여 상기 군집을 형성하고, 군집의 해당 염기 서열 데이터를 이용해 해상 염기 설명 데이터에 대응하는 생물종을 판단하는 프로세싱 장치를 포함하는 염기 서열 클러스터링 기법을 이용한 생물종 분류 장치가 제공된다.
모범적인 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 장치에서, 상기 프로세싱 장치:는 상기 시료로부터 추출된 염기 서열 데이터를 전처리하되, 전처리 단계에서 전후에 입력되는 두 입력 데이터를 시작점을 일치시킬 수 있다.
모범적 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 장치에서, 상기 프로세싱 장치는 상기 클러스터링에서 각 서열 데이터의 소정 수(K)의 요소에 의한 K-mer 시퀀스를 추출하고, 상기 K-mer 시퀀스를 이용해 상기 서열 데이터들의 일치/불일치를 판단할 수 있다.
모범적 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 장치에서, 상기 프로세싱 장치는 상기 K 값을 4로 설정할 수 있다.
모범적인 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 장치에서, 상기 프로세싱 장치는 상기 입력 데이터들의 K-mer 시퀀스를 임의 변수인 스펙트럼 배열에 저장하고, 전후에 입력되는 한 쌍의 입력 데이터를 스펙트럼 배열에 비교하여 한 쌍의 입력 데이터에 대한 두 해밍거리를 계산하고, 두 해밍 거리가 상이하면 다른 종으로 판단하여 새로운 군집을 형성할 수 있다.
생물 염기서열의 분석 결과는 생물의 종을 비롯하여 유전적 다양성과 계통을 분류하기 위한 중요한 지표가 된다. 본 개시에서는 생물의 염기서열 분석을 통한 클러스터링 작업으로 염기서열 만으로도 특정 환경이나 지역에서 우세한 생물군을 파악할 수 있다. 더 나아가 생물군집의 분포를 통한 염기서열 분석 만으로 해당 생물의 유래서식지를 판별할 수 있다. 이러한 본 개시에 따른 방법은 범죄 발생 장소의 추적과 같은 범죄수사를 위한 법의학의 측면에서도 활용될 수 있을 것으로 기대된다.
도1은 모범적 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법에서의 염기 서열 데이터 처리 흐름도이다.
도2는 하늘 다람쥐의 미토콘드리아 유전체 구조를 보여준다.
도3은 모범적 실시 예에 따른 실험에서 이용한 설치류의 염기서열 데이터를 보인다.
도4는 은 염기서열 데이터의 서열 정렬을 위해 메가7을 이용하여 염기서열 데이터를 전처리(前處理)한 결과 화면이다.
도5는 총 오백 개의 생물 종별 염기서열 데이터의 전처리된 결과를 보여주는 fasta 형태의 파일의 내용을 보인다.
도6은 모범적 실시 예의 한 실험에서, 군집 3의 4번째 염기서열을 선택하여 BLAST 와 같은 데이터 베이스검색을 수행한 결과의 예시 화면이다.
도7은 모범적 실시 예의 한 실험에서, 전처리된 염기서열 데이터를 이용하여 클러스터링 시스템에 적용하여 군집화한 결과이다.
이하 첨부된 도면을 참조하면서 모범적 실시 예에 따른 염기서열 클러스터링 기법은 이용해 생물종 분류 방법 및 장치를 설명한다. 그러나, 본 발명 개념의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명 개념의 범위가 아래에서 상술하는 실시 예들로 인해 한정 되는 것으로 해석되어서는 안 된다. 본 발명 개념의 실시 예들은 당 업계에서 평균적인 지식을 가진 자에게 본 발명 개념을 보다 완전하게 설명하기 위해서 제공 되어지는 것으로 해석되는 것이 바람직하다.
제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명 개념의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 반대로 제 2 구성 요소는 제 1 구성 요소로 명명될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로서, 본 발명 개념을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함한다” 또는 “갖는다” 등의 표현은 명세서에 기재된 특징, 개수, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 발명 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것임은 이해될 것이다.
어떤 실시 예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.
모범적 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법은 생물의 종을 알지 못하는 개체의 염기서열만을 가지고 클러스터링 기법을 이용하여 군집화 한다
모범적 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법은 도1에 도시된 바와 같은 단계를 통해 대용량의 염기서열 데이터를 클러스터링 기법에 의해 소량(또는 소수)의 종별로 군집화 하고 이를 이용해 생물종을 특정(판별)한다.
위와 같은 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법은 컴퓨터 기반의 염기 서열 클러스터링 기법을 이용한 생물종 분류 장치에 의해 수행될 수 있다.
모범적 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 장치는, 공지의 방법에 의해 획득된 서열 데이터를 저장하는 저장매체와 이를 처리하여 생물종을 특정 또는 평가하는 프로세싱 장치를 구비한다.
상기 프로세싱 장치 또는 평가 장치는 데이터 전처리 부와 분석부를 포함하는데, 이 프로세싱 장치는 분석용 툴 또는 소프트웨어 및 이것이 실행되는 하드웨어 시스템을 가진다. 이러한 프로세싱 장치는 컴퓨터 기반의 장치, 알고리즘을 담고 있는 소프트웨어 및 이 소프트웨어가 구동할 수 있는 하드웨어를 포함하는 범용 컴퓨터 또는 전용 장치일 수 있다.
상기와 같은 프로세싱 장치로부터의 처리 결과는 디스플레이 장치에 의해 표시될 수 있으며, 입력 수단으로서 일반적인 외부 인터페이스 장치, 예를 들어 키보드, 마우스 등을 더 포함할 수 있다.
도1을 참조하면, 먼저 분석 대상 시료를 이용하여 미지의 생물종들에 대한 대량의 염기 서열 데이터를 수집한다(1단계). 이렇게 수집된 데이터는 군집화를 위한 전처리 과정을 거치고(2단계), 이에 이어 데이터 군집화(클러스터링) 단계를 수행한다. 데이터 군집화는 생물종별로 이루어 지며, 마지막 단계에서 군집화된 생물종의 염기서열 데이터를 이용해 군집 내의 생물종을 검색/특정한다(4단계).
도1에 도시된 바와 같이, 모범적 실시 예에 따르는 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법은, 대량의 서열 데이터를 군집화하여 소량의 군집데이터를 얻게 된다. 이 군집 데이터는 종별로 클러스터링(군집화) 되며 따라서 군집화된 서열 데이터에 의해 생물종을 용이하게 특정할 수 있다.
모범적 실시 예에 따르는 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법에서는 염기서열의 군집화 결과를 염기서열의 데이터베이스 탐색을 통해 생물종을 특정하며, 이를 위한 검색툴로서는 BLAST(Basic Local Alignment Search Tool)를 적용할 수 있다.
염기서열은 DNA의 기본 단위인 뉴클레오타이드(Nucleotide)의 구성 성분 중 하나인 염기들을 순서대로 나열해 놓은 것이다. 유전자를 구성하는 염기는 아데닌(A), 구아닌(G), 시토신(C), 티민(T) 이 포함된다. 이러한 유전자는 유전형질을 결정하는 단백질을 지정하는 기본적인 단위인데, 지구상의 모든 생명체들의 단백질을 지정하는 원리는 염기서열의 배열을 통해 이루어진다.
일반적으로 DNA상에서 3개의 염기가 일렬로 모이면 하나의 트리플렛 코드(triplet code)를 형성하여 하나의 아미노산을 지정(구성 또는 정의)하게 된다. 이때 여러 개의 트리플렛 코드들이 모이면 궁극적으로 하나의 단백질을 지정하게 된다.
염기 서열을 분석은 클론 증폭, 대량 병렬법 그리고 서열정보를 얻는 과정을포함하는 3단계의 과정을 거친다.
클론증폭은 DNA를 짧은 조각으로 직접 자르고 PCR로 바로 증폭시켜 개수를 늘린 뒤 주형 클론을 얻는 기술이다. 이 때 주형 클론을 얻는 과정을 단순화 하게 하여 라이브러리 구축과 클로닝 과정을 없앤다.
상기 대량 병렬법(massively parallel sequencing)은 DNA 조각들을 수십, 수백만 개의 나노 크기의 공간에 넣고 클론을 바로 증폭하는 기술이다.
마지막은 서열정보는 얻는 과정에서, 생거(Sanger)법에서 탈피한 염기서열 결정법(Cyclic sequencing)으로 증폭된 염기서열 조각을 주형으로 서열정보를 얻는다.
이와 같은 3단계의 기술을 거치게 되면서 차세대 염기서열 분석이 이루어 지는데 이러한 차세대 염기서열 분석을 위한 염기서열 데이터를 효율적으로 활용하기 위해서 모범적인 실시 예에 따른 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법이 수행된다..
모범적 실시 예에 따른 실험에서는 위와 같은 실제 분석 대상 시료를 이용하는 3단계의 염기서열 분석에 의해 염기서열 정보를 획득하지 않고, 기존의 염기서열 데이터로 설치류와 토끼목의 단백질 서열인 CO1 염기서열 데이터를 이용하였다. CO1 유전자는 종내 변이성이 매우 낮기 때문에 미토콘드리아에서 에너지를 만들어내는 CO1 유전자를 핵심 단서로써 미토콘드리아의 물질대사를 도와주는 효소로도 알려져 있으며 생물종 식별에서 유용하게 쓰이고 있다. 도2은 하늘 다람쥐의 미토콘드리아 유전체 구조를 보여준다. 미토콘드리아 유전체 구조 내에 단백질 서열인 CO1 유전체가 포함되어있다.
실험에서 사용되는 CO1 데이터는 NCBI에서 제공하는 오픈 데이터를 이용하였으며 제공된 설치류 데이터들 중 다람쥐, 쥐, 토끼의 염기서열 데이터 총 오백 개를 무작위로 선택하여 이용하였다.
도3은 본 실험에서 이용한 설치류의 염기서열 데이터를 보인다. 구체적으로 도3은 NCBI에서 제공하는 데이터들 중 GenBank 데이터베이스에 등록된 KF668525.1의 명칭을 가지는 개체의 A, G, C, T의 염기서열 배열을 보여준다.
본 실험에서 이용한 염기서열 데이터의 경우 변형이나 손실 부위 및 키메
라와 길이를 확인하여 짧은 길이의 염기서열의 경우 제거해야 하는 수정과정이 이루어지지 않은 데이터이다. 하지만 군집화를 실시하기 위해서는 염기서열들 간의 유사성을 확인해 보아야 하기 때문에 반드시 염기서열들 간의 서열들을 최대한 비슷한 형태로 맞추어 주어야 한다. 이러한 작업을 서열 정렬 (Sequence Alignment)라고 하는데 본 실험에서는 정렬되지 않은 데이터를 수집했기 때문에 반드시 군집화를 실시하기 전, 데이터들 간의 서열 정렬 과정이 반드시 필요하다. 염기서열 데이터의 서열 정렬을 위한 전처리는 편의상 메가7(Mega7)을 이용하였다. 도4는 염기서열 데이터의 서열 정렬을 위해 메가7을 이용하여 염기서열 데이터를 전처리한 결과 화면이다.
본 실험에서 사용한 염기서열 데이터 파일 내에는 오백 개의 생물별 염기서열 데이터가 있으며 메가7을 이용하여 오백 개의 생물들의 A, G, C, T로 구성된 염기서열 배열을 비교하였다. 도4는 각 생물 염기서열의 배열을 비교하여 배열이 다른 생물들과 비교적 비슷한 길이와 구조를 유지할 수 있도록 다시 정렬한 염기서열 데이터의 전처리 결과를 보여준다.
도5는 총 오백 개의 생물 종별 염기서열 데이터의 전처리된 결과를 보여주는 fasta 형태의 파일이다. 데이터의 생물 종 이름을 가리고 무작위의 순서로 배열된 생물 종의 염기서열 군집화를 실행하기 위해 종 이름 대신 데이터에 임의의 숫자 ID를 부여하고 종별로 나열된 염기서열 데이터의 순서를 무작위로 섞어 어떠한 생물종인지 알아 볼 수 없도록 하였다.
염기서열 데이터 군집화를 위한 클러스터링 시스템은 기존의 오픈소스로 이용되는 염기서열 분석 및 처리 도구인 MICCA와 DNACLUST의 클러스터링 시스템의 소스를 응용하여 다시 설계하였다. 클러스터링 시스템은 c++ 언어를 기반으로 하였다. 아래의 유사코드(pseudo code, 코드1)는 본 실험에서 이용한 클러스터링 시스템의 군집화 하기 전 염기 서열을 분석하는 알고리즘 중, 인풋 시퀀스의 A, G, C, T 알파벳을 확인하는 함수를 예시한다.
<코드1>
Figure pat00001
우선 군집화 과정에 앞서 염기서열의 대소문자를 정렬하고 이후 K-mer 설정 개수 값을 계산한다. 이 때, K-mer 이란 유전체학(genomics) 연구에서 해당 염기서열 시퀀스의 길이가 K인 모든 서브스트링(substring)의 집합을 뜻하며, 이는 염기서열 분석에서 해당 시퀀스에서 특징(feature)를 뽑을 때 이용할 수 있는 주요한 특성을 지닌다. 예를 들어 글자수가 아래와 같이 12개(N)인 시퀀스에서 K=4일 때, M = N-K +1로 표현되는 수식에 의해 K-mer 조각의 최대 개수(M)는 9개가 된다.
예를 들어 시퀀스가 "ATCGAAGGTCGT" 인 경우, ATCG, TCGA, CGAA, GAAG, AAGG, AGGT, GGTC, GTCG, TCGT 로 구성되는 9개의 K-mer 시퀀스를 얻게 된다.
K-mer의 조합 확인은 후속하는 클러스터링 과정에서 K-mer 시퀀스등을 이용해 각 시퀀스가 일치하는 지를 판별하기 위한 것이며, 아래의 코드2는 K-mer 개수갯 카운트하는 유사코드이다.
<코드2>
Figure pat00002
다.
위의 코드2에서, sequence[] 배열은 전처리된 인풋 데이터를 저장하는 것이며, numberFromNucleotide() 함수는 인풋데이터의 값이 A, G, C, T 중 하나의 알파벳일 경우 정수 1을 반환한다. 그리고, spectrum [] 은 K-mer 조각(서브스트링)들이 저장되는 배열로서 각 인풋 시퀀스 마다 k-mer와 비교하기 위해 사용되는 배열이다.
아래의 유사코드 <코드3>은 K-mer 조각들과 비교를 위한 전 후 한 쌍의 인풋 데이터들끼리 왼쪽 시작점을 맞추는 정렬과정을 포함한다.
<코드3>
Figure pat00003
위의 코드3은 K-mer 조각들과 비교를 위한 한 쌍의 인풋 데이터들끼리 왼쪽 시작점을 맞추기 위하여, 먼저 인풋 데이터의 제일 왼쪽 부분(root)이 아닌 경우 (while (backTable(i, j) != ROOT)) , 그 아래의 Case 문들이 조건에 따라 선택적으로 수행된다. 여기에서 변수 backTable은 각 인풋 데이터의 제일 왼쪽 부분 시작점을 가리키는 함수이다
Case "DOWN"의 경우, 전후에 연속 입력되는 인풋데이터들을 한 쌍씩 비교하기 위해서, 아래와 같이 i번째 인풋데이터(data i) 다음에 들어오는 j 번째 인풋 데이터(data j)를 data i와 동일하게 정렬하고 정렬된 데이터 부분의 포인터를 왼쪽으로 감소 설정한다.
Data i: ……AGCTGGGGTTTAAAGGGGG…….
Data j:……AAAAGCTGGGGTTTAAAGGGGG………
Case "LEFT"의 경우, 한 쌍의 인풋데이터 중, 먼저 들어오는 인풋데이터(data i)의 왼쪽을 정렬하기 위해, 아래와 같이 나중에 들어온 인풋데이터(data j)와 정렬 하고 i 의 포인터를 왼쪽으로 감소 설정한다.
Data i: ……..AAAAAAGCTGGGGTTTAAAGGGGG…….
Data j:……………AGCTGGGGTTTAAAGGGGG………..
Case "DOWN_LEFT"의 경우, Case "DOWN" 과 Case "LEFT"의 혼합형태로 한 쌍의 인풋데이터 중 먼저 들어온 데이터(data i)와 나중에 들어온 인풋 데이터(data j)를 동시에 정렬하기 위해 i 와 j 포인터를 왼쪽으로 감소 설정한다.
Data i: ……..AAAGAAAGCTGGGGTTTAAAGGGGG…….
Data j: ………AGTTTAGCTGGGGTTTAAAGGGGG………..
아래는 클러스터 생성을 위한 유사 코드<코드4> 이다.
<코드4>
Figure pat00004
위의 유사코드에서 Spectrum 배열은 각 인풋 데이터들의 K-mer 들을 저장하며, Spectrumindexes 배열은 Spectrum 배열과 동일한 데이터를 갖고 있지만 비교를 위한 기준 데이터를 불어오기 위해 사용되는 배열이다. 그리고, 변수 d1, d2는 해밍 거리를 계산 하기 위한 변수로서 첫 번째 for 문은 인풋데이터의 왼쪽 지점(left)로부터 오른쪽 지점(right)까지 반복 수행된다. 첫 번째 for 문의 루우프 안에 있는 두 번째 for 문은 K-mer 들이 들어있는 spectrum 배열과 인풋데이터 한 쌍씩 차이를 비교하면서 차이 나는 정도(해밍 거리)를 계산하고, 차이가 생길 때마다 해밍 거리는 1씩 증가 시킨다. 그리고, 두 해밍 거리(d1, d2)가 다르면(if d1 != d2), 다른 종으로 판단하여 새로운 클러스터를 만들어 클러스터 내용을 변경한다.
위와 같은 과정을 통해 앞서 군집화 된 염기서열들 중 군집의 대표 시퀀스 10개를 무작위로 선택하여 데이터 베이스 검색을 수행하여, 해당 군집의 염기 서열에 대응하는 생명체를 특정한다.
도6은 군집 3의 4번째 염기서열을 선택하여 BLAST 와 같은 데이터 베이스검색을 수행한 결과의 예시 화면이며, 도7은 전처리된 염기서열 데이터를 이용하여 클러스터링 시스템에 적용하여 군집화한 결과이다. 본 실험에서 사용한 오백 개의 생물 염기서열 데이터 중에서 군집은 총 11개의 종으로 분리되었다. 각 군집 내에 포함하고 있는 생물종의 개수는 다르며 데이터의 종류나 개수에 따라 군집의 결과가 달라짐을 알 수 있었다.
BLAST 검색은 선택된 염기서열 배열을 서열 데이터베이스 내에서 검색을 실시하는데 검색을 위해 선택된 염기서열 배열과 일치하는 정렬된 단일 서열의 길이를 표준화한 값(Max score)과 검색을 위해 선택된 염기서열배열과 일치하는 한 생물의 염기서열 배열 내 모든 정렬된 염기서열의 개수의 합을 계산하여 표준화한 값(Total score)과 함께 검색의 일치도 순으로 결과를 보여준다. 또한 BLAST 검색은 검색을 위해 선택된 염기서열이 데이터베이스에서 어떤 비율로 존재하는지 Query coverage와 검색을 위해 선택된 염기서열이 BLAST 검색으로 발견된 염기서열과 우연히 일치할 확률, 즉 두 염기서열이 관련이 없는데도 우연에 의해서 일치할 확률인 E value 값도 계산해 준다. E value가 작을수록 염기서열 매칭이 우연에 의해서 일어날 확률이 작은 것임으로, 실제로 서로 관련 있는 동족일 생물이 가능성이 높다는 것을 의미한다.
모범적인 실시 예에 따라, 미지의 생물 종에 대한 염기 서열 데이터를 클러스터링 기법을 이용해서 군집화하고, 군집화 된 군집 내 염기서열의 데이터 검색을 통해 종 단위로 군집이 되었는지 확인되었다.
상기와 같은 군집화 결과를 바탕으로 해당 군집 내 대표 염기서열을 BLAST를 통해서 검색을 수행하였다. 표 1 ~ 표11은 한 군집 내 10종의 대표 염기서열을 무작위로 선택하여 BLAST로 검색을 실시하여 클러스터링 시스템의 군집화 결과와 비교한 내용이다. 비교 결과 대부분 클러스터링의 결과는 종별 분류가 되었지만 염기서열의 전처리 결과와 염기서열의 개수에 따라 몇 종류의 군집 내에서 다른 종이 같은 군집을 형성하기도 하였다. 표1 ~ 표11을 통해 볼 때 본 실험에서 클러스터링 시스템의 오차율은 6%내로 측정되며 이는 더 많은 양의 염기서열 데이터를 이용할 경우 오차율은 줄어들 것으로 예측된다.
표1은 군집 1의 종별 분류 결과를 보인다.
Figure pat00005
표2은 군집 2의 종별 분류 결과를 보인다.
Figure pat00006
표3은 군집 3의 종별 분류 결과를 보인다.
Figure pat00007
표4은 군집 4의 종별 분류 결과를 보인다.
Figure pat00008
표5은 군집 5의 종별 분류 결과를 보인다.
Figure pat00009
표6은 군집 6의 종별 분류 결과를 보인다.
Figure pat00010
표7은 군집 7의 종별 분류 결과를 보인다.
Figure pat00011
표8은 군집 8의 종별 분류 결과를 보인다.
Figure pat00012
표9은 군집 9의 종별 분류 결과를 보인다.
Figure pat00013
표10은 군집 10의 종별 분류 결과를 보인다.
Figure pat00014
표11은 군집 11의 종별 분류 결과를 보인다.
Figure pat00015
기존의 연구에서는 이미 알고 있는 생물 종의 염기서열을 분석했다면 본 발명에서는 생물의 종을 알지 못하는 개체의 염기서열만을 가지고 클러스터링 기법을 이용하여 생물 종을 판단한다.
본 발명의 실험에서는 식물의 염기서열을 이용하는 것이 아니라 동물의 미토콘드리아 유전자의 염기서열을 이용하였다. 미토콘드리아 DNA는 아주 미량의 시료나 죽은 세포에서도 추출이 가능하여 많은 분야에서 활용되고 있다. 또한 수정란을 형성할 때 수정란의 세포질은 난자로부터 유래한 것으로 이 속에 존재하던 미토콘드리아 역시 난자의 세포질에 있던 것이다. 그러므로 미토콘드리아 DNA를 분석하면 모계로만 유전된다는 특성으로 인해 가계 조사 등에서도 쓰이기도 한다. 더 나아가 군집화 된 군집 내 염기서열을 BLAST와 같은 데이터베이스 시스템에서 제공하는 생물 DB 검색을 이용하여 군집 내 염기서열들이 종별로 분류가 잘 되었는지 확인함으로써 클러스터링 기법을 활용한 염기서열 클러스터링 시스템에 대한 정확도를 뒷받침해 줄 수 있음을 밝혔다.
이상에서 살펴본 바와 같이 본 발명의 모범적 실시 예들에 대해 상세히 기술되었지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형하여 실시할 수 있을 것이다. 따라서 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims (10)

  1. 시료로부터 염기 서열 데이터를 추출하는 단계;
    상기 염기 서열 데이터를 순차적으로 입력 데이터로 입력 받아 데이터 특성 별로 클러스터링 하는 단계;
    클러스터링에 의해 형성된 군집의 염기 서열 데이터에 대응하는 생물 종을 검색하여 해당 서열 데이터에 대한 생물 종을 특정하는 단계;를 포함하는 염기서열 클러스터링 기법을 이용한 생물종 분류 방법.
  2. 제1항에 있어서,
    시료로부터 추출된 염기 서열 데이터를 전처리하는 단계;를 더 포함하고, 전처리 단계에서 전후에 입력되는 두 입력 데이터를 시작점을 일치시키는 과정을 포함하는 염기서열 클러스터링 기법을 이용한 생물종 분류 방법.
  3. 제1항에 있어서,
    상기 클러스터링에서 각 서열 데이터의 소정 수(K)의 요소에 의한 K-mer 시퀀스를 추출하고, 상기 K-mer 시퀀스를 이용해 상기 서열 데이터들의 일치/불일치를 판단하는 염기서열 클러스터링 기법을 이용한 생물종 분류 방법.
  4. 제3항에 있어서,
    상기 K는 4로 설정하는 염기서열 클러스터링 기법을 이용한 생물종 분류 방법.
  5. 제4항 또는 제5항에 있어서,
    상기 입력 데이터들의 K-mer 시퀀스를 임의 변수인 스펙트럼 배열에 저장하고, 전후에 입력되는 한 쌍의 입력 데이터를 스펙트럼 배열에 비교하여 한 쌍의 입력 데이터에 대한 두 해밍 거리(d1, d2)를 계산하고, 두 해밍 거리(d1, d2)가 상이하면 다른 종으로 판단하여 새로운 군집을 형성하는, 염기서열 클러스터링 기법을 이용한 생물종 분류 방법.
  6. 제1항에 기재된 방법을 수행하는 장치에 있어서,
    상기 염기 서열 데이터를 저장하는 저장 장치, 그리고 저장 장치의 염기 서열 데이터로부터의 전후 입력 데이터를 처리하여 상기 군집을 형성하고, 군집의 해당 염기 서열 데이터를 이용해 해상 염기 설명 데이터에 대응하는 생물종을 판단하는 프로세싱 장치를 포함하는 염기서열 클러스터링 기법을 이용한 생물종 분류 장치.
  7. 제6항에 있어서,
    염기 서열 클러스터링 기법을 이용한 생물종 분류 장치에서, 상기 프로세싱 장치:는 상기 시료로부터 추출된 염기 서열 데이터를 전처리하되, 전처리 단계에서 전후에 입력되는 두 입력 데이터의 시작점을 일치시키는, 염기서열 클러스터링 기법을 이용한 생물종 분류 장치.
  8. 제6항에 있어서, 상기 프로세싱 장치는 상기 클러스터링에서 각 서열 데이터의 소정 수(K)의 요소에 의한 K-mer 시퀀스를 추출하고, 상기 K-mer 시퀀스를 이용해 상기 서열 데이터들의 일치/불일치를 판단하는, 염기서열 클러스터링 기법을 이용한 생물종 분류 장치.
  9. 제8항에 있어서,
    상기 프로세싱 장치는 상기 K 값을 4로 설정하는, 염기서열 클러스터링 기법을 이용한 생물종 분류 장치.
  10. 제8항 또는 제9항에 있어서,
    염기 서열 클러스터링 기법을 이용한 생물종 분류 장치에서, 상기 프로세싱 장치는 상기 입력 데이터들의 K-mer 시퀀스를 임의 변수인 스펙트럼 배열에 저장하고, 전후에 입력되는 한 쌍의 입력 데이터를 스펙트럼 배열에 비교하여 한 쌍의 입력 데이터에 대한 두 해밍거리를 계산하고, 두 해밍 거리가 상이하면 다른 종으로 판단하여 새로운 군집을 형성하는, 염기서열 클러스터링 기법을 이용한 생물종 분류 장치.
KR1020190020483A 2019-02-21 2019-02-21 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치 KR20200102182A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190020483A KR20200102182A (ko) 2019-02-21 2019-02-21 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190020483A KR20200102182A (ko) 2019-02-21 2019-02-21 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20200102182A true KR20200102182A (ko) 2020-08-31

Family

ID=72234458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190020483A KR20200102182A (ko) 2019-02-21 2019-02-21 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20200102182A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230001977A (ko) 2021-06-29 2023-01-05 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 이미지를 이용한 딥러닝 기반의 참갯지렁이 종 분류장치 및 방법
KR20230001976A (ko) 2021-06-29 2023-01-05 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 이미지를 이용한 딥러닝 기반의 생물종 분류장치 및 방법

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
(비특허문헌 14) 한세호, 김준선, 이호원, (2015), D2D 통신 기반 광고확산을 위한 계층적/비계층적 클러스터링 알고리즘의 성능분석, 한국통신학회, p36-37
BLAST Search System 구축, 한국생물정보시스템생물학회, Vol.1 No.2 : p99 - p102
BLAST Search System 구축, 한국생물정보시스템생물학회, Vol.1 No.2 :p99 - p 102
권선일, (2012), Next Generation Sequencing (NGS), A Key Tool to open the Personalized Medicine Era, 대한임상검사과학회, Vol.44 No.4 :p167 - p177
권태수, (2017), 차세대 염기서열 분석법과 질병관련 유전자 변이의 발굴, 질병관리본부 유전체센터
김병우, 이근우, 김효선, 노승희, 이윤호, 김시동, 전진태, 이지웅, 조용민, 정일정, 이정규, (2006), 생물정보시스템을 이용한 Local Animal
김선영, 김세주, 민기식, 양은진, 유만호, 최중기, (2007), 종 식별 분자 마커 개발을 위한 섬모충류 Euplotes의 small subunit ribosomal RNA
변이성 분석, 한국해양학회, Vol.12 No.3 : p225 - p233
안명주, (2017), 차세대 염기서열 분석(Next-Generation Sequencing)과 암 유전체 분석, BT NEWS, Vol.24 No.2 : p12 - p20
유현재, 안강식, 조석제, (2000), 화상 및 음성처리 : 평균내부거리를 적용한 퍼지 클러스터링 알고리즘에 의한 영상분할, 정보처리학회논문지, Vol.7 No.9 : p3029 - p3036
이성규, (2017), DNA동생, RNA의 눈부신 활약 생명의 기원에서부터 생명기능 조절까지, ScienceTimes
이신원, (2012), K-Means 클러스터링에서 초기 중심 선정 방법 비교, 인터넷정보학회논문지, Vol.13 No.6 : p1 - p8
최현수, 윤성로, (2013), 염기서열 군집화를 위한 커뮤니티 검출 알고리즘의 적용, 대한전자공학회, Vol.2013 No.11 : p806 - p808

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230001977A (ko) 2021-06-29 2023-01-05 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 이미지를 이용한 딥러닝 기반의 참갯지렁이 종 분류장치 및 방법
KR20230001976A (ko) 2021-06-29 2023-01-05 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 이미지를 이용한 딥러닝 기반의 생물종 분류장치 및 방법

Similar Documents

Publication Publication Date Title
US11837328B2 (en) Methods and systems for detecting sequence variants
US20210398616A1 (en) Methods and systems for aligning sequences in the presence of repeating elements
US20210280272A1 (en) Methods and systems for quantifying sequence alignment
US11211146B2 (en) Methods and systems for aligning sequences
US20190272891A1 (en) Methods and systems for genotyping genetic samples
CN105793859B (zh) 用于检测序列变异体的系统
JP2016533182A (ja) 疾患に誘導された変異を同定するための方法およびシステム
KR20200102182A (ko) 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치
KR20200104672A (ko) 클러스터링 기법을 이용한 생물종 서식지 추적 방법 및 장치
Al Kindhi et al. Pattern matching performance comparisons as big data analysis recommendations for hepatitis C virus (HCV) sequence DNA
US8880353B2 (en) Ribonucleic acid identification apparatus, ribonucleic acid identification method, program and ribonucleic acid identification system
US20210335454A1 (en) Fast-na for detection and diagnostic targeting
Abbas et al. TC-6mA-Pred: Prediction of DNA N6-methyladenine sites using CNN with transformer
Yi et al. A deep learning approach to lncRNA subcellular localization using inexact q-mers
Yogev et al. StemSearch: RNA search tool based on stem identification and indexing
CN103164634A (zh) 一种基因大肠杆菌表达谱芯片的基因网络构建方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application