KR20220091223A - 품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법 - Google Patents

품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법 Download PDF

Info

Publication number
KR20220091223A
KR20220091223A KR1020200182521A KR20200182521A KR20220091223A KR 20220091223 A KR20220091223 A KR 20220091223A KR 1020200182521 A KR1020200182521 A KR 1020200182521A KR 20200182521 A KR20200182521 A KR 20200182521A KR 20220091223 A KR20220091223 A KR 20220091223A
Authority
KR
South Korea
Prior art keywords
classification
genetic
marker
breed
markers
Prior art date
Application number
KR1020200182521A
Other languages
English (en)
Other versions
KR102697335B1 (ko
Inventor
김형용
형기은
최남우
강병철
정은미
Original Assignee
(주)인실리코젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)인실리코젠 filed Critical (주)인실리코젠
Priority to KR1020200182521A priority Critical patent/KR102697335B1/ko
Priority claimed from KR1020200182521A external-priority patent/KR102697335B1/ko
Publication of KR20220091223A publication Critical patent/KR20220091223A/ko
Application granted granted Critical
Publication of KR102697335B1 publication Critical patent/KR102697335B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본원발명은 품종 식별 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법에 관한 것으로 대용량 유전자형 자료로부터 보다 적은 마커수만을 사용하여 품종을 구별하는 마커를 효율적으로 선발할 수 있는 시스템 및 방법에 관한 것이다.

Description

품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법{System for selection of genetic markers and method for breed identification}
본원발명은 품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법에 관한 것으로 보다 상세하게는 대용량 유전자형 자료로부터 기계학습법, LD (Linkage disequilibrium)와 같은 대용량 자료처리와 가상 가계도와 같은 품종의 유전적 특징을 구성하는 생물학적 지식을 적용하여 보다 적은 마커 수만을 사용하여 품종을 구별하는 마커를 효율적으로 선발할 수 있는 시스템 및 방법에 관한 것이다.
생물학에서 품종이란 하나의 생물종을 그 형질에 따라 구분한 것이며, 보통 지리적으로 격리됨으로써 자연적으로 발생되는 것을 ecotype, 인간이 육종의 방법으로 만들어 낸 식물 품종을 cultivar, 가축 품종을 breed 라고 한다.
이와같은 품종은 해당 종 내에서 다른 품종과는 구별되는 생물학적 특징을 공유한다. 물론 경제적 가치에 있어서 차이가 있을 수 있다. 그러므로 특정한 품종이 우수한 경제적 가치를 지닌다는 사실을 유전학적으로 입증하고 객관화할 필요성이 요구된다. 뿐만 아니라 농림수산축산분야에서는 교배, 유전자재조합 등의 다양한 방법을 통해 특정 품종의 주요 형질을 향상시키기 위한 연구를 계속하고 있는 데, 이러한 연구과정에서 신품종을 개발하는 경우가 많다. 이럴 경우 개발된 새로운 품종이 기존의 품종에 비하여 어떠한 유전학적 차이점이 있는 지 과학적으로 입증해야 할 필요가 있다.
품종의 유전적 차이를 확인하기 위해서는 개체별 유전자 검사가 필요하다. 유전자 검사는 그 규모에 따라, 10여개의 유전좌위만 확인하는 STR 방법부터 1,000여개를 확인하는 SNP 칩, 백만 여개를 확인하는 고밀도 SNP 칩, 엑솜 혹은 전체 유전체 영역을 염기서열결정(sequencing)하는 WES (Whole exome sequencing), WGS (Whole genome sequencing) 등의 방법들이 활용된다.
품종 및 개체 식별을 위한 유전자 검사는 주로 STR (short tandem repeats)방법이 이용된다. STR 분석은 식물부터 동물까지 여러 개체에서 품종 식별을 위한 방법으로 다양하게 활용되어 왔다. STR 분석은 비용적인 측면에서 저렴하다는 장점이 있지만 DNA상에서의 양이 적고, 처리량(Throughput)이 낮으며 에러율이 높을 뿐만 아니라, 실험 단계에서도 복잡한 프라이머(Primer) 디자인을 필요로 하는 등 단점도 많다. 이에 비하여 SNP 마커는 프라이머 디자인이 간단하고 DNA상에 양이 많으며, 맵핑 해상도가 높고 에러율이 낮은 장점이 있다. 최근에는 최적의 SNP조합을 통해 기존의 STR 분석에 비하여 개인과 집단 수준에서 보다 더 의미 있고 정확하게 분류할 수 있다고 보고된 바 있다. (Glover etal., 2010)
모든 분석방법에서 많은 유전좌위를 확인할수록 품종 간 차이를 구분하는 유전마커를 선발할 가능성이 높은 것은 당 업계에 널리 알려져 있는 사실이다. 그런데 기존의 유전마커 선발에서는 양적형질좌위(Quantitative trait loci: QTL)의 동정 및 추정 과정이 서로 분리되어 있다는 점에서 문제가 발생된다. 상기한 분리로 인하여 추정의 효과가 정확하지 못하고 편향될 수 있으며, 대용량 데이터에만 적용 가능한 유의수준을 사용함으로써 다소 미미하지만 무시할 수 없는 효과를 가진 양적형질좌위들이 발굴되지 못하는 문제점을 보인다.
상기한 문제를 해결하기 위하여 등록특허공보 10-1380082는 유전자 선별을 통한 추정된 육종가를 산출하는 방법을 제시하고 있다. 상기 문헌은 유전자 선별을 통한 추정된 육종가(EBV; Estimated Breeding Value)를 산출하는 유전자 선별 모형 생성 방법에 관한 것인데, 대상 개체의 SNP(Single nucleotide Polymorphism) 정보 코딩 시, SNP 코딩 값인 독립변수가 커질수록, 상기 독립변수와 종속변수에 대한 주변부의 상관관계(marginal correlation)의 절대 값이 커지도록 상기 SNP 정보를 변환하는 단계; 상기 SNP 정보 중 소정의 조건을 만족하는 SNP 정보를 선별하는 단계; 상기 선별된 SNP 정보에 대해 벌점 함수(penalty function)를 적용하여 가중치를 산출하는 단계; 및 상기 선별된 SNP에 상기 가중치를 적용하여 추정 육종가를 산출하는 단계를 포함하여 구성된다. 상기한 기술구성을 통해 유전체 개체의 표현형 없이도 유전자 분석을 통해 육종가를 추정하여 선발에 이용가능하다는 장점이 있다.
또 다른 문헌인 등록번호 10-2141091는 토종닭의 유전적 배경 또는 품종을 판별하기 위한 SNP 마커 세트에 관한 것으로 특정 서열번호 및 염기서열로 이루어진 폴리뉴클레오티드에 있어서, 각각의 염기서열 중 36번째에 위치한 SNP(single nucleotide polymorphism) 염기를 포함하는 8개 이상의 연속된 뉴클레오티드로 구성된 폴리뉴클레오티드 또는 이의 상보적인 폴리뉴클레오티드를 포함하는, 토종닭 또는 육계 신품종을 판별하기 위한 SNP 마커 조성물을 제공한다. 이를 통해 신품종 토종닭을 정확하게 식별하기 위한 품종 특이적이고 최적화된 SNP 마커를 제공할 수 있다.
그러나 상기문헌은 지나치게 많은 대용량 유전 데이터가 필요하고 특정 품종(경주마, 닭)에만 적용될 수 있다는 점에서 상기 문제에 대한 근본적인 해결책이 될 수 없다.
등록특허공보 10-2141091
없음
본 발명은 특정 품종을 타 품종과 구분할 수 있는 유전마커를 선발하고, 미지 품종의 개체에 대해 이 마커만을 유전자 검사함으로써 해당 품종에 속하는지 아닌지를 확인할 수 있는 유전마커의 선발 방법을 제공하는 것을 목적으로 한다.
또한 본 발명은 구분하고자 하는 품종과 타 품종의 대용량 유전자형 결정 자료를 입력하면, 일련의 분석 과정을 통하여, 최소 개수의 유전마커를 선발하고, 그 마커 세트의 품종 분류 성능 지표를 함께 제공할 수 있는 시스템을 제공하는 것을 또 다른 목적으로 한다.
본 발명의 유전마커 선발방법에 의하면 미지 품종의 개체에 대해 해당 마커 세트에 해당되는 최소한의 유전자 검사를 통해 얼마의 보다 정확하고 간편한 결과를 제공할 수 있다.
상기한 과제를 해결하기 위하여 본 발명은 대용량 유전자형 정보를 전처리하는 단계와; 상기 전처리된 대용량 유전자형 정보를 대상으로 기계학습 분류 모델을 구축하고, 학습용 세트와 평가용 세트를 무작위로 분리하는 단계와; 상기 단계를 20회 반복하여 정확도, 민감도, 특이도, AUC 분류성능을 측정하여 가장 고성능의 분류를 선택하는 단계와; 기계학습 특징선택 방법을 적용하여, 1차 마커 세트를 선별하고, 선별된 마커세트에 의한 분류 성능을 전체 대용량 유전정보를 사용한 것과 비교하는 단계와; 가상 가계도를 구축하고, 가상의 임의 교배한 가상 데이터 세트를 생성하고, 학습용 데이터 세트에 추가하는 단계와; LD (linkage disequilibrium) 기반 필터링과 기계학습 특징선택 방법을 함께 적용하여, 분류 성능을 유지하는 최소 개수의 유전마커를 선택하는 단계와; 상기 유전마커를 선택하는 단계를 수회 반복하여 분류 성능을 유지하는 마커 세트를 선택하는 단계로; 구성되는 것을 특징으로 한 품종 구분을 위한 유전마커 선발 방법을 과제 해결을 위한 수단으로 제공한다.
또한 본 발명은 상기한 과제를 보다 효과적으로 해결하기 위하여 상기 마커 선택단계가 종료된 후, 선택된 마커 세트의 유전자형 분석 결과를 입력한 후 이를 기계학습 입력 데이터로 변환하는 단계와; 상기 변환된 데이터를 토대로 분류모형 예측 기능을 수행하고, 그 결과를 확률 또는 점수로 계량화하여 출력하는 단계를 더 포함하는 것을 특징으로 한 품종 구분을 위한 유전마커 선발 방법을 과제 해결을 위한 또 다른 수단으로 제공한다
본 발명의 유전마커 선발 시스템은 대용량 유전자형 자료로부터 기계학습법, LD (Linkage disequilibrium), 가상 가계도 등 품종의 유전적 특징을 구성하는 생물학적 지식을 적용하여 보다 적은 마커수만으로 품종을 구별하는 마커를 효율적으로 선발할 수 있는 효과가 있다.
도 1은 본 발명의 품종 식별이 가능한 유전마커 선발 시스템을 이용한 품종 식별방법을 나타낸다.
도 2는 분석 대상 SNP 유전마커 12,561개를 확보한 상태를 나타낸 도면이다.
도 3은 11개 품종의 반려견 226두에 대한 12,561개의 SNPs 유전자형 결과를 주성분분석 후 산점도로 가시화한 도면이다.
도 4는 9종의 다중클래스 분류기를 사용하여 11개 품종의 반려견에 SNP 마커의 정확도를 비교한 도면이다.
도 5는 5개 유전마커를 무작위로 임의 선발한 사례(도 5A)와, 주성분분석 특징 기여도로 선발한 사례(도 5B)를 비교하여 그 결과를 나타내고 있는 도면이다.
도 6은 9종의 다중클래스 분류기에 대한 정확도(도 6A)와 Nearest Neighbors, Linear SVM 2개의 분류기의 마커 갯수에 따른 정확도(도 6B)를 나타낸 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하여 도시한 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본원발명은 품종 식별 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법에 관한 것으로 보다 상세하게는 대용량 유전자형 자료로부터 기계학습법, LD (Linkage disequilibrium), 가상 가계도 등 품종의 유전적 특징을 구성하는 생물학적 지식을 적용하여 보다 적은 마커수만을 사용하여 품종을 구별하는 마커를 효율적으로 선발할 수 있는 시스템 및 방법에 관한 것이다.
기계학습법이란 인공지능의 한 분야로, 통계적 방법과 전산학 알고리즘으로 일련의 데이터 세트를 학습하여, 미지의 데이터 특성을 예측하는 것을 가능하게 하는 학습방법으로서 복합질병(Complex disease)의 원인 유전마커를 탐색하는 데 기계학습을 이용하는 등 다수의 유전학 분야 연구 결과들도 보고되고 있다. (Ho et al.,2019) 고밀도 SNP칩과 같은 대량의 유전마커 결과로부터, 품종 구분 혹은 질병 여부를 가늠하고, 유전마커를 선발하는 것은 기계학습에 있어서 다중범주 분류(Multiclass classification)와 특징 선택(Feature selection) 문제에 해당한다. 다중범주 분류는 복수개의 품종 가운데, 어떤 품종인지 알려진 유전마커 데이터를 토대로 기계학습을 거친 후, 임의의 유전마커 데이터로 어떤 품종인지 예측하는 것을 말한다.
한편 특징 선택은 어떤 유전마커가 품종을 식별할 수 있는 유의한 마커인지 가중치를 통해 선택하는 것을 의미한다. 즉, 예측 모델에서 중요한 특징을 통계적 방법으로 선발하는 것으로, 특징 집합의 크기를 줄임으로써 차원의 저주(Curse of dimensions)를 해결하고, 분별력 있는 특징들로 구성함으로써 분류 성능을 보장할 수 있다(Wang et al., 2016). 또한 특징 선택은 데이터 수집을 용이하게 하여, 좀 더 경제적인 예측 모델 구현을 가능하게 한다.
연관불평형(LD, linkage disequilibrium)이란 특정 유전좌위(마커)들의 효과가 독립적이지 않고, 연관되어 있음을 의미하는 용어이다. 가령 두개의 유전좌위가 동시에 연구 대상이 될 경우, 이 둘은 하나의 염색체내에 가까운 거리에 있을 수 있고 그렇지 않을 수도 있다. 하나의 염색체상에 있고 그 거리가 짧다면, 이들 유전좌위는 서로 연관상태에 있다고 하며, 그 유전적 효과는 독립적이지 않고 서로 연관되어 나타난다. 쉬운 예로, 눈이 파랗다면 항상 혈우병에 걸린다고 하고, 그 원인 유전좌위가 각각 하나씩이라면, 이 두 유전좌위는 연관되어 있다고 혹은 LD 상태에 있다고 할 수 있다. 이 두 형질이 서로 연관된 이유는, 그 두 유전자가 가까이에 위치하기 때문이다. 원래 각 형질의 효과가 독립적으로 나타나야 하는데, 그렇지 않으므로 이를 연관불평형(Linkage disequilibrium)이라고 표현한다. 본 발명에서 LD 블록 기준으로 필터링 하는 이유는 서로 가깝고, 연관되어 있는 유전좌위를 줄여 효과적인 최소 갯수의 마커를 선발하기 위함이다.
가상 가계도란 품종 구분을 위한 데이터 세트내에 가상의 자손을 포함시켜서, 잡종 세대를 품종 구분 대상에서 포함시키거나 제외하는데 사용되는 가상의 가계도이다. 가상 자손은 교배 시뮬레이션을 통해 생성할 수 있다. 가장 간단하게는 구분 대상 품종과 아닌 품종과의 잡종 1세대인 트리오(trio) 가계도이며, 구분/비구분 품종의 개수가 많아질수록 이들의 모든 조합을 고려할 수 있으며, 잡종 2,3세대도 고려할 수 있다. 이러한 가상 가계도는 구분해 내야 하는 품종의 특징에 따라 필요에 의해 생성될 수 있다.
도1은 본 발명의 품종 식별이 가능한 유전마커 선발 시스템을 이용한 품종 식별방법을 나타낸다. 도 1에 도시된 바와 같이 본 발명은 대용량 유전자형 정보를 연관 불평형 분석법 (LD, Linkage disequilibrium analysis)을 통해 전처리하는 단계와; 상기 전처리된 대용량 유전자형 정보를 대상으로 기계학습 분류 모델을 구축하고, 학습용 세트와 평가용 세트를 무작위로 분리하는 단계와; 상기 2)의 단계를 20회 반복하여 정확도, 민감도, 특이도, AUC 분류성능을 측정하여 가장 고성능의 분류를 선택하는 단계와; 기계학습 특징선택 방법을 적용하여, 1차 마커 세트를 선별하고, 선별된 마커세트에 의한 분류 성능을 전체 대용량 유전정보를 사용한 것과 비교하는 단계와; 가상 가계도를 구축하고, 가상의 임의 교배한 가상 데이터 세트을 생성하고, 학습용 데이터 세트에 추가하는 단계와; LD 기반 필터링과 기계학습 특징선택 방법을 함께 적용하여, 분류 성능을 유지하는 최소 개수의 유전마커를 선택하는 단계와; 상기 6)단계를 수회 반복하여 분류 성능을 유지하는 마커 세트를 선택하는 단계로; 구성된다.
제1단계는 대용량 유전자형 정보를 전 처리하는 단계이다. 본 발명에서 의미하는 대용량 유전자형 정보란 고밀도 SNP칩, 차세대염기서열결정(NGS)과 같이 대용량(1천 유전좌위 이상, 여러 샘플)을 한번에 분석하여 확보할 수 있는 정보를 의미한다. 이를 전 처리하는 방법으로는 성염색체 제거법, HWE (Hardy-Weinberg equilibrium) 마커 필터링(p value > 0.05)법, 결측치 빈도 샘플 필터링(>10%)법, 결측치 대치(imputation)법, 낮은 대립유전자 빈도 (MAF, minor allele frequency, <5%) 마커 필터링법 등이 사용된다.
성염색체는 상염색체와 다른 방법으로 유전된다. 따라서 품종 특이 마커 선발 과정을 단순화하기 위해 제거한다. 마커별로 유전자형(대립유전자) 빈도를 계산한 후, 이 빈도가 하디-웨인버그평형(HWE, Hardy-Weinberg equilibrium)을 만족하는지 통계 검정하여, 만족하지 않는 마커를 필터링 한다. 이 과정은 생물학 법칙에 기반하여 실험과정 중 오류를 걸러낸다. 유전자검사 실험 결과 특정 샘플에 유전좌위를 결정할 수 없는 결측치가 생길 수 있으며, 이 때 결측치가 10% 이상인 샘플은 실험이 잘못된 것으로 판단하고 제외한다. 결측치 10% 이하 샘플의 경우, 해당 유전좌위에 대한 공개정보 혹은 타 샘플 정보를 참고하여 예측하고 대치할 수 있으며, 이를 결측치 대치(imputation)라고 하고, IMPUTE 혹은 Beagle과 같은 프로그램이 이용된다. 또한 특정 유전좌위의 특정 대립유전자 빈도가 낮은 경우, 해당 마커는 품종 판별에 상관없는 희귀 변이일 가능성이 높으므로 이를 제거한다. 보통 대립유전자 빈도가 5% 미만인 경우 이를 제거한다. 상기 전처리를 통해 대용량 유전정보가 QC를 거친 정제된 형태가 된다.
다음으로 상기 전처리된 대용량 유전자형 정보를 대상으로 기계학습 분류 모델을 구축하고, 학습용 세트와 평가용 세트를 무작위로 분리하고 이를 20회 반복하여 정확도, 민감도, 특이도, AUC 분류성능을 측정하여 가장 고성능의 분류를 선택한다. 본원발명에서는 전체 유전자형 정보를 학습용 세트(약 75%)와 평가용 세트(25%)로 분리한 후, 기계학습 분류 알고리즘 9종의 성능(민감도, 특이도, AUC)을 평가한다. 이를 20회 반복하여, 가장 성능이 높은 분류알고리즘을 선택한다. 이는 데이터 세트의 특징에 따라 적절한 분류 알고리즘이 다르기 때문이다.
예를 들어, 특정 데이터 세트의 주성분분석 산점도 형태가 태극 모양(1), 원 모양(2), 선형 모양(3)이라고 할 때, 태극 모양은 Nearest Neighbors, RBF SVM과 같은 알고리즘이 괜찮고, 원 모양은 Nearest Neighbors과 같은 알고리즘을 선택할 수 있으며, 선형 모양은 Neural Net, AdaBoost와 같은 알고리즘이 바람직하다고 할 수 있다. 이는 데이터 세트의 성격에 따라 이를 분류하기 위한 최적의 알고리즘이 달라지기 때문이다. 그러므로 각각을 모두 비교하여야 최적의 분류 알고리즘을 선택할 수 있다.
다음 단계는 1차 마커의 선별단계인데, 여기서는 기계학습 특징선택 방법을 적용하여, 1차 마커 세트를 선별한다. 그런 다음 선별된 마커세트에 의한 분류 성능을 전체 대용량 유전정보를 사용한 것과 비교하는 과정을 거치게 된다. 상기 선별에는 1차선별과 2차선별이 있다. 1차선별은 전체 유전좌위에서 후보군을 찾는 것이고, 2차선별은 1차 후보군에서 최소 갯수의 마커를 다시 찾아내는 것을 의미한다. 1차선별을 통해 실용적인 검토가 가능한 수준인 100여개 미만의 후보를 찾습니다. 그런 다음 2차선별에서 약 20~30개의 후보 세트를 찾아낸다. 상기 선별에서 기계학습의 특징선택 방법이 사용된다. 특징선택 방법은 단변량 선택, 재귀적 특징제거, 특징 중요도 등 다양한 방법이 존재한다.
단변량 선택(univariate selection)은 각각의 특징이 독립적이라고 가정하고, 각 특징별로 카이제곱검정과 같은 통계 검정으로 해당 특징만으로 얼마나 잘 분리되는지 확인한 후, p-value가 낮은 특징을 선발하는 방법이다. 이 경우, 특징 간 상호작용은 고려되지 않으므로, 재귀적 특징제거와 같은 방법이 사용될 수 있다. 이 방법은 전체 특징 가운데 하나씩 제거하면서, 전체 분류 성능에 영향을 주는지 확인하는 방법이다. 특징 중요도는 일부 분류 알고리즘에서 함께 제공하는 특징별 가중치로써, 분류 알고리즘 특이적으로 계산되며, 이를 이용하여 선발할 수도 있다.
다음으로 가상 가계도를 구축하고, 가상의 임의 교배한 가상 데이터 세트을 생성하고, 학습용 데이터 세트에 추가하는 단계가 수행된다. 이는 본원발명만의 독창적인 기술적 사상에 해당된다. 본 단계에서는 경제적 가치가 있는 특정 품종을 경제적 가치가 있거나 혹은 없는 타 품종과 교배하여 자손 세대를 생성하고 생성된 자손 세대를 본래의 경제적 가치가 있는 어버이 세대의 제품과 구분하게 된다. 이를 통해 구분을 원하는 품종과 그 잡종세대를 구분할 수 있다.
본원발명에서 “가상 가계도”란 구분하고자 하는 품종들 사이에 실무적 목적에 맞도록 조합을 지정하는 가계도를 의미한다. 이런 방법으로 자손 1세대 뿐 아니라 2세대, 3세대도 만들 수 있고, 목표 품종이 잡종으로 포함된 자손을 걸러내는 마커를 선발할 수 있다.
이해를 돕기 위하여 가상 가계도를 구축하는 방법에 대한 예를 들면 다음과 같다. 만일 "가", "나", "다" 품종이 있고, 각 품종 당 100개체 데이터가 있고 여기서 "가" 품종을 구분하는 마커세트를 선발한다고 하면, 먼저 "가" 품종 내 100 개체에서 임의로 2개씩 골라 교배하여, 자손 100개체를 만든다. ("가가"). 이럴 경우 특정 SNP 좌위의 유전자형이 TT인 개체와 GG인 개체를 교배하면, TG가 100% 확률로 나오게 된다. TT 개체와 CG 개체를 교배하면, TC와 TG가 50% 확률로 나온다. 이런 방법으로 전체 선발한 마커에 대해 가상 자손의 유전자형을 결정한다. 그런다음 타 품종과도 교배를 실시한다. "가" 품종과 "나" 품종 ("가나"), "가" 품종과 "다" 품종 ("가다") 교배 자손을 만든 후, "가가" 자손은 "가" 품종으로 포함시키고, "가나", "가다" 품종은 구분해내야 할 반대 품종으로 포함시킨 후, 기계학습을 수행한다.
다음으로 LD 기반 필터링과 기계학습 특징선택 방법을 함께 적용하여, 분류 성능을 유지하는 최소 개수의 유전마커를 선택하게 된다. LD분석(연관 불평형 분석법 Linkage disequilibrium analysis)을 하면, 유전마커 사이의 의미있는 물리적 거리(LD 블록)를 알 수 있다. 하나의 LD 블럭내에 두개의 마커가 있다면, 두 마커는 같이 움직일 가능성이 높기 때문에 중복 가능성이 있다. 따라서 LD 블럭을 기준으로 겹치는 마커가 없도록 필터링한다. 여기서 동일 LD 블록 뿐 아니라, 인근 LD 블럭 2개에서 10개까지로 다양하게 고려하여, 마커를 필터링하면서 목표 세트가 최소 갯수의 마커가 되도록 반복 시험한다. 여기에 기계학습 특징선택 방법의 가중치를 함께 반영하면서 확인한다. 그런 다음 상기 단계를 수회 반복하여 분류 성능을 유지하는 마커 세트를 선택한다.
이하 전술한 본 발명의 방법에 따라 반려견에 대한 품종식별을 위한 마커선발을 실시하였다. 자세한 사항은 실시예를 참고하면 쉽게 이해할 수 있다.
[실시예]:
1 고밀도 SNP 칩 데이터 확보 및 기초 분석
국립축산과학원으로부터, 질병 연관 연구용으로 확보한 11개 품종 226두의 반려견에 대한 고밀도 SNP칩(Illumina CanineSNP20 Bead Chip, San Diego, California, USA) 데이터를 활용하였다(표 1).
Breed Code Count
Korean Sapsali SS 55
Labrador Retriever LR 39
Korean Jindo JD 26
Korean Pungsan PS 19
German Shepherd GS 19
Poodle PD 16
Maltese MT 12
Schnauzer SN 10
Beagle BG 10
Belgium Malinois BM 10
English Springer Spaniel ES 10
(Sum) 226
고밀도 SNP칩 유전자형 데이터는 PLINK 2.0 프로그램(Purcell et al., 2007)을 이용하여, 기본적인 유전자형 품질관리(genotype QC)와 연관불평형(LD, Linkage disequilibrium) 분석(Carlson etal., 2004)과 같은 데이터 정제 과정을 거쳐 분석 대상 SNP 유전마커 12,561개를 확보하였다. (도면 2)
2 기계학습과 정확도 측정
프로그래밍 언어 파이썬(python)과 데이터 분석용 라이브러리 판다스(pandas), 기계학습 라이브러리 사이킷런(scikit-learn)을 이용하여, 주성분분석(PCA)와 다중범주 분류(multiclass classification)을 수행하였다. 어떤 분류기(classifier)가 다중범주 분류 성능이 높은지 확인하기 위하여, 9종의 분류기(Nearest Neighbors (k=4), Linear SVM (Support vector machine), RBF (Radial basis function) SVM (gamma=2), Decision Tree, Random Forest, AdaBoost, Naive Bayes, LDA (Linear discriminant analysis) and QDA (Quadratic discriminant analysis)를 시험하였다(Maron, 1961; Keller et al., 1985; Chenet al., 1991; Freund et al., 1997; Mika et al., 1999; Suykens & Vandewalle, 1999; Breiman, 2001; Van Gestel et al., 2002)를 사용하였다. 전체 데이터를 임의로 70%, 30% 나누어 70% 데이터로 학습하고, 30% 데이터로 시험하여 정확도를 계산하고, 이를 100회 시도한 후, 그 평균값과 분산을 이용하여 분류기 성능을 확인하였다.
3. 특징 선택
특징 선택 방법은 임의 선택(random seed=0), 카이제곱 검정(chi-square test)에 의한 선택, 그리고 주성분분석 특징 기여도(feature contribution by PCA)에 의한 선택(n=10, 성분별 분산비 적용)을 사용하여 비교하였다.
4. 결과 및 고찰
1 주성분분석
품종 구분 예측모델 구현에 앞서, 전체 데이터의 구조적 특징과 품종 구분 가능성을 거시적으로 검토하기 위해 주성분분석(PCA, Principle component analysis)를 수행하였다. 11개 품종의 반려견 226두에 대한 12,561 SNPs 유전자형 결과를 주성분분석 후 산점도로 가시화하였고, 많이 겹친 것으로 보이는 중앙 영역을 확대하여 표시하였다(도 3). 3가지 주성분에 대한 분산비는 각각 0.091, 0.056, 0.045이다. 분석 결과, 주성분들의 품종 간 분산이 품종 내 분산에 비해 커서 본 데이터로 품종 구분 예측 모델을 만들기에 문제는 없는 것으로 확인하였다. MT, PD, ES, BG와 같은 소형견들은 타 품종에 비해 명확하게 분리되지 않는 것으로 보였으나, 해당 영역을 확대하여 관찰하면, 품종 간 차이를 확인할 수 있었다.
2 전체 유전마커를 이용한 다중범주 분류
12,561 SNPs 전체 유전마커를 사용했을 때, 반려견 품종의 정확한 구분이 가능한지 확인하기 위해 9종의 다중클래스 분류기를 시험하였다. 전체 데이터에서 임의로 70% 선발하여 학습하고, 나머지 30%로 정확도 판정 5회 시도하여 9종 분류기의 정확도를 비교하였다. (도 4). Nearest Neighbors와 Linear SVM분류기가 100% 정확도를 보였으며, 그 밖의 분류기들은 정확도에 다양한 차이를 나타냈다. Decision Tree와 Random Forest분류기의 경우, 각 시도마다 정확도에 분산이 존재하였다. 본 결과를 통해, 12,561 SNPs 전체 유전마커를 이용하여 Nearest Neighbors와 Linear SVM 분류기를 사용하면, 11종의 품종을 100%로 정확하게 예측할 수 있음을 확인하였다.
3 특징 선택 방법 비교
12,561 SNPs 전체 유전마커 가운데, 품종을 구분할 수 있는 유의한 마커를 선발하는 것은 본 연구의 주요 목적 가운데 하나이다. 유전마커를 임의로 선발한 것과, 특정 기준으로 선발한 것과 유의한 차이가 있는지 확인하기 위해, 5개 유전마커를 무작위로 임의 선발(random seed=0)한 사례 (도 5A)와, 주성분분석 특징 기여도로 선발한 사례를 비교하였다. (도 5B).
유전마커 5개 무작위 선발한 경우, 9종 분류기 모두가 정확도 30%에 못미치는 성능을 나타냈다. 반면, 주성분분석 특징 기여도로 5개 유전마커를 선발한 경우, 최대 61.7%의 정확도를 보이는 분류기(Linear Discriminant Analysis)도 확인할 수 있었다. 이를 통하여, 품종구분을위한 유전마커 선발 시 무작위 임의선발보다, 특징 선택 방법을 사용하는 것이 품종 구분 정확도를 높일 수 있는 방법임을 확인하였다.
4 선발된 유전마커 수에 따른 정확도 비교
특징 선택 방법을 적용하여, 유전마커 선발시, 몇개의 유전마커를 선발해야 하는가는 품종 확인용 검사키트 설계 등 실용적 목적을 위해 중요하다. 유전마커의 갯수에 따라 분류기별 분류 성능이 어떻게 변화하는지 확인하기 위하여, 유전마커 갯수별, 분류기별로 각각 70% 데이터 학습, 30% 데이터 검증 방법을 100회 반복하고, 그 정확도 분포를 확인하였다. LDA, Nearest Neighbors, LinearSVM 분류기들은 모두 유전마커의 갯수가 30개가 넘어가면, 다중범주 분류 정확도 80% 이상을 유지하였다. Na
Figure pat00001
Bayes 분류기의 경우, 유전마커 갯수 및 각 시도에 따른 정확도 분산이 크게 나타났으며, Nearest Neighbors와 Linear SVM 분류기가 적은 마커수로부터 균등하게 정확도가 증가하면서도, 높은 정확도를 유지하였다(도 6A). Nearest Neighbors, Linear SVM 2개의 분류기의 마커 갯수에 따른 정확도를 상세하게 살펴보았을 때, 모든 마커 갯수에서 Linear SVM이 다중범주 분류 정확도가 높았다(도 6B). Linear SVM 분류기는 30개의 유전마커를 사용하였을 때 정확도 약 88%를 보였으며, 60개의 유전마커를 사용하였을 때, 약 95%의 정확도를 나타냈다.
상기 실시예를 통하여 반려견 11개 품종을 구분할 수 있는 유전마커 셋을 선발하였다. 반려견 226개체, 11개 품종의 12,561개의 유전마커에 대한 다양한 다중범주 분류기와 특성선택 방법을 확인하였으며, 주성분분석 특징 기여도 방법으로 유전마커를 선발하고, Linear SVM 분류기로 학습하였을 때, 30개 유전마커로 88% 이상, 60개 유전마커로 95% 이상의 정확도로 반려견 11개 품종을 다중범주 분류할 수 있음을 확인하였다.
최종 선발된 반려견 품종 식별 유전마커는 타 질병 예측 유전마커와 결합하여, 저비용의 유전자 검사 키트(예, Fluidigm 96 SNP genotyping kit등) 제작에 활용될 수 있으며 또한 반려견을 비롯한 기타 동·식물의 품종 및 혈통, 질병 관리 기술로 유용하게 활용될 수 있을 것으로 기대된다.
이상 이 분야의 통상의 지식을 가진 자가 본원발명을 용이하게 실시할 수 있도록 도면을 바탕으로 본원발명을 보다 상세히 설명하였다. 사용된 용어에 있어서 그것이 기술적이든 과학적이든 관계없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 함을 밝혀둔다.
본원발명은 품종 식별이 가능한 유전마커 선발 시스템에 관한 것으로 육종학, 통계학, 인공지능, 데이터 처리, 반려동물 사업등과 관련성이 있다.
없음

Claims (5)

1) 대용량 유전자형 정보를 전 처리하는 단계와;
2) 상기 전처리된 대용량 유전자형 정보를 대상으로 기계학습 분류 모델을 구축하고, 학습용 세트와 평가용 세트를 무작위로 분리하는 단계와;
3) 상기 2)의 단계를 20회 반복하여 정확도, 민감도, 특이도, AUC 분류성능을 측정하여 가장 고성능의 분류를 선택하는 단계와;
4) 기계학습 특징선택 방법을 적용하여, 1차 마커 세트를 선별하고, 선별된 마커세트에 의한 분류 성능을 전체 대용량 유전정보를 사용한 것과 비교하는 단계와;
5) 가상 가계도를 구축하고, 가상의 임의 교배한 가상 데이터 세트을 생성하고, 학습용 데이터 세트에 추가하는 단계와;
6) LD 기반 필터링과 기계학습 특징선택 방법을 함께 적용하여, 분류 성능을 유지하는 최소 개수의 유전마커를 선택하는 단계와;
7) 상기 6)단계를 수회 반복하여 분류 성능을 유지하는 마커 세트를 선택하는 단계로; 구성되는 것을 특징으로 한 품종 구분을 위한 유전마커 선발 방법
제 1항에 있어서,
상기 대용량 유전자형 정보를 전 처리하는 단계는 성염색체 제거, HWE (Hardy-Weinberg equilibrium) 마커 필터링, 결측치 빈도 샘플 필터링, 결측치 대치(imputation) 및 낮은 대립유전자 빈도 마커 필터링 방법를 통해 처리하는 것을 특징으로 한 품종 구분을 위한 유전마커 선발 방법
제 1항 또는 제2항 중 어느 하나의 항에 있어서,
상기 6)단계가 종료된 후, 선택된 마커 세트의 유전자형 분석 결과를 입력하고 이를 기계학습 입력 데이터로 변환하는 단계와;
상기 변환된 데이터를 토대로 분류모형 예측 기능을 수행하고, 그 결과를 확률 또는 점수로 계량화하여 출력하는 단계를 더 포함하는 것을 특징으로 한 품종 구분을 위한 유전마커 선발 방법
제 3항에 있어서,
상기 대용량 유전자형 정보는 반려동물을 그 대상으로 하는 것을 특징으로 한 품종 구분을 위한 유전마커 선발 방법
제 1항에 있어서,
상기 5) 단계에서 가상 가계도는 경제적 가치가 있는 품종을 포함시켜 구축하는 것을 특징으로 한 품종 구분을 위한 유전마커 선발 방법
KR1020200182521A 2020-12-23 품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법 KR102697335B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200182521A KR102697335B1 (ko) 2020-12-23 품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200182521A KR102697335B1 (ko) 2020-12-23 품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법

Publications (2)

Publication Number Publication Date
KR20220091223A true KR20220091223A (ko) 2022-06-30
KR102697335B1 KR102697335B1 (ko) 2024-08-23

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275575A (zh) * 2023-11-02 2023-12-22 石家庄博瑞迪生物技术有限公司 一种基于液相芯片对snp的猪品种鉴定的深度学习判别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102141091B1 (ko) 2018-12-12 2020-08-04 충남대학교 산학협력단 토종닭의 유전적 배경 또는 품종을 판별하기 위한 snp 마커 세트 및 이의 용도

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102141091B1 (ko) 2018-12-12 2020-08-04 충남대학교 산학협력단 토종닭의 유전적 배경 또는 품종을 판별하기 위한 snp 마커 세트 및 이의 용도

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
없음

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275575A (zh) * 2023-11-02 2023-12-22 石家庄博瑞迪生物技术有限公司 一种基于液相芯片对snp的猪品种鉴定的深度学习判别方法

Similar Documents

Publication Publication Date Title
González-Recio et al. Genome-wide prediction of discrete traits using Bayesian regressions and machine learning
US20060111849A1 (en) Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
EP3326093B1 (en) Improved computer implemented method for predicting true agronomical value of a plant
Yoosefzadeh-Najafabadi et al. Genome-wide association study statistical models: A review
CN116168766A (zh) 基于集成学习的品种鉴定方法、系统及终端
EP3929928A1 (en) Associating pedigree scores and similarity scores for plant feature prediction
Fan et al. Development and validation of a 1 K sika deer (Cervus nippon) SNP Chip
O’Donnell et al. Low‐coverage whole‐genome sequencing reveals molecular markers for spawning season and sex identification in Gulf of Maine Atlantic cod (Gadus morhua, Linnaeus 1758)
KR102697335B1 (ko) 품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법
US20240282464A1 (en) System and method for determing gemetic population composition using hybrid specific reference genetic data generation for population, breed, disease groups, and species and analysis for determinig genetic components
KR20220091223A (ko) 품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법
CN117037905A (zh) 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
WO2014068195A1 (en) Method and arrangement for determining traits of a mammal
CN107871060B (zh) 基于dna标记的犬类品系鉴定方法
Cudic et al. Prediction of sorghum bicolor genotype from in-situ images using autoencoder-identified SNPs
Bagley et al. Using ddRAD-seq phylogeography to test for genetic effects of headwater river capture in suckermouth armored catfish (Loricariidae: Hypostomus) from the central Brazilian shield
CN112102880A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
US20170032080A1 (en) Method and arrangement for matching mammals by comparing genotypes
Nasiri et al. Precision assessment of some supervised and unsupervised algorithms for genotype discrimination in the genus pisum using SSR molecular data
Hernandez Effect of the incorporation of GWAS-selected markers in genomic selection, study model: flavonoid pigmentation traits in sorghum
Khan et al. Comparative study of multi-trait genomic and phenotypic selection indexes for selection of superior genotypes
Campos et al. Including selected sequence variants in genomic predictions for age at first calving in Nellore cattle
Li et al. Comparing genomic prediction accuracies for commercial cows' reproductive performance using GA2CAT and two machine learning methods.
Negash et al. Genomic selection for poultry breeding and its potential applications in developing countries
Purfield et al. 0295 The impact of call rate on genotype accuracy

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right