KR20220063480A

KR20220063480A - 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법

Info

Publication number: KR20220063480A
Application number: KR1020200149370A
Authority: KR
Inventors: 선호근; 김기풍
Original assignee: 부산대학교 산학협력단
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2022-05-17
Also published as: KR102603207B1

Abstract

본 발명은 오픈소스 R 프로그램를 이용하여 유전체 데이터를 분석하여 표현형질과 연관있는 SNP 마커를 발굴하는 방법에 관한 것으로서, 고차원 자료에서의 변수선택 기법인 규제화 방법을 이용한 선택확률을 계산할 뿐만 아니라 이에 대한 임계값을 통해 보다 정확하고 안정적으로 표현형질 연관 SNP 마커를 발굴할 수 있다.

Description

통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 SNP 마커 발굴 방법{Method for screeing SNP marker associated with phenotype using statistical regularization and selection probability}

본 발명은 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 SNP 마커 발굴 방법에 관한 것이다.

표준유전체 정보가 밝혀지고 차세대 염기서열 시퀀싱(next generation sequencing, NGS)을 이용한 대용량 염기서열 생산이 가속화되면서 유전체 기반의 분자육종은 종자시장 및 육종산업에 새로운 동력으로 각광받고 있다. 분자육종은 원하는 형질의 유무를 형질에서 유래한 표현형의 관찰 없이 DNA 염기서열의 차이를 나타내는 분자마커(molecular marker)를 이용해 판별하는 기법을 비롯해 크게 발전하고 있다.

유전체 데이터를 분석하는 전장유전체 연관성 연구 (Genome-wide Association Study)는 표현형질과 연관 있는 유전변이를 보다 더 정확하게 발굴하기 위하여 꾸준하게 주목 받고 있는 분야이다. 특히, 여러 유전변이를 동시에 고려하는 회귀모형 기반의 규제화 방법이 통계학 분야에서는 널리 이용되고 있으나, 실제 유전체 분석 연구자들에게는 관련 소프트웨어의 부재 등으로 인해 접근성이 떨어진다는 문제점이 있다.

한국공개특허 제2011-0064699호에는 '단일염기다형성(SNP) 유전자형의 분석 방법'이 개시되어 있고, 한국등록특허 제1774275호에는 '고추의 여교배 육종을 위한 단일염기다형성 마커 세트 및 이의 용도'가 개시되어 있으나, 본 발명의 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 SNP 마커 발굴 방법에 대해서는 기재된 바가 없다.

본 발명은 오픈소스 R 프로그램를 이용하여 유전체 데이터를 분석하여 표현형질과 연관있는 SNP (Single nucleotide polymorphism) 마커를 발굴하는 알고리즘 및 그에 대한 시각화를 제공하기 위한 것이다. 본 발명을 통해 많은 연구자들이 유전체 분석을 수월하게 수행할 수 있기를 기대한다.

상기 과제를 해결하기 위해, 본 발명은 (1) 데이터를 입력하는 단계; (2) 상기 입력된 데이터를 전처리하는 단계; (3) 상기 전처리된 데이터에 대해 선택확률을 계산하고 이에 대한 임계값을 계산하는 단계; 및 (4) 시각화 및 결과물을 제공하는 단계를 포함하는 규제화(regularization) 방법과 선택확률(selection probability)을 활용한 표현형질 연관 SNP 마커 발굴 방법을 제공한다.

또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.

유전체 연구 분야에서 전문 인력을 제외하고는 대다수의 연구자들이 분석에 많은 어려움이 있었다. 본 발명은 고차원 유전체 자료를 분석하기 위한 회귀모형 기반의 규제화(regularization) 방법과 선택 확률(selection probability)을 이용하여 주어진 표현형질과 연관있는 SNP 마커를 발굴할 수 있다. 본 발명을 통해 일반 연구자들도 입력인자만 조정하여 주어진 데이터에 적합한 분석 결과를 얻을 수 있게 된다.

도 1은 개발된 R 패키지 "sp.gwas" 메뉴얼의 첫 페이지이다.
도 2는 분석 알고리즘 개략도이다.
도 3은 개발된 R 패키지 "sp.gwas"에서 제공하는 SNP 마커들의 선택확률에 대한 Circular Manhattan plot의 예시이다. x축은 각 염색체에 위치한 SNP 마커이고, y축은 총 3개의 표현형질 각각에 대한 SNP 마커의 선택확률이다.

본 발명의 목적을 달성하기 위하여, 본 발명은

(1) 데이터를 입력하는 단계;

(2) 상기 입력된 데이터를 전처리하는 단계;

(3) 상기 전처리된 데이터에 대해 선택확률을 계산하고 이에 대한 임계값을 계산하는 단계; 및

(4) 시각화 및 결과물을 제공하는 단계를 포함하는 규제화(regularization) 방법과 선택확률(selection probability)을 활용한 표현형질 연관 SNP 마커 발굴 방법을 제공한다.

본 발명의 일 구현 예에 따른 방법에서, 상기 (1)단계는 합맵(HapMap) 형식의 SNP 데이터와 표현형질 데이터를 입력하는 것일 수 있으나, 이에 제한되지 않는다.

본 발명의 일 구현 예에 따른 방법에서, 상기 (2)단계는 입력된 SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency) 및 Missing Call Rate를 기준으로 저품질의 SNP을 제거하고, 남아있는 SNP 내 결측치에 대해서는 대립유전자(allele)의 빈도 분포 기반으로 결측치 대체를 실시하고, 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하는 것일 수 있으나, 이에 제한되지 않는다.

본 발명에 따른 SNP 마커 발굴 방법에 있어서, 상기 "MAF (Minor Allele Frequency)"는 하나의 SNP에서 수가 작은 쪽의 대립형질의 빈도를 의미하는 것으로, 이에 제한되는 것은 아니나, MAF 5% 미만, 더욱 바람직하게는 MAF 1% 미만인 SNP를 분석에서 제외하였다.

또한, 용어 "Missing Call Rate"는 call rate 또는 missing rate로 혼용되어 사용되기도 하며, 각 SNP에 대해 개체가 정상적으로 관찰된 비율을 의미하는 것으로, 본 발명의 일 구현 예에 따른 표현형질 연관 SNP 마커 발굴 방법에 있어서, 저품질의 SNP 제거를 위한 missing call rate 값은 95% 미만일 수 있으나, 이에 제한되지 않으며, 데이터 양에 따라 당업자가 적절하게 기준값을 설정할 수 있다.

본 발명의 일 구현 예에 따른 표현형질 연관 SNP 마커 발굴 방법에 있어서, 상기 저품질의 SNP 제거는 MAF 및 Missing Call Rate를 통해 우선적으로 저품질의 SNP를 제거하고, HWE (Hardy-Weinberg Equilibrium) 검정 유의확률 및 이형접합성(Heterozygosity) 중 하나 이상의 기준을 추가하여 저품질의 SNP를 제거할 수 있다. 상기 HWE 검정 유의확률과 이형접합성 기준의 추가는 SNP 데이터의 특성에 따라 선택할 수 있다. 구체적으로는, (1)단계의 데이터가 근친교배(inbreeding) 시료 유래일 경우 유전자형(genotype)이 대부분 동형성이기 때문에 HWE에 의한 선별 기준을 적용하는 것은 바람직하지 않고, 이형접합성을 기준으로 이형접합성 수치가 낮은 동형의 SNP 유전자형을 선별할 수 있고, (1)단계의 데이터가 근친교배가 아닌 시료 유래일 경우 유전자형이 대부분 이형성이기 때문에 이형접합성을 선별 기준에 적용하는 것은 바람직하지 않고, HWE 검정 유의확률을 적용하여 SNP를 선별할 수 있다.

상기 용어 "HWE(Hardy-Weinberg Equilibrium)"이란, 대를 거듭하더라도 집단에서 대립 유전자의 빈도가 변하지 않고, 평형상태를 유지하는 경우를 의미하는 것으로, 일반적으로, 적합도 검정결과 유의확률이 0.001 미만인 SNP는 분석에서 제외한다. 상기 HWE 검정 방법은 당업계에 공지된 통상의 방법들을 이용할 수 있다.

본 발명의 일 구현 예에 따른 방법에서, 저품질의 SNP 제거는 MAF (Minor Allele Frequency), Missing Call Rate, HWE (Hardy-Weinberg Equilibrium) 검정 유의확률 및 이형접합성(Heterozygosity)의 4개 수치를 모두 이용하여 수행될 수도 있고, MAF 및 Missing Call Rate를 이용하여 일차적으로 저품질의 SNP를 제거한 후, HWE 검정 유의확률 또는 이형접합성을 추가로 이용하여 SNP를 선별할 수 있다.

본 발명의 일 구현 예에 따른 방법에서, 상기 (3)단계는 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산하는 단계로서, 상기 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산하고, 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산할 수 있다.

본 발명의 일 구현 예에 따른 방법은 구체적으로

(1) 합맵(HapMap) 형식의 SNP 데이터와 표현형질 데이터를 입력하는 단계;

(2) 상기 입력된 데이터를 전처리하는 단계로서, SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency) 및 Missing Call Rate를 기준으로 저품질의 SNP을 제거하고, 남아있는 SNP 내 결측치에 대해서는 대립유전자(allele)의 빈도 분포 기반으로 결측치 대체를 실시하고, 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하며;

(3) 상기 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산하는 단계로서, 상기 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산하고, 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산하며; 및

(4) 시각화 및 결과물을 제공하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

컴퓨터로 판독할 수 있는 기록매체란 컴퓨터에 의해 직접 판독되고 엑세스될 수 있는 임의의 기록매체를 말한다. 이러한 기록매체로서는 플로피 디스크, 하드 디스크, 자기 테이프 등의 자기기록매체, CD-ROM, CD-R, CD, RW, DVD-ROM, DVD-RAM, DVD-RW 등의 광학기록매체, RAM이나 ROM 등의 전기 기록매체 및 이들 범주의 혼합물(예를 들면, MO 등의 자기/광학기록매체)을 들 수 있지만, 이들에 제한되는 것이 아니다.

상기 기록매체에 기록 또는 입력시키기 위한 기기 또는 기록매체 중의 정보를 판독하기 위한 기기 또는 장치의 선택은 기록매체의 종류와 엑세스 방법에 근거한다. 또한 여러 가지 데이터 프로세서 프로그램, 소프트웨어, 컴퍼레이터 및 포맷이 본 발명의 방법을 수행하기 위한 프로그램을 해당 매체에 기록시키기 위해 사용될 수 있다. 상기 정보는 예를 들면, 시판하는 소프트웨어로 포맷된 바이너리 파일(binary file), 텍스트 파일 또는 ASCII 파일의 형태로 나타낼 수 있다.

이하, 본 발명을 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.

본 발명에서 제시하는 규제화 방법과 선택확률을 활용한 표현형질 연관 SNP 마커 발굴 방법의 절차는 데이터 입력, 데이터 전처리, SNP 마커 선택, 결과파일 및 시각화 제공의 4단계로 구성된다.

데이터 입력 단계에서는 합맵(HapMap) 형식의 SNP 데이터와 표현형질 데이터를 입력받게 되고, 표현형질 데이터는 연속형, 범주형 모두 가능하다. 데이터 전처리 단계에서는 SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency), Missing Call Rate, HWE (Hardy-Weinberg Equilibrium) 검정 유의확률 및 이형접합성(Heterozygosity)의 4개의 수치를 기준으로 저품질의 SNP을 제거한다. 이 때 남아있는 SNP 내 결측치에 대해서는 대립유전자의 빈도 분포 기반으로 결측치 대체를 실시한다. 그리고 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하고, 연속형 표현형질의 경우 정규분포를 따르는지 검정하고 히스토그램을 제공한 뒤 사전 입력 인자에 따라 표현형질 정규화 실시 여부를 결정한다.

다음으로 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 Lasso와 Elastic-net 등의 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산한다. 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산된다. 그리고 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산된다.

마지막으로, 전처리 전/후 데이터, 선택확률, 임계값 등 이전 과정에서 제공된 모든 결과파일은 사용자 지정 폴더에 저장되고, 사용자는 본 발명에서 제공되는 시각화 함수를 통해 결과 폴더로부터 Manhattan plot을 그릴 수 있게 된다.

본 발명은 오픈소스 소프트웨어인 R 프로그램의 패키지로 개발됨으로써 일반 연구자들의 접근성을 높이고자 하였고, 대부분의 분석과정을 자동화함으로써 편의성을 함께 갖출 수 있게 되었다. 종래 기술과의 차이점은 통계학에서 많이 이용되는 고차원 자료에서의 변수선택 기법인 규제화 방법을 이용하여 선택확률을 계산함으로써 보다 안정적이고 정확하게 표현형질 연관 SNP 마커를 발굴할 수 있다는 것이다.

Claims

(1) 데이터를 입력하는 단계;
(2) 상기 입력된 데이터를 전처리하는 단계;
(3) 상기 전처리된 데이터에 대해 선택확률을 계산하고 이에 대한 임계값을 계산하는 단계; 및
(4) 시각화 및 결과물을 제공하는 단계를 포함하는 규제화(regularization) 방법과 선택확률(selection probability)을 활용한 표현형질 연관 SNP (Single nucleotide polymorphism) 마커 발굴 방법.
제1항에 있어서, 상기 (1)단계는 Hapmap 형식의 SNP 데이터와 표현형질 데이터를 입력하는 것을 특징으로 하는 표현형질 연관 SNP 마커 발굴 방법.
제1항에 있어서, 상기 (2)단계는 SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency) 및 Missing Call Rate를 기준으로 저품질의 SNP을 제거하고, 남아있는 SNP 내 결측치에 대해서는 대립유전자(allele)의 빈도 분포 기반으로 결측치 대체를 실시하고, 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하는 것을 특징으로 하는 표현형질 연관 SNP 마커 발굴 방법.
제3항에 있어서, 상기 저품질의 SNP 제거는 MAF 및 Missing Call Rate 기준 외에 HWE (Hardy-Weinberg Equilibrium) 검정 유의확률 및 이형접합성(Heterozygosity) 중 하나 이상의 기준을 추가하여 저품질의 SNP를 제거하는 것을 특징으로 하는 표현형질 연관 SNP 마커 발굴 방법.
제1항에 있어서, 상기 (3)단계는 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산하는 단계로서, 상기 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산하고, 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산하는 것을 특징으로 하는 표현형질 연관 SNP 마커 발굴 방법.
제1항에 있어서,
(1) Hapmap 형식의 SNP 데이터와 표현형질 데이터를 입력하는 단계;
(2) 상기 입력된 데이터를 전처리하는 단계로서, SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency) 및 Missing Call Rate를 기준으로 저품질의 SNP을 제거하고, 남아있는 SNP 내 결측치에 대해서는 대립유전자(allele)의 빈도 분포 기반으로 결측치 대체를 실시하고, 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하며;
(3) 상기 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산하는 단계로서, 상기 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산하고, 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산하며; 및
(4) 시각화 및 결과물을 제공하는 단계를 포함하는 규제화(regularization) 방법과 선택확률(selection probability)을 활용한 표현형질 연관 SNP 마커 발굴 방법.
제1항 내지 제6항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체.