KR20220063480A - 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법 - Google Patents

통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법 Download PDF

Info

Publication number
KR20220063480A
KR20220063480A KR1020200149370A KR20200149370A KR20220063480A KR 20220063480 A KR20220063480 A KR 20220063480A KR 1020200149370 A KR1020200149370 A KR 1020200149370A KR 20200149370 A KR20200149370 A KR 20200149370A KR 20220063480 A KR20220063480 A KR 20220063480A
Authority
KR
South Korea
Prior art keywords
snp
data
selection probability
phenotype
missing
Prior art date
Application number
KR1020200149370A
Other languages
English (en)
Other versions
KR102603207B1 (ko
Inventor
선호근
김기풍
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020200149370A priority Critical patent/KR102603207B1/ko
Publication of KR20220063480A publication Critical patent/KR20220063480A/ko
Application granted granted Critical
Publication of KR102603207B1 publication Critical patent/KR102603207B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Signal Processing (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 오픈소스 R 프로그램를 이용하여 유전체 데이터를 분석하여 표현형질과 연관있는 SNP 마커를 발굴하는 방법에 관한 것으로서, 고차원 자료에서의 변수선택 기법인 규제화 방법을 이용한 선택확률을 계산할 뿐만 아니라 이에 대한 임계값을 통해 보다 정확하고 안정적으로 표현형질 연관 SNP 마커를 발굴할 수 있다.

Description

통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 SNP 마커 발굴 방법{Method for screeing SNP marker associated with phenotype using statistical regularization and selection probability}
본 발명은 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 SNP 마커 발굴 방법에 관한 것이다.
표준유전체 정보가 밝혀지고 차세대 염기서열 시퀀싱(next generation sequencing, NGS)을 이용한 대용량 염기서열 생산이 가속화되면서 유전체 기반의 분자육종은 종자시장 및 육종산업에 새로운 동력으로 각광받고 있다. 분자육종은 원하는 형질의 유무를 형질에서 유래한 표현형의 관찰 없이 DNA 염기서열의 차이를 나타내는 분자마커(molecular marker)를 이용해 판별하는 기법을 비롯해 크게 발전하고 있다.
유전체 데이터를 분석하는 전장유전체 연관성 연구 (Genome-wide Association Study)는 표현형질과 연관 있는 유전변이를 보다 더 정확하게 발굴하기 위하여 꾸준하게 주목 받고 있는 분야이다. 특히, 여러 유전변이를 동시에 고려하는 회귀모형 기반의 규제화 방법이 통계학 분야에서는 널리 이용되고 있으나, 실제 유전체 분석 연구자들에게는 관련 소프트웨어의 부재 등으로 인해 접근성이 떨어진다는 문제점이 있다.
한국공개특허 제2011-0064699호에는 '단일염기다형성(SNP) 유전자형의 분석 방법'이 개시되어 있고, 한국등록특허 제1774275호에는 '고추의 여교배 육종을 위한 단일염기다형성 마커 세트 및 이의 용도'가 개시되어 있으나, 본 발명의 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 SNP 마커 발굴 방법에 대해서는 기재된 바가 없다.
본 발명은 오픈소스 R 프로그램를 이용하여 유전체 데이터를 분석하여 표현형질과 연관있는 SNP (Single nucleotide polymorphism) 마커를 발굴하는 알고리즘 및 그에 대한 시각화를 제공하기 위한 것이다. 본 발명을 통해 많은 연구자들이 유전체 분석을 수월하게 수행할 수 있기를 기대한다.
상기 과제를 해결하기 위해, 본 발명은 (1) 데이터를 입력하는 단계; (2) 상기 입력된 데이터를 전처리하는 단계; (3) 상기 전처리된 데이터에 대해 선택확률을 계산하고 이에 대한 임계값을 계산하는 단계; 및 (4) 시각화 및 결과물을 제공하는 단계를 포함하는 규제화(regularization) 방법과 선택확률(selection probability)을 활용한 표현형질 연관 SNP 마커 발굴 방법을 제공한다.
또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.
유전체 연구 분야에서 전문 인력을 제외하고는 대다수의 연구자들이 분석에 많은 어려움이 있었다. 본 발명은 고차원 유전체 자료를 분석하기 위한 회귀모형 기반의 규제화(regularization) 방법과 선택 확률(selection probability)을 이용하여 주어진 표현형질과 연관있는 SNP 마커를 발굴할 수 있다. 본 발명을 통해 일반 연구자들도 입력인자만 조정하여 주어진 데이터에 적합한 분석 결과를 얻을 수 있게 된다.
도 1은 개발된 R 패키지 "sp.gwas" 메뉴얼의 첫 페이지이다.
도 2는 분석 알고리즘 개략도이다.
도 3은 개발된 R 패키지 "sp.gwas"에서 제공하는 SNP 마커들의 선택확률에 대한 Circular Manhattan plot의 예시이다. x축은 각 염색체에 위치한 SNP 마커이고, y축은 총 3개의 표현형질 각각에 대한 SNP 마커의 선택확률이다.
본 발명의 목적을 달성하기 위하여, 본 발명은
(1) 데이터를 입력하는 단계;
(2) 상기 입력된 데이터를 전처리하는 단계;
(3) 상기 전처리된 데이터에 대해 선택확률을 계산하고 이에 대한 임계값을 계산하는 단계; 및
(4) 시각화 및 결과물을 제공하는 단계를 포함하는 규제화(regularization) 방법과 선택확률(selection probability)을 활용한 표현형질 연관 SNP 마커 발굴 방법을 제공한다.
본 발명의 일 구현 예에 따른 방법에서, 상기 (1)단계는 합맵(HapMap) 형식의 SNP 데이터와 표현형질 데이터를 입력하는 것일 수 있으나, 이에 제한되지 않는다.
본 발명의 일 구현 예에 따른 방법에서, 상기 (2)단계는 입력된 SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency) 및 Missing Call Rate를 기준으로 저품질의 SNP을 제거하고, 남아있는 SNP 내 결측치에 대해서는 대립유전자(allele)의 빈도 분포 기반으로 결측치 대체를 실시하고, 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하는 것일 수 있으나, 이에 제한되지 않는다.
본 발명에 따른 SNP 마커 발굴 방법에 있어서, 상기 "MAF (Minor Allele Frequency)"는 하나의 SNP에서 수가 작은 쪽의 대립형질의 빈도를 의미하는 것으로, 이에 제한되는 것은 아니나, MAF 5% 미만, 더욱 바람직하게는 MAF 1% 미만인 SNP를 분석에서 제외하였다.
또한, 용어 "Missing Call Rate"는 call rate 또는 missing rate로 혼용되어 사용되기도 하며, 각 SNP에 대해 개체가 정상적으로 관찰된 비율을 의미하는 것으로, 본 발명의 일 구현 예에 따른 표현형질 연관 SNP 마커 발굴 방법에 있어서, 저품질의 SNP 제거를 위한 missing call rate 값은 95% 미만일 수 있으나, 이에 제한되지 않으며, 데이터 양에 따라 당업자가 적절하게 기준값을 설정할 수 있다.
본 발명의 일 구현 예에 따른 표현형질 연관 SNP 마커 발굴 방법에 있어서, 상기 저품질의 SNP 제거는 MAF 및 Missing Call Rate를 통해 우선적으로 저품질의 SNP를 제거하고, HWE (Hardy-Weinberg Equilibrium) 검정 유의확률 및 이형접합성(Heterozygosity) 중 하나 이상의 기준을 추가하여 저품질의 SNP를 제거할 수 있다. 상기 HWE 검정 유의확률과 이형접합성 기준의 추가는 SNP 데이터의 특성에 따라 선택할 수 있다. 구체적으로는, (1)단계의 데이터가 근친교배(inbreeding) 시료 유래일 경우 유전자형(genotype)이 대부분 동형성이기 때문에 HWE에 의한 선별 기준을 적용하는 것은 바람직하지 않고, 이형접합성을 기준으로 이형접합성 수치가 낮은 동형의 SNP 유전자형을 선별할 수 있고, (1)단계의 데이터가 근친교배가 아닌 시료 유래일 경우 유전자형이 대부분 이형성이기 때문에 이형접합성을 선별 기준에 적용하는 것은 바람직하지 않고, HWE 검정 유의확률을 적용하여 SNP를 선별할 수 있다.
상기 용어 "HWE(Hardy-Weinberg Equilibrium)"이란, 대를 거듭하더라도 집단에서 대립 유전자의 빈도가 변하지 않고, 평형상태를 유지하는 경우를 의미하는 것으로, 일반적으로, 적합도 검정결과 유의확률이 0.001 미만인 SNP는 분석에서 제외한다. 상기 HWE 검정 방법은 당업계에 공지된 통상의 방법들을 이용할 수 있다.
본 발명의 일 구현 예에 따른 방법에서, 저품질의 SNP 제거는 MAF (Minor Allele Frequency), Missing Call Rate, HWE (Hardy-Weinberg Equilibrium) 검정 유의확률 및 이형접합성(Heterozygosity)의 4개 수치를 모두 이용하여 수행될 수도 있고, MAF 및 Missing Call Rate를 이용하여 일차적으로 저품질의 SNP를 제거한 후, HWE 검정 유의확률 또는 이형접합성을 추가로 이용하여 SNP를 선별할 수 있다.
본 발명의 일 구현 예에 따른 방법에서, 상기 (3)단계는 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산하는 단계로서, 상기 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산하고, 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산할 수 있다.
본 발명의 일 구현 예에 따른 방법은 구체적으로
(1) 합맵(HapMap) 형식의 SNP 데이터와 표현형질 데이터를 입력하는 단계;
(2) 상기 입력된 데이터를 전처리하는 단계로서, SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency) 및 Missing Call Rate를 기준으로 저품질의 SNP을 제거하고, 남아있는 SNP 내 결측치에 대해서는 대립유전자(allele)의 빈도 분포 기반으로 결측치 대체를 실시하고, 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하며;
(3) 상기 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산하는 단계로서, 상기 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산하고, 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산하며; 및
(4) 시각화 및 결과물을 제공하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.
컴퓨터로 판독할 수 있는 기록매체란 컴퓨터에 의해 직접 판독되고 엑세스될 수 있는 임의의 기록매체를 말한다. 이러한 기록매체로서는 플로피 디스크, 하드 디스크, 자기 테이프 등의 자기기록매체, CD-ROM, CD-R, CD, RW, DVD-ROM, DVD-RAM, DVD-RW 등의 광학기록매체, RAM이나 ROM 등의 전기 기록매체 및 이들 범주의 혼합물(예를 들면, MO 등의 자기/광학기록매체)을 들 수 있지만, 이들에 제한되는 것이 아니다.
상기 기록매체에 기록 또는 입력시키기 위한 기기 또는 기록매체 중의 정보를 판독하기 위한 기기 또는 장치의 선택은 기록매체의 종류와 엑세스 방법에 근거한다. 또한 여러 가지 데이터 프로세서 프로그램, 소프트웨어, 컴퍼레이터 및 포맷이 본 발명의 방법을 수행하기 위한 프로그램을 해당 매체에 기록시키기 위해 사용될 수 있다. 상기 정보는 예를 들면, 시판하는 소프트웨어로 포맷된 바이너리 파일(binary file), 텍스트 파일 또는 ASCII 파일의 형태로 나타낼 수 있다.
이하, 본 발명을 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
본 발명에서 제시하는 규제화 방법과 선택확률을 활용한 표현형질 연관 SNP 마커 발굴 방법의 절차는 데이터 입력, 데이터 전처리, SNP 마커 선택, 결과파일 및 시각화 제공의 4단계로 구성된다.
데이터 입력 단계에서는 합맵(HapMap) 형식의 SNP 데이터와 표현형질 데이터를 입력받게 되고, 표현형질 데이터는 연속형, 범주형 모두 가능하다. 데이터 전처리 단계에서는 SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency), Missing Call Rate, HWE (Hardy-Weinberg Equilibrium) 검정 유의확률 및 이형접합성(Heterozygosity)의 4개의 수치를 기준으로 저품질의 SNP을 제거한다. 이 때 남아있는 SNP 내 결측치에 대해서는 대립유전자의 빈도 분포 기반으로 결측치 대체를 실시한다. 그리고 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하고, 연속형 표현형질의 경우 정규분포를 따르는지 검정하고 히스토그램을 제공한 뒤 사전 입력 인자에 따라 표현형질 정규화 실시 여부를 결정한다.
다음으로 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 Lasso와 Elastic-net 등의 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산한다. 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산된다. 그리고 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산된다.
Figure pat00001
Figure pat00002
마지막으로, 전처리 전/후 데이터, 선택확률, 임계값 등 이전 과정에서 제공된 모든 결과파일은 사용자 지정 폴더에 저장되고, 사용자는 본 발명에서 제공되는 시각화 함수를 통해 결과 폴더로부터 Manhattan plot을 그릴 수 있게 된다.
본 발명은 오픈소스 소프트웨어인 R 프로그램의 패키지로 개발됨으로써 일반 연구자들의 접근성을 높이고자 하였고, 대부분의 분석과정을 자동화함으로써 편의성을 함께 갖출 수 있게 되었다. 종래 기술과의 차이점은 통계학에서 많이 이용되는 고차원 자료에서의 변수선택 기법인 규제화 방법을 이용하여 선택확률을 계산함으로써 보다 안정적이고 정확하게 표현형질 연관 SNP 마커를 발굴할 수 있다는 것이다.

Claims (7)

  1. (1) 데이터를 입력하는 단계;
    (2) 상기 입력된 데이터를 전처리하는 단계;
    (3) 상기 전처리된 데이터에 대해 선택확률을 계산하고 이에 대한 임계값을 계산하는 단계; 및
    (4) 시각화 및 결과물을 제공하는 단계를 포함하는 규제화(regularization) 방법과 선택확률(selection probability)을 활용한 표현형질 연관 SNP (Single nucleotide polymorphism) 마커 발굴 방법.
  2. 제1항에 있어서, 상기 (1)단계는 Hapmap 형식의 SNP 데이터와 표현형질 데이터를 입력하는 것을 특징으로 하는 표현형질 연관 SNP 마커 발굴 방법.
  3. 제1항에 있어서, 상기 (2)단계는 SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency) 및 Missing Call Rate를 기준으로 저품질의 SNP을 제거하고, 남아있는 SNP 내 결측치에 대해서는 대립유전자(allele)의 빈도 분포 기반으로 결측치 대체를 실시하고, 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하는 것을 특징으로 하는 표현형질 연관 SNP 마커 발굴 방법.
  4. 제3항에 있어서, 상기 저품질의 SNP 제거는 MAF 및 Missing Call Rate 기준 외에 HWE (Hardy-Weinberg Equilibrium) 검정 유의확률 및 이형접합성(Heterozygosity) 중 하나 이상의 기준을 추가하여 저품질의 SNP를 제거하는 것을 특징으로 하는 표현형질 연관 SNP 마커 발굴 방법.
  5. 제1항에 있어서, 상기 (3)단계는 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산하는 단계로서, 상기 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산하고, 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산하는 것을 특징으로 하는 표현형질 연관 SNP 마커 발굴 방법.
  6. 제1항에 있어서,
    (1) Hapmap 형식의 SNP 데이터와 표현형질 데이터를 입력하는 단계;
    (2) 상기 입력된 데이터를 전처리하는 단계로서, SNP 데이터와 표현형질 데이터의 표본 ID를 매칭한 뒤, SNP 데이터에 대해서 MAF (Minor Allele Frequency) 및 Missing Call Rate를 기준으로 저품질의 SNP을 제거하고, 남아있는 SNP 내 결측치에 대해서는 대립유전자(allele)의 빈도 분포 기반으로 결측치 대체를 실시하고, 결측치를 갖고 있는 표현형질 데이터 표본과 이에 해당되는 SNP 데이터 표본을 제거하며;
    (3) 상기 전처리된 SNP 데이터와 표현형질 데이터를 가지고 R 패키지 'glmnet'을 이용하여 패널티 함수를 갖는 일반화 선형 모형 기반의 규제화 방법을 통해 각 SNP에 대한 선택확률과 이에 해당하는 임계값을 계산하는 단계로서, 상기 선택확률은 규제화 방법을 반복 추출된 부표본(subsample)에 적용하고 이에 대한 비율로서 계산하고, 선택확률에 대한 임계값은 주어진 데이터를 무작위로 재배치하여 선택확률을 계산하고 상위 θ번째 선택확률을 얻는 과정을 반복한 뒤 구해진 선택확률들의 평균으로 계산하며; 및
    (4) 시각화 및 결과물을 제공하는 단계를 포함하는 규제화(regularization) 방법과 선택확률(selection probability)을 활용한 표현형질 연관 SNP 마커 발굴 방법.
  7. 제1항 내지 제6항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체.
KR1020200149370A 2020-11-10 2020-11-10 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법 KR102603207B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200149370A KR102603207B1 (ko) 2020-11-10 2020-11-10 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200149370A KR102603207B1 (ko) 2020-11-10 2020-11-10 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법

Publications (2)

Publication Number Publication Date
KR20220063480A true KR20220063480A (ko) 2022-05-17
KR102603207B1 KR102603207B1 (ko) 2023-11-16

Family

ID=81799598

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200149370A KR102603207B1 (ko) 2020-11-10 2020-11-10 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법

Country Status (1)

Country Link
KR (1) KR102603207B1 (ko)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Janine Arloth 외, PLOS Computational Biology, 2020.02.03., Vol.16, No.2, pp.1-28.* *
Kipoong Kim 외, Journal of Statistical Computation and Simulation, 2020.03.11., pp.1-12.* *
Songshan Yang 외, Prioritizing genetic variants in GWAS with lasso using permutation-assisted tuning, Bioinformatics, 2020.04.04., Vol.36, No.12, pp.3811-3817. *

Also Published As

Publication number Publication date
KR102603207B1 (ko) 2023-11-16

Similar Documents

Publication Publication Date Title
Sun et al. SHOREmap v3. 0: fast and accurate identification of causal mutations from forward genetic screens
DeCook et al. Genetic regulation of gene expression during shoot development in Arabidopsis
Yang et al. Target SSR-Seq: a novel SSR genotyping technology associate with perfect SSRs in genetic analysis of cucumber varieties
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
Larsen et al. Population structure, relatedness and ploidy levels in an apple gene bank revealed through genotyping-by-sequencing
Allen et al. Facile mutant identification via a single parental backcross method and application of whole genome sequencing based mapping pipelines
US20190287646A1 (en) Identifying copy number aberrations
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
Pool Genetic mapping by bulk segregant analysis in Drosophila: experimental design and simulation-based inference
CN110846429A (zh) 一种玉米全基因组InDel芯片及其应用
Yang et al. ggComp enables dissection of germplasm resources and construction of a multiscale germplasm network in wheat
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
Dolzhenko et al. Characterization and visualization of tandem repeats at genome scale
Barton et al. The impact of natural selection on short insertion and deletion variation in the great tit genome
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
KR102603207B1 (ko) 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법
CN112233722A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
Ercolano et al. Complex migration history is revealed by genetic diversity of tomato samples collected in Italy during the eighteenth and nineteenth centuries
KR102427600B1 (ko) 줄기세포의 배양적응성을 판단하기 위한 체세포 변이를 선별하는 방법
CN114566213A (zh) 家系高通量测序数据的单亲二倍体分析方法及其系统
CN112837746B (zh) 用于小麦外显子测序基因定位的探针设计方法及定位方法
KR101911307B1 (ko) 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술
JP7166638B2 (ja) 多型検出法
JP4414823B2 (ja) 遺伝子情報の表示方法及び表示装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant