KR102269208B1 - Apparatus and method for multitrait genome wide association - Google Patents

Apparatus and method for multitrait genome wide association Download PDF

Info

Publication number
KR102269208B1
KR102269208B1 KR1020190015152A KR20190015152A KR102269208B1 KR 102269208 B1 KR102269208 B1 KR 102269208B1 KR 1020190015152 A KR1020190015152 A KR 1020190015152A KR 20190015152 A KR20190015152 A KR 20190015152A KR 102269208 B1 KR102269208 B1 KR 102269208B1
Authority
KR
South Korea
Prior art keywords
test
likelihood ratio
value
null
association
Prior art date
Application number
KR1020190015152A
Other languages
Korean (ko)
Other versions
KR20200097867A (en
Inventor
주종화
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020190015152A priority Critical patent/KR102269208B1/en
Publication of KR20200097867A publication Critical patent/KR20200097867A/en
Application granted granted Critical
Publication of KR102269208B1 publication Critical patent/KR102269208B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

본 발명은 다중변이 연관 분석 기술에 관한 것으로, 보다 상세하게는 원인변이를 고려한 다중변이 연관 분석 장치 및 방법에 관한 것이다. 본 발명의 일 실시 예에 따르면, 다중변이를 이용할 경우 단일변이 연관연구보다 높은 파워를 얻을 수 있기 때문에 각종 질병의 메커니즘을 이해하는 도구로 활용될 수 있고 나아가 각종 질병의 예방, 조기발견, 제약, 치료 기술에 활용될 수 있다.The present invention relates to multivariate association analysis technology, and more particularly, to a multivariate association analysis apparatus and method in consideration of causal mutations. According to an embodiment of the present invention, when multiple mutations are used, higher power can be obtained than single mutation-associated studies, so it can be used as a tool to understand the mechanisms of various diseases, and furthermore, the prevention, early detection, pharmaceutical, It can be used in treatment techniques.

Description

다중변이 연관 분석 장치 및 방법{APPARATUS AND METHOD FOR MULTITRAIT GENOME WIDE ASSOCIATION}Multivariate association analysis apparatus and method {APPARATUS AND METHOD FOR MULTITRAIT GENOME WIDE ASSOCIATION}

본 발명은 다중변이 연관 분석 기술에 관한 것으로, 보다 상세하게는 원인변이를 고려한 다중변이 연관 분석 장치 및 방법에 관한 것이다.The present invention relates to multivariate association analysis technology, and more particularly, to a multivariate association analysis apparatus and method in consideration of causal mutations.

모든 생물의 유전체(게놈)는 진화의 과정에서 자손의 서열에 변이를 생기게 하는 자발적 돌연변이를 겪는다. 변이는 진화적으로 이익 또는 불이익을 주거나 중성적일 수 있다. 어떤 경우는 변이가 치사적 불이익을 주어 자손에게 전달되지 않는 경우도 있다. 다른 경우에는, 종에게 진화학적인 이익을 주고, 결국에는 종의 대부분에 DNA가 삽입되어 효과적으로 선조 형태가 된다. 많은 경우 이 선조 형태 및 변이체는 살아남아 종집단 중에 공존하게 된다. 서열의 복수 형태의 공존에 의하여, 다형(polymorphism)이 발생한다. 이러한 다형에는 RFLP, STR, VNTR, SNP 등이 알려져 있다. The genome (genome) of all living things undergoes spontaneous mutations that cause mutations in the sequence of their offspring in the course of evolution. Mutations may be evolutionarily beneficial or detrimental or neutral. In some cases, the mutation gives a lethal disadvantage and is not passed on to the offspring. In other cases, there is an evolutionary benefit to the species, eventually inserting DNA into most of the species, effectively becoming an ancestral form. In many cases, these ancestral forms and variants survive and coexist among the species. The coexistence of multiple forms of a sequence results in polymorphism. RFLP, STR, VNTR, SNP, and the like are known for such polymorphisms.

RFLP: 제한효소 절편길이 다형, Restriction Fragment Length PolymorphismRFLP: Restriction Fragment Length Polymorphism

STR: 단연쇄 반복, Short Tandem RepeatSTR: Short Tandem Repeat

VNTR: 가변수 직렬반복, Variable Number Tandem RepeatVNTR: Variable Number Tandem Repeat

SNP: 단일 염기 다형, Single Nucleotide PolymorphismSNP: Single Nucleotide Polymorphism

이 중에서 스닙(SNP)은 단일 염기 다형으로서, 동일한 종의 개체 사이의 단일 뉴클레오티드 변이의 형태를 취한다. 스닙은 유전변이의 대표적인 형태로, 대부분의 DNA는 사람마다 비슷하나 서로 다른 부분을 변이라고 한다. 스닙이 질병과 같은 표현형에 영향을 미치는 경우, 상기 스닙을 포함하는 폴리뉴클레오티드는 이러한 질병을 진단하는 데에 프라이머 또는 프로브로서 사용될 수 있다. 표현형은 키, 당뇨병수치, 유전자 발현정도 등을 지칭한다. 스닙에 특이적으로 결합하는 모노클로날 항체 또한, 질병의 진단에 사용될 수 있다. 그러나 이러한 스닙은 단순히 인간의 게놈 또는 cDNA 상에 단일 염기 다형이 존재한다는 것 만을 발견하였을 뿐, 이들이 표현형에 미치는 영향을 밝힌 것은 아니었다. 이들 중 일부에 대하여는 그 기능이 알려진 것도 있으나, 대부분이 알려지지 않았다.Among them, Snip (SNP) is a single nucleotide polymorphism, which takes the form of a single nucleotide variation between individuals of the same species. Snip is a representative form of genetic variation. Most DNA is similar to each person, but different parts are called mutations. When the snip affects a phenotype such as a disease, the polynucleotide comprising the snip can be used as a primer or probe to diagnose such a disease. The phenotype refers to height, diabetes level, gene expression level, and the like. Monoclonal antibodies that specifically bind snip may also be used in the diagnosis of disease. However, these snips simply found that single-nucleotide polymorphisms exist on the human genome or cDNA, and did not reveal their effect on the phenotype. Some of these functions are known, but most are unknown.

기존에 인간이 가지고 있는 수많은 유전변이 중 어떤 변이가 어떤 표현형, 예를 들어 키, 당뇨병수치, 유전자(gene) 발현율 등과 연관이 있는지에 대해 연구인 유전체(genome) 연관연구(association test)의 경우 스닙 하나와 표현형 하나 간의 일대일 연관연구를 지칭하는 단일변이 연관 연구를 수행하였다. In the case of the genome association test, which is a study on which mutations among numerous genetic variations in humans are related to which phenotype, for example, height, diabetes level, gene expression rate, etc., snip A univariate association study, which refers to a one-to-one association study between one phenotype and one phenotype, was performed.

여러 개의 스닙으로 이루어진 유전자 단위로 다중 연관연구를 수행할 경우 유전자 내에 있는 여러 변이들을 한꺼번에 보는 연구가 수행되기는 하였으나 유전자를 구성하는 여러 개의 스닙 중 연구하고자 하는 표현형이나 해당 유전자 발현을 실제로 조절하는 원인변이에 대한 분석없이 단순히 유전자를 구성하는 여러 개의 스닙의 연관성들을 각각 단일변이 연관연구를 수행해 계산한 후 평균값을 사용하는 근사적인 방법을 이용하였기 때문에 정확한 분석결과를 도출하지 못하였다. When multiple association studies are performed with a gene unit consisting of several snips, studies have been conducted to look at multiple mutations in a gene at once. However, among multiple snips constituting a gene, the phenotype to be studied or the causal mutation that actually controls the gene expression Without analysis, the association of several snips constituting a gene was simply calculated by conducting a single mutation association study, and an approximate method using the average value was used, so accurate analysis results could not be derived.

본 발명의 배경기술은 대한민국 등록특허 제10-1722107호에 개시되어 있다.Background art of the present invention is disclosed in Korean Patent Registration No. 10-1722107.

본 발명은 다중변이와 표현형 또는 유전자의 발현율과의 연관 관계를 분석하는 다중변이 연관 분석 장치 및 방법을 제공하는 것이다.An object of the present invention is to provide an apparatus and method for analyzing multiple mutation associations for analyzing the relationship between multiple mutations and phenotype or expression rates of genes.

본 발명의 일 측면에 따르면, 유전변이와 표현형 또는 유전자 발현율의 연관관계에 대한 유전체 연관연구 장치를 제공한다. According to one aspect of the present invention, there is provided a genome association research apparatus for the relationship between genetic variation and phenotype or gene expression rate.

본 발명의 일 실시예에 따른 다중변이 연관 분석 장치는 분석하고자 하는 다중변이들 간의 연관 불균형을 조사하는 연관 불균형 조사부, 연관 불균형을 이용하여 귀무가설의 귀무검정량 우도비율 분포를 생성하는 귀무검정량 분포 생성부, 귀무검정량 우도비율 분포로부터 유의수준에 해당하는 임계 우도비율 검정값을 측정하는 임계값 정의부, 대립검정량의 우도비율 검정값을 측정하는 대립검정량 계산부 및 임계 우도비율 검정값과 대립검정량의 우도비율 검정값을 비교하여 연관성을 판단하는 연관 판단부를 포함할 수 있다.A multivariate association analysis apparatus according to an embodiment of the present invention includes a linkage disequilibrium investigation unit that investigates linkage disequilibrium between multiple variants to be analyzed, and a null test quantity that generates a likelihood ratio distribution of a null hypothesis by using linkage disequilibrium. Distribution generator, threshold definition unit that measures the critical likelihood ratio test value corresponding to the significance level from the likelihood ratio distribution of the null test quantity, the alternative test quantity calculator that measures the likelihood ratio test value of the alternative test quantity, and the critical likelihood ratio test It may include a correlation determination unit for determining the association by comparing the value and the test value of the likelihood ratio of the alternative test quantity.

본 발명의 다른 일 측면에 따르면, 다중변이 연관 분석 방법 및 이를 실시 가능한 다중변이 연관 분석 기록매체를 제공한다.According to another aspect of the present invention, there is provided a multivariate association analysis method and a multivariate association analysis recording medium capable of implementing the same.

본 발명의 일 실시예에 따른 방법 및 기록매체는 유전변이와 표현형 또는 유전자 발현율의 연관관계에 대한 유전체 연관연구 방법에 있어서, 분석하고자 하는 스닙들 간의 상관 계수로 연관 불균형 정도를 계산하는 연관 불균형 조사 단계, 연관 불균형 행렬을 이용하여 귀무가설의 귀무검정량 우도비율 분포를 생성하는 귀무검정량 분포 생성단계, 귀무검정량 우도비율 분포로부터 유의수준의 임계 우도비율 검정값을 도출하는 임계값 정의단계, 분석하고자 하는 유전자의 발현율을 이용하여 대립검정량의 우도비율 검정값을 계산하는 대립검정량 계산 단계 및 유의 수준에 해당하는 임계 우도비율 검정값과 대립검정량의 우도비율 검정값을 비교하여 스닙과 유전자의 연관성 여부를 판단하는 연관 판단단계를 포함할 수 있다.In the method and recording medium according to an embodiment of the present invention, in a genomic association research method for the association between genetic variation and phenotype or gene expression rate, linkage disequilibrium investigation for calculating the degree of linkage disequilibrium with a correlation coefficient between snips to be analyzed Step, a null test amount distribution generation step of generating the likelihood ratio distribution of the null hypothesis by using the linkage disequilibrium matrix, a threshold value definition step of deriving a critical likelihood ratio test value of significance level from the null test amount likelihood ratio distribution, The allele test amount calculation step, which calculates the likelihood ratio test value of the allele test amount using the expression rate of the gene to be analyzed, and the critical likelihood ratio test value corresponding to the significance level and the likelihood ratio test value of the allele test amount are compared It may include a linkage determination step of determining whether the gene is related.

본 발명의 일 실시 예에 따르면, 유전자조직발현 연구에서 근접 스닙에 의해 발현이 조절되는 유전자를 찾는데 활용될 수 있다. According to an embodiment of the present invention, it can be utilized to find genes whose expression is regulated by proximity snips in gene tissue expression studies.

또한 본 발명의 일 실시 예에 따르면, 스닙을 질병관련 연구에 적용하는 전장유전체(genome-wide) 연관연구에 활용되면 표현형 및 질병에 연관된 유전자 발견에 활용될 수 있다. In addition, according to an embodiment of the present invention, when Snip is used for genome-wide association research that is applied to disease-related research, it can be utilized to discover genes related to phenotypes and diseases.

또한 본 발명의 일 실시 예에 따르면, 다중변이를 이용할 경우 단일변이 연관연구보다 높은 파워를 얻을 수 있기 때문에 각종 질병의 메커니즘을 이해하는 도구로 활용될 수 있고 나아가 각종 질병의 예방, 조기발견, 제약, 치료 기술에 활용될 수 있다.In addition, according to an embodiment of the present invention, when multiple mutations are used, higher power can be obtained than single mutation-associated studies, so it can be used as a tool to understand the mechanisms of various diseases and furthermore, prevention, early detection, and restriction of various diseases. , can be used in treatment techniques.

도 1은 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치를 설명하기 위한 도면.
도 2는 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치를 나타낸 위한 구성도.
도 3은 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치를 설명하기 위한 블록도.
도 4는 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치가 Type1 에러를 잘 조절하는 것을 보인 그래프.
도 5는 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치가 기존의 단일변이 방법보다 파워가 높아진 것을 보여주는 그래프.
도 6은 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치가 유전자 발현과 관련성이 있는 유전체를 찾아낸 그래프.
1 is a view for explaining a multivariate association analysis apparatus according to an embodiment of the present invention.
2 is a block diagram illustrating a multivariate association analysis apparatus according to an embodiment of the present invention.
3 is a block diagram illustrating a multivariate association analysis apparatus according to an embodiment of the present invention.
4 is a graph showing that the multivariate association analysis apparatus according to an embodiment of the present invention well controls Type1 errors.
5 is a graph showing that the multivariate association analysis apparatus according to an embodiment of the present invention has higher power than the conventional single mutation method.
6 is a graph in which the multivariate association analysis apparatus according to an embodiment of the present invention finds a genome that is related to gene expression.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.Since the present invention can have various changes and can have various embodiments, specific embodiments are illustrated in the drawings and will be described in detail through detailed description. However, this is not intended to limit the present invention to specific embodiments, and it should be understood to include all modifications, equivalents and substitutes included in the spirit and scope of the present invention. In describing the present invention, if it is determined that a detailed description of a related known technology may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. Also, as used herein and in the claims, the terms "a" and "a" and "a" are to be construed to mean "one or more" in general, unless stated otherwise.

이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings, and in the description with reference to the accompanying drawings, the same or corresponding components are given the same reference numerals, and the overlapping description thereof will be omitted. do it with

도 1은 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치를 설명하기 위한 도면이다 1 is a diagram for explaining a multivariate association analysis apparatus according to an embodiment of the present invention;

도 1을 참조하면, 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치는 모집단에서 추출한 유전자 발현률과 관련 스닙들의 정보를 이용하여 유전자와 다중변이의 연관관계를 판단한다. 본 발명에서 유전자 X는 분석하기를 원하는 유전자이고, N개의 스닙은 단일변이가 아닌 다중변이를 분석하기 위한 연결된 스닙들이다.Referring to FIG. 1 , the apparatus for analyzing multiple mutation associations according to an embodiment of the present invention determines the association between a gene and multiple mutations by using the gene expression rate extracted from the population and information on related snips. In the present invention, gene X is a gene to be analyzed, and the N snips are linked snips for analyzing multiple mutations, not single mutations.

종래에는 유전체 데이터에 존재하는 연관 불균형(Linkage Disequilibrium)으로 인해 원인변이가 무엇인지를 찾아내는 것이 어렵기 때문에 원인변이를 고려하지 않고 근사적인 방법으로 유전체를 분석하였다. 여기서, 연관 불균형은 스닙 A가 있을 경우 항상 그 옆에는 스닙 B가 나타나는 현상으로 각 스닙들이 서로 관련성이 있어 스닙 간에 독립적이지 않고 서로 종속적인 현상을 말한다. 종래에는 스닙A가 유전자 X의 발현률을 조절하는 원인이 되는 원인 변이인데 연관불균형으로 인해 스닙A와 스닙B가 항상 같이 나타나면 스닙B 역시 유전자 X의 발현률로 보이게 되어 실제 원인변이가 스닙 A인지, 스닙 B인지, 또는 둘다 인지 헷갈렸기 때문에 원인변이에 대한 고려 없이 근사적인 유전체 분석 방법을 이용하는 경우 실데이터에서 효과가 제대로 나타나지 않았다. Conventionally, since it is difficult to find a causal mutation due to linkage disequilibrium in genomic data, the genome was analyzed in an approximate way without considering the causal mutation. Here, the linkage disequilibrium refers to a phenomenon in which snip B always appears next to snip A when snip A is present. Conventionally, snip A is a causative mutation that regulates the expression rate of gene X. However, if snip A and snip B always appear together due to linkage imbalance, snip B is also seen as the expression rate of gene X, so the actual cause mutation is snip A, snip Because there was confusion about whether it was B or both, when an approximate genome analysis method was used without considering the causal mutation, the effect did not appear properly in the real data.

본 발명은 최근에 개발된 효율적이면서도 정확한 원인변이를 찾기 위한 정밀 매핑 기법(Fine Mapping technology)을 도입하여, 이를 우도비율검정 방법(Likelihood Ratio)에 접목시킴으로써 최초로 원인변이를 모델링한 정확한 다중변이 연관연구 방법에 관한 것이다. 여기서, 정밀 매핑 기법(Fine Mapping technology)은 원인변이의 후보가 되는 여러 스닙 중 진짜 원인변이가 누구인지 가려내는 것으로, 위의 예에서 스닙A와 스닙B 중 유전자 X의 원인이 되는 스닙이 어떤 것인지 가려내는 방법이다. 우도비율검정 방법(Likelihood Ratio)은 귀무가설(null hypothesis)과 대립가설(alternative hypothesis) 중 어떤 것이 맞는 가설인지 가려내는 방법중의 하나이다. 본 발명에서는 귀무가설(null hypothesis)은 어떠한 스닙도 해당 유전자에 영향을 주지 않는다고 가정하고, 대립가설(alternative hypothesis)은 특정 스닙이 해당 유전자에 영향을 준다고 가정하는 가설로 각각의 모델을 만든 후 둘 중 어떤 가설이 맞는지를 우도비율검정(likelihood ratio)방법을 이용하는 것이다.The present invention introduces the recently developed Fine Mapping technology to find an efficient and accurate causal variability, and grafts it to the Likelihood Ratio method to model the causal variability for the first time. it's about how Here, the fine mapping technology is to identify the true causative mutation among several snips that are candidates for the causative mutation. In the above example, among Snip A and Snip B, which snip is the cause of gene X? way to cover it up. Likelihood Ratio is one of the methods to determine which hypothesis is correct between the null hypothesis and the alternative hypothesis. In the present invention, the null hypothesis assumes that any snip does not affect the gene, and the alternative hypothesis is a hypothesis that assumes that a specific snip affects the gene. The likelihood ratio test method is used to determine which hypothesis is correct.

본 발명의 일 실시예에 따른 다중변이 연관연구 방법은 여러 개(N개)의 스닙과 관심있는 특정 표현형 간의 N:1 연관성을 연구하되 이때 어떤 스닙이 해당 표현형의 원인 변이인지 고려하여 모델링한다. 또한 본 발명은 실제로 많은 경우 제공되지 않는 원자료가 없어도 검정통계량(summary statistics, 단일 스닙과 단일 표현형 간의 1:1 연관성 정도를 나타내는 값)만 유효한 경우에도 적용이 가능할 뿐만 아니라, 데이터의 연관 불균형 구조나 원인변이의 수와 형태에 제약을 받지 않고 정확한 분석이 가능하다. In the multivariation association research method according to an embodiment of the present invention, an N:1 association between multiple (N) snips and a specific phenotype of interest is studied, but in this case, which snip is the causal variant of the phenotype, the model is considered. In addition, in many cases, the present invention can be applied not only to the case where only summary statistics (a value indicating the degree of 1:1 association between a single snip and a single phenotype) are valid even without raw data that is not provided in many cases, but also the linkage disequilibrium structure of the data However, accurate analysis is possible without being limited by the number and type of causal mutations.

도 2는 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치를 나타낸 구성도이다.2 is a block diagram illustrating a multivariate association analysis apparatus according to an embodiment of the present invention.

도 2을 참조하면, 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치는 연관 불균형 조사부(110), 귀무검정량 분포 생성부(120), 임계값 정의부(130), 대립검정량 계산부(140) 및 연관 판단부(150)를 포함한다.Referring to FIG. 2 , the multivariate association analysis apparatus according to an embodiment of the present invention includes a linkage disequilibrium investigation unit 110 , a null test quantity distribution generation unit 120 , a threshold value definition unit 130 , and an alternative test quantity calculation unit. 140 and the association determining unit 150 .

연관 불균형 조사부(110)는 분석하고자 하는 N개의 변이(다중변이)들 간의 연관 불균형(Linkage disequilibrium)정도를 다중변이들 간의 상관계수(correlation coefficient)로 계산한다. 연관 불균형 조사부(110)는 분석하고자 하는 변이들의 스닙 간의 연관불균형구조(Linkage disequilibrium structure)를 변이들의 상관관계(correlation)를 이용하여 측정한다. The linkage disequilibrium investigation unit 110 calculates the degree of linkage disequilibrium among the N mutations (multiple mutations) to be analyzed as a correlation coefficient between the multiple mutations. The linkage disequilibrium investigation unit 110 measures a linkage disequilibrium structure between snips of the mutations to be analyzed using the correlation of the mutations.

귀무검정량 분포 생성부(120)는 연관 불균형을 이용하여 귀무가설의 검정 통계량(귀무검정량) 우도비율 분포를 생성한다. 귀무검정량 분포 생성부(120)는 연관 불균형 조사부(110)에서 구한 상관 행렬을 이용하여 귀무가설 하에 생성된 검정 통계량(summary statistics)들의 우도비율 검정값을 구함으로써 귀무가설분포를 구한다. The null test amount distribution generating unit 120 generates a test statistic (null test amount) likelihood ratio distribution of the null hypothesis by using linkage imbalance. The null test amount distribution generating unit 120 obtains the null hypothesis distribution by obtaining the likelihood ratio test values of the test statistics generated under the null hypothesis using the correlation matrix obtained by the linkage imbalance investigation unit 110 .

임계값 측정부(130)은 귀무검정량 우도비율 분포로부터 유의 수준(significance level)의 임계값(threshold value)을 도출한다. 유의 수준은 통계적인 가설검정에서 사용되는 기준값이다.The threshold value measurement unit 130 derives a threshold value of a significance level from the null test quantity likelihood ratio distribution. The significance level is a reference value used in statistical hypothesis testing.

대립검정량 계산부(140)은 주어진 표현형이나 유전자 발현률로부터 구해진 대립검정량의 우도비율 검정값이다. The allele test amount calculation unit 140 is a likelihood ratio test value of the allele test amount obtained from a given phenotype or gene expression rate.

연관 판단부(150)는 유의수준에 해당하는 임계값과 대립검정량의 우도비율 검정값을 비교하여 연관성 여부를 판단한다. 대립검정량 계산부(140)에서 계산된 대립검정량의 우도비율 검정값과 임계값 측정부(130)에서 구한 임계값을 비교하여 유전자의 발현율에 따른 우도비율 검정값이 큰 경우 실험에 사용한 N개의 스닙과 해당 유전자가 연관성이 있다고 정의한다.The association determination unit 150 compares the threshold value corresponding to the significance level with the likelihood ratio test value of the alternative test amount to determine whether association is present. N used in the experiment when the likelihood ratio test value according to the gene expression rate is large by comparing the likelihood ratio test value of the allele test amount calculated by the allele test amount calculating unit 140 and the threshold value obtained by the threshold value measuring unit 130 It is defined that the dog snip and the corresponding gene are related.

도 3은 본 발명의 일 실시 예에 따른 다중변이 연관 분석 방법을 설명하기 위한 블록도이다.3 is a block diagram illustrating a multivariate association analysis method according to an embodiment of the present invention.

도 3을 참조하면, 단계 S310에서, 다중변이 연관 분석 장치는 N개의 스닙들 간의 상관 계수로 연관 불균형 정도를 계산한다. 여기서, 상관계수(correlation coefficient)는 스닙들의 유사도로 하나의 스닙과 다른 하나의 스닙들이 얼마나 유사한지에 대해 계산한 값이다. 다중변이 연관 분석 장치는 변이들의 스닙 간의 연관불균형구조(Linkage disequilibrium structure)를 변이들의 상관관계(correlation)를 이용하여 측정한다. 여기서, 스닙은 보조 대립유전자(minor allele)와 주 대립유전자(major allele)가 0/1로 이진수를 가지거나 각각의 확률을 나타내는 실수형태를 가진다. 또한, 스닙의 상관관계는 스닙이 얼마나 유사한지를 나타내는 수치로 예를 들면 (000)과 (000)은 정확히 일치하므로 상관관계가 1이며 (000)과 (111)은 반대의 형태를 띄므로 상관관계가 0에 해당한다. 한편, 연관불균형은 분석하고자 하는 스닙 각 쌍의 상관관계의 구조로 예를 들어 2개의 스닙을 테스트하는 경우 연관불균형을 2 x 2 행렬의 형태를 띄게 된다. Referring to FIG. 3 , in step S310, the multivariate association analysis apparatus calculates the degree of association disequilibrium using the correlation coefficient between N snips. Here, the correlation coefficient is a value calculated with respect to how similar one snip is to another snip as the similarity of snips. The multivariate association analysis apparatus measures the linkage disequilibrium structure between snips of the mutations by using the correlation of the mutations. Here, snip has a binary number of 0/1 for a minor allele and a major allele, or a real number representing each probability. Also, the snip correlation is a numerical value indicating how similar the snip is. For example, (000) and (000) are exactly the same, so the correlation is 1, and (000) and (111) are the opposite, so the correlation is corresponds to 0. On the other hand, the association disequilibrium is a structure of the correlation of each pair of snips to be analyzed. For example, when two snips are tested, the association disequilibrium takes the form of a 2 x 2 matrix.

다중변이 연관 분석 장치는 M명의 N개 변이 서열을 입력하면 N개 변이들 간의 N x N 크기의 상관 행렬(correlation matrix) (linkage disequilibrium matrix)을 결과값으로 도출할 수 있다. 더욱 상세히 설명하면, 입력된 변이 서열을 이진형태(대립유전자는 0, 주대립유전자는 1) 또는 대립유전자와 주대립유전자의 확률로 표현한 실수값으로 변환한다. 변환 후 0/1 또는 실수값을 가지는 M x N 크기의 행렬로 부터 N x N 크기의 상관행렬을 도출한다.The multivariate association analysis apparatus may derive an N x N size correlation matrix (linkage disequilibrium matrix) between the N mutations as a result value when N mutation sequences of M names are input. In more detail, the input mutant sequence is converted into a binary form (0 for allele, 1 for major allele) or a real value expressed as a probability of allele and major allele. After transformation, a correlation matrix of size N x N is derived from a matrix of size M x N having 0/1 or real values.

입력: 사람 M명의 N개 변이 서열Input: N mutant sequences of M humans

(예를 들어 사람 100명의 10개 변이 서열)(e.g. 10 variant sequences of 100 humans)

사람1. ACCCTCCACGperson 1. ACCCTCCACG

사람2. CTCCTAGACGperson 2. CTCCTAGACG

사람100. CCCTAACTGC100 people. CCCTAACTGC

결과: N개 변이들 간의 N x N 크기의 상관 행렬(correlation matrix) (linkage disequilibrium matrix)Result: correlation matrix of size N x N between N variants (linkage disequilibrium matrix)

단계 S320에서, 다중변이 연관 분석 장치는 연관 불균형 행렬을 이용하여 귀무가설의 귀무검정량 우도비율 분포를 생성한다.In step S320, the multivariate association analysis apparatus generates a probability ratio distribution of the null test quantity of the null hypothesis by using the association imbalance matrix.

더욱 상세히 설명하면, 다중변이 연관 분석 장치는 단계 S310에서 구한 상관 행렬을 이용하여 검정 통계량(summary statistics) 우도비율 검정값의 귀무가설분포를 구한다. 즉 다중변이 연관 분석 장치는 N개 중 어떠한 스닙도 유전자의 발현률에 영향을 미치지 않는다는 귀무가설이 사실일 경우 검정 통계량(summary statistics)의 우도비율 검정값이 어떻게 되는지 분포(distribution)를 계산한다. 다중변이 연관 분석 장치는 검정 통계량이 다변수정규분포를 따른다는 사실을 이용하여, 단계 S310에서 구한 연관 불균형 행렬을 분산-공분산으로 이용하여 검정 통계량을 추출한다. 즉, 검정 통계량은 귀무가설(N개 중 어떠한 스닙도 유전자의 발현률에 영향을 미치지 않는다는 가설)이 사실이라는 가정 하에 평균값이 0이고 분산 값이 단계 S310에서 구한 상관 행렬(correlation matrix) 구조인 다변수정규분포(multivariate normal distribution)에서 추출하여 계산한다. In more detail, the multivariate association analysis apparatus obtains the null hypothesis distribution of the likelihood ratio test value of the test statistic using the correlation matrix obtained in step S310. That is, the multivariate association analysis device calculates the distribution of the likelihood ratio test value of the summary statistics when the null hypothesis that none of the N snips affects the gene expression rate is true. The multivariate association analysis apparatus uses the fact that the test statistic follows a multivariate normal distribution, and extracts the test statistic by using the association disequilibrium matrix obtained in step S310 as variance-covariance. That is, the test statistic is a multivariate multivariate with a mean value of 0 and a variance value of the correlation matrix structure obtained in step S310 under the assumption that the null hypothesis (the hypothesis that none of the N snips affect the expression rate of a gene) is true. It is calculated by extracting from a multivariate normal distribution.

Figure 112019013641267-pat00001
Figure 112019013641267-pat00001

S는 검정 통계량을 나타내며 C는 실제 원인변이 상태를 나타낸다. 귀무가설이기 때문에 평균은 0을 사용하며,

Figure 112019013641267-pat00002
는 연관 불균형 조사부(110)에서 구한 연관불균형 구조를 나타낸다.
Figure 112019013641267-pat00003
는 분석하는 변이들의 각자 원인변이 상태를 나타낸다. 검정 통계량의 조건부 확률과 원인변이 확률은 각각 다변수정규분포에서 도출한다.S is the test statistic, and C is the actual causal variation status. Since it is the null hypothesis, the mean is 0.
Figure 112019013641267-pat00002
represents the linkage disequilibrium structure obtained by the linkage disequilibrium investigation unit 110 .
Figure 112019013641267-pat00003
represents the state of each causal mutation of the mutations to be analyzed. The conditional probability and the causal variance probability of the test statistic are derived from the multivariate normal distribution, respectively.

계산된 검정 통계량을 아래의 수학식2 우도비율검정값식을 이용해 계산한다. The calculated test statistic is calculated using the following Equation 2 likelihood ratio test value formula.

Figure 112019013641267-pat00004
Figure 112019013641267-pat00004

여기서 C는 스닙의 원인변이 상태를 나타내는 이진값이며 모든 가능한 원인변이 상태를 나타낸다. Co는 C의 한 형태로 원인변이가 하나도 없는 상태를 나타낸다. Here, C is a binary value representing Snip's causal mutation state and represents all possible causal mutation states. Co is a form of C and represents a state in which there is no causal mutation.

Figure 112019013641267-pat00005
는 가능한 C에서 Co를 제외한 경우의 집합으로 적어도 하나이상의 원인변이가 존재하는 경우를 나타낸다. 즉 우도비율검정값식의 분자는 테스트하는 N개의 스닙 중 적어도 한 개 이상이 원인변이일 경우의 사후확률 합을 나타내며 분모는 N개의 스닙 중 원인변이가 하나도 없는 경우의 사후확률을 나타낸다.
Figure 112019013641267-pat00005
is a set of possible C except Co, and represents a case in which at least one causal mutation exists. That is, the numerator of the likelihood ratio test value formula represents the sum of posterior probabilities when at least one of the N snips to be tested is a causal variation, and the denominator represents the posterior probability when there is no causal variation among the N snips to be tested.

상기 설명한 방식을 이용하여 검정통계량을 추출하고 이의 우도비율검정값을 계산하는 과정을 반복함으로써 귀무가설의 귀무검정량 우도비율 분포를 생성한다.By repeating the process of extracting the test statistic and calculating the likelihood ratio test value using the method described above, the likelihood ratio distribution of the null test quantity of the null hypothesis is generated.

단계 S320에서 귀무검정량 우도비율 검정값을 구하기 위한 입력값과 결과값은 아래와 같다.In step S320, the input values and result values for obtaining the test value of the likelihood ratio of the null test quantity are as follows.

입력: 단계 S310에서 구한 연관 불균형 상관 행렬Input: Linkage disequilibrium correlation matrix obtained in step S310

결과: 단계 S310에서 구한 연관 불균형 상관 행렬을 가정한 귀무검정량 우도비율 분포Result: The likelihood ratio distribution of the null test assuming the linkage disequilibrium correlation matrix obtained in step S310

단계 S330에서, 다중변이 연관 분석 장치는 귀무검정량 우도비율 분포로부터 유의수준의 임계 우도비율 검정값을 도출하는 임계값을 정의한다. 여기서, 유의 수준은 통계적인 가설검정에서 사용되는 기준값으로 alpha(α)로 표시하고 95%의 신뢰도를 기준으로 한다면 5%로 유의 수준의 값은 0.05이다. 여기서 유전체 연구의 경우 한 개 이상의 연관연구를 테스트하기 때문에 다중가설시험인 점을 고려하여 통상적으로 0.05가 아닌 alpha(α)= 5 * 10^-8 을 이용한다. In step S330, the multivariate association analysis apparatus defines a threshold value for deriving the critical likelihood ratio test value of the significance level from the likelihood ratio distribution of the null test quantity. Here, the significance level is expressed as alpha(α) as a reference value used in statistical hypothesis testing, and the significance level is 5% if 95% reliability is the standard, and the significance level value is 0.05. In the case of genome research, since more than one association study is tested, alpha(α)=5 * 10^-8 is usually used instead of 0.05 considering that it is a multiple hypothesis test.

단계 S330에서 귀무검정량 우도비율 분포로부터 유의수준의 임계 우도비율 검정값을 도출하는 임계값을 정의하는 입력값과 결과값은 아래와 같다.In step S330, the input value and the result value defining the threshold value for deriving the critical likelihood ratio test value of the significance level from the likelihood ratio distribution of the null test quantity are as follows.

입력: 우도비율 검정값들Input: Likelihood Ratio Tests

결과: 임계값에 해당하는 우도비율 검정값 하나Result: One likelihood-ratio test corresponding to the threshold

다중변이 연관 분석 장치는 예를 들어 단계 S320에서 검정통계량을 추출하고 이의 우도비율검정값을 계산하는 과정을 100000000번 정도 반복하여 구한 우도비율 검정값이 100,000,000개라고 가정하면 10^8 * 0.05 번째 우도비율 검정값을 임계값으로 정할 수 있다.For example, the multivariate association analysis apparatus extracts the test statistic in step S320 and repeats the process of calculating the likelihood ratio test value about 100000000 times, assuming that there are 100,000,000 likelihood ratio test values, 10^8 * 0.05th likelihood A ratio test value can be set as a threshold value.

단계 S340에서, 다중변이 연관 분석 장치는 유전자 X의 발현율을 이용하여 우도비율 검정값 계산식을 이용하여 대립검정량의 우도비율 검정값을 측정한다. 여기서, 우도비율 검정값 계산은 상술한 단계 S320에서 이용한 수학식2의 우도비율 검정값 계산식을 이용하면 된다.In step S340, the multivariate association analysis apparatus measures the likelihood ratio test value of the allele test amount using the likelihood ratio test value calculation formula using the expression rate of the gene X. Here, the likelihood ratio test value may be calculated using the likelihood ratio test value calculation formula of Equation 2 used in step S320 described above.

Figure 112019013641267-pat00006
Figure 112019013641267-pat00006

단계 S350에서 다중변이 연관 분석 장치는 유의 수준에 해당하는 임계 우도비율 검정값과 대립검정량의 우도비율 검정값을 비교하여 스닙과 유전자의 연관성 여부를 판단한다. In step S350, the multivariate association analysis apparatus compares the critical likelihood ratio test value corresponding to the significance level and the likelihood ratio test value of the allele test amount to determine whether the snip and the gene are related.

더욱 상세히 설명하면, 다중변이 연관 분석 장치는 대립검정량의 우도비율 검정값과 임계 우도비율 검정값을 비교하여 유전자의 발현율에 따른 대립검정량의 우도비율 검정값이 큰 경우 실험에 사용한 N개의 스닙과 해당 유전자가 연관성이 있다고 정의한다.In more detail, the multivariate association analysis device compares the likelihood ratio test value of the allele test value with the critical likelihood ratio test value, and when the likelihood ratio test value of the allele test amount according to the gene expression rate is large, N snips used in the experiment and the gene are defined as being related.

도 4는 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치가 지정한 유의 수준만큼 귀무가설 하에 생성된 데이터를 거절하는 것 즉, Type1 에러를 잘 조절하는 것을 보인 그래프이다. 4 is a graph showing that the multivariate association analysis apparatus according to an embodiment of the present invention rejects data generated under the null hypothesis as much as the significance level specified, that is, that the Type1 error is well controlled.

도 4를 참조하면, 랜덤하게 뽑은 10개의 유전자들에 본 발명인 다중변이 연관 연구 방법을 적용하였다. 단계S320을 통해 10^8개의 귀무검정량 우도비율 검정값을 구하고 이중 반에 해당하는 10^8/2개의 귀무검정량 우도비율 검정값을 이용하여 유의수준 0.1과 0.05에 해당하는 임계 우도비율 검정값을 구하고 나머지 10^8/2개의 귀무검정량 우도비율 검정값을 대립검정량 우도비율 검정값으로 이용하였을 때 귀무가설이 거절된 비율을 그린 그래프이다. 유의 수준 0.1을 적용하였을 때는 10개 유전자 모두 귀무가설이 거절된 비율이 0.1에 가까운 것을 볼 수 있고 유의 수준 0.05를 적용하였을 때는 10개 유전자 모두 귀무가설이 거절된 비율이 0.05인 것으로 볼 수 있다. 즉, 다중변이 연관 분석 장치가 지정한 유의 수준만큼 귀무가설 하에 생성된 데이터를 거절하는(Type1 에러를 잘 조절하는) 것으로 볼 수 있다.Referring to FIG. 4 , the multivariate association study method of the present invention was applied to 10 randomly selected genes. Obtain 10^8 null test likelihood ratio test values through step S320, and test the critical likelihood ratio corresponding to significance levels of 0.1 and 0.05 using 10^8/2 null test likelihood ratio test values corresponding to half of them This is a graph depicting the ratio of the null hypothesis rejected when the values are calculated and the remaining 10^8/2 null test values are used as the alternative test values likelihood ratio test values. When a significance level of 0.1 is applied, it can be seen that the ratio of rejection of the null hypothesis for all 10 genes is close to 0.1, and when a significance level of 0.05 is applied, it can be seen that the ratio of rejection of the null hypothesis for all 10 genes is 0.05. That is, it can be seen that the multivariate association analysis device rejects the data generated under the null hypothesis as much as the significance level specified (controls the Type 1 error well).

도 5는 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치가 기존의 단일변이 분석방법보다 파워가 높아진 것을 보여주는 그래프이다. 5 is a graph showing that the multivariate association analysis apparatus according to an embodiment of the present invention has higher power than the existing single-variation analysis method.

도 5를 참조하면, 5가지의 서로 다른 연관불균형구조((LD1~LD5)에 대해 10^8개의 대립검정량을 이용하여 찾은 유전자 연관성의 정도(파워)에 관한 개선도를 확인할 수 있다. 다중변이 연관 분석 장치가 기존 방법보다 ~40%(0.4)만큼 파워가 높아짐으로 연관성을 더 찾은 것으로 볼 수 있다. 이때 대립검정량은 다변수정규분포로부터 도출하였고 평균이 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6 인 경우 각각의 경우를 구할 수 있다. 여기서 기존의 단순한 다중변이 연관분석 방법은 원인변이에 대한 분석없이 유전자를 구성하는 여러 개의 스닙의 연관성들을 각각 단일변이 연관연구를 수행해 계산한 후 그 최대값을 취하는 방법을 사용하였다.Referring to FIG. 5 , it is possible to confirm the degree of improvement in the degree (power) of gene association found using 10^8 allele test amounts for five different linkage disequilibrium structures ((LD1 to LD5). It can be seen that the mutation association analysis device found more correlation as the power increased by ~40% (0.4) than the existing method, where the alternative test amount was derived from the multivariate normal distribution and the mean was 2, 2.5, 3, 3.5, Each case can be obtained in the case of 4, 4.5, 5, 5.5, 6. Here, the existing simple multivariate association analysis method studies the association of several snips constituting a gene without analyzing the causal mutation, each of which is a single mutation association study. The method of taking the maximum value after performing the calculation was used.

도 6은 본 발명의 일 실시 예에 따른 다중변이 연관 분석 장치가 유전자 발현과 관련성이 있는 유전체를 기존방법보다 더 잘 찾아낸 그래프이다.6 is a graph in which the apparatus for analyzing multiple mutation associations according to an embodiment of the present invention finds genomes related to gene expression better than the conventional method.

더욱 상세히 설명하면, 도 6은 예를 들어50개의 유전자를 테스트하는 경우 유전자를 구성하는 스닙과 유전자의 발현율의 연관성의 정도를 본 발명인 다중변이 연관 분석 방법(그래프상에 MultiTest로 표기)과 기존의 단순한 다중변이 연관 분석(그래프에 univariate로 표기)을 수행하였을 때의 결과를 비교하여 나타낸 그래프이다. 도 6을 참조하면, y축은 연관성 정도를 나타내는 것으로 수치가 클수록 연관성이 높다. 여기서 수평 점선으로 threshold라고 나타낸 것은 유의수준의 임계 우도비율 검정값을 나타내는 것으로 이보다 연관성이 높으면 eGene, 즉 근접 스닙이 유전자의 발현율을 조절하는 발현변화 유전자라고 볼 수 있다. 본 발명을 이용하였을 때 기존의 다중변이 방법으로 찾지 못한 6개의 새로운 발현변화 유전자(그래프상

Figure 112019013641267-pat00007
로 표기)를 찾은 것을 볼 수 있다.In more detail, FIG. 6 shows, for example, the degree of association between the gene expression rate and the snip constituting the gene when testing 50 genes. The multivariate association analysis method of the present invention (represented as MultiTest on the graph) and the conventional This is a graph showing the comparison of the results when a simple multivariate association analysis (indicated as univariate on the graph) was performed. Referring to FIG. 6 , the y-axis indicates the degree of correlation, and the higher the number, the higher the correlation. Here, the horizontal dotted line indicates the threshold, which indicates the critical likelihood ratio test value of the significance level. If the correlation is higher than this, it can be considered that eGene, that is, proximity snip, is an expression change gene that controls the expression rate of genes. When using the present invention, six new expression change genes (on the graph) that were not found by the existing multiple mutation method
Figure 112019013641267-pat00007
) can be found.

본 발명을 이용하면 기존 방법보다 더 많은 수의 발현변화 유전자를 찾을 수 있다. Using the present invention, it is possible to find a larger number of expression-altering genes than in the existing method.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been looked at focusing on the embodiments thereof. Those of ordinary skill in the art to which the present invention pertains will understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered in an illustrative rather than a restrictive sense. The scope of the present invention is indicated in the claims rather than the foregoing description, and all differences within the scope equivalent thereto should be construed as being included in the present invention.

100: 다중변이 연관분석 장치
110: 연관 불균형 조사부
120: 귀무검정량 분포 생성부
130: 임계값 정의부
140: 대립검정량 계산부
150: 연관 판단부
100: multivariate association analysis device
110: linkage imbalance investigation unit
120: null test quantity distribution generating unit
130: threshold definition unit
140: alternative test amount calculation unit
150: association judgment unit

Claims (12)

유전변이와 유전자 발현율의 연관관계에 대한 유전체 연관연구에서 연관연구에서 N개의 스닙과 관심있는 특정 표현형 간의 N:1 연관성을 연구하는 다중변이 연관 분석 장치에 있어서,
분석하고자 하는 변이들 간의 연관 불균형을 조사하는 연관 불균형 조사부;
귀무가설의 귀무검정량 우도비율 분포를 생성하는 귀무검정량 분포 생성부;
임계 우도비율 검정값을 측정하는 임계값 정의부;
대립검정량의 우도비율 검정값을 계산하는 대립검정량 계산부; 및
스닙과 유전자의 연관성 여부를 판단하는 연관 판단부를 포함하되,
상기 연관 불균형 조사부는,
상기 스닙들의 상관 관계를 이용하여 N개의 스닙들 간의 상관 계수로 스닙들 간의 연관 불균형 구조를 계산하되,
상기 상관 계수는
상기 스닙들의 유사도로 하나의 스닙과 다른 하나의 스닙들이 얼마나 유사한지 계산한 값이고,
M명의 N개의 변이 서열에서 N*N 크기로 스닙들 간의 상관 행렬을 도출하여 연관 불균형 행렬을 구하고,
상기 귀무검정량 분포 생성부는,
상기 연관 불균형 조사부에서 구한 연관 불균형 구조인 상관행렬을 이용하여 귀무가설의 검정 통계량은 [수학식 1]을 이용해 산출하고,
상기 검정 통계량의 귀무검정량 우도비율 검정값을 [수학식 2]를 통해 계산하여 분포를 생성하고,
상기 임계값 정의부는,
귀무검정량 우도비율 분포로부터 유의 수준의 임계값을 도출하고,
상기 임계값은 귀무검정량 우도비율 검정값 중 유의수준 0.05에 해당하는 검정값이고,
상기 대립검정량 계산부는
유전자 발현율로부터 대립검정량의 우도비율 검정값을 계산하고,
상기 연관 판단부는,
임계 우도비율 검정값과 대립검정량의 우도비율 검정값을 비교하여 스닙과 유전자의 연관성 여부를 연관성을 판단하고,
정밀 매핑 기법을 도입하여 우도비율검정 방법을 접목시켜 원인변이를 모델링하 다중변이 연관 분석 장치.
[수학식 1]
Figure 112021501656921-pat00014

S: 검정 통계량
C: 원인변이 상태
Figure 112021501656921-pat00015
: 연관불균형 구조
Figure 112021501656921-pat00016
: 분석하는 변이들의 각자 원인변이 상태

[수학식 2]
Figure 112021501656921-pat00017

LRT(Likelihood Ratio Test) ; 우도비율 검정값
C: 스닙의 원인변이 상태를 나타내는 이진값
C0: C의 한 형태로 원인변이가 하나도 없는 상태
Figure 112021501656921-pat00018
: 가능한 C에서 C0를 제외한 경우의 집합(적어도 하나 이상의 원인변이가 존재하는 상태)
In the multivariate association analysis apparatus for studying the N:1 association between N snips and a specific phenotype of interest in the association study in the genomic association study on the association between genetic variation and gene expression rate,
Linkage disequilibrium investigation unit that investigates linkage disequilibrium between mutations to be analyzed;
a null test quantity distribution generating unit that generates a null test quantity likelihood ratio distribution of the null hypothesis;
a threshold value definition unit for measuring a threshold likelihood ratio test value;
an alternative test amount calculation unit for calculating a likelihood ratio test value of the alternative test amount; and
Including an association determination unit for determining whether the snip and the gene are related,
The linkage imbalance investigation unit,
Using the correlation of the snips to calculate the linkage disequilibrium structure between snips with the correlation coefficient between the N snips,
The correlation coefficient is
The similarity of the snips is a value calculated by how similar one snip and the other snip are,
Obtain a linkage disequilibrium matrix by deriving a correlation matrix between snips in N * N size from N variant sequences of M people,
The null test quantity distribution generating unit,
The test statistic of the null hypothesis is calculated using [Equation 1] using the correlation matrix, which is the linkage imbalance structure obtained by the linkage imbalance investigation unit,
A distribution is generated by calculating the test value of the likelihood ratio of the null test statistic of the test statistic through [Equation 2],
The threshold value definition unit,
Deriving the critical value of the significance level from the distribution of the likelihood ratio of the null test quantity,
The threshold value is a test value corresponding to the significance level of 0.05 among the test values of the likelihood ratio of the null test value,
The alternative test amount calculation unit
Calculate the likelihood ratio test value of the allele test amount from the gene expression rate,
The association determination unit,
By comparing the critical likelihood ratio test value and the likelihood ratio test value of the allele test amount, the association between snip and the gene is determined,
Fine mapping and modeling techniques by introducing a mutation caused by combining the likelihood ratio test how mutations associated with multiple analysis devices.
[Equation 1]
Figure 112021501656921-pat00014

S: test statistic
C: causal mutation state
Figure 112021501656921-pat00015
: Linkage Disequilibrium Structure
Figure 112021501656921-pat00016
: State of each causal mutation of the mutations to be analyzed

[Equation 2]
Figure 112021501656921-pat00017

Likelihood Ratio Test (LRT); Likelihood Ratio Test Value
C: Binary value representing the causal mutation state of Snip
C 0 : A form of C, in which there is no causal mutation.
Figure 112021501656921-pat00018
: A set of possible C except C 0 (at least one causal mutation exists)
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 유전변이와 유전자 발현율의 연관관계에 대한 유전체 연관연구에서 N개의 스닙과 관심있는 특정 표현형 간의 N:1 연관성을 연구하는 다중변이 연관 분석 장치가 다중변이 연관 분석 방법에 있어서,
분석하고자 하는 다중변이들 간의 연관 불균형을 조사하는 연관 불균형 조사 단계;
연관 불균형 행렬을 이용하여 귀무가설의 귀무검정량 우도비율 분포를 생성하는 귀무검정량 분포 생성 단계;
귀무검정량 우도비율 분포로부터 유의수준의 임계 우도비율 검정값을 측정하는 임계값 정의 단계;
대립검정량의 우도비율 검정값을 측정하는 대립검정량 계산 단계; 및
스닙과 유전자의 연관성 여부를 판단하는 연관 판단 단계를 포함하되,
상기 연관 불균형 조사 단계는,
상기 스닙들의 상관 관계를 이용하여 N개의 스닙들 간의 상관 계수로 스닙 간의 연관 불균형 구조를 계산하고,
상기 상관 계수는
상기 스닙들의 유사도로 하나의 스닙과 다른 하나의 스닙들이 얼마나 유사한지 계산한 값이고,
상기 귀무검정량 분포 생성 단계는,
상기 연관 불균형 조사 단계에서 구한 연관 불균형 구조인 상관 행렬을 이용해 귀무가설의 검정 통계량은 [수학식 1]을 이용해 산출하고,
상기 검정 통계량의 귀무검정량 우도비율 검정값을 [수학식 2]를 계산하여 분포를 생성하고,
상기 상관 행렬은
M명의 N개의 변이 서열에서 N*N 크기로 스닙들 간의 행렬을 도출하여 연관 불균형 행렬을 구하고,
상기 임계값 정의 단계는,
상기 귀무검정량 분포 생성 단계에서 구한 귀무검정량 우도비율 분포로부터 유의 수준의 임계값을 도출하고,
상기 대립검정량 계산 단계는,
유전자(gene) 발현율로부터 대립검정량의 우도비율 검정값을 계산하고,
상기 연관 판단 단계는,
상기 임계값 정의 단계에서 구한 임계 우도비율 검정값과 상기 대립검정량 계산 단계에서 구한 대립검정량의 우도비율 검정값을 비교하여 스닙과 유전자의 연관성 여부를 판단하고,
정밀 매핑 기법을 도입하여 우도비율검정 방법을 접목시켜 원인변이를 모델링하는 다중변이 연관 분석 방법.
[수학식 1]
Figure 112021501656921-pat00019

S: 검정 통계량
C: 원인변이 상태
Figure 112021501656921-pat00020
: 연관불균형 구조
Figure 112021501656921-pat00021
: 분석하는 변이들의 각자 원인변이 상태

[수학식 2]
Figure 112021501656921-pat00022

LRT(Likelihood Ratio Test) ; 우도비율 검정값
C: 스닙의 원인변이 상태를 나타내는 이진값
C0: C의 한 형태로 원인변이가 하나도 없는 상태
Figure 112021501656921-pat00023
: 가능한 C에서 C0를 제외한 경우의 집합(적어도 하나 이상의 원인변이가 존재하는 상태)
In the multivariate association analysis method, a multivariate association analysis apparatus for studying the N:1 association between N snips and a specific phenotype of interest in a genome association study on the association between genetic variation and gene expression rate,
Linkage disequilibrium investigation step of examining linkage disequilibrium between multiple mutations to be analyzed;
a null test quantity distribution generating step of generating a null test quantity likelihood ratio distribution of the null hypothesis using a linkage imbalance matrix;
a threshold definition step of measuring a critical likelihood ratio test value of the significance level from the likelihood ratio distribution of the null test quantity;
an alternative test amount calculation step of measuring the likelihood ratio test value of the alternative test amount; and
Including an association determination step of determining whether the snip and the gene are related,
The linkage imbalance investigation step is,
using the correlation of the snips to calculate the linkage imbalance structure between snips with the correlation coefficient between the N snips,
The correlation coefficient is
The similarity of the snips is a value calculated by how similar one snip and the other snip are,
The step of generating the null test quantity distribution comprises:
The test statistic of the null hypothesis is calculated using [Equation 1] using the correlation matrix, which is the linkage disequilibrium structure obtained in the linkage disequilibrium investigation step,
A distribution is generated by calculating [Equation 2] for the null test value likelihood ratio test value of the test statistic,
The correlation matrix is
Obtain a linkage disequilibrium matrix by deriving a matrix between snips in N * N size from N mutated sequences of M people,
The threshold definition step is,
Deriving the critical value of the significance level from the likelihood ratio distribution of the null test quantity obtained in the step of generating the null test quantity distribution,
The alternative test amount calculation step is,
Calculate the likelihood ratio test value of the allele test amount from the gene expression rate,
The association determination step is,
Comparing the critical likelihood ratio test value obtained in the threshold definition step and the likelihood ratio test value of the allele test amount obtained in the allele test amount calculation step to determine whether the snip and the gene are related,
A multivariate association analysis method that models causal variability by incorporating the likelihood ratio test method by introducing a precise mapping technique.
[Equation 1]
Figure 112021501656921-pat00019

S: test statistic
C: causal mutation state
Figure 112021501656921-pat00020
: Linkage Disequilibrium Structure
Figure 112021501656921-pat00021
: State of each causal mutation of the mutations analyzed

[Equation 2]
Figure 112021501656921-pat00022

Likelihood Ratio Test (LRT); Likelihood Ratio Test Value
C: Binary value representing the causal mutation state of Snip
C 0 : A form of C, in which there is no causal mutation.
Figure 112021501656921-pat00023
: A set of possible C except C 0 (at least one causal mutation exists)
제7항의 다중변이 연관 분석 방법을 실행하는 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.
A computer program recorded on a computer-readable recording medium for executing the method for analyzing the multivariate association of claim 7 .
삭제delete 삭제delete 삭제delete 삭제delete
KR1020190015152A 2019-02-08 2019-02-08 Apparatus and method for multitrait genome wide association KR102269208B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190015152A KR102269208B1 (en) 2019-02-08 2019-02-08 Apparatus and method for multitrait genome wide association

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190015152A KR102269208B1 (en) 2019-02-08 2019-02-08 Apparatus and method for multitrait genome wide association

Publications (2)

Publication Number Publication Date
KR20200097867A KR20200097867A (en) 2020-08-20
KR102269208B1 true KR102269208B1 (en) 2021-06-28

Family

ID=72292939

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190015152A KR102269208B1 (en) 2019-02-08 2019-02-08 Apparatus and method for multitrait genome wide association

Country Status (1)

Country Link
KR (1) KR102269208B1 (en)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Dale R Nyholt 외, Bioinformatics, 2006.10.12., Vol.22, Issue.23, pp2960-2961.
Emily L. Webb 외, Bioinformatics, 2005.04.19., Vol.21, Issue.13, pp3060-3061.
Hua Zhong 외, The American Journal of Human Genetics, 2010.04.09., Vol.86, Issue.4, pp581-591.*
Sun Ah Kim 외, Bioinformatics, 2017.09.29., Vol.34, Issue.3, pp388-397.

Also Published As

Publication number Publication date
KR20200097867A (en) 2020-08-20

Similar Documents

Publication Publication Date Title
Rice et al. Methods for handling multiple testing
JP2005531853A (en) System and method for SNP genotype clustering
CN108292327A (en) The method of detection copy number variation in next generation's sequencing
WO2019222757A1 (en) Inferring selection in white blood cell matched cell-free dna variants and/or in rna variants
CN110268072A (en) Determine the method and system of paralog gene
Weng et al. Effects of number of training generations on genomic prediction for various traits in a layer chicken population
Arnatkeviciute et al. Toward best practices for imaging transcriptomics of the human brain
CN113555062A (en) Data analysis system and analysis method for genome base variation detection
O’Brien et al. Inferring strain mixture within clinical Plasmodium falciparum isolates from genomic sequence data
CN107451422A (en) A kind of gene sequence data analysis and online interaction visualization method
Huang et al. Cause of gene tree discord? Distinguishing incomplete lineage sorting and lateral gene transfer in phylogenetics
KR102269208B1 (en) Apparatus and method for multitrait genome wide association
Narasimhan et al. A direct multi-generational estimate of the human mutation rate from autozygous segments seen in thousands of parentally related individuals
Karimnezhad et al. Incorporating prior knowledge about genetic variants into the analysis of genetic association data: An empirical Bayes approach
AU2022218581B2 (en) Sequencing data-based itd mutation ratio detecting apparatus and method
JP6564053B2 (en) A method for determining whether cells or cell groups are the same person, whether they are others, whether they are parents and children, or whether they are related
JP2023543719A (en) Detecting cross-contamination in sequencing data
US20200105374A1 (en) Mixture model for targeted sequencing
KR101853916B1 (en) Method for determining pathway-specificity of protein domains, and its appication for identifying disease genes
KR102441856B1 (en) Importance Sampling Strategy for Multivariate Association Study
Arnatkeviciute et al. Towards best practices for imaging transcriptomics
JP2005129024A (en) Algorithm for estimating and assaying relation between haplotype and quantitative expression type
JP6702686B2 (en) Phenotype estimation system and phenotype estimation program
Nguyen Quantifying Bias in Estimating Pairwise Genetic Relatedness in Structured Populations
Zhou et al. A Bayesian model averaging approach for observational gene expression studies

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant