KR102533694B1 - genomic data analysis accuracy improvement system through functional annotation and method therefor - Google Patents

genomic data analysis accuracy improvement system through functional annotation and method therefor Download PDF

Info

Publication number
KR102533694B1
KR102533694B1 KR1020230006519A KR20230006519A KR102533694B1 KR 102533694 B1 KR102533694 B1 KR 102533694B1 KR 1020230006519 A KR1020230006519 A KR 1020230006519A KR 20230006519 A KR20230006519 A KR 20230006519A KR 102533694 B1 KR102533694 B1 KR 102533694B1
Authority
KR
South Korea
Prior art keywords
snp
snps
list
annotation
disease
Prior art date
Application number
KR1020230006519A
Other languages
Korean (ko)
Inventor
김호
이솔
김정오
김정은
차지희
임현준
김지연
임지원
Original Assignee
주식회사 바스젠바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 바스젠바이오 filed Critical 주식회사 바스젠바이오
Priority to KR1020230006519A priority Critical patent/KR102533694B1/en
Application granted granted Critical
Publication of KR102533694B1 publication Critical patent/KR102533694B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

The present invention relates to a genomic data analysis accuracy improvement system through a functional annotation and a method therefor, which can select an independent SNP, lead SNP, and candidate SNP, not selecting a disease-causing SNP only based on a P value for each SNP, to use the SNPs and generate functional annotation information so as to use an AUC value of a polygenic danger score calculated for each of a plurality of combinations and then update the same to an SNP list. The present invention can select the independent SNP, lead SNP, and candidate SNP and use the same to generate functional annotation information, thereby using the AUC value of the polygenic danger score calculated for each of the plurality of combinations and then updating the same to the SNP list. Accordingly, by using this, the present invention can improve the accuracy when generating dangerous genetic mutation information.

Description

기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템 및 그 방법{genomic data analysis accuracy improvement system through functional annotation and method therefor}Genomic data analysis accuracy improvement system through functional annotation and method therefor}

본 발명은 코호트 데이터를 이용하여 질환 연관 유전자 변이 분석을 수행하고, 그 결과를 기반으로 질환 별 위험 유전자 변이 정보 생성함에 있어서 가장 중요한 지표인 질병 유발 SNP 리스트의 정확도를 높일 수 있는 유전체 데이터 분석 정확도 향상 기술에 의한 것으로 더욱 자세하게는 SNP별 P값을 기준으로만 질병 유발 SNP 선별하는 것이 아닌 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선별하고 이를 이용하여 기능지향적 주석정보를 생성함으로써, 복수의 조합별로 산출된 상기 다유전자 위험점수의 AUC값을 이용하여 질병 유발 SNP 리스트로 업데이트할 수 있는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템 및 그 방법에 대한 것이다.The present invention performs disease-related genetic mutation analysis using cohort data and improves the accuracy of genome data analysis that can increase the accuracy of the disease-causing SNP list, which is the most important index in generating risk gene mutation information for each disease based on the results. In more detail, rather than selecting disease-causing SNPs based only on the P value of each SNP, independent SNPs, lead SNPs, and candidate SNP lists are selected, and function-oriented annotation information is generated using them to calculate each combination. A system and method for improving the accuracy of genomic data analysis through function-oriented annotation that can be updated with a list of disease-causing SNPs using the AUC value of the multi-gene risk score.

바이오 마커란 단백질이나 DNA, RNA(리복핵산), 대사 물질 등을 이용해 몸 안의 변화에 영향을 미치는 유전자 변이 등의 지표를 의미하며, 이를 이용하여 생명체의 정상 또는 병리적인 상태, 약물에 대한 반응 정도 등을 객관적으로 측정할 수 있는 기술에 대한 중요도가 점차 증가하고 있다.Biomarkers refer to indicators such as genetic mutations that affect changes in the body using proteins, DNA, RNA (reebok nucleic acid), metabolites, etc. The importance of technology that can objectively measure the back is gradually increasing.

이에 따라 코호트 데이터 및 선행 문헌들을 대상으로 GWAS(Genome Wide Association Study) 분석, 인공 신경망 분석, 선행 문헌에 대한 메타 분석 중 적어도 하나 이상의 방법을 이용하여 분석을 수행함으로써 질환 별 질환 유발 SNP 리스트를 선정하고, 복수의 별 질환 유발 SNP 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하며, 분류된 복수의 그룹을 복수의 우선 순위 등급으로 나누어 등급별 유전자 변이 리스트에 포함된 각 유전자 변이 별로 질환별 유전자 변이 연관성 점수를 부여하고, 복수의 등급별 유전자 변이 리스트에 포함된 각 유전자 변이의 질환별 유전자 변이 연관성 점수를 기준으로 위험도 등급을 분류하여 위험 유전자 변이 정보를 제공하는 기술이 개발되었다Accordingly, an analysis is performed using at least one method of Genome Wide Association Study (GWAS) analysis, artificial neural network analysis, and meta-analysis of prior literature targeting cohort data and prior literature to select a list of disease-causing SNPs for each disease, Gene mutations included in a plurality of disease-causing SNP lists are classified into a plurality of groups, and the classified groups are divided into a plurality of priority levels, and each genetic mutation included in the genetic mutation list by grade is related to genetic mutations by disease. A technology has been developed to provide risk gene mutation information by assigning scores and classifying risk levels based on the genetic mutation association score for each disease of each genetic mutation included in the list of genetic mutations by multiple grades.

[대한민국 공개번호 제10-2021-0118615호 "질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법"][Republic of Korea Publication No. 10-2021-0118615 "Apparatus and Method for Generating Risk Gene Variation Information by Disease through Analysis of Disease-Related Gene Variation"]

그러나 종래 기술에 있어서는 위험 유전자 변이 정보를 생성하는데 가장 큰 지표가 되는 질환 유발 SNP 리스트를 선정함에 있어서 SNP별 P-값을 기준으로만 선정하였기 때문에 그 정확도를 일정 수준이상 향상 시키는 것에 어려움이 존재하였으며, 이에 따라 더 높은 질환 예측력을 가지는 질환 유발 SNP 리스트를 생성하는 기술에 대한 필요성이 점차 대두되고 있다.However, in the prior art, in selecting the disease-causing SNP list, which is the largest indicator for generating risk gene mutation information, it was selected only based on the P-value for each SNP, so there was difficulty in improving the accuracy to a certain level or more. , Accordingly, the need for a technology for generating a disease-causing SNP list with higher disease predictive power is gradually emerging.

본 발명은 위험 유전자 변이 정보를 생성하는데 그 정확도를 일정 수준이상 향상 시킬 수 있도록 질환 유발 SNP 리스트를 지속적으로 업데이트 할 수 있는 기술에 대한 것으로 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선별하고 이를 이용하여 기능지향적 주석정보를 생성함으로써, 복수의 조합별로 산출된 상기 다유전자 위험점수의 AUC값을 이용하여 질병 유발 SNP 리스트로 업데이트할 수 있는 기능을 제공하는 것에 그 목적이 있다.The present invention relates to a technology capable of continuously updating a list of disease-causing SNPs to generate risk gene mutation information and to improve its accuracy to a certain level or higher. An object of the present invention is to provide a function capable of updating a list of disease-causing SNPs by using the AUC value of the polygene risk score calculated for each combination by generating function-oriented annotation information.

본 발명의 일 실시예에 따르면 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템은 유전체 데이터 분석을 통해 특정 질병과 관련성이 있는 것으로 선별된 복수의 SNP에 대한 리스트를 질병 유발 SNP 리스트로 선정하는 질병 유발 SNP 리스트 선정부; 상기 질병 유발 SNP 리스트에 포함된 SNP들의 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하고, 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 생성된 복수의 조합을 대상으로 주석 점수 기준으로 연관성 가중치를 산출하며, 상기 각 조합별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하여 각 조합별 기능지향적 주석정보를 생성하는 기능지향적 주석 정보 생성부; 및 상기 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 상기 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트하는 질병 유발 SNP 리스트 업데이트부를 포함할 수 있다.According to one embodiment of the present invention, the genome data analysis accuracy improvement system through function-oriented annotation selects a list of a plurality of SNPs selected as related to a specific disease through genome data analysis as a disease-causing SNP list. SNP list selection unit; Based on the correlation index of the SNPs included in the disease-causing SNP list, SNPs included in the disease-causing SNP list are filtered to select independent SNPs, lead SNPs, and candidate SNP lists, and the selected independent SNPs, lead SNPs, and candidate SNPs are selected. For a plurality of combinations generated using the list, the association weight is calculated based on the annotation score, and the multigene risk score is obtained using the association weight for each combination and the number of risk alleles of the SNP included in the SNP list of each combination. a function-oriented annotation information generation unit for generating function-oriented annotation information for each combination by calculating and a disease-causing SNP list for updating the SNP list included in the combination with the highest AUC value by calculating the AUC value of the polygene risk score calculated for each of a plurality of combinations included in the function-oriented annotation information to the disease-causing SNP list. An update unit may be included.

본 발명의 일 실시예에 따르면 상기 질병 유발 SNP 리스트 선정부는, 상기 질병 유발 SNP 리스트로 선정된 SNP의 유전체 데이터 분석 결과 도출된 P-값에 대한 정보를 질병 유발 SNP 리스트에 포함할 수 있다.According to an embodiment of the present invention, the disease-causing SNP list selection unit may include information on a P-value derived as a result of genome data analysis of an SNP selected as the disease-causing SNP list in the disease-causing SNP list.

본 발명의 일 실시예에 따르면 상기 기능지향적 주석 정보 생성부는, 상기 질병 유발 SNP 리스트에 포함된 SNP들의 P-값 및 상기 P-값에 따른 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하는 SNP 필터링부; 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트별로 리스트에 포함된 SNP에 대해 외부 데이터 베이스로부터 SNP 관련 데이터를 수신 받고, 상기 SNP 관련 데이터를 인공 신경망 기반의 주석점수 산출 모델에 입력하여 SNP 별로 미리 설정된 방법에 따라 주석 점수를 산출하는 주석점수 산출부; 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 복수의 SNP 조합을 생성하고 상기 각 SNP 조합별로 상기 SNP 별 주석 점수에 상기 주석 점수의 산출의 기준이 된 외부 데이터베이스의 종류에 따라 가중치를 적용하여 각 SNP별 연관성 가중치를 산출하는 연관성 가중치 산출부; 상기 각 SNP별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하는 다유전자 위험점수 산출부를 더 포함할 수 있다.According to an embodiment of the present invention, the function-oriented annotation information generator generates SNPs included in the disease-causing SNP list based on P-values of SNPs included in the disease-causing SNP list and a correlation index according to the P-value. an SNP filtering unit that selects independent SNPs, lead SNPs, and candidate SNP lists by filtering; For each SNP included in the list of selected independent SNPs, lead SNPs, and candidate SNPs, SNP-related data is received from an external database, and the SNP-related data is input into an artificial neural network-based annotation score calculation model in advance for each SNP. An annotation score calculation unit for calculating an annotation score according to a set method; A plurality of SNP combinations are generated using the list of independent SNPs, lead SNPs, and candidate SNPs, and a weight is applied to the annotation score for each SNP for each SNP combination according to the type of external database used as the basis for calculating the annotation score an association weight calculation unit that calculates an association weight for each SNP; The method may further include a multi-gene risk score calculation unit that calculates a multi-gene risk score using the association weight for each SNP and the number of risk alleles of the SNP included in the SNP list of each combination.

본 발명의 일 실시예에 따르면 상기 SNP 필터링부는, 상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값을 기준으로 각 SNP별 P-값을 기반으로 연관불균형(linkage disequilibrium, LD) 프록시를 통해 산출된 LD값을 상관지수(

Figure 112023006086357-pat00001
)로 산출할 수 있다.According to an embodiment of the present invention, the SNP filtering unit, based on the P-value for each SNP included in the disease-causing SNP list, through a linkage disequilibrium (LD) proxy The calculated LD value is the correlation index (
Figure 112023006086357-pat00001
) can be calculated.

본 발명의 일 실시예에 따르면 상기 SNP 필터링부는, 상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 상관지수가 제1 임계 값 이하인 SNP를 독립 SNP로 선정하여 필터링을 수행하는 독립 SNP 선정부를 더 포함할 수 있다.According to an embodiment of the present invention, the SNP filtering unit, when the P-value for each SNP included in the disease-causing SNP list is a value obtained by GWAS analysis of genome data, uses the P-value for each SNP to determine linkage disequilibrium. It may further include an independent SNP selection unit that performs filtering by selecting an SNP having a correlation index calculated through the first threshold value or less as an independent SNP.

본 발명의 일 실시예에 따르면 상기 SNP 필터링부는, 상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 상기 독립 SNP로 선정된 SNP 중에서 다른 독립 SNP와의 상관지수가 제2 임계값 이하인 SNP를 리드 SNP로 선정하여 필터링을 수행 하는 리드 SNP 선정부를 더 포함할 수 있다.According to an embodiment of the present invention, the SNP filtering unit, when the P-value for each SNP included in the disease-causing SNP list is a value obtained by GWAS analysis of genome data, other independent SNPs among the SNPs selected as the independent SNPs The method may further include a lead SNP selector selecting an SNP having a correlation index of less than or equal to a second threshold value as a lead SNP and performing filtering.

본 발명의 일 실시예에 따르면 상기 SNP 필터링부는, 상기 질병 유발 SNP 리스트에 포함된 SNP 중에서 상기 독립 SNP로 선정된 SNP와 상관지수가 제3 임계값 이상인 SNP를 후보 SNP로 선정하여 필터링을 하는 후보 SNP 선정부를 더 포함할 수 있다.According to an embodiment of the present invention, the SNP filtering unit selects a SNP selected as the independent SNP and a SNP whose correlation index is equal to or greater than a third threshold among the SNPs included in the disease-causing SNP list as candidate SNPs and performs filtering thereon. A SNP selection unit may be further included.

본 발명의 일 실시예에 따르면 상기 다유전자 위험점수 산출부는, 상기 각 조합에 포함된 P개의 SNP에 대하여 각 SNP의 위험 대립유전자의 수에 상기 각 조합의 연관성 가중치를 적용해 계산한 가중합을 각 조합의 다유전자 위험점수로 산출할 수 있다.According to an embodiment of the present invention, the polygenic risk score calculation unit calculates a weighted sum calculated by applying the association weight of each combination to the number of risk alleles of each SNP for P SNPs included in each combination It can be calculated as a polygenic risk score for each combination.

본 발명의 일 실시예에 따르면 상기 다유전자 위험점수 산출부는, 산출된 각 조합의 다유전자 위험점수를 각 조합에 대한 주석으로 기록되는 기능 지향적 주석을 생성할 수 있다.According to an embodiment of the present invention, the multi-gene risk score calculation unit may generate a function-oriented annotation in which the calculated multi-gene risk score of each combination is recorded as an annotation for each combination.

본 발명의 일 실시예에 따르면 상기 질병 유발 SNP 리스트 업데이트부는, 상기 복수의 조합별로 산출된 상기 다유전자 위험점수를 이용하여 ROC 커브를 생성할 수 있으며, 상기 ROC 커브의 AUC 값을 산출할 수 있다.According to an embodiment of the present invention, the disease-causing SNP list updating unit may generate an ROC curve using the polygenic risk score calculated for each of the plurality of combinations, and may calculate an AUC value of the ROC curve. .

본 발명의 일 실시예에 따르면 상기 주석점수 산출부는, 외부 데이터 베이스로부터 수신한 질병 유발 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 대상으로 전체 대립유전자 중에서 특정한 대립 유전자를 가지는 염색체의 비율을 산출하고, 이중 더 적은 비율을 가지는 대립유전자의 염색체 비율이 1% 이상인 경우 유의미한 SNP로 식별하여 학습 데이터를 생성하고, 주석점수 산출 모델에 생성된 상기 학습 데이터를 입력하여 SNP 관련 데이터를 입력 받으면 주석 점수를 산출하도록 학습하는 주석점수 산출 모델 학습부를 더 포함할 수 있다.According to an embodiment of the present invention, the annotation score calculation unit calculates the ratio of chromosomes having a specific allele among all alleles for SNP-related data of SNPs included in the list of disease-causing SNPs received from an external database, , If the chromosomal ratio of the allele with a smaller ratio is 1% or more, it is identified as a significant SNP to generate learning data, and inputs the generated training data to the annotation score calculation model to obtain annotation scores when SNP-related data is input. An annotation score calculation model learning unit that learns to calculate may be further included.

본 발명의 일 실시예에 따르면 상기 주석점수 산출부는, 외부 데이터 베이스로부터 수신한 상기 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출 받는 주석점수 산출 모델 수행부를 더 포함할 수 있다.According to an embodiment of the present invention, the annotation score calculation unit inputs SNP-related data of SNPs included in the selected independent SNP, lead SNP, and candidate SNP lists received from an external database into an annotation score calculation model, and inputs each of them into an annotation score calculation model. An annotation score calculation model execution unit for calculating annotation scores for each SNP may be further included.

본 발명의 일 실시예에 따르면 상기 연관성 가중치 산출부는, 상기 각 SNP 조합별로 상기 SNP 별 주석 점수에 상기 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행하여 연관성 가중치를 산출할 수 있다.According to an embodiment of the present invention, the relevance weight calculation unit may calculate an relevance weight by performing scaling on a value calculated by applying a weight according to the type of the external database to the annotation score for each SNP for each SNP combination. there is.

본 발명의 일 실시예에 따르면 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법은 유전체 데이터 분석을 통해 특정 질병과 관련성이 있는 것으로 선별된 복수의 SNP에 대한 리스트를 질병 유발 SNP 리스트로 선정하는 단계; 상기 질병 유발 SNP 리스트에 포함된 SNP들의 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하고, 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 생성된 복수의 조합을 대상으로 주석 점수 기준으로 연관성 가중치를 산출하며, 상기 각 조합별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하여 각 조합별 기능지향적 주석정보를 생성하는 단계; 및 상기 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 상기 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트하는 단계를 포함할 수 있다.According to an embodiment of the present invention, a method for improving the accuracy of genome data analysis through function-oriented annotation includes selecting a list of a plurality of SNPs selected to be related to a specific disease through genome data analysis as a disease-causing SNP list; Based on the correlation index of the SNPs included in the disease-causing SNP list, SNPs included in the disease-causing SNP list are filtered to select independent SNPs, lead SNPs, and candidate SNP lists, and the selected independent SNPs, lead SNPs, and candidate SNPs are selected. For a plurality of combinations generated using the list, the association weight is calculated based on the annotation score, and the multigene risk score is obtained using the association weight for each combination and the number of risk alleles of the SNP included in the SNP list of each combination. Calculating as , generating function-oriented annotation information for each combination; and calculating an AUC value of the polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information and updating the SNP list included in the combination showing the highest AUC value to a disease-causing SNP list. can

본 발명의 일 실시예에 따르면 상기 질병 유발 SNP 리스트로 선정하는 단계는, 상기 질병 유발 SNP 리스트로 선정된 SNP의 유전체 데이터 분석 결과 도출된 P-값에 대한 정보를 질병 유발 SNP 리스트에 포함할 수 있다.According to an embodiment of the present invention, in the step of selecting the list of disease-causing SNPs, information on the P-value derived as a result of analyzing genome data of the SNP selected as the list of disease-causing SNPs may be included in the list of disease-causing SNPs. there is.

본 발명의 일 실시예에 따르면 상기 질병 유발 SNP 리스트로 선정하는 단계는, 상기 질병 유발 SNP 리스트에 포함된 SNP들의 P-값 및 상기 P-값에 따른 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하는 SNP 필터링 단계; 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트별로 리스트에 포함된 SNP에 대해 외부 데이터 베이스로부터 SNP 관련 데이터를 수신 받고, 상기 SNP 관련 데이터를 인공 신경망 기반의 주석점수 산출 모델에 입력하여 SNP 별로 미리 설정된 방법에 따라 주석 점수를 산출하는 단계; 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 복수의 SNP 조합을 생성하고 상기 각 SNP 조합별로 상기 SNP 별 주석 점수에 상기 주석 점수의 산출의 기준이 된 외부 데이터베이스의 종류에 따라 가중치를 적용하여 각 SNP별 연관성 가중치를 산출하는 단계; 상기 각 SNP별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하는 단계를 더 포함할 수 있다.According to an embodiment of the present invention, the step of selecting the disease-causing SNP list is included in the disease-causing SNP list based on the P-values of SNPs included in the disease-causing SNP list and the correlation index according to the P-value. SNP filtering step of selecting independent SNPs, lead SNPs, and candidate SNP lists by filtering the identified SNPs; For each SNP included in the list of selected independent SNPs, lead SNPs, and candidate SNPs, SNP-related data is received from an external database, and the SNP-related data is input into an artificial neural network-based annotation score calculation model in advance for each SNP. Calculating annotation scores according to a set method; A plurality of SNP combinations are generated using the list of independent SNPs, lead SNPs, and candidate SNPs, and a weight is applied to the annotation score for each SNP for each SNP combination according to the type of external database used as the basis for calculating the annotation score Calculating an association weight for each SNP; The method may further include calculating a polygenic risk score using the association weight for each SNP and the number of risk alleles of the SNP included in the SNP list of each combination.

본 발명의 일 실시예에 따르면 상기 SNP 필터링 단계는, 상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값을 기준으로 각 SNP별 P-값을 기반으로 연관불균형(linkage disequilibrium, LD) 프록시를 통해 산출된 LD값을 상관지수(

Figure 112023006086357-pat00002
)로 산출할 수 있다.According to an embodiment of the present invention, in the SNP filtering step, based on the P-value for each SNP included in the disease-causing SNP list, a linkage disequilibrium (LD) proxy is selected. The LD value calculated through the correlation index (
Figure 112023006086357-pat00002
) can be calculated.

본 발명의 일 실시예에 따르면 상기 SNP 필터링 단계는, 상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 상관지수가 제1 임계 값 이하인 SNP를 독립 SNP로 선정하여 필터링을 수행하는 단계를 더 포함할 수 있다.According to an embodiment of the present invention, the SNP filtering step is performed by using the P-value for each SNP when the P-value for each SNP included in the disease-causing SNP list is a value obtained by GWAS analysis of genome data. The method may further include performing filtering by selecting SNPs whose correlation index calculated through imbalance is less than or equal to a first threshold value as independent SNPs.

본 발명의 일 실시예에 따르면 상기 SNP 필터링 단계는, 상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 상기 독립 SNP로 선정된 SNP 중에서 다른 독립 SNP와의 상관지수가 제2 임계값 이하인 SNP를 리드 SNP로 선정하여 필터링을 수행 하는 단계를 더 포함할 수 있다.According to an embodiment of the present invention, in the SNP filtering step, when the P-value for each SNP included in the disease-causing SNP list is a value obtained by GWAS analysis of genome data, other independent SNPs selected as the independent SNPs The method may further include performing filtering by selecting an SNP whose correlation index with the SNP is equal to or less than a second threshold as a lead SNP.

본 발명의 일 실시예에 따르면 상기 상기 SNP 필터링 단계는, 상기 질병 유발 SNP 리스트에 포함된 SNP 중에서 상기 독립 SNP로 선정된 SNP와 상관지수가 제3 임계값 이상인 SNP를 후보 SNP로 선정하여 필터링을 하는 단계를 더 포함할 수 있다.According to an embodiment of the present invention, in the SNP filtering step, among the SNPs included in the disease-causing SNP list, a SNP selected as the independent SNP and a correlation index greater than or equal to a third threshold is selected as a candidate SNP and filtering is performed. It may further include steps to do.

본 발명의 일 실시예에 따르면 상기 다유전자 위험점수로 산출하는 단계는,상기 각 조합에 포함된 P개의 SNP에 대하여 각 SNP의 위험 대립유전자의 수에 상기 각 조합의 연관성 가중치를 적용해 계산한 가중합을 각 조합의 다유전자 위험점수로 산출할 수 있다.According to an embodiment of the present invention, the step of calculating the multigene risk score is calculated by applying the association weight of each combination to the number of risk alleles of each SNP for P SNPs included in each combination. A weighted sum can be calculated as the polygenic risk score for each combination.

본 발명의 일 실시예에 따르면 상기 다유전자 위험점수로 산출하는 단계는,산출된 각 조합의 다유전자 위험점수를 각 조합에 대한 주석으로 기록되는 기능 지향적 주석을 생성할 수 있다.According to an embodiment of the present invention, the step of calculating the polygene risk score may generate a function-oriented annotation in which the calculated polygene risk score of each combination is recorded as an annotation for each combination.

본 발명의 일 실시예에 따르면 상기 질병 유발 SNP 리스트로 선정하는 단계는, 상기 복수의 조합별로 산출된 상기 다유전자 위험점수를 이용하여 ROC 커브를 생성할 수 있으며, 상기 ROC 커브의 AUC 값을 산출할 수 있다.According to an embodiment of the present invention, in the step of selecting the list of disease-causing SNPs, an ROC curve may be generated using the polygenic risk score calculated for each of the plurality of combinations, and an AUC value of the ROC curve is calculated. can do.

본 발명의 일 실시예에 따르면 상기 주석 점수를 산출하는 단계는, 외부 데이터 베이스로부터 수신한 질병 유발 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 대상으로 전체 대립유전자 중에서 특정한 대립 유전자를 가지는 염색체의 비율을 산출하고, 이중 더 적은 비율을 가지는 대립유전자의 염색체 비율이 1% 이상인 경우 유의미한 SNP로 식별하여 학습 데이터를 생성하고, 주석점수 산출 모델에 생성된 상기 학습 데이터를 입력하여 SNP 관련 데이터를 입력 받으면 주석 점수를 산출하도록 학습하는 단계를 더 포함할 수 있다.According to an embodiment of the present invention, the step of calculating the annotation score may include the ratio of chromosomes having a specific allele among all alleles in SNP-related data of SNPs included in the list of disease-causing SNPs received from an external database. Calculate, and if the chromosomal ratio of the allele having a smaller ratio is 1% or more, it is identified as a significant SNP to generate learning data, and input the generated training data to the annotation score calculation model to receive SNP-related data. A step of learning to calculate an annotation score may be further included.

본 발명의 일 실시예에 따르면 상기 주석 점수를 산출하는 단계는, 외부 데이터 베이스로부터 수신한 상기 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출 받는 단계를 더 포함할 수 있다.According to an embodiment of the present invention, in the step of calculating the annotation score, SNP-related data of SNPs included in the selected list of independent SNPs, lead SNPs, and candidate SNPs received from an external database are converted to an annotation score calculation model. A step of calculating an annotation score for each SNP may be further included.

본 발명의 일 실시예에 따르면 있어서 상기 NP별 연관성 가중치를 산출하는 단계는, 상기 각 SNP 조합별로 상기 SNP 별 주석 점수에 상기 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행하여 연관성 가중치를 산출할 수 있다.According to an embodiment of the present invention, in the step of calculating the association weight for each NP, the value calculated by applying a weight according to the type of the external database to the annotation score for each SNP for each SNP combination is scaled, Association weights can be calculated.

본 발명의 실시예에 따라 구현된 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템에 의하면 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선별하고 이를 이용하여 기능지향적 주석정보를 생성함으로써, 복수의 조합별로 산출된 상기 다유전자 위험점수의 AUC값을 이용하여 질병 유발 SNP 리스트로 업데이트할 수 있는 기능을 제공하고 이를 이용하여 위험 유전자 변이 정보를 생성할 때 그 정확도를 향상 시킬 수 있다.According to the genome data analysis accuracy improvement system through function-oriented annotation implemented according to an embodiment of the present invention, a list of independent SNPs, lead SNPs, and candidate SNPs is selected and function-oriented annotation information is generated using the list, thereby calculating each combination. A function that can be updated to a disease-causing SNP list using the AUC value of the multi-gene risk score is provided, and when generating risk gene mutation information using this function, the accuracy can be improved.

도 1은 본 발명에 실시예에 따른 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템의 구성도이다.
도 2는 도 1에 개시된 기능 지향적 주석 정보 생성부의 세부 구성도이다.
도 3은 도 2에 개시된 SNP 필터링부의 세부 구성도이다.
도 4는 도 2에 개시된 주석점수 산출부의 세부 구성도이다.
도 5는 본 발명의 일 실시예에 따른 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법의 흐름도이다.
1 is a block diagram of a system for improving the accuracy of genome data analysis through function-oriented annotation according to an embodiment of the present invention.
FIG. 2 is a detailed configuration diagram of a function-oriented annotation information generation unit disclosed in FIG. 1 .
FIG. 3 is a detailed configuration diagram of the SNP filtering unit shown in FIG. 2 .
4 is a detailed configuration diagram of the annotation score calculator disclosed in FIG. 2 .
5 is a flowchart of a method for improving the accuracy of genome data analysis through function-oriented annotation according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily carry out the present invention. However, the present invention may be implemented in many different forms and is not limited to the embodiments described herein.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. Terms used in the present invention are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly dictates otherwise.

본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.In the present invention, terms such as "comprise" or "having" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the present invention, they should not be interpreted in an ideal or excessively formal meaning. don't

또한 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. It will also be understood that combinations of each block of the drawings and flowchart drawings can be performed by computer program instructions, and these computer program instructions can be loaded into a processor of a general-purpose computer, special-purpose computer, or other programmable data processing equipment. Thus, those instructions executed by a processor of a computer or other programmable data processing equipment create means for performing the functions described in the flowchart block(s).

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.These computer program instructions may also be stored in a computer usable or computer readable memory that can be directed to a computer or other programmable data processing equipment to implement functionality in a particular way, such that the computer usable or computer readable memory The instructions stored in are also capable of producing an article of manufacture containing instruction means that perform the functions described in the flowchart block(s).

컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.The computer program instructions can also be loaded on a computer or other programmable data processing equipment, so that a series of operational steps are performed on the computer or other programmable data processing equipment to create a computer-executed process to generate computer or other programmable data processing equipment. Instructions for performing processing equipment may also provide steps for performing the functions described in the flowchart block(s).

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. Additionally, each block may represent a module, segment, or portion of code that includes one or more executable instructions for executing specified logical function(s).

그리고 몇 가지 대체 실시예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.And it should be noted that in some alternative embodiments it is also possible for the functions mentioned in the blocks to occur out of order. For example, two blocks shown in succession may in fact be executed substantially concurrently, or the blocks may sometimes be executed in reverse order depending on their function.

이 때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. At this time, the term '~unit' used in this embodiment means software or a hardware component such as a field-programmable gate array (FPGA) or application specific integrated circuit (ASIC), and what role does '~unit' have? perform them

그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.However, '~ part' is not limited to software or hardware. '~bu' may be configured to be in an addressable storage medium and may be configured to reproduce one or more processors.

따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.Therefore, as an example, '~unit' refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, and procedures. , subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. Functions provided within components and '~units' may be combined into smaller numbers of components and '~units' or further separated into additional components and '~units'. In addition, components and '~units' may be implemented to play one or more CPUs in a device or a secure multimedia card.

본 발명의 실시예들을 구체적으로 설명함에 있어서, 특정 시스템의 예를 주된 대상으로 할 것이지만, 본 명세서에서 청구하고자 하는 주요한 요지는 유사한 기술적 배경을 가지는 여타의 통신 시스템 및 서비스에도 본 명세서에 개시된 범위를 크게 벗어나지 아니하는 범위에서 적용 가능하며, 이는 당해 기술분야에서 숙련된 기술적 지식을 가진 자의 판단으로 가능할 것이다.In describing the embodiments of the present invention in detail, an example of a specific system will be the main target, but the main subject matter to be claimed in this specification extends the scope disclosed herein to other communication systems and services having a similar technical background. It can be applied within a range that does not deviate greatly, and this will be possible with the judgment of those skilled in the art.

이하, 도면을 참조하여 본 발명의 실시 예에 따른 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템 및 그 방법에 대하여 설명한다.Hereinafter, a genome data analysis accuracy improvement system and method through function-oriented annotation according to an embodiment of the present invention will be described with reference to the drawings.

도 1은 본 발명의 실시예에 따른 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템의 구성도이다.1 is a block diagram of a system for improving the accuracy of genome data analysis through function-oriented annotation according to an embodiment of the present invention.

도 1을 참조하면 본 발명의 일 실시예에 따르면 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템(1000)은 질병 유발 SNP 리스트 선정부(100), 기능 지향적 주석 정보 생성부(200), 질병 유발 SNP 리스트 업데이트부(300)를 포함할 수 있다.Referring to FIG. 1, according to an embodiment of the present invention, a genome data analysis accuracy improvement system 1000 through function-oriented annotation includes a disease-causing SNP list selection unit 100, a function-oriented annotation information generation unit 200, and a disease-inducing SNP list selection unit 100. SNP list update unit 300 may be included.

질병 유발 SNP 리스트 선정부(100)는 유전체 데이터 분석을 통해 특정 질병과 관련성이 있는 것으로 선별된 복수의 SNP에 대한 리스트를 질병 유발 SNP 리스트로 선정할 수 있다.The disease-causing SNP list selection unit 100 may select a list of a plurality of SNPs selected to be related to a specific disease through genome data analysis as the disease-causing SNP list.

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트는 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 통해 특정 질환을 유발할 원인이라고 판별된 SNP를 리스트 형식으로 묶어 생성한 리스트를 의미할 수 있다.According to an embodiment of the present invention, the disease-causing SNP list may refer to a list generated by grouping SNPs determined to be causes of a specific disease through at least one of GWAS analysis, AI analysis, and meta-analysis in a list form. .

본 발명의 일 실시예에 따르면 다수의 인원 대한 유전체 데이터를 GWAS 분석을 통해 타겟 질환을 대상으로 전장 유전체 연관분석을 수행하고, 수행의 결과로 유전자 변이 별로 산출된 P값을 미리 설정된 임계치와 대비하여, 임계치 이하인 복수의 유전자 변이를 질병 유발 SNP로 선별할 수 있다.According to an embodiment of the present invention, whole genome association analysis is performed on target diseases through GWAS analysis of genomic data for a large number of people, and as a result of the execution, the P value calculated for each genetic mutation is compared with a preset threshold , multiple genetic mutations below the critical value can be selected as disease-causing SNPs.

본 발명의 일 실시예에 따르면 전장 유전체 연관분석을 수행 결과 유전자 변이 별로 산출된 P값을 이용해 유전자 변이를 질병 유발 SNP로 선별하는 방법으로 맨하튼 플롯(manhattan plot)을 이용할 수 있다.According to one embodiment of the present invention, a Manhattan plot can be used as a method of selecting genetic mutations as disease-causing SNPs using the P value calculated for each genetic mutation as a result of whole genome association analysis.

본 발명의 일 실시예에 따르면 GWAS 분석을 통해 전장 유전체 연관분석을 수행하여 복수의 필드 값들을 항목으로 하는 데이터 테이블 형태의 결과 데이터를 생성할 수 있으며, 여기에는 염색체 ID, SNP ID 이때 유전자 변이 별로 산출된 P값이 포함될 수 있다.According to an embodiment of the present invention, genome-wide association analysis can be performed through GWAS analysis to generate result data in the form of a data table with a plurality of field values as items, including chromosome ID and SNP ID. A calculated P value may be included.

본 발명의 일 실시예에 따르면 AI분석을 통해 인공 신경망 기반의 질환 유발 인자 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터를 입력하여 유전자 변이별 중요도 점수(Importance score)를 출력하고, 출력된 유전자 변이별 중요도 점수 중 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질병 유발 SNP로 선별할 수 있다.According to an embodiment of the present invention, genomic data for a large number of persons labeled with diseases is input into an artificial neural network-based disease-causing factor prediction model through AI analysis, and an importance score for each genetic mutation is output, and the output is output. A plurality of gene mutations having an importance score exceeding a predetermined score among the importance scores for each genetic mutation that have been identified may be selected as disease-causing SNPs.

본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델은 입력값과 출력값 사이의 인과관계를 파악하기 어려운 블랙박스 문제를 해결하기 위하여 복수의 유전자 변이를 질병 유발 SNP를 선별하기 위하여 머신러닝 중 트리(tree-based) 계열의 알고리즘을 이용하며, XAI(Explainable AI) 기법을 통해 유전자 변이별 중요도 점수(Importance score)를 구하는 방법을 이용할 수 있다.According to an embodiment of the present invention, the artificial neural network-based disease-causing factor prediction model is a machine to select disease-causing SNPs by combining multiple genetic mutations in order to solve the black box problem in which it is difficult to understand the causal relationship between input and output values. A tree-based algorithm is used during running, and a method of obtaining an importance score for each genetic mutation through an XAI (Explainable AI) technique can be used.

본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델은 다수의 인원에 대한 유전체 데이터에 포함된 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 입력 받아 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 출력하도록 학습될 수 있다.According to an embodiment of the present invention, an artificial neural network-based disease-causing factor prediction model receives genetic mutation identification codes, covariate information, and target disease information included in genome data for a plurality of individuals, and identifies genetic mutations for target diseases. It can be learned to output an importance score.

본 발명의 일 실시예에 따르면 메타 분석은 타겟 질환을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 메타 분석 모델에 입력하여 복수의 선행 문헌별로 유전자 변이의 주제에 부합하는 효과 크기를 산출하고, 산출한 효과 크기의 분산의 역수를 각 선행 문헌의 효과 크기에 가중치로 적용하여 각 유전자 변이 별로 타겟 질환 영향력 점수를 측정하여, 각 유전자 변이별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질병 유발 SNP로 선별할 수 있다.According to an embodiment of the present invention, the meta-analysis is performed by inputting a plurality of prior literature contributed to the subject of the effect of genetic mutation on a target disease into a meta-analysis model, and the effect corresponding to the subject of genetic variation for each of the plurality of prior literature The size is calculated, and the reciprocal of the variance of the calculated effect size is applied as a weight to the effect size of each prior literature to measure the target disease impact score for each genetic variant, and a plurality of Genetic mutations can be selected as disease-causing SNPs.

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트 선정부(100)는 기능 지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, the disease-causing SNP list selection unit 100 calculates the AUC value of the polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information, and includes it in the combination showing the highest AUC value. The SNP list can be updated with a list of disease-causing SNPs.

본 발명의 일 실시예에 따르면 기능 지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수의 AUC값을 산출하여 AUC값이 0.7 이상인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, the AUC value of the polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information is calculated, and the SNP list included in the combination having an AUC value of 0.7 or more is updated to the disease-causing SNP list. can

기능 지향적 주석 정보 생성부(200)는 질병 유발 SNP 리스트에 포함된 SNP들의 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하고, 선정된 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 생성된 복수의 조합을 대상으로 주석 점수 기준으로 연관성 가중치를 산출하며, 각 조합별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하여 각 조합별 기능 지향적 주석정보를 생성할 수 있다.The function-oriented annotation information generation unit 200 selects independent SNPs, lead SNPs, and candidate SNP lists by filtering the SNPs included in the disease-causing SNP list based on the correlation index of the SNPs included in the disease-causing SNP list. Association weights are calculated based on annotation scores for multiple combinations generated using independent SNP, lead SNP, and candidate SNP lists, and the association weight for each combination and the risk allele of the SNP included in the SNP list of each combination are calculated. It is possible to generate function-oriented annotation information for each combination by calculating the multigene risk score using the number.

본 발명의 일 실시예에 따르면 기능 지향적 주석 정보 생성부(200)는 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값을 기준으로 각 SNP별 P-값을 기반으로 연관불균형(linkage disequilibrium, LD) 프록시를 통해 산출된 LD값을 상관지수(

Figure 112023006086357-pat00003
)로 산출할 수 있다.According to an embodiment of the present invention, the function-oriented annotation information generation unit 200 generates linkage disequilibrium (LD) based on the P-value for each SNP based on the P-value for each SNP included in the disease-causing SNP list. ) The LD value calculated through the proxy is the correlation index (
Figure 112023006086357-pat00003
) can be calculated.

본 발명의 일 실시예에 따르면 기능 지향적 주석정보는 조합에 포함된 SNP별 다유전자 위험점수 및 조합에 포함된 SNP의 다유전자 위험점수 총합에 대한 점수를 포함한 정보를 조합별 SNP리스트에 주석 형식으로 추가한 정보를 의미할 수 있다.According to an embodiment of the present invention, the function-oriented annotation information includes information including the multigene risk score for each SNP included in the combination and the score for the sum of the multigene risk scores of the SNPs included in the combination, in the form of an annotation in the SNP list for each combination. It can mean added information.

질병 유발 SNP 리스트 업데이트부(300)는 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.The disease-causing SNP list updating unit 300 calculates the AUC value of the polygene risk score calculated for each of a plurality of combinations included in the function-oriented annotation information, and converts the SNP list included in the combination with the highest AUC value to the disease-causing SNP list. can be updated with

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트 업데이트부(300)는 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수에 대한 AUC를 산출할 수 있으며, 산출된 AUC가 높을수록 높은 신뢰도를 가진다고 판단하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, the disease-causing SNP list update unit 300 may calculate the AUC for the polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information, and the higher the calculated AUC, the higher the AUC. A list of SNPs included in a combination showing the highest AUC value may be updated as a list of disease-causing SNPs by determining that they have high reliability.

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트 업데이트부(300)는 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수에 대하여 산출된 AUC가 0.7을 넘는 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, the disease-causing SNP list update unit 300 is a list of SNPs included in combinations in which AUC calculated for polygenic risk scores calculated for each combination included in the function-oriented annotation information exceeds 0.7. can be updated with a list of disease-causing SNPs.

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트 업데이트부(300)는 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수에 대하여 산출된 AUC가 0.7을 넘는 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, the disease-causing SNP list update unit 300 is a list of SNPs included in combinations in which AUC calculated for polygenic risk scores calculated for each combination included in the function-oriented annotation information exceeds 0.7. can be updated with a list of disease-causing SNPs.

도 2는 도 1에 개시된 기능 지향적 주석 정보 생성부의 세부 구성도이다.FIG. 2 is a detailed configuration diagram of a function-oriented annotation information generation unit disclosed in FIG. 1 .

도 2를 참조하면 본 발명의 일 실시예에 따른 기능 지향적 주석 정보 생성부(200)는 SNP 필터링부(210), 주석점수 산출부(220), 연관성 가중치 산출부(230), 산출하는 다유전자 위험점수 산출부(240)를 포함할 수 있다.Referring to FIG. 2 , the function-oriented annotation information generation unit 200 according to an embodiment of the present invention includes a SNP filtering unit 210, an annotation score calculation unit 220, an association weight calculation unit 230, and multiple genes for calculating A risk score calculator 240 may be included.

SNP 필터링부(210)는 질병 유발 SNP 리스트에 포함된 SNP들의 P-값 및 P-값에 따른 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정할 수 있다.The SNP filtering unit 210 filters the SNPs included in the disease-causing SNP list based on the P-values of the SNPs included in the disease-causing SNP list and the correlation index according to the P-value, and lists independent SNPs, lead SNPs, and candidate SNPs. can be selected.

본 발명의 일 실시예에 따르면 SNP 필터링부(210)는 상관 지수를 산출하기 위하여 질병 유발 SNP 리스트에 포함된 각각의 SNP 간 또는 독립 SNP로 선정된 SNP 중에서 다른 독립 SNP와의 사이에 있어 각 SNP별 P-값을 기반으로 연관불균형(linkage disequilibrium, LD) 프록시를 통해 산출된 LD값을 이용하여 상관지수(

Figure 112023006086357-pat00004
)를 산출할 수 있다.According to an embodiment of the present invention, the SNP filtering unit 210 calculates a correlation index between each SNP included in the disease-causing SNP list or between each SNP among other independent SNPs selected as independent SNPs. Based on the P-value, the correlation index (using the LD value calculated through the linkage disequilibrium (LD) proxy)
Figure 112023006086357-pat00004
) can be calculated.

발명의 일 실시예에 따르면 SNP 필터링부(210)는 산출된 상관 지수를 이용하여 각각 독자적인 기준 임계값을 이용하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정할 수 있으며, 도 3을 참조하며 각 임계값 중 가장 높을 효율을 보이는 임계값의 범위를 설명하도록 한다. According to an embodiment of the present invention, the SNP filtering unit 210 may select an independent SNP, a lead SNP, and a candidate SNP list using each independent reference threshold using the calculated correlation index. Referring to FIG. 3, each Among the threshold values, the range of threshold values showing the highest efficiency will be explained.

주석점수 산출부(220)는 선정된 독립 SNP, 리드 SNP, 후보 SNP 리스트별로 리스트에 포함된 SNP에 대해 외부 데이터 베이스로부터 SNP 관련 데이터를 수신 받고, SNP 관련 데이터를 인공 신경망 기반의 주석점수 산출 모델에 입력하여 SNP 별로 미리 설정된 방법에 따라 주석 점수를 산출할 수 있다.The annotation score calculation unit 220 receives SNP-related data from an external database for SNPs included in the list for each selected independent SNP, lead SNP, and candidate SNP list, and converts the SNP-related data into an artificial neural network-based annotation score calculation model. An annotation score can be calculated according to a preset method for each SNP.

본 발명의 일 실시예에 따르면 주석점수 산출부(220)의 인공 신경망 기반의 주석점수 산출 모델은 복수의 합성곱 레이어로 이루어진 인공 신경망 구조를 가질 수 있다.According to an embodiment of the present invention, the artificial neural network-based annotation score calculation model of the annotation score calculator 220 may have an artificial neural network structure composed of a plurality of convolutional layers.

본 발명의 일 실시예에 따르면 주석점수 산출부(220)는 외부 데이터 베이스로부터 수신한 질병 유발 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 대상으로 전체 대립유전자 중에서 특정한 대립 유전자를 가지는 염색체의 비율을 산출하고, 산출된 비율 중 더 적은 비율을 가지는 대립유전자의 염색체 비율이 1% 이상인 경우 유의미한 SNP로 식별하여 학습 데이터를 생성할 수 있다.According to an embodiment of the present invention, the annotation score calculation unit 220 calculates the ratio of chromosomes having a specific allele among all alleles for SNP-related data of SNPs included in the list of disease-causing SNPs received from an external database. If the chromosomal ratio of an allele having a smaller ratio is 1% or more, it is possible to generate learning data by identifying it as a significant SNP.

본 발명의 일 실시예에 따르면 외부 데이터 베이스는 CADD, RegulomeDB, 15-chromatin state 등이 사용될 수 있다.According to an embodiment of the present invention, CADD, RegulomeDB, 15-chromatin state, etc. may be used as an external database.

본 발명의 일 실시예에 따르면 주석점수 산출부(220)는 외부 데이터 베이스 CADD RegulomeDB, 15-chromatin state로부터 SNP관련 데이터를 수신하는 경우 variant의 chromosome 번호와 position 정보를 SNP별로 매핑시키는 전처리를 수행하여 학습 데이터를 생성할 수 있다.According to an embodiment of the present invention, when the annotation score calculation unit 220 receives SNP-related data from the external database CADD RegulomeDB, 15-chromatin state, preprocessing is performed to map the chromosome number and position information of the variant for each SNP. training data can be generated.

본 발명의 일 실시예에 따르면 CADD로부터 수집한 SNP 관련 데이터는 1부터 99까지의 점수로 약 86억 SNV(Single Nucleotide Variation) 중 랭크에 기반하여 변환된 스코어 정보일 수 있으며, 이를 SNP 별 염색체(chromosome)와 위치 정보로 매핑하는 전처리를 수행할 수 있다.According to one embodiment of the present invention, the SNP-related data collected from CADD may be score information converted based on the rank among about 8.6 billion Single Nucleotide Variations (SNVs) with a score from 1 to 99, which is converted into chromosomes for each SNP ( chromosome) and pre-processing of mapping to location information.

본 발명의 일 실시예에 따르면 RegulomeDB로부터 수집한 SNP 관련 데이터는 1a부터 7까지의 카테고리로 분류되어 있는 데이터일 수 있으며, 이를 SNP별 염색체와 위치 정보로 매핑한 뒤, RegulomeDB 점수의 뒤의 알파벳은 제거해준 뒤, 중복되는 변종(variant)에 대한 데이터가 있는 경우 RegulomeDB 점수의 mean값을 산출하여 하나의 변종(variant)마다 단일 점수를 가질 수 있도록 변환하는 전처리를 수행할 수 있다.According to an embodiment of the present invention, SNP-related data collected from RegulomeDB may be data classified into categories 1a to 7, and after mapping it to chromosome and location information for each SNP, the alphabet behind the RegulomeDB score is After removal, if there is data on overlapping variants, the mean value of the RegulomeDB scores can be calculated and preprocessing can be performed to convert each variant to have a single score.

본 발명의 일 실시예에 따르면 본 발명의 일 실시예에 따르면 15 chromatin state로부터 수집한 SNP 관련 데이터는 127개 후성유전체(epigenome)에서 염색체(chromosome)의 구역(region)마다 억제 능력(regulatory function)을 1부터 15 사이의 범위로 점수화한 데이터일 수 있으며, 각 SNP가 속하는 구역(region)의 점수를 매하고, 127개 후성유전체 중에서 상대적으로 높은 빈도를 보이는 상태(state)를 SNP의 15 chromatin 상태(state)로 정의하는 전처리를 수행할 수 있다. According to an embodiment of the present invention, SNP-related data collected from 15 chromatin states is a regulatory function for each region of chromosome in 127 epigenomes. may be data scored in the range of 1 to 15, the region to which each SNP belongs is scored, and the state showing a relatively high frequency among 127 epigenomes is the 15 chromatin state of the SNP (state) can perform preprocessing.

본 발명의 일 실시예에 따르면 생성된 학습 데이터를 주석점수 산출 모델에 입력하여 SNP 관련 데이터를 입력 받으면 주석 점수를 산출하도록 학습할 수 있다.According to an embodiment of the present invention, it is possible to learn to calculate an annotation score by inputting generated training data to an annotation score calculation model and receiving SNP-related data.

연관성 가중치 산출부(230)는 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 복수의 SNP 조합을 생성하고 각 SNP 조합별로 상기 SNP 별 주석 점수에 주석 점수의 산출의 기준이 된 외부 데이터베이스의 종류에 따라 가중치를 적용하여 각 SNP별 연관성 가중치를 산출할 수 있다.The correlation weight calculation unit 230 generates a plurality of SNP combinations using independent SNPs, lead SNPs, and candidate SNP lists, and for each SNP combination, the annotation score for each SNP corresponds to the type of external database used as the standard for calculating the annotation score. Depending on the weight, the association weight for each SNP can be calculated.

본 발명의 일 실시예에 따르면 연관성 가중치 산출부(230)는 외부 데이터 베이스로부터 수신한 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출 할 수 있다.According to an embodiment of the present invention, the association weight calculation unit 230 inputs SNP-related data of SNPs included in the list of independent SNPs, lead SNPs, and candidate SNPs received from an external database into an annotation score calculation model for each SNP. Annotation scores can be calculated.

본 발명의 일 실시예에 따르면 연관성 가중치 산출부(230)는 외부 데이터베이스 별로 전처리된 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출 할 수 있다.본 발명의 일 실시예에 따르면 연관성 가중치 산출부(230)는 각 SNP 조합별로 상기 SNP 별 주석 점수에 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행하여 연관성 가중치를 산출할 수 있다.According to an embodiment of the present invention, the association weight calculation unit 230 inputs SNP-related data of SNPs included in the list of independent SNPs, lead SNPs, and candidate SNPs preprocessed for each external database into an annotation score calculation model, and annotates each SNP. Scores may be calculated. According to an embodiment of the present invention, the association weight calculation unit 230 applies a weight according to the type of external database to the annotation score for each SNP combination for each SNP combination, and performs scaling on the calculated value. Thus, the correlation weight can be calculated.

본 발명의 일 실시예에 따르면 연관성 가중치 산출부(230)는 각 SNP 조합별로 SNP 별 주석 점수에 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행하여 연관성 가중치를 산출할 수 있다.According to an embodiment of the present invention, the association weight calculation unit 230 may calculate the association weight by performing scaling on a value calculated by applying a weight according to the type of an external database to an annotation score for each SNP for each SNP combination. .

본 발명의 일 실시예에 따르면 연관성 가중치 산출부(230)는 복수의 SNP 별 주석 점수들이 외부 데이터베이스의 종류에 따라 스케일(scale)의 차이가 있을 수 있으므로, 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행할 수 있다.According to an embodiment of the present invention, the association weight calculation unit 230 applies a weight according to the type of external database, since the annotation scores for each SNP may have a difference in scale depending on the type of external database. Scaling can be performed on the calculated value.

본 발명의 일 실시예에 따르면 복수의 SNP 별 주석 점수를 0부터 1까지의 점수로 스케일링(scaling)할 수 있으며, 스케일링된 점수가 작을수록 더 강한 억제 능력(regulatory function), 또는 증거를 가진 것으로 판단하고, 스케일링된 점수를 1에서 뺀 점수가 1에 가까울수록 더 유효한 SNP로 판별할 수 있다.According to an embodiment of the present invention, the annotation scores for each of a plurality of SNPs can be scaled to a score from 0 to 1, and the smaller the scaled score, the stronger the regulatory function or evidence. If the score obtained by subtracting the scaled score from 1 is closer to 1, it can be determined as a more valid SNP.

다유전자 위험점수 산출부(240)는 각 SNP별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출할 수 있다.The multi-gene risk score calculation unit 240 may calculate the multi-gene risk score using the association weight for each SNP and the number of risk alleles of the SNP included in the SNP list of each combination.

본 발명의 일 실시예에 따르면 다유전자 위험점수 산출부(240)는 각 조합에 포함된 P개의 SNP에 대하여 각 SNP의 위험 대립유전자의 수에 각 조합의 연관성 가중치를 적용해 계산한 가중합을 각 조합의 다유전자 위험점수로 산출할 수 있다.According to an embodiment of the present invention, the polygenic risk score calculation unit 240 calculates a weighted sum calculated by applying the association weight of each combination to the number of risk alleles of each SNP for P SNPs included in each combination. It can be calculated as a polygenic risk score for each combination.

본 발명의 일 실시예에 따르면 다유전자 위험점수 산출부(240)는 산출된 각 조합의 다유전자 위험점수를 각 조합에 대한 주석으로 기록되는 기능 지향적 주석을 생성할 수 있다.According to an embodiment of the present invention, the multi-gene risk score calculation unit 240 may generate a function-oriented annotation in which the calculated multi-gene risk score of each combination is recorded as an annotation for each combination.

본 발명의 일 실시예에 따르면 다유전자 위험점수 산출부(240)는 각 SNP별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 아래 수학식 1과 같이 조합별 다유전자 위험점수(

Figure 112023006086357-pat00005
)를 산출할 수 있다.According to an embodiment of the present invention, the multi-gene risk score calculation unit 240 uses the association weight for each SNP and the number of risk alleles of the SNP included in the SNP list of each combination as shown in Equation 1 below. Gene risk score (
Figure 112023006086357-pat00005
) can be calculated.

본 발명의 일 실시예에 따르면 복수의 조합에 포함된 복수의 SNP를 대상으로 조합별로 타겟 질환에 대하여 PRS 모델을 설계하고, PRS 모델을 이용하여 GWAS 분석 결과에서 도출된 각 조합별 SNP의 위험 대립 유전자의 수에 SNP별 연관성 가중치(

Figure 112023006086357-pat00006
)를 가중치로 계산하여 SNP별 다유전자 위험점수(
Figure 112023006086357-pat00007
) 및 조합 다유전자 위험점수(
Figure 112023006086357-pat00008
)를 계산할 수 있다.According to an embodiment of the present invention, a PRS model is designed for a target disease for each combination targeting a plurality of SNPs included in a plurality of combinations, and the risk conflict of SNPs for each combination derived from the GWAS analysis result using the PRS model Association weight for each SNP in the number of genes (
Figure 112023006086357-pat00006
) is calculated as a weight to obtain a polygenic risk score for each SNP (
Figure 112023006086357-pat00007
) and combination polygenic risk score (
Figure 112023006086357-pat00008
) can be calculated.

Figure 112023006086357-pat00009
Figure 112023006086357-pat00009

상기 실시예에 따르면 타겟 질환(pheno type)에 대하여 GWAS 분석 결과로 도출된 조합내 P개 유전자 변이(SNP)의 위험 대립유전자(risk allele)의 수(

Figure 112023006086357-pat00010
)에 대하여 SNP별 연관성 가중치 (
Figure 112023006086357-pat00011
)를 적용하여 계산한 가중합을 조합별 다유전자 위험점수(
Figure 112023006086357-pat00012
)로 산출할 수 있다.According to the above embodiment, the number of risk alleles of P gene mutations (SNPs) in the combination derived as a result of GWAS analysis for the target disease (pheno type) (
Figure 112023006086357-pat00010
) for each SNP association weight (
Figure 112023006086357-pat00011
), the weighted sum calculated by applying the multigene risk score for each combination (
Figure 112023006086357-pat00012
) can be calculated.

도 3은 도 2에 개시된 SNP 필터링부의 세부 구성도이다.FIG. 3 is a detailed configuration diagram of the SNP filtering unit shown in FIG. 2 .

도 3을 참조하면 본 발명의 일 실시예에 따른 SNP 필터링부(210)은 독립 SNP 선정부(211), 리드 SNP 선정부(212), 후보 SNP 선정부(213)를 포함할 수 있다.Referring to FIG. 3 , the SNP filtering unit 210 according to an embodiment of the present invention may include an independent SNP selection unit 211, a lead SNP selection unit 212, and a candidate SNP selection unit 213.

독립 SNP 선정부(211)는 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 상관지수가 제1 임계 값 이하인 SNP를 독립 SNP로 선정하여 필터링을 수행할 수 있다.The independent SNP selector 211 is a correlation index calculated through linkage disequilibrium using the P-value for each SNP when the P-value for each SNP included in the list of disease-causing SNPs is a value obtained by GWAS analysis of genome data. Filtering may be performed by selecting SNPs having a value equal to or less than the first threshold as independent SNPs.

본 발명의 일 실시예에 따르면 독립 SNP 선정부(211) 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 SNP별 P-값을 기준으로 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 상관지수를 산출할 수 있다.According to an embodiment of the present invention, the P-value for each SNP included in the disease-causing SNP list of the independent SNP selector 211 is based on the P-value for each SNP obtained by GWAS analysis of genome data. The correlation index calculated through linkage disequilibrium can be calculated using .

본 발명의 일 실시예에 따르면 SNP별 P-값을 기준으로 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 상관지수가 제1 임계 값 이하인 SNP를 독립적으로 영향력을 미치는 유의한 SNP로 판단하여 독립 SNP로 선정할 수 있다.According to an embodiment of the present invention, SNPs whose correlation index calculated through linkage disequilibrium using the P-value for each SNP based on the P-value for each SNP is equal to or less than the first threshold value are regarded as significant SNPs that have an independent influence. It can be judged and selected as an independent SNP.

본 발명의 일 실시예에 따르면 반복적인 실험의 결과로 제1 임계 값이 0.6으로 설정될 때가 가장 높은 신뢰도를 보이는 결과를 제공하는 것으로 나타났으므로, 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 상관지수가 0.6 이하인 SNP를 독립 SNP로 선정하여 필터링을 수행할 수 있다.According to an embodiment of the present invention, as a result of repetitive experiments, it was found that when the first threshold value is set to 0.6, the result with the highest reliability is provided, so the association imbalance is determined using the P-value for each SNP Filtering can be performed by selecting an SNP with a correlation index of 0.6 or less as an independent SNP.

리드 SNP 선정부(212)는 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 독립 SNP로 선정된 SNP 중에서 다른 독립 SNP와의 상관지수가 제2 임계값 이하인 SNP를 리드 SNP로 선정하여 필터링을 수행할 수 있다.When the P-value for each SNP included in the disease-causing SNP list is a value obtained by GWAS analysis of genome data, the lead SNP selection unit 212 determines that the correlation index with other independent SNPs among the SNPs selected as independent SNPs is the second threshold. Filtering may be performed by selecting an SNP less than or equal to the value as a lead SNP.

본 발명의 일 실시예에 따르면 리드 SNP 선정부(212) 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 SNP별 P-값을 기준으로 독립 SNP로 선정된 SNP 중에서 다른 독립 SNP와의 상관지수가 제2 임계값 이하인 SNP를 물리적인 거리상으로는 유의미하나 상관 관계가 작아 단독으로 영향을 미치는 SNP로 판단하여 리드 SNP로 선정할 수 있다.According to an embodiment of the present invention, the P-value for each SNP included in the list of disease-causing SNPs of the lead SNP selection unit 212 is a SNP selected as an independent SNP based on the P-value for each SNP obtained by GWAS analysis of genome data. Among them, SNPs whose correlation index with other independent SNPs is less than the second threshold can be selected as lead SNPs by determining them as SNPs that have a significant physical distance but have a small correlation and have an independent effect.

본 발명의 일 실시예에 따르면 반복적인 실험의 결과로 제2 임계 값이 0.1로 설정될 때가 가장 높은 신뢰도를 보이는 결과를 제공하는 것으로 나타났으므로, 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 독립 SNP로 선정된 SNP 중 다른 독립 SNP와의 상관지수가 0.1 이하인 SNP를 리드 SNP로 선정하여 필터링을 수행할 수 있다.According to an embodiment of the present invention, as a result of repetitive experiments, it was found that when the second threshold value is set to 0.1, the result with the highest reliability is provided. Filtering can be performed by selecting an SNP whose correlation index with other independent SNPs is 0.1 or less among the SNPs selected as independent SNPs calculated through this process as a lead SNP.

후보 SNP 선정부(213)는 질병 유발 SNP 리스트에 포함된 SNP 중에서 독립 SNP로 선정된 SNP와 상관지수가 제3 임계값 이상인 SNP를 후보 SNP로 선정하여 필터링을 수행할 수 있다.The candidate SNP selector 213 may perform filtering by selecting as candidate SNPs a SNP selected as an independent SNP and a correlation index greater than or equal to a third threshold among SNPs included in the list of disease-causing SNPs.

본 발명의 일 실시예에 따르면 리드 SNP 선정부(213) 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 SNP별 P-값을 기준으로 질병 유발 SNP 리스트에 포함된 SNP 중에서 독립 SNP로 선정된 SNP와의 상관지수 제3 임계값 이상인 SNP를 직접적인 관계를 파악되진 않아도 유의미할 가능성이 높은 후보 SNP로 선정할 수 있다.According to an embodiment of the present invention, the P-value for each SNP included in the disease-causing SNP list of the lead SNP selection unit 213 is included in the disease-causing SNP list based on the P-value for each SNP obtained by GWAS analysis of genome data. Among the SNPs selected as independent SNPs, SNPs whose correlation index is higher than the third threshold of the correlation index with the SNPs selected as independent SNPs can be selected as candidate SNPs that are highly likely to be significant even though no direct relationship has been identified.

본 발명의 일 실시예에 따르면 반복적인 실험의 결과로 제3 임계 값이 0.1로 설정될 때가 가장 높은 신뢰도를 보이는 결과를 제공하는 것으로 나타났으므로, 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 질병 유발 SNP 리스트에 포함된 SNP 중에서 독립 SNP로 선정된 SNP와의 상관지수가 0.6 이상인 SNP를 후보 SNP로 선정하여 필터링을 수행할 수 있다.According to an embodiment of the present invention, as a result of repetitive experiments, it was found that when the third threshold value is set to 0.1, the result with the highest reliability is provided, so the linkage disequilibrium is determined using the P-value for each SNP. Filtering can be performed by selecting SNPs with a correlation index of 0.6 or higher with the SNPs selected as independent SNPs as candidate SNPs among the SNPs included in the list of disease-causing SNPs calculated through this method.

도 4는 도 2에 개시된 주석점수 산출부의 세부 구성도이다.4 is a detailed configuration diagram of the annotation score calculator disclosed in FIG. 2 .

도 4를 참조하면 본 발명의 일 실시예에 따른 주석점수 산출부(220)는 주석점수 산출 모델 학습부(221), 주석점수 산출 모델 수행부(222)를 포함할 수 있다.Referring to FIG. 4 , the annotation score calculation unit 220 according to an embodiment of the present invention may include an annotation score calculation model learning unit 221 and an annotation score calculation model execution unit 222 .

주석점수 산출 모델 학습부(221)는 외부 데이터 베이스로부터 수신한 질병 유발 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 대상으로 전체 대립유전자 중에서 특정한 대립 유전자를 가지는 염색체의 비율을 산출하고, 산출된 비율 중 더 적은 비율을 가지는 대립유전자의 염색체 비율이 1% 이상인 경우 유의미한 SNP로 식별하여 학습 데이터를 생성하고, 주석점수 산출 모델에 생성된 상기 학습 데이터를 입력하여 SNP 관련 데이터를 입력 받으면 주석 점수를 산출하도록 학습할 수 있다.The annotation score calculation model learning unit 221 calculates the ratio of chromosomes having a specific allele among all alleles for SNP-related data of SNPs included in the list of disease-causing SNPs received from an external database, and the calculated ratio If the chromosome ratio of the allele with the smaller ratio is 1% or more, it is identified as a significant SNP and training data is generated, and the training data created in the annotation score calculation model is input to calculate the annotation score when SNP-related data is input. can learn to do.

본 발명의 일 실시예에 따르면 주석점수 산출 모델 학습부(221)는 주석점수 산출 모델을 학습시킬 학습 데이터를 생성할 수 있으며, 생성된 학습 데이터를 기반으로 주석점수 산출 모델을 학습 시킬 수 있다.According to an embodiment of the present invention, the annotation score calculation model learning unit 221 may generate learning data for training the annotation score calculation model, and may learn the annotation score calculation model based on the generated learning data.

본 발명의 일 실시예에 따르면 주석점수 산출 모델 학습부(221)는 외부 데이터 베이스로부터 수신한 질병 유발 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 대상으로 전체 대립유전자 중에서 특정한 대립 유전자를 가지는 염색체의 비율을 산출하여 산출된 비율 중 더 적은 비율을 가지는 대립유전자의 염색체 비율이 1% 이상인 경우에는 유의미한 SNP로 식별하여 이를 이용하여 높은 신뢰도를 보일 수 있도록 주석점수 산출 모델을 학습시킬 수 있다.According to an embodiment of the present invention, the annotation score calculation model learning unit 221 targets SNP-related data of SNPs included in the list of disease-causing SNPs received from an external database, and selects a chromosome having a specific allele among all alleles. If the chromosome ratio of the allele having a smaller ratio among the ratios calculated by calculating the ratio is 1% or more, it can be identified as a significant SNP and used to train the annotation score calculation model to show high reliability.

주석점수 산출 모델 수행부(222)는 외부 데이터 베이스로부터 수신한 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출할 수 있다.The annotation score calculation model executor 222 inputs SNP-related data of SNPs included in the list of selected independent SNPs, lead SNPs, and candidate SNPs received from an external database into the annotation score calculation model to calculate annotation scores for each SNP. can be calculated

본 발명의 일 실시예에 따르면 주석점수 산출 모델 수행부(222)로부터 출력된 각 SNP별로 주석 점수는 서로 다른 스케일을 가질 수 있다.According to an embodiment of the present invention, annotation scores for each SNP output from the annotation score calculation model performer 222 may have different scales.

도 5는 본 발명의 일 실시예에 따른 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법의 흐름도이다.5 is a flowchart of a method for improving the accuracy of genome data analysis through function-oriented annotation according to an embodiment of the present invention.

유전체 데이터 분석을 통해 특정 질병과 관련성이 있는 것으로 선별된 복수의 SNP에 대한 리스트를 질병 유발 SNP 리스트로 선정한다(S10).A list of a plurality of SNPs selected to be related to a specific disease through genome data analysis is selected as a disease-causing SNP list (S10).

본 발명의 일 실시예에 따르면 유전체 데이터 분석을 통해 특정 질병과 관련성이 있는 것으로 선별된 복수의 SNP에 대한 리스트를 질병 유발 SNP 리스트로 선정할 수 있다.According to an embodiment of the present invention, a list of a plurality of SNPs selected to be related to a specific disease through genome data analysis may be selected as a disease-causing SNP list.

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트는 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 통해 특정 질환을 유발할 원인이라고 판별된 SNP를 리스트 형식으로 묶어 생성한 리스트를 의미할 수 있다.According to an embodiment of the present invention, the disease-causing SNP list may refer to a list generated by grouping SNPs determined to be causes of a specific disease through at least one of GWAS analysis, AI analysis, and meta-analysis in a list form. .

본 발명의 일 실시예에 따르면 다수의 인원 대한 유전체 데이터를 GWAS 분석을 통해 타겟 질환을 대상으로 전장 유전체 연관분석을 수행하고, 수행의 결과로 유전자 변이 별로 산출된 P값을 미리 설정된 임계치와 대비하여, 임계치 이하인 복수의 유전자 변이를 질병 유발 SNP로 선별할 수 있다.According to an embodiment of the present invention, whole genome association analysis is performed on target diseases through GWAS analysis of genomic data for a large number of people, and as a result of the execution, the P value calculated for each genetic mutation is compared with a preset threshold , multiple genetic mutations below the critical value can be selected as disease-causing SNPs.

본 발명의 일 실시예에 따르면 전장 유전체 연관분석을 수행 결과 유전자 변이 별로 산출된 P값을 이용해 유전자 변이를 질병 유발 SNP로 선별하는 방법으로 맨하튼 플롯(manhattan plot)을 이용할 수 있다.According to one embodiment of the present invention, a Manhattan plot can be used as a method of selecting genetic mutations as disease-causing SNPs using the P value calculated for each genetic mutation as a result of whole genome association analysis.

본 발명의 일 실시예에 따르면 GWAS 분석을 통해 전장 유전체 연관분석을 수행하여 복수의 필드 값들을 항목으로 하는 데이터 테이블 형태의 결과 데이터를 생성할 수 있으며, 여기에는 염색체 ID, SNP ID 이때 유전자 변이 별로 산출된 P값이 포함될 수 있다.According to an embodiment of the present invention, genome-wide association analysis can be performed through GWAS analysis to generate result data in the form of a data table with a plurality of field values as items, including chromosome ID and SNP ID. A calculated P value may be included.

본 발명의 일 실시예에 따르면 AI분석을 통해 인공 신경망 기반의 질환 유발 인자 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터를 입력하여 유전자 변이별 중요도 점수(Importance score)를 출력하고, 출력된 유전자 변이별 중요도 점수 중 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질병 유발 SNP로 선별할 수 있다.According to an embodiment of the present invention, genomic data for a large number of persons labeled with diseases is input into an artificial neural network-based disease-causing factor prediction model through AI analysis, and an importance score for each genetic mutation is output, and the output is output. A plurality of gene mutations having an importance score exceeding a predetermined score among the importance scores for each genetic mutation that have been identified may be selected as disease-causing SNPs.

본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델은 입력값과 출력값 사이의 인과관계를 파악하기 어려운 블랙박스 문제를 해결하기 위하여 복수의 유전자 변이를 질병 유발 SNP를 선별하기 위하여 머신러닝 중 트리(tree-based) 계열의 알고리즘을 이용하며, XAI(Explainable AI) 기법을 통해 유전자 변이별 중요도 점수(Importance score)를 구하는 방법을 이용할 수 있다.According to an embodiment of the present invention, the artificial neural network-based disease-causing factor prediction model is a machine to select disease-causing SNPs by combining multiple genetic mutations in order to solve the black box problem in which it is difficult to understand the causal relationship between input and output values. A tree-based algorithm is used during running, and a method of obtaining an importance score for each genetic mutation through an XAI (Explainable AI) technique can be used.

본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델은 다수의 인원에 대한 유전체 데이터에 포함된 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 입력 받아 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 출력하도록 학습될 수 있다.According to an embodiment of the present invention, an artificial neural network-based disease-causing factor prediction model receives genetic mutation identification codes, covariate information, and target disease information included in genome data for a plurality of individuals, and identifies genetic mutations for target diseases. It can be learned to output an importance score.

본 발명의 일 실시예에 따르면 메타 분석은 타겟 질환을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 메타 분석 모델에 입력하여 복수의 선행 문헌별로 유전자 변이의 주제에 부합하는 효과 크기를 산출하고, 산출한 효과 크기의 분산의 역수를 각 선행 문헌의 효과 크기에 가중치로 적용하여 각 유전자 변이 별로 타겟 질환 영향력 점수를 측정하여, 각 유전자 변이별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질병 유발 SNP로 선별할 수 있다.According to an embodiment of the present invention, the meta-analysis is performed by inputting a plurality of prior literature contributed on the subject of the effect of genetic mutation on a target disease into a meta-analysis model, and the effect corresponding to the subject of genetic variation for each of the plurality of prior literature The size is calculated, and the reciprocal of the variance of the calculated effect size is applied as a weight to the effect size of each prior literature to measure the target disease impact score for each genetic variant, and a plurality of Genetic mutations can be selected as disease-causing SNPs.

본 발명의 일 실시예에 따르면 기능 지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, the AUC value of the polygene risk score calculated for each of a plurality of combinations included in the function-oriented annotation information is calculated, and the SNP list included in the combination showing the highest AUC value is updated to the disease-causing SNP list. can do.

본 발명의 일 실시예에 따르면 기능 지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수의 AUC값을 산출하여 AUC값이 0.7 이상인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, the AUC value of the polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information is calculated, and the SNP list included in the combination having an AUC value of 0.7 or more is updated to the disease-causing SNP list. can

질병 유발 SNP 리스트에 포함된 SNP들의 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정한다(S20).Based on the correlation index of the SNPs included in the disease-causing SNP list, SNPs included in the disease-causing SNP list are filtered to select independent SNPs, lead SNPs, and candidate SNP lists (S20).

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트에 포함된 SNP들의 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정할 수 있다.According to an embodiment of the present invention, independent SNPs, lead SNPs, and candidate SNP lists can be selected by filtering the SNPs included in the disease-causing SNP list based on the correlation index of the SNPs included in the disease-causing SNP list.

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트에 포함된 SNP들의 P-값 및 P-값에 따른 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정할 수 있다.According to an embodiment of the present invention, independent SNPs, lead SNPs, and candidate SNPs are filtered by SNPs included in the list of disease-causing SNPs based on the P-values of the SNPs included in the list of disease-causing SNPs and the correlation index according to the P-values. list can be selected.

본 발명의 일 실시예에 따르면 상관 지수를 산출하기 위하여 질병 유발 SNP 리스트에 포함된 각각의 SNP 간 또는 독립 SNP로 선정된 SNP 중에서 다른 독립 SNP와의 사이에 있어 각 SNP별 P-값을 기반으로 연관불균형(linkage disequilibrium, LD) 프록시를 통해 산출된 LD값을 이용하여 상관지수(

Figure 112023006086357-pat00013
)를 산출할 수 있다. According to an embodiment of the present invention, correlation between each SNP included in the disease-causing SNP list or between other independent SNPs among SNPs selected as independent SNPs is based on the P-value for each SNP to calculate the correlation index. Using the LD value calculated through the linkage disequilibrium (LD) proxy, the correlation index (
Figure 112023006086357-pat00013
) can be calculated.

발명의 일 실시예에 따르면 산출된 상관 지수를 이용하여 각각 독자적인 기준 임계값을 이용하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정할 수 있다.According to an embodiment of the present invention, independent SNPs, lead SNPs, and candidate SNP lists may be selected using the calculated correlation index and each independent reference threshold.

본 발명의 일 실시예에 따르면 선정된 독립 SNP, 리드 SNP, 후보 SNP 리스트별로 리스트에 포함된 SNP에 대해 외부 데이터 베이스로부터 SNP 관련 데이터를 수신 받고, SNP 관련 데이터를 인공 신경망 기반의 주석점수 산출 모델에 입력하여 SNP 별로 미리 설정된 방법에 따라 주석 점수를 산출할 수 있다.According to an embodiment of the present invention, SNP-related data is received from an external database for SNPs included in the list for each selected independent SNP, lead SNP, and candidate SNP list, and the SNP-related data is an artificial neural network-based annotation score calculation model An annotation score can be calculated according to a preset method for each SNP.

독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 생성된 복수의 조합을 대상으로 주석 점수 기준으로 연관성 가중치를 산출한다(S30).Association weights are calculated based on annotation scores for a plurality of combinations generated using the list of independent SNPs, lead SNPs, and candidate SNPs (S30).

본 발명의 일 실시예에 따르면 선정된 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 생성된 복수의 조합을 대상으로 주석 점수 기준으로 연관성 가중치를 산출할 수 있다.According to an embodiment of the present invention, correlation weights can be calculated based on annotation scores for a plurality of combinations generated using the selected independent SNP, lead SNP, and candidate SNP list.

본 발명의 일 실시예에 따르면 인공 신경망 기반의 주석점수 산출 모델은 복수의 합성곱 레이어로 이루어진 인공 신경망 구조를 가질 수 있다.According to an embodiment of the present invention, an artificial neural network-based annotation score calculation model may have an artificial neural network structure composed of a plurality of convolutional layers.

본 발명의 일 실시예에 따르면 외부 데이터 베이스로부터 수신한 질병 유발 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 대상으로 전체 대립유전자 중에서 특정한 대립 유전자를 가지는 염색체의 비율을 산출하고, 산출된 비율 중 더 적은 비율을 가지는 대립유전자의 염색체 비율이 1% 이상인 경우 유의미한 SNP로 식별하여 학습 데이터를 생성할 수 있다.According to an embodiment of the present invention, the ratio of chromosomes having a specific allele among all alleles is calculated for the SNP-related data of the SNPs included in the list of disease-causing SNPs received from an external database, and the calculated ratio is more If the chromosome ratio of the allele with a small ratio is 1% or more, it is possible to generate learning data by identifying it as a significant SNP.

본 발명의 일 실시예에 따르면 외부 데이터 베이스는 CADD, RegulomeDB, 15-chromatin state 등이 사용될 수 있다.According to an embodiment of the present invention, CADD, RegulomeDB, 15-chromatin state, etc. may be used as an external database.

본 발명의 일 실시예에 따르면 외부 데이터 베이스 CADD RegulomeDB, 15-chromatin state로부터 SNP관련 데이터를 수신하는 경우 variant의 chromosome 번호와 position 정보를 SNP별로 매핑시키는 전처리를 수행하여 학습 데이터를 생성할 수 있다.According to an embodiment of the present invention, when SNP-related data is received from the external database CADD RegulomeDB, 15-chromatin state, learning data can be generated by performing pre-processing of mapping the chromosome number and position information of the variant for each SNP.

본 발명의 일 실시예에 따르면 CADD로부터 수집한 SNP 관련 데이터는 1부터 99까지의 점수로 약 86억 SNV(Single Nucleotide Variation) 중 랭크에 기반하여 변환된 스코어 정보일 수 있으며, 이를 SNP 별 염색체(chromosome)와 위치 정보로 매핑하는 전처리를 수행할 수 있다.According to one embodiment of the present invention, the SNP-related data collected from CADD may be score information converted based on the rank among about 8.6 billion Single Nucleotide Variations (SNVs) with a score from 1 to 99, which is converted into chromosomes for each SNP ( chromosome) and pre-processing of mapping to location information.

본 발명의 일 실시예에 따르면 RegulomeDB로부터 수집한 SNP 관련 데이터는 1a부터 7까지의 카테고리로 분류되어 있는 데이터일 수 있으며, 이를 SNP별 염색체와 위치 정보로 매핑한 뒤, RegulomeDB 점수의 뒤의 알파벳은 제거해준 뒤, 중복되는 변종(variant)에 대한 데이터가 있는 경우 RegulomeDB 점수의 mean값을 산출하여 하나의 변종(variant)마다 단일 점수를 가질 수 있도록 변환하는 전처리를 수행할 수 있다.According to an embodiment of the present invention, SNP-related data collected from RegulomeDB may be data classified into categories 1a to 7, and after mapping it to chromosome and location information for each SNP, the alphabet behind the RegulomeDB score is After removal, if there is data on overlapping variants, the mean value of the RegulomeDB scores can be calculated and preprocessing can be performed to convert each variant to have a single score.

본 발명의 일 실시예에 따르면 본 발명의 일 실시예에 따르면 15 chromatin state로부터 수집한 SNP 관련 데이터는 127개 후성유전체(epigenome)에서 염색체(chromosome)의 구역(region)마다 억제 능력(regulatory function)을 1부터 15 사이의 범위로 점수화한 데이터일 수 있으며, 각 SNP가 속하는 구역(region)의 점수를 매하고, 127개 후성유전체 중에서 상대적으로 높은 빈도를 보이는 상태(state)를 SNP의 15 chromatin 상태(state)로 정의하는 전처리를 수행할 수 있다. According to an embodiment of the present invention, SNP-related data collected from 15 chromatin states is a regulatory function for each region of chromosome in 127 epigenomes. may be data scored in the range of 1 to 15, the region to which each SNP belongs is scored, and the state showing a relatively high frequency among 127 epigenomes is the 15 chromatin state of the SNP (state) can perform preprocessing.

본 발명의 일 실시예에 따르면 생성된 학습 데이터를 주석점수 산출 모델에 입력하여 SNP 관련 데이터를 입력 받으면 주석 점수를 산출하도록 학습할 수 있다.According to an embodiment of the present invention, it is possible to learn to calculate an annotation score by inputting generated training data to an annotation score calculation model and receiving SNP-related data.

본 발명의 일 실시예에 따르면 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 복수의 SNP 조합을 생성하고 각 SNP 조합별로 상기 SNP 별 주석 점수에 주석 점수의 산출의 기준이 된 외부 데이터베이스의 종류에 따라 가중치를 적용하여 각 SNP별 연관성 가중치를 산출할 수 있다.According to an embodiment of the present invention, a plurality of SNP combinations are generated using independent SNPs, lead SNPs, and candidate SNP lists, and for each SNP combination, the annotation score for each SNP is determined by the type of external database used as the standard for calculating the annotation score. Depending on the weight, the association weight for each SNP can be calculated.

본 발명의 일 실시예에 따르면 외부 데이터 베이스로부터 수신한 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출 할 수 있다.According to an embodiment of the present invention, annotation scores for each SNP can be calculated by inputting SNP-related data of independent SNPs, lead SNPs, and SNPs included in the list of candidate SNPs received from an external database into an annotation score calculation model.

본 발명의 일 실시예에 따르면 외부 데이터베이스 별로 전처리된 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출 할 수 있다.본 발명의 일 실시예에 따르면 연관성 가중치 산출부(230)는 각 SNP 조합별로 상기 SNP 별 주석 점수에 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행하여 연관성 가중치를 산출할 수 있다.According to an embodiment of the present invention, annotation scores for each SNP can be calculated by inputting SNP-related data of independent SNPs, lead SNPs, and SNPs included in the list of candidate SNPs preprocessed for each external database to an annotation score calculation model. According to an embodiment of the present invention, the association weight calculation unit 230 may calculate the association weight by performing scaling on a value calculated by applying a weight according to the type of an external database to the annotation score for each SNP for each SNP combination. .

본 발명의 일 실시예에 따르면 각 SNP 조합별로 SNP 별 주석 점수에 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행하여 연관성 가중치를 산출할 수 있다.According to an embodiment of the present invention, a correlation weight may be calculated by applying a weight according to the type of external database to an annotation score for each SNP combination and performing scaling on a value calculated.

본 발명의 일 실시예에 따르면 복수의 SNP 별 주석 점수들이 외부 데이터베이스의 종류에 따라 스케일(scale)의 차이가 있을 수 있으므로, 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행할 수 있다.According to an embodiment of the present invention, since the annotation scores for each SNP may have different scales depending on the type of external database, scaling is performed on the calculated value by applying a weight according to the type of external database. can

본 발명의 일 실시예에 따르면 복수의 SNP 별 주석 점수를 0부터 1까지의 점수로 스케일링(scaling)할 수 있으며, 스케일링된 점수가 작을수록 더 강한 억제 능력(regulatory function), 또는 증거를 가진 것으로 판단하고, 스케일링된 점수를 1에서 뺀 점수가 1에 가까울수록 더 유효한 SNP로 판별할 수 있다.According to an embodiment of the present invention, the annotation scores for each of a plurality of SNPs can be scaled to a score from 0 to 1, and the smaller the scaled score, the stronger the regulatory function or evidence. If the score obtained by subtracting the scaled score from 1 is closer to 1, it can be determined as a more valid SNP.

각 조합별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하여 각 조합별 기능지향적 주석정보를 생성한다(S40).Using the correlation weight for each combination and the number of risk alleles of the SNP included in the SNP list of each combination, a polygenic risk score is calculated to generate function-oriented annotation information for each combination (S40).

본 발명의 일 실시예에 따르면 각 SNP별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출할 수 있다.According to an embodiment of the present invention, a multigenic risk score can be calculated using the association weight for each SNP and the number of risk alleles of the SNP included in the SNP list of each combination.

본 발명의 일 실시예에 따르면 각 조합에 포함된 P개의 SNP에 대하여 각 SNP의 위험 대립유전자의 수에 각 조합의 연관성 가중치를 적용해 계산한 가중합을 각 조합의 다유전자 위험점수로 산출할 수 있다.According to an embodiment of the present invention, the weighted sum calculated by applying the association weight of each combination to the number of risk alleles of each SNP for P SNPs included in each combination is calculated as the polygenic risk score of each combination. can

본 발명의 일 실시예에 따르면 산출된 각 조합의 다유전자 위험점수를 각 조합에 대한 주석으로 기록되는 기능 지향적 주석을 생성할 수 있다.According to an embodiment of the present invention, it is possible to generate a function-oriented annotation in which the polygene risk score of each combination is recorded as an annotation for each combination.

본 발명의 일 실시예에 따르면 각 SNP별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 수학식 1과 같이 조합별 다유전자 위험점수(

Figure 112023006086357-pat00014
)를 산출할 수 있다.According to an embodiment of the present invention, the multigene risk score for each combination as shown in Equation 1 using the association weight for each SNP and the number of risk alleles of the SNP included in the SNP list of each combination (
Figure 112023006086357-pat00014
) can be calculated.

본 발명의 일 실시예에 따르면 복수의 조합에 포함된 복수의 SNP를 대상으로 조합별로 타겟 질환에 대하여 PRS 모델을 설계하고, PRS 모델을 이용하여 GWAS 분석 결과에서 도출된 각 조합별 SNP의 위험 대립 유전자의 수에 SNP별 연관성 가중치(

Figure 112023006086357-pat00015
)를 가중치로 계산하여 SNP별 다유전자 위험점수(
Figure 112023006086357-pat00016
) 및 조합 다유전자 위험점수(
Figure 112023006086357-pat00017
)를 계산할 수 있다.According to an embodiment of the present invention, a PRS model is designed for a target disease for each combination targeting a plurality of SNPs included in a plurality of combinations, and the risk conflict of the SNPs for each combination derived from the GWAS analysis result using the PRS model Association weight for each SNP in the number of genes (
Figure 112023006086357-pat00015
) is calculated as a weight to obtain a polygenic risk score for each SNP (
Figure 112023006086357-pat00016
) and combination polygenic risk score (
Figure 112023006086357-pat00017
) can be calculated.

본 발명의 일 실시예에 따르면 타겟 질환(pheno type)에 대하여 GWAS 분석 결과로 도출된 조합내 P개 유전자 변이(SNP)의 위험 대립유전자(risk allele)의 수(

Figure 112023006086357-pat00018
)에 대하여 SNP별 연관성 가중치 (
Figure 112023006086357-pat00019
)를 적용하여 계산한 가중합을 조합별 다유전자 위험점수(
Figure 112023006086357-pat00020
)로 산출할 수 있다.According to an embodiment of the present invention, the number of risk alleles of P gene mutations (SNPs) in the combination derived as a result of GWAS analysis for the target disease (pheno type) (
Figure 112023006086357-pat00018
) for each SNP association weight (
Figure 112023006086357-pat00019
), the weighted sum calculated by applying the multigene risk score for each combination (
Figure 112023006086357-pat00020
) can be calculated.

본 발명의 일 실시예에 따르면 각 조합별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하여 각 조합별 기능 지향적 주석정보를 생성할 수 있다.According to an embodiment of the present invention, function-oriented annotation information for each combination can be generated by calculating a polygenic risk score using the association weight for each combination and the number of risk alleles of the SNP included in the SNP list of each combination. .

본 발명의 일 실시예에 따르면 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값을 기준으로 각 SNP별 P-값을 기반으로 연관불균형(linkage disequilibrium, LD) 프록시를 통해 산출된 LD값을 상관지수(

Figure 112023006086357-pat00021
)로 산출할 수 있다.According to an embodiment of the present invention, based on the P-value for each SNP included in the disease-causing SNP list, the LD value calculated through a linkage disequilibrium (LD) proxy is correlated jisoo(
Figure 112023006086357-pat00021
) can be calculated.

기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트한다(S50).AUC values of polygene risk scores calculated for each of a plurality of combinations included in the function-oriented annotation information are calculated, and the SNP list included in the combination showing the highest AUC value is updated to the list of disease-causing SNPs (S50).

본 발명의 일 실시예에 따르면 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, the AUC value of the polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information is calculated, and the SNP list included in the combination showing the highest AUC value is updated to the disease-causing SNP list. can do.

본 발명의 일 실시예에 따르면 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수에 대한 AUC를 산출할 수 있으며, 산출된 AUC가 높을수록 높은 신뢰도를 가진다고 판단하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, it is possible to calculate the AUC for the polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information, and the higher the calculated AUC, the higher the reliability, and the highest AUC value The SNP list included in the combination showing can be updated with a list of disease-causing SNPs.

본 발명의 일 실시예에 따르면 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수에 대하여 산출된 AUC가 0.7을 넘는 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, an SNP list included in a combination with an AUC exceeding 0.7 calculated for a polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information can be updated to a list of disease-causing SNPs. .

본 발명의 일 실시예에 따르면 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 다유전자 위험점수에 대하여 산출된 AUC가 0.7을 넘는 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트할 수 있다.According to an embodiment of the present invention, an SNP list included in a combination with an AUC exceeding 0.7 calculated for a polygenic risk score calculated for each of a plurality of combinations included in the function-oriented annotation information can be updated to a list of disease-causing SNPs. .

본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Embodiments of the present invention are not implemented only through the devices and / or methods described above, and the embodiments of the present invention have been described in detail above, but the scope of the present invention is not limited thereto, and the following claims Various modifications and improvements of those skilled in the art using the basic concept of the present invention defined in , also belong to the scope of the present invention.

Claims (26)

유전체 데이터 분석을 통해 특정 질병과 관련성이 있는 것으로 선별된 복수의 SNP에 대한 리스트를 질병 유발 SNP 리스트로 선정하는 질병 유발 SNP 리스트 선정부;
상기 질병 유발 SNP 리스트에 포함된 복수의 SNP간의 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하고, 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 생성된 복수의 조합을 대상으로 주석 점수 기준으로 연관성 가중치를 산출하며, 상기 각 조합별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하여 각 조합별 기능지향적 주석정보를 생성하는 기능지향적 주석 정보 생성부; 및
상기 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 상기 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트하는 질병 유발 SNP 리스트 업데이트부를 포함하고,
상기 기능지향적 주석 정보 생성부는,
상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값을 기준으로 각 SNP별 P-값을 기반으로 연관불균형(linkage disequilibrium, LD) 프록시를 통해 산출된 LD값을 상관지수(
Figure 112023033657553-pat00029
)로 산출하고,
상기 질병 유발 SNP 리스트에 포함된 SNP들의 P-값 및 상기 P-값에 따른 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하는 SNP 필터링부를 더 포함하며,
상기 SNP 필터링부는,
질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 상관지수가 제1 임계 값 이하인 SNP를 독립적으로 영향력을 미치는 유의한 SNP로 판단하여 독립 SNP로 선정하는 독립 SNP 선정부;
상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 상기 독립 SNP로 선정된 SNP 중에서 다른 독립 SNP와의 상관지수가 제2 임계값 이하인 SNP를 SNP간의 물리적인 거리는 유의미하나 상관관계가 작아 단독으로 영향을 미치는 SNP로 판단하여 리드 SNP로 선정하는 리드 SNP 선정부; 및
상기 질병 유발 SNP 리스트에 포함된 SNP 중에서 상기 독립 SNP로 선정된 SNP와 상관지수가 제3 임계값 이상인 SNP를 독립 SNP와의 직접적인 관계를 파악되진 않아도 유의미할 가능성이 높은 SNP로 판단하여 후보 SNP로 선정하는 후보 SNP 선정부를 더 포함하는 것을 특징으로 하는 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
a disease-causing SNP list selection unit that selects a list of a plurality of SNPs selected to be related to a specific disease through genome data analysis as a disease-causing SNP list;
Based on the correlation index between the plurality of SNPs included in the disease-causing SNP list, SNPs included in the disease-causing SNP list are filtered to select independent SNPs, lead SNPs, and candidate SNP lists, and the selected independent SNPs, lead SNPs, For multiple combinations generated using the candidate SNP list, the association weight is calculated based on the annotation score, and the association weight for each combination and the number of risk alleles of the SNP included in the SNP list of each combination are used to calculate multiple genes. a function-oriented annotation information generation unit for generating function-oriented annotation information for each combination by calculating a risk score; and
Disease-causing SNP list update to update the SNP list included in the combination with the highest AUC value by calculating the AUC value of the polygene risk score calculated for each of a plurality of combinations included in the function-oriented annotation information to the disease-causing SNP list including wealth,
The function-oriented annotation information generating unit,
Based on the P-value for each SNP included in the disease-causing SNP list, the LD value calculated through the linkage disequilibrium (LD) proxy based on the P-value for each SNP is the correlation index (
Figure 112023033657553-pat00029
), calculated as
SNP filtering for selecting independent SNPs, lead SNPs, and candidate SNP lists by filtering the SNPs included in the disease-causing SNP list based on the P-values of the SNPs included in the disease-causing SNP list and the correlation index according to the P-value contains more wealth,
The SNP filtering unit,
When the P-value for each SNP included in the list of disease-causing SNPs is a value obtained by GWAS analysis of genome data, SNPs whose correlation index calculated through linkage disequilibrium using the P-value for each SNP is equal to or less than the first threshold value are selected. An independent SNP selection unit that determines a significant SNP that has an independent influence and selects it as an independent SNP;
When the P-value for each SNP included in the disease-causing SNP list is a value obtained by GWAS analysis of genomic data, among the SNPs selected as independent SNPs, a SNP whose correlation index with other independent SNPs is less than the second threshold is selected as an SNP between SNPs. A lead SNP selector selecting a lead SNP by determining that the physical distance is significant but the correlation is small and the SNP has an independent effect; and
Among the SNPs included in the list of disease-causing SNPs, the SNPs selected as independent SNPs and the SNPs whose correlation index is higher than the third threshold are judged as highly likely to be significant even though no direct relationship with the independent SNPs has been identified, and are selected as candidate SNPs. Genomic data analysis accuracy improvement system through function-oriented annotation, characterized in that it further comprises a candidate SNP selection unit to.
제 1 항에 있어서 상기 질병 유발 SNP 리스트 선정부는,
상기 질병 유발 SNP 리스트로 선정된 SNP의 유전체 데이터 분석 결과 도출된 P-값에 대한 정보를 질병 유발 SNP 리스트에 포함하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
The disease-causing SNP list selection unit according to claim 1,
Genome data analysis accuracy improvement system through function-oriented annotation, characterized in that the information on the P-value derived as a result of genome data analysis of the SNP selected as the disease-causing SNP list is included in the disease-causing SNP list.
제 2 항에 있어서 상기 기능지향적 주석 정보 생성부는,
선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트별로 리스트에 포함된 SNP에 대해 외부 데이터 베이스로부터 SNP 관련 데이터를 수신 받고, 상기 SNP 관련 데이터를 인공 신경망 기반의 주석점수 산출 모델에 입력하여 SNP 별로 미리 설정된 방법에 따라 주석 점수를 산출하는 주석점수 산출부;
상기 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 복수의 SNP 조합을 생성하고 상기 각 SNP 조합별로 상기 SNP 별 주석 점수에 상기 주석 점수의 산출의 기준이 된 외부 데이터베이스의 종류에 따라 가중치를 적용하여 각 SNP별 연관성 가중치를 산출하는 연관성 가중치 산출부;
상기 각 SNP별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하는 다유전자 위험점수 산출부를 더 포함하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
The function-oriented annotation information generating unit of claim 2,
For each SNP included in the list of selected independent SNPs, lead SNPs, and candidate SNPs, SNP-related data is received from an external database, and the SNP-related data is input into an artificial neural network-based annotation score calculation model in advance for each SNP. An annotation score calculation unit for calculating an annotation score according to a set method;
A plurality of SNP combinations are created using the list of independent SNPs, lead SNPs, and candidate SNPs, and a weight is applied to the annotation score for each SNP for each SNP combination according to the type of external database used as the basis for calculating the annotation score an association weight calculation unit that calculates an association weight for each SNP;
Further comprising a multi-gene risk score calculation unit that calculates a multi-gene risk score using the association weight for each SNP and the number of risk alleles of the SNP included in the SNP list of each combination, improving the accuracy of genome data analysis through function-oriented annotation system.
삭제delete 삭제delete 삭제delete 삭제delete 제 3 항에 있어서 상기 다유전자 위험점수 산출부는,
상기 각 조합에 포함된 P개의 SNP에 대하여 각 SNP의 위험 대립유전자의 수에 상기 각 조합의 연관성 가중치를 적용해 계산한 가중합을 각 조합의 다유전자 위험점수로 산출하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
The multi-gene risk score calculation unit of claim 3,
For the P SNPs included in each combination, the weighted sum calculated by applying the association weight of each combination to the number of risk alleles of each SNP is calculated as the polygenic risk score of each combination Function-oriented, characterized in that Genomic data analysis accuracy improvement system through annotation.
제 8 항에 있어서 상기 다유전자 위험점수 산출부는,
산출된 각 조합의 다유전자 위험점수를 각 조합에 대한 주석으로 기록되는 기능 지향적 주석을 생성하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
The multi-gene risk score calculator according to claim 8,
A system for improving the accuracy of genomic data analysis through function-oriented annotation, characterized by generating a function-oriented annotation recorded as an annotation for each combination of the calculated multigene risk score of each combination.
제 2 항에 있어서 상기 질병 유발 SNP 리스트 업데이트부는,
상기 복수의 조합별로 산출된 상기 다유전자 위험점수를 이용하여 ROC 커브를 생성할 수 있으며, 상기 ROC 커브의 AUC 값을 산출하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
The method of claim 2, wherein the disease-causing SNP list update unit,
An ROC curve can be generated using the multigene risk score calculated for each of the plurality of combinations, and an AUC value of the ROC curve is calculated. Genome data analysis accuracy improvement system through function-oriented annotation.
제 3 항에 있어서 상기 주석점수 산출부는,
외부 데이터 베이스로부터 수신한 질병 유발 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 대상으로 전체 대립유전자 중에서 특정한 대립 유전자를 가지는 염색체의 비율을 산출하고, 이중 더 적은 비율을 가지는 대립유전자의 염색체 비율이 1% 이상인 경우 유의미한 SNP로 식별하여 학습 데이터를 생성하고, 주석점수 산출 모델에 생성된 상기 학습 데이터를 입력하여 SNP 관련 데이터를 입력 받으면 주석 점수를 산출하도록 학습하는 주석점수 산출 모델 학습부를 더 포함하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
The annotation score calculation unit of claim 3,
The ratio of chromosomes having a specific allele among all alleles is calculated for the SNP-related data of the SNPs included in the list of disease-causing SNPs received from the external database, and the chromosome ratio of alleles with a smaller ratio is 1 % or more, a function further comprising an annotation score calculation model learning unit that identifies a significant SNP to generate training data, inputs the generated training data to an annotation score calculation model, and learns to calculate an annotation score upon receiving SNP-related data. A system for improving the accuracy of genomic data analysis through directional annotation.
제 11 항에 있어서 상기 주석점수 산출부는,
외부 데이터 베이스로부터 수신한 상기 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출 받는 주석점수 산출 모델 수행부를 더 포함하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
The method of claim 11, wherein the annotation score calculator,
Annotation score calculation model execution unit that inputs the SNP-related data of the SNPs included in the selected independent SNP, lead SNP, and candidate SNP list received from the external database into the annotation score calculation model and calculates annotation scores for each SNP. A system for improving the accuracy of genomic data analysis through feature-oriented annotation that includes
제 3 항에 있어서 상기 연관성 가중치 산출부는,
상기 각 SNP 조합별로 상기 SNP 별 주석 점수에 상기 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행하여 연관성 가중치를 산출하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 시스템.
The method of claim 3, wherein the association weight calculator,
Genome data analysis accuracy improvement system through function-oriented annotation, characterized in that for each SNP combination, a weight is applied to the annotation score for each SNP according to the type of the external database and a correlation weight is calculated by performing scaling on a value calculated .
유전체 데이터 분석을 통해 특정 질병과 관련성이 있는 것으로 선별된 복수의 SNP에 대한 리스트를 질병 유발 SNP 리스트로 선정하는 단계;
상기 질병 유발 SNP 리스트에 포함된 복수의 SNP간의 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하고, 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 생성된 복수의 조합을 대상으로 주석 점수 기준으로 연관성 가중치를 산출하며, 상기 각 조합별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하여 각 조합별 기능지향적 주석정보를 생성하는 단계; 및
상기 기능지향적 주석정보에 포함된 복수의 조합별로 산출된 상기 다유전자 위험점수의 AUC값을 산출하여 가장 높은 AUC값을 보인 조합에 포함된 SNP 리스트를 질병 유발 SNP 리스트로 업데이트하는 단계를 포함하고,
상기 질병 유발 SNP 리스트로 선정하는 단계는,
상기 질병 유발 SNP 리스트에 포함된 SNP들의 P-값 및 상기 P-값에 따른 상관지수를 기준으로 질병 유발 SNP 리스트에 포함된 SNP를 필터링하여 독립 SNP, 리드 SNP, 후보 SNP 리스트를 선정하는 SNP 필터링 단계를 더 포함하고,
상기 SNP 필터링 단계는,
상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값을 기준으로 각 SNP별 P-값을 기반으로 연관불균형(linkage disequilibrium, LD) 프록시를 통해 산출된 LD값을 상관지수(
Figure 112023033657553-pat00030
)로 산출하며,
상기 SNP 필터링 단계는,
상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 각 SNP별 P-값을 이용하여 연관불균형을 통해 산출된 상관지수가 제1 임계 값 이하인 SNP를 독립적으로 영향력을 미치는 유의한 SNP로 판단하여 독립 SNP로 선정하는 단계;
상기 질병 유발 SNP 리스트에 포함된 각 SNP별 P-값이 유전체 데이터를 GWAS 분석하여 얻어진 값인 경우에, 상기 독립 SNP로 선정된 SNP 중에서 다른 독립 SNP와의 상관지수가 제2 임계값 이하인 SNP를 SNP간의 물리적인 거리는 유의미하나 상관관계가 작아 단독으로 영향을 미치는 SNP로 판단하여 리드 SNP로 선정하는 단계; 및
상기 질병 유발 SNP 리스트에 포함된 SNP 중에서 상기 독립 SNP로 선정된 SNP와 상관지수가 제3 임계값 이상인 SNP를 독립 SNP와의 직접적인 관계를 파악되진 않아도 유의미할 가능성이 높은 SNP로 판단하여 후보 SNP로 선정하는 단계를 더 포함하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
Selecting a list of a plurality of SNPs selected to be related to a specific disease through genome data analysis as a disease-causing SNP list;
Based on the correlation index between the plurality of SNPs included in the disease-causing SNP list, SNPs included in the disease-causing SNP list are filtered to select independent SNPs, lead SNPs, and candidate SNP lists, and the selected independent SNPs, lead SNPs, For multiple combinations generated using the candidate SNP list, the association weight is calculated based on the annotation score, and the association weight for each combination and the number of risk alleles of the SNP included in the SNP list of each combination are used to calculate multiple genes. Calculating a risk score to generate function-oriented annotation information for each combination; and
Calculating an AUC value of the polygene risk score calculated for each of a plurality of combinations included in the function-oriented annotation information and updating an SNP list included in the combination showing the highest AUC value to a disease-causing SNP list,
The step of selecting the disease-causing SNP list,
SNP filtering for selecting independent SNPs, lead SNPs, and candidate SNP lists by filtering the SNPs included in the disease-causing SNP list based on the P-values of the SNPs included in the disease-causing SNP list and the correlation index according to the P-value Including more steps,
The SNP filtering step,
Based on the P-value for each SNP included in the disease-causing SNP list, the LD value calculated through the linkage disequilibrium (LD) proxy based on the P-value for each SNP is the correlation index (
Figure 112023033657553-pat00030
), calculated as
The SNP filtering step,
When the P-value for each SNP included in the disease-causing SNP list is a value obtained by GWAS analysis of genome data, the SNP whose correlation index calculated through linkage disequilibrium using the P-value for each SNP is equal to or less than the first threshold value Selecting as an independent SNP by determining as a significant SNP that has an independent influence;
When the P-value for each SNP included in the disease-causing SNP list is a value obtained by GWAS analysis of genome data, among the SNPs selected as the independent SNPs, a SNP whose correlation index with other independent SNPs is less than the second threshold is selected as the SNP between the SNPs. Selecting a lead SNP by determining a SNP that has a significant physical distance but a small correlation and has an independent effect; and
Among the SNPs included in the list of disease-causing SNPs, the SNPs selected as independent SNPs and the SNPs whose correlation index is higher than the third threshold are judged as highly likely to be significant even though no direct relationship with the independent SNPs has been identified, and are selected as candidate SNPs. Genomic data analysis accuracy improvement method through function-oriented annotation, characterized in that it further comprises the step of doing.
제 14 항에 있어서 상기 질병 유발 SNP 리스트로 선정하는 단계는,
상기 질병 유발 SNP 리스트로 선정된 SNP의 유전체 데이터 분석 결과 도출된 P-값에 대한 정보를 질병 유발 SNP 리스트에 포함하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
The step of selecting the disease-causing SNP list according to claim 14,
Genome data analysis accuracy improvement method through function-oriented annotation, characterized in that the information on the P-value derived as a result of genome data analysis of the SNP selected as the disease-causing SNP list is included in the disease-causing SNP list.
제 15 항에 있어서 상기 질병 유발 SNP 리스트로 선정하는 단계는,
선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트별로 리스트에 포함된 SNP에 대해 외부 데이터 베이스로부터 SNP 관련 데이터를 수신 받고, 상기 SNP 관련 데이터를 인공 신경망 기반의 주석점수 산출 모델에 입력하여 SNP 별로 미리 설정된 방법에 따라 주석 점수를 산출하는 단계;
상기 독립 SNP, 리드 SNP, 후보 SNP 리스트를 이용하여 복수의 SNP 조합을 생성하고 상기 각 SNP 조합별로 상기 SNP 별 주석 점수에 상기 주석 점수의 산출의 기준이 된 외부 데이터베이스의 종류에 따라 가중치를 적용하여 각 SNP별 연관성 가중치를 산출하는 단계;
상기 각 SNP별 연관성 가중치와 각 조합의 SNP 리스트에 포함된 SNP의 위험 대립유전자의 수를 이용해 다유전자 위험점수로 산출하는 단계를 더 포함하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
The step of selecting the disease-causing SNP list according to claim 15,
For each SNP included in the list of selected independent SNPs, lead SNPs, and candidate SNPs, SNP-related data is received from an external database, and the SNP-related data is input into an artificial neural network-based annotation score calculation model in advance for each SNP. Calculating annotation scores according to a set method;
A plurality of SNP combinations are generated using the list of independent SNPs, lead SNPs, and candidate SNPs, and a weight is applied to the annotation score for each SNP for each SNP combination according to the type of external database used as the basis for calculating the annotation score Calculating an association weight for each SNP;
Genome data analysis accuracy improvement method through function-oriented annotation, further comprising calculating a polygenic risk score using the association weight for each SNP and the number of risk alleles of the SNP included in the SNP list of each combination.
삭제delete 삭제delete 삭제delete 삭제delete 제 16 항에 있어서 상기 다유전자 위험점수로 산출하는 단계는,
상기 각 조합에 포함된 P개의 SNP에 대하여 각 SNP의 위험 대립유전자의 수에 상기 각 조합의 연관성 가중치를 적용해 계산한 가중합을 각 조합의 다유전자 위험점수로 산출하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
The step of calculating the polygenic risk score according to claim 16,
For the P SNPs included in each combination, the weighted sum calculated by applying the association weight of each combination to the number of risk alleles of each SNP is calculated as the polygenic risk score of each combination Function-oriented, characterized in that A method for improving the accuracy of genome data analysis through annotation.
제 21 항에 있어서 상기 다유전자 위험점수로 산출하는 단계는,
산출된 각 조합의 다유전자 위험점수를 각 조합에 대한 주석으로 기록되는 기능 지향적 주석을 생성하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
The step of calculating the polygenic risk score according to claim 21,
A method for improving the accuracy of genome data analysis through function-oriented annotation, characterized by generating a function-oriented annotation in which the calculated multigene risk score of each combination is recorded as an annotation for each combination.
제 15 항에 있어서 상기 질병 유발 SNP 리스트로 선정하는 단계는,
상기 복수의 조합별로 산출된 상기 다유전자 위험점수를 이용하여 ROC 커브를 생성할 수 있으며, 상기 ROC 커브의 AUC 값을 산출하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
The step of selecting the disease-causing SNP list according to claim 15,
An ROC curve may be generated using the multigene risk score calculated for each of the plurality of combinations, and an AUC value of the ROC curve is calculated.
제 16 항에 있어서 상기 주석 점수를 산출하는 단계는,
외부 데이터 베이스로부터 수신한 질병 유발 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 대상으로 전체 대립유전자 중에서 특정한 대립 유전자를 가지는 염색체의 비율을 산출하고, 이중 더 적은 비율을 가지는 대립유전자의 염색체 비율이 1% 이상인 경우 유의미한 SNP로 식별하여 학습 데이터를 생성하고, 주석점수 산출 모델에 생성된 상기 학습 데이터를 입력하여 SNP 관련 데이터를 입력 받으면 주석 점수를 산출하도록 학습하는 단계를 더 포함하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
The method of claim 16, wherein the calculating of the annotation score comprises:
The ratio of chromosomes having a specific allele among all alleles is calculated for the SNP-related data of the SNPs included in the list of disease-causing SNPs received from the external database, and the chromosome ratio of alleles with a smaller ratio is 1 % or more, generating training data by identifying it as a significant SNP, inputting the generated training data into an annotation score calculation model, and learning to calculate an annotation score when SNP-related data is input through function-oriented annotation. A method for improving the accuracy of genomic data analysis.
제 16 항에 있어서 상기 주석 점수를 산출하는 단계는,
외부 데이터 베이스로부터 수신한 상기 선정된 상기 독립 SNP, 리드 SNP, 후보 SNP 리스트에 포함된 SNP의 SNP 관련 데이터를 주석점수 산출 모델에 입력하여 각 SNP별로 주석 점수를 산출 받는 단계를 더 포함하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
The method of claim 16, wherein the calculating of the annotation score comprises:
Function-oriented further comprising the step of calculating annotation scores for each SNP by inputting SNP-related data of SNPs included in the selected independent SNP, lead SNP, and candidate SNP list received from an external database into an annotation score calculation model A method for improving the accuracy of genome data analysis through annotation.
제 16 항에 있어서 있어서 상기 SNP별 연관성 가중치를 산출하는 단계는,
상기 각 SNP 조합별로 상기 SNP 별 주석 점수에 상기 외부 데이터베이스의 종류에 따라 가중치를 적용하여 산출 된 값에 스케일링을 수행하여 연관성 가중치를 산출하는 것을 특징으로 하는 기능 지향적 주석을 통한 유전체 데이터 분석 정확도 향상 방법.
The method of claim 16, wherein calculating the association weight for each SNP comprises:
Genome data analysis accuracy improvement method through function-oriented annotation, characterized in that for each SNP combination, a weight is applied to the annotation score for each SNP according to the type of the external database and a value calculated by scaling is calculated to calculate an association weight .
KR1020230006519A 2023-01-17 2023-01-17 genomic data analysis accuracy improvement system through functional annotation and method therefor KR102533694B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230006519A KR102533694B1 (en) 2023-01-17 2023-01-17 genomic data analysis accuracy improvement system through functional annotation and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230006519A KR102533694B1 (en) 2023-01-17 2023-01-17 genomic data analysis accuracy improvement system through functional annotation and method therefor

Publications (1)

Publication Number Publication Date
KR102533694B1 true KR102533694B1 (en) 2023-05-18

Family

ID=86545267

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230006519A KR102533694B1 (en) 2023-01-17 2023-01-17 genomic data analysis accuracy improvement system through functional annotation and method therefor

Country Status (1)

Country Link
KR (1) KR102533694B1 (en)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hufeng Zhou 외, FAVOR: functional annotation of variants online resource and annotator for variation across the human genome, NAR, 2022.11.09., Vol.51, pp.D1300-D1311.* *
Jianhui Gao 외, Integrating variant functional annotation scores have varied abilities to improve power of genome-wide association studies, Scientific Reports, 2022.06.24., Vol.12, No.10720, pp.1-17.* *
Shing Wan Choi 외, A guide to performing Polygenic Risk Score analyses, Nat Protoc., 2020.09.01., Vol.15, No.9, pp.1-26.* *

Similar Documents

Publication Publication Date Title
Alachiotis et al. RAiSD detects positive selection based on multiple signatures of a selective sweep and SNP vectors
KR101542529B1 (en) Examination methods of the bio-marker of allele
JP5479431B2 (en) Biomarker extraction apparatus and method
Hassan et al. Evaluation of computational techniques for predicting non-synonymous single nucleotide variants pathogenicity
KR101460520B1 (en) Detecting method for disease markers of NGS data
CN110832510A (en) Variant classifier based on deep learning
KR102351306B1 (en) risk SNPs information generating apparatus for each disease based on disease-related SNPs analysis and method therefor
KR102382707B1 (en) disease onset information generating apparatus based on time-dependent correlation using polygenic risk score and method therefor
CN106033502A (en) Virus identification method and device
Yang et al. Epistasis analysis using an improved fuzzy C-means-based entropy approach
KR20150024232A (en) Examination methods of the origin marker of resistance from drug resistance gene about disease
Xiao et al. Modified screening and ranking algorithm for copy number variation detection
Flassig et al. An effective framework for reconstructing gene regulatory networks from genetical genomics data
Andersson et al. Assessing how multiple mutations affect protein stability using rigid cluster size distributions
US20230073973A1 (en) Deep learning based system and method for prediction of alternative polyadenylation site
KR102533694B1 (en) genomic data analysis accuracy improvement system through functional annotation and method therefor
Yang et al. Catfish Taguchi-based binary differential evolution algorithm for analyzing single nucleotide polymorphism interactions in chronic dialysis
Cui et al. A novel computational method for the identification of plant alternative splice sites
CN114446393B (en) Method, electronic device and computer storage medium for predicting liver cancer feature type
Won et al. EnsemPro: an ensemble approach to predicting transcription start sites in human genomic DNA sequences
CN114300036A (en) Genetic variation pathogenicity prediction method and device, storage medium and computer equipment
KR20030032395A (en) Method for Analyzing Correlation between Multiple SNP and Disease
CN117425937A (en) Predictive method for determining the pathogenicity of a combination of double-or oligogenic variants
KR20200135221A (en) Method and apparatus of estimating a genotype using ngs data
Zhang et al. An extended Tajima’s D neutrality test incorporating SNP calling and imputation uncertainties

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant