KR102371654B1 - Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof - Google Patents

Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof Download PDF

Info

Publication number
KR102371654B1
KR102371654B1 KR1020190126464A KR20190126464A KR102371654B1 KR 102371654 B1 KR102371654 B1 KR 102371654B1 KR 1020190126464 A KR1020190126464 A KR 1020190126464A KR 20190126464 A KR20190126464 A KR 20190126464A KR 102371654 B1 KR102371654 B1 KR 102371654B1
Authority
KR
South Korea
Prior art keywords
marker
risk
genetic
information
prostate cancer
Prior art date
Application number
KR1020190126464A
Other languages
Korean (ko)
Other versions
KR20200105373A (en
Inventor
김은애
우은진
Original Assignee
주식회사 프로카젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190024387A external-priority patent/KR102068666B1/en
Application filed by 주식회사 프로카젠 filed Critical 주식회사 프로카젠
Priority to KR1020190126464A priority Critical patent/KR102371654B1/en
Publication of KR20200105373A publication Critical patent/KR20200105373A/en
Application granted granted Critical
Publication of KR102371654B1 publication Critical patent/KR102371654B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 유전정보를 이용하여 전립선암의 위험점수를 산출하기 위한 산출장치, 산출방법 및 이의 기록매체에 관한 것이다. 위험점수 산출장치의 전립선 암 위험도 산출 방법은 피험자의 유전 정보 및 인종 정보를 입력 받는 단계, 유전 정보 및 인종 정보를 이용하여 상기 인종 정보에 대응하는 가중치 위험도 모델을 결정하는 단계 및 가중치 위험도 모델을 이용하여 유전위험 점수를 산출하는 단계를 포함한다.The present invention relates to a calculation device, calculation method, and a recording medium thereof for calculating a risk score for prostate cancer using genetic information. The prostate cancer risk calculation method of the risk score calculation device includes the steps of receiving genetic information and race information of a subject, determining a weighted risk model corresponding to the race information using the genetic information and race information, and using a weighted risk model and calculating a genetic risk score.

Description

유전 변이의 개수에 따른 예측력을 고려한 전립선암 유전위험점수 산출장치, 산출방법 및 이의 기록매체{Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof}Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium

본 발명은 유전정보를 이용하여 전립선암의 위험점수를 산출하기 위한 산출장치, 산출방법 및 이의 기록매체에 관한 것이다.The present invention relates to a calculation device, calculation method, and a recording medium thereof for calculating a risk score for prostate cancer using genetic information.

전립선암은 한국에서 남성 암 유병률 3위 및 발병률 4위인 암종으로 남성 사망의 주된 원인이 되고 있다. 이에 종래에는 전립선암을 예측하기 위해 유전정보를 이용하는 등의 연구가 진행되어왔다. Prostate cancer is the third most common and fourth most common cancer in men in Korea, and is the leading cause of death in men. Accordingly, studies such as using genetic information to predict prostate cancer have been conducted in the prior art.

한편, 전립선암의 발병율과 그로 인한 사망율은 전세계적으로 큰 차이를 나타내는데, 미국과 유럽 남성의 발병율이 높고, 특히 아프리카계 미국인의 사망율이 가장 높게 나타나는 반면에, 아시아인의 발병율과 사망율은 상대적으로 낮은 편이다. 이러한 인종별 발병률의 차이는 전립선암 발병이 환경적 차이뿐만 아니라 유전적 이질성(heterogeneity)에 기인할 가능성을 시사한다.On the other hand, the incidence and mortality rates of prostate cancer vary widely worldwide. Men in the United States and Europe have the highest incidence rates, and African Americans have the highest mortality rates, whereas the incidence and mortality rates in Asians are relatively high. It is low. This difference in the incidence rate by race suggests that the incidence of prostate cancer is likely due to genetic heterogeneity as well as environmental differences.

따라서 유전적 이질성에 의한 인종 간의 차이를 반영하여 전립선암 발병의 위험성을 판단할 필요성이 대두된다.Therefore, there is a need to determine the risk of prostate cancer by reflecting racial differences due to genetic heterogeneity.

본 발명은 상술한 필요성에 따른 것으로, 유전 정보를 이용한 인종 별 전립선암을 예측하기 위해 유전위험도 점수를 산출하는 장치, 방법 및 기록매체를 제공하는 것을 목적으로 한다.An object of the present invention is to provide an apparatus, method, and recording medium for calculating a genetic risk score in order to predict prostate cancer by race using genetic information.

또한 본 발명은 전립선암 발생에 유의미한 영향을 주는 대표 유전 변이들에 대해 상이한 가중치를 부여하여 정확한 유전위험도 점수를 산출하는 장치, 방법 및 기록매체를 제공하는 것을 목적으로 한다.Another object of the present invention is to provide an apparatus, method, and recording medium for calculating an accurate genetic risk score by assigning different weights to representative genetic mutations that have a significant effect on the occurrence of prostate cancer.

그러나 이러한 과제는 예시적인 것으로, 이에 의해 본 발명의 범위가 한정되는 것은 아니다.However, these problems are exemplary, and the scope of the present invention is not limited thereto.

본 발명의 일 실시 예에 따른 전립선 암 위험도 산출 방법은 피험자의 유전 정보 및 상기 피험자의 인종 정보를 입력 받는 단계; 상기 유전 정보 및 상기 인종 정보에 대응하는 가중치 위험도 모델을 결정하는 단계; 및 상기 가중치 위험도 모델을 이용하여 유전위험 점수를 산출하는 단계;를 포함할 수 있다. A method for calculating the risk of prostate cancer according to an embodiment of the present invention includes: receiving genetic information of a subject and race information of the subject; determining a weighted risk model corresponding to the genetic information and the race information; and calculating a genetic risk score using the weighted risk model.

또한, 상기 가중치 위험도 모델을 결정하는 단계는, 상기 유전 정보에 포함된 염기서열의 특정 SNP(단일염기다형성)를 확인하는 단계; 상기 인종 정보에 따라 상기 유전 정보에 포함된 적어도 하나의 SNP에 대하여 최적의 SNP 마커 세트를 결정하는 단계; 및 상기 인종 정보에 대응하는 상기 가중치를 결정하는 단계;를 더 포함할 수 있다. In addition, the determining of the weighted risk model may include: identifying a specific SNP (single nucleotide polymorphism) of a nucleotide sequence included in the genetic information; determining an optimal SNP marker set for at least one SNP included in the genetic information according to the race information; and determining the weight corresponding to the race information.

또한, 상기 특정 SNP는 rs16901979, rs1512268, rs4430796 및 rs2735739를 포함할 수 있다. In addition, the specific SNP may include rs16901979, rs1512268, rs4430796 and rs2735739.

또한, 상기 가중치 위험도 모델은 상기 유전 정보에 포함된 각각의 SNP에 대해 위험대립 유전자(risk allele)의 개수에 따라, 동형 비-위험성 대립유전자(homozygous of non-risk alleles)는 0, 이형 대립유전자(heterozygous of alleles)는 1, 동형 위험성 대립유전자(homozygous of the risk alleles)는 2의 세부 점수를 부여하고, 상기 세부 점수에 대하여 상기 SNP 각각에 대응하는 가중치를 부여할 수 있다. In addition, in the weighted risk model, according to the number of risk alleles for each SNP included in the genetic information, homozygous of non-risk alleles is 0, heterozygous alleles (heterozygous of alleles) may be assigned a detailed score of 1, homozygous of the risk alleles may be assigned a detailed score of 2, and a weight corresponding to each of the SNPs may be assigned to the detailed score.

또한, 상기 위험도 산출 방법은 상기 산출된 유전위험 점수를 ROC(Receiver Operating Characteristics)를 통해 검증하는 단계;를 더 포함하고, 상기 검증 결과, 기설정된 AUC(Area under the curve) 값을 초과하는 유전위험 점수를 상기 유전위험 점수로 결정할 수 있다. In addition, the risk calculation method further includes the step of verifying the calculated genetic risk score through Receiver Operating Characteristics (ROC), and as a result of the verification, the genetic risk exceeding a preset Area under the curve (AUC) value The score can be determined as the genetic risk score.

한편, 본 발명의 일 실시예에 따른 기록매체는 상기 전립선 암 위험도 산출 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체일 수 있다.Meanwhile, the recording medium according to an embodiment of the present invention may be a computer-readable recording medium in which a program for executing the method for calculating the risk of prostate cancer is recorded.

전술한 것 외의 다른 측면, 특징, 이점은 이하의 발명을 실시하기 위한 구체적인 내용, 청구범위 및 도면으로부터 명확해질 것이다.Other aspects, features, and advantages other than those described above will become apparent from the following detailed description, claims and drawings for carrying out the invention.

상기한 바와 같이 이루어진 본 발명의 일 실시예에 따르면, 인종 별로 상이한 가중치 모델을 적용함으로써 피험자 인종 특이성을 반영한 전립선암 위험점수를 산출할 수 있다. According to an embodiment of the present invention made as described above, a prostate cancer risk score reflecting the subject's racial specificity may be calculated by applying a different weighting model for each race.

특히, 본 발명의 일 실시예에 따르면, 유전 정보 중 특정 유전변이에 대하여 가중치를 부여함으로써 정밀한 위험도를 산출할 수 있다. In particular, according to an embodiment of the present invention, it is possible to accurately calculate the risk by assigning a weight to a specific genetic mutation among genetic information.

물론 이러한 효과에 의해 본 발명의 범위가 한정되는 것은 아니다.Of course, the scope of the present invention is not limited by these effects.

도 1은 본 발명의 일 실시예예 따른 전립선암 유전위험점수 산출 시스템을 설명하기 위한 시스템도이다.
도 2는 본 발명의 일 실시예에 따른 산출장치의 구성요소를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 유전위험 점수를 산출하는 방법을 설명하기 위한 흐름도이다.
도 4는 발견(discovery) GWAS(Genome Wide Association Study) 단계에서의 맨하탄 플롯(Manhattan plots)의 총괄자료를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 유전위험 점수 계산에 포함되는 후보 유전변이 목록을 도시한 도면이다.
도 6a 및 도 6b는 본 발명의 일 실시예에 따른 유전변이의 개수에 따른 예측력을 비교하기 위한 ROC(Receiver Operating Characteristic) 곡선을 도시한 도면이다.
도 7a 내지 7g는 본 발명의 일 실시예에 따른 가중치를 부여한 모델(weighted model)의 유전변이 개수에 따른 유전위험 점수(Genetic risk score, GRS)분포를 설명하기 위한 도면이다.
도 8a 내지 8g는 본 발명의 일 실시예에 따른 가중치를 부여하지 않은 모델(non-weighted model)의 유전변이 개수에 따른 GRS(Generic Risk Score) 분포를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 GRS 그룹 별 전립선암에 대한 교차비를 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 GRS 그룹 중 고위험군 그룹에서의 교차비를 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 상이한 인구집단의 가중위험점수 비교를 위해 포함되는 유전변이를 설명하기 위한 도면이다.
도 12a 및 12b는 본 발명의 일 실시예에 따른 가중치 위험도 모델을 유럽인 데이터 및 한국인 데이터에 적용하였을 때의 GRS 분포를 도시한 도면이다.
도 13a 및 13b는 본 발명의 일 실시예에 따른 가중치 위험도 모델을 유럽인 데이터 및 한국인 데이터에 적용하였을 때의 ROC 곡선을 도시한 도면이다.
1 is a system diagram illustrating a system for calculating a prostate cancer genetic risk score according to an embodiment of the present invention.
2 is a block diagram for explaining the components of a calculation device according to an embodiment of the present invention.
3 is a flowchart illustrating a method of calculating a genetic risk score according to an embodiment of the present invention.
4 is a diagram illustrating general data of Manhattan plots in the discovery GWAS (Genome Wide Association Study) stage.
5 is a diagram illustrating a list of candidate genetic mutations included in the genetic risk score calculation according to an embodiment of the present invention.
6A and 6B are diagrams illustrating a Receiver Operating Characteristic (ROC) curve for comparing predictive power according to the number of genetic variations according to an embodiment of the present invention.
7A to 7G are diagrams for explaining the distribution of a genetic risk score (GRS) according to the number of genetic variations of a weighted model according to an embodiment of the present invention.
8A to 8G are diagrams for explaining the distribution of a Generic Risk Score (GRS) according to the number of genetic variations in a non-weighted model according to an embodiment of the present invention.
9 is a diagram for explaining the odds ratio for prostate cancer for each GRS group according to an embodiment of the present invention.
10 is a diagram for explaining an odds ratio in a high-risk group among GRS groups according to an embodiment of the present invention.
11 is a diagram for explaining genetic variations included for comparison of weighted risk scores of different population groups according to an embodiment of the present invention.
12A and 12B are diagrams illustrating a GRS distribution when a weighted risk model according to an embodiment of the present invention is applied to European data and Korean data.
13A and 13B are diagrams illustrating ROC curves when the weighted risk model according to an embodiment of the present invention is applied to European data and Korean data.

이하, 본 개시의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 개시의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 본 개시의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.Hereinafter, various embodiments of the present disclosure are described in connection with the accompanying drawings. Various embodiments of the present disclosure are capable of various changes and may have various embodiments, and specific embodiments are illustrated in the drawings and the related detailed description is described. However, this is not intended to limit the various embodiments of the present disclosure to specific embodiments, and should be understood to include all modifications and/or equivalents or substitutes included in the spirit and scope of the various embodiments of the present disclosure. In connection with the description of the drawings, like reference numerals have been used for like components.

본 개시의 다양한 실시예에서 사용될 수 있는 "포함한다." 또는 "포함할 수 있다." 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 개시의 다양한 실시예에서, "포함하다." 또는 "가지다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.“Includes” can be used in various embodiments of the present disclosure. or "may include." Expressions such as etc. indicate the existence of the disclosed function, operation, or component, and do not limit one or more additional functions, operations or components. Also, in various embodiments of the present disclosure, "includes." Or "have." The term such as is intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and is intended to indicate that one or more other features or numbers, steps, operation, component, part or It should be understood that it does not preclude the possibility of the existence or addition of combinations thereof.

본 개시의 다양한 실시예에서 "또는" 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어, "A 또는 B"는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.In various embodiments of the present disclosure, expressions such as “or” include any and all combinations of the words listed together. For example, "A or B" may include A, may include B, or may include both A and B.

본 개시의 다양한 실시예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 실시예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들어, 제1 사용자 기기와 제2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다. 예를 들어, 본 개시의 다양한 실시예의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.Expressions such as “first”, “second”, “first”, or “second” used in various embodiments of the present disclosure may modify various components of various embodiments, but do not limit the components. does not For example, the above expressions do not limit the order and/or importance of corresponding components. The above expressions may be used to distinguish one component from another. For example, both the first user device and the second user device are user devices, and represent different user devices. For example, without departing from the scope of the various embodiments of the present disclosure, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.When an element is referred to as being "connected" or "connected" to another element, the element may be directly connected to or connected to the other element, but may be associated with the element. It should be understood that other new components may exist between the other components. On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it will be understood that no new element exists between the element and the other element. should be able to

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.In an embodiment of the present disclosure, terms such as “module”, “unit”, “part”, etc. are terms for designating a component that performs at least one function or operation, and these components are hardware or software. It may be implemented or implemented as a combination of hardware and software. In addition, a plurality of "modules", "units", "parts", etc. are integrated into at least one module or chip, and are integrated into at least one processor, except when each needs to be implemented in individual specific hardware. can be implemented as

본 개시의 다양한 실시예에서 사용한 용어는 단지 특정일 실시예를 설명하기 위해 사용된 것으로, 본 개시의 다양한 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.Terms used in various embodiments of the present disclosure are only used to describe one specific embodiment, and are not intended to limit the various embodiments of the present disclosure. The singular expression includes the plural expression unless the context clearly dictates otherwise.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시의 다양한 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which various embodiments of the present disclosure pertain.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 개시의 다양한 실시예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Terms such as those defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in various embodiments of the present disclosure, ideal or excessively formal terms not interpreted as meaning

이하에서, 첨부된 도면을 이용하여 본 발명의 다양한 실시 예들에 대하여 구체적으로 설명한다. Hereinafter, various embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예예 따른 전립선암 유전위험점수 산출 시스템을 설명하기 위한 시스템도이다. 1 is a system diagram illustrating a system for calculating a prostate cancer genetic risk score according to an embodiment of the present invention.

도 1을 참조하면, 산출 시스템은 위험점수 산출장치(100, 이하 산출장치), 서버(200), 단말기(301) 및 외부 기관(302)을 포함할 수 있다. Referring to FIG. 1 , the calculation system may include a risk score calculation device 100 (hereinafter referred to as calculation device), a server 200 , a terminal 301 , and an external organization 302 .

산출장치(100)는 데스크 탑 컴퓨터일 수 있으나, 이에 한정하지 않으며 유전 정보를 통해 전립선암 발병에 대한 위험점수를 산출하기 위한 방법을 수행하기 위한 프로그램을 실행시킬 수 있는 모든 종류의 전자장치일 수 있다. The calculator 100 may be a desktop computer, but is not limited thereto, and may be any type of electronic device capable of executing a program for performing a method for calculating a risk score for prostate cancer through genetic information. there is.

사용자 단말기(301)는 유무선 통신 환경에서 데이터를 송수신할 수 있는 통신 단말기를 의미한다. 여기서, 사용자 단말기(301)는 사용자의 퍼스널 컴퓨터 일 수도 있고, 사용자의 휴대용 단말기일 수도 있다. 사용자는 피험자일 수 있고, 피험자는 직접 유전 정보를 입력하여 서버(200)로 전송할 수 있다. The user terminal 301 refers to a communication terminal capable of transmitting and receiving data in a wired/wireless communication environment. Here, the user terminal 301 may be a user's personal computer or a user's portable terminal. The user may be a subject, and the subject may directly input genetic information and transmit it to the server 200 .

도 1에서는 사용자 단말기(301)는 휴대용 단말기가 스마트폰으로 도시되었지만 본 발명의 사상은 이에 제한되지 아니하며 상술한 바와 같이 통신망과 연결이 가능한 프로그램이 탑재되거나 통신 모듈과 연결된 모든 종류의 전자기기를 포함할 수 있다. 구체적으로 사용자 단말기(301)는 컴퓨터(예를 들면, 데스크톱, 랩톱, 태블릿 등), 미디어 컴퓨팅 플랫폼(예를 들면, 케이블, 위성 셋톱박스, 디지털 비디오 레코더), 핸드헬드 컴퓨팅 디바이스(예를 들면, PDA, 이메일 클라이언트 등), 핸드폰의 임의의 형태 또는 다른 종류의 컴퓨팅 또는 커뮤니케이션 플랫폼의 임의의 형태를 포함할 수 있으나, 본 발명이 이에 한정되는 것은 아니다. In FIG. 1, the user terminal 301 is illustrated as a mobile terminal as a smart phone, but the inventive concept is not limited thereto. As described above, a program capable of connecting to a communication network is loaded or includes all kinds of electronic devices connected to a communication module. can do. Specifically, the user terminal 301 is a computer (eg, desktop, laptop, tablet, etc.), a media computing platform (eg, cable, satellite set-top box, digital video recorder), a handheld computing device (eg, PDA, e-mail client, etc.), any type of mobile phone, or any other type of computing or communication platform, but the present invention is not limited thereto.

도 1에는 사용자 단말기(302)이 각각 단수로 도시되어 있으나, 본 발명의 일 실시예에 따르면 복수개의 사용자 단말기들이 직접 산출장치(100) 및 서버(200)와 연결될 수 있다. Although each user terminal 302 is illustrated in the singular in FIG. 1 , according to an embodiment of the present invention, a plurality of user terminals may be directly connected to the calculation device 100 and the server 200 .

기관(301)은 복수의 피험자의 유전 정보를 획득한 병원 및 공공기관일 수 있다. 기관(301)은 서버(200)로 복수의 피험자의 유전 정보에 대한 데이터베이스를 전송할 수 있고, 서버(200)는 수신한 데이터베이스를 바탕으로 전립선암 유전 위험 점수 산출을 위한 가중치 모델을 결정할 수 있다. The institution 301 may be a hospital or a public institution that has obtained genetic information of a plurality of subjects. The institution 301 may transmit a database of genetic information of a plurality of subjects to the server 200 , and the server 200 may determine a weight model for calculating a prostate cancer genetic risk score based on the received database.

산출장치(100)는 피험자의 유전 정보를 입력받고, 가중치 위험도 모델을 이용하여 피험자의 개인별 전립선 암 위험도 점수를 산출하는 장치일 수 있다. 본 발명의 일 실시예에 따르면 산출장치(100)는 피험자의 인종 정보를 획득하고, 인종 정보에 대응하는 가중치 위험도 모델을 결정하여 유전위험 점수를 산출할 수 있다. 이때 인종 정보는 사용자에 의해 산출장치(100)에 입력된 것일 수 있으나, 이에 한정하지 않으며, 사용자에 의해 사용자 단말기(301)에 입력된 것일 수 있다. The calculator 100 may be a device that receives genetic information of a subject and calculates an individual prostate cancer risk score of the subject by using a weighted risk model. According to an embodiment of the present invention, the calculator 100 may obtain the subject's race information, determine a weighted risk model corresponding to the race information, and calculate the genetic risk score. In this case, the race information may be input to the calculation device 100 by the user, but is not limited thereto, and may be input to the user terminal 301 by the user.

본 발명의 또 다른 실시예에 따르면, 산출장치(100)는 유전 정보에 포함된 염기서열의 특정 SNP(단일염기다형성)를 확인할 수 있다. 이때, 특정 SNP는 rs16901979, rs1512268, rs4430796 및 rs2735739를 포함하는 것일 수 있다. According to another embodiment of the present invention, the calculator 100 may identify a specific SNP (single nucleotide polymorphism) of a nucleotide sequence included in the genetic information. In this case, the specific SNP may include rs16901979, rs1512268, rs4430796 and rs2735739.

한편, 가중치 위험도 모델은 서버(200)로부터 수신한 것일 수 있다. 즉, 서버(200)는 단말기(301) 및 외부 기관(302)으로부터 수신한 데이터베이스를 바탕으로 전립선암을 예측하기 위한 가중치 위험도 모델을 결정할 수 있고, 이를 산출장치(100)로 전송할 수 있다. Meanwhile, the weighted risk model may be received from the server 200 . That is, the server 200 may determine a weighted risk model for predicting prostate cancer based on the database received from the terminal 301 and the external organ 302 , and transmit it to the calculator 100 .

구체적으로 서버(200)는 전립선암 관련 유전변이 탐색할 수 있다. 구체적으로 서버(200)는 60,276개의 유전변이에 대해 Discovery set 에서 전립선암 환자(998명)-정상 대조군(2,641명) 비교할 수 있다. 또한, 서버(200)는 재현(Replication)을 위한 유전 변이 17개를 추출할 수 있다. 서버(200)는 데이터베이스 및 유전 변이를 기초로 가중치 위험도 모델을 결정할 수 있다. Specifically, the server 200 may search for prostate cancer-related genetic mutations. Specifically, the server 200 can compare prostate cancer patients (998 people)-normal controls (2,641 people) in the discovery set for 60,276 genetic mutations. Also, the server 200 may extract 17 genetic mutations for replication. The server 200 may determine a weighted risk model based on the database and genetic variation.

본 발명의 일 실시예예 따르면, 서버(200)는 17개의 변이 중에서 9개의 대표 변이로 추출하여 새로운 독립적인 자료원(replication set: 전립선암 환자 (514명) + 정상 대조군 (548명))으로 가중유전위험점수를 계산할 수 있다. 이때, 서버(200)는 특정 유전 변이를 통해 전립선암과 관련된 유전위험점수를 산출할 수 있다. 이때, 대표 변이를 추출하는 과정에 있어서, 인종 별로 구분된 유전 변이가 고려될 수 있다.According to an embodiment of the present invention, the server 200 extracts 9 representative mutations out of 17 mutations and weighted inheritance as a new independent data source (replication set: prostate cancer patients (514 patients) + normal controls (548 people))) A risk score can be calculated. In this case, the server 200 may calculate a genetic risk score related to prostate cancer through a specific genetic mutation. In this case, in the process of extracting the representative mutation, the genetic mutation divided by race may be considered.

서버(200)는 유전 변이의 발생 횟수에 가중치를 부여할 수 있으나, 이에 한정하지 않는다. 본 발명의 일 실시예에 따르면, 서버(200)는 유전 변이의 중요도(또는 질병에 기여하는 정도)에 따라 가중치를 부여할 수 있다. 즉, 서버(200)는 유전 변이와의 연관성 정도를 나타내는 교차비에 로그(logarithm)를 취한 값을 가중치로 사용할 수 있다. The server 200 may give weight to the number of occurrences of the genetic mutation, but is not limited thereto. According to an embodiment of the present invention, the server 200 may assign weights according to the importance (or degree of contribution to disease) of the genetic mutation. That is, the server 200 may use a value obtained by taking a logarithm of an odds ratio indicating the degree of association with the genetic variation as a weight.

본 발명의 일 실시예에 따르면, 서버(200)는 인공지능 모델을 이용하여 가중치 위험도 모델을 학습시킬 수 있다. 이때 인공지능 모델은 CNN, RNN, BNN 등을 포함하는 다양한 딥러닝 알고리즘일 수 있으나, 이에 한정하지 않는다.According to an embodiment of the present invention, the server 200 may learn a weighted risk model using an artificial intelligence model. At this time, the artificial intelligence model may be various deep learning algorithms including CNN, RNN, BNN, etc., but is not limited thereto.

또한, 상기 가중치 위험도 모델은 상기 유전 정보에 포함된 각각의 SNP에 대해 위험대립 유전자(risk allele)의 개수에 따라, 동형 비-위험성 대립유전자(homozygous of non-risk alleles)는 0, 이형 대립유전자(heterozygous of alleles)는 1, 동형 위험성 대립유전자(homozygous of the risk alleles)는 2의 세부 점수를 부여하고, 세부 점수에 대하여 SNP 각각에 대응하는 가중치를 부여하는 모델일 수 있으나, 이에 한정하지 않는다. 이에 대하여 추후 상세히 설명하기로 한다. In addition, in the weighted risk model, according to the number of risk alleles for each SNP included in the genetic information, homozygous of non-risk alleles is 0, heterozygous alleles (heterozygous of alleles) may be a model in which a detailed score of 1 and homozygous of the risk alleles is given, and a weight corresponding to each SNP is given to the detailed score, but is not limited thereto . This will be described in detail later.

본 발명의 일 실시예에 따른 산출장치(100)는 계산기와 같은 형태로 구현될 수 있다. 즉, 산출장치(100)는 유전 변이와 관련된 유전 정보 값을 입력 받고, 입력된 값들로부터 산출된 전립선암 위험도 및/또는 가이드 라인 등을 디스플레이를 통해 출력할 수 있다. The calculator 100 according to an embodiment of the present invention may be implemented in the form of a calculator. That is, the calculator 100 may receive a genetic information value related to the genetic mutation, and output the prostate cancer risk and/or guideline calculated from the input values through the display.

본 발명의 일 실시예에 따른 산출장치(100)는 전립선암과 관련된 유전 변이 종류를 변경할 수 있다. 산출장치(100)는 사용자 정보, 예를 들면 나이, 성별, 인종 등에 대한 정보에 따라서 가중치 모델에 반영할 유전 변이 종류를 변경할 수 있다.The calculator 100 according to an embodiment of the present invention may change the type of genetic mutation associated with prostate cancer. The calculator 100 may change the type of genetic variation to be reflected in the weight model according to user information, for example, information on age, gender, race, and the like.

이때, 산출장치(100)는 서버(200)와 연동하여 서버(200)에서 설정된 다양한 가중치 모델 중 사용자 정보에 대응되는 가중치 모델을 결정할 수 있다. 예를 들면, 산출장치(100)는 입력된 피험자의 인종이 유럽인이라고 판단하면, 서버(200)로부터 유럽인에 대응되는 유전 변이에 가중치를 부여한 가중치 모델을 수신하고, 피험자의 전립선암 위험점수를 산출할 수 있다. In this case, the calculator 100 may determine a weight model corresponding to user information from among various weight models set in the server 200 in cooperation with the server 200 . For example, if it is determined that the input subject's race is European, the calculator 100 receives a weighted model in which weights are given to genetic variations corresponding to Europeans from the server 200, and calculates the subject's prostate cancer risk score. can do.

본 발명의 또 다른 실시예에 따른 산출장치(100)는 사용자 또는 피험자의 신체 정보, 생활 정보와 전립선암 위험 점수 사이의 관계를 추론하여 가중치 모델을 설정할 수 있다. 예를 들면, 산출장치(100)는 피험자가 흡연자인 경우, 해당 생활 정보에 대응되는 유전 변이에 가중치를 부여한 가중치 모델을 이용하여 전립선암의 위험점수를 계산할 수 있다. 이 경우에도 산출장치(100)는 서버(200)와 연동하여 다양한 가중치 모델을 사용할 수 있다. The calculator 100 according to another embodiment of the present invention may set a weight model by inferring a relationship between the user's or subject's body information, life information, and a prostate cancer risk score. For example, when the subject is a smoker, the calculator 100 may calculate a risk score for prostate cancer by using a weighted model in which a weight is assigned to a genetic variation corresponding to the living information. Even in this case, the calculator 100 may use various weight models in conjunction with the server 200 .

도 2는 본 발명의 일 실시예에 따른 산출장치의 구성요소를 설명하기 위한 블록도이다. 2 is a block diagram for explaining the components of a calculation device according to an embodiment of the present invention.

도 2를 참조하면, 산출장치(100)는 통신부(110), 입력부(120), 메모리(130), 디스플레이(140) 및 프로세서(150)를 포함할 수 있다. Referring to FIG. 2 , the calculator 100 may include a communication unit 110 , an input unit 120 , a memory 130 , a display 140 , and a processor 150 .

통신부(110)는 서버(200), 사용자 단말기(301) 및 기관(302)를 비롯한 외부기관 및 장치와 데이터를 송수신하기 위한 구성이다. 통신부(100)는 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등의 근거리 통신부, 이동통신 망을 포함할 수 있다.The communication unit 110 is configured to transmit and receive data to and from external organizations and devices including the server 200 , the user terminal 301 , and the organization 302 . The communication unit 100 includes a Bluetooth communication unit, a BLE (Bluetooth Low Energy) communication unit, a near field communication unit, a WLAN (Wi-Fi) communication unit, a Zigbee communication unit, an infrared (IrDA, infrared Data Association) communication unit, a WFD ( It may include a Wi-Fi Direct) communication unit, an ultra wideband (UWB) communication unit, a short-distance communication unit such as an Ant+ communication unit, and a mobile communication network.

입력부(120)는 산출장치(100)에 다양한 정보를 입력하기 위한 사용자 인터페이스를 포함할 수 있다. 이때, 산출장치(100)에 입력되는 다양한 정보는 피험자의 유전 정보, 피험자의 나이, 성별, 인종 등에 대한 정보, 피험자의 생활 습관 정보 등을 포함할 수 있으나, 이에 한정되지 않는다. The input unit 120 may include a user interface for inputting various types of information into the calculation device 100 . In this case, the various information input to the calculation device 100 may include, but is not limited to, genetic information of the subject, information on the age, sex, race, etc. of the subject, and lifestyle information of the subject.

메모리(130)는 프로세서(150)의 처리 또는 제어를 위한 프로그램 등 산출장치(100) 전반의 동작을 위한 다양한 데이터를 저장할 수 있다. 메모리(130)는 산출장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 산출장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, 산출장치(100)의 기본적인 기능을 위하여 출고 당시부터 산출장치(100) 상에 존재할 수 있다. 응용 프로그램은, 메모리(130)에 저장되고, 프로세서(150)에 의하여 산출장치(100)의 동작(또는 기능)을 수행하도록 구동될 수 있다.The memory 130 may store various data for the overall operation of the calculation device 100 , such as a program for processing or controlling the processor 150 . The memory 130 may store a plurality of application programs (or applications) driven by the calculation device 100 , data for operation of the calculation device 100 , and commands. At least some of these application programs may be downloaded from an external server through wireless communication. Also, at least some of these application programs may exist on the calculation device 100 from the time of shipment for a basic function of the calculation device 100 . The application program is stored in the memory 130 and may be driven by the processor 150 to perform an operation (or function) of the calculation device 100 .

디스플레이(140)는 산출장치(100)가 가중치 위험도 모델을 통해 산출한 피험자의 전립선암 위험도 점수를 디스플레이할 수 있다. 본 발명의 일 실시예에 따르면 디스플레이(140)는 입력부(120)를 통해 입력된 정보들로부터 산출된 전립선암 위험도 점수를 표시할 수 있고, 이를 통해 피험자의 생활 습관에 대한 가이드 라인 등을 디스플레이를 통해 출력할 수 있다. The display 140 may display the prostate cancer risk score of the subject calculated by the calculator 100 through the weighted risk model. According to an embodiment of the present invention, the display 140 may display a prostate cancer risk score calculated from information input through the input unit 120, and through this, a guideline for the subject's lifestyle, etc. can be displayed on the display. can be printed through

디스플레이(140)는 다양한 형태의 디스플레이 패널로 구현될 수 있다. 예로, 디스플레이 패널은 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes), AM-OLED(Active-Matrix Organic Light-Emitting Diode), LcoS(Liquid Crystal on Silicon) 또는 DLP(Digital Light Processing) 등과 같은 다양한 디스플레이 기술로 구현될 수 있다. 또한, 디스플레이(140)는 플렉서블 디스플레이(flexible display)의 형태로 디스플레이 장치(140)의 전면 영역 및, 측면 영역 및 후면 영역 중 적어도 하나에 결합될 수도 있다. The display 140 may be implemented with various types of display panels. For example, the display panel is a liquid crystal display (LCD), organic light emitting diode (OLED), active-matrix organic light-emitting diode (AM-OLED), liquid crystal on silicon (LcoS), digital light processing (DLP), etc. It can be implemented with various display technologies. Also, the display 140 may be coupled to at least one of a front area, a side area, and a rear area of the display apparatus 140 in the form of a flexible display.

디스플레이(140)는 레이어 구조의 터치 스크린으로 구현될 수 있다. 터치 스크린은 디스플레이 기능뿐만 아니라 터치 입력 위치, 터치된 면적뿐만 아니라 터치 입력 압력까지도 검출하는 기능을 가질 수 있고, 또한 실질적인 터치(real-touch)뿐만 아니라 근접 터치(proximity touch)도 검출하는 기능을 가질 수 있다.The display 140 may be implemented as a touch screen having a layer structure. The touch screen may have a function of detecting not only a display function but also a touch input position and a touched area, as well as a touch input pressure, and also has a function of detecting a proximity touch as well as a real-touch. can

프로세서(150)는 산출장치(100)를 전반적으로 제어하기 위한 구성이다. 구체적으로, 프로세서(150)는 산출장치(100)의 메모리(130)에 저장된 각종 프로그램을 이용하여 산출장치(100)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(150)는 CPU, 램(RAM), 롬(ROM), 시스템 버스를 포함할 수 있다. 여기서, 롬은 시스템 부팅을 위한 명령어 세트가 저장되는 구성이고, CPU는 롬에 저장된 명령어에 따라 산출장치(100)의 메모리에 저장된 운영체제를 램에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU는 메모리(130)에 저장된 각종 애플리케이션을 램에 복사하고, 실행시켜 각종 동작을 수행할 수 있다. 이상에서는 프로세서(150)가 하나의 CPU만을 포함하는 것으로 설명하였지만, 구현 시에는 복수의 CPU(또는 DSP, SoC 등)으로 구현될 수 있다.The processor 150 is a configuration for controlling the calculation device 100 as a whole. Specifically, the processor 150 controls the overall operation of the calculation device 100 using various programs stored in the memory 130 of the calculation device 100 . For example, the processor 150 may include a CPU, a RAM, a ROM, and a system bus. Here, the ROM is a configuration in which an instruction set for system booting is stored, and the CPU copies the operating system stored in the memory of the calculation device 100 to the RAM according to the instructions stored in the ROM, and executes O/S to boot the system. . Upon completion of booting, the CPU may perform various operations by copying various applications stored in the memory 130 to the RAM and executing them. Although it has been described above that the processor 150 includes only one CPU, it may be implemented with a plurality of CPUs (or DSPs, SoCs, etc.).

본 발명의 일 실시 예에 따라, 프로세서(150)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(150)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.According to an embodiment of the present invention, the processor 150 may be implemented as a digital signal processor (DSP), a microprocessor, or a time controller (TCON) for processing a digital signal. Without limitation, a central processing unit (CPU), a micro controller unit (MCU), a micro processing unit (MPU), a controller, an application processor (AP), or a communication processor ( communication processor (CP)), may include one or more of an ARM processor, or may be defined as a corresponding term In addition, the processor 150 may include a system on chip (SoC), large scale integration (LSI) in which a processing algorithm is embedded. ) or implemented in the form of a field programmable gate array (FPGA).

본 발명의 일 실시예에 따르면 프로세서(150)는 인종 정보 획득부(151), 가중치위험도 모델 결정부(152), 유전위험점수 산출부(153) 및 위험도 검증부(154)를 포함할 수 있다. According to an embodiment of the present invention, the processor 150 may include a race information acquisition unit 151 , a weighted risk model determination unit 152 , a genetic risk score calculation unit 153 , and a risk verification unit 154 . .

인종 정보 획득부(151)는 입력된 피험자의 인종 정보를 획득하기 위한 구성이다. 이때, 메모리(130)에 저장된 데이터베이스에서 인종 정보를 획득할 수 있고, 통신부(110)를 통해 서버(200)로부터 인종 정보를 수신하여 획득할 수 있다.The race information acquisition unit 151 is configured to acquire the input race information of the subject. In this case, race information may be acquired from the database stored in the memory 130 , and race information may be obtained by receiving the race information from the server 200 through the communication unit 110 .

가중치 위험도 모델 결정부(152)는 피험자의 인종 정보에 대응하는 가중치 위험도 모델을 결정하기 위한 구성이다. 유전위험점수 산출부(153)는 결정된 가중치 위험도 모델을 통해 유전위험점수를 산출하기 위한 구성이며, 위험도 검증부(154)는 산출된 위험도 점수를 검증하여 가중치 위험도 모델의 성능을 평가하기 위한 구성이다. The weighted risk model determining unit 152 is configured to determine a weighted risk model corresponding to the subject's race information. The genetic risk score calculation unit 153 is configured to calculate a genetic risk score through the determined weighted risk model, and the risk verification unit 154 is configured to evaluate the performance of the weighted risk model by verifying the calculated risk score. .

인종 정보 획득부(151), 가중치위험도 모델 결정부(152), 유전위험점수 산출부(153) 및 위험도 검증부(154) 각각은 컴퓨팅 장치 상에서 프로그램을 실행하기 위해 필요한 프로세서(150) 등에 의해 각각 구현될 수 있다. 이처럼 인종 정보 획득부(151), 가중치위험도 모델 결정부(152), 유전위험점수 산출부(153) 및 위험도 검증부(154)는 물리적으로 독립된 각각의 구성에 의해 구현될 수도 있고, 하나의 프로세서 내에서 기능적으로 구분되는 형태로 구현될 수도 있다Each of the race information acquisition unit 151, the weighted risk model determination unit 152, the genetic risk score calculation unit 153, and the risk verification unit 154 is performed by the processor 150, etc., necessary to execute the program on the computing device. can be implemented. As such, the race information acquisition unit 151, the weight risk model determination unit 152, the genetic risk score calculation unit 153, and the risk level verification unit 154 may be implemented by physically independent components, and one processor It can also be implemented in a functionally distinct form within

한편, 도 1 및 도 2에서는 서버(200)는 산출장치(100)와 별도의 구성으로 구현된 것을 도시하였으나, 본 발명의 일 실시예에 따르면 서버(200)는 산출장치(100)와 하나의 구성으로 구현될 수 있다. Meanwhile, in FIGS. 1 and 2 , it is illustrated that the server 200 is implemented as a separate configuration from the calculation device 100 , but according to an embodiment of the present invention, the server 200 is configured with the calculation device 100 and one It can be implemented as a configuration.

예를 들어, 서버(200)에서 실행되는 일련의 프로세스는 산출장치(100)에서 실행될 수 있다. 즉, 산출장치(100)는 병원(301), 사용자 단말기(302) 등으로부터 직접 데이터를 수신하고, 데이터를 바탕으로 피험자 정보에 대응하도록 가중치를 상이하게 적용하는 가중치 위험도 모델을 결정할 수 있다. For example, a series of processes executed in the server 200 may be executed in the calculation device 100 . That is, the calculator 100 may receive data directly from the hospital 301 , the user terminal 302 , and the like, and determine a weight risk model that applies different weights to correspond to subject information based on the data.

이하에서는 설명의 편의를 위해, 서버(200)에서 수행되는 모든 프로세스가 산출장치(100)에서 수행되는 실시예를 전제로 설명하기로 한다. Hereinafter, for convenience of description, an embodiment in which all processes performed in the server 200 are performed in the calculation device 100 will be described.

도 3은 본 발명의 일 실시예에 따른 유전위험 점수를 산출하는 방법을 설명하기 위한 흐름도이다. 3 is a flowchart illustrating a method of calculating a genetic risk score according to an embodiment of the present invention.

산출장치(100)는 피험자에 대한 유전 정보를 입력 받을 수 있다(S300). 이때, 유전 정보는 전립선암과 관련된 단일염기다형성(SNP) 및 SNP를 포함하는 연속적인 염기서열을 포함할 수 있다. 또한 산출장치(100)는 피험자에 대한 인종 정보를 획득할 수 있다(S310). 이때, 인종 정보는 사용자가 직접 산출장치(100)에 입력한 것일 수 있다. The calculator 100 may receive genetic information about the subject ( S300 ). In this case, the genetic information may include a single nucleotide polymorphism (SNP) associated with prostate cancer and a continuous nucleotide sequence including the SNP. Also, the calculation device 100 may obtain race information about the subject ( S310 ). In this case, the race information may be directly input by the user into the calculation device 100 .

산출장치(100)는 인종 정보에 대응하는 가중치 위험도 모델을 결정할 수 있다(S320). 예를 들어, 획득한 피험자의 인종 정보가 유럽인인 경우, 산출장치(100)는 유럽인 전립선암 위험도와 관련성이 높은 특정 유전 변이에 가중치를 부여한 산출 모델을 결정할 수 있다. The calculator 100 may determine a weight risk model corresponding to the race information ( S320 ). For example, when the acquired subject's race information is European, the calculation device 100 may determine a calculation model in which a weight is assigned to a specific genetic mutation highly related to the European prostate cancer risk.

산출장치(100)는 인종 정보에 대응하는 가중치 모델을 통해서 유전위험 점수를 산출할 수 있다(S330). 본 발명의 일 실시예에 따르면, 산출장치(100)는 산출된 유전위험 점수를 ROC(Receiver Operating Characteristics)를 통해 검증하고, 상기 검증 결과, 기설정된 AUC(Area under the curve) 값을 초과하는 유전위험 점수를 상기 유전위험 점수로 결정할 수 있다. The calculator 100 may calculate the genetic risk score through the weight model corresponding to the race information (S330). According to an embodiment of the present invention, the calculator 100 verifies the calculated genetic risk score through Receiver Operating Characteristics (ROC), and as a result of the verification, the genetic risk exceeding a preset Area under the curve (AUC) value. A risk score may be determined as the genetic risk score.

도 4는 발견(discovery) GWAS(Genome Wide Association Study) 단계에서의 맨하탄 플롯(Manhattan plots)의 총괄자료를 도시한 도면이다. 4 is a diagram illustrating general data of Manhattan plots in the discovery GWAS (Genome Wide Association Study) stage.

GWAS는 일반적으로 Case (관심 형질을 가진 집단, 환자군) 와 Control (형질을 갖지 않는 집단, 정상군)의 두 집단의 유전 정보를 얻은 후에 서로 비교하여, case에서 더 많은 빈도를 갖는, 즉 연관성을 가진 유전자를 찾기 위한 단계이다. 즉 GWAS는 인과 관계를 찾는 것이 아니라 우연히 연관되어 나타나는 유전자들의 후보를 찾는 과정이다. 따라서 일반적으로 연구는 GWAS를 통한 후보 유전자 탐색, 그리고 이 후에 더 많은 환자군에서 확인 (replication cohort) 또는 실험에서 생물학적 입증의 결과를 거쳐 최종적으로 유전자-형질의 관계를 밝히는 과정으로 진행된다.In general, GWAS compares the genetic information of two groups: Case (group with the trait of interest, patient group) and Control (group without the trait, normal group), and compares them to find a higher frequency, that is, association in the case. This is the step to find the gene that you have. In other words, GWAS is not a causal relationship, but a process of finding candidates for genes that appear by chance. Therefore, in general, research proceeds in the process of discovering candidate genes through GWAS, and then confirming (replication cohort) in more patient groups or confirming the results of biological verification in experiments, and finally revealing the gene-trait relationship.

연관불균형(LD, Linkage Disequilibrium)은 유전형의 재배열 과정에서 서로 거리가 가까운 유전자끼리 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, LD block을 형성하는 것이다. 같은 LD block에 포함된 위치에 대해서는 연관성 분석을 하게 되면, 비슷한 연관성의 강도 및 통계적 유의수준 (p값)을 보인다. 이는 도 4와 같이 GWAS에 흔히 이용되는 맨하탄 플롯(Manhattan plot)에서 시그널이 주위에서 모두 높게 나오는 이유가 된다. In linkage disequilibrium (LD), genotypes that are close to each other do not mix with each other in the process of rearrangement of genotypes, but move together in a mosaic pattern, forming an LD block. When association analysis is performed on positions included in the same LD block, similar association strength and statistical significance (p-value) are shown. This is the reason why the signal comes out high all around in the Manhattan plot commonly used in GWAS as shown in FIG. 4 .

도 5는 본 발명의 일 실시예에 따른 유전위험 점수 계산에 포함되는 후보 유전변이 목록을 도시한 도면이다. 5 is a diagram illustrating a list of candidate genetic mutations included in the genetic risk score calculation according to an embodiment of the present invention.

산출장치(100)는 전립선암과 관련된 주요 SNP 유전 변이 9개를 추출할 수 있다. 도 5를 참조하면, 주요 유전변이 SNP는 rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764인 것을 확인할 수 있다. The calculator 100 may extract nine major SNP genetic mutations related to prostate cancer. Referring to Figure 5, it can be confirmed that the major genetic variation SNPs are rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764.

본 발명의 일 실시예에 따른 가중치 위험도 모델은 각각의 SNP에 전립선암과 관련된 교차비(OR)을 기준으로 가중치를 부여할 수 있다. 예를 들면, SNP 중 rs1456315의 전립선암에 대한 교차비는 1.797이므로, rs1456315에 대하여 가중치(weight)로 log(OR)의 결과인 0.586을 부여할 수 있다. In the weighted risk model according to an embodiment of the present invention, weights may be assigned to each SNP based on an odds ratio (OR) associated with prostate cancer. For example, since the odds ratio of rs1456315 for prostate cancer among the SNPs is 1.797, 0.586, which is the result of log(OR), can be given as a weight to rs1456315.

상술한 가중치를 바탕으로 본 발명의 일 실시예에 따른 9개의 유전 변이를 고려한GRS(genetic risk score)는 아래의 식과 같을 수 있다. A genetic risk score (GRS) in consideration of nine genetic variations according to an embodiment of the present invention based on the above-described weights may be as follows.

wGRS(weighted genetic risk score) =

Figure 112019103985796-pat00001
weighted genetic risk score (wGRS) =
Figure 112019103985796-pat00001

이때, X1 내지 X9 는 각각의 SNP(rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764)에 대한 위험 대립유전자의 개수에 대응한다. 구체적으로, 산출장치(100)는 유전 정보에 포함된 각각의 SNP에 대해 위험대립 유전자(risk allele)의 개수에 따라, 동형 비-위험성 대립유전자(homozygous of non-risk alleles)는 Xn = 0, 이형 대립유전자(heterozygous of alleles)는 Xn = 1, 동형 위험성 대립유전자(homozygous of the risk alleles)는 Xn = 2의 세부 점수를 부여할 수 있다. 즉, 가중치 위험도 모델은 각각의 대립유전자 수에 비례하는 가중치를 부여하도록 설정될 수 있다. In this case, X 1 to X 9 correspond to the number of risk alleles for each SNP (rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764). Specifically, the calculation device 100 determines that, according to the number of risk alleles for each SNP included in the genetic information, the homozygous of non-risk alleles is X n = 0 , a sub-score of X n = 1 for heterozygous alleles and X n = 2 for homozygous of the risk alleles. That is, the weighted risk model can be set to give a weight proportional to the number of each allele.

다만 이는 일 실시예에 불과하고, 본 발명의 산출장치(100)는 다양한 유전 변이 개수로 GRS 식을 결정할 수 있다. 예를 들어, 상술한 가중치 모델은 9개의 유전 변이 모두에 대한 GRS인 반면, 산출장치(100)는 피험자의 정보에 따라 관련성이 높은 최적의 SNP의 조합에 따라 GRS 식을 결정할 수 있다. However, this is only an embodiment, and the calculating device 100 of the present invention may determine the GRS equation using various numbers of genetic mutations. For example, while the above-described weight model is a GRS for all nine genetic mutations, the calculator 100 may determine the GRS expression according to a combination of optimal SNPs with high relevance according to the subject's information.

예를 들어, 산출장치(100)는 피험자의 인종 정보에 대응하는 SNP 마커 세트만을 이용하여 가중치를 부여할 수 있고, 피험자의 생활 습관 정보에 대응하는 SNP 마커 세트만을 이용하여 가중치를 부여할 수 있다. For example, the calculator 100 may assign weights using only the SNP marker set corresponding to the subject's race information, and may assign weights using only the SNP marker set corresponding to the subject's lifestyle information. .

상술한 최적의 SNP 마커 세트는 데이터베이스를 이용하여 인공지능 모델을 통해 결정될 수 있으나, 이는 일 예에 불과하고 다양한 방법을 통해 결정된 것일 수 있다. The above-described optimal SNP marker set may be determined through an artificial intelligence model using a database, but this is only an example and may be determined through various methods.

도 6a 및 도 6b는 본 발명의 일 실시예에 따른 유전변이의 개수에 따른 예측력을 비교하기 위한 ROC(Receiver Operating Characteristic) 곡선을 도시한 도면이다. 6A and 6B are diagrams illustrating a Receiver Operating Characteristic (ROC) curve for comparing predictive power according to the number of genetic variations according to an embodiment of the present invention.

ROC (Receiver Operating Characteristics) 곡선은 예측 성능을 평가하기 위하여 시각화한 도표이다. 예측 성능은 곡선 아래의 면적 (Area under the curve, AUC) 으로 평가한다. ROC 는 각 평가 기준 (threshold) 에 따른 특이도 (specificity) 와 민감도 (sensitivity) 를 각각 X, Y 좌표로 나타내어 선으로 연결하여 나타낸다. ROC (Receiver Operating Characteristics) curve is a graph visualized to evaluate prediction performance. The prediction performance is evaluated by the area under the curve (AUC). ROC indicates specificity and sensitivity according to each evaluation criterion in X and Y coordinates, respectively, and is connected with a line.

이때, 특이도는 질병이 없는 환자를 질병이 없다고 예측할 비율, 민감도는 질병이 있을 때 있다고 예측할 확률로 정의되며, 두 지표는 서로 트레이드 오프(trade-off) 관계를 보인다. 곡선의 X, Y 좌표는 (0,0) 에서 (1,1) 까지의 값을 가지며, 예측력이 좋을수록 AUC 값은 1에 가까운 값을 가진다. In this case, specificity is defined as the ratio of predicting disease-free patients without disease, and sensitivity is defined as the probability of predicting the presence of disease when the disease is present. The two indicators show a trade-off relationship with each other. The X, Y coordinates of the curve have values from (0,0) to (1,1), and the better the predictive power, the closer the AUC value is to 1.

본 발명의 일 실시예에 따르면, 산출장치(100)는 ROC를 유전위험점수의 기준 (threshold) 에 따라 민감도와 특이도가 어떻게 달라지는지 시각화할 수 있고, 곡선의 AUC 를 산출하여 모형의 성능을 평가할 수 있다. 또한, 본 발명의 산출장치(100)는 통계적 유의 수준에 따라 포함된 유전 변이의 개수에 따라 전립선암 환자군과 정상군을 얼마나 잘 구분하는지를 각각 나타내어 비교할 수 있다.According to an embodiment of the present invention, the calculator 100 can visualize how the sensitivity and specificity of the ROC are changed according to the threshold of the genetic risk score, and calculate the AUC of the curve to evaluate the performance of the model. can be evaluated In addition, the calculation device 100 of the present invention may indicate and compare how well the prostate cancer patient group and the normal group are distinguished according to the number of genetic mutations included according to the statistical significance level.

도 6a를 참조하면 가중치 위험도 모델은 유전변이의 개수가 4개와 6개일 때 AUC가 가장 큰 값 (0.680) 을 가지면서 가장 높은 예측 성능을 보인다. 또한, 도 6b를 참조하면, 가중치 위험도 모델은 포함된 유전변이의 개수가 5개와 9개일 때 0.679 로 두번째로 높은 예측 성능을 보인다.Referring to FIG. 6A , the weighted risk model shows the highest predictive performance while having the largest AUC value (0.680) when the number of genetic variations is 4 and 6. Also, referring to FIG. 6B , the weighted risk model shows the second highest predictive performance at 0.679 when the number of included genetic variations is 5 and 9.

도 7a 내지 7g는 본 발명의 일 실시예에 따른 가중치를 부여한 모델(weighted model)의 유전변이 개수에 따른 GRS(Generic Risk Score) 분포를 설명하기 위한 도면이다.7A to 7G are diagrams for explaining the distribution of a Generic Risk Score (GRS) according to the number of genetic variations in a weighted model according to an embodiment of the present invention.

도 7a는 본 발명의 일 실시예에 따른 p 값(통계적 유의성)에 따른 상위 SNP의 개수 별 GRS 및 AUC를 도시한 표이다. 7A is a table showing the GRS and AUC for each number of upper SNPs according to the p value (statistical significance) according to an embodiment of the present invention.

도 7b 내지 7g는 각각 SNP 마커가 4개인 경우부터 9개인 경우까지 순차적으로 case(관심 형질을 가진 집단, 환자군)과 control(관심 형질을 가지지 않은 집단, 정상군)에 대한 GRS 분포를 도시한 그래프이다. 7b to 7g are graphs showing the GRS distribution for cases (group with the trait of interest, patient group) and control (group without the trait of interest, normal group) sequentially from 4 to 9 SNP markers, respectively. am.

도 7a 내지 7g를 참조하면, 마커가 4개 및 6개인 경우 큰 GRS 값을 가지며, 높은 정확도를 가진다. Referring to FIGS. 7A to 7G , when there are 4 and 6 markers, the GRS value is large and the accuracy is high.

도 8a 내지 8g는 본 발명의 일 실시예에 따른 가중치를 부여하지 않은 모델(non-weighted model)의 유전변이 개수에 따른 GRS(Generic Risk Score) 분포를 설명하기 위한 도면이다.8A to 8G are diagrams for explaining the distribution of a Generic Risk Score (GRS) according to the number of genetic variations in a non-weighted model according to an embodiment of the present invention.

도 8a는 본 발명의 일 실시예에 따른 p 값(통계적 유의성)에 따른 상위 SNP의 개수 별 GRS 및 AUC를 도시한 표이다. 8A is a table showing GRS and AUC for each number of upper SNPs according to p-value (statistical significance) according to an embodiment of the present invention.

도 8b 내지 8g는 각각 SNP 마커가 4개인 경우부터 9개인 경우까지 순차적으로 case(관심 형질을 가진 집단, 환자군)과 control(관심 형질을 가지지 않은 집단, 정상군)에 대한 GRS 분포를 도시한 그래프이다. 8b to 8g are graphs showing the GRS distribution for cases (group with the trait of interest, patient group) and control (group without the trait of interest, normal group) sequentially from 4 to 9 SNP markers, respectively. am.

도 7a 내지 8g를 참조하면, 가중치를 부여한 위험도 모델의 경우에서 모든 마커 개수 유형에서 높은

Figure 112019103985796-pat00002
GRS 값을 가지며, 높은 정확도를 가진다는 것을 확인할 수 있다. 7A to 8G , in the case of the weighted risk model, high in all marker count types
Figure 112019103985796-pat00002
It can be confirmed that it has a GRS value and has high accuracy.

도 9는 본 발명의 일 실시예에 따른 GRS 그룹 별 전립선암에 대한 교차비를 설명하기 위한 도면이다. 9 is a diagram for explaining the odds ratio for prostate cancer for each GRS group according to an embodiment of the present invention.

교차비는 입력변수(독립변수 또는 설명변수)가 종속변수에 대한 인과관계를 파악하기 위한 것으로, 입력변수와 종속변수 사이에서 계산된 값이 1을 넘으면 양(positive)의 연관성을 나타내고, 계산된 값이 1보다 낮으면 음(negative)의 연관성을 나타내는 지표이다.The odds ratio is to determine the causal relationship between the input variable (independent variable or explanatory variable) with respect to the dependent variable. If this value is lower than 1, it is an index indicating a negative correlation.

즉, 특정 대립유전자를 가지고 있는 사람들에서의 질병 여부에 대한 비(odds) 와 그 대립유전자가 없는 사람들이 가지는 질병에 대한 여부의 비 (ratio) 및 특정 대립유전자를 가진 그룹과 그렇지 않은 그룹의 질병의 위험도를 비교하기 위함이다. That is, the ratio of disease in people with a specific allele (odds) to the ratio of disease in people without the allele (ratio), and the disease between groups with and without a specific allele to compare the risk of

Prostate cancer group (Cases)Prostate cancer group (Cases) Healthy controlsHealthy controls Risk allelerisk allele AA BB Protective alleleProtective allele CC DD

Odds Ratio =

Figure 112019103985796-pat00003
Odds Ratio =
Figure 112019103985796-pat00003

도 9의 x축은 본 발명의 일 실시예에 따른 도 7b 내지 7g의 GRS 분포에서 GRS를 상위로부터 도수분포로 4분위 수(Quartile)로 그룹화하여 배열한 것이고, y축은 각각의 GRS 그룹 별 전립선암에 대한 교차비에 대한 것이다. The x-axis of FIG. 9 is an arrangement of GRS groups in quartiles from the upper to the frequency distribution in the GRS distribution of FIGS. 7B to 7G according to an embodiment of the present invention, and the y-axis is prostate cancer for each GRS group It is about the odds ratio for .

도 9를 참조하면, Q4(4분위 수의 가장 상위 그룹)은 GRS 범위가 0.26~0.45이며, 교차비(OR, Odds Ratio)가 6으로 전립선암에 대하여 큰 연관성을 가진다. 이외의 그룹으로 Q3는 GRS 범위 0.19~0.26 및 교차비 3.1, Q2는 GRS 범위 0.12~0.19 및 교차비 1.72, Q1은 GRS 범위 0-0.12를 보이며, 다른 그룹과의 연관성 비교를 위한 참조 그룹으로써 교차비 1을 보인다. Referring to FIG. 9 , Q4 (the highest group of quartiles) has a GRS range of 0.26 to 0.45, and an odds ratio (OR, Odds Ratio) of 6, which is highly correlated with prostate cancer. For the other groups, Q3 had a GRS range of 0.19 to 0.26 and an odds ratio of 3.1, Q2 had a GRS range of 0.12 to 0.19 with an odds ratio of 1.72, and Q1 had a GRS range of 0-0.12, and an odds ratio of 1 was used as a reference group for comparison with other groups. see.

도 10은 본 발명의 일 실시예에 따른 GRS 그룹 중 고위험군 그룹에서의 교차비를 설명하기 위한 도면이다. 도 10을 참조하면, Q4 그룹 안에서도 GRS cut-off가 0.35인 top 2.5% 인 경우의 교차비가 4.65로 가장 큰 것으로 나타난다. 10 is a diagram for explaining an odds ratio in a high-risk group among GRS groups according to an embodiment of the present invention. Referring to FIG. 10 , even in the Q4 group, when the GRS cut-off is 0.35 and the top 2.5%, the odds ratio is 4.65, which is the largest.

도 11은 본 발명의 일 실시예에 따른 상이한 인구집단의 가중위험점수 비교를 위해 포함되는 유전변이를 설명하기 위한 도면이다. 11 is a diagram for explaining genetic variations included for comparison of weighted risk scores of different population groups according to an embodiment of the present invention.

본 분석에서 포함된 SNP들과 가장 많은 수의 SNP (N=4) 가 겹치는 Xu, Jianfeng, et al. "Genome-wide association study in Chinese men identifies two new prostate cancer risk loci at 9q31. 2 and 19q13. 4." Nature genetics 44.11 (2012): 1231. 문헌의 결과 (Supplementary Table 2) 중 유럽인종의 OR 값을 참조한 것이다. Xu, Jianfeng, et al. “Genome-wide association study in Chinese men identifies two new prostate cancer risk loci at 9q31. 2 and 19q13. 4." Nature genetics 44.11 (2012): 1231. Reference is made to the OR values of Europeans among the results of the literature (Supplementary Table 2).

도 11을 참조하면, 특히 대립유전자(risk allele) A의 SNP rs4430796의 경우, 한국인(KOR)에 GRS는 0.292고 유럽인(EUR)에 대한 GRS는 0.086으로 크게 차이남을 알 수 있다.Referring to FIG. 11 , it can be seen that, in particular, in the case of SNP rs4430796 of the risk allele A, the GRS for Koreans (KOR) is 0.292 and the GRS for Europeans (EUR) is 0.086, which is significantly different.

예를 들어 산출장치(100)는 피험자의 인종 정보가 한국인으로 판단한 경우, rs16901979, rs1512268, rs4430796 및 rs2735839과 같은 SNP를 가중치 모델에 포함하여 위험도를 계산할 수 있다. For example, when it is determined that the subject's race information is Korean, the calculator 100 may calculate the risk by including SNPs such as rs16901979, rs1512268, rs4430796, and rs2735839 in the weight model.

도 12a 및 12b는 본 발명의 일 실시예에 따른 가중치 위험도 모델을 유럽인 데이터 및 한국인 데이터에 적용하였을 때의 GRS 분포를 도시한 도면이다. 12A and 12B are diagrams illustrating a GRS distribution when a weighted risk model according to an embodiment of the present invention is applied to European data and Korean data.

도 12a는 유럽인 데이터에서 도출된 가중치를 적용하였을 때의 GRS 분포를 나타내고, 도 12b는 한국인 데이터에서 도출된 가중치를 적용하였을 때의 GRS 분포를 나타낸다. 12A shows the GRS distribution when weights derived from European data are applied, and FIG. 12B shows the GRS distribution when weights derived from Korean data are applied.

도 12a를 참조하면, rs1512268, rs4430796 및 rs2735839과 같은 SNP를 포함한 가중치 모델에 유럽인 데이터가 적용된 결과 control과 case 모두 낮은 GRS를 보인다. 반면, 한국인 데이터가 적용되면 도 12b에서와 같이 상대적으로 높은 GRS 분포를 보인다. Referring to Figure 12a, as a result of applying European data to a weight model including SNPs such as rs1512268, rs4430796 and rs2735839, both control and case show low GRS. On the other hand, when Korean data is applied, a relatively high GRS distribution is shown as shown in FIG. 12B.

도 13a 및 13b는 본 발명의 일 실시예에 따른 가중치 위험도 모델을 유럽인 데이터 및 한국인 데이터에 적용하였을 때의 ROC 곡선을 도시한 도면이다. 13A and 13B are diagrams illustrating ROC curves when the weighted risk model according to an embodiment of the present invention is applied to European data and Korean data.

구체적으로 도 13a는 유럽인 데이터에서 도출된 가중치를 적용하였을 때의 ROC를 나타내고, 도 13b는 한국인 데이터에서 도출된 가중치를 적용하였을 때의 ROC를 나타낸다. Specifically, FIG. 13A shows the ROC when the weights derived from the European data are applied, and FIG. 13B shows the ROC when the weights derived from the Korean data are applied.

도 12a 및 12b와 마찬가지로, 한국인 데이터의 경우 AUC가 0.604로 유럽인 데이터의 AUC 0.591에 비해 더 높은 성능을 보인다. 즉, 인종 별로 상이한 가중치 모델을 사용하여야 할 필요성이 있음을 알 수 있다.12a and 12b, the Korean data has an AUC of 0.604, which is higher than that of the European data, AUC of 0.591. That is, it can be seen that there is a need to use different weighting models for each race.

이에, 본 발명의 산출장치(100)는 인종 별 가중치 위험도 모델을 상이하게 변경함으로써, 높은 정확도의 위험점수를 산출할 수 있다. Accordingly, the calculator 100 of the present invention may calculate a risk score with high accuracy by differently changing the weighted risk model for each race.

한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. Meanwhile, the above-described methods according to various embodiments of the present disclosure may be implemented in the form of an application that can be installed in an existing electronic device.

또한, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다. In addition, the above-described methods according to various embodiments of the present disclosure may be implemented only by software upgrade or hardware upgrade of an existing electronic device.

또한, 상술한 본 발명의 다양한 실시예들은 전자 장치에 구비된 임베디드 서버, 또는 전자장치의 외부 서버를 통해 수행되는 것도 가능하다. In addition, various embodiments of the present invention described above may be performed through an embedded server provided in the electronic device or an external server of the electronic device.

한편, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록매체(computer readable recording medium)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다. On the other hand, according to an embodiment of the present invention, the various embodiments described above are a recording medium (readable by a computer or a similar device) using software, hardware, or a combination thereof. It may be implemented as software including instructions stored in a computer readable recording medium). In some cases, the embodiments described herein may be implemented by the processor itself. According to the software implementation, embodiments such as the procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein.

한편, 컴퓨터(computer) 또는 이와 유사한 장치는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작할 수 있는 장치로서, 개시된 실시 예들에 따른 장치를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. Meanwhile, a computer or a similar device is a device capable of calling a stored command from a storage medium and operating according to the called command, and may include the device according to the disclosed embodiments. When the instruction is executed by the processor, the processor may directly or use other components under the control of the processor to perform a function corresponding to the instruction. Instructions may include code generated or executed by a compiler or interpreter.

기기로 읽을 수 있는 기록매체는, 비일시적 기록매체(non-transitory computer readable recording medium)의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다. 이때 비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.The device-readable recording medium may be provided in the form of a non-transitory computer readable recording medium. Here, 'non-transitory' means that the storage medium does not include a signal and is tangible, and does not distinguish that data is semi-permanently or temporarily stored in the storage medium. In this case, the non-transitory computer-readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, etc., and can be read by a device. Specific examples of the non-transitory computer-readable medium may include a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

이와 같이 본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의하여 정해져야 할 것이다.As such, the present invention has been described with reference to the embodiments shown in the drawings, which are merely exemplary, and those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. . Therefore, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

100: 위험점수 산출장치
110: 통신부
120: 입력부
130: 메모리
140: 디스플레이
150: 프로세서
151: 인종 정보 획득부
152: 가중치 위험도 모델 결정부
153: 유전위험 점수 산출부
154: 위험도 검증부
200: 서버
301: 사용자 단말기
302: 기관
100: risk score calculation device
110: communication department
120: input unit
130: memory
140: display
150: processor
151: Race Information Acquisition Department
152: weighted risk model determining unit
153: Genetic risk score calculator
154: risk verification unit
200: server
301: user terminal
302: agency

Claims (6)

입력부 및 프로세서를 포함하는 전립선 암 위험도 산출장치의 위험점수 산출방법에 있어서,
상기 입력부에 의해, 인종 정보를 포함하는 피험자 정보 및 유전 정보를 입력받는 단계;
상기 프로세서에 의해, 상기 유전 정보에 포함된 SNP(단일염기다형성)를 이용하여 상기 인종 정보에 대응되는 제1 SNP 마커 세트를 결정하는 단계;
상기 프로세서에 의해, 상기 제1 SNP 마커 세트에 포함된 SNP 마커 각각에 대하여 상기 인종 정보에 대응되는 제1 가중치를 결정하고, 상기 제1 가중치를 기초로 제1 가중치 위험도 모델을 결정하는 단계; 및
상기 프로세서에 의해, 상기 제1 가중치 위험도 모델을 이용하여 제1 유전위험 점수를 산출하는 단계;를 포함하고,
상기 제1 가중치 위험도 모델을 결정하는 단계는 상기 인종 정보가 한국인인 경우, 상기 제1 SNP 마커 세트를 rs16901979 마커, rs1512268 마커, rs4430796 마커 및 rs2735839 마커로 결정하고, 상기 제1 가중치 위험도 모델을
Figure 112022013606082-pat00032
로 결정하는 것이고,
상기 W1은 rs16901979 마커에 대응하는 가중치로 0.586이고, 상기 W2은 rs1512268 마커에 대응하는 가중치로 0.313이고, 상기 W3은 rs4430796 마커에 대응하는 가중치로 0.349이고, 상기 W4는 rs2735839 마커에 대응하는 가중치로 0.281이고,
상기 X1은 상기 rs16901979 마커에 대응하는 위험대립 유전자의 수이고, 상기 X2는 상기 rs1512268 마커에 대응하는 위험대립 유전자의 수이고, 상기 X3는 상기 rs4430796 마커에 대응하는 위험대립 유전자의 수이고, 상기 X4는 상기 rs2735839 마커에 대응하는 위험대립 유전자의 수이고, 상기 X1 내지 X4는 0 내지 2 중 하나인 위험도 산출방법.
In the risk score calculation method of the prostate cancer risk calculation device including an input unit and a processor,
receiving, by the input unit, subject information including race information and genetic information;
determining, by the processor, a first SNP marker set corresponding to the race information using SNP (single nucleotide polymorphism) included in the genetic information;
determining, by the processor, a first weight corresponding to the race information for each SNP marker included in the first SNP marker set, and determining a first weight risk model based on the first weight; and
Calculating, by the processor, a first genetic risk score using the first weighted risk model;
In the determining of the first weighted risk model, when the race information is Korean, the first SNP marker set is determined as rs16901979 marker, rs1512268 marker, rs4430796 marker, and rs2735839 marker, and the first weighted risk model is
Figure 112022013606082-pat00032
is to be determined by
The W1 is 0.586 with a weight corresponding to the rs16901979 marker, the W2 is 0.313 with a weight corresponding to the rs1512268 marker, the W3 is 0.349 with a weight corresponding to the rs4430796 marker, and the W4 is 0.281 with a weight corresponding to the rs2735839 marker. ego,
wherein X1 is the number of risk alleles corresponding to the rs16901979 marker, X2 is the number of risk alleles corresponding to the rs1512268 marker, X3 is the number of risk alleles corresponding to the rs4430796 marker, and X4 is the number of risk alleles corresponding to the rs2735839 marker, and X1 to X4 are one of 0 to 2.
제1항에 있어서,
상기 위험도 산출 방법은 상기 산출된 제1 유전위험 점수를 ROC(Receiver Operating Characteristics)를 통해 검증하는 단계;를 더 포함하고,
상기 검증 결과, 기설정된 AUC(Area under the curve) 값을 초과하는 유전위험 점수를 각각 상기 제1 유전위험 점수로 결정하는 위험도 산출방법.
The method of claim 1,
The risk calculation method further comprises the step of verifying the calculated first genetic risk score through ROC (Receiver Operating Characteristics);
As a result of the verification, a risk calculation method for determining a genetic risk score exceeding a preset Area under the curve (AUC) value as the first genetic risk score, respectively.
제1항 및 제2항 중 어느 한 항에 있어서,
상기 전립선 암 위험도 산출 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
3. The method of any one of claims 1 and 2,
A computer-readable recording medium recording a program for executing the method for calculating the risk of prostate cancer.
입력부 및 프로세서를 포함하고,
상기 입력부가 인종 정보를 포함하는 피험자 정보 및 유전 정보를 입력받고,
상기 프로세서가 상기 유전 정보에 포함된 SNP(단일염기다형성)를 이용하여 상기 인종 정보에 대응되는 제1 SNP 마커 세트를 결정하고,
상기 제1 SNP 마커 세트에 포함된 SNP 마커 각각에 대하여 상기 인종 정보에 대응되는 제1 가중치를 결정하고, 상기 제1 가중치를 기초로 제1 가중치 위험도 모델을 결정하며,
상기 제1 가중치 위험도 모델을 이용하여 제1 유전위험 점수를 산출하고,
상기 제1 SNP 마커 세트는 상기 인종 정보가 한국인인 경우, 상기 제1 SNP 마커 세트를 rs1456315 마커, rs7837688 마커, rs1512268 마커 및 rs7501939 마커를 포함하고,
상기 제1 가중치 위험도 모델은
Figure 112022013606082-pat00033
를 이용하여 결정되며,
상기 W1은 rs1456315 마커에 대응하는 가중치로 0.586이고, 상기 W2은 rs7837688 마커에 대응하는 가중치로 0.546이고, 상기 W3은 rs1512268 마커에 대응하는 가중치로 0.313이고, 상기 W4는 rs7501939 마커에 대응하는 가중치로 0.349이고,
상기 X1은 상기 rs1456315 마커에 대응하는 위험대립 유전자의 수이고, 상기 X2는 상기 rs7837688 마커에 대응하는 위험대립 유전자의 수이고, 상기 X3는 상기 rs1512268 마커에 대응하는 위험대립 유전자의 수이고, 상기 X4는 상기 rs7501939 마커에 대응하는 위험대립 유전자의 수이고, 상기 X1 내지 X4는 0 내지 2 중 하나인 전립선 암 위험도 산출장치.
an input unit and a processor;
The input unit receives subject information and genetic information including race information,
The processor determines a first SNP marker set corresponding to the race information by using the SNP (single nucleotide polymorphism) included in the genetic information,
determining a first weight corresponding to the race information for each SNP marker included in the first SNP marker set, and determining a first weight risk model based on the first weight;
calculating a first genetic risk score using the first weighted risk model;
The first SNP marker set includes rs1456315 marker, rs7837688 marker, rs1512268 marker, and rs7501939 marker for the first SNP marker set when the race information is Korean;
The first weighted risk model is
Figure 112022013606082-pat00033
is determined using
W1 is 0.586 with a weight corresponding to marker rs1456315, W2 is 0.546 with weight corresponding to marker rs7837688, W3 is 0.313 with weight corresponding to marker rs1512268, W4 is 0.349 with weight corresponding to marker rs7501939 ego,
wherein X1 is the number of risk alleles corresponding to the rs1456315 marker, X2 is the number of risk alleles corresponding to the rs7837688 marker, X3 is the number of risk alleles corresponding to the rs1512268 marker, and X4 is the number of risk alleles corresponding to the rs7501939 marker, and X1 to X4 are one of 0 to 2 prostate cancer risk calculating device.
제4항에 있어서,
상기 프로세서가
상기 산출된 제1 유전위험 점수를 ROC(Receiver Operating Characteristics)를 통해 검증하고,
상기 검증 결과, 기설정된 AUC(Area under the curve) 값을 초과하는 유전위험 점수를 각각 상기 제1 유전위험 점수로 결정하는, 전립선 암 위험도 산출장치.
5. The method of claim 4,
the processor
Verifying the calculated first genetic risk score through ROC (Receiver Operating Characteristics),
As a result of the verification, a genetic risk score exceeding a preset Area under the curve (AUC) value is determined as the first genetic risk score, respectively.
제4항에 있어서,
상기 제1 SNP 마커 세트는
상기 인종 정보가 유럽인인 경우, 유럽인 전립선암 위험도와 관련성이 높은 rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764 중 적어도 2개 이상을 포함하는, 전립선 암 위험도 산출장치.
5. The method of claim 4,
The first SNP marker set is
If the race information is European, rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764, which are highly related to European prostate cancer risk, including at least two or more, Prostate cancer risk calculator.
KR1020190126464A 2019-02-28 2019-10-11 Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof KR102371654B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190126464A KR102371654B1 (en) 2019-02-28 2019-10-11 Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190024387A KR102068666B1 (en) 2019-02-28 2019-02-28 Ethnic-specific Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof
KR1020190126464A KR102371654B1 (en) 2019-02-28 2019-10-11 Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190024387A Division KR102068666B1 (en) 2019-02-28 2019-02-28 Ethnic-specific Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof

Publications (2)

Publication Number Publication Date
KR20200105373A KR20200105373A (en) 2020-09-07
KR102371654B1 true KR102371654B1 (en) 2022-03-08

Family

ID=80812174

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190126464A KR102371654B1 (en) 2019-02-28 2019-10-11 Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof

Country Status (1)

Country Link
KR (1) KR102371654B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010520745A (en) 2007-02-07 2010-06-17 デコード・ジェネティクス・イーエイチエフ Genetic variants that contribute to prostate cancer risk

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2922967B1 (en) * 2012-11-20 2018-01-03 Phadia AB Method for indicating a presence or non-presence of aggressive prostate cancer
KR101944927B1 (en) * 2016-03-24 2019-02-07 서울대학교산학협력단 Single Nucleotide Polymorphisms Associated With Korean Prostate Cancer And Development Of Genetic Risk Score Using Thereof
KR101991007B1 (en) * 2016-05-27 2019-06-20 (주)메디젠휴먼케어 A system and apparatus for disease-related genomic analysis using SNP

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010520745A (en) 2007-02-07 2010-06-17 デコード・ジェネティクス・イーエイチエフ Genetic variants that contribute to prostate cancer risk

Also Published As

Publication number Publication date
KR20200105373A (en) 2020-09-07

Similar Documents

Publication Publication Date Title
Capriotti et al. Improving the prediction of disease-related variants using protein three-dimensional structure
US20150339437A1 (en) Dynamic genome reference generation for improved ngs accuracy and reproducibility
US20160342737A1 (en) Methods for the graphical representation of genomic sequence data
CN110993104B (en) Tumor patient lifetime prediction system
US20130332083A1 (en) Gene Marker Sets And Methods For Classification Of Cancer Patients
El-Solh et al. Comparison of in-hospital mortality risk prediction models from COVID-19
US20200251193A1 (en) System and method for integrating genotypic information and phenotypic measurements for precision health assessments
Huang et al. Identifying optimal biomarker combinations for treatment selection via a robust kernel method
JP2021514075A (en) Systems and methods for reducing correlation error events in variant calling
US11126695B2 (en) Polymer design device, polymer design method, and non-transitory recording medium
KR102371655B1 (en) Device, Method of Calculating Prostate Cancer Genetic Risk Score Based on Individual Weights for each Genetic Variation and Recording Medium thereof
CN112735592A (en) Construction method and application method of lung cancer prognosis model and electronic equipment
Phan et al. omniBiomarker: a web-based application for knowledge-driven biomarker identification
Liu et al. Multilocus association mapping using generalized ridge logistic regression
Zhan et al. Panel of seven long noncoding RNA as a candidate prognostic biomarker for ovarian cancer
KR102371654B1 (en) Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof
Zhang et al. Extracting a few functionally reproducible biomarkers to build robust subnetwork-based classifiers for the diagnosis of cancer
KR102068666B1 (en) Ethnic-specific Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof
KR102068667B1 (en) Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof
Szabo et al. Admission lactate level and the GRACE 2.0 score are independent and additive predictors of 30-day mortality of STEMI patients treated with primary PCI—Results of a real-world registry
KR20210046221A (en) Method And Device Of Screening Prostate Cancer Using Blood Prostate Specific Antigen And Genetic Marker
KR20210046220A (en) Reagent and Kit for the Detection of Prostate Cancer Gene Biomarkers
KR20220097276A (en) Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof
KR102102848B1 (en) Prostate cancer risk score calculator, and method of the above calculator
Dessie et al. A nine-gene signature identification and prognostic risk prediction for patients with lung adenocarcinoma using novel machine learning approach

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant