KR101717141B1 - Apparatus and method of survival analysis for patients using genetic switch threshold - Google Patents

Apparatus and method of survival analysis for patients using genetic switch threshold Download PDF

Info

Publication number
KR101717141B1
KR101717141B1 KR1020160073319A KR20160073319A KR101717141B1 KR 101717141 B1 KR101717141 B1 KR 101717141B1 KR 1020160073319 A KR1020160073319 A KR 1020160073319A KR 20160073319 A KR20160073319 A KR 20160073319A KR 101717141 B1 KR101717141 B1 KR 101717141B1
Authority
KR
South Korea
Prior art keywords
value
boundary value
survival analysis
boundary
gene
Prior art date
Application number
KR1020160073319A
Other languages
Korean (ko)
Inventor
김영훈
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020160073319A priority Critical patent/KR101717141B1/en
Application granted granted Critical
Publication of KR101717141B1 publication Critical patent/KR101717141B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G06F19/24
    • G06F19/18
    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

According to an embodiment of the present invention, a method for analyzing survival of a gene comprises the steps of: calculating standard normal distribution on an expression amount of a gene; setting a boundary value in the calculated standard normal distribution; discretely representing an expression state of the gene based on the set boundary value; and using the discretely represented result as an analysis element for a survival analysis model.

Description

유전자 스위치 경계값을 사용한 환자의 생존분석 방법 및 장치 {APPARATUS AND METHOD OF SURVIVAL ANALYSIS FOR PATIENTS USING GENETIC SWITCH THRESHOLD}[0001] APPARATUS AND METHOD OF SURVIVAL ANALYSIS FOR PATIENTS USING GENETIC SWITCH THRESHOLD [0002]

본 발명은 유전자 발현에 대한 통계에 대한 것이다. 보다 구체적으로 본 발명은, 유전자 발현에 대한 통계가 유의미하게 환자의 생존 기간 분석에 사용될 수 있도록 생존 분석을 하는 방법 및 장치에 관한 것이다.The present invention relates to statistics on gene expression. More specifically, the present invention relates to a method and apparatus for performing survival analysis so that statistics on gene expression can be used for significant patient survival analysis.

유전자의 발현은 DNA의 유전 정보의 다양성에 의하여, 인간을 포함하는 생물을 구성하는 단백질이 다양한 형태로 형성되는 과정이다. 유전자의 발현에 대한 정확한 예측은 불가능하나, 통계적 분석으로, 유전자 발현에 대한 분석 방법이 연구되고 있다. Expression of a gene is a process in which proteins constituting living organisms including human beings are formed into various forms by the diversity of genetic information of DNA. Although accurate prediction of gene expression is not possible, statistical analysis has been conducted to analyze gene expression.

유전자발현 데이터에서 모든 대조집단 식별 방법(공개특허공보,제 10-2012-0077594호(2012.07.10))All control group identification methods in gene expression data (Patent Publication No. 10-2012-0077594 (Jul. 10, 2012))

본 발명이 이루고자 하는 기술적 과제는, 유전자의 발현량에 따른 생존 분석에서, 보다 높은 신뢰도를 가지는 결과를 생성하는 것에 있다.The technical problem to be solved by the present invention is to produce a result having higher reliability in the survival analysis according to the expression amount of the gene.

전술한 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른, 유전자의 발현량에 따른 생존 분석 방법은, 유전자의 발현량에 대한 표준 정규 분포를 계산하는 단계, 상기 계산된 표준 정규 분포에서 경계값을 설정하는 단계, 상기 설정된 경계값을 기준으로, 상기 유전자의 발현 여부를 이산화하는 단계, 및 상기 이산화된 결과를 생존 분석 모델에 분석 요소로 사용하는 단계를 포함한다.According to an embodiment of the present invention, there is provided a survival analysis method according to an expression amount of a gene, comprising: calculating a standard normal distribution of an expression amount of a gene; Setting a boundary value, discretizing the expression of the gene based on the set boundary value, and using the discretized result as an analysis element in a survival analysis model.

바람직하게는, 상기 경계값을 설정하는 단계는, 상기 표준 정규 분포의 중앙값 (z=0) 을, 상기 경계값으로 설정하는 것을 특징으로 한다.Preferably, the step of setting the boundary value sets the median value (z = 0) of the standard normal distribution as the boundary value.

바람직하게는, 상기 경계값을 설정하는 단계는, 제 1 경계값 (zi), 제 2 경계값 (zii) 및 제 3 경계값 (ziii) 중 어느 하나를 상기 경계값으로 설정하는 것을 특징으로 한다.Preferably, the step of setting the boundary value sets any one of the first boundary value zi, the second boundary value zii, and the third boundary value ziii as the boundary value .

바람직하게는, 상기 경계값을 설정하는 단계는, 상기 제 1 경계값 (zi)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 1 p-value (p1) 를 결정하는 단계, 상기 제 2 경계값 (zii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 2 p-value (p2) 를 결정하는 단계, 상기 제 3 경계값 (ziii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 3 p-value (p3) 를 결정하는 단계, 상기 제 1 p-value, 상기 제 2 p-value, 및 상기 제 3 p-value 중 가장 낮은 값을 가지는 p-value (p) 를 결정하는 단계 및 상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 중, 상기 결정된 p-value (p) 와 관련된 값을, 상기 경계값으로 설정하는 단계를 포함할 수 있다.Preferably, the step of setting the boundary value further comprises applying the generated discretized result to the survival analysis model using the first boundary value zi to generate a first p-value determining a second p-value (p2) for the survival analysis result by applying the generated discretized results to the survival analysis model using the second boundary value (zii) , Applying the generated discretized results to the survival analysis model using the third boundary value (ziii) to determine a third p-value (p3) for the survival analysis result, determining a p-value (p) having a lowest value among the first p-value, the second p-value, and the third p-value, , Setting a value associated with the determined p-value (p) among the third boundary value (ziii) as the boundary value Can.

바람직하게는, 상기 경계값을 설정하는 단계는, 상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 및 제 4 경계값 (ziv) 중 어느 하나를 상기 경계값으로 설정하는 것을 특징으로 하고, 상기 4 경계값 (ziv)을 이용하여, 생성된 이산화된 결과를 나타내는 샘플의 개수가, 임계값 이하인 경우, 상기 생존 분석 모델에 상기 제 4 경계값 (ziv)의 적용을 제외하는 것을 특징으로 한다.Preferably, the step of setting the boundary value further comprises the step of setting the boundary value to a value of one of the first boundary value zi, the second boundary value zii, the third boundary value ziii and the fourth boundary value ziv Wherein when the number of samples indicating the result of the generated discretization is equal to or less than a threshold value by using the four boundary value ziv, (ziv) is excluded.

바람직하게는, 상기 제 1 경계값 (zi)은 -2 (z=-2) 이고, 상기 제 3 경계값 (ziii)은 2 (z=2) 이고, 상기 제 2 경계값 (zii) 및 상기 제 4 경계값 (ziv)는 -2 와 2 사이의, 값인 것을 특징으로 한다.Preferably, the first boundary value zi is -2 (z = -2), the third boundary value ziii is 2 (z = 2), the second boundary value zii, And the fourth boundary value ziv is a value between -2 and 2.

바람직하게는, 상기 생존 분석 모델은, Cox-proportional hazard 모델 또는 log-rank test 모델에 해당되는 것을 특징으로 한다.Preferably, the survival analysis model corresponds to a Cox-proportional hazard model or a log-rank test model.

전술한 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른, 유전자의 발현량에 따른 생존 분석 장치는, 유전자의 발현량에 대한 표준 정규 분포를 계산하고, 상기 계산된 표준 정규 분포에서 경계값을 설정하고, 상기 설정된 경계값을 기준으로, 상기 유전자의 발현 여부를 이산화하고, 상기 이산화된 결과를 생존 분석 모델에 분석 요소로 사용하는 것을 특징으로 한다.According to an embodiment of the present invention, there is provided an apparatus for analyzing a survival rate according to an expression amount of a gene, the method comprising: calculating a standard normal distribution of an expression amount of a gene; And discretizes the expression of the gene based on the set boundary value, and uses the result of the discretization as an analysis element in the survival analysis model.

바람직하게는, 상기 생존 분석 장치는, 상기 표준 정규 분포의 중앙값 (z=0) 을, 상기 경계값으로 설정하는 것을 특징으로 한다.Preferably, the survival analysis apparatus sets a median (z = 0) of the standard normal distribution as the threshold value.

바람직하게는, 상기 생존 분석 장치는, 제 1 경계값 (zi), 제 2 경계값 (zii) 및 제 3 경계값 (ziii) 중 어느 하나를 상기 경계값으로 설정하는 것을 특징으로 한다.Preferably, the survival analysis apparatus sets any one of the first boundary value zi, the second boundary value zii, and the third boundary value ziii to the boundary value.

바람직하게는, 상기 생존 분석 장치는, 상기 제 1 경계값 (zi)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 1 p-value (p1) 를 결정하고, 상기 제 2 경계값 (zii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 2 p-value (p2) 를 결정하고, 상기 제 3 경계값 (ziii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 3 p-value (p3) 를 결정하고, 상기 제 1 p-value, 상기 제 2 p-value, 및 상기 제 3 p-value 중 가장 낮은 값을 가지는 p-value (p) 를 결정하고, 상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 중, 상기 결정된 p-value (p) 와 관련된 값을, 상기 경계값으로 설정하는 것을 특징으로 한다.Preferably, the survival analysis apparatus applies the generated discretized results to the survival analysis model using the first boundary value zi to obtain a first p-value (p1) for the survival analysis result Determining a second p-value (p2) for the survival analysis result by applying the resulting discretized results to the survival analysis model using the second threshold value zii, Applying the generated discretized results to the survival analysis model to determine a third p-value (p3) for the survival analysis results using the value (ziii), and comparing the first p-value, the second p (p) having the lowest value among the third p-values and determining the first boundary value zi, the second boundary value zii, the third boundary value (p) is set to the value of the boundary value.

바람직하게는, 상기 생존 분석 장치는, 상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 및 제 4 경계값 (ziv) 중 어느 하나를 상기 경계값으로 설정하는 것을 특징으로 하고, 상기 4 경계값 (ziv)을 이용하여, 생성된 이산화된 결과를 나타내는 샘플의 개수가, 임계값 이하인 경우, 상기 생존 분석 모델에 상기 제 4 경계값 (ziv)의 적용을 제외하는 것을 특징으로 한다.Preferably, the survival analysis device is configured to determine any one of the first boundary value zi, the second boundary value zii, the third boundary value ziii, and the fourth boundary value ziv as the boundary The fourth boundary value ziv is set to the survival analysis model when the number of samples showing the generated discretized result is equal to or smaller than the threshold value, Is excluded.

바람직하게는, 상기 생존 분석 장치는, 상기 제 1 경계값 (zi)을 -2 (z=-2) 로 설정하고, 상기 제 3 경계값 (ziii)을 2 (z=2) 로 설정하고, 상기 제 2 경계값 (zii) 및 상기 제 4 경계값 (ziv)는 -2 와 2 사이의 값으로 설정하는 것을 특징으로 한다.Preferably, the survival analysis apparatus sets the first boundary value zi to -2 (z = -2), sets the third boundary value ziii to 2 (z = 2) And the second boundary value zii and the fourth boundary value ziv are set to values between -2 and 2.

바람직하게는, 상기 생존 분석 모델은, Cox-proportional hazard 모델 또는 log-rank test 모델에 해당되는 것을 특징으로 한다.Preferably, the survival analysis model corresponds to a Cox-proportional hazard model or a log-rank test model.

전술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른, 컴퓨터로 읽을 수 있는 기록매체는 유전자의 발현량에 따른 생존 분석을 위하여, 유전자의 발현량에 대한 표준 정규 분포를 계산하는 단계, 상기 계산된 표준 정규 분포에서 경계값을 설정하는 단계, 상기 설정된 경계값을 기준으로, 상기 유전자의 발현 여부를 이산화하는 단계 및 상기 이산화된 결과를 생존 분석 모델에 분석 요소로 사용하는 단계를 수행하기 위한 프로그램이 기록되어 있다. According to an aspect of the present invention, there is provided a computer-readable recording medium having recorded thereon a computer program for performing a method of calculating a standard normal distribution of an expression amount of a gene for a survival analysis according to an expression amount of a gene, Setting a boundary value in the calculated normal normal distribution, discretizing the expression of the gene on the basis of the set boundary value, and using the discretized result as an analysis element in a survival analysis model Is recorded.

바람직하게는, 상기 경계값을 설정하는 단계는, 상기 표준 정규 분포의 중앙값 (z=0) 을, 상기 경계값으로 설정하는 것을 수행하기 위한 프로그램이 상기 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.Advantageously, the step of setting the threshold value further comprises the step of: setting a threshold value (z = 0) of the standard normal distribution to the threshold value so that a program for performing the setting of the median value have.

바람직하게는, 상기 경계값을 설정하는 단계는, 제 1 경계값 (zi), 제 2 경계값 (zii) 및 제 3 경계값 (ziii) 중 어느 하나를 상기 경계값으로 설정하는 것을 수행하기 위한 프로그램이 상기 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.Advantageously, the step of setting the boundary value further comprises the step of: setting one of the first boundary value zi, the second boundary value zii and the third boundary value ziii as the boundary value A program may be recorded on the computer readable recording medium.

바람직하게는, 상기 제 1 경계값 (zi)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 1 p-value (p1) 를 결정하는 단계, 상기 제 2 경계값 (zii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 2 p-value (p2) 를 결정하는 단계, 상기 제 3 경계값 (ziii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 3 p-value (p3) 를 결정하는 단계, 상기 제 1 p-value, 상기 제 2 p-value, 및 상기 제 3 p-value 중 가장 낮은 값을 가지는 p-value (p) 를 결정하는 단계 및 상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 중, 상기 결정된 p-value (p) 와 관련된 값을, 상기 경계값으로 설정하는 단계를 더 수행하기 위한 프로그램이, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.Preferably, the step of applying the generated discretized results to the survival analysis model using the first boundary value zi to determine a first p-value (p1) for the survival analysis result, Applying the generated discretized results to the survival analysis model using a second boundary value ziii to determine a second p-value p2 for the survival analysis result, Applying the resulting discretized results to the survival analysis model to determine a third p-value (p3) for the survival analysis results, and determining the first p-value, the second p-value, And determining a p-value (p) having a lowest value among the third p-values; and determining the first boundary value zi, the second boundary value zii, the third boundary value ziii, And setting the value associated with the determined p-value (p) to the boundary value, It can be recorded on a recording medium that can be read by.

바람직하게는, 상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 및 제 4 경계값 (ziv) 중 어느 하나를 상기 경계값으로 설정하고, 상기 4 경계값 (ziv)을 이용하여, 생성된 이산화된 결과를 나타내는 샘플의 개수가, 임계값 이하인 경우, 상기 생존 분석 모델에 상기 제 4 경계값 (ziv)의 적용을 제외시키는 것을 수행하기 위한 프로그램이, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.Preferably, one of the first boundary value zi, the second boundary value zii, the third boundary value ziii, and the fourth boundary value ziv is set as the boundary value, 4 eliminating the application of the fourth boundary value ziv to the survival analysis model when the number of samples indicating the generated discretized result is equal to or less than a threshold value by using the fourth threshold value ziv, May be recorded on a computer-readable recording medium.

바람직하게는, 상기 생존 분석 모델로, Cox-proportional hazard 모델 또는 log-rank test 모델을 사용하는 것을 수행하기 위한 프로그램이, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.Preferably, a program for performing the Cox-proportional hazard model or the log-rank test model as the survival analysis model can be recorded on a computer-readable recording medium.

본 발명에 따르면, 유전자의 발현이 환자의 생존에 미치는 영향을 좀 더 정확히 분석할 수 있는 효과가 있다.According to the present invention, the effect of gene expression on the survival of a patient can be more accurately analyzed.

본 발명에 따르면, 유전체학 연구에 보다 높은 신뢰도를 가지는 결과를 생성할 수 있는 효과가 있다.According to the present invention, it is possible to generate a result having higher reliability in genomics research.

도 1은 기존의 유전자 발현에 따른 생존 분석에 사용되는 방법을 나타낸 도면이다.
도 2는 유전변이 (SNP; Single Nucleotide Polymorphism) 에 따른 유전자의 발현량을 나타내는 도면이다.
도 3은 유전변이에 따른 유전자의 발현량을 고려하여, 경계값을 새로 정의한 표준 정규 분포표를 나타낸 도면이다.
도 4는 유전변이에 따른 유전자의 발현량을 고려하여, 경계값을 새로 설정한 표준 정규 분포표를 나타낸 도면이다.
도 5는 유전자의 발현량에 따른 생존 분석 방법을 나타낸 순서도이다.
도 6은 유전자의 발현량에 따른 생존 분석 장치를 나타낸 도면이다.
FIG. 1 shows a method used for survival analysis according to existing gene expression.
2 is a diagram showing the expression amount of a gene according to SNP (Single Nucleotide Polymorphism).
FIG. 3 is a diagram showing a standard normal distribution table in which a boundary value is newly defined in consideration of the expression amount of a gene according to a genetic mutation.
4 is a diagram showing a standard normal distribution table in which a boundary value is newly set in consideration of the expression amount of a gene according to a genetic mutation.
5 is a flowchart showing a survival analysis method according to the expression level of a gene.
6 is a view showing a survival analysis apparatus according to the expression level of a gene.

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and accompanying drawings, but the present invention is not limited to or limited by the embodiments.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.As used herein, terms used in the present invention are selected from general terms that are widely used in the present invention while taking into account the functions of the present invention, but these may vary depending on the intention or custom of a person skilled in the art or the emergence of new technologies. In addition, in certain cases, there may be a term arbitrarily selected by the applicant, in which case the meaning thereof will be described in the description of the corresponding invention. Therefore, it is intended that the terminology used herein should be interpreted based on the meaning of the term rather than on the name of the term, and on the entire contents of the specification.

도 1은 기존의 유전자 발현에 따른 생존 분석에 사용되는 방법을 나타낸 도면이다.FIG. 1 shows a method used for survival analysis according to existing gene expression.

의학 및 생물학 분야에서 유전자의 발현이 환자의 생존에 미치는 영향을 연구에서는, 주로 유전자 발현량 데이터의 중앙값 (median) 을 기준으로, 0 과 1로 이산화하고 이 값을 생존 분석 모델 (예를 들면, Cox-proportional hazard ratio 또는 log-rank test) 에서 분석의 입력으로 사용하였다. The effects of gene expression on the survival of patients in the medical and biotechnological fields are mainly discretized into 0 and 1, based on the median of the gene expression data, and this value is used as a survival analysis model (eg, Cox proportional hazard ratio or log-rank test).

도면에 도시된 그래프는 표준 정규 분포표로, Z 의 값은, 환자의 생존에 영향을 미치는 유전자의 발현량을 표준 정규화한 값이다. 특정 환자에게서, cox-hazard 분석결과로 hazard ratio가 1보다 크게 나온 경우에 있어서, 특정 유전자의 발현량이 Z=0 보다 높은 경우, 생존 분석 모델에서 해당 유전자의 발현이 많았고, 이러한 환경이 환자에게 나쁜 예후를 만드는 요소로서 고려되고, 특정 유전자의 발현량이 Z=0 보다 낮은 경우, 생존 분석 모델에서 해당 유전자의 발현이 상대적으로 적었으며, 이러한 환경이 환자에게 좋은 예후를 만드는 요소로서 고려될 수 있다. 반대로, 특정 환자에게서, cox-hazard 분석결과로 hazard ratio가 1보다 작게 나온 경우에 있어서, 특정 유전자의 발현량이 Z=0 보다 높은 경우, 생존 분석 모델에서 해당 유전자의 발현이 많았고, 이러한 환경이 환자에게 좋은 예후를 만드는 요소로서 고려되고, 특정 유전자의 발현량이 Z=0 보다 낮은 경우, 생존 분석 모델에서 해당 유전자의 발현이 상대적으로 적었으며, 이러한 환경이 환자에게 나쁜 예후를 만드는 요소로 고려될 수 있다.The graph shown in the figure is a standard normal distribution table, and the value of Z is a standard normalized value of the expression amount of a gene that affects the survival of a patient. In a specific patient, when the hazard ratio was greater than 1 as a result of the cox-hazard analysis, when the expression level of a specific gene was higher than Z = 0, the expression of the gene in the survival analysis model was high, When the expression level of a particular gene is lower than Z = 0, the expression of the gene in the survival analysis model is relatively small, and this environment can be considered as a factor in creating a good prognosis for the patient. Conversely, when the hazard ratio was less than 1 in the cox-hazard analysis of a particular patient, when the expression level of a specific gene was higher than Z = 0, the expression of the gene in the survival analysis model was high, , And when the expression level of a specific gene is lower than Z = 0, the expression of the gene in the survival analysis model is relatively small, and this environment can be considered as a factor in making a bad prognosis to the patient have.

도 2는 유전변이 (SNP; Single Nucleotide Polymorphism) 에 따른 유전자의 발현량을 나타내는 도면이다.2 is a diagram showing the expression amount of a gene according to SNP (Single Nucleotide Polymorphism).

expression quantitative trait loci (eQTL) 연구를 통해서 나타나는 유전자의 특성은, 유전자 발현값의 경계점이 단순히 중앙값이 아니라 다른 위치에서 나타날 수 있음을 보여주고 있다. 예를 들면, 유전 변이 등의 상황이 발생하는 경우, 이러한 상황은 특정 유전자의 발현량에 영향을 미칠 수 있다.Expression quantitative trait loci (eQTL) The characteristics of the genes that appear in the study show that the border points of the gene expression values can appear at different locations rather than simply at the median value. For example, when a situation such as a genetic mutation occurs, such a situation may affect the expression amount of a specific gene.

특정 유전자에 영향을 미치는 유전변이 (SNP)가 있을 때, 유전변이 (SNP)의 타입 (AA타입 또는, AB or BB타입)에 따라 유전자의 발현량이 달라질 수 있다. eQTL이 환자의 생존에 영향을 주는 것이라면, 이 eQTL의 유전변이 (SNP)와 원래 유전자 (gene), 둘 다 환자의 생존에 영향을 주는 요소일 수 있다. When there is a genetic variation (SNP) affecting a particular gene, the amount of gene expression may vary depending on the type of genetic variation (SNP) (AA type, AB or BB type). If eQTL affects patient survival, both the genetic mutation (SNP) and the original gene of this eQTL can be factors affecting patient survival.

도면에서, AA타입인 샘플의 수가, AB 타입 또는 BB 타입의 샘플의 수보다 월등히 많고, AA 타입에서의 유전자의 발현량은, AB 타입 또는 BB 타입의 샘플에서의 유전자 발현량보다 낮을 수 있다. 유전변이 (SNP)에 대한 생존 분석 시, AB 타입 또는 BB 타입 일 때, 환자의 생존률이 급격히 떨어졌다면, 유전자 발현량이 상대적으로 큰 샘플들 (AB 타입 또는 BB 타입의 샘플들) 이 낮은 생존률을 갖는 것을 알 수 있다. In the figure, the number of AA type samples is much larger than the number of samples of AB type or BB type, and the expression amount of genes in the AA type may be lower than the gene expression amount in AB type or BB type samples. In the survival analysis for the genetic variation (SNP), when the survival rate of the patient was abruptly decreased when AB type or BB type, samples in which gene expression levels were relatively large (AB type or BB type samples) .

그런데, 발현량이 큰 샘플들 (AB 타입 또는 BB 타입의 샘플) 은 비교적 개수가 적고, 그에 반해, 상대적으로 높은 생존률을 갖는 AA타입에 해당하는 샘플들은 개수가 많기 때문에, 이러한 유전변이 (SNP)에 영향을 받는 유전자 (gene)도 이러한 특성이 나타나게 되어, 예후가 비교적 좋은 샘플들은 발현량이 낮으며 다수가 존재하고, 예후가 나쁜 샘플들은 발현량이 높으며 소수가 존재하는 특성을 띄게 된다. However, since a large number of samples (AB type or BB type sample) have a relatively small number of samples and a large number of AA type samples having a relatively high survival rate, The affected genes also exhibit these characteristics. Samples with relatively good prognosis have a low expression level and a large number of them are present. Samples with bad prognosis have a high expression level and a small number of characteristics.

이것은 환자의 생존에 실제적으로 영향을 미치게 되는 유전자 발현량의 경계값이 단순히 중앙값이 아니라, 이보다 높거나 낮을 수 있음을 의미한다. This means that the threshold value of the gene expression that actually affects the patient's survival may be higher or lower than the median value.

도 3은 유전변이에 따른 유전자의 발현량을 고려하여, 경계값을 새로 정의한 표준 정규 분포표를 나타낸 도면이다. FIG. 3 is a diagram showing a standard normal distribution table in which a boundary value is newly defined in consideration of the expression amount of a gene according to a genetic mutation.

도 2에서 설명한, 유전변이의 경우에 있어서, 환자의 생존에 영향을 미치는 요소로 고려될 유전자의 발현량에 대한 경계값은, 중앙값 보다 높은 곳에 위치할 가능성이 크다. In the case of the genetic mutation described in FIG. 2, the threshold value for the expression amount of the gene to be considered as a factor affecting the survival of the patient is likely to be located higher than the median value.

만약, 중앙값에서 생존 분석 시, p-value (관찰된 데이터의 검정 통계량이, 관찰자가 설정한 예측보다, 월등히 차이가 날 가능성에 대한 수치) 가 유의하지 않았는데, 상단의 그림에서와 같이 표준정규분포에서 z=1을 경계값으로 분석했을 때, p-value가 유의하게 나왔다면, 기존의 생존 분석 방법에는 오류가 있었음을 알 수 있다. In the survival analysis at the median, the p-value (the probability that the test statistic of observed data is significantly different from the predicted value set by the observer) was not significant. , We can see that there is an error in the existing survival analysis method if the p-value is significant when z = 1 is analyzed as the boundary value.

즉 본 발명의 일 실시예에 따라, 경계값을 조정하는 경우, 보다 정확한 생존 분석이 가능할 수 있다.That is, according to one embodiment of the present invention, more accurate survival analysis may be possible when the threshold value is adjusted.

도 4는 유전변이에 따른 유전자의 발현량을 고려하여, 경계값을 새로 설정한 표준 정규 분포표를 나타낸 도면이다.4 is a diagram showing a standard normal distribution table in which a boundary value is newly set in consideration of the expression amount of a gene according to a genetic mutation.

본 발명의 일 실시예에 따른, 유전변이를 고려한 유전자의 발현량에 따른 환자의 생존 분석은, 다음과 같은 과정으로 진행될 수 있다.According to an embodiment of the present invention, the survival analysis of the patient according to the expression amount of the gene in consideration of the genetic variation can be performed as follows.

생존 분석 장치 (또는 프로그램) 은 다양한 유전자 발현량 경계값을 사용하여 발현량 데이터를 이산화한다. 도면을 참조하면, 표준 정규 분포에서 Z값이 -2 부터, 2 사이의 여러 값을, 유전자 발현에 대한 경계값으로 사용할 수 있다.The survival analysis device (or program) discretizes expression data using various gene expression level threshold values. Referring to the drawings, various values between -2 and 2 in the standard normal distribution can be used as boundary values for gene expression.

생존 분석 장치는, 통계적인 신뢰성 확보를 위해, 이산화 된 0, 1 그룹 중, 샘플의 개수가 너무 적은 그룹 (예를 들면, 5개 이하 샘플)이 존재 시, 해당 경계값을 사용하는 요소는, 생존 분석에서 제외한다. In order to ensure statistical reliability, when a group (for example, five or less samples) with a small number of samples is present among the discretized groups 0 and 1, It is excluded from the survival analysis.

생존 분석 장치는, 각각의 경계값으로, 나온 데이터에 대한 생존 분석을, 독립적으로 시행한다. The survival analysis device independently performs the survival analysis on the extracted data with each threshold value.

생존 분석 장치는, 수행된 결과 가운데서 가장 좋은 성능을 보이는 (예를 들면, p-value가 가장 낮은) 경계값 결과를 선택한다. 생존 분석 장치는, 선택된 경계값을 이용하여, 유전자 발현에 대한 이산화를 수행할 수 있다.The survival analysis device selects a boundary value result that has the best performance among the performed results (eg, the lowest p-value). The survival analysis device can perform discretization for gene expression using selected threshold values.

생존 분석 장치는, 자동 결정된 경계값이 eQTL이 보여주는 경계값과 일치하는지 확인하여 사용할 수 있다. The survival analysis device can be used by checking that the automatically determined threshold value matches the threshold value shown by the eQTL.

도 5는 유전자의 발현량에 따른 생존 분석 방법을 나타낸 순서도이다.5 is a flowchart showing a survival analysis method according to the expression level of a gene.

본 발명의 일 실시예에 따르면, 생존 분석 장치는, 유전자의 발현량에 대한 표준 정규 분포를 계산한다 (s50100).According to one embodiment of the present invention, the survival analysis apparatus calculates a standard normal distribution of the expression amount of the gene (s50100).

생존 분석 장치는, 계산된 표준 정규 분포에서 경계값을 설정한다 (s50200).The survival analysis apparatus sets a boundary value in the calculated standard normal distribution (s50200).

생존 분석 장치는, 설정된 경계값을 기준으로, 유전자의 발현 여부를 이산화한다 (s50300). 여기서 이산화는, 생존 분석 모델에서 특정 유전자에 대한 발현을 고려하거나, 고려하지 않는 기준이 될 수 있다. 즉, 생존 분석 모델에서 특정 유전자의 발현을, 분석 요소로 사용할 때, 해당 유전자의 발현을 1 (발현이 많음) 또는 0 (발현이 적음)으로 표시하는 과정을 이산화라 볼 수 있다. 예를 들어, 이산화 과정은 특정 유전자의 발현량이 설정된 경계값 보다 높으면, 생존 분석 모델에서 해당 유전자의 발현이 많은 것으로 결정하고, 특정 유전자의 발현량이 설정된 경계값 보다 낮으면, 생존 분석 모델에서 해당 유전자의 발현이 적은 것으로 결정하는 과정을 의미할 수 있다. 유전자의 발현을 이산화하는 과정에서, 이산화의 기준은, 유전자의 분석에 따라 달라질 수 있다. 예를 들어, 가장 좋은 p-value 값을 나타내는 z 의 값이 경계값으로 설정되는 경우, 해당 경계값을 넘는 유전자의 발현의 경우, 해당 유전자의 발현이 많았다고 가정할 수 있고, 유전자의 발현을 1 로 설정할 수 있고, 해당 경계값에 미치지 못하는 유전자의 발현의 경우, 해당 유전자의 발현이 적었다고 가정할 수 있고, 유전자의 발현을 0으로 설정할 수 있다. The survival analysis apparatus discretizes the expression of the gene based on the set boundary value (s50300). Here, discretization may be a criterion that considers or does not consider the expression of a particular gene in the survival analysis model. In other words, when the expression of a specific gene in the survival analysis model is used as an analysis element, the process of expressing the expression of the gene as 1 (high expression) or 0 (low expression) can be regarded as a discipline. For example, if the expression level of a specific gene is higher than the set threshold value, the expression of the gene is determined to be high in the survival analysis model. If the expression level of the specific gene is lower than the set threshold value, The expression of the < / RTI > In the process of disassociating gene expression, the criteria for disassociation can vary depending on the analysis of the gene. For example, when the value of z representing the best p-value is set as a boundary value, it can be assumed that the expression of the gene in question is higher than that in the case of expression of the gene over the boundary value, 1, and in the case of expression of a gene that does not meet the boundary value, it can be assumed that the expression of the gene is low and the expression of the gene can be set to zero.

생존 분석 장치는, 이산화된 결과를 생존 분석 모델에 분석 요소로 사용한다 (s50400).The survival analysis device uses the discretized results as an analysis element in the survival analysis model (s50400).

이 과정에서, 표준 정규 분포의 중앙값 (z=0), 경계값으로 설정될 수도 있고, 중앙값이 아닌 다른 값이 경계값으로 설정될 수도 있다. 중앙값이 아닌 다른 값이 경계값으로 설정되는 경우는, 전술한 바와 같이, 샘플에서의 유전변이에 따른 유전자의 발현량이 달라지 고, 이를 고려할 때, 특정 유전자의 발현량의 경계값을 조정할 필요가 있는 경우이다.In this process, the median of the standard normal distribution (z = 0) may be set to the boundary value, or a value other than the median value may be set to the boundary value. When a value other than the median value is set as the boundary value, as described above, the expression amount of the gene is varied according to the genetic mutation in the sample, and it is necessary to adjust the boundary value of the expression amount of the specific gene Is the case.

본 발명의 일 실시예에 따르면, 경계값을 조정하여, 복수 회에 걸쳐, 실험을 진행하고, 해당 실험에서 결정된 경계값을, 생존 분석 모델에서, 해당 유전자를 위한 경계값으로 사용할 수 있다. 예를 들면, 임의의 개수의 샘플 (예를 들면, 1000 개) 에 대하여, z=-2 부터, z=2 사이에서 0.5 의 값을 변화시키면서, 가설과 실제 샘플에 대한 결과를 비교하여, 각각의 경계값에서의 p-value를 결정할 수 있다. 이 중, p-value가 가장 작은 값을 가지는 경계값을, 생존 분석 모델에서 사용할 수 있다.According to an embodiment of the present invention, the boundary value is adjusted and the experiment is performed a plurality of times, and the boundary value determined in the experiment can be used as a boundary value for the corresponding gene in the survival analysis model. For example, for a given number of samples (for example, 1000), the hypothesis is compared with the result for the actual sample while changing the value of 0.5 from z = -2 to z = 2, Lt; RTI ID = 0.0 > p-value < / RTI > Of these, boundary values with the smallest p-value can be used in the survival analysis model.

도 6은 유전자의 발현량에 따른 생존 분석 장치를 나타낸 도면이다.6 is a view showing a survival analysis apparatus according to the expression level of a gene.

본 발명의 일 실시예에 따른 생존 분석 장치 (60100)은 메인 프로세서 (60140), 및/또는 경계값 설정 프로세서 (60120)을 포함할 수 있다.The survival analysis apparatus 60100 according to an embodiment of the present invention may include a main processor 60140, and / or a threshold value setting processor 60120.

메인 프로세서 (60140)는 유전자의 발현량에 대한 표준 정규 분포를 계산한다. 메인 프로세서 (60140)는 설정된 경계값을 기준으로, 유전자의 발현 여부를 이산화한다. 메인 프로세서 (60140)는 이산화된 결과를 생존 분석 모델에 분석 요소로 사용한다.The main processor 60140 calculates a standard normal distribution of the expression amount of the gene. The main processor 60140 discretizes the expression of the gene based on the set boundary value. The main processor 60140 uses the result of the discretization as an analysis element in the survival analysis model.

경계값 설정 프로세서 (60120)는 계산된 표준 정규 분포에서 경계값을 설정할 수 있다.The threshold value setting processor 60120 may set the threshold value in the calculated standard normal distribution.

경계값 설정 프로세서 (60120)는 하나 이상의 가상 경계값을 설정하여, 해당 값을 메인 프로세서 (60140)으로 전달하고, 메인 프로세서 (60140)는 전달 받은 경계값을 이용하여, 생존 분석 모델에 따른 생존 분석을 수행할 수 있다. 메인 프로세서 (60140)은 생존 분석 결과를 경계값 설정 프로세서 (60120)에 전달하고, 경계값 설정 프로세서 (60120)는 각각의 가상 경계값에 따른 p-value 값을 결정하고, p-value 값이 가장 낮은 가상 경계값을, 실제 생존 분석 모델에서 사용할 경계값으로 설정하여, 메인 프로세서 (60140)에 전달할 수 있다.The boundary value setting processor 60120 sets one or more virtual boundary values and delivers the values to the main processor 60140. The main processor 60140 uses the received boundary values to perform a survival analysis Can be performed. The main processor 60140 transmits the survival analysis result to the threshold value setting processor 60120. The threshold value setting processor 60120 determines a p-value value corresponding to each virtual threshold value, The low virtual boundary value may be set to a threshold value to be used in the actual survival analysis model and transmitted to the main processor 60140.

기존에 유전자의 발현량이 환자의 임상 예후에 미치는 영향을 분석할 때에는, 유전자 발현 데이터를 연속값 (continuous values) 을 그대로 사용하거나, 중앙값(median)을 기준으로 0 혹은 1로 이산화하여 예후분석을 진행하였다. 그러나, 이러한 경우에는 유전자의 발현량이 특정 경계값을 넘을 때에 환자의 신체 내에서 실제적인 임상적 변화를 가져오게 될 수 있는, 유전자에 따라 서로 다른 유전자 스위치 경계값 (예를 들면, z=0이 아닌 값) 에 대한 고려가 되지 않았기 때문에 환자의 생존 분석의 효과가 제한될 수 있다. 본 발명에 따르면, 유전자에 적용될 수 있는 다양한 유전자 스위치 경계값들을 고려한 생존분석을 통하여 유전자의 발현이 환자의 생존에 미치는 영향을 좀 더 정확히 분석할 수 있는 효과가 있다.When analyzing the effect of gene expression on the clinical prognosis of a patient, gene expression data may be used as the continuous values, or disassociated to 0 or 1 based on the median, to analyze the prognosis Respectively. However, in such cases, different gene switch thresholds (for example, z = 0) may be used depending on the gene, which may lead to actual clinical changes in the patient's body when the expression level of the gene exceeds a certain threshold value. Non-value), the effect of the patient's survival analysis may be limited. According to the present invention, the effect of gene expression on the survival of a patient can be more accurately analyzed through survival analysis considering various gene switch boundary values applicable to the gene.

유전자에 따른 생존 분석은 유전체학 연구에 있어서 가장 중요한 분석 파트 중 하나이다. 아무리 다량의 우수한 후보 유전자군이 발굴되었다 할지라도, 최종 단계인 생존 분석에서 그 발현량이 환자의 예후와 관련되었음을 밝히지 못하면 아무 소용이 없게 된다. 따라서, 유전자 생존 분석에서 민감도(sensitivity)를 향상시키는 것은 유전체학 및 생물학 연구에 있어서 매우 큰 영향력을 갖는 이슈이다. 따라서 본 발명은, 기존의 생존 분석 방식으로 찾아낼 수 없었던 유전자들을 찾아낼 수 있는, 기존의 방법보다 높은 민감도를 가지는 방법 및 이를 수행하는 장치를 제시하고 있으며, 이를 이용하여, 유전체학 연구에 보다 높은 신뢰도를 가지는 결과를 생성할 수 있는 효과가 있다.Genetic-based survival analysis is one of the most important analytical parts of genomics research. No matter how large a group of excellent candidate genes have been discovered, it is useless if the survival analysis at the final stage does not reveal that the expression level is related to the prognosis of the patient. Thus, improving sensitivity in gene survival analysis is an issue that has great impact on genomics and biology research. Therefore, the present invention proposes a method that can detect genes that could not be found by existing survival analysis methods and has a higher sensitivity than the existing methods, and an apparatus for performing the method. There is an effect that a result having reliability can be generated.

모듈, 처리부, 디바이스 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 프로세서들일 수 있다. 전술한 실시예에 기술된 각 단계들은 하드웨어/프로세서들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블록/유닛들은 하드웨어/프로세서로서 동작할 수 있다. 또한, 본 발명이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.A module, processing unit, device or unit may be processors executing sequential execution processes stored in memory (or storage unit). Each of the steps described in the above embodiments may be performed by hardware / processors. Each module / block / unit described in the above embodiments may operate as a hardware / processor. Further, the methods proposed by the present invention can be executed as codes. The code may be written to a storage medium readable by the processor and thus read by a processor provided by the apparatus.

본 발명에 따른 방법 발명은 모두 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. The method inventions according to the present invention can all be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium.

상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. This is possible. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined by the equivalents of the claims, as well as the claims.

Claims (20)

유전자의 발현량에 따른 생존 분석 방법에 있어서,
유전자의 발현량에 대한 표준 정규 분포를 계산하는 단계;
상기 계산된 표준 정규 분포에서 경계값을 설정하는 단계;
상기 설정된 경계값을 기준으로, 상기 유전자의 발현 여부를 이산화하는 단계; 및
상기 이산화된 결과를 생존 분석 모델에 분석 요소로 사용하는 단계;
를 포함하고,
상기 경계값을 설정하는 단계는,
복수의 경계값일 경우, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 상기 복수의 경계값에 대응하는 각각의 p-value를 결정하고, 상기 결정된 p-value들 중 가장 낮은 값에 대응하는 경계값을 상기 경계값으로 설정하는 유전자의 발현량에 따른 생존 분석 방법.
In a survival analysis method according to the expression level of a gene,
Calculating a standard normal distribution of the expression amount of the gene;
Setting a boundary value in the calculated normal normal distribution;
Disassembling the expression of the gene based on the set boundary value; And
Using the discretized results as an analytical element in a survival analysis model;
Lt; / RTI >
The step of setting the boundary value comprises:
Applying the generated discretized results to the survival analysis model to determine respective p-values corresponding to the plurality of boundary values for the survival analysis results, And a threshold value corresponding to a low value as the threshold value.
제 1 항에 있어서, 상기 경계값을 설정하는 단계는,
상기 표준 정규 분포의 중앙값 (z=0) 을, 상기 경계값으로 설정하는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 방법.
The method of claim 1, wherein the step of setting the boundary value comprises:
Wherein the median (z = 0) of the standard normal distribution is set to the boundary value.
제 1 항에 있어서, 상기 경계값을 설정하는 단계는,
제 1 경계값 (zi), 제 2 경계값 (zii) 및 제 3 경계값 (ziii) 중 어느 하나를 상기 경계값으로 설정하는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 방법.
The method of claim 1, wherein the step of setting the boundary value comprises:
Wherein one of the first boundary value zi, the second boundary value zii, and the third boundary value ziii is set as the boundary value.
제 3 항에 있어서, 상기 경계값을 설정하는 단계는,
상기 제 1 경계값 (zi)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 1 p-value (p1) 를 결정하는 단계;
상기 제 2 경계값 (zii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 2 p-value (p2) 를 결정하는 단계;
상기 제 3 경계값 (ziii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 3 p-value (p3) 를 결정하는 단계;
상기 제 1 p-value, 상기 제 2 p-value, 및 상기 제 3 p-value 중 가장 낮은 값을 가지는 p-value (p) 를 결정하는 단계; 및
상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 중, 상기 결정된 p-value (p) 와 관련된 값을, 상기 경계값으로 설정하는 단계;
를 포함하는 유전자의 발현량에 따른 생존 분석 방법.
4. The method of claim 3, wherein the setting of the boundary value comprises:
Applying the resulting discretized result to the survival analysis model using the first boundary value zi to determine a first p-value (p1) for the survival analysis result;
Applying the resulting discretized result to the survival analysis model using the second threshold value zii to determine a second p-value (p2) for the survival analysis result;
Applying the resulting discretized results to the survival analysis model using the third boundary value ziii to determine a third p-value (p3) for the survival analysis results;
Determining a p-value (p) having a lowest one of the first p-value, the second p-value, and the third p-value; And
Setting a value associated with the determined p-value (p) among the first boundary value zi, the second boundary value zii, and the third boundary value ziii as the boundary value;
Gt; expression < / RTI >
제 4 항에 있어서, 상기 경계값을 설정하는 단계는,
상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 및 제 4 경계값 (ziv) 중 어느 하나를 상기 경계값으로 설정하는 것을 특징으로 하고,
상기 4 경계값 (ziv)을 이용하여, 생성된 이산화된 결과를 나타내는 샘플의 개수가, 임계값 이하인 경우, 상기 생존 분석 모델에 상기 제 4 경계값 (ziv)의 적용을 제외하는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 방법.
5. The method of claim 4, wherein the step of setting the boundary value comprises:
Wherein one of the first boundary value zi, the second boundary value zii, the third boundary value ziii, and the fourth boundary value ziv is set as the boundary value,
The application of the fourth boundary value ziv to the survival analysis model is excluded when the number of samples indicating the result of the generated discretization is equal to or less than the threshold value by using the four boundary value ziv Survival analysis method according to gene expression amount.
제 5 항에 있어서,
상기 제 1 경계값 (zi)은 -2 (z=-2) 이고,
상기 제 3 경계값 (ziii)은 2 (z=2) 이고,
상기 제 2 경계값 (zii) 및 상기 제 4 경계값 (ziv)는 -2 와 2 사이의, 값인 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 방법.
6. The method of claim 5,
The first boundary value zi is -2 (z = -2)
The third boundary value ziii is 2 (z = 2)
Wherein the second boundary value (zii) and the fourth boundary value (ziv) are values between -2 and 2, respectively.
제 4 항에 있어서, 상기 생존 분석 모델은,
Cox-proportional hazard 모델 또는 log-rank test 모델에 해당되는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 방법.
5. The method of claim 4,
A survival analysis method according to a gene expression amount characterized by a Cox-proportional hazard model or a log-rank test model.
유전자의 발현량에 따른 생존 분석 장치에 있어서, 상기 생존 분석 장치는,
유전자의 발현량에 대한 표준 정규 분포를 계산하고,
상기 계산된 표준 정규 분포에서 경계값을 설정하고,
상기 설정된 경계값을 기준으로, 상기 유전자의 발현 여부를 이산화하고,
상기 이산화된 결과를 생존 분석 모델에 분석 요소로 사용하고
상기 경계값이 복수일 경우, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 상기 복수의 경계값에 대응하는 각각의 p-value를 결정하고, 상기 결정된 p-value들 중 가장 낮은 값에 대응하는 경계값을 상기 경계값으로 설정하는 유전자의 발현량에 따른 생존 분석 장치.
In the survival analysis apparatus according to the expression amount of the gene,
The standard normal distribution for the expression level of the gene is calculated,
Setting a boundary value in the calculated standard normal distribution,
Disassembling the expression of the gene based on the set boundary value,
The result of the discretization is used as an analysis element in the survival analysis model
Applying the generated discretized results to the survival analysis model to determine respective p-values corresponding to the plurality of boundary values for survival analysis results, and if the determined p-values And the threshold value corresponding to the lowest value among the threshold values.
제 8 항에 있어서, 상기 생존 분석 장치는,
상기 표준 정규 분포의 중앙값 (z=0) 을, 상기 경계값으로 설정하는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 장치.
9. The survival analysis apparatus according to claim 8,
Wherein the median (z = 0) of the standard normal distribution is set to the boundary value.
제 8 항에 있어서, 상기 생존 분석 장치는, 제 1 경계값 (zi), 제 2 경계값 (zii) 및 제 3 경계값 (ziii) 중 어느 하나를 상기 경계값으로 설정하는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 장치.The survival analysis apparatus according to claim 8, wherein the survival analysis apparatus sets one of the first boundary value (zi), the second boundary value (zii) and the third boundary value (ziii) The survival analysis device according to the amount of expression. 제 10 항에 있어서, 상기 생존 분석 장치는,
상기 제 1 경계값 (zi)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 1 p-value (p1) 를 결정하고,
상기 제 2 경계값 (zii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 2 p-value (p2) 를 결정하고,
상기 제 3 경계값 (ziii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 3 p-value (p3) 를 결정하고,
상기 제 1 p-value, 상기 제 2 p-value, 및 상기 제 3 p-value 중 가장 낮은 값을 가지는 p-value (p) 를 결정하고,
상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 중, 상기 결정된 p-value (p) 와 관련된 값을, 상기 경계값으로 설정하는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 장치.
11. The apparatus according to claim 10,
Applying the generated discretized results to the survival analysis model using the first boundary value zi to determine a first p-value (p1) for the survival analysis results,
Applying the resulting discretized result to the survival analysis model using the second boundary value zii to determine a second p-value (p2) for the survival analysis result,
Applying the resulting discretized results to the survival analysis model using the third boundary value ziii to determine a third p-value (p3) for the survival analysis result,
Determining a p-value (p) having a lowest one of the first p-value, the second p-value, and the third p-value,
A value related to the determined p-value (p) among the first boundary value zi, the second boundary value zii, and the third boundary value ziii is set as the boundary value. The survival analysis device according to the amount of gene expression.
제 11 항에 있어서, 상기 생존 분석 장치는,
상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 및 제 4 경계값 (ziv) 중 어느 하나를 상기 경계값으로 설정하는 것을 특징으로 하고,
상기 4 경계값 (ziv)을 이용하여, 생성된 이산화된 결과를 나타내는 샘플의 개수가, 임계값 이하인 경우, 상기 생존 분석 모델에 상기 제 4 경계값 (ziv)의 적용을 제외하는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 장치.
12. The apparatus according to claim 11,
Wherein one of the first boundary value zi, the second boundary value zii, the third boundary value ziii, and the fourth boundary value ziv is set as the boundary value,
The application of the fourth boundary value ziv to the survival analysis model is excluded when the number of samples indicating the result of the generated discretization is equal to or less than the threshold value by using the four boundary value ziv A survival analysis device based on the expression level of the gene.
제 12 항에 있어서, 상기 생존 분석 장치는,
상기 제 1 경계값 (zi)을 -2 (z=-2) 로 설정하고,
상기 제 3 경계값 (ziii)을 2 (z=2) 로 설정하고,
상기 제 2 경계값 (zii) 및 상기 제 4 경계값 (ziv)는 -2 와 2 사이의 값으로 설정하는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 장치.
14. The survival analysis apparatus according to claim 12,
The first boundary value zi is set to -2 (z = -2)
The third boundary value ziii is set to 2 (z = 2)
Wherein the second boundary value (zii) and the fourth boundary value (ziv) are set to values between -2 and 2, respectively.
제 11 항에 있어서, 상기 생존 분석 모델은,
Cox-proportional hazard 모델 또는 log-rank test 모델에 해당되는 것을 특징으로 하는 유전자의 발현량에 따른 생존 분석 장치.
12. The method of claim 11,
Cox-proportional hazard model or log-rank test model.
유전자의 발현량에 따른 생존 분석을 위하여,
유전자의 발현량에 대한 표준 정규 분포를 계산하는 단계;
상기 계산된 표준 정규 분포에서 경계값을 설정하는 단계;
상기 설정된 경계값을 기준으로, 상기 유전자의 발현 여부를 이산화하는 단계; 및
상기 이산화된 결과를 생존 분석 모델에 분석 요소로 사용하는 단계;를 포함하고,
상기 경계값을 설정하는 단계는,
복수의 경계값일 경우, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 상기 복수의 경계값에 대응하는 각각의 p-value를 결정하고, 상기 결정된 p-value들 중 가장 낮은 값에 대응하는 경계값을 상기 경계값으로 설정하는 것을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
For survival analysis according to the expression level of the gene,
Calculating a standard normal distribution of the expression amount of the gene;
Setting a boundary value in the calculated normal normal distribution;
Disassembling the expression of the gene based on the set boundary value; And
And using the discretized results as an analytical element in a survival analysis model,
The step of setting the boundary value comprises:
Applying the generated discretized results to the survival analysis model to determine respective p-values corresponding to the plurality of boundary values for the survival analysis results, And setting a boundary value corresponding to a lower value as the boundary value. ≪ Desc / Clms Page number 24 >
제 15 항에 있어서, 상기 경계값을 설정하는 단계는,
상기 표준 정규 분포의 중앙값 (z=0) 을, 상기 경계값으로 설정하는 것을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
16. The method of claim 15, wherein setting the boundary value comprises:
And setting the median of the standard normal distribution (z = 0) to the boundary value.
제 15 항에 있어서, 상기 경계값을 설정하는 단계는,
제 1 경계값 (zi), 제 2 경계값 (zii) 및 제 3 경계값 (ziii) 중 어느 하나를 상기 경계값으로 설정하는 것을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
16. The method of claim 15, wherein setting the boundary value comprises:
And setting one of the first boundary value zi, the second boundary value zii, and the third boundary value ziii as the boundary value.
제 17 항에 있어서,
상기 제 1 경계값 (zi)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 1 p-value (p1) 를 결정하는 단계;
상기 제 2 경계값 (zii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 2 p-value (p2) 를 결정하는 단계;
상기 제 3 경계값 (ziii)을 이용하여, 생성된 이산화된 결과를 상기 생존 분석 모델에 적용하여, 생존 분석 결과에 대한 제 3 p-value (p3) 를 결정하는 단계;
상기 제 1 p-value, 상기 제 2 p-value, 및 상기 제 3 p-value 중 가장 낮은 값을 가지는 p-value (p) 를 결정하는 단계; 및
상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 중, 상기 결정된 p-value (p) 와 관련된 값을, 상기 경계값으로 설정하는 단계;
를 더 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
18. The method of claim 17,
Applying the resulting discretized result to the survival analysis model using the first boundary value zi to determine a first p-value (p1) for the survival analysis result;
Applying the resulting discretized result to the survival analysis model using the second threshold value zii to determine a second p-value (p2) for the survival analysis result;
Applying the resulting discretized results to the survival analysis model using the third boundary value ziii to determine a third p-value (p3) for the survival analysis results;
Determining a p-value (p) having a lowest one of the first p-value, the second p-value, and the third p-value; And
Setting a value associated with the determined p-value (p) among the first boundary value zi, the second boundary value zii, and the third boundary value ziii as the boundary value;
Readable recording medium having recorded thereon a computer readable program for executing the program.
제 18 항에 있어서,
상기 제 1 경계값 (zi), 상기 제 2 경계값 (zii), 상기 제 3 경계값 (ziii) 및 제 4 경계값 (ziv) 중 어느 하나를 상기 경계값으로 설정하고,
상기 4 경계값 (ziv)을 이용하여, 생성된 이산화된 결과를 나타내는 샘플의 개수가, 임계값 이하인 경우, 상기 생존 분석 모델에 상기 제 4 경계값 (ziv)의 적용을 제외시키는 것을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
19. The method of claim 18,
Setting one of the first boundary value zi, the second boundary value zii, the third boundary value ziii, and the fourth boundary value ziv as the boundary value,
(Ziv) is used to exclude the application of the fourth boundary value (ziv) to the survival analysis model when the number of samples representing the resulting discretized result is less than or equal to a threshold value A computer-readable recording medium on which a program is recorded.
제 18 항에 있어서, 상기 생존 분석 모델로,
Cox-proportional hazard 모델 또는 log-rank test 모델을 사용하는 것을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
19. The method of claim 18,
A computer-readable recording medium recording a program for performing a Cox-proportional hazard model or a log-rank test model.
KR1020160073319A 2016-06-13 2016-06-13 Apparatus and method of survival analysis for patients using genetic switch threshold KR101717141B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160073319A KR101717141B1 (en) 2016-06-13 2016-06-13 Apparatus and method of survival analysis for patients using genetic switch threshold

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160073319A KR101717141B1 (en) 2016-06-13 2016-06-13 Apparatus and method of survival analysis for patients using genetic switch threshold

Publications (1)

Publication Number Publication Date
KR101717141B1 true KR101717141B1 (en) 2017-03-16

Family

ID=58497617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160073319A KR101717141B1 (en) 2016-06-13 2016-06-13 Apparatus and method of survival analysis for patients using genetic switch threshold

Country Status (1)

Country Link
KR (1) KR101717141B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004013573A (en) * 2002-06-07 2004-01-15 Center For Advanced Science & Technology Incubation Ltd Processing method for gene expression data, and processing program
KR20120077594A (en) 2010-12-30 2012-07-10 충북대학교 산학협력단 An identification method for all contrasting groups in gene expression data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004013573A (en) * 2002-06-07 2004-01-15 Center For Advanced Science & Technology Incubation Ltd Processing method for gene expression data, and processing program
KR20120077594A (en) 2010-12-30 2012-07-10 충북대학교 산학협력단 An identification method for all contrasting groups in gene expression data

Similar Documents

Publication Publication Date Title
Hernandez et al. Ultrarare variants drive substantial cis heritability of human gene expression
Kelley et al. Sequential regulatory activity prediction across chromosomes with convolutional neural networks
Lam et al. Comparative genetic architectures of schizophrenia in East Asian and European populations
Euesden et al. PRSice: polygenic risk score software
Hebestreit et al. Detection of significantly differentially methylated regions in targeted bisulfite sequencing data
Simon et al. Using cross-validation to evaluate predictive accuracy of survival risk classifiers based on high-dimensional data
Narlikar et al. ChIP-Seq data analysis: identification of Protein–DNA binding sites with SISSRs peak-finder
Liang et al. Polygenic transcriptome risk scores (PTRS) can improve portability of polygenic risk scores across ancestries
Lewis et al. What evidence is there for the homology of protein-protein interactions?
Hu et al. Proper use of allele-specific expression improves statistical power for cis-eQTL mapping with RNA-seq data
Hung Gene set/pathway enrichment analysis
JP6208227B2 (en) System and method for generating a biomarker signature
JP6530707B2 (en) Path Visualization for Clinical Decision Support
JP7275334B2 (en) Systems, methods and genetic signatures for predicting an individual's biological status
Schmid et al. Design and power analysis for multi-sample single cell genomics experiments
US20140052380A1 (en) Method and apparatus for analyzing personalized multi-omics data
KR101770962B1 (en) A method and apparatus of providing information on a genomic sequence based personal marker
Benegas et al. GPN-MSA: an alignment-based DNA language model for genome-wide variant effect prediction
KR101717141B1 (en) Apparatus and method of survival analysis for patients using genetic switch threshold
Molinari et al. Transcriptome analysis using RNA-Seq fromexperiments with and without biological replicates: areview
Yi et al. Comparison of dimension reduction-based logistic regression models for case-control genome-wide association study: principal components analysis vs. partial least squares
Le et al. Expanding Polygenic Risk Scores to Include Automatic Genotype Encodings and Gene-gene Interactions.
KR20210059325A (en) Model for Predicting Cancer Prognosis using Deep learning
Sun et al. Mapping of expression quantitative trait loci using RNA-seq data
Louhimo et al. Identification of genetic markers with synergistic survival effect in cancer

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant