KR20200107841A - Method for identifying disease phenotype based on combined score of significant gene expression signatures from transcriptome sample of patients - Google Patents

Method for identifying disease phenotype based on combined score of significant gene expression signatures from transcriptome sample of patients Download PDF

Info

Publication number
KR20200107841A
KR20200107841A KR1020200027784A KR20200027784A KR20200107841A KR 20200107841 A KR20200107841 A KR 20200107841A KR 1020200027784 A KR1020200027784 A KR 1020200027784A KR 20200027784 A KR20200027784 A KR 20200027784A KR 20200107841 A KR20200107841 A KR 20200107841A
Authority
KR
South Korea
Prior art keywords
disease
gene
genes
score
gene expression
Prior art date
Application number
KR1020200027784A
Other languages
Korean (ko)
Other versions
KR102361617B1 (en
Inventor
이관수
박항익
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20200107841A publication Critical patent/KR20200107841A/en
Application granted granted Critical
Publication of KR102361617B1 publication Critical patent/KR102361617B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a disease phenotype identification method for determining a disease in a computing device operated by at least one processor. According to the present invention, the disease phenotype identification method comprises the steps of: collecting gene expression data of peripheral blood mononuclear cells (PBMCs) of patients and gene expression data of PBMCs of normal people from a microarray database; evaluating the similarity between the collected gene expression data, and selecting genes that show a significant difference in expression between the gene expression data of the patients and the gene expression data of the normal people; identifying genes that are overexpressed and suppressed for disease state compared to normal state among selected genes; determining a reference disease prediction gene score based on expression values of the overexpressed genes and expression values of the suppressed-expressed genes; and if a disease prediction gene score calculated based on a gene expression value in a received random sample is higher than the reference disease prediction gene score, determining the random sample as a disease sample.

Description

환자 전사체 샘플의 유의 유전자 발현 지표 조합 점수 기반 질병 표현형 판별 방법{METHOD FOR IDENTIFYING DISEASE PHENOTYPE BASED ON COMBINED SCORE OF SIGNIFICANT GENE EXPRESSION SIGNATURES FROM TRANSCRIPTOME SAMPLE OF PATIENTS}METHOD FOR IDENTIFYING DISEASE PHENOTYPE BASED ON COMBINED SCORE OF SIGNIFICANT GENE EXPRESSION SIGNATURES FROM TRANSCRIPTOME SAMPLE OF PATIENTS}

본 발명은 환자 전사체 샘플의 유의 유전자 발현 지표 조합 점수 기반 질병 표현형 판별 방법에 관한 것이다.The present invention relates to a method for discriminating a disease phenotype based on a score of a combination of significant gene expression indicators in a patient transcript sample.

혈액 조직은 체내를 순환하면서 조직 간의 물질 교환 및 수송의 역할을 하며, 혈액을 구성하는 면역 세포는 분자적 단계에서 체내의 다양한 조직과 영향을 주고받는다. 이러한 이유로 혈액 조직은 혈액에서 나타나는 유전자 발현 지표를 사용하여 특정 질병의 표현형과 약물 반응성을 추론하고, 유의미한 질병 진단 및 유전자 치료 바이오마커를 발굴하는 주요한 목표 조직으로써 사용되어 왔다. 이와 더불어 혈액은 환자의 샘플 수집이 최소한의 침습으로 이루어지며, 가공이 비교적 간편한 단계를 거쳐 이루어질 수 있다. 이러한 장점들로 인하여 다양한 질환에 대하여 환자 혈액 조직 및 구성 면역 세포의 유전자 발현 데이터가 수집 및 분석되었다. Blood tissues circulate in the body to exchange and transport substances between tissues, and immune cells that make up blood interact with various tissues in the body at a molecular level. For this reason, blood tissue has been used as a major target tissue for inferring the phenotype and drug responsiveness of a specific disease using gene expression indicators in the blood, and discovering meaningful disease diagnosis and gene therapy biomarkers. In addition, blood sample collection by the patient is performed with minimal invasiveness, and processing can be performed through relatively simple steps. Due to these advantages, gene expression data of patient blood tissues and constitutive immune cells were collected and analyzed for various diseases.

그러나 기존의 혈액 세포 유전자 발현 데이터 기반 질병 예측 마커 발굴 과정은 특정 질병 표현형(phenotype)에 대하여 서로 다른 혈액 샘플 데이터 세트에서 일괄적으로 점수화하여 평가 가능한 척도가 부재하며, 질병-정상 간 판별 마커의 재현성이 떨어지는 문제가 있다. However, the existing process of discovering disease predictive markers based on blood cell gene expression data does not have a scale that can be evaluated by collectively scoring a specific disease phenotype from different blood sample data sets, and the reproducibility of disease-normal discriminant markers. There is a problem with this falling.

기존 연구들에서는 단일 혹은 다중 질환에서 공유되는 질병 마커에 대하여 질병-정상의 표현형 사이에서 수백 개 정도의 유의한 발현 차이가 있는 유전자를 찾고, 해당 마커의 기전 및 기능 분석, 약물 재창출로의 응용 가능성을 논해 왔다. Existing studies have found genes with significant expression differences of about several hundred between disease-normal phenotypes for disease markers shared by single or multiple diseases, analyzing the mechanism and function of the marker, and applying it to drug re-creation. I have been discussing the possibilities.

그러나 기 연구들에서는 특정 데이터 세트에서 유의하게 나타난 유전자들에 대한 정성적인 분석을 진행하였다. However, in the previous studies, qualitative analysis was conducted on genes that were significant in a specific data set.

대부분의 결과들이 다른 집단의 독립된 환자 샘플에 적용 가능한 형태의 유효한 점수화 모델로 구축되지 않았다. 실제 임상에서 질병 상태 혹은 특정 표현형을 판단하기 위하여 적용하는 수준에 이르지 못하였다. Most of the results have not been built into a valid scoring model in a form applicable to independent patient samples from different populations. In actual clinical practice, it has not reached the level applied to judge disease status or specific phenotype.

이와 같은 혈액 조직 질병 오믹스(Omics) 분석의 문제점으로 인하여 특정 질병 표현형에 대해서 일반화가 가능한 유효한 예측 모델을 구성하는 데에 어려움이 있다.Due to such a problem in the analysis of blood tissue disease omics, it is difficult to construct an effective predictive model that can be generalized for a specific disease phenotype.

본 발명이 해결하고자 하는 과제는 혈액을 구성하는 주요 면역 세포 그룹인 말초 혈액 단핵세포(peripheral blood mononuclear cell, PBMC)의 유전자 발현 데이터를 이용하여 질병 표현형을 판별하는 방법에 관한 것이다.The problem to be solved by the present invention relates to a method of discriminating a disease phenotype by using gene expression data of peripheral blood mononuclear cells (PBMCs), which are major immune cell groups constituting blood.

본 발명의 하나의 특징에 따르면, 질병 표현형 판별 방법은 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치에서 질병 표현형을 판별하는 방법으로서, 마이크로어레이 데이터베이스로부터 환자의 말초 혈액 단핵세포(peripheral blood mononuclear cell, PBMC)의 유전자 발현 데이터들과 정상인의 말초 혈액 단핵세포의 유전자 발현 데이터들을 수집하는 단계, 수집한 유전자 발현 데이터들 사이의 유사성을 평가하여 환자의 유전자 발현 데이터와 정상인의 유전자 발현 데이터 사이의 유의한 발현 차이를 나타내는 유전자들을 선정하는 단계, 선정한 유전자들 중에서 정상 상태 대비 질병 상태에 대하여 과발현 및 억제 발현된 유전자들을 확인하는 단계, 과발현된 유전자들의 발현값 및 억제 발현된 유전자들의 발현값을 기초로, 기준 질병 예측 유전자 점수를 결정하는 단계, 그리고 입력받은 임의의 샘플내 유전자 발현값을 기초로 계산한 질병 예측 유전자 점수가 상기 기준 질병 예측 유전자 점수보다 높으면, 상기 임의의 샘플을 질병 샘플로 판별하는 단계를 포함한다.According to one feature of the present invention, a method for determining a disease phenotype is a method for determining a disease phenotype in a computing device operated by at least one processor, and a peripheral blood mononuclear cell (PBMC) of a patient from a microarray database. ), and collecting gene expression data of peripheral blood mononuclear cells of normal people, and evaluating the similarity between the collected gene expression data to make significant expression between the gene expression data of the patient and the gene expression data of the normal person. Selecting genes showing differences, identifying genes that are overexpressed and suppressed for disease states compared to normal conditions among the selected genes, based on expression values of overexpressed genes and expression values of suppressed-expressed genes, Determining a disease prediction gene score, and if the disease prediction gene score calculated based on the gene expression value in the received random sample is higher than the reference disease prediction gene score, discriminating the random sample as a disease sample. Include.

상기 선정하는 단계와 상기 확인하는 단계 사이에, 상기 선정한 유전자들을 순차적으로 조합하여 질병 판별 마커 조합을 결정하는 단계를 더 포함하고, 상기 확인하는 단계는, 상기 질병 판별 마커 조합에 포함된 유전자들 중에서 과발현 및 억제발현된 유전자들을 확인할 수 있다.Between the step of selecting and the step of confirming, the step of determining a disease discrimination marker combination by sequentially combining the selected genes, the step of confirming, from among genes included in the disease discrimination marker combination Genes that are overexpressed and suppressed can be identified.

상기 질병 판별 마커 조합을 결정하는 단계는, 임의의 유전자 조합의 질병 판별 성능이 이전 유전자 조합에 비해 증가하면 다른 유전자를 추가하여 유전자 조합을 확장하는 단계, 그리고 이전 유전자 조합에 비해 질병 판별 성능이 증가하지 않으면 해당 유전자 조합을 질병 판별 마커 조합으로 결정하는 단계를 포함할 수 있다.The step of determining the disease discrimination marker combination may include expanding the gene combination by adding another gene when the disease discrimination performance of any gene combination is increased compared to the previous gene combination, and the disease discrimination performance is increased compared to the previous gene combination. Otherwise, it may include determining the corresponding gene combination as a disease discrimination marker combination.

상기 질병 판별 마커 조합을 결정하는 단계는, 상기 임의의 유전자 조합을 대상으로 질병 판별 성능을 계산하는 단계를 포함하고, 상기 질병 판별 성능을 계산하는 단계는, 교차 검증을 통해 계산된 질병 판별 모델 별로 각각의 판별 정확도의 산술 평균값을 상기 임의의 유전자 조합의 질병 판별 성능으로 계산할 수 있다.The determining of the disease discrimination marker combination includes calculating a disease discrimination performance for the random combination of genes, and the calculating of the disease discrimination performance comprises each disease discrimination model calculated through cross-validation. The arithmetic mean value of each discrimination accuracy can be calculated as the disease discrimination performance of the arbitrary gene combination.

상기 결정하는 단계는, 상기 과발현된 유전자들에 대한 환자의 유전자 발현값들의 기하 평균값과 상기 억제 발현된 유전자들에 대한 환자의 유전자 발현값들의 기하 평균값 간의 차이를 환자의 질병 예측 유전자 점수로 계산하는 단계, 상기 과발현된 유전자들에 대한 정상인의 유전자 발현값들의 기하 평균값과 상기 억제 발현된 유전자들에 대한 정상인의 유전자 발현값들의 기하 평균값 간의 차이를 정상인의 질병 예측 유전자 점수로 계산하는 단계, 상기 환자의 질병 예측 유전자 점수를 복수의 환자의 말초 혈액 단핵세포의 유전자 발현 데이터를 대상으로 계산하고, 계산된 질병 예측 유전자 점수들 중에서 최저 질병 예측 유전자 점수를 선택하는 단계, 상기 정상인의 질병 예측 유전자 점수를 복수의 정상인의 말초 혈액 단핵세포의 유전자 발현 데이터를 대상으로 계산하고, 계산된 질병 예측 유전자 점수들 중에서 최고 질병 예측 유전자 점수를 선택하는 단계, 그리고 상기 최저 질병 예측 유전자 점수와 상기 최고 질병 예측 유전자 점수의 평균 점수를 상기 기준 질병 예측 유전자 점수로 결정하는 단계를 포함할 수 있다.The determining step includes calculating a difference between the geometric mean value of the patient's gene expression values for the overexpressed genes and the geometric mean value of the patient's gene expression values for the suppressed-expressed genes as the patient's disease prediction gene score. Step, calculating the difference between the geometric mean value of gene expression values of the normal person for the overexpressed genes and the geometric mean value of gene expression values of the normal person for the suppressed-expressed genes as a disease predicted gene score of the normal person, the patient Calculating the disease prediction gene score of the plurality of patients based on gene expression data of peripheral blood mononuclear cells, and selecting the lowest disease prediction gene score from among the calculated disease prediction gene scores, the disease prediction gene score of the normal person Calculating the gene expression data of the peripheral blood mononuclear cells of a plurality of normal individuals as a target, selecting the highest disease predicting gene score among the calculated disease predicting gene scores, and the lowest disease predicting gene score and the highest disease predicting gene score It may include the step of determining the average score of the reference disease prediction gene score.

상기 판별하는 단계는, 상기 임의의 샘플 내 유전자 발현 데이터의 발현 분포의 등위를 상기 기준 질병 예측 유전자 점수 산출에 사용된 유전자 발현 데이터의 발현 분포에 맞춘 후, 상기 임의의 샘플 내 유전자 발현값을 기초로 계산된 질병 예측 유전자 점수와 상기 기준 질병 예측 유전자 점수를 비교할 수 있다.In the step of determining, the level of the expression distribution of the gene expression data in the arbitrary sample is matched with the expression distribution of the gene expression data used for calculating the reference disease prediction gene score, and then the gene expression value in the arbitrary sample is based The disease predicted gene score calculated by may be compared with the reference disease predicted gene score.

본 발명의 다른 특징에 따르면, 질병 표현형 판별 방법은 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치에서 질병 표현형을 판별하는 방법으로서, 마이크로어레이 데이터베이스로부터 수집된 환자의 말초 혈액 단핵세포(peripheral blood mononuclear cell, PBMC)의 유전자 발현 데이터들과 정상인의 말초 혈액 단핵세포의 유전자 발현 데이터들을 기초로, 기준 질병 예측 유전자 점수를 계산하는 단계, 입력받은 임의의 샘플내 유전자 발현 데이터들을 기초로 계산된 질병 예측 유전자 점수를 상기 기준 질병 예측 유전자 점수와 비교하는 단계, 상기 임의의 샘플을 대상으로 계산된 질병 예측 유전자 점수가 상기 기준 질병 예측 유전자 점수보다 높은 값을 가지면, 상기 임의의 샘플을 질병 샘플로 판단하는 단계, 그리고 상기 임의의 샘플을 대상으로 계산된 질병 예측 유전자 점수가 상기 기준 질병 예측 유전자 점수보다 낮은 값을 가지면, 상기 임의의 샘플을 정상 샘플로 판단하는 단계를 포함한다.According to another feature of the present invention, a disease phenotype determination method is a method of determining a disease phenotype in a computing device operated by at least one processor, comprising peripheral blood mononuclear cells of a patient collected from a microarray database. PBMC) and the gene expression data of the peripheral blood mononuclear cells of a normal person, calculating a reference disease prediction gene score, a disease prediction gene score calculated based on the gene expression data in any sample received Comparing the reference disease prediction gene score with the reference disease prediction gene score, when the disease prediction gene score calculated for the random sample has a value higher than the reference disease prediction gene score, determining the random sample as a disease sample, And determining the random sample as a normal sample if the disease prediction gene score calculated for the random sample has a value lower than the reference disease prediction gene score.

상기 기준 질병 예측 유전자 점수를 계산하는 단계는, 상기 마이크로어레이 데이터베이스로부터 수집된 유전자 발현 데이터들 중에서 정상인의 유전자 발현 데이터에 비하여 과발현된 유전자들에 대한 정상인 및 환자의 유전자 발현값들과, 억제 발현된 유전자들에 대한 정상인 및 환자의 유전자 발현값들을 기초로, 상기 기준 질병 예측 유전자 점수를 계산하고, 상기 임의의 샘플을 대상으로 계산된 질병 예측 유전자 점수는, 상기 임의의 샘플 내 유전자 들중에서 상기 과발현된 유전자들 및 상기 억제 발현된 유전자들 각각에 대한 유전자 발현값들을 기초로 계산될 수 있다.The step of calculating the reference disease predicted gene score includes gene expression values of normal individuals and patients for overexpressed genes compared to gene expression data of normal individuals among gene expression data collected from the microarray database, and suppressed expression. Based on the gene expression values of the normal person and the patient for the genes, the reference disease prediction gene score is calculated, and the disease prediction gene score calculated for the random sample is the overexpression among genes in the random sample. It can be calculated based on the gene expression values for each of the genes and the suppressed-expressed genes.

상기 계산하는 단계는, 상기 마이크로어레이 데이터베이스로부터 수집된 유전자 발현 데이터들 사이의 유사성을 평가하여 환자의 유전자 발현 데이터와 정상인의 유전자 발현 데이터 사이의 유의한 발현 차이를 나타내는 유전자들을 선정하는 단계, 그리고 선정한 유전자들을 대상으로, 상기 기준 질병 예측 유전자 점수를 계산하는 단계를 포함할 수 있다.The calculating may include evaluating similarity between gene expression data collected from the microarray database, and selecting genes representing a significant difference in expression between gene expression data of a patient and gene expression data of a normal person, and For the genes, it may include calculating the reference disease prediction gene score.

상기 선정하는 단계 이후, 상기 선정한 유전자들 중에서 하나의 유전자를 시작 유전자로 선택하는 단계, 상기 시작 유전자에 나머지 유전자들을 하나씩 추가하여 질병 판별 마커 조합 후보들을 생성하는 단계, 그리고 상기 질병 판별 마커 조합 후보들 각각에 대한 질병 판별 성능을 추정하는 단계를 더 포함하고, 상기 기준 질병 예측 유전자 점수는, 상기 질병 판별 성능이 가장 높은 값을 가지는 질병 판별 마커 조합 후보를 이용하여 계산될 수 있다.After the selecting step, selecting one gene from among the selected genes as a starting gene, generating disease discrimination marker combination candidates by adding the remaining genes one by one to the starting gene, and each of the disease discriminating marker combination candidates Estimating a disease discrimination performance for, wherein the reference disease prediction gene score may be calculated using a disease discrimination marker combination candidate having a highest value for the disease discrimination performance.

상기 추정하는 단계 이후, 상기 질병 판별 성능이 가장 높은 값을 가지는 1차 질병 판별 마커 조합 후보를 결정하는 단계, 상기 선정한 유전자들 중에서 상기 1차 질병 판별 마커 조합 후보에 포함되지 않은 유전자들을 하나씩 추가하여 2차 질병 판별 마커 조합 후보들을 생성하는 단계, 상기 2차 질병 판별 마커 조합 후보들 중에서 질병 판별 성능이 가장 높은 값을 가지는 하나의 2차 질병 판별 마커 조합 후보를 선정하는 단계, 선정한 2차 질병 판별 마커 조합 후보가 상기 1차 질병 판별 마커 조합 후보에 비하여 상기 질병 판별 성능이 증가한 경우, 상기 선정한 유전자들 중에서 상기 1차 질병 판별 마커 조합 후보에 포함되지 않은 유전자들을 하나씩 추가하여 3차 질병 판별 마커 조합 후보들을 생성하는 단계, 선정한 2차 질병 판별 마커 조합 후보가 상기 1차 질병 판별 마커 조합 후보에 비하여 상기 질병 판별 성능이 증가하지 않은 경우, 상기 선정한 2차 질병 판별 마커 조합 후보를 상기 기준 질병 예측 유전자 점수 산출 대상으로 결정하는 단계를 더 포함할 수 있다.After the estimating step, determining a candidate for a primary disease discrimination marker combination having the highest value of the disease discrimination performance, adding genes not included in the primary disease discrimination marker combination candidate among the selected genes one by one Generating secondary disease discrimination marker combination candidates, selecting one secondary disease discrimination marker combination candidate having the highest disease discrimination performance among the secondary disease discrimination marker combination candidates, and selected secondary disease discrimination marker When the combination candidate has increased disease discrimination performance compared to the primary disease discrimination marker combination candidate, genes not included in the primary disease discrimination marker combination candidate among the selected genes are added one by one to provide tertiary disease discrimination marker combination candidates. If the selected secondary disease discrimination marker combination candidate does not increase the disease discrimination performance compared to the primary disease discrimination marker combination candidate, the selected secondary disease discrimination marker combination candidate is used as the reference disease prediction gene score. It may further include determining the object to be calculated.

상기 질병 판별 성능은, 질병 판별 마커 조합 후보에 포함되는 유전자들중에서 임의의 유전자들을 선택하여 훈련 데이터와 검증 데이터로 분리하고, 상기 훈련 데이터로 구분된 유전자들을 복수회 학습하여 생성한 복수개의 질병 판별 모델에 상기 검증 데이터로 구분된 유전자들을 적용한 후, 교차 검증을 통해 산출된 질병 판별 정확도의 평균값으로 계산될 수 있다.The disease discrimination performance is a plurality of disease discrimination generated by selecting random genes from among genes included in the disease discrimination marker combination candidate, separating them into training data and verification data, and learning the genes separated by the training data multiple times. After applying the genes classified by the verification data to the model, it may be calculated as an average value of the disease determination accuracy calculated through cross-validation.

본 발명의 실시예에 따르면, 기계 학습 기법과 다양한 샘플 조합을 기반으로 한 환자의 유전자 발현 데이터 분석을 통해 기존 진단 기법에 비해 간단하면서도 보다 효과적인 질병 판별이 가능한 유전자 조합을 획득할 수 있다. According to an embodiment of the present invention, it is possible to obtain a gene combination that is simpler and more effective than a conventional diagnosis method through analysis of gene expression data of a patient based on a machine learning technique and various sample combinations.

또한, 다양한 샘플 조합에서의 교차 검증 작업을 통해 한정된 숫자의 전사체 데이터에서 과다 적합 현상이 감소한 형태의 질병 판별 마커 조합을 구성할 수 있다.In addition, it is possible to construct a disease discriminating marker combination in a form in which the over-fitting phenomenon is reduced in a limited number of transcript data through cross-validation in various sample combinations.

또한, 루푸스 환자 말초혈액 조직에서의 최적 질병 표지자 발굴을 통한 진단 효율 및 정확도를 증가시킬 수 있고, 기존 루푸스 표현형 기반 진단 점수에 비하여 객관적이고 간소화된 진단 기법을 제공할 수 있다. In addition, it is possible to increase diagnostic efficiency and accuracy by discovering optimal disease markers in peripheral blood tissues of lupus patients, and provide an objective and simplified diagnostic technique compared to existing lupus phenotype-based diagnostic scores.

또한, 바이오 마커를 통해 루푸스 진단과 관련되어 최종적으로는 가공 혈액 샘플 내 유전자 프로파일만을 통한 질병 진단 칩 혹은 소규모 마이크로어레이의 개발을 통한 임상화 및 산업화를 도모할 수 있다.In addition, the biomarker is related to lupus diagnosis, and finally, clinicalization and industrialization can be achieved through the development of a disease diagnosis chip or small-scale microarray through only the gene profile in the processed blood sample.

도 1은 한 실시예에 따른 질병 표현형(phenotype) 유전자 발현 마커 발굴 장치의 구성도이다.
도 2는 도 1의 질병 표현형 연관 유전자 선정부(110)의 동작을 나타낸다.
도 3은 도 1의 질병 판별 성능 추정부(120)의 동작을 나타낸다.
도 4는 도 1의 질병 판별 유전자 조합 선정부(130)의 동작을 나타낸다.
도 5는 도 1의 질병 예측 유전자 점수 계산부(140)의 동작을 나타낸다.
도 6은 도 1의 질병 판별부(150)의 동작을 나타낸다.
도 7은 본 발명의 실시예를 적용한 실험 결과를 나타낸 그래프이다.
도 8은 본 발명의 다른 실시예에 따른 질병 표현형 유전자 발현 마커 발굴 장치의 하드웨어 구성을 나타낸 블록도이다.
1 is a block diagram of an apparatus for discovering a disease phenotype gene expression marker according to an embodiment.
2 shows the operation of the disease phenotype-related gene selection unit 110 of FIG. 1.
3 shows the operation of the disease determination performance estimating unit 120 of FIG. 1.
4 shows the operation of the disease determination gene combination selection unit 130 of FIG.
5 shows the operation of the disease prediction gene score calculation unit 140 of FIG. 1.
6 shows the operation of the disease determination unit 150 of FIG. 1.
7 is a graph showing an experiment result applying an embodiment of the present invention.
8 is a block diagram showing a hardware configuration of an apparatus for discovering a disease phenotype gene expression marker according to another embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement the embodiments of the present invention. However, the present invention may be implemented in various different forms, and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are assigned to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part "includes" a certain component, it means that other components may be further included rather than excluding other components unless specifically stated to the contrary.

또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. In addition, terms such as "... unit", "... group", and "... module" described in the specification mean a unit that processes at least one function or operation, which can be implemented by hardware or software or a combination of hardware and software. I can.

본 명세서에서 단수로 기재된 표현은 "하나" 또는 "단일" 등의 명시적인 표현을 사용하지 않은 이상, 단수 또는 복수로 해석될 수 있다.Expressions described in the singular in this specification may be interpreted as the singular or plural unless an explicit expression such as "one" or "single" is used.

본 명세서에서 도면에 관계없이 동일한 도면번호는 동일한 구성요소를 지칭하며, "및/또는" 은 언급된 구성 요소들의 각각 및 하나 이상의 모든 조합을 포함한다.In the present specification, the same reference numbers refer to the same elements regardless of the drawings, and "and/or" includes each and all combinations of one or more of the mentioned elements.

본 발명에서 설명하는 장치들은 적어도 하나의 프로세서, 메모리 장치, 통신 장치 등을 포함하는 하드웨어로 구성되고, 지정된 장소에 하드웨어와 결합되어 실행되는 프로그램이 저장된다. 하드웨어는 본 발명의 방법을 실행할 수 있는 구성과 성능을 가진다. 프로그램은 도면들을 참고로 설명한 본 발명의 동작 방법을 구현한 명령어(instructions)를 포함하고, 프로세서와 메모리 장치 등의 하드웨어와 결합하여 본 발명을 실행한다.The devices described in the present invention are composed of hardware including at least one processor, a memory device, a communication device, and the like, and a program that is combined with the hardware and executed is stored in a designated place. The hardware has a configuration and capability to implement the method of the present invention. The program includes instructions for implementing the operation method of the present invention described with reference to the drawings, and executes the present invention by combining it with hardware such as a processor and a memory device.

본 명세서에서, 마커(marker)는 단백질이나 유전자로부터 유래한 특이한 분자적 정보로 생체 변화를 알아낼 수 있는 표지자이다. In the present specification, a marker is a marker that can detect a change in a living body with specific molecular information derived from a protein or gene.

표현형(phenotype)은 특정 유전형의 표현에 의해 나타나는 물리적, 화학적, 임상적 양상을 말한다.Phenotype refers to the physical, chemical, and clinical aspects of the expression of a specific genotype.

전사체 발현 프로파일은 게놈으로부터 발현 혹은 전사되는 유전자 분석을 의미한다. 유전자 발현 양상은 세포의 표현형(phenotype)과 세포 기능의 중요한 결정요인 중 하나이다. 전사체 발현 프로파일은 질병의 원인과 결과를 분석하는데 사용되고 있다.Transcript expression profile refers to the analysis of genes expressed or transcribed from the genome. Gene expression pattern is one of the important determinants of cell phenotype and cell function. Transcript expression profiles have been used to analyze the cause and effect of disease.

도 1은 한 실시예에 따른 질병 표현형(phenotype) 유전자 발현 마커 발굴 장치의 구성도이다.1 is a block diagram of an apparatus for discovering a disease phenotype gene expression marker according to an embodiment.

도 1을 참고하면, 질병 표현형 유전자 발현 마커 발굴 장치(앞으로, "발굴 장치"로 한다)(100)은 환자 전사체 샘플의 유의 유전자 발현 지표 조합 점수 기반 질병 표현형 판별을 수행한다. Referring to FIG. 1, an apparatus for discovering disease phenotype gene expression markers (hereinafter, referred to as “excavation apparatus”) 100 performs disease phenotype discrimination based on a score of a significant gene expression index combination of a patient transcript sample.

발굴 장치(100)는 적어도 하나의 프로세서로 동작하고, 질병 표현형 연관 유전자 선정부(110), 질병 판별 성능 추정부(120), 질병 판별 유전자 조합 선정부(130), 질병 예측 유전자 점수 계산부(140) 및 질병 판별부(150)를 포함한다.The discovery device 100 operates as at least one processor, and includes a disease phenotype-related gene selection unit 110, a disease identification performance estimation unit 120, a disease identification gene combination selection unit 130, and a disease prediction gene score calculation unit ( 140) and a disease determination unit 150.

질병 표현형 연관 유전자 선정부(110)는 환자와 정상인 간 말초혈액단핵구(Peripheral Blood Mononuclear Cells, 앞으로 "PBMC"로 한다) 전사체 발현 프로파일의 발현 통계 분석을 통하여 환자와 정상인 간 유의한 발현량 차이를 보이는 유전자를 선정한다. 즉, 환자의 PBMC와 유의하게 발현되는 유전자를 질병 표현형 연관 유전자로 선정한다.The disease phenotype-related gene selection unit 110 analyzes the expression statistics of the transcript expression profile of peripheral blood mononuclear cells (hereinafter referred to as "PBMC") between the patient and the normal person. Select visible genes. That is, a gene that is significantly expressed with the patient's PBMC is selected as a disease phenotype-associated gene.

질병 판별 성능 추정부(120)는 질병 표현형 연관 유전자 선정부(110)에서 선정한 유전자를 대상으로 질병 판별 성능을 추정한다.The disease discrimination performance estimating unit 120 estimates disease discrimination performance for the gene selected by the disease phenotype-related gene selecting unit 110.

질병 판별 유전자 조합 선정부(130)는 질병 표현형 연관 유전자 선정부(110)가 선정한 질병 표현형 연관 유전자 중 표현형간 판별력을 높이기 위한 질병 표현형 유전자 발현 마커를 선정한다.The disease discrimination gene combination selection unit 130 selects a disease phenotype gene expression marker among the disease phenotype-related genes selected by the disease phenotype-related gene selection unit 110 to increase the ability to discriminate between phenotypes.

질병 판별 유전자 조합 선정부(130)는 환자 PBMC의 유전자 발현 데이터를 이용하여 질병 표현형에 연계된 유전자 발현 특징을 추론한 뒤 발굴 데이터 세트에서 휴리스틱 선정 기법과 Monte-Carlo 교차 검정을 결합하여 특정 판별 성능 이상으로 질병과 정상을 구분할 수 있는 최적의 질병 판별 마커 조합을 선정할 수 있다.The disease discrimination gene combination selection unit 130 infers the gene expression characteristics linked to the disease phenotype using gene expression data of the patient PBMC, and then combines the heuristic selection technique and the Monte-Carlo cross test from the discovery data set to perform specific discrimination. As described above, the optimal combination of disease discrimination markers that can distinguish between disease and normal can be selected.

질병 예측 유전자 점수 계산부(140)는 질병 판별 유전자 조합 선정부(130)가 선정한 질병 표현형 유전자 발현 마커에 대하여 질병 예측 유전자 점수를 계산한다. 질병 예측 유전자 점수 계산부(140)는 선정된 최적의 질병 판별 마커 유전자를 훈련 데이터 세트에서 가장 잘 판별할 수 있는 질병 예측 점수 모델을 생성한다.The disease prediction gene score calculation unit 140 calculates a disease prediction gene score for the disease phenotype gene expression marker selected by the disease determination gene combination selection unit 130. The disease prediction gene score calculation unit 140 generates a disease prediction score model capable of best discriminating the selected optimal disease discrimination marker gene from the training data set.

질병 판별부(150)는 임의의 샘플의 유전자 발현값과 질병 예측 유전자 점수를 비교하여 질병 여부를 판별한다. 질병 판별부(150)는 유전자 발현값이 질병 예측 유전자 점수보다 높은 값을 가지면 질병 샘플로 판정하고, 낮은 값을 가지면 정상 샘플로 판정한다. The disease determination unit 150 determines whether there is a disease by comparing a gene expression value of a sample with a disease predicted gene score. If the gene expression value has a higher value than the disease predicted gene score, the disease determination unit 150 determines it as a disease sample, and if it has a low value, it determines it as a normal sample.

질병 판별부(150)는 질병 예측 유전자 점수 계산부(140)에서 생성된 기준 질병 예측 유전자 점수를 검증 데이터 세트에 적용하여 질병 특이적 혈액 조직 유전자 발현 마커의 성능을 검증할 수 있다.The disease determination unit 150 may verify the performance of the disease-specific blood tissue gene expression marker by applying the reference disease prediction gene score generated by the disease prediction gene score calculation unit 140 to the verification data set.

질병 표현형 연관 유전자 선정부(110), 질병 판별 성능 추정부(120), 질병 판별 유전자 조합 선정부(130), 질병 예측 유전자 점수 계산부(140) 및 질병 판별부(150) 각각의 동작에 대하여, 도 2 내 도 6을 참고하여 상세히 설명한다.For each operation of the disease phenotype-related gene selection unit 110, the disease determination performance estimation unit 120, the disease determination gene combination selection unit 130, the disease prediction gene score calculation unit 140, and the disease determination unit 150 It will be described in detail with reference to FIG. 6 in FIG. 2.

도 2는 도 1의 질병 표현형 연관 유전자 선정부(110)의 동작을 나타낸다.2 shows the operation of the disease phenotype-related gene selection unit 110 of FIG. 1.

도 2를 참고하면, 질병 표현형 연관 유전자 선정부(110)는 마이크로어레이 데이터베이스(200)에서 정상 샘플 및 질병 샘플을 선택한다(S101).Referring to FIG. 2, the disease phenotype-related gene selection unit 110 selects a normal sample and a disease sample from the microarray database 200 (S101).

마이크로어레이는 유전자 조각들을 DNA(DeoxyriboNucleic Acid) 칩에 배열하여 집적한 것으로서, 유전자 발현을 광범위하게 분석할 수 있는 도구이다. DNA 칩은 글라스에 유전자를 암호화하는 cDNA나 올리고(Oligo) DNA를 질서정연하게 배열한 것이다. DNA 칩에 배열된 cDNA나 올리고 DNA는 일종의 탐침자(Probe)로 사용된다.Microarrays are a collection of gene fragments arranged on a DNA (DeoxyriboNucleic Acid) chip, and are a tool that can broadly analyze gene expression. The DNA chip is an orderly arrangement of cDNA or oligo DNA encoding genes on glass. The cDNA or oligo DNA arranged on the DNA chip is used as a type of probe.

마이크로어레이 데이터베이스(200)는 질병 조건과 정상 조건을 가지는 PBMC의 전사체 마이크로어레이 유전자 발현 데이터를 저장한다. 예를들어, 마이크로어레이 데이터베이스(200)는 GEO(Gene Expression Omnibus)의 데이터베이스일 수 있다. 통상, 전사체 데이터는 발현된 모든 RNA의 총합을 말한다.The microarray database 200 stores transcript microarray gene expression data of PBMCs having disease conditions and normal conditions. For example, the microarray database 200 may be a database of Gene Expression Omnibus (GEO). Typically, transcript data refers to the sum of all expressed RNAs.

마이크로어레이 데이터베이스(200)에는 복수의 샘플이 등록되어 있다. 여기서, 샘플은 유전자 발현 데이터를 포함하는 유전자 데이터 세트이다. 유전자 발현 데이터는 질병 조건과 정상 조건을 가지는 PBMC의 전사체 마이크로어레이 데이터이다. A plurality of samples are registered in the microarray database 200. Here, the sample is a genetic data set containing gene expression data. Gene expression data are transcript microarray data of PBMCs having disease and normal conditions.

마이크로어레이 데이터베이스(200)의 샘플은 정상 샘플과 질병 샘플로 구분된다. 정상 샘플은 정상인의 PBMC로부터 추출된 유전자 발현 데이터를 포함하는 유전자 데이터 세트이다. 질병 샘플은 환자의 PBMC로부터 추출된 유전자 발현 데이터를 포함하는 유전자 데이터 세트를 의미한다.Samples of the microarray database 200 are divided into normal samples and disease samples. A normal sample is a genetic data set containing gene expression data extracted from PBMCs of a normal person. The disease sample refers to a genetic data set including gene expression data extracted from PBMCs of a patient.

질병 표현형 연관 유전자 선정부(110)는 S101 단계에서 선택한 질병 샘플과 정상 샘플 각각 포함된 유전자 발현 데이터들의 탐침자(Probe) 일련번호를 유전자 ID와 매핑한다(S103). 여기서, 유전자 ID는 엔트레즈 진(Entrez Gene) ID가 사용될 수 있다. 엔트레즈 진(Entrez Gene)은 유전자 특정 정보에 대한 NCBI(National Center for Biotechnology Information)의 데이터베이스이다.The disease phenotype-related gene selection unit 110 maps the probe serial number of gene expression data included in each of the disease sample and the normal sample selected in step S101 with the gene ID (S103). Here, as the gene ID, Entrez Gene ID may be used. Entrez Gene is a database of the National Center for Biotechnology Information (NCBI) for gene specific information.

질병 표현형 연관 유전자 선정부(110)는 복수의 탐침자(Probe)가 하나의 유전자 ID에 대응되는 경우, 탐침자(Probe)들 각각의 유전자 발현값들의 평균을 해당 유전자 ID의 대표 발현값으로 지정한다(S105).When a plurality of probes correspond to one gene ID, the disease phenotype-related gene selection unit 110 designates the average of the gene expression values of each of the probes as the representative expression value of the corresponding gene ID. Do (S105).

질병 표현형 연관 유전자 선정부(110)는 S105 단계를 통해 유전자 ID 별로 지정된 대표 발현값의 수치를 정규화한다(S107). 질병 표현형 연관 유전자 선정부(110)는 퀀타일 정규화(quantile normalization)(S107)를 수행함으로써, 유전자 발현 데이터 내의 샘플 및 조건별 차이를 제거할 수 있다. The disease phenotype-related gene selection unit 110 normalizes the value of the representative expression value designated for each gene ID through step S105 (S107). The disease phenotype-related gene selection unit 110 may remove differences between samples and conditions in the gene expression data by performing quantile normalization (S107).

질병 표현형 연관 유전자 선정부(110)는 정상 샘플의 유전자 ID에 지정된 대표 발현값들과 질병 샘플의 유전자 ID에 지정된 대표 발현값들에 대해 유의성 평가를 수행한다(S109). 그리고 질병 표현형 연관 유전자 선정부(110)는 질병 샘플과 정상 샘플에서 유의한 발현 차이를 보이는 적어도 하나의 유전자 ID를 선정한다(S111). 이때, 유의성 평가 방식은 t-테스트(t-test)가 사용된다. The disease phenotype-related gene selection unit 110 performs significance evaluation on the representative expression values specified in the gene ID of the normal sample and the representative expression values specified in the gene ID of the disease sample (S109). In addition, the disease phenotype-related gene selection unit 110 selects at least one gene ID showing a significant difference in expression between the disease sample and the normal sample (S111). At this time, the t-test is used as the significance evaluation method.

질병 표현형 연관 유전자 선정부(110)는 다중 통계 검정 과정에서 발생하는 문제의 보정을 위해 "유전자의 두 조건(정상/질병) 간 유의성 평가"를 수행할 수 있다. 예컨대, "Benjamini-Hochberg"의 거짓 발견율 조정 과정을 수행하여 유전자의 유의성을 평가할 수 있다. 이때, 보정된 p-value가 "0.05" 이하인 유전자 ID를 선정할 수 있다.The disease phenotype-related gene selection unit 110 may perform "evaluation of significance between two conditions (normal/disease) of genes" in order to correct a problem occurring in a multi-statistical test process. For example, it is possible to evaluate the significance of the gene by performing the process of adjusting the false discovery rate of "Benjamini-Hochberg". At this time, a gene ID having a corrected p-value of "0.05" or less may be selected.

도 3은 도 1의 질병 판별 성능 추정부(120)의 동작을 나타낸다.3 shows the operation of the disease determination performance estimating unit 120 of FIG. 1.

도 3을 참고하면, 질병 판별 성능 추정부(120)는 질병 표현형 연관 유전자 선정부(110)로부터 후보 유전자 발현 데이터를 입력받는다(S201).Referring to FIG. 3, the disease discrimination performance estimation unit 120 receives candidate gene expression data from the disease phenotype-related gene selection unit 110 (S201).

여기서, 후보 유전자 발현 데이터는 도 2의 S111 단계에서 선정한 유전자 ID로 구성된 질병 표현형 연관 유전자 목록과, 그 유전자들의 정상 조건에서의 대표 발현값들, 그리고 질병 조건에서의 대표 발현값들로 구성된다. 여기서, 대표 발현값들은 도 2의 S107 단계에서 정규화된 값이다.Here, the candidate gene expression data is composed of a disease phenotype-associated gene list consisting of the gene ID selected in step S111 of FIG. 2, representative expression values of the genes under normal conditions, and representative expression values under disease conditions. Here, the representative expression values are normalized values in step S107 of FIG. 2.

질병 판별 성능 추정부(120)는 도 2의 S111 단계에서 선정한 질병 표현형 연관 유전자 별로 해당하는 각각의 유전자 데이터 세트를 임의로 선택하여 훈련 데이터와 검증 데이터로 분리한다(S203). 즉, 질병 판별 성능 추정부(120)는 유전자 ID를 포함하는 질병 유전자 데이터 세트와 정상 유전자 데이터 세트를 임의로 선택하여 훈련 데이터와 검증 데이터로 분리하는데, 이때, 훈련 데이터와 검증 데이터 각각에 포함된 질병 유전자 데이터 세트와 정상 유전자 데이터 세트 간의 비율은 일정하게 할 수 있다. 예를들어, 질병 유전자 데이터 세트와 정상 유전자 데이터 세트 간의 비율을 2:1의 비율로 할 수 있다. The disease discrimination performance estimation unit 120 randomly selects each gene data set corresponding to each disease phenotype-related gene selected in step S111 of FIG. 2 and separates it into training data and verification data (S203). That is, the disease discrimination performance estimating unit 120 randomly selects a disease gene data set including a gene ID and a normal gene data set and separates them into training data and verification data. At this time, diseases included in each of the training data and verification data The ratio between the genetic data set and the normal genetic data set can be made constant. For example, the ratio between the disease gene data set and the normal gene data set may be a ratio of 2:1.

질병 판별 성능 추정부(120)는 훈련 데이터 세트에 기계학습 알고리즘을 적용하여 질병 샘플과 정상 샘플 간의 유전자 발현 패턴을 학습하여 질병 표현형 연관 유전자와 정상 표현형 연관 유전자를 판별할 수 있는 "질병 판별 모델"을 생성한다(S205). The disease discrimination performance estimating unit 120 is a "disease discrimination model" that can determine a disease phenotype-related gene and a normal phenotype-related gene by learning a gene expression pattern between a disease sample and a normal sample by applying a machine learning algorithm to the training data set. To generate (S205).

이때, 질병 판별 성능 추정부(120)는 훈련 데이터 세트의 유전자 발현 패턴과, 그 발현 패턴이 나타난 샘플이 질병 샘플인지 또는 정상 샘플인지에 관한 정보를 학습할 수 있다. 예를들어, 훈련 데이터 세트의 유전자 발현 패턴은 정상인의 PBMC와 환자의 PBMC 사이에 발현의 차이를 나타낸 복수개의 탐침자(Probe) 중에서 환자의 PBMC에서 발현이 증가하거나 또는 감소하는 양상을 나타낼 수 있다.In this case, the disease discrimination performance estimating unit 120 may learn the gene expression pattern of the training data set and information on whether the sample in which the expression pattern is displayed is a disease sample or a normal sample. For example, the gene expression pattern of the training data set may indicate an increase or decrease in expression in a patient's PBMC among a plurality of probes showing a difference in expression between a normal person's PBMC and a patient's PBMC. .

한 실시예에 따르면, 기계학습 알고리즘은 서포트 벡터 머신(Support vector machine, "SVM"라 통칭함)이 사용될 수 있다. SVM은 C-분류 형태에 따라 적용되며, 방사 기저 함수(Radial Basis Function, RBF)를 적용할 수 있다.According to an embodiment, as a machine learning algorithm, a support vector machine (collectively referred to as “SVM”) may be used. SVM is applied according to the C-classification type, and a Radial Basis Function (RBF) can be applied.

질병 판별 성능 추정부(120)는 검증 데이터 세트의 유전자 발현값들을 S205 단계에서 생성한 질병 판별 모델에 적용하여 각각의 유전자 발현값의 패턴이 정상 샘플을 나타내는지 또는 질병 샘플을 나타내는지 유추하고, 유추 결과가 그 유전자 발현값에 라벨링(Labeling)된 정상 조건 또는 질병 조건과 일치하는지를 판별한다. 그리고 판별 결과를 점수화하여 판별 정확도를 계산한다(S207).The disease discrimination performance estimating unit 120 applies the gene expression values of the verification data set to the disease discrimination model generated in step S205 to infer whether the pattern of each gene expression value represents a normal sample or a disease sample, It is determined whether the inference result is consistent with the normal condition or disease condition labeled with the gene expression value. Then, the discrimination result is scored to calculate discrimination accuracy (S207).

질병 판별 성능 추정부(120)는 S205 단계에서 생성한 질병 판별 모델에 검증 데이터 세트 내 정상 샘플 및 질병 샘플 각각의 유전자 발현값을 적용하여 각각의 유전자 발현값의 패턴이 정상 샘플을 나타내는지 또는 질병 샘플을 나타내는지 유추한다. 그리고 유추 결과를 실제 label과 비교하여 각 질병 판별 모델의 판별 정확도(A)를 계산한다. 여기서, 유전자 발현값에는 "정상" 또는 "질병"과 같은 label이 부여되어 있다. 판별 정확도(A)의 계산식은 다음과 같다.The disease discrimination performance estimating unit 120 applies the gene expression values of each of the normal samples and the disease samples in the verification data set to the disease discrimination model generated in step S205 to determine whether the pattern of each gene expression value represents a normal sample or disease. Infer whether it represents a sample. And by comparing the inference result with the actual label, the discrimination accuracy (A) of each disease discrimination model is calculated. Here, a label such as "normal" or "disease" is given to the gene expression value. The calculation formula of the discrimination accuracy (A) is as follows.

Figure pat00001
Figure pat00001

여기서, NA는 검증 데이터 세트의 유전자 발현값을 N회차(1≤N)에 생성한 질병 판별 모델에 적용하여 정상 샘플인지 또는 질병 샘플인지를 정확히 유추한 샘플 개수이다. 즉, NA는 유추 결과와 실제 label이 일치하는 샘플의 개수이다. Here, N A is the number of samples obtained by accurately inferring whether the gene expression value of the verification data set is a normal sample or a disease sample by applying the gene expression value of the verification data set to the disease discrimination model generated at N times (1≦N). That is, N A is the number of samples in which the inference result and the actual label match.

NT는 N회차(1≤N)에 생성한 질병 판별 모델에 적용한 샘플의 전체 개수, 즉, 검증 데이터 세트에 포함된 전체 샘플의 개수이다.N T is the total number of samples applied to the disease discrimination model generated in the Nth round (1≦N), that is, the total number of samples included in the verification data set.

질병 판별 성능 추정부(120)는 S203 단계 ~ S207 단계를 N회의 지정된 교차검증(cross-validation) 횟수만큼 반복하였는지 판단한다(S209). 교차 검증 횟수에 이르지 않았다면, S203 단계부터 다시 시작한다.The disease discrimination performance estimating unit 120 determines whether steps S203 to S207 are repeated N times as many as a designated number of cross-validations (S209). If the number of cross-validations has not been reached, it starts again from step S203.

S209 단계는 수집된 정보 양 및 지정된 반복 횟수에 따라 수만에서 수십만 번의 검정력 추정을 포함하는 것으로써, 질병 판별 성능 추정부(120)는 고속 계산을 위해 분산 컴퓨팅을 이용하여 병렬화 계산 기법을 활용할 수 있다.Step S209 includes estimating the power of tens of thousands to hundreds of thousands of times according to the amount of information collected and the number of iterations specified, and the disease discrimination performance estimating unit 120 may utilize a parallelization calculation technique using distributed computing for high-speed calculation. .

이와 같이, 질병 판별 성능 추정부(120)는 N회의 랜덤 서브 샘플링(random sub-sampling)(S203)을 통해 선정한 N개의 "훈련 데이터 세트-검증 데이터 세트" 조합을 대상으로 S205 단계, S207 단계를 수행하여 N개의 판별 정확도를 추정한다.In this way, the disease discrimination performance estimating unit 120 performs steps S205 and S207 for the N "training data set-validation data set" combinations selected through N random sub-sampling (S203). To estimate N discrimination accuracy.

이때, N개의 "훈련 데이터 세트-검증 데이터 세트" 조합은 도 2의 S111 단계에서 선정한 질병 표현형 연관 유전자들의 유전자 데이터 세트에서 무작위로 추출되므로, 교차 검증은 몬테 카를로 교차 검증(Monte Carlo Cross-validation) 방식에 해당한다. At this time, the N "training data set-validation data set" combinations are randomly extracted from the genetic data set of genes related to the disease phenotype selected in step S111 of FIG. 2, so that the cross-validation is Monte Carlo Cross-validation. It corresponds to the method.

S203 단계 ~ S209 단계는 후보 유전자 별로 N회 반복되어 N개의 판별 정확도가 추정된다. 질병 판별 성능 추정부(120)는 N개의 판별 정확도의 산술 평균값을 후보 유전자의 최종 질병 판별 성능으로 결정한다(S211). 이처럼, S203 단계 ~ S211 단계를 통하여 도 2의 S111 단계에서 선정한 적어도 하나의 후보 유전자 ID 별로 질병 판별 성능이 산출된다.Steps S203 to S209 are repeated N times for each candidate gene to estimate N discrimination accuracy. The disease discrimination performance estimating unit 120 determines the arithmetic mean value of the N discrimination accuracy as the final disease discrimination performance of the candidate genes (S211). As such, the disease discrimination performance is calculated for each of the at least one candidate gene ID selected in step S111 of FIG. 2 through steps S203 to S211.

도 4는 도 1의 질병 판별 유전자 조합 선정부(130)의 동작을 나타낸다.4 shows the operation of the disease determination gene combination selection unit 130 of FIG.

도 4를 참고하면, 질병 판별 유전자 조합 선정부(130)는 질병 표현형 연관 유전자 선정부(110)로부터 후보 유전자 발현 데이터를 입력받는다(S301). 후보 유전자 발현 데이터는 도 3의 S201 단계와 동일하다.Referring to FIG. 4, the disease determination gene combination selection unit 130 receives candidate gene expression data from the disease phenotype-related gene selection unit 110 (S301). The candidate gene expression data is the same as step S201 of FIG. 3.

질병 판별 유전자 조합 선정부(130)는 입력받은 후보 유전자 발현 데이터내 포함된 유전자들(앞으로, "후보 유전자"로 한다) 중에서 임의로 선택한 하나의 후보 유전자를 질병 판별 마커 조합 후보의 시작 유전자로 지정한다(S303).The disease discrimination gene combination selection unit 130 designates one candidate gene randomly selected from the genes included in the input candidate gene expression data (hereinafter, referred to as "candidate gene") as a starting gene of the disease discrimination marker combination candidate. (S303).

질병 판별 유전자 조합 선정부(130)는 시작 유전자에 나머지 후보 유전자들을 1개씩 추가하여 질병 판별 마커 조합 후보들을 생성한다(S305).The disease determination gene combination selection unit 130 generates disease determination marker combination candidates by adding one of the remaining candidate genes to the starting gene (S305).

질병 판별 유전자 조합 선정부(130)는 S305 단계에서 생성한 질병 판별 마커 조합 후보들 각각에 대하여 도 3의 S203 단계 ~ S211 단계를 통하여 질병 판별 성능을 추정한다(S307). 질병 판별 성능의 추정은 S307 단계에서 설명한 바와 같이, 도 3의 S203 단계 ~ S211 단계를 통하여 이루어진다.The disease determination gene combination selection unit 130 estimates the disease determination performance through steps S203 to S211 of FIG. 3 for each of the disease determination marker combination candidates generated in step S305 (S307). As described in step S307, the disease determination performance is estimated through steps S203 to S211 of FIG. 3.

질병 판별 유전자 조합 선정부(130)는 S307 단계에서 추정한 질병 판별 성능이 가장 큰 값을 가지는 질병 판별 마커 조합 후보를 선정한다(S309). The disease determination gene combination selection unit 130 selects a disease determination marker combination candidate having the largest disease determination performance estimated in step S307 (S309).

질병 판별 유전자 조합 선정부(130)는 S309 단계에서 선정한 질병 판별 마커 조합 후보의 질병 판별 성능이 이전 질병 판별 마커 조합 후보의 질병 판별 성능보다 증가하였는지 판단한다(S311).The disease determination gene combination selection unit 130 determines whether the disease determination performance of the disease determination marker combination candidate selected in step S309 is higher than the disease determination performance of the previous disease determination marker combination candidate (S311).

증가하였다면, 질병 판별 유전자 조합 선정부(130)는 S305 단계부터 다시 시작한다. 즉, S309 단계에서 선정한 질병 판별 마커 조합 후보에 포함되지 않은 후보 유전자들을 하나씩 추가하여 S305 단계 ~ S311 단계를 수행한다.If increased, the disease determination gene combination selection unit 130 starts again from step S305. That is, steps S305 to S311 are performed by adding one by one candidate genes that are not included in the candidate disease identification marker combination selected in step S309.

한편, S315 단계에서 증가하지 않은 것으로 판단되면, 질병 판별 유전자 조합 선정부(130)는 S309 단계에서 생성한 질병 판별 마커 조합 후보를 최적 질병 판별 마커 조합으로 결정한다(S313).Meanwhile, if it is determined that there is no increase in step S315, the disease discrimination gene combination selection unit 130 determines the disease discrimination marker combination candidate generated in step S309 as the optimal disease discrimination marker combination (S313).

이와 같이, 질병 판별 유전자 조합 선정부(130)는 질병 판별 마커 조합 후보에 있지 않은 유전자를 한 개씩 추가하면서 테스트하고, 그 중에서 최고의 질병 판별 성능을 가지는 유전자들로 구성된 최적의 질병 판별 마커 조합 후보를 선정하는 최우선 검색(Best-first search), 즉, "휴리스틱 선정 기법"을 사용한다.In this way, the disease determination gene combination selection unit 130 tests while adding genes that are not in the disease determination marker combination candidate one by one, and selects an optimal disease determination marker combination candidate composed of genes having the best disease determination performance among them. It uses the best-first search, ie "heuristic selection technique".

이상의 S303 단계 ~ S313 단계를 예시를 들어 설명하면, 다음과 같다.The above steps S303 to S313 will be described as an example.

도 2의 S111 단계에서 선정한 후보 유전자들이 "A, B, C, D"라고 가정하자. 이때, 질병 판별 유전자 조합 선정부(130)는 "A"를 시작 유전자로 지정(S303)하는 경우, 순차적으로 "A-B", "A-C", "A-D"를 생성(S305)하고, 이들 각각에 대한 질병 판별 성능을 추정한다(S307). 단일 유전자인 "A"의 질병 판별 성능은 도 3을 통해 계산되어 있다. 질병 판별 유전자 조합 선정부(130)는 S305 단계에서 생성한 "A-B", "A-C", "A-D" 각각에 대한 질병 판별 성능을 질병 판별 성능 추정부(120)를 통해 획득한다. 예를들어, "A-B"에 대한 질병 판별 성능은 "A"를 포함하는 정상/질병 샘플들, "B"를 포함하는 정상/질병 샘플들을 이용하여 S203 단계~ S211 단계를 수행함으로써 추정된다.Assume that candidate genes selected in step S111 of FIG. 2 are “A, B, C, D”. At this time, when the disease determination gene combination selection unit 130 designates "A" as a starting gene (S303), sequentially generates "AB", "AC", and "AD" (S305), and The disease discrimination performance is estimated (S307). The disease discrimination performance of a single gene "A" is calculated through FIG. 3. The disease determination gene combination selection unit 130 acquires disease determination performance for each of "A-B", "A-C", and "A-D" generated in step S305 through the disease determination performance estimation unit 120. For example, the disease discrimination performance for "A-B" is estimated by performing steps S203 to S211 using normal/disease samples including "A" and normal/disease samples including "B".

질병 판별 유전자 조합 선정부(130)는 그 중 가장 판별 성능이 높은 질병 판별 마커 조합 후보예를들어, "A-C"를 선정할 수 있다(S309).The disease discrimination gene combination selection unit 130 may select a disease discrimination marker combination candidate, for example, "A-C" having the highest discrimination performance among them (S309).

질병 판별 유전자 조합 선정부(130)는 "A-C"의 질병 판별 성능이 이전 조합의 질병 판별 성능보다 증가하였는지 판단한다(S311). The disease discrimination gene combination selection unit 130 determines whether the disease discrimination performance of "A-C" is higher than the disease discrimination performance of the previous combination (S311).

이때, 이전 조합은 시작 유전자에 해당하므로, "A"의 질병 판별 성능보다 "A-C"의 질병 판별 성능이 증가하였다면, S305 단계 ~ S311 단계를 반복한다. 즉, 질병 판별 유전자 조합 선정부(130)는 "A-C"에 포함되지 않은 유전자(B, D)를 각각 추가하여 순차적으로 "A-C-B", "A-C-D"를 생성(S305)하고, 이들 각각에 대한 질병 판별 성능을 추정한다(S307). At this time, since the previous combination corresponds to the starting gene, if the disease discrimination performance of "A-C" is increased than the disease discrimination performance of "A", steps S305 to S311 are repeated. That is, the disease determination gene combination selection unit 130 sequentially generates "ACB" and "ACD" by adding genes (B, D) not included in "AC" (S305), and diseases for each of them The discrimination performance is estimated (S307).

질병 판별 유전자 조합 선정부(130)는 "A-C-B", "A-C-D" 중에서 질병 판별 성능이 더 큰 값을 가지는 질병 판별 마커 조합 후보를 선정한다(S309). 예를들어, "A-C-B"가 선정(S309)되었다면, "A-C-B"와 "A-C"의 질병 판별 성능을 비교하여 "A-C-B"의 질병 판별 성능이 "A-C"보다 증가하였는지를 판단한다(S311).The disease discrimination gene combination selection unit 130 selects a disease discrimination marker combination candidate having a higher disease discrimination performance value from among "A-C-B" and "A-C-D" (S309). For example, if "A-C-B" is selected (S309), it is determined whether the disease discrimination performance of "A-C-B" is increased than that of "A-C" by comparing the disease discrimination performance of "A-C-B" and "A-C" (S311).

예를들어, "A-C-B"의 질병 판별 성능이 "A-C"보다 증가하지 않았다면, "A-C"가 최적의 질병 판별 마커 조합 후보로 결정된다(S313).For example, if the disease discrimination performance of "A-C-B" is not increased than that of "A-C", "A-C" is determined as an optimal disease discrimination marker combination candidate (S313).

반면, "A-C-B"의 질병 판별 성능이 "A-C"보다 증가하였다면, "A-C-B"에 포함되지 않은 유전자 "D"를 추가(S305)하는 과정부터 S307 단계 ~ S311 단계를 반복한다. On the other hand, if the disease discrimination performance of "A-C-B" is higher than that of "A-C", steps S307 to S311 are repeated from the process of adding a gene "D" not included in "A-C-B" (S305).

이 과정 이후, 질병 판별 유전자 조합 선정부(130)는 "A-C-B-D"의 질병 판별 성능이 "A-C-B"에 비해 증가하였다면, "A-C-B-D"를 최적 질병 마커 조합으로 결정한다(S313).After this process, if the disease discrimination performance of "A-C-B-D" is increased compared to "A-C-B", the disease discrimination gene combination selection unit 130 determines "A-C-B-D" as the optimal disease marker combination (S313).

이와 같이, 후보 유전자들, "A, B, C, D"에 대해 S303 단계 ~ S317 단계를 진행한후, 최적 질병 마커 조합을 결정한다(S313).In this way, after performing steps S303 to S317 for candidate genes "A, B, C, D", an optimal disease marker combination is determined (S313).

만약, S309 단계에서 선정한 질병 마커 조합 후보가 둘 이상일 경우, 예를들어, "A-C-B", "A-C-D"의 질병 판별 성능이 모두 1로 동일한 경우가 있을 수 있다. 이 경우, 질병 판별 성능 추정부(120)는 "A", "C", "B"를 각각 포함하는 정상/질병 샘플들을 대상으로 도 3의 S203 단계 ~ S207 단계를 수행하여 판별 정확도를 계산하고 "A", "C", "D"를 각각 포함하는 정상/질병 샘플들을 이용하여 S203 단계~ S207 단계를 수행하여 판별 정확도를 계산한다. 질병 판별 유전자 조합 선정부(130)는 계산된 판별 정확도들에 대하여 질병 샘플-정상 샘플 사이의 t-검정을 수행한다. 그리고 가장 유의한 질병-정상 간 점수 차이가 나타나는 하나의 조합, 예를들어, "A-C-B" 또는 "A-C-D" 중에서 하나를 선정한다.If there are two or more candidate disease marker combinations selected in step S309, for example, there may be a case where the disease discrimination performance of "A-C-B" and "A-C-D" are all equal to 1. In this case, the disease discrimination performance estimation unit 120 calculates the discrimination accuracy by performing steps S203 to S207 of FIG. 3 for normal/disease samples each including "A", "C", and "B", and The discrimination accuracy is calculated by performing steps S203 to S207 using normal/disease samples each including "A", "C", and "D". The disease determination gene combination selection unit 130 performs a t-test between the disease sample and the normal sample for the calculated determination accuracy. And one combination in which the most significant disease-normal score difference appears, for example, one of "A-C-B" or "A-C-D" is selected.

도 5는 도 1의 질병 예측 유전자 점수 계산부(140)의 동작을 나타낸다.5 shows the operation of the disease prediction gene score calculation unit 140 of FIG. 1.

도 5를 참고하면, 질병 예측 유전자 점수 계산부(140)는 도 4의 S313 단계에서 도출된 최적의 질병 판별 마커 조합에 포함되는 질병 유전자들에 대하여 정상 대비 질병 상태에 대하여 과발현 및 억제 발현 여부를 확인한다(S401).Referring to FIG. 5, the disease prediction gene score calculation unit 140 checks whether overexpression and suppression expression for disease states compared to normal for disease genes included in the optimal disease discrimination marker combination derived in step S313 of FIG. 4. Confirm (S401).

질병 예측 유전자 점수 계산부(140)는 최적의 질병 판별 마커 조합에 포함되는 질병 유전자들을 포함하는 질병 샘플과 정상 샘플을 대상으로, 도 2의 S109 단계를 적용한다. 이를 통해 질병 샘플-정상 샘플 간 2-표본 t-test의 t-통계량의 부호를 기반으로 양성인 경우, 질병 샘플 내 과발현으로 판단하고, 음성인 경우 질병 샘플 내 억제 발현으로 판단한다.The disease prediction gene score calculation unit 140 applies step S109 of FIG. 2 to a disease sample and a normal sample including disease genes included in the optimal combination of disease determination markers. Through this, based on the sign of the t-statistic of the 2-sample t-test between the disease sample and the normal sample, a positive result is determined as overexpression in a disease sample, and a negative result is determined as suppressive expression in a disease sample.

질병 예측 유전자 점수 계산부(140)는 최적의 질병 판별 마커 조합에 포함되는 질병 유전자들을 포함하는 질병 샘플 및 정상 샘플 각각에 대하여 S401 단계에서 확인된 과발현 유전자 발현값의 기하 평균과, 억제 발현 유전자 발현값의 기하 평균을 계산하고, 이들의 차이를 각 질병 샘플 및 그 질병 샘플의 대조군인 정상 샘플의 질병 예측 유전자 점수로 결정한다(S403).The disease prediction gene score calculation unit 140 includes a geometric mean of the overexpressed gene expression values identified in step S401 for each of the disease samples and normal samples including disease genes included in the optimal disease discrimination marker combination, and suppression expression gene expression. The geometric mean of the values is calculated, and the difference is determined as a disease prediction gene score of each disease sample and a normal sample that is a control group of the disease sample (S403).

질병 예측 유전자 점수 계산부(140)는 질병 샘플과 정상 샘플 별로 결정한 질병 예측 유전자 점수 중에서 질병 샘플의 최저 예측 유전자 점수와 정상 샘플의 최고 예측 유전자 점수의 평균값을 최종 질병 예측 유전자 점수로 결정한다(S405). The disease prediction gene score calculation unit 140 determines the average value of the lowest predicted gene score of the disease sample and the highest predicted gene score of the normal sample among the disease predicted gene scores determined for each disease sample and normal sample as the final disease predicted gene score (S405). ).

이상의 S401 단계 ~ S405 단계를 예시를 들어 설명하면, 다음과 같다.The above steps S401 to S405 will be described by way of example.

도 4에서 결정된 최적의 질병 판별 마커 조합이 "A-B-C-D-E"이고, 이중에서 과발현된 유전자가 "A, B, C"이고, 억제 발현된 유전자가 "D, E"라고 가정하자. "A, B", "C", "D", "E"를 모두 포함하는 질병 샘플이 "S1", "S2", "S3"이라고 가정하고, "A, B", "C", "D", "E"를 모두 포함하는 정상 샘플이 "S4", "S5"라고 가정하자.Assume that the optimal combination of disease discrimination markers determined in FIG. 4 is “A-B-C-D-E”, the overexpressed genes are “A, B, C” and the suppressed-expressed genes are “D, E”. Assuming that the disease sample including all of "A, B", "C", "D", and "E" is "S1", "S2", "S3", "A, B", "C", " Assume that normal samples including both D" and "E" are "S4" and "S5".

질병 예측 유전자 점수 계산부(140)는 "S1"의 "A", "B", "C"에 대한 각각의 유전자 발현값들, 즉, 과발현 유전자 발현값들의 기하 평균(A1)과 S1의 "D", "E"에 대한 각각의 유전자 발현값들, 즉, 억제 발현 유전자 발현값들의 기하 평균(A2)을 계산한다. 그리고 질병 예측 유전자 점수 계산부(140)는 기하 평균(A1)과 기하 평균(A2) 간의 차이를 "S1"의 질병 예측 유전자 점수로 계산한다. 이러한 방식으로, "S1", "S2", "S3", "S4", "S5" 각각에 대한 질병 예측 유전자 점수를 계산한다(S403). The disease prediction gene score calculation unit 140 includes the geometric mean (A1) of the overexpressed gene expression values for each of the gene expression values "A", "B", and "C" of "S1" and "S1". The geometric mean (A2) of the respective gene expression values for D", "E", that is, the inhibitory expression gene expression values is calculated. In addition, the disease prediction gene score calculation unit 140 calculates the difference between the geometric mean A1 and the geometric mean A2 as a disease prediction gene score of “S1”. In this way, disease prediction gene scores for each of "S1", "S2", "S3", "S4", and "S5" are calculated (S403).

질병 예측 유전자 점수 계산부(140)는 질병 샘플인 "S1", "S2", "S3"의 질병예측 유전자 점수들 중에서 최저 질병 예측 유전자 점수와, 정상 샘플인 "S4", "S5"의 질병 예측 유전자 점수들 중에서 최고 질병 예측 유전자 점수의 평균 점수를 최종 질병 예측 유전자 점수로 결정한다(S405). 예를들어, "S1"이 최저이고, "S5"가 최고일 경우, "S1"의 질병 예측 유전자 점수와 "S5"의 질병 예측 유전자 점수의 평균 점수가 최종적으로 기준(Threshold) 질병 예측 유전자 점수로 결정된다.The disease prediction gene score calculation unit 140 includes the lowest disease prediction gene score among disease prediction gene scores of disease samples "S1", "S2" and "S3", and diseases of normal samples "S4" and "S5". Among the predicted gene scores, the average score of the highest disease predicted gene score is determined as the final disease predicted gene score (S405). For example, if "S1" is the lowest and "S5" is the highest, the average score of the disease predictor gene score of "S1" and the disease predictor gene score of "S5" is finally the threshold disease predictor gene score. Is determined by

도 6은 도 1의 질병 판별부(150)의 동작을 나타낸다.6 shows the operation of the disease determination unit 150 of FIG. 1.

도 6을 참고하면, 질병 판별부(150)는 임의 환자의 전사체 발현 데이터를 정규화한다(S501). 여기서, 정규화는 도 2에서 설명한 바와 같이, 퀀타일 정규화를 수행할 수 있다.6, the disease determination unit 150 normalizes the transcript expression data of a random patient (S501). Here, normalization may perform quantile normalization as described in FIG. 2.

질병 판별부(150)는 정규화한 임의 환자의 전사체 발현 데이터의 유전자 발현 분포를 질병 판별 유전자 조합 선정부(130)가 선정한 최적의 질병 판별 마커 조합에 포함되는 유전자들의 발현 분포와 동일하게 한다(S503). 이를 위하여 질병 판별부(150)는 정규화한 임의 환자의 전사체 발현 데이터의 유전자 발현값들의 등위를 각각 계산한다. 이때, 등위는 기저-유사 유전자 발현 중심에 대한 스피어만 등위 상관관계(Spearman rank correlation) 평가 방식이 사용될 수 있다.The disease determination unit 150 makes the gene expression distribution of the normalized transcript expression data of any patient equal to the expression distribution of genes included in the optimal disease determination marker combination selected by the disease determination gene combination selection unit 130 ( S503). To this end, the disease determination unit 150 calculates the ranks of gene expression values of the normalized randomized patient's transcript expression data, respectively. At this time, the Spearman rank correlation evaluation method for the basal-like gene expression center may be used.

질병 판별부(150)는 계산한 각 등위에 맞추어, 도 2의 S111 단계에서 선정한 유전자들을 각각 포함하는 질병 유전자 데이터 세트 및 정상 유전자 데이터 세트(앞으로, "발굴 데이터 세트"라 한다)내 발현값(퀸타일 정규화된)으로 임의 환자의 전사체 발현 데이터의 유전자 발현값들을 치환한다(S503). The disease determination unit 150 is an expression value in the disease gene data set and the normal gene data set (hereinafter referred to as “excavation data set”) each including genes selected in step S111 of FIG. 2 according to the calculated position. Quintile normalized) replaces gene expression values of transcript expression data of any patient (S503).

이때, 질병 판별부(150)는 임의 환자의 전사체 발현 데이터에 발굴 데이터 세트에 포함된 특정 유전자가 포함되어 있지 않은 경우, 그 특정 유전자를 제외하고 치환한다.At this time, if the transcript expression data of any patient does not contain a specific gene included in the discovery data set, the disease determination unit 150 replaces the specific gene except for the specific gene.

질병 판별부(150)는 S503 단계에서 발굴 데이터 세트와 유전자 발현값의 분포가 동일해진 전사체 발현 데이터를 대상으로 도 5의 과정을 통하여 질병 예측 유전자 점수를 계산한다(S505). 즉, 전사체 발현 데이터 내 유전자들 중에서 S401 단계에서 과발현으로 확인된 유전자들 각각의 발현값들의 기하 평균과, 억제 발현으로 확인된 유전자들 각각의 발현값들의 기하 평균 간의 차이를 질병 예측 유전자 점수로 계산한다. The disease determination unit 150 calculates a disease prediction gene score through the process of FIG. 5 on the transcript expression data in which the distribution of the discovery data set and the gene expression value is the same in step S503 (S505). In other words, among the genes in the transcript expression data, the difference between the geometric mean of the expression values of each of the genes identified as overexpression in step S401 and the geometric mean of the expression values of each of the genes identified as suppressed expression is used as the disease prediction gene score. Calculate.

도 5의 예시를 참조하면, 과발현된 유전자인 "A, B, C"와 억제 발현된 유전자가 "D, E"를 전사체 발현 데이터가 포함하는 경우, "A, B, C" 각각의 발현값의 기하 평균과, "D, E" 각각의 발현값의 기하 평균의 차이가 질병 예측 유전자 점수로 계산된다(S505).Referring to the example of Figure 5, when the overexpressed gene "A, B, C" and the suppressed-expressed gene "D, E" includes transcript expression data, the expression of each of "A, B, C" The difference between the geometric mean of the values and the geometric mean of the expression values of "D, E" is calculated as a disease predictive gene score (S505).

질병 판별부(150)는 S505 단계에서 계산한 질병 예측 유전자 점수를 도 5의 S405 단계에서 계산한 기준 질병 예측 유전자 점수와 비교(S507)하여 상대적으로 높은 점수를 가지는지 판단한다(S509).The disease determination unit 150 compares the disease predicted gene score calculated in step S505 with the reference disease predicted gene score calculated in step S405 of FIG. 5 (S507) to determine whether it has a relatively high score (S509).

이때, 질병 판별부(150)는 S509 단계에서 높은 점수를 가지는 것으로 판단되면, 질병으로 판단한다(S511). 반면, 질병 판별부(150)는 S509 단계에서 낮은 점수를 가지는 것으로 판단되면, 정상으로 판단한다(S513).At this time, if it is determined that the disease determination unit 150 has a high score in step S509, it is determined as a disease (S511). On the other hand, if it is determined that the disease determination unit 150 has a low score in step S509, it determines that it is normal (S513).

한편, 루푸스는 체내의 다양한 결합 조직에서 증상이 발현(expression)하는 만성 자가면역 질환이다. 다양한 연령과 성별에서 발병할 수 있으나, 특히, 15~44세 사이 가임기 여성의 경우에 발병 빈도가 높게 나타난다.Meanwhile, Lupus is a chronic autoimmune disease in which symptoms are expressed in various connective tissues in the body. The onset can occur in various ages and sexes, but the incidence of the onset is high especially in women of childbearing age between 15 and 44 years of age.

루푸스는 자가면역 항체가 결합 조직을 공격하여 증상이 나타난다. 루푸스는 피부 및 관절에서부터 폐, 신장 및 심장을 포함한 전신의 장기로 증상이 진행되기 때문에 적시에 치료가 이루어지기 위해서는 특이적이고 정확한 진단 기법이 필요하다.Lupus symptoms appear when autoimmune antibodies attack connective tissue. Since lupus symptoms progress from skin and joints to organs of the body including lungs, kidneys, and heart, specific and accurate diagnostic techniques are required for timely treatment.

기존 루푸스 환자에 대한 진단 기준으로는 미국 류마티스 학회(American College of Rheumatology, ACR)에 의하여 1997년에 정립된 11개 임상 표현형 기반의 진단 기준(1997, Hochberg, Arthritis Rheum)과, ACR 기준에 6개의 분자 면역학적 기준을 추가하여 2012년에 정립된 국제 전신홍반루푸스 임상 그룹(Systemic Lupus Erythematosus International Collaborating Clinics, SLICC)의 기준(2012, Petri et al., Arthritis Rheum)을 통하여 이루어져 왔다. The diagnostic criteria for existing lupus patients include 11 clinical phenotype-based diagnostic criteria (1997, Hochberg, Arthritis Rheum) established in 1997 by the American College of Rheumatology (ACR), and 6 ACR criteria. It has been achieved through the criteria of the International Systemic Lupus Erythematosus International Collaborating Clinics (SLICC) established in 2012 by adding molecular immunological criteria (2012, Petri et al., Arthritis Rheum).

그러나 이러한 기준들은 루푸스의 진행 경과에 따라 임상적 특성이 균일하지 않게 나타남에도 불구하고 이를 고려하지 않고 여러가지 임상적 특성을 동일한 가중치로 단순 합산한 점수라는 문제점이 있다. However, these criteria have a problem in that they are simply summed up of various clinical characteristics with the same weight without considering the clinical characteristics even though the clinical characteristics are not uniform with the progression of lupus.

또한, 각 표현형 진단 항목 중 해당 사항이 적은 초기 환자의 진단 과정 및 타 면역 질환과의 구분 과정에 있어 높은 위양성률을 보여 질병 확진을 위해서는 내부 장기의 병변에 대한 추가적인 조직 검사 등의 절차가 수반되어야 하는 한계점을 내포하고 있다.In addition, among each phenotypic diagnosis item, it shows a high false-positive rate in the diagnosis process of early patients with few corresponding items and in the process of discrimination from other immune diseases, so procedures such as additional biopsy of lesions of internal organs must be accompanied to confirm the disease. It has limitations.

이러한 기존 문제로 인하여 특히, 루푸스 질환에 있어서 전사체 데이터를 사용하여 질병과 정상 상태 간 유의 유전자 발현 차이 및 유의 상관 관계 모듈 등을 기반으로 질병 상태에 특이적으로 나타나는 유전자 발현 특성에 대한 분석이 이루어졌고, 이를 바탕으로 한 분자 진단 및 치료 타깃 발굴의 가능성이 지속적으로 제시되었다.Due to these existing problems, in particular, in lupus disease, an analysis of gene expression characteristics specific to the disease state has been made based on the difference in gene expression and significance correlation module between the disease and the normal state using transcript data. Based on this, the possibility of molecular diagnosis and discovery of therapeutic targets was continuously presented.

이에, 이상 설명한 도 1~ 도 6은 다양한 자가면역질환에 적용될 수 있으나, 특히, 루푸스(Lupus)에 적용하여 다음과 같은 실험예를 획득하였다.Accordingly, FIGS. 1 to 6 described above may be applied to various autoimmune diseases, but in particular, the following experimental examples were obtained by applying them to lupus.

<실험예><Experimental Example>

PBMC 샘플 기반의 루푸스 판별 마커를 발굴하기 위하여 다음 표 1과 같은 루푸스 환자 전사체 마이크로어레이 데이터를 수집하였다.In order to discover a PBMC sample-based lupus discrimination marker, lupus patient transcript microarray data as shown in Table 1 below were collected.

마이크로어레이
일련번호
Microarray
Serial Number
플랫폼platform 환자 샘플 수Number of patient samples 정상 샘플 수Number of normal samples
GSE8650GSE8650 GPL96/GPL97GPL96/GPL97 3838 2121

도 2 ~ 도 4의 루푸스 판별 유전자 선정 및 모델 구축과, 도 5 ~ 도 6의 임의 샘플에 대한 루푸스 판별 성능 평가를 독립적으로 진행하기 위한 목적으로, 루푸스 환자 전사체 마이크로어레이 데이터를 임의로 2:1의 비율로 나누었고, 각각 루푸스 판별 유전자 선정 및 모델 구축을 위한 발굴 데이터 세트(루푸스 환자 25, 정상 14), 독립 검증 데이터 세트(루푸스 환자 13, 정상 7)로 분리하여 사용하였다. 여기서, 발굴 데이터 세트는 질병 판별 모델 생성에 사용되는 훈련 데이터와 검증 데이터를 포함한다. 독립 검증 데이터 세트는 루푸스 판별 성능을 도출할 때 사용된다.For the purpose of independently selecting the lupus discrimination gene of FIGS. 2 to 4 and constructing the model and evaluating the lupus discrimination performance for the random samples of FIGS. 5 to 6, the lupus patient transcript microarray data is randomly 2:1 Divided by the ratio of, respectively, the excavation data set for lupus discrimination gene selection and model construction (lupus patient 25, normal 14) and independent verification data set (lupus patient 13, normal 7) were used separately. Here, the discovery data set includes training data and verification data used to generate a disease discrimination model. The independent verification data set is used to derive lupus discrimination performance.

도 2에 나타난 일련의 과정을 표 1의 발굴 데이터 세트 내에서 환자 샘플의 데이터 세트와 정상 샘플의 데이터 세트에 적용한 결과 다음 표 2와 같은 루푸스 환자-정상 간 유의한 발현 차이를 나타내는 유전자들이 도출되었다.As a result of applying the series of processes shown in FIG. 2 to a data set of a patient sample and a data set of a normal sample within the excavation data set of Table 1, genes showing a significant difference in expression between lupus patients and normal as shown in Table 2 were derived. .

P-valueP-value 유전자 개수Number of genes <0.001<0.001 502502 <0.01<0.01 13861386 <0.05<0.05 27432743

P<0.05인 유전자들을 유의한 유전자로 선정하고, 이들을 기준으로 하여 도 3 및 도 4의 과정을 통하여 질병 판별 마커 조합 후보 유전자를 선정한 결과, 총 234개의 유전자를 포함하는 유전자 데이터 세트의 질병 판별 성능이 1(100%)의 값을 나타내어 최적의 루푸스 판별 마커 조합으로 도출되었다.As a result of selecting genes with P<0.05 as significant genes, and selecting candidate genes for combination of disease discrimination markers through the process of FIGS. 3 and 4 based on these, disease discrimination performance of a genetic data set including a total of 234 genes This value of 1 (100%) was expressed to derive the optimal lupus discrimination marker combination.

표 3은 234개의 최적 루푸스 판별 마커 조합에 포함되는 유전자들을 대상으로 도 5의 과정을 통해 계산된 점수 차이가 가장 큰 상위 10개의 유전자 조합을 나타낸다. Table 3 shows the top 10 gene combinations with the largest difference in score calculated through the process of FIG. 5 for genes included in the 234 optimal lupus discrimination marker combinations.

이때, 234개의 유전자들을 대상으로 도 5의 과정을 적용하여 이 유전자들이 포함된 루푸스 샘플의 질병 예측 유전자 점수를 계산하고, 이 유전자들이 포함된정상 샘플의 질병 예측 유전자 점수를 계산하여 이 점수들의 차이가 큰 순서대로 상위 10개의 유전자 조합을 나타내며, 각 유전자 조합 별로 구성 유전자 목록, 질병-정상 점수 간 t-검정의 p-value 및 질병-정상 구분 기준 점수를 명시하였다. At this time, the disease prediction gene score of the lupus sample containing these genes was calculated by applying the process of FIG. 5 to 234 genes, and the difference between these scores by calculating the disease prediction gene score of the normal sample containing these genes. The top 10 gene combinations are indicated in the largest order, and for each gene combination, the constituent gene list, the p-value of the t-test between the disease-normal score, and the score for the disease-normal classification are specified.

유전자 목록Gene list 유전자 개수Number of genes P-valueP-value 질병-정상 구분 기준 점수Score for disease-normal classification RUSC1, IFI44, GM2ARUSC1, IFI44, GM2A 33 3.49E-193.49E-19 9.0389.038 DGCR8, IFI44, GM2ADGCR8, IFI44, GM2A 33 4.30E-194.30E-19 8.7648.764 AAR2, IFI44, PNPLA2, GM2AAAR2, IFI44, PNPLA2, GM2A 44 6.14E-196.14E-19 9.3699.369 GAPBA, IFI44, PITPNC1, ATP6V0CGAPBA, IFI44, PITPNC1, ATP6V0C 44 1.20E-181.20E-18 1.6401.640 SMG7, IFI44, GM2ASMG7, IFI44, GM2A 33 1.33E-181.33E-18 8.7138.713 PFKM, IFI44, UBA7, GM2APFKM, IFI44, UBA7, GM2A 44 1.37E-181.37E-18 9.2349.234 LRCH4, IFI44, GM2ALRCH4, IFI44, GM2A 33 1.42E-181.42E-18 9.3149.314 TMEM147, IFI44, MTX1TMEM147, IFI44, MTX1 33 1.60E-181.60E-18 9.7519.751 CDS2, IFI44, PPP6R1, GM2ACDS2, IFI44, PPP6R1, GM2A 44 1.77E-181.77E-18 9.2049.204 SDF4, IFI44, GM2ASDF4, IFI44, GM2A 33 2.04E-182.04E-18 9.2919.291

표 3에 대해 부연 설명하면, 예를들어, RUSC1, IFI44, GM2A의 P-value는 RUSC1, IFI44, GM2A를 도 2의 S109 단계에 적용하여 계산된다. 과발현된 유전자인RUSC1, IFI44, GM2A의 질병-정상 구분 기준 점수는 RUSC1, IFI44, GM2A를 도 5에 적용하여 계산된 기준 질병 예측 유전자 점수이다.To further explain Table 3, for example, the P-values of RUSC1, IFI44, and GM2A are calculated by applying RUSC1, IFI44, and GM2A to step S109 of FIG. 2. The disease-normal classification reference score of the overexpressed genes RUSC1, IFI44, and GM2A is the reference disease prediction gene score calculated by applying RUSC1, IFI44, and GM2A to FIG. 5.

표 3을 참조하면, 질병-정상 구분 기준 점수가 가장 높은 최적의 루푸스 판별 마커 조합은 {RUSC1, IFI44, GM2A}의 3개의 유전자로 구성되는 것으로 확인되었다.Referring to Table 3, it was confirmed that the optimal lupus discrimination marker combination with the highest disease-normal classification criterion score was composed of three genes {RUSC1, IFI44, GM2A}.

{RUSC1, IFI44, GM2A}의 질병-정상 구분 기준 점수를 통해 검증 데이터 세트의 루푸스 질병 판별 성능을 테스트하기 위하여 독립 검증 데이터 세트를 대상으로 도 6의 과정을 적용하여 임의 환자의 루푸스 판별 성능을 도출한 결과, 정확도 0.9, 민감도 0.9231, 특이도 0.8571의 결과가 나타났다. 이 결과는 기존에 임상적으로 사용되고 있는 루푸스의 SLICC(Systemic Lupus International Collaborating Clinic)의 민감도(=0.932), 특이도(=0.84)의 진단 성능과 비교하였을 때 민감도와 특이도에 있어 해당 기준에 필적하는 수준의 진단 성능을 나타내었다.In order to test the lupus disease discrimination performance of the verification data set through the disease-normal classification criterion score of {RUSC1, IFI44, GM2A}, the process of FIG. 6 is applied to the independent verification data set to derive lupus discrimination performance of random patients As a result, accuracy 0.9, sensitivity 0.9231, and specificity 0.8571 were found. This result is comparable to the standard in terms of sensitivity and specificity when compared with the diagnostic performance of the sensitivity (=0.932) and specificity (=0.84) of the existing clinically used lupus systemic lupus international collaborating clinic (SLICC). It showed a level of diagnostic performance.

또한, 본 발명의 실시예에 따른 PBMC 연계 유전자 조합이 다른 자가면역성 질환에서도 일반적으로 나타나는 유전자 패턴인지 확인하기 위하여 표 4와 같은 3개의 다른 자가면역질환의 PBMC 유전자 발현 데이터를 수집하였다.In addition, PBMC gene expression data of three different autoimmune diseases as shown in Table 4 were collected in order to confirm whether the PBMC-linked gene combination according to an embodiment of the present invention is a gene pattern that generally appears in other autoimmune diseases.

마이크로어레이 일련번호Microarray serial number 플랫폼platform 질병명Disease name 환자 샘플 수Number of patient samples 정상 샘플 수Number of normal samples GSE15573GSE15573 GPL6102GPL6102 류마티스 관절염 (RA)Rheumatoid arthritis (RA) 1818 1515 GSE3365GSE3365 GPL96GPL96 궤양성 대장염 (UC)Ulcerative colitis (UC) 2626 4242 GSE3365GSE3365 GPL96GPL96 크론병 (CD)Crohn's disease (CD) 5959 4242

수집한 3개의 다른 자가면역질환의 PBMC 유전자 발현 데이터에 앞서 설명한 바와 같이 동일하게 루푸스 판별 모델 기반의 점수를 계산하였으며, 이들을 비교한 결과는 도 7과 같다.As described above, scores based on the lupus discrimination model were calculated in the same manner as described above for the collected PBMC gene expression data of three different autoimmune diseases, and the results of comparing them are shown in FIG. 7.

도 7은 루푸스 질환 대비 3개의 다른 자가면역질환의 질병 예측 유전자 점수를 비교한 그래프이다.7 is a graph comparing disease prediction gene scores of three other autoimmune diseases compared to lupus disease.

도 7을 참조하면, 가로축(Class)은 전신 홍반성 루푸스(Systemic lupus crythematesus, SLE), 표 4의 자가면역 질환인 류마티스관절염(RA), 궤양성 대장염(UC), 크론병(CD)의 범주를 나타낸다. 각각의 색상은 각 질환(SLE, RA, UC, CD)의 범례를 나타낸다. 세로축(Sample.score)은 각 질환의 환자 샘플 및 루푸스 최적 판별 유전자 조합을 기반으로 계산한 각 질환 환자에서의 루푸스 판별 점수이다. Referring to FIG. 7, the horizontal axis (Class) is a category of systemic lupus crythematesus (SLE), rheumatoid arthritis (RA), ulcerative colitis (UC), and Crohn's disease (CD), which are autoimmune diseases in Table 4. Represents. Each color represents a legend for each disease (SLE, RA, UC, CD). The vertical axis (Sample.score) is the lupus discrimination score in each disease patient calculated based on the patient sample of each disease and the lupus optimal discrimination gene combination.

도 7에서는, 3개 자가면역질환의 샘플들에 대하여 계산된 질병 예측 유전자 점수를 루푸스 질환의 샘플들에 대하여 계산된 질병 예측 유전자 점수와 t-검정을 통해 비교하였다. In FIG. 7, disease prediction gene scores calculated for samples of three autoimmune diseases were compared with disease prediction gene scores calculated for samples of lupus disease through a t-test.

각 집단 간 p-value를 비교한 결과, SLE-RA 간에는 p=0.028, SLE-UC 간에는 p<5.21E-15, SLE-CD 간에는 p<2.2E-16으로 도출되었다. As a result of comparing the p-values between each group, p=0.028 between SLE-RA, p<5.21E-15 between SLE-UC, and p<2.2E-16 between SLE-CD were derived.

비교 결과 3개 질환에 대하여 모두 루푸스 질환 샘플에서의 질병 예측 유전자 점수가 p<0.05를 기준으로 유의하게 높게 나타났음을 알 수 있다. 따라서, 다른 질병에 비교하였을 때, 본 발명의 실시예에 따른 루푸스 판별 마커 조합 및 최적의 질병 판별 예측 점수가 루푸스 질병에 대한 특이적 진단의 가능성을 나타낸다.As a result of comparison, it can be seen that for all three diseases, the disease predictive gene score in the lupus disease sample was significantly higher based on p<0.05. Therefore, when compared to other diseases, the lupus discrimination marker combination and the optimal disease discrimination prediction score according to an embodiment of the present invention indicate the possibility of a specific diagnosis for lupus disease.

이와 같이, 다른 자가면역질환들에 대하여도 본 발명의 실시예에 따른 루푸스 판별 예측 점수가 유효한 루푸스 특이적 진단에 성능을 보이며, 질병 간의 구분을 위한 기준을 새로 고안하였을 때 타 질병과 루푸스 간의 진단에 대한 가능성을 나타내었다.As described above, for other autoimmune diseases, the lupus discrimination prediction score according to the embodiment of the present invention shows the performance for effective lupus-specific diagnosis, and when the criteria for distinguishing between diseases are newly devised, diagnosis between other diseases and lupus Showed the possibility of.

한편, 도 8은 본 발명의 다른 실시예에 따른 질병 표현형 유전자 발현 마커 발굴 장치의 하드웨어 구성을 나타낸 블록도이다.Meanwhile, FIG. 8 is a block diagram showing a hardware configuration of an apparatus for discovering a disease phenotype gene expression marker according to another embodiment of the present invention.

도 8을 참조하면, 발굴 장치(100)는 도 1 내지 도 7에서 설명한 질병 표현형 연관 유전자 선정부(110), 질병 판별 성능 추정부(120), 질병 판별 유전자 조합 선정부(130), 질병 예측 유전자 점수 계산부(140) 및 질병 판별부(150)는 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치(200)에서 본 발명의 동작을 실행하도록 기술된 명령들(instructions)이 포함된 프로그램을 실행할 수 있다. Referring to FIG. 8, the discovery device 100 includes a disease phenotype-related gene selection unit 110, a disease determination performance estimation unit 120, a disease determination gene combination selection unit 130, and a disease prediction described in FIGS. 1 to 7. The gene score calculation unit 140 and the disease determination unit 150 may execute a program including instructions described to execute the operation of the present invention in the computing device 200 operated by at least one processor. have.

컴퓨팅 장치(200)의 하드웨어는 적어도 하나의 프로세서(201), 메모리(203), 스토리지(205), 통신 인터페이스(207)를 포함할 수 있고, 버스를 통해 연결될 수 있다. 이외에도 입력 장치 및 출력 장치 등의 하드웨어가 포함될 수 있다. The hardware of the computing device 200 may include at least one processor 201, a memory 203, a storage 205, and a communication interface 207, and may be connected through a bus. In addition, hardware such as an input device and an output device may be included.

컴퓨팅 장치(200)는 프로그램을 구동할 수 있는 운영 체제를 비롯한 각종 소프트웨어가 탑재될 수 있다.The computing device 200 may be equipped with various software including an operating system capable of driving a program.

프로세서(201)는 컴퓨팅 장치(200)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다. 메모리(203)는 본 발명의 동작을 실행하도록 기술된 명령들이 프로세서(201)에 의해 처리되도록 해당 프로그램을 로드할 수 있다. 메모리(203)는 예를들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 스토리지(205)는 본 발명의 동작을 실행하는데 요구되는 각종 데이터, 프로그램 등을 저장할 수 있다. 통신 인터페이스(207)는 유/무선 통신 모듈일 수 있다.The processor 201 is a device that controls the operation of the computing device 200, and may be various types of processors that process instructions included in a program. For example, a CPU (Central Processing Unit) or a Micro Processor Unit (MPU) ), MCU (Micro Controller Unit), GPU (Graphic Processing Unit), etc. The memory 203 may load a corresponding program such that instructions described to perform the operation of the present invention are processed by the processor 201. The memory 203 may be, for example, read only memory (ROM), random access memory (RAM), or the like. The storage 205 may store various types of data and programs required to perform the operation of the present invention. The communication interface 207 may be a wired/wireless communication module.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.The embodiments of the present invention described above are not implemented only through an apparatus and a method, but may be implemented through a program that realizes a function corresponding to the configuration of the embodiment of the present invention or a recording medium on which the program is recorded.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements by those skilled in the art using the basic concept of the present invention defined in the following claims are also provided. It belongs to the scope of rights.

Claims (12)

적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치에서 질병 표현형을 판별하는 방법으로서,
마이크로어레이 데이터베이스로부터 환자의 말초 혈액 단핵세포(peripheral blood mononuclear cell, PBMC)의 유전자 발현 데이터들과 정상인의 말초 혈액 단핵세포의 유전자 발현 데이터들을 수집하는 단계,
수집한 유전자 발현 데이터들 사이의 유사성을 평가하여 환자의 유전자 발현 데이터와 정상인의 유전자 발현 데이터 사이의 유의한 발현 차이를 나타내는 유전자들을 선정하는 단계,
선정한 유전자들 중에서 정상 상태 대비 질병 상태에 대하여 과발현 및 억제발현된 유전자들을 확인하는 단계,
과발현된 유전자들의 발현값 및 억제발현된 유전자들의 발현값을 기초로, 기준 질병 예측 유전자 점수를 결정하는 단계, 그리고
입력받은 임의의 샘플내 유전자 발현값을 기초로 계산한 질병 예측 유전자 점수가 상기 기준 질병 예측 유전자 점수보다 높으면, 상기 임의의 샘플을 질병 샘플로 판별하는 단계
를 포함하는, 질병 포현형 판별 방법.
A method of determining a disease phenotype in a computing device operated by at least one processor,
Collecting gene expression data of peripheral blood mononuclear cells (PBMC) of patients and gene expression data of peripheral blood mononuclear cells of normal people from the microarray database,
Evaluating the similarity between the collected gene expression data, selecting genes that show a significant difference in expression between the gene expression data of the patient and the gene expression data of the normal person,
Identifying genes that are overexpressed and suppressed for disease states compared to normal states among selected genes,
Based on the expression values of the overexpressed genes and the expression values of the suppressed-expressed genes, determining a reference disease prediction gene score, and
If the disease prediction gene score calculated based on the gene expression value in the received random sample is higher than the reference disease prediction gene score, determining the random sample as a disease sample
Containing, disease phenotype determination method.
제1항에서,
상기 선정하는 단계와 상기 확인하는 단계 사이에,
상기 선정한 유전자들을 순차적으로 조합하여 질병 판별 마커 조합을 결정하는 단계를 더 포함하고,
상기 확인하는 단계는,
상기 질병 판별 마커 조합에 포함된 유전자들 중에서 과발현 및 억제발현된 유전자들을 확인하는, 질병 포현형 판별 방법.
In claim 1,
Between the step of selecting and the step of checking,
Further comprising the step of sequentially combining the selected genes to determine a disease identification marker combination,
The step of confirming,
A method for determining a disease phenotype to identify genes that are overexpressed and suppressed from among genes included in the disease discrimination marker combination.
제2항에서,
상기 질병 판별 마커 조합을 결정하는 단계는,
임의의 유전자 조합의 질병 판별 성능이 이전 유전자 조합에 비해 증가하면 다른 유전자를 추가하여 유전자 조합을 확장하는 단계, 그리고
이전 유전자 조합에 비해 질병 판별 성능이 증가하지 않으면 해당 유전자 조합을 질병 판별 마커 조합으로 결정하는 단계
를 포함하는, 질병 포현형 판별 방법.
In paragraph 2,
The step of determining the disease discrimination marker combination,
If the disease discrimination performance of any gene combination increases compared to the previous gene combination, expanding the gene combination by adding another gene, and
If the disease discrimination performance does not increase compared to the previous gene combination, determining the corresponding gene combination as a disease discrimination marker combination
Containing, disease phenotype determination method.
제3항에서,
상기 질병 판별 마커 조합을 결정하는 단계는,
상기 임의의 유전자 조합을 대상으로 질병 판별 성능을 계산하는 단계를 포함하고,
상기 질병 판별 성능을 계산하는 단계는,
교차 검증을 통해 계산된 질병 판별 모델 별로 각각의 판별 정확도의 산술 평균값을 상기 임의의 유전자 조합의 질병 판별 성능으로 계산하는, 질병 포현형 판별 방법.
In paragraph 3,
The step of determining the disease discrimination marker combination,
Comprising the step of calculating disease discrimination performance for the arbitrary combination of genes,
The step of calculating the disease determination performance,
A disease phenotype discrimination method for calculating an arithmetic mean value of each discrimination accuracy for each disease discrimination model calculated through cross-validation as a disease discrimination performance of the random gene combination.
제1항에서,
상기 결정하는 단계는,
상기 과발현된 유전자들에 대한 환자의 유전자 발현값들의 기하 평균값과 상기 억제 발현된 유전자들에 대한 환자의 유전자 발현값들의 기하 평균값 간의 차이를 환자의 질병 예측 유전자 점수로 계산하는 단계,
상기 과발현된 유전자들에 대한 정상인의 유전자 발현값들의 기하 평균값과 상기 억제 발현된 유전자들에 대한 정상인의 유전자 발현값들의 기하 평균값 간의 차이를 정상인의 질병 예측 유전자 점수로 계산하는 단계,
상기 환자의 질병 예측 유전자 점수를 복수의 환자의 말초 혈액 단핵세포의 유전자 발현 데이터를 대상으로 계산하고, 계산된 질병 예측 유전자 점수들 중에서 최저 질병 예측 유전자 점수를 선택하는 단계,
상기 정상인의 질병 예측 유전자 점수를 복수의 정상인의 말초 혈액 단핵세포의 유전자 발현 데이터를 대상으로 계산하고, 계산된 질병 예측 유전자 점수들 중에서 최고 질병 예측 유전자 점수를 선택하는 단계, 그리고
상기 최저 질병 예측 유전자 점수와 상기 최고 질병 예측 유전자 점수의 평균 점수를 상기 기준 질병 예측 유전자 점수로 결정하는 단계
를 포함하는, 질병 포현형 판별 방법.
In claim 1,
The determining step,
Calculating the difference between the geometric mean value of the patient's gene expression values for the overexpressed genes and the geometric mean value of the patient's gene expression values for the suppressed-expressed genes as the patient's disease prediction gene score,
Calculating a difference between a geometric mean value of gene expression values of a normal person for the overexpressed genes and a geometric mean value of gene expression values of a normal person for the suppressed-expressed genes as a disease prediction gene score of a healthy person,
Calculating the disease prediction gene score of the patient based on gene expression data of peripheral blood mononuclear cells of a plurality of patients, and selecting the lowest disease prediction gene score from among the calculated disease prediction gene scores,
Calculating the disease prediction gene score of the normal person based on gene expression data of peripheral blood mononuclear cells of a plurality of normal people, and selecting the highest disease prediction gene score from among the calculated disease prediction gene scores, and
Determining an average score of the lowest disease predicted gene score and the highest disease predicted gene score as the reference disease predicted gene score
Containing, disease phenotype determination method.
제1항에서,
상기 판별하는 단계는,
상기 임의의 샘플 내 유전자 발현 데이터의 발현 분포의 등위를 상기 기준 질병 예측 유전자 점수 산출에 사용된 유전자 발현 데이터의 발현 분포에 맞춘 후, 상기 임의의 샘플 내 유전자 발현값을 기초로 계산된 질병 예측 유전자 점수와 상기 기준 질병 예측 유전자 점수를 비교하는, 질병 포현형 판별 방법.
In claim 1,
The determining step,
After matching the level of the expression distribution of the gene expression data in the arbitrary sample to the expression distribution of the gene expression data used to calculate the reference disease predicting gene score, the disease predicting gene calculated based on the gene expression value in the arbitrary sample Comparing the score and the reference disease prediction gene score, disease phenotype determination method.
적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치에서 질병 표현형을 판별하는 방법으로서,
마이크로어레이 데이터베이스로부터 수집된 환자의 말초 혈액 단핵세포(peripheral blood mononuclear cell, PBMC)의 유전자 발현 데이터들과 정상인의 말초 혈액 단핵세포의 유전자 발현 데이터들을 기초로, 기준 질병 예측 유전자 점수를 계산하는 단계,
입력받은 임의의 샘플내 유전자 발현 데이터들을 기초로 계산된 질병 예측 유전자 점수를 상기 기준 질병 예측 유전자 점수와 비교하는 단계,
상기 임의의 샘플을 대상으로 계산된 질병 예측 유전자 점수가 상기 기준 질병 예측 유전자 점수보다 높은 값을 가지면, 상기 임의의 샘플을 질병 샘플로 판단하는 단계, 그리고
상기 임의의 샘플을 대상으로 계산된 질병 예측 유전자 점수가 상기 기준 질병 예측 유전자 점수보다 낮은 값을 가지면, 상기 임의의 샘플을 정상 샘플로 판단하는 단계
를 포함하는, 질병 포현형 판별 방법.
A method of determining a disease phenotype in a computing device operated by at least one processor,
Calculating a reference disease prediction gene score based on the gene expression data of the patient's peripheral blood mononuclear cells (PBMC) collected from the microarray database and the gene expression data of the peripheral blood mononuclear cells of the normal person,
Comparing the disease prediction gene score calculated based on the gene expression data in any received sample with the reference disease prediction gene score,
If the disease prediction gene score calculated for the random sample has a higher value than the reference disease prediction gene score, determining the random sample as a disease sample, and
If the disease prediction gene score calculated for the random sample has a value lower than the reference disease prediction gene score, determining the random sample as a normal sample
Containing, disease phenotype determination method.
제7항에서,
상기 기준 질병 예측 유전자 점수를 계산하는 단계는,
상기 마이크로어레이 데이터베이스로부터 수집된 유전자 발현 데이터들 중에서 정상인의 유전자 발현 데이터에 비하여 과발현된 유전자들에 대한 정상인 및 환자의 유전자 발현값들과, 억제 발현된 유전자들에 대한 정상인 및 환자의 유전자 발현값들을 기초로, 상기 기준 질병 예측 유전자 점수를 계산하고,
상기 임의의 샘플을 대상으로 계산된 질병 예측 유전자 점수는,
상기 임의의 샘플 내 유전자 들중에서 상기 과발현된 유전자들 및 상기 억제 발현된 유전자들 각각에 대한 유전자 발현값들을 기초로 계산되는, 질병 포현형 판별 방법.
In clause 7,
The step of calculating the reference disease prediction gene score,
Among the gene expression data collected from the microarray database, gene expression values of normal and patient for overexpressed genes, and gene expression values of normal and patient for suppressed-expressed genes compared to normal human gene expression data On the basis of, calculate the reference disease prediction gene score,
The disease prediction gene score calculated for the random sample,
A method for determining a disease phenotype, which is calculated based on gene expression values for each of the overexpressed genes and the suppressed-expressed genes among the genes in the arbitrary sample.
제8항에서,
상기 계산하는 단계는,
상기 마이크로어레이 데이터베이스로부터 수집된 유전자 발현 데이터들 사이의 유사성을 평가하여 환자의 유전자 발현 데이터와 정상인의 유전자 발현 데이터 사이의 유의한 발현 차이를 나타내는 유전자들을 선정하는 단계, 그리고
선정한 유전자들을 대상으로, 상기 기준 질병 예측 유전자 점수를 계산하는 단계
를 포함하는, 질병 포현형 판별 방법.
In clause 8,
The calculating step,
Evaluating the similarity between the gene expression data collected from the microarray database to select genes that show a significant difference in expression between the gene expression data of the patient and the gene expression data of the normal person, and
Calculating the reference disease prediction gene score for the selected genes
Containing, disease phenotype determination method.
제9항에서,
상기 선정하는 단계 이후,
상기 선정한 유전자들 중에서 하나의 유전자를 시작 유전자로 선택하는 단계,
상기 시작 유전자에 나머지 유전자들을 하나씩 추가하여 질병 판별 마커 조합 후보들을 생성하는 단계, 그리고
상기 질병 판별 마커 조합 후보들 각각에 대한 질병 판별 성능을 추정하는 단계를 더 포함하고,
상기 기준 질병 예측 유전자 점수는,
상기 질병 판별 성능이 가장 높은 값을 가지는 질병 판별 마커 조합 후보를 이용하여 계산되는, 질병 포현형 판별 방법.
In claim 9,
After the step of selecting,
Selecting one of the selected genes as a starting gene,
Adding the remaining genes one by one to the starting gene to generate disease discriminating marker combination candidates, and
Further comprising estimating disease discrimination performance for each of the disease discrimination marker combination candidates,
The reference disease prediction gene score,
A method for determining disease phenotypes, which is calculated using a candidate disease determination marker combination having the highest value of the disease determination performance.
제10항에서,
상기 추정하는 단계 이후,
상기 질병 판별 성능이 가장 높은 값을 가지는 1차 질병 판별 마커 조합 후보를 결정하는 단계,
상기 선정한 유전자들중에서 상기 1차 질병 판별 마커 조합 후보에 포함되지 않은 유전자들을 하나씩 추가하여 2차 질병 판별 마커 조합 후보들을 생성하는 단계,
상기 2차 질병 판별 마커 조합 후보들중에서 질병 판별 성능이 가장 높은 값을 가지는 하나의 2차 질병 판별 마커 조합 후보를 선정하는 단계,
선정한 2차 질병 판별 마커 조합 후보가 상기 1차 질병 판별 마커 조합 후보에 비하여 상기 질병 판별 성능이 증가한 경우, 상기 선정한 유전자들 중에서 상기 1차 질병 판별 마커 조합 후보에 포함되지 않은 유전자들을 하나씩 추가하여 3차 질병 판별 마커 조합 후보들을 생성하는 단계,
선정한 2차 질병 판별 마커 조합 후보가 상기 1차 질병 판별 마커 조합 후보에 비하여 상기 질병 판별 성능이 증가하지 않은 경우, 상기 선정한 2차 질병 판별 마커 조합 후보를 상기 기준 질병 예측 유전자 점수 산출 대상으로 결정하는 단계
를 더 포함하는, 질병 포현형 판별 방법.
In claim 10,
After the estimating step,
Determining a candidate primary disease discrimination marker combination having the highest value of the disease discrimination performance,
Generating secondary disease discrimination marker combination candidates by adding one by one genes that are not included in the primary disease discrimination marker combination candidate among the selected genes,
Selecting one secondary disease discrimination marker combination candidate having the highest disease discrimination performance among the secondary disease discrimination marker combination candidates,
When the selected secondary disease discrimination marker combination candidate has increased disease discrimination performance compared to the primary disease discrimination marker combination candidate, genes not included in the primary disease discrimination marker combination candidate among the selected genes are added one by one to 3 Generating primary disease discrimination marker combination candidates,
When the selected secondary disease discrimination marker combination candidate does not increase the disease discrimination performance compared to the primary disease discrimination marker combination candidate, the selected secondary disease discrimination marker combination candidate is determined as a target for calculating the reference disease prediction gene score. step
Further comprising a disease phenotype determination method.
제11항에서,
상기 질병 판별 성능은,
질병 판별 마커 조합 후보에 포함되는 유전자들중에서 임의의 유전자들을 선택하여 훈련 데이터와 검증 데이터로 분리하고, 상기 훈련 데이터로 구분된 유전자들을 복수회 학습하여 생성한 복수개의 질병 판별 모델에 상기 검증 데이터로 구분된 유전자들을 적용한 후, 교차 검증을 통해 산출된 질병 판별 정확도의 평균값으로 계산되는, 질병 포현형 판별 방법.



In clause 11,
The disease determination performance,
A plurality of disease discrimination models generated by selecting random genes from genes included in the disease discrimination marker combination candidate and separating them into training data and verification data, and learning the genes separated by the training data multiple times as the verification data A method for determining disease phenotype, which is calculated as the average value of the disease determination accuracy calculated through cross-validation after applying the separated genes.



KR1020200027784A 2019-03-07 2020-03-05 Method for identifying disease phenotype based on combined score of significant gene expression signatures from transcriptome sample of patients KR102361617B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190026333 2019-03-07
KR20190026333 2019-03-07

Publications (2)

Publication Number Publication Date
KR20200107841A true KR20200107841A (en) 2020-09-16
KR102361617B1 KR102361617B1 (en) 2022-02-11

Family

ID=72669536

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200027784A KR102361617B1 (en) 2019-03-07 2020-03-05 Method for identifying disease phenotype based on combined score of significant gene expression signatures from transcriptome sample of patients

Country Status (1)

Country Link
KR (1) KR102361617B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687370A (en) * 2020-12-28 2021-04-20 博奥生物集团有限公司 Electronic prescription generation method and device and electronic equipment
KR102385483B1 (en) * 2021-10-20 2022-04-14 주식회사 테라젠바이오 Molecular subtype classification apparatus, method for calculating molecular subtypes in a disease and computer program
KR20220146857A (en) * 2021-04-26 2022-11-02 주식회사 온코크로스 Apparatus for predicting drug effect and method thereof

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Allergy, Asthma & Clinical Immunology volume 15, Article number: 67 (2019) *
Blood (2011) 117 (15): e151-e160. *
Front. Mol. Biosci., 09 January 2018| https://doi.org/10.3389/fmolb.2017.00096 *
J Clin Bioinforma. 2012; 2: 6. *
Scientific Reports volume 8, Article number: 10139 (2018) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687370A (en) * 2020-12-28 2021-04-20 博奥生物集团有限公司 Electronic prescription generation method and device and electronic equipment
CN112687370B (en) * 2020-12-28 2023-12-22 北京博奥晶方生物科技有限公司 Electronic prescription generation method and device and electronic equipment
KR20220146857A (en) * 2021-04-26 2022-11-02 주식회사 온코크로스 Apparatus for predicting drug effect and method thereof
KR102385483B1 (en) * 2021-10-20 2022-04-14 주식회사 테라젠바이오 Molecular subtype classification apparatus, method for calculating molecular subtypes in a disease and computer program

Also Published As

Publication number Publication date
KR102361617B1 (en) 2022-02-11

Similar Documents

Publication Publication Date Title
KR102361617B1 (en) Method for identifying disease phenotype based on combined score of significant gene expression signatures from transcriptome sample of patients
US20240079092A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
KR101542529B1 (en) Examination methods of the bio-marker of allele
US11649488B2 (en) Determination of JAK-STAT1/2 pathway activity using unique combination of target genes
KR101460520B1 (en) Detecting method for disease markers of NGS data
Hung Gene set/pathway enrichment analysis
JP7041614B6 (en) Multi-level architecture for pattern recognition in biometric data
CN112470229A (en) Computer-implemented method of analyzing genetic data about an organism
CN112951327A (en) Drug sensitivity prediction method, electronic device and computer-readable storage medium
KR20150024232A (en) Examination methods of the origin marker of resistance from drug resistance gene about disease
KR20190000168A (en) System and method for selecting multi-marker panels
US20170145501A1 (en) Apparatus and methods of using of biomarkers for predicting tnf-inhibitor response
CN116312800A (en) Lung cancer characteristic identification method, device and storage medium based on circulating RNA whole transcriptome sequencing in blood plasma
Yang et al. A CpGCluster-teaching–learning-based optimization for prediction of CpG islands in the human genome
Choi et al. Multicategory classification of 11 neuromuscular diseases based on microarray data using support vector machine
Mythili et al. CTCHABC-hybrid online sequential fuzzy Extreme Kernel learning method for detection of Breast Cancer with hierarchical Artificial Bee
Kuznetsov et al. Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes
Lu et al. A machine learning-derived gene signature for assessing rupture risk and circulatory immunopathologic landscape in patients with intracranial aneurysms
KR20150043790A (en) Extracting method for biomarker for diagnosis of biliary tract cancer, computing device therefor, biomarker for diagnosis of biliary tract cancer, and biliary tract cancer diagnosis device comprising same
Stiglic et al. Using multiagent system for gene expression classification
Rasanjana et al. A svm model for candidate y-chromosome gene discovery in prostate cancer
Wang et al. Using multiple measurements of tissue to estimate individual-and cell-type-specific gene expression via deconvolution
US20230175064A1 (en) Methods and systems for monitoring organ health and disease
WO2023212332A1 (en) Biomarker set identification for lyme disease
CN118116602A (en) Clinical state evaluation method, device, system and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant