KR20200131750A - Sample data analysis method based on kernel modules in genomic module network and analysis apparatus - Google Patents

Sample data analysis method based on kernel modules in genomic module network and analysis apparatus Download PDF

Info

Publication number
KR20200131750A
KR20200131750A KR1020200055087A KR20200055087A KR20200131750A KR 20200131750 A KR20200131750 A KR 20200131750A KR 1020200055087 A KR1020200055087 A KR 1020200055087A KR 20200055087 A KR20200055087 A KR 20200055087A KR 20200131750 A KR20200131750 A KR 20200131750A
Authority
KR
South Korea
Prior art keywords
module
sample
genome
gene
modules
Prior art date
Application number
KR1020200055087A
Other languages
Korean (ko)
Other versions
KR102346561B1 (en
Inventor
김진혁
김혜영
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to PCT/KR2020/006305 priority Critical patent/WO2020231184A1/en
Priority to EP20805845.3A priority patent/EP3970606A4/en
Priority to US17/608,548 priority patent/US20220215268A1/en
Publication of KR20200131750A publication Critical patent/KR20200131750A/en
Application granted granted Critical
Publication of KR102346561B1 publication Critical patent/KR102346561B1/en

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

The present invention relates to a sample analysis method based on a kernel module in a genome module network. The sample analysis method based on a kernel module in a genome module network comprises the steps of: allowing an analysis device to construct a genome module network for a sample based on entropy using gene expression data of the sample; and allowing the analysis device to perform analysis for the sample based on a kernel module in a reference genome module network and the kernel module in the genome module network of the sample. The kernel module is a module having the entropy which is equal to or lower than a reference value compared to other modules in the genome module network, and the entropy indicates a correlation between a plurality of genes based on possibility of transcriptional expression for the plurality of genes.

Description

게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법 및 분석장치{SAMPLE DATA ANALYSIS METHOD BASED ON KERNEL MODULES IN GENOMIC MODULE NETWORK AND ANALYSIS APPARATUS}Sample analysis method and analysis device based on the kernel module of the genome module network {SAMPLE DATA ANALYSIS METHOD BASED ON KERNEL MODULES IN GENOMIC MODULE NETWORK AND ANALYSIS APPARATUS}

이하 설명하는 기술은 게놈 모듈 네트워크의 커널 모듈을 중심으로 샘플을 분석하는 기법에 관한 것이다.The technique to be described below relates to a technique of analyzing a sample centering on the kernel module of the genome module network.

전통적으로 악성종양과 같은 질환은 원인이 게놈에 있을 것으로 추정하며, 따라서 악성종양을 극복하기 위한 연구는 게놈에 집중되어 있다. 분자생물학의 발달로 전통적 항암 화학요법의 부작용을 줄이고 암세포만을 선택적으로 파괴하는 분자표적 치료가 가능하게 되었다. 그러나 악성종양에 대한 완벽한 치료는 아직 불가능하다. 이는 게놈의 기능 및 작용기전에 대한 이해의 부족으로부터 기인한다. 게놈에 대한 전통적인 연구방법은 생화학적 기술에 기반한 것으로 화학적 기능 이상으로 이해를 확장하기에는 한계가 있다.Traditionally, it is assumed that diseases such as malignancies are caused by the genome, so research to overcome malignancies is focused on the genome. The development of molecular biology has made it possible to reduce the side effects of traditional anticancer chemotherapy and to selectively destroy cancer cells. However, complete treatment for malignant tumors is still impossible. This is due to a lack of understanding of the function and mechanism of action of the genome. Traditional methods of research on the genome are based on biochemical techniques and have limitations in extending their understanding beyond chemical functions.

미국등록특허 제9,092,391호U.S. Patent No. 9,092,391

종래 분자생물학적 종양 진단은 유전자의 돌연변이를 탐색함으로써 종양 발생 가능성을 예측한다. 그러나 돌연변이가 종양 발생의 원인임은 아직 규명되지 못했으며, 모든 종양에 적용할 수 있는 유전자의 돌연변이는 없다. 한편, 병리학적 종양 진단은 종양세포의 형태학적 특징에 기반한다. 따라서 종양 발생의 예측이라는 측면에서는 효용성이 감소되어 있다.Conventional molecular biology tumor diagnosis predicts the likelihood of tumor development by searching for mutations in genes. However, it has not yet been established that mutation is the cause of tumor development, and there are no gene mutations applicable to all tumors. On the other hand, pathological tumor diagnosis is based on the morphological characteristics of tumor cells. Therefore, in terms of predicting tumor incidence, its effectiveness is diminished.

이하 설명하는 기술은 유전자 발현 데이터 세트를 이용하여 구축되는 게놈 모듈 네트워크의 커널 모듈을 중심으로 샘플에 대한 분석을 수행하는 기법을 제공하고자 한다.The technique described below is intended to provide a technique for performing analysis on a sample centering on a kernel module of a genome module network constructed using a gene expression data set.

게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법은 분석장치가 샘플의 유전자 발현 데이터를 이용하여 엔트로피를 기준으로 상기 샘플에 대한 게놈 모듈 네트워크를 구축하는 단계 및 상기 분석장치가 레퍼런스 게놈 모듈 네트워크의 레퍼런스 커널 모듈과 상기 샘플의 게놈 모듈 네트워크의 샘플 커널 모듈을 기준으로, 상기 샘플에 대한 분석을 수행하는 단계를 포함한다.In the sample analysis method based on the kernel module of the genome module network, the analysis device constructs a genome module network for the sample based on entropy using gene expression data of the sample, and the analysis device is a reference kernel of the reference genome module network. And performing analysis on the sample based on the module and the sample kernel module of the genome module network of the sample.

다른 측면에서 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법은 분석장치가 레퍼런스 유전자 발현 데이터 및 샘플의 유전자 발현 데이터를 조합한 유전자 발현 데이터를 이용하여 엔트로피를 기준으로 게놈 모듈 네트워크를 구축하는 단계 및 상기 분석장치가 게놈 모듈 네트워크의 커널 모듈을 기준으로, 상기 샘플에 대한 분석을 수행하는 단계를 포함한다.In another aspect, the sample analysis method based on the kernel module of the genome module network includes the steps of constructing a genome module network based on entropy using gene expression data obtained by combining the reference gene expression data and the sample gene expression data by an analysis device. And performing, by the analysis device, analyzing the sample based on the kernel module of the genome module network.

상기 레퍼런스 게놈 모듈 네트워크는 정상 조직의 유전자 발현 데이터 세트 및 종양 조직의 유전자 발현 데이터 세트 중 적어도 하나의 세트를 이용하여 사전에 구축되고, 상기 커널 모듈은 상기 게놈 모듈 네트워크에서 다른 모듈에 비하여 엔트로피가 기준값 이상 낮은 모듈이고, 상기 엔트로피는 복수의 유전자에 대한 전사 발현 가능성을 기준으로 상기 복수의 유전자 사이의 상호관계를 나타낸다.The reference genome module network is constructed in advance using at least one of a gene expression data set of a normal tissue and a gene expression data set of a tumor tissue, and the kernel module has an entropy of a reference value compared to other modules in the genome module network. It is a module that is abnormally low, and the entropy indicates a correlation between the plurality of genes based on the possibility of transcriptional expression for the plurality of genes.

또 다른 측면에서 분석 장치는 레퍼런스의 데이터 및 샘플의 유전자 발현 데이터를 입력받는 입력장치, 유전자 발현 데이터 세트로 구축되는 게놈 모듈 네트워크의 커널 모듈을 기준으로 데이터를 분석하는 프로그램을 저장하는 저장장치 및 상기 프로그램을 이용하여 상기 샘플의 유전자 발현 데이터를 이용하여 게놈 모듈 네트워크를 구축하고, 상기 구축된 게놈 모듈 네트워크의 커널 모듈을 구성하는 유전자 정보를 기준으로 상기 샘플을 분석하는 연산장치를 포함한다.In another aspect, the analysis device includes an input device that receives reference data and gene expression data of a sample, a storage device that stores a program for analyzing data based on a kernel module of a genome module network constructed as a gene expression data set, and the And a computing device for constructing a genome module network using the gene expression data of the sample using a program, and analyzing the sample based on gene information constituting the kernel module of the constructed genome module network.

상기 레퍼런스의 데이터는 정상 조직의 유전자 발현 데이터 세트 및 종양 조직의 유전자 발현 데이터 세트 중 적어도 하나의 세트 또는 상기 적어도 하나의 세트를 이용하여 구축된 레퍼런스 게놈 모듈 네트워크 데이터이고, 상기 커널 모듈은 상기 게놈 모듈 네트워크에서 다른 모듈에 비하여 엔트로피가 기준값 이상 낮은 모듈이고, 상기 엔트로피는 복수의 유전자에 대한 전사 발현 가능성을 기준으로 상기 복수의 유전자 사이의 상호관계를 나타낸다.The data of the reference is at least one of a gene expression data set of a normal tissue and a gene expression data set of a tumor tissue, or a reference genome module network data constructed using the at least one set, and the kernel module is the genome module In a network, an entropy is a module that is lower than a reference value compared to other modules, and the entropy indicates a correlation between the plurality of genes based on the possibility of transcriptional expression for the plurality of genes.

이하 설명하는 기술은 게놈 모듈 네트워크의 커널 모듈을 중심으로, 정상 조직과 종양 조직의 차이를 규명하고, 이를 기반으로 샘플에 대한 생물학적 분석 내지 진단을 제공한다.The technology to be described below identifies the difference between a normal tissue and a tumor tissue, centering on the kernel module of the genome module network, and provides a biological analysis or diagnosis for a sample based on this.

도 1은 게놈 모듈 네트워크의 예이다.
도 2는 게놈의 기초 상태를 도시한 예이다.
도 3은 게놈 공간에서 밀도 행렬을 나타낸 예이다.
도 4는 게놈의 기초 상태 행렬에 위치하는 게놈 모듈의 예이다.
도 5는 게놈 공간의 유전자 발현을 샘플 공간에서 측정하는 예이다.
도 6은 샘플 공간에서 임의의 모듈에 대한 밀도 행렬을 도시한 예이다.
도 7은 임의의 모듈의 유전자 네트워크에서 유전자 i의 배제에 의한 모듈 섭동을 도시한 예이다.
도 8은 8개의 조직에 대한 TCGA 데이터 세트로 모듈 간 네트워크를 구성한 예이다.
도 9는 다양한 컷오프값을 적용한 BRNO의 모듈 간 네트워크에 대한 예이다.
도 10은 BRNO의 모듈 간 네트워크를 다른 조직의 모듈에 맵핑한 예를 도시한다.
도 11은 8개의 조직에 대한 커널 모듈을 도시한 예이다.
도 12는 BRNO의 커널 모듈을 다른 조직의 커널 모듈에 맵핑한 결과를 도시한 예이다.
도 13은 BRNO의 CCDR 도메인의 모듈을 다른 조직의 모듈에 맵핑한 결과를 도시한 예이다.
도 14는 게놈 모듈 네트워크 구축 과정에 대한 순서도의 예이다.
도 15는 게놈 모듈 네트워크를 이용하여 샘플 데이터에 대한 분석 지표를 산출하는 과정에 대한 예이다.
도 16은 정상 조직의 게놈 모듈을 이용하여 복수의 종양 조직 샘플의 샘플 확률(SP)을 연산한 예를 도시한다.
도 17은 SP를 기준으로 구분한 종양 조직 샘플군을 비교한 예를 도시한다.
도 18은 모듈 샘플 확률(MSP)을 기준으로 종양 조직의 샘플을 분류한 예이다.
도 19는 정상 조직의 게놈 모듈 네트워크에 종양 조직 샘플군의 각 모듈별 평균 MSP를 표시한 예이다.
도 20은 특정 유전자 집단의 밀도 행렬을 유전자 공간에서 정의하고 해당 유전자 집합에 대한 분석 대상 샘플의 확률을 도시한 예이다.
도 21은 정상 조직의 특정 유전자 집단의 밀도행렬을 이용하여 종양 조직의 각 샘플에서 계산한 해당 유전자의 로그 승산비(LOR)를 도시한 예이다.
도 22는 정상 조직의 게놈 모듈을 이용하여 종양 조직의 각 샘플에서 계산한 유전자의 LOR의 예이다.
도 23은 필터링 기반 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법에 대한 순서도의 예이다.
도 24는 필터링 기반 게놈 모듈 네트워크를 이용하여 샘플 데이터에 대한 분석 지표를 산출하는 과정에 대한 예이다.
도 25는 유전자 발현 데이터에 대한 필터링 과정에 대한 예이다.
도 26은 BRCA를 필터링한 데이터를 이용하여 생성된 게놈 모듈 네트워크에 대한 예이다.
도 27은 도 26의 게놈 모듈 네트워크의 특정 모듈에 대한 MSP를 기준으로 샘플을 분류한 예이다.
도 28은 도 26의 게놈 모듈 네트워크의 특정 모듈에 대한 MSP를 기준으로 샘플을 분류한 다른 예이다.
도 29는 특정 샘플군에 대한 생존곡선이다.
도 30은 CGX에 대한 8개의 조직의 상대 엔트로피를 기준으로 클러스터링한 결과이다.
도 31은 CG에 대한 8개의 조직의 상대 엔트로피를 기준으로 클러스터링한 결과이다.
도 32는 BRCA 샘플에서 MSPCG 및 MSPCGX를 계산하고, 수용체의 발현에 따른 MSPCG 및 MSPCGX의 분포를 도시한 결과이다.
도 33은 BRNO 샘플에 대하여 MSPCG 및 MSPCGX를 기준으로 클러스터링한 결과이다.
도 34는 BRNO의 모듈 간 네트워크에서 커널 모듈에 대한 각 게놈 모듈의 상대 엔트로피를 표시한 예이다.
도 35는 BRNO의 모듈 간 네트워크에서 샘플 일부를 기준으로 커널 모듈에 대한 각 게놈 모듈의 상대 엔트로피를 표시한 예이다.
도 36은 BRNO의 모듈 간 네트워크에서 샘플 일부를 기준으로 커널 모듈의 CGX에 대한 각 게놈 모듈의 상대 엔트로피를 표시한 예이다.
도 37은 BRNO의 모듈 간 네트워크에서 샘플 일부를 기준으로 커널 모듈의 CG에 대한 각 게놈 모듈의 상대 엔트로피를 표시한 예이다.
도 38은 BRNO의 CG 및 CGX에 대해 계산한 BRNO 샘플 및 BRCA 샘플의 MSP를 기준으로 클러스터링한 결과이다.
도 39는 전체 BRNO 게놈 모듈들에 대해 계산한 BRNO와 BRCA의 샘플들의 MSP를 기준으로 클러스터링한 레벨 플롯의 예이다.
도 40은 전체 BRNO 게놈 모듈에 대한 BRNO 샘플 12의 MSP 중에서 가장 낮은 MSP를 갖는 모듈을 BRNO 모듈 간 네트워크에 도시한 예이다.
도 41은 BRNO로부터 BN2211에 맵핑된 BRNO 모듈들에 대한 BN2211 모듈의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다.
도 42는 BN2211의 모듈 21, 30, 39 및 81에 대한 BRNO 샘플들의 MSP의 분포이다.
도 43은 BN2211로부터 BNRF에 맵핑된 BN2211 모듈들에 대한 BNRF 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다.
도 44는 BN2211의 모듈 21, 30, 39 및 81의 유전자들에 대한 LOR을 연산한 결과이다.
도 45는 BRCA로부터 BN2211에 맵핑된 BRCA 모듈들에 대한 BN2211의 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다.
도 46은 BN2211로부터 BRCA에 맵핑된 BN2211 모듈들에 대한 BRCA 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다.
도 47은 BN2211의 일부 모듈들에 대한 BRCA 샘플의 MSP를 기준으로 클러스터링한 결과이다.
도 48은 BRCA의 샘플을 MSPCG와 MSPCGX의 기준으로 분류한 그룹에 대한 생존 곡선이다.
도 49는 BRNO로부터 BAHL에 맵핑된 BRNO의 모듈들에 대한 BAHL 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다.
도 50은 BAHL 모듈에 대한 BRCA 샘플들의 MSP 분포를 도시한 예이다.
도 51은 BAHL 모듈 26, 32, 43, 53 및 60에 대한 BRNO 샘플의 MSP를 도시한 예이다.
도 52는 BAHL 모듈 26, 32, 43, 53 및 60에 대한 BRCA 샘플의 MSP를 기준으로 클러스터링한 결과이다.
도 53은 MSPCG와 MSPCGX에 따라 BRCA 샘플을 클러스터링한 결과이다.
도 54는 BRCA 샘플 그룹의 돌연변이 발생 빈도의 중앙값과 BRNO의 CG 및 CGX에 대한 BRCA의 CG 및 CGX의 상대 엔트로피 사이의 선형 회귀 분석 결과를 도시한다.
도 55는 BRNO의 각 모듈에서 BRCA 샘플 그룹의 돌연변이 빈도에 대한 선형 회귀 분석 결과를 BRNO의 모듈 간 네트워크에 도시한 예이다.
도 56는 돌연변이 빈도에 따라 분류한 4개 BRCA 샘플 그룹들의 BRNO 모듈에 대한 상대 엔트로피를 도시한다.
도 57은 돌연변이 빈도와 BRNO 모듈 43 및 51에 대한 BRCA의 상대 엔트로피의 선행 회귀 분석 결과이다.
도 58은 게놈 모듈 네트워크의 커널 모듈을 분석하는 과정에 대한 예이다.
도 59는 게놈 모듈 네트워크의 커널 모듈을 기준으로 샘플을 분석하는 과정에 대한 예이다.
도 60은 게놈 모듈 네트워크의 커널 모듈을 기준으로 샘플을 분석하는 시스템에 대한 예이다.
도 61은 게놈 모듈 네트워크의 커널 모듈을 기준으로 샘플을 분석하는 분석장치에 대한 예이다.
1 is an example of a genomic module network.
2 is an example showing the basic state of the genome.
3 is an example of a density matrix in genomic space.
4 is an example of a genome module located in the basic state matrix of the genome.
5 is an example of measuring gene expression in a genome space in a sample space.
6 is an example of a density matrix for an arbitrary module in a sample space.
7 is an example showing module perturbation due to the exclusion of gene i in the gene network of any module.
8 is an example of configuring a module-to-module network with TCGA data sets for eight organizations.
9 is an example of a network between modules of BRNO to which various cutoff values are applied.
10 shows an example of mapping the BRNO's inter-module network to modules of other organizations.
11 is an example showing kernel modules for eight organizations.
12 is an example showing the result of mapping a kernel module of BRNO to a kernel module of another organization.
13 is an example showing the result of mapping the module of the CCDR domain of BRNO to the module of another tissue.
14 is an example of a flow chart for the process of constructing a genome module network.
15 is an example of a process of calculating an analysis index for sample data using a genome module network.
Fig. 16 shows an example in which the sample probability (SP) of a plurality of tumor tissue samples is calculated using a genome module of a normal tissue.
17 shows an example of comparing tumor tissue sample groups classified based on SP.
18 is an example of classifying a sample of a tumor tissue based on a module sample probability (MSP).
19 is an example of displaying the average MSP for each module of a tumor tissue sample group in a genome module network of a normal tissue.
FIG. 20 is an example of defining a density matrix of a specific gene group in a gene space and showing the probability of a sample to be analyzed for the gene set.
21 is an example showing the log odds ratio (LOR) of a corresponding gene calculated in each sample of a tumor tissue using a density matrix of a specific gene group in a normal tissue.
22 is an example of the LOR of a gene calculated in each sample of a tumor tissue using a genome module of a normal tissue.
23 is an example of a flow chart for a method of analyzing sample data based on a filtering-based genome module network.
24 is an example of a process of calculating an analysis index for sample data using a filtering-based genome module network.
25 is an example of a filtering process for gene expression data.
26 is an example of a genome module network generated using data obtained by filtering BRCA.
FIG. 27 is an example of classifying samples based on MSPs for specific modules of the genome module network of FIG. 26.
28 is another example of classifying samples based on MSPs for a specific module of the genomic module network of FIG. 26.
29 is a survival curve for a specific sample group.
30 is a result of clustering based on the relative entropy of 8 tissues for CGX.
31 shows the results of clustering based on the relative entropy of 8 tissues for CG.
FIG. 32 is a result of calculating MSPCG and MSPCGX in a BRCA sample and showing the distribution of MSPCG and MSPCGX according to the expression of the receptor.
33 shows the results of clustering BRNO samples based on MSPCG and MSPCGX.
FIG. 34 is an example showing the relative entropy of each genomic module with respect to the kernel module in the BRNO inter-module network.
FIG. 35 is an example of displaying the relative entropy of each genomic module with respect to a kernel module based on a part of a sample in the BRNO inter-module network.
FIG. 36 is an example of displaying the relative entropy of each genomic module to CGX of a kernel module based on a part of a sample in the BRNO inter-module network.
37 is an example showing the relative entropy of each genomic module with respect to the CG of the kernel module based on a part of the sample in the BRNO inter-module network.
38 shows the results of clustering based on the MSP of the BRNO sample and the BRCA sample calculated for CG and CGX of BRNO.
39 is an example of a level plot clustered based on MSP of samples of BRNO and BRCA calculated for all BRNO genome modules.
FIG. 40 is an example showing a module having the lowest MSP among the MSPs of BRNO sample 12 for all BRNO genome modules in a network between BRNO modules.
41 is an example of a level plot clustered based on the relative entropy of the BN2211 module for BRNO modules mapped from BRNO to BN2211.
42 is the distribution of MSP of BRNO samples for modules 21, 30, 39 and 81 of BN2211.
43 is an example of a level plot clustered based on the relative entropy of BNRF modules for BN2211 modules mapped from BN2211 to BNRF.
44 is a result of calculating LOR for genes of modules 21, 30, 39, and 81 of BN2211.
FIG. 45 is an example of a level plot in which BRCA modules mapped from BRCA to BN2211 are clustered based on the relative entropy of modules of BN2211.
46 is an example of a level plot clustered based on the relative entropy of BRCA modules for BN2211 modules mapped from BN2211 to BRCA.
47 is a result of clustering based on the MSP of BRCA samples for some modules of BN2211.
48 is a survival curve for a group of BRCA samples classified by the criteria of MSPCG and MSPCGX.
49 is an example of a level plot clustered based on the relative entropy of BAHL modules for modules of BRNO mapped from BRNO to BAHL.
50 is an example showing the MSP distribution of BRCA samples for the BAHL module.
51 is an example showing the MSP of BRNO samples for BAHL modules 26, 32, 43, 53 and 60.
52 shows the results of clustering based on the MSP of BRCA samples for BAHL modules 26, 32, 43, 53 and 60.
53 is a result of clustering BRCA samples according to MSPCG and MSPCGX.
Figure 54 shows the results of a linear regression analysis between the median incidence of mutations in the BRCA sample group and the relative entropy of CG and CGX of BRCA to CG and CGX of BRNO.
55 is an example of a linear regression analysis result on the mutation frequency of a BRCA sample group in each module of BRNO in a network between modules of BRNO.
Figure 56 shows the relative entropy for the BRNO module of the 4 BRCA sample groups sorted according to mutation frequency.
Fig. 57 is a result of prior regression analysis of mutation frequency and relative entropy of BRCA for BRNO modules 43 and 51.
58 is an example of a process of analyzing a kernel module of a genome module network.
59 is an example of a process of analyzing a sample based on a kernel module of a genome module network.
60 is an example of a system for analyzing a sample based on a kernel module of a genome module network.
61 is an example of an analysis device that analyzes a sample based on a kernel module of a genome module network.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.The technology to be described below may be modified in various ways and may have various embodiments, and specific embodiments will be illustrated in the drawings and described in detail. However, this is not intended to limit the technology to be described below with respect to a specific embodiment, and it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the technology described below.

이하 설명에서 사용되는 용어를 먼저 설명한다. Terms used in the following description are first described.

샘플은 기본적으로 살아 있는 개체를 의미할 수 있다. 개체는 기본적으로 인간, 동물, 식물, 미생물 등을 포함하는 의미이다. 다만, 이하 설명에서 샘플은 인간을 대상으로 한다고 가정한다. 샘플은 분석 대상인 개체에서 취득한 시료로 대표될 수 있다. 따라서, 샘플은 개인, 개인의 조직, 개인의 세포 집합 등과 같은 의미를 포함한다.A sample can basically mean a living entity. Entity basically means including humans, animals, plants, microorganisms, etc. However, in the following description, it is assumed that the sample is intended for humans. The sample may be represented by a sample obtained from an individual to be analyzed. Thus, the sample includes meanings such as an individual, an individual's tissue, an individual's cell collection, and the like.

샘플 데이터는 샘플의 유전자 발현 데이터를 의미한다. The sample data refers to the gene expression data of the sample.

유전자 발현은 유전자가 RNA 산물로 전사되는 것을 의미한다.Gene expression means that a gene is transcribed into an RNA product.

유전자 발현 데이터는 유전자들의 발현 정도를 나타내는 데이터 세트이다. 한편, 유전자 발현 데이터는 마이크로 어레이(microarray), NGS(Next Generation Sequencing) 등과 같은 기법으로 산출될 수 있다.Gene expression data is a data set representing the level of expression of genes. Meanwhile, gene expression data may be calculated using techniques such as microarray and NGS (Next Generation Sequencing).

게놈 모듈(genomic module) 또는 모듈은 고등 다세포 진핵생물의 게놈의 유전자 그룹에 해당한다. 하나의 게놈 모듈은 복수의 유전자로 구성된다.A genomic module or module corresponds to a group of genes in the genome of higher multicellular eukaryotes. One genomic module consists of a plurality of genes.

모듈화(modularization)는 유전자 발현 데이터 세트를 이용하여 복수의 게놈 모듈을 구성하는 과정이다.Modularization is a process of constructing a plurality of genomic modules using a gene expression data set.

모듈 간 네트워크(intermodular network)는 복수의 게놈 모듈이 에지(edge, 간선)로 연결된 네트워크를 의미한다. 그래프 자료 구조에서 게놈 모듈은 노드에 해당하고, 에지는 노드를 연결하는 링크를 의미한다.The intermodular network refers to a network in which a plurality of genomic modules are connected by edges. In the graph data structure, a genomic module corresponds to a node, and an edge refers to a link connecting nodes.

에지는 모듈 간 네트워크에서 게놈 모듈들 사이의 연결을 의미한다. 에지는 게놈 모듈 간 정보를 교환 또는 전달하는 채널이라고 할 수 있다.Edge refers to the connections between genomic modules in an inter-module network. The edge can be said to be a channel for exchanging or transferring information between genomic modules.

유전자 네트워크(genetic network)는 게놈 모듈을 구성하는 유전자들이 에지로 연결된 네트워크를 의미한다. 유전자 네트워크는 게놈 모듈 내부의 유전자들의 네트워크이다.Genetic network refers to a network in which genes constituting a genomic module are connected by edges. A gene network is a network of genes inside a genomic module.

게놈 모듈 네트워크(genomic module network)는 일반적으로 모듈 간 네트워크 및 유전자 네트워크를 포함하는 의미이다. The genomic module network is generally meant to include inter-module networks and gene networks.

도메인(domain) 또는 게놈 모듈 도메인은 모듈 간 네트워크에서 복수의 게놈 모듈로 구성되는 특정 영역을 의미한다. 후술하겠지만, 도메인은 생물학적 공통 기능을 갖는 모듈로 구성될 수 있다.A domain or a genomic module domain means a specific region composed of a plurality of genomic modules in an inter-module network. As will be described later, the domain may be composed of modules having a biological common function.

맵핑(mapping)은 제1 유전자 발현 데이터 세트로 구성된 제1 게놈 모듈 네트워크 또는 제1 게놈 모듈 네트워크의 특정 모듈에 속한 복수의 유전자들에 대한 데이터를 제2 유전자 발현 데이터 세트로 옮기고(overwriting), 제2 유전자 발현 데이터 세트를 기준으로 일정한 분석을 하는 조작을 의미한다. 다른 말로 표현하여, 현재 분석하고자 하는 유전자 발현 데이터 세트(제2 유전자 발현 데이터 세트)의 일부 데이터를 다른 유전자 발현 데이터 세트(제1 유전자 발현 데이터 세트)로부터 추출하여 분석한다는 것이다. 여기서 일정한 분석은 엔트로피(entropy) 연산, 게놈 모듈 네트워크 재구성 등을 의미할 수 있다.Mapping is performed by overwriting data on a plurality of genes belonging to a first genome module network composed of a first gene expression data set or a specific module of a first genome module network to a second gene expression data set, and 2 It refers to an operation that performs a certain analysis based on a gene expression data set. In other words, some data of the gene expression data set (second gene expression data set) to be currently analyzed is extracted and analyzed from another gene expression data set (first gene expression data set). Here, a certain analysis may mean entropy operation, genomic module network reconstruction, and the like.

게놈 공간(genome space)은 게놈의 기초 상태(basis state) 벡터를 좌표축으로 갖는 힐버트 공간(Hilbert space)을 의미이다.The genome space refers to the Hilbert space, which has a vector of the basis state of the genome as a coordinate axis.

샘플 공간(sample space)은 주어진 데이터 세트에서 m 개의 샘플을 좌표축으로 갖는 m 차원 공간을 의미이다.The sample space refers to an m-dimensional space having m samples as coordinate axes in a given data set.

샘플 확률(sample probability, 이하 SP로 표기함)은 전체 게놈 모듈 네트워크에서 복수의 유전자들에 대한 각 샘플의 확률을 의미한다. 예컨대, 샘플 확률은 샘플의 전체 유전자들을 대상으로 정상 조직을 기준으로 특정 샘플의 변이 정도 나타내는 정량화된 값에 해당할 수 있다.The sample probability (hereinafter referred to as SP) refers to the probability of each sample for a plurality of genes in the whole genome module network. For example, the sample probability may correspond to a quantified value representing the degree of variation of a specific sample based on a normal tissue for all genes of the sample.

모듈 샘플 확률(Modular Sample Probability, 이하 MSP로 표기함)은 특정 게놈 모듈에 속한 복수의 유전자들에 대한 샘플 확률을 의미한다.The module sample probability (Modular Sample Probability, hereinafter referred to as MSP) refers to a sample probability for a plurality of genes belonging to a specific genomic module.

도메인 샘플 확률(Domain Sample Probability, 이하 DSP로 표기함)은 특정 도메인에 속한 복수의 유전자들에 대한 샘플 확률을 의미한다.The domain sample probability (hereinafter referred to as DSP) refers to a sample probability for a plurality of genes belonging to a specific domain.

로그 승산비(Log Odds Ratio, 이하 LOR로 표기함)는 특정 유전자를 기준으로, 해당 유전자가 게놈 모듈에 있는 경우의 제1 확률과 해당 유전자가 해당 게놈 모듈에 없는 경우의 제2 확률의 비율에 대한 로그값이다. LOR는 특정 유전자가 게놈 모듈(게놈 시스템)에 미치는 영향을 나타낼 수 있다.Log Odds Ratio (hereinafter referred to as LOR) is based on a specific gene and is based on the ratio of the first probability when the gene is in the genome module and the second probability when the gene is not in the genome module. Is the logarithmic value. LOR can refer to the effect of a specific gene on a genomic module (genome system).

LORMSP는 특정 샘플에서 특정 유전자를 기준으로, 해당 유전자가 샘플에 있는 경우 특정 게놈 모듈의 MSP와 해당 유전자가 샘플에 없는 경우 해당 게놈 모듈의 MSP의 비율에 대한 음의 로그값이다. LORMSP는 특정 유전자가 특정 게놈 모듈에 미치는 영향을 나타낼 수 있다.LOR MSP is the negative logarithm of the ratio of the MSP of a specific genomic module if the gene is present in the sample and the MSP of that genomic module if the gene is not present in the sample, based on a specific gene in a specific sample. LOR MSP can indicate the effect of certain genes on certain genomic modules.

LORDSP는 특정 샘플에서 특정 유전자를 기준으로, 해당 유전자가 샘플에 있는 경우 특정 도메인의 DSP와 해당 유전자가 샘플에 없는 경우 해당 도메인의 DSP의 비율에 대한 음의 로그값이다. LORDSP는 특정 유전자가 특정 도메인에 미치는 영향을 나타낼 수 있다.LOR DSP is the negative logarithm of the ratio of the DSP of a specific domain when the gene is present in the sample and the DSP of the domain when the gene is not present in the sample, based on a specific gene in a specific sample. LOR DSP can indicate the effect of a specific gene on a specific domain.

LORSP는 특정 샘플에서 특정 유전자를 기준으로, 해당 유전자가 샘플에 있는 경우 해당 샘플의 SP와 해당 유전자가 샘플에 없는 경우 해당 샘플의 SP의 비율에 대한 음의 로그값이다. LORSP는 특정 유전자가 특정 샘플에 미치는 영향을 나타낼 수 있다.LOR SP is a negative logarithmic value of the ratio of the SP of the sample when the gene is present in the sample and the SP of the sample when the gene is not present in the sample, based on a specific gene in a specific sample. LOR SP can indicate the effect of a specific gene on a specific sample.

주고유벡터(principal eigenvector)는 특이값 분해(Singular Value Decomposition, 이하 SVD)의 결과로서 가장 큰 고유값(eigenvalue)을 갖는 고유 벡터(eigenvector)를 의미한다.The principal eigenvector refers to an eigenvector having the largest eigenvalue as a result of Singular Value Decomposition (SVD).

커널(kernel) 모듈 또는 커널은 본래의 조직에서뿐만 아니라 맵핑이 수행된 다른 유형의 조직에서도 동일하게, 다른 모듈과 비교하여 낮은 엔트로피를 갖는 모듈(들)을 의미한다. The kernel module or kernel refers to a module(s) having a lower entropy compared to other modules, not only in the original organization but also in other types of organizations in which mapping has been performed.

엔트로피는 복수 유전자의 기능적 단합도 및 특성의 활성도를 나타낸다.Entropy refers to the degree of functional unity and characteristic activity of multiple genes.

게놈 모듈 네트워크 구축 및 게놈 모듈 네트워크에 기반한 분석은 컴퓨터 장치에서 수행될 수 있다. 컴퓨터 장치는 입력 데이터를 일정하게 처리하거나 가공할 수 있는 연산 능력이 있는 장치를 의미한다. 예컨대, 컴퓨터 장치는 PC, 스마트폰, 서버, 프로그램이 임베드된 칩셋 등과 같은 장치 중 어느 하나 일 수 있다. 게놈 모듈 네트워크 구축과 구축된 게놈 모듈 네트워크에 기반한 분석이 하나의 단일 장치에서 수행될 수 있다. 또는 게놈 모듈 네트워크 구축과 구축된 게놈 모듈 네트워크에 기반한 분석이 별도의 장치에서 수행될 수도 있다. 이하, 게놈 모듈 네트워크 구축 및/또는 구축된 게놈 모듈 네트워크에 기반한 분석을 하는 컴퓨터 장치를 분석 장치라고 명명한다.Construction of the genomic module network and analysis based on the genomic module network can be performed on a computer device. The computer device refers to a device capable of processing or processing input data uniformly. For example, the computer device may be any one of devices such as a PC, a smart phone, a server, and a chipset in which a program is embedded. Construction of the genomic module network and the analysis based on the constructed genomic module network can be performed in one single device. Alternatively, the construction of the genome module network and the analysis based on the constructed genome module network may be performed in a separate device. Hereinafter, a computer device for constructing a genome module network and/or performing an analysis based on the constructed genome module network is referred to as an analysis device.

이하 설명하는 기술은 게놈 모듈 네트워크와 표현형의 관계를 규명할 수 있다. 연구자는 게놈(genome)의 유전자 전사 활동도(transcriptional activity of a gene)에 대한 정보의 흐름을 탐색하고, 이를 표현형(phenotype)의 측면에서 확인한다. 게놈 모듈 네트워크는 다양한 측면에서 활용될 수 있다. 연구자는 특정 샘플에 대한 유전자 발현 데이터를 이용하여 게놈 모듈 네트워크를 구축하고, 구축한 게놈 모듈 네트워크에 기반하여 샘플에 대한 분석을 할 수 있다. 예컨대, 샘플에 대한 분석은 질환 발병 여부, 질환 발병 가능성, 생존률, 생존 기간, 맞춤형 치료 방법 등과 같은 항목을 포함할 수 있다.The technique described below can clarify the relationship between the genomic module network and the phenotype. Researchers explore the flow of information about the genome's transcriptional activity of a gene, and confirm it in terms of phenotype. The genome module network can be utilized in various aspects. Researchers can build a genome module network using gene expression data for a specific sample, and analyze a sample based on the constructed genome module network. For example, analysis of the sample may include items such as disease onset, disease onset probability, survival rate, survival period, customized treatment method, and the like.

특정 질환(예컨대, 악성 종양)과 관련된 종래 대부분의 연구는 생화학적 기법에 기반한다. 이하 설명하는 기술은 생화학적 기법과는 관점이 전혀 다른 것으로, 생명체를 하나의 시스템으로 보고 이를 분석하는 기법에 해당한다. Most of the conventional studies involving certain diseases (eg, malignant tumors) are based on biochemical techniques. The technology described below has a completely different perspective from the biochemical technique, and corresponds to a technique that sees living organisms as a system and analyzes them.

생명체는 무핵세포로부터 유핵세포로, 단세포로부터 다세포로 진화하면서, 수직적 수평적으로 복잡한 구조가 되었다. 수직적으로는 다층구조(multilayered structure)를 형성하였으며, 수평적으로는 다수의 구성요소 사이에 복잡한 연결을 형성함으로써 진화된 생체 시스템으로 발전하였다. 일반적으로 시스템은 구성요소들이 조직화된 방법으로 서로 연결된 집합체로서 구성요소의 하나 혹은 일부의 집합은 시스템의 특성(property)에 영향을 미친다. Ackhoff (1972) 및 Checkland (1981)는 시스템은 각개 구성요소 혹은 일부분의 특성보다는 시스템 자체의 특성을 발현한다고 하였다. 같은 원리로 생체 시스템도 구성요소인 단백질 및 유전자의 특성이 아닌 시스템 자체의 특성들이 발현되며, 생체 시스템 자체의 특성이 표현형이 된다고 할 수 있다. 단백질 및 유전자는 생명체의 표현형에 영향을 줄 수는 있지만, 생체 시스템 자체를 구축하는 요소라고 보기는 어렵다.Living organisms evolved from nucleated cells to nucleated cells, and from single cells to multicellular, vertically and horizontally complex structures. Vertically, a multilayered structure was formed, and horizontally, it developed into an evolved biological system by forming complex connections between multiple components. In general, a system is a collection of components connected to each other in an organized way, and one or a set of components affects the properties of the system. Ackhoff (1972) and Checkland (1981) stated that a system expresses the characteristics of the system itself rather than the characteristics of individual components or parts. According to the same principle, it can be said that the characteristics of the system itself are expressed, not the characteristics of proteins and genes, which are constituents, and the characteristics of the biological system itself become phenotype. Proteins and genes can affect the phenotype of living organisms, but they are difficult to regard as the building blocks of living systems themselves.

생체 시스템은 내적 외적 환경변화에 대해 적절한 표현형을 발현하여 대응한다. 이러한 대응 시나리오가 인코딩(encoding)될 수 있는 곳은 DNA 사슬밖에 없다. 따라서 전체적인 생체 시스템은 유전자에 대한 정보로 특정된다고 할 수 있다. 이하 설명하는 기술은 샘플의 유전자 발현 데이터 세트를 이용하여 게놈 모듈 네트워크를 구축하고, 게놈 모듈 네트워크라는 시스템을 통해 샘플에 대한 분석을 수행하게 한다.The biological system responds by expressing an appropriate phenotype to changes in the internal and external environment. The only place where this response scenario can be encoded is the DNA chain. Therefore, it can be said that the entire biological system is characterized by information on genes. The technique described below constructs a genome module network using a gene expression data set of a sample, and analyzes a sample through a system called a genome module network.

게놈 모듈 네트워크 구축Construction of genome module network

먼저, 게놈 모듈 네트워크를 구축하는 과정에 대하여 설명한다. First, the process of constructing the genome module network will be described.

도 1은 게놈 모듈 네트워크(100)의 예이다. 게놈 모듈 네트워크(100)를 구축하는 과정에 대해 설명하기 전에 게놈 모듈 네트워크(100)의 구조에 대해 먼저 설명한다. 게놈 모듈 네트워크(100)는 모듈 간 네트워크 및 유전자 네트워크를 포함한다. 모듈 간 네트워크는 복수의 게놈 모듈과 모듈들을 연결하는 에지들을 포함한다.1 is an example of a genome module network 100. Before describing the process of constructing the genome module network 100, the structure of the genome module network 100 will be described first. The genome module network 100 includes an inter-module network and a gene network. The module-to-module network includes a plurality of genomic modules and edges connecting the modules.

게놈 모듈 네트워크(100)의 각 모듈은 일정한 유전자를 포함한다. 도 1에서 모듈은 실선 원으로 도시하였다. 모듈에 표기된 번호는 모듈을 구분하는 식별자의 예이다. 하나의 모듈에 속하는 유전자는 특정 표현형 발현과 관련하여 연관된 유전자에 해당한다. 한편, 복수의 모듈은 표현형과 관련하여 일정한 기능을 수행하는 그룹으로 구분될 수 있다. 도 1에서 점선 원으로 복수의 모듈을 구분하였다. 점선 원은 복수의 모듈을 관련된 기능으로 구분한 예이다. 이와 같이 기능적으로 관련성 있는 복수의 모듈을 구분한 영역이 도메인이다. 도 1에서는 A, B, C, D 및 E 도메인을 표시하였다. 한편, 모듈 84는 도메인 A와 도메인 C를 연결하는 중계자 역할을 수행한다. 각 도메인은 세포주기, DNA 손상 제어, 상피 조직, 세포외기질, 면역, 혈관 신생 등과 같은 기능과 연관될 수 있다.Each module of the genomic module network 100 contains a certain gene. In FIG. 1, the module is shown as a solid circle. The number indicated on the module is an example of an identifier that identifies the module. Genes belonging to one module correspond to genes associated with specific phenotypic expression. Meanwhile, a plurality of modules may be divided into groups that perform a certain function in relation to the phenotype. In Fig. 1, a plurality of modules are divided by a dotted circle. The dotted circle is an example of dividing a plurality of modules into related functions. As such, a domain is an area in which a plurality of functionally related modules are divided. In Figure 1, A, B, C, D and E domains are indicated. Meanwhile, module 84 serves as a relay linking domain A and domain C. Each domain may be associated with functions such as cell cycle, DNA damage control, epithelial tissue, extracellular matrix, immunity, angiogenesis, and the like.

도 1에서 어느 한 쌍의 모듈이 에지로 연결된 상태를 도시한다. 에지로 연결된 2개의 모듈은 서로 일정한 연관성을 갖는다는 의미이다. 여기서 에지는 모듈 간 정보를 전달 내지 교환하는 채널이라고 볼 수 있다. 에지로 연결된 모듈은 어느 하나의 모듈이 다른 모듈의 기능에 관련된다고 볼 수 있다. 서로 다른 도메인에 속한 모듈이 연결되는 경우, 어느 하나의 도메인이 다른 도메인의 기능에 영향을 준다고 해석할 수 있다. 예컨대, 특정한 표현형은 하나의 모듈을 통해 발현될 수도 있지만, 다양한 모듈이 직접 또는 간접으로 관여하여 발현될 수도 있다.1 shows a state in which a pair of modules are connected by edges. It means that the two modules connected by edges have a certain relationship with each other. Here, the edge can be seen as a channel for transferring or exchanging information between modules. For modules connected by edge, one module can be considered to be related to the function of another module. When modules belonging to different domains are connected, it can be interpreted that one domain affects the function of the other domain. For example, a specific phenotype may be expressed through one module, but various modules may be directly or indirectly involved and expressed.

도 1의 하단에 모듈 27을 확대 도시하였다. 전술한 바와 같이 각 모듈은 복수의 유전자로 구성된다. 모듈 27에 속한 유전자는 알파벳으로 식별하였다. 하나의 모듈에 속한 유전자들은 유전자 네트워크를 구성한다. 유전자 네트워크는 모듈 간 네트워크를 형성하는 것과 유사하게, 모듈 내의 유전자들이 에지로 연결된 형태이다.The module 27 is enlarged at the bottom of FIG. 1. As described above, each module is composed of a plurality of genes. Genes belonging to module 27 were identified by alphabet. Genes belonging to one module constitute a gene network. The gene network is a form in which genes within a module are connected by edges, similar to forming a network between modules.

이하 게놈 모듈 네트워크를 구축하는 과정은 게놈을 모듈화하는 과정, 게놈 모듈 간의 네트워크를 구축하는 과정 및 각 모듈 내의 유전자 네트워크를 구축하는 과정을 포함한다. 이하 각 과정에 대하여 설명한다.Hereinafter, the process of building a genome module network includes a process of modularizing a genome, a process of building a network between genome modules, and a process of building a gene network within each module. Each process will be described below.

게놈의 상태(state of genome)State of genome

유전자의 상태를 정의하는 개념부터 설명한다. 유전자의 상태를 퀀텀 시스템(quantum system) 레벨에서 설명한다. 퀀텀 시스템은 밀도 행렬(density matrix) 형태로 표현된다. The concept of defining the state of the gene will be explained. The state of the gene is described at the level of the quantum system. Quantum systems are expressed in the form of a density matrix.

하나의 유전자는 활성 내지 비활성이라는 2개의 기초 상태(basis state)를 갖는다. 활성 상태는 전사 과정에서 해당 유전자가 활성을 갖는다는 의미이다. 특정한 시점에서 하나의 유전자는 활성 또는 비활성 상태를 갖는다. 따라서 기초 상태는 서로 배타적이고, 수학적으로 벡터 공간에서 직교(orthonormal)하는 관계이다. 활성 상태를 "1" 또는 "on"이라고 표현하고, 비활성 상태를 "0" 또는 "off"라고 표현할 수 있다. 설명의 편의를 위해 활성 및 비활성 상태를 각각 기초 상태 벡터(basis state vector)

Figure pat00001
Figure pat00002
으로 표현한다. 하나의 유전자의 전사 상태 벡터(transcriptional state vector)
Figure pat00003
는 아래의 수학식 1과 같이 두 개 기초 상태의 선형적 조합에 해당한다. One gene has two basis states: active to inactive. The active state means that the gene is active during the transcription process. At a certain point in time, a gene has an active or inactive state. Therefore, the basic states are mutually exclusive and are mathematically orthonormal in vector space. The active state may be expressed as "1" or "on", and the inactive state may be expressed as "0" or "off". For convenience of explanation, each of the active and inactive states is a basis state vector.
Figure pat00001
And
Figure pat00002
Expressed as Transcriptional state vector of one gene
Figure pat00003
Corresponds to a linear combination of two basic states as shown in Equation 1 below.

Figure pat00004
Figure pat00004

수학식 1에서 a0은 비활성 상태에 대한 계수이고, a1은 활성 상태에 대한 계수이다. 유전자에 의해 생성되는 mRNA의 양은 a1에 따라 결정된다. 기초 상태 벡터

Figure pat00005
Figure pat00006
은 직교 정규(orthonormal) 특성을 갖는다. In Equation 1, a 0 is a coefficient for an inactive state, and a 1 is a coefficient for an active state. The amount of mRNA produced by the gene depends on a 1 . Basic state vector
Figure pat00005
And
Figure pat00006
Has an orthonormal characteristic.

도 2는 유전자의 기초 상태를 도시한 예이다. 도 2는 두 개의 유전자 g1 및 g2의 기초 상태를 도시한다. 두 개의 유전자는 모두 4개의 기초 상태를 가질 수 있다. 도 2는 유전자 g1 및 g2 각각에 대한 전사 상태 벡터

Figure pat00007
Figure pat00008
을 표시하였다.2 is an example showing the basic state of a gene. Figure 2 shows the basal state of two genes g 1 and g 2 . Both genes can have four basic states. Figure 2 is a transcriptional state vector for each of the genes g 1 and g 2
Figure pat00007
And
Figure pat00008
Is indicated.

게놈에서 유전자들이 갖는 상태에 대한 확률 분포는 유전자 사이의 특징적 관계를 나타낸다. 유전자들이 균일한 분포(uniform distribution)의 상태를 갖는다면, 해당 유전자들은 서로 연관성 없이 랜덤한 활성을 갖는다고 할 수 있다. 그러나 유전자 사이의 연관성이 증가하면, 유전자의 상태 분포는 불균일성(unevenness)이 증가한다. 따라서 유전자 상태의 확률 분포의 불균일성은 게놈에서 해당 유전자의 연관도를 나타내는 정보라고 할 수 있다. The probability distribution of the states of genes in the genome indicates characteristic relationships between genes. If the genes have a uniform distribution state, the genes can be said to have random activities without being related to each other. However, as the association between genes increases, the unevenness of the state distribution of genes increases. Therefore, the non-uniformity of the probability distribution of the gene status can be said to be information indicating the degree of association of the gene in the genome.

n 개의 유전자를 갖는 게놈은 전체 2n 개의 기초 상태를 갖는다. n 개의 유전자 각각은 직교 정규 특성을 갖는 기초 상태 벡터를 갖는다. 따라서 게놈의 기초 상태 벡터는

Figure pat00009
로 나타낼 수 있다. 여기서 j i ∈{0,1}이고, i = 1,2,...,n이다. 결국, n 개의 유전자로 구성된 게놈은 직교 정규 특성을 갖는 2n개의 기초 상태 벡터
Figure pat00010
를 갖는다. 유전자의 개수에 따라 새로운 벡터 공간이 늘어난다고 할 수 있다. 게놈의 기초 상태 벡터로 정의되는 공간은 힐베르트 공간이다. 게놈의 기초 상태 벡터로 정의되는 공간을 게놈 공간이라고 명명하였다. A genome with n genes has a total of 2 n basic states. Each of the n genes has a basic state vector with orthogonal normal characteristics. So the basic state vector of the genome is
Figure pat00009
It can be expressed as Where j i ∈{0,1} and i = 1,2,...,n. After all, a genome consisting of n genes is 2 n basal state vectors with orthogonal canonical properties
Figure pat00010
Has. It can be said that the space for new vectors increases with the number of genes. The space defined as the basic state vector of the genome is the Hilbert space. The space defined as the basic state vector of the genome was called the genome space.

전체 기초 상태

Figure pat00011
에서 α번째 기초 상태를
Figure pat00012
라고 한다.
Figure pat00013
Figure pat00014
로 표현된다. j i,α ∈{0,1}이다. 모든
Figure pat00015
는 서로 직교 정규하는 특성을 갖는다. 따라서 유전자 i의 전사 상태 벡터는 아래의 수학식 2와 같이 표현할 수 있다.Full basal state
Figure pat00011
The α-th basic state at
Figure pat00012
It is called.
Figure pat00013
Is
Figure pat00014
Is expressed as j i,α ∈{0,1}. all
Figure pat00015
Have characteristics that are orthogonal to each other. Therefore, the transcription state vector of gene i can be expressed as in Equation 2 below.

Figure pat00016
Figure pat00016

유전자 i의 mRNA 생성 정도는 계수

Figure pat00017
에 따른다. 게놈은 해당하는 유전자를 제어하여 mRNA 생성을 제어한다.The degree of mRNA production of gene i is counted
Figure pat00017
Follows. The genome controls mRNA production by controlling the corresponding gene.

대각합(trace)이 1이 되도록 정규화된 다이애드(dyad)

Figure pat00018
를 유전자 i의 밀도 행렬(density matrix) ρi이라고 한다.
Figure pat00019
Figure pat00020
와 동일하기 때문에, 밀도 행렬은 게놈의 순수 상태(pure state)를 나타낸다. 퀀텀 시스템에서 순수 상태는 상태를 정확하게 알고 있는 상태를 의미한다. 게놈 시스템의 확률적 특성을 고려하면 밀도 행렬을 이용하여 유전자의 순수 상태의 조합(ensemble of pure states)으로 게놈의 혼합 상태(mixed state)를 설명하는 것이 유용하다. 따라서 ρi는 아래 수학식 3과 같이 나타낼 수 있다.Dyad normalized so that the trace is 1
Figure pat00018
Is called the density matrix ρ i of gene i.
Figure pat00019
silver
Figure pat00020
The density matrix represents the pure state of the genome because it is equal to. In a quantum system, a pure state means a state that accurately knows the state. Considering the probabilistic characteristics of the genomic system, it is useful to describe the mixed state of the genome as an ensemble of pure states using a density matrix. Therefore, ρ i can be expressed as Equation 3 below.

Figure pat00021
Figure pat00021

따라서 게놈의 혼합 상태 밀도 행렬 ρ는 ρi의 조합에 해당한다. 즉, ρ는

Figure pat00022
이다. wi는 ρi의 확률이다. wi가 1/n으로 동일한 값이라면, ρ는
Figure pat00023
로 표현될 수 있다. 게놈 공간은 힐베르트 공간이므로, 밀도 행렬 ρ에 대한 단위 벡터
Figure pat00024
의 확률은 아래의 수학식 4와 같이 글리슨 정리(Gleason's theorem)에 따라 정의될 수 있다. Therefore, the mixed state density matrix ρ of the genome corresponds to the combination of ρ i . That is, ρ is
Figure pat00022
to be. w i is the probability of ρ i . If w i is equal to 1/n, then ρ is
Figure pat00023
It can be expressed as The genomic space is the Hilbert space, so the unit vector for the density matrix ρ
Figure pat00024
The probability of can be defined according to Gleason's theorem as shown in Equation 4 below.

Figure pat00025
Figure pat00025

게놈이

Figure pat00026
번째 기초 상태에 머무를 확률은
Figure pat00027
이다. 게놈이 특정 기초 상태일 가능성은 게놈의 밀도 행렬의 대각에 위치한다. n 개의 유전자로 구성되는 게놈에 대한 밀도 행렬은 2n×2n 크기의 정방 행렬이다. 이 밀도 행렬은 2n 개의 고유 벡터(eigenvector)와 고유값(eigenvalue)을 갖는다. 고유 벡터는 고유상태(eigenstates)를 나타내고, 고유값은 특정 상태에 대한 확률을 나타낸다.The genome is
Figure pat00026
The probability of staying in the first basic state is
Figure pat00027
to be. The likelihood that a genome is in a certain underlying state lies diagonally to the density matrix of the genome. The density matrix for the genome consisting of n genes is a square matrix of size 2 n × 2 n . This density matrix has 2 n eigenvectors and eigenvalues. Eigenvectors represent eigenstates, and eigenvalues represent probabilities for specific states.

게놈 시스템이 각 고유상태에 머무를 확률은 불균일하다. 게놈 시스템에서 이러한 불균일성은 일정한 유전 정보에 해당한다. 도 3은 게놈 공간에서 밀도 행렬을 나타낸 예이다. 밀도 행렬은 2차원 게놈 공간에서 타원형 형태를 갖는다. 점선 화살표로 표시된 2n개의 축

Figure pat00028
은 게놈의 기초 상태 벡터를 나타낸다. 실선 화살표로 표시된 2n개의 축
Figure pat00029
은 고유벡터를 나타낸다. 굵은색 화살표의 길이는 고유 벡터
Figure pat00030
의 확률을 나타낸다. 검은색 점은 유전자를 나타낸다.The probability of a genomic system staying in each native state is non-uniform. In genomic systems, this non-uniformity corresponds to certain genetic information. 3 is an example of a density matrix in genomic space. The density matrix has an elliptical shape in the two-dimensional genomic space. 2 n axes indicated by dashed arrows
Figure pat00028
Represents the basic state vector of the genome. 2 n axes indicated by solid arrows
Figure pat00029
Represents an eigenvector. The length of the bold arrow is an eigenvector
Figure pat00030
Represents the probability of Black dots represent genes.

게놈의 혼합 상태 밀도 행렬

Figure pat00031
의 고유 벡터는 게놈 시스템의 창발적 특성을 나타내고, 고유 벡터의 고유값은 특성 발현의 확률을 결정한다. 불균일성은 엔트로피 S(ρ)로 표현할 수 있다. 게놈이 어떤 상호 작용에서도 유전자를 활성화하지 않거나, 매우 많은 상호 작용에서 동시에 다수의 유전자를 활성화하면, 높은 엔트로피 값을 갖는다. 게놈 공간에서 엔트로피가 증가하면 밀도 행렬의 타원은 특정한 방향성을 잃고 원 형태를 갖게 된다. 반대로 게놈이 소수의 특정한 타깃에 집중하여 활동하면 낮은 엔트로피 값을 갖는다. 게놈 공간에서 생성된 유전 정보는 실제 공간(real space)에서 단백질 네트워크로 전달된다. mRNA는 게놈 공간과 단백질 공간을 연결하는 채널에 해당한다. Mixed state density matrix of genome
Figure pat00031
The eigenvector of represents the emergent characteristic of the genomic system, and the eigenvalue of the eigenvector determines the probability of characteristic expression. The non-uniformity can be expressed as entropy S(ρ). If the genome does not activate a gene in any interaction, or activates a large number of genes simultaneously in very many interactions, it has a high entropy value. As entropy increases in genomic space, the ellipse of the density matrix loses its specific orientation and takes on a circular shape. Conversely, if the genome is active by focusing on a small number of specific targets, it has a low entropy value. Genetic information generated in genomic space is transferred from real space to protein networks. mRNA corresponds to a channel that connects the genomic and protein spaces.

게놈 모듈화Genome modularization

고등 진핵 생물은 하나의 세포에서도 서로 다른 단백질 네트워크를 동시에 가동한다. 특정한 상호 작용에 관여하는 유전자들이 하나의 그룹에 속한다고 가정한다. 특정 그룹에 속한 유전자들은 특정한 상호 작용과 관련된 표현형을 나타내는 단백질 생성을 위해 연관성을 갖고 동작한다. 따라서 해당 그룹에 속한 유전자를 하나의 모듈로 정의할 수 있다. 모듈은 특정 표현형에 관여하는 단백질 생성에 관여하는 유전자이다. 게놈 전체의 유전자를 분석하면, 게놈은 복수의 모듈로 구분될 수 있다. 모듈에 속한 유전자는 특정 표현형에 관한 단백질을 직접 생성하는데 관여할 수 있다. 나아가 모듈에 속한 유전자는 특정 단백질 생성 과정에 간접적으로 관여할 수 있다.Higher eukaryotes run different protein networks simultaneously in a single cell. It is assumed that genes involved in a specific interaction belong to a group. Genes belonging to certain groups work in association to produce proteins that represent phenotypes associated with specific interactions. Therefore, genes belonging to the group can be defined as one module. Modules are genes involved in the production of proteins involved in a specific phenotype. By analyzing the genes of the entire genome, the genome can be divided into a plurality of modules. Genes belonging to the module can be directly involved in producing proteins for a specific phenotype. Furthermore, genes belonging to the module may be indirectly involved in the process of producing a specific protein.

연구자는 전체 게놈은 최대한 독립된 모듈로 구분하고, 독립된 모듈 간 연관성을 분석하여 모듈 간 연결관계(에지)를 파악한다. 특정 게놈에 대한 게놈 모듈 네트워크를 구축하여, 게놈 모듈 네트워크 레벨에서 게놈을 분석하고자한다.The researcher divides the whole genome into independent modules as much as possible, and analyzes the association between the independent modules to determine the linkage (edge) between modules. By constructing a genome module network for a specific genome, we want to analyze the genome at the genome module network level.

복수의 모듈은 특정한 표현형 발현에 협력적으로 관여할 수 있다. 복수의 모듈은 모듈 간 에지를 통해 일정한 통신을 수행한다고 할 수 있다.Multiple modules can be cooperatively involved in the expression of a particular phenotype. It can be said that a plurality of modules perform constant communication through the edge between modules.

원칙적으로 유전자 색인과 기초 상태를 적절하게 정렬하면 게놈 모듈의 분리가 가능하다. 게놈이 각 기초 상태에 머무는 확률은 대부분 0(zero)에 가까우며 게놈 모듈 영역에서 변동할 것이다. In principle, if the gene index and the underlying state are properly aligned, the genome module can be separated. The probability of a genome staying in each basal state is mostly close to zero and will fluctuate in the genomic module region.

단세포 생물의 경우, 하나의 유전자는 동시에 서로 다른 다중 상태를 가질 수 없기 때문에 하나의 역할만을 수행할 수 있다. 다른 말로 표현하면, mRNA는 물리적으로 연속된 공간에서 하나의 레벨을 유지하기 때문에, 하나의 유전자는 하나의 게놈 모듈에 포함되어야 할 것이다. In the case of single-celled organisms, a single gene cannot have multiple states at the same time, so it can only play a role. In other words, because mRNA maintains one level in a physically contiguous space, one gene would have to be contained in one genomic module.

반면 다세포 생물에서 한 유전자는 물리적으로 분리된 각 공간에서 발현한다. 컴퓨터 중앙처리장치의 시분할을 통한 멀티태스킹과 유사하게 유핵 생명체에서 한 유전자는 공간 분할을 통해 멀티태스킹을 수행할 수 있으며, 이는 유핵 생명체가 다세포생물로 진화하게 된 하나의 근거를 제시한다.On the other hand, in multicellular organisms, a gene is expressed in each physically separated space. Similar to multitasking through time division of a computer central processing unit, a gene in a nucleated organism can perform multitasking through spatial division, which provides a basis for the evolution of a nucleated organism into a multicellular organism.

도 4는 게놈의 기초 상태 행렬에 위치하는 게놈 모듈의 예이다. 세로축은 기초 상태의 인덱스를 나타내고, 가로축은 유전자 인덱스를 나타낸다. 모듈 c와 모듈 b가 부분적으로 중복된다. 4 is an example of a genome module located in the basic state matrix of the genome. The vertical axis represents the index of the basal state, and the horizontal axis represents the gene index. Module c and module b partially overlap.

모듈 a, b 및 d 또는 모듈 a, c 및 d는 하나의 세포(단일 게놈 공간)에서 활성화될 수 있다. 그러나 모듈 b 및 c는 공유되는 유전자가 존재하므로 서로 다른 세포(다중 게놈 공간)에서 활성화되어야 한다. Modules a, b and d or modules a, c and d can be activated in one cell (single genomic space). However, modules b and c have shared genes and must be activated in different cells (multi-genome space).

모듈 a와 b는 부분적으로 기초 상태가 중복되지만, 두 개의 모듈의 고유 벡터는 서로 다른 방향성을 갖는다. 따라서 두 개의 모듈 a와 b는 서로 다른 단백질 네트워크와 표현형에 관여한다. 두 개의 모듈 a와 b에 대한 상호 정보 I(a:b)는 S(ρa) + S(ρb) - S(ρab)로 표현한다. 상호 정보는 두 개의 모듈 사이의 상호 의존성을 의미한다. 두 개의 모듈에서 공유하는 기초 상태가 증가하면, S(ρab)는 감소하고, 상호 정보는 증가한다. 두 개의 모듈 사이에 공유하는 기초 상태의 개수는 게놈 모듈 사이의 연결 정도에 영향을 줄 수 있다. 그러나 각 게놈 모듈이 고유의 특성을 발현할 정도의 복잡도를 갖게 되면 이러한 연결은 게놈 모듈의 실행에 매개 변수(parameter)로서 기능하게 된다. Modules a and b partially overlap the basic state, but the eigenvectors of the two modules have different directions. Thus, the two modules a and b are involved in different protein networks and phenotypes. Mutual information I(a:b) for two modules a and b is expressed as S(ρ a ) + S(ρ b )-S(ρ ab ). Mutual information refers to interdependence between two modules. When the basic state shared by the two modules increases, S(ρ ab ) decreases, and mutual information increases. The number of underlying states shared between two modules can affect the degree of connectivity between genomic modules. However, when each genomic module has a degree of complexity enough to express its own characteristics, this linkage functions as a parameter to the execution of the genomic module.

실제 공간과 게놈 공간은 본질적으로 상이하다. 게놈 공간은 게놈의 기초 상태를 단위벡터(unit vector)로 정의되는 2n 차원 공간이다. 실제 공간은 생물체에서 유전자 활성을 통한 특정 단백질 생성 등의 화학반응이 일어나는 현실 세계의 3차원 공간이다. 따라서 게놈의 활성을 파악하기 위하여 게놈 공간에 직접 접근하는 것은 불가능하다. 따라서 게놈 공간을 유전자 발현 데이터의 샘플 공간으로 변환하여 분석하기 위한 방법이 필요하다. 샘플 공간은 각 샘플을 단위벡터로 정의되는 m차원 공간이다. Real space and genomic space are essentially different. The genome space is a 2 n- dimensional space in which the basic state of the genome is defined as a unit vector. The real space is a three-dimensional space in the real world where chemical reactions such as the production of specific proteins through gene activity occur in living organisms. Therefore, it is impossible to directly access the genomic space to determine the activity of the genome. Therefore, there is a need for a method for analyzing by converting the genomic space into a sample space of gene expression data. The sample space is an m-dimensional space in which each sample is defined as a unit vector.

m개의 샘플로부터 유전자 발현의 측정은 게놈 공간에서 mRNA에 실린 정보를 m 차원의 샘플 공간으로 변환한다. 한편, cDNA 마이크로어레이와 같은 기술은 동시에 수만 개의 유전자 발현 레벨을 측정할 수 있다.Measurement of gene expression from m samples transforms the information carried on the mRNA in the genomic space into the m-dimensional sample space. On the other hand, technologies such as cDNA microarrays can simultaneously measure the expression levels of tens of thousands of genes.

n 개의 유전자를 갖는 게놈에서 유전자 i의 전사 상태 벡터

Figure pat00032
는 전사 상태(transcriptional state) 행렬
Figure pat00033
를 구성한다. m 개의 샘플로부터 측정된 n 개의 유전자 발현 데이터 세트에서 유전자 i의 순수 상태 벡터
Figure pat00034
는 행렬
Figure pat00035
를 구성한다. 두 행렬의 관계는 아래의 수학식 5와 같다.Transcription state vector of gene i in a genome with n genes
Figure pat00032
Is the transcriptional state matrix
Figure pat00033
Configure. Pure state vector of gene i in n gene expression data sets measured from m samples
Figure pat00034
Is a matrix
Figure pat00035
Configure. The relationship between the two matrices is shown in Equation 5 below.

Figure pat00036
Figure pat00036

여기서

Figure pat00037
은 게놈 공간을 샘플 공간으로 변환하는 변환 행렬이다.here
Figure pat00037
Is a transformation matrix that transforms genomic space into sample space.

전술한 수학식 3으로부터 게놈 전체의 밀도 행렬 ρ와 전사 상태 행렬 T는

Figure pat00038
의 관계를 갖게 된다. 밀도 행렬 ρ는 실대칭행렬(real symmetric matrix)이므로 고유값 분해(Eigen Decomposition)를 하면
Figure pat00039
의 결과를 얻을 수 있다. 여기서 Q는 각 열(column)이 밀도 행렬 ρ의 각 고유 벡터인 직교 정규 행렬이며, Λ는 각 대각 성분이 밀도 행렬 ρ의 각 고유값인 대각 행렬이다. 따라서 수학식 5로부터 G T G를 전개하면
Figure pat00040
Figure pat00041
Figure pat00042
Figure pat00043
이 성립한다. From Equation 3 above, the whole genome density matrix ρ and the transcription state matrix T are
Figure pat00038
Will have a relationship. Since the density matrix ρ is a real symmetric matrix, the eigen decomposition
Figure pat00039
You can get the results. Here, Q is an orthogonal normal matrix in which each column is each eigenvector of the density matrix ρ, and Λ is a diagonal matrix in which each diagonal component is each eigenvalue of the density matrix ρ. Therefore, if G T G is developed from Equation 5
Figure pat00040
Figure pat00041
Figure pat00042
Figure pat00043
This holds true.

또한 변환 행렬

Figure pat00044
을 SVD로 분해하면
Figure pat00045
의 결과를 얻을 수 있다. 여기서
Figure pat00046
는 좌 특이벡터(left singular vector) 행렬이고,
Figure pat00047
는 특이값(singular value) 행렬이고,
Figure pat00048
는 우 특이벡터(right singular vector) 행렬이다. 따라서
Figure pat00049
Figure pat00050
이 성립한다. 여기서
Figure pat00051
로서, Q'는 게놈 전체의 밀도 행렬 ρ의 각 고유 벡터가 변환 행렬
Figure pat00052
의 좌 특이벡터 행렬을 통해 회전된 새로운 고유 벡터의 행렬임을 의미한다. Also the transformation matrix
Figure pat00044
Decomposing into SVD
Figure pat00045
You can get the results. here
Figure pat00046
Is the left singular vector matrix,
Figure pat00047
Is the singular value matrix,
Figure pat00048
Is a right singular vector matrix. therefore
Figure pat00049
Figure pat00050
This holds true. here
Figure pat00051
As, Q 'each are the eigenvectors of the density ρ of the genome matrix transformation matrix
Figure pat00052
It means that it is a matrix of new eigenvectors rotated through the left singular vector matrix of.

한편, 유니터리 변환(unitary transformation)에 대해 폰노이만 엔트로피(von Neumann entropy)가 불변함을 적용하면

Figure pat00053
Figure pat00054
이 성립한다. On the other hand, if von Neumann entropy is invariant for unitary transformation,
Figure pat00053
Figure pat00054
This holds true.

즉,

Figure pat00055
엔트로피는
Figure pat00056
이 성립한다. 여기서 Q'ΛQ' T 는 밀도 행렬 ρ가 회전만 하고 고유값 행렬 Λ는 변하지 않은 상태이다. 또한 Λ의 대각 성분, 즉 ρ의 고유값은
Figure pat00057
이며, 엔트로피가 낮다면 고유값은 급격하게 감소하게 된다. 즉,
Figure pat00058
으로 가정할 수 있으며, Λ의 처음 m 개의 고유값만으로 대각행렬
Figure pat00059
을 생성하면,
Figure pat00060
Figure pat00061
이 성립한다. 여기서
Figure pat00062
Figure pat00063
를 구성하는 2n 개의 고유 벡터 중 처음 m 개의 고유 벡터만으로 구성된 행렬이다. In other words,
Figure pat00055
Entropy is
Figure pat00056
This holds true. Here, Q'ΛQ' T is a state in which the density matrix ρ is rotated and the eigenvalue matrix Λ remains unchanged. Also, the diagonal component of Λ , that is, the eigenvalue of ρ, is
Figure pat00057
If the entropy is low, the eigenvalue decreases rapidly. In other words,
Figure pat00058
Can be assumed, and only the first m eigenvalues of Λ
Figure pat00059
If you create
Figure pat00060
Figure pat00061
This holds true. here
Figure pat00062
Is
Figure pat00063
It is a matrix consisting of only the first m eigenvectors of 2 n eigenvectors constituting.

만약 모든 샘플이 동일한 종류의 조직이라면 변환 행렬

Figure pat00064
의 특이값 행렬
Figure pat00065
에서 처음 m 개의 행에서 대각 성분은 1이며 나머지는 0으로 채워진다. 따라서
Figure pat00066
Figure pat00067
Figure pat00068
가 성립한다. 여기서 W는 행렬
Figure pat00069
에서 처음 m 개의 행을 추출하여 생성한 행렬이다.If all samples are of the same kind of tissue, then the transformation matrix
Figure pat00064
Singular value matrix of
Figure pat00065
In the first m rows in, the diagonal component is 1 and the remainder is padded with 0s. therefore
Figure pat00066
Figure pat00067
Figure pat00068
Is established. Where W is the matrix
Figure pat00069
It is a matrix created by extracting the first m rows from.

한편,

Figure pat00070
이므로 Q'Q를 구성하는 열 벡터
Figure pat00071
Figure pat00072
사이에는
Figure pat00073
가 성립한다. 여기서 Q'QU에 대해 회전한 행렬이므로 각 고유 벡터 간의 정규직교성(orthonormality)은 유지된다. 따라서
Figure pat00074
는 i=j일 때 1이고 i≠j일 때 0이며,
Figure pat00075
가 성립한다.
Figure pat00076
를 구성하는 2n 개의 특이벡터 중 처음 m 개의 특이벡터로 생성한 행렬
Figure pat00077
은 변환 행렬
Figure pat00078
의 가장 중요도가 높은 특이벡터로 구성되므로
Figure pat00079
가 성립한다. 여기서
Figure pat00080
은 행렬 W의 열벡터
Figure pat00081
와 같으므로
Figure pat00082
가 성립한다. 따라서 행렬 W는 직교정규행렬로 간주할 수 있다. Meanwhile,
Figure pat00070
Because columns that make up the Q 'and Q vector
Figure pat00071
Wow
Figure pat00072
In between
Figure pat00073
Is established. Here, Q'is a matrix in which Q is rotated about U , so the orthonormality between each eigenvector is maintained. therefore
Figure pat00074
Is 1 when i=j and 0 when i≠j,
Figure pat00075
Is established.
Figure pat00076
A matrix created with the first m singular vectors of 2 n singular vectors
Figure pat00077
Is the transformation matrix
Figure pat00078
Is composed of singular vectors with the highest importance of
Figure pat00079
Is established. here
Figure pat00080
Is the column vector of matrix W
Figure pat00081
Is the same as
Figure pat00082
Is established. Therefore, the matrix W can be regarded as an orthogonal normal matrix.

또한 Λ '의 대각성분(Λ의 처음 m 개의 고유값)의 합

Figure pat00083
는 1에 근접하게 된다. 즉
Figure pat00084
는 밀도 행렬 ρ가 2n 차원의 게놈 공간에서 m 차원의 샘플 공간으로 변환된 밀도행렬로 간주할 수 있다. 따라서
Figure pat00085
의 엔트로피의 근사값은 아래의 수학식 6과 같다.Also, the sum of the diagonal components of Λ ' (the first m eigenvalues of Λ )
Figure pat00083
Comes close to 1. In other words
Figure pat00084
Can be regarded as a density matrix in which the density matrix ρ is transformed from 2 n- dimensional genomic space to m-dimensional sample space. therefore
Figure pat00085
The approximate value of the entropy of is shown in Equation 6 below.

Figure pat00086
Figure pat00086

여기서

Figure pat00087
이며 이는
Figure pat00088
과 근사하게 된다. 이를 종합하면 아래의 수학식 7을 얻을 수 있다.here
Figure pat00087
Which is
Figure pat00088
And it becomes cool. By synthesizing this, Equation 7 below can be obtained.

Figure pat00089
Figure pat00089

수학식 7은 유전자 발현 측정으로 얻은 데이터로 계산한 엔트로피가 게놈의 전사 상태의 엔트로피와 거의 일치함을 의미한다.Equation 7 means that the entropy calculated from the data obtained by measuring gene expression is almost identical to the entropy of the transcriptional state of the genome.

수학식 4로부터 게놈 공간에서 전체 게놈에 대한 유전자 i의 확률은

Figure pat00090
이다. 그러나 게놈 시스템의 밀도 행렬 ρ와 유전자 i의 전사 상태를 직접 확인할 수 없고 단지 유전자 발현 데이터 G만을 알고 있을 뿐이다. 따라서 G로부터 확률을 계산할 수 있는 방법을 찾는 것은 중요한 과정이다. 먼저,
Figure pat00091
를 고유값분해하면
Figure pat00092
이 성립된다. 여기서
Figure pat00093
는 유전자 전사 상태 벡터
Figure pat00094
가 게놈의 밀도 행렬의 고유 벡터를 기저 벡터로 하는 좌표계로 변환된 벡터로서
Figure pat00095
로 치환할 수 있다. 따라서
Figure pat00096
Figure pat00097
Figure pat00098
가 성립한다. From Equation 4, the probability of gene i for the whole genome in genomic space is
Figure pat00090
to be. However, the density matrix ρ of the genomic system and the transcriptional status of gene i cannot be determined directly, only gene expression data G is known. Therefore, finding a way to calculate the probability from G is an important process. first,
Figure pat00091
Eigenvalue decomposition of
Figure pat00092
Is established. here
Figure pat00093
A gene transcription state vector
Figure pat00094
As a vector transformed into a coordinate system using the eigenvector of the density matrix of the genome as the basis vector,
Figure pat00095
Can be substituted with therefore
Figure pat00096
Figure pat00097
Figure pat00098
Is established.

한편, 샘플 공간에서 유전자의 순수 상태(pure state)

Figure pat00099
는 아래의 수학식 8과 같다. Meanwhile, the pure state of the gene in the sample space
Figure pat00099
Is as shown in Equation 8 below.

Figure pat00100
Figure pat00100

샘플 공간에서

Figure pat00101
에 대한 각 유전자의 확률은
Figure pat00102
로서, 수학식 5로부터
Figure pat00103
가 성립한다. 여기서
Figure pat00104
를 고유값분해
Figure pat00105
하고 변환 행렬
Figure pat00106
을 SVD로 분해(
Figure pat00107
)하여 적용하면
Figure pat00108
가 성립한다. 여기서 변환 행렬
Figure pat00109
의 특이벡터는 직교정규하므로
Figure pat00110
이고,
Figure pat00111
Figure pat00112
임을 적용하면
Figure pat00113
이 성립한다. 또한
Figure pat00114
Figure pat00115
가 변환 행렬
Figure pat00116
의 특이벡터
Figure pat00117
를 기저 벡터로 하는 좌표계로의 변환과
Figure pat00118
에 의한 차원 축소를 거친 벡터로서,
Figure pat00119
로 치환할 수 있다. 따라서 샘플 공간에서
Figure pat00120
에 대한 각 유전자의 확률은 아래의 수학식 9와 같다.In sample space
Figure pat00101
The probability of each gene for is
Figure pat00102
As, from Equation 5
Figure pat00103
Is established. here
Figure pat00104
Eigenvalue decomposition
Figure pat00105
And transformation matrix
Figure pat00106
To SVD (
Figure pat00107
) And apply
Figure pat00108
Is established. Where the transformation matrix
Figure pat00109
Since the singular vector of is orthogonal
Figure pat00110
ego,
Figure pat00111
Figure pat00112
If you apply
Figure pat00113
This holds true. In addition
Figure pat00114
Is
Figure pat00115
Transformation matrix
Figure pat00116
Singular vector of
Figure pat00117
Into a coordinate system using the basis vector
Figure pat00118
As a vector that has undergone dimension reduction by
Figure pat00119
Can be substituted with So in the sample space
Figure pat00120
The probability of each gene for is as shown in Equation 9 below.

Figure pat00121
Figure pat00121

여기서

Figure pat00122
이며 이는
Figure pat00123
과 근사하게 된다. 이를 종합하면 아래의 수학식 10을 얻을 수 있다. here
Figure pat00122
Which is
Figure pat00123
And it becomes cool. By synthesizing this, Equation 10 below can be obtained.

Figure pat00124
Figure pat00124

수학식 10은 유전자 발현 측정으로 얻은 데이터로 계산한 유전자의 확률이 게놈의 밀도 행렬과 유전자의 전사 상태로 계산한 확률과 거의 일치함을 의미한다.Equation 10 means that the probability of the gene calculated from the data obtained by measuring gene expression is almost identical to the probability calculated from the density matrix of the genome and the transcriptional state of the gene.

측정된 발현 레벨

Figure pat00125
로부터 직접적으로 게놈 또는 유전자의 상태를 판단하려면
Figure pat00126
이 필요하다. Measured expression level
Figure pat00125
To determine the state of a genome or gene directly from
Figure pat00126
I need this.

한편, 유전자 발현 측정 과정에는 시간 또는 샘플 공간에서 샘플의 선택, 측정 방법, 데이터 처리 등이 영향을 준다. 따라서, 변환 행렬

Figure pat00127
은 많은 요인에 영향을 받을 수 있으며, 동일 조건이라 하더라도 각 유전자가 받는 영향은 모두 다르다. 결과적으로
Figure pat00128
는 실험 조건 내지 환경에 영향을 받는다. 이는 유전자 발현 데이터가 원칙적으로 일관성이 없음을 설명한다. 이러한 데이터의 취약성을 통계적 또는 실험적인 방법으로 극복하는 데에는 큰 한계가 있다.On the other hand, the selection of samples in time or sample space, measurement methods, and data processing affect the process of measuring gene expression. Thus, the transformation matrix
Figure pat00127
Can be affected by many factors, and even under the same conditions, the effects of each gene are all different. As a result
Figure pat00128
Is affected by experimental conditions or environment. This explains that gene expression data are in principle inconsistent. There is a great limitation in overcoming the vulnerability of these data by statistical or experimental methods.

전술한 수학식 4, 수학식 8 및 수학식 10은 결국 다음과 같은 사실을 의미한다. 밀도 행렬

Figure pat00129
로 표현되는 게놈 모듈에 대한 유전자 i의 확률은 게놈 공간에서의 확률
Figure pat00130
과 샘플 공간의 확률
Figure pat00131
이 일치한다. 나아가, 게놈 공간의 엔트로피
Figure pat00132
는 샘플 공간의 엔트로피
Figure pat00133
와 동일하게 된다. 이는 전술한 확률과 엔트로피가 유전자 발현 레벨의 차이에 따른 측정 환경에 영향을 받지 않는 파라미터에 해당한다는 것을 증명한다. 진핵생물의 게놈을 측정하기 위한 완벽한 변환 행렬
Figure pat00134
을 얻는 것은 불가능하지만, 엔트로피 및 확률은 측정 과정을 고려하지 않고 얻을 수 있는 것이다.The above-described Equations 4, 8, and 10 mean the following fact. Density matrix
Figure pat00129
The probability of gene i for a genomic module expressed as is the probability in genomic space
Figure pat00130
And the probability of sample space
Figure pat00131
Matches this. Furthermore, the entropy of genomic space
Figure pat00132
Is the entropy of the sample space
Figure pat00133
Will be the same as This proves that the above-described probability and entropy correspond to parameters that are not affected by the measurement environment according to the difference in gene expression level. Complete transformation matrix for measuring eukaryotic genomes
Figure pat00134
It is impossible to obtain, but entropy and probability can be obtained without considering the measurement process.

도 5는 게놈 공간의 유전자 발현을 샘플 공간에서 측정하는 예이다. 기초 벡터

Figure pat00135
로 구성되는 기반의 2n 차원 게놈 공간에서 게놈 모듈의 밀도 행렬 ρ 및 유전자 전사 상태 벡터
Figure pat00136
가 기초 벡터
Figure pat00137
로 구성되는 m 차원의 샘플 공간에서 각각
Figure pat00138
및 유전자 발현 벡터
Figure pat00139
로 변환되는 예이다. 여기서
Figure pat00140
이므로 모듈에 대한 유전자의 확률은 유전자 발현의 측정에 따른 게놈 공간에서 샘플 공간으로의 변환에 영향을 받지 않는다.5 is an example of measuring gene expression in a genome space in a sample space. Foundation vector
Figure pat00135
Density matrix ρ of genome modules in a base 2 n- dimensional genomic space consisting of and gene transcription state vectors
Figure pat00136
Fall basis vector
Figure pat00137
Each in the m-dimensional sample space consisting of
Figure pat00138
And gene expression vectors
Figure pat00139
This is an example that is converted to. here
Figure pat00140
Therefore, the probability of a gene for a module is not affected by the transformation from genomic space to sample space according to the measurement of gene expression.

샘플 공간에서 모든 유전자의 벡터가 동일한 방향을 갖는다면 엔트로피는 0(zero)이다. 이는 타원형의 밀도 행렬이 첫 번째 고유 벡터와 일치하는 직선이 된다는 의미이다. 유전자의 확률이 모든 고유 벡터에 동일하여 밀도 행렬이 완벽한 원(또는 구)이 되면 엔트로피는 최대값을 갖는다.If the vectors of all genes in the sample space have the same orientation, the entropy is zero. This means that the elliptical density matrix is a straight line that matches the first eigenvector. If the probability of a gene is the same for all eigenvectors and the density matrix becomes a perfect circle (or sphere), then the entropy has a maximum value.

이하 실제 유전자 발현 데이터를 이용하여 전술한 게놈 모듈 네트워크를 구축하는 예를 설명하고자 한다. 종양(tumor)은 거대한 호스트 시스템에 존재하는 작은 독립 시스템이라고 할 수 있다. 따라서 종양에 대한 유전 정보를 이용하여 게놈 모듈 네트워크를 구축하고자 한다.Hereinafter, an example of constructing the above-described genome module network using actual gene expression data will be described. A tumor is a small, independent system that resides in a large host system. Therefore, we intend to build a genome module network using genetic information about tumors.

유전자 발현 데이터 세트는 유방암(BRCA), 결장암(COAD), 직장암(READ), 폐선암(LUAD), 폐편평세포암(LUSC), 난소암(OV) 등 6종의 종양 조직, 정상유방조직(BRNO), 정상결장조직(CONO) 등 2종의 정상 조직의 데이터와, 6종 종양 조직 데이터의 임의 혼합(X6CA), 2종 정상 조직 데이터의 임의 혼합(X2NO) 및 6종 종양 조직과 2종 정상 조직 데이터의 임의 혼합(X6C2N) 데이터를 사용하였다. BRCA 등은 해당 조직으로부터 유전자 발현량의 측정을 TCGA(The Cancer Genome Atlas)에서 수행하여 학술적 연구를 위해 일반에 공개한 데이터 세트를 의미한다. 연산 시간을 줄이기 위하여 36개의 샘플보다 많은 데이터 세트를 갖는 BRCA, COAD, LUSC 및 OV에서는 각각 36개의 샘플을 임의로 선택하였다. 데이터 세트를 이용하여 게놈 모듈을 추출(isolation)하였다.Gene expression data sets include 6 types of tumor tissues, including breast cancer (BRCA), colon cancer (COAD), rectal cancer (READ), lung adenocarcinoma (LUAD), lung squamous cell cancer (LUSC), and ovarian cancer (OV), and normal breast tissue ( BRNO), normal colon tissue (CONO), data of 2 types of normal tissue, random mixture of 6 types of tumor tissue data (X6CA), random mix of 2 types of normal tissue data (X2NO), and 6 types of tumor tissue and 2 types Random mix of normal tissue data (X6C2N) data was used. BRCA and the like refer to a data set that is open to the public for academic research by measuring the amount of gene expression from the corresponding tissue in TCGA (The Cancer Genome Atlas). In order to reduce the computation time, each of 36 samples was randomly selected for BRCA, COAD, LUSC, and OV having more data sets than 36 samples. The genomic module was isolated using the data set.

유전자 발현 데이터 세트를 기준으로 게놈 모듈을 구축하는 과정을 설명한다. 전술한 내용 중 모듈화에 필요한 내용을 간략하게 설명한다. 완전히 독립된(연결성이 전혀 없는) n 개 모듈에서 각각의 밀도 행렬을 ρ1,…ρn라고 한다. 각각의 공간은 힐버트 공간이므로 전체의 밀도 행렬은

Figure pat00141
와 같다. 따라서 전체 엔트로피는 각 모듈의 엔트로피의 합과 같게 된다. 즉
Figure pat00142
Figure pat00143
이다.The process of constructing the genome module based on the gene expression data set is described. Among the above, the contents necessary for modularization will be briefly described. In n modules that are completely independent (with no connectivity), each density matrix is ρ 1 ,... It is called ρ n . Each space is a Hilbert space, so the overall density matrix is
Figure pat00141
Same as Therefore, the total entropy is equal to the sum of the entropy of each module. In other words
Figure pat00142
Figure pat00143
to be.

다만, n개 모듈이 서로 독립적이지 않다면(모듈 간 연결성이 존재한다면) 전체의 엔트로피는 각 모듈 엔트로피의 합보다 작게 된다. 즉

Figure pat00144
이다. However, if n modules are not independent from each other (if there is connectivity between modules), the total entropy is smaller than the sum of the entropy of each module. In other words
Figure pat00144
to be.

어느 하나의 모듈은 다른 모듈에 영향을 주고, 모듈 간 일정한 정보를 교환하기도 한다. 하나의 모듈은 유전자들을 포함하고, 서로 다른 모듈들은 동일한 유전자를 공유할 수도 있다. 따라서 게놈 모듈 네트워크에서 각 모듈은 완벽하게 독립적으로 작용하기 어렵다. 이 경우 모듈 분리의 기준은 각 모듈 엔트로피의 합과 전체 엔트로피 간의 차이를 최소화하는 모듈을 찾는 것이 될 수 있다.One module affects other modules and exchanges certain information between modules. One module contains genes, and different modules may share the same gene. Therefore, it is difficult for each module to function completely independently in the genome module network. In this case, the criterion for module separation may be to find a module that minimizes the difference between the sum of the entropy of each module and the total entropy.

그러나 분석장치는 게놈에서 활성화되는 모듈의 실제 개수를 알지 못할 뿐만 아니라, 참여하는 유전자의 범위와 여러 모듈에 동시에 참여하는 유전자에 관한 정보도 없다. 따라서 위 방법으로 모듈의 조합을 찾는 것은 현실적으로 불가능하다. 이에 대한 해결책으로서 분석장치가 실제 존재하는 진성모듈(true module)의 국소 최적점(local optimal point)들을 파악하고 그것들을 중심으로 모듈을 구성하여 추정 모듈을 완성할 수 있다. 이 과정에서 분석장치는 다른 국소 최적점으로 전이를 방지하여 진성모듈에 근접하는 추정모듈들을 생성한다. 서로 상당부분 중첩되는 추정모듈들의 외곽 한계는 큰 범주에서 표현형을 표출하는 진성모듈의 연결집단인 도메인과 일치한다. 큰 범주의 표현형을 조절하는 도메인은 다른 도메인과 정보 교환 채널의 수가 적을 수밖에 없기 때문이다(max-flow min-cut).However, the analysis device not only does not know the actual number of modules that are activated in the genome, but also does not have information on the range of genes participating and genes participating in multiple modules simultaneously. Therefore, it is practically impossible to find a combination of modules using the above method. As a solution to this, the analysis device can grasp the local optimal points of the true module that actually exists and configure the module around them to complete the estimation module. In this process, the analysis device creates estimation modules that are close to the intrinsic module by preventing the transition to another local optimal point. The outer limits of the estimation modules, which are substantially overlapped with each other, coincide with the domain, the linking group of intrinsic modules that express phenotypes in a large category. This is because domains that control a large range of phenotypes are bound to have a small number of information exchange channels with other domains (max-flow min-cut).

아래 표 1은 게놈 모듈을 위한 국소 최적점을 찾기 위한 알고리즘에 대한 슈도코드(pseudo code)에 대한 예이다. 유전자를 임의의 집합으로 나누고, 나누어진 각 집합(모듈)에 대하여 유전자를 하나씩 제거해 나가며 엔트로피를 목표치까지 낮춤으로써 국소 최적점을 찾는다. 실제 모듈의 내부에 존재하는 국소 최적점을 찾아야 하므로 엔트로피 목표치는 충분히 낮게 설정한다. 표 1에서 "th"가 목표치인 임계값에 해당한다. 표 1에서 역슬래쉬 '\' 연산은 좌측 집합에서 우측 요소를 제거하는 연산을 의미한다.Table 1 below is an example of a pseudo code for an algorithm for finding a local optimal point for a genomic module. Genes are divided into random sets, and genes are removed one by one for each divided set (module), and the local optimal point is found by lowering the entropy to the target value. Since it is necessary to find a local optimal point that exists inside the actual module, the entropy target value is set sufficiently low. In Table 1, "th" corresponds to the target value. In Table 1, the backslash'\' operation means an operation that removes the right element from the left set.

Figure pat00145
Figure pat00145

상기 표 1의 과정을 통해 찾은 국소 최적점을 이용하여 최종적으로 게놈 모듈을 결정한다. 아래 표 2는 게놈 모듈을 완성하는 과정에 대한 알고리즘에 대한 예이다.The genomic module is finally determined by using the local optimal point found through the process of Table 1. Table 2 below is an example of an algorithm for the process of completing the genome module.

Figure pat00146
Figure pat00146

상기 표 2는 엔트로피를 증가시키지 않는 조건으로 외부 유전자 j를 하나씩 추가하여 모듈을 확대한다. 모듈 확대 과정에서 모듈의 중심이 이동하는 것을 방지하기 위하여 주고유벡터 v1 방향의 변동을 제한한다. 표 2에서 "th"는 주고유벡터의 변동 각도에 대한 임계값을 의미한다.Table 2 shows the expansion of the module by adding an external gene j one by one under conditions that do not increase entropy. In order to prevent the center of the module from moving during the module expansion process, the fluctuation in the direction of the feedback vector v 1 is limited. In Table 2, "th" means a threshold value for the angle of variation of the reference vector.

이때 표 1에서의 엔트로피의 목표치와 표 2에서의 주고유벡터의 변동 각도 등의 최적 파라미터는 유전자 발현데이터의 특성에 따라 달라지므로 다양한 파라미터로 얻은 결과로부터 각각 게놈 모듈 네트워크 구축 및 도메인을 파악하여 일관된 결과가 나오는 것으로 최적 파라미터를 결정하는 과정이 필요할 수 있다.At this time, since the optimal parameters such as the target value of entropy in Table 1 and the angle of fluctuation of the backing vector in Table 2 vary depending on the characteristics of the gene expression data, a consistent genomic module network construction and domain are identified from the results obtained with various parameters. The result is that it may be necessary to determine the optimal parameters.

일반적으로 낮은 엔트로피는 밀도 행렬의 제1 고유 벡터로 대표되는 특정 목표에 집중하는 시스템을 의미한다. 진핵 세포의 게놈 시스템에서 엔트로피가 낮은 게놈 모듈은 특정한 표현형을 발현하기 위한 정보를 생성한다고 할 수 있다. In general, low entropy refers to a system focusing on a specific target represented by the first eigenvector of the density matrix. It can be said that genomic modules with low entropy in the genomic system of eukaryotic cells generate information for expressing a specific phenotype.

게놈 모듈을 구성하는 유전자들 중 일부는 서로 다른 모듈에 중복된다. 이는 게놈 모듈을 구성할 때 첫 번째 고유 벡터 변화가 일정한 임계값 이하로 낮도록 조건을 설정했기 때문이다.Some of the genes that make up the genomic module are duplicated in different modules. This is because, when constructing the genome module, the conditions were set so that the first eigenvector change was low below a certain threshold.

분석장치가 입력되는 유전자 발현 데이터 세트를 기준으로 표 1 및 표 2에서 설명한 동작을 수행하면, 게놈 모듈들이 구성된다.When the analysis device performs the operations described in Tables 1 and 2 based on the input gene expression data set, genome modules are configured.

게놈 모듈 내부의 유전자 네트워크를 구축하는 과정을 먼저 설명하고, 이후 게놈 모듈 간 에지를 연결하여 모듈 간 네트워크를 구축하는 과정을 설명한다.The process of constructing the gene network inside the genome module will be described first, and then the process of constructing the network between the modules by connecting the edges between the genome modules will be described.

유전자 네트워크(Genetic network) 구축Genetic network construction

전술한 바와 같이 게놈 모듈은 복수의 유전자로 구성된다. 하나의 모듈에 존재하는 유전자들은 정보를 교환하는 네트워크를 구성한다. 이를 유전자 네트워크라고 명명하였다. As described above, the genome module is composed of a plurality of genes. Genes in one module form a network that exchanges information. This was called a genetic network.

게놈 모듈은 진핵생물 게놈에서 프로그램 단위를 나타낸다. 전술한 바와 같이 생물에 대한 전체 프로그램에서 모듈이 특정한 단위를 구성하는 것이다. 여기서 프로그램은 생물이라는 시스템을 구동하기 위해 필요한 프로세스를 의미한다. 게놈 모듈에 존재하는 유전자 네트워크는 특정 관점에서 유전자들을 연결하는 요소이다. The genomic module represents a unit of program in the eukaryotic genome. As described above, modules constitute a specific unit in the entire program for living things. Here, the program refers to the process necessary to run the system of living things. Gene networks in the genomic module are elements that connect genes from a specific point of view.

도 6은 샘플 공간에서 임의의 모듈에 대한 밀도 행렬을 도시한 예이다. 도 6은 임의의 모듈의 밀도 행렬

Figure pat00147
및 모듈에 포함된 임의의 유전자 j의 발현 벡터
Figure pat00148
를 도시한다. 굵은 실선은 임의의 모듈의 밀도 행렬을 나타낸다. 일반(얇은) 실선은 밀도 행렬에 대한 단위 벡터의 확률 궤적을 나타낸다. 점선은 유전자 i의 배제에 따른 섭동(perturbation)을 나타낸다. 섭동은 역학계에서 주요한 힘의 작용에 의한 운동이 부차적인 힘의 영향으로 인하여 교란되어 일어나는 운동을 의미한다.
Figure pat00149
는 유전자 j의 정규화된 발현 벡터이므로, 밀도 행렬에 대한 확률은 대응하는 궤적 상에 있다.6 is an example of a density matrix for an arbitrary module in a sample space. 6 is a density matrix of an arbitrary module
Figure pat00147
And an expression vector of any gene j included in the module
Figure pat00148
Shows. The thick solid line represents the density matrix of any module. The regular (thin) solid line represents the probability trajectory of the unit vector for the density matrix. The dotted line represents the perturbation following the exclusion of gene i. Perturbation refers to a motion that occurs when a motion caused by the action of a major force in a dynamic system is disturbed by the influence of a secondary force.
Figure pat00149
Is the normalized expression vector of gene j, so the probability for the density matrix is on the corresponding trajectory.

임의의 모듈이 유전자 i의 배제에 의해 섭동된다. 섭동된 모듈의 밀도 행렬을

Figure pat00150
라고 한다. 유전자 i가 배제되어 모듈이 섭동되면 밀도 행렬은 샘플 공간에서 약간 회전하고, 타원형 모양이 약간 좁아지거나 넓어진다. 밀도 행렬에 있는 다른 유전자 j의 확률은 Pj에서 Pj \i로 변동된다. 유전자 j가 유전자 i에 강하게 연결된 상태라면, 섭동에 의하여 유전자 j의 확률은 크게 감소하게 된다.Any module is perturbed by the exclusion of gene i. The density matrix of the perturbed modules
Figure pat00150
It is called. When gene i is excluded and the module is perturbed, the density matrix rotates slightly in the sample space, and the elliptical shape slightly narrows or widens. Probability of another gene j in the density matrix is variation in P j P j to \i. If gene j is strongly linked to gene i, the probability of gene j is greatly reduced by perturbation.

도 7은 임의의 모듈의 유전자 네트워크에서 유전자 i의 배제에 의한 모듈 섭동을 도시한 예이다. 도 7(A)의 A는 임의의 모듈에서 유전자 i를 배제하기 전의 유전자 네트워크를 도시한다. 도 7(B)의 B는 유전자 i를 배제한 후의 유전자 네트워크를 도시한다. 유전자 i를 모듈로부터 제거하였을 때, 유전자 i에만 연결된 유전자 j는 모듈에서 고립된다. 따라서 유전자 i가 제거된 모듈에서 유전자 j의 확률의 감소폭은 커진다. 반면에 유전자 i에 직접 연결되어 있지 않거나, 연결되어 있다 할지라도 다른 유전자와도 연결되어 있는 경우 유전자 j의 확률의 감소폭은 작아진다. 따라서 유전자 i의 제거 전 유전자 j의 확률과 제거 후의 확률 사이의 LOR로 유전자 i로부터 유전자 j로의 연결을 추정할 수 있다.7 is an example showing module perturbation due to the exclusion of gene i in the gene network of any module. Figure 7(A) A shows the genetic network before excluding gene i from any module. B in Fig. 7(B) shows the gene network after excluding gene i. When gene i is removed from the module, gene j linked only to gene i is isolated from the module. Therefore, in the module in which gene i is removed, the decrease in the probability of gene j becomes large. On the other hand, if it is not directly linked to gene i, or even if it is linked to another gene, the decrease in the probability of gene j is small. Therefore, the LOR between the probability of gene j before removal of gene i and the probability after removal of gene i can be used to estimate the link from gene i to gene j.

확률의 승산비(odds ratio)는 두 유전자 사이의 영향을 정량적으로 표현할 수 있다. 확률의 LOR(log odds ratio)은 정보 콘텐츠의 차이와 동일하다. 아래 수학식 11은 모듈에서 유전자 i가 배제되는 경우 동일 모듈에 속한 유전자 j의 확률 변동 정도(

Figure pat00151
)를 나타낸다.The odds ratio of probability can quantitatively express the effect between two genes. The log odds ratio (LOR) of the probability is equal to the difference between information contents. Equation 11 below shows the degree of probability variation of the gene j belonging to the same module when gene i is excluded from the module (
Figure pat00151
).

Figure pat00152
Figure pat00152

게놈 모듈에 있는 가능한 모든 유전자 쌍에 대하여 상기

Figure pat00153
를 연산한다. 임의의 두 유전자(i와 j)에 대한
Figure pat00154
가 일정한 임계값을 넘는 경우 유전자 i와 유전자 j는 강한 연결성을 갖는다고 판단한다. 강한 연결성을 갖는 유전자 사이는 에지로 연결한다. 이와 같이 게놈 모듈 내에 존재하는 모든 유전자 사이에서 전술한
Figure pat00155
를 연산하여 유전자 네트워크를 구성할 수 있다. 예컨대, 도 6은 8개의 조직에 대한 커널 모듈을 도시하는데, 각 모듈에 대한 유전자 네트워크는 전술한 방법을 통해 완성한 것이다.Recall for all possible gene pairs in the genomic module
Figure pat00153
Computes For any two genes (i and j)
Figure pat00154
When is over a certain threshold, it is judged that gene i and gene j have a strong connection. Genes with strong connectivity are connected by edges. As described above, among all genes present in the genome module
Figure pat00155
The gene network can be constructed by calculating. For example, FIG. 6 shows kernel modules for eight tissues, and the gene network for each module is completed through the above-described method.

아래 표 3은 모듈 내에서 유전자 네트워크를 구성하는 과정에 대한 슈도코드이다. 간략하게 설명하면 전술한 바와 같이 임의의 모듈에 속한 유전자 쌍에 대하여 LOR을 연산하고, 이를 바탕으로 인접행렬(adjacency matrix)을 생성한다. 유전자 i와 다른 모든 유전자들 사이의 LOR을 인접행렬로부터 추출하여 사분위수(quartile)를 계산하고 cutoff 값을 이용하여 유전자 i의 내부 임계값 thi을 계산한다. 각 유전자에 대하여 내부 임계값 이상의 LOR을 갖는 유전자 쌍에 에지를 부여하는 과정을 반복한다.Table 3 below is a pseudocode for the process of constructing a gene network within a module. Briefly, as described above, LOR is calculated for a pair of genes belonging to an arbitrary module, and an adjacency matrix is generated based on this. The LOR between gene i and all other genes is extracted from the adjacent matrix to calculate the quartile, and the internal threshold th i of gene i is calculated using the cutoff value. For each gene, the process of giving an edge to a pair of genes having an LOR greater than or equal to the internal threshold value is repeated.

Figure pat00156
Figure pat00156

모듈 간 네트워크(intermodular network)Intermodular network

유전자 네트워크가 유전자에 의해 동작하는 프로그램이라면, 유기체의 프로그램 구조는 모듈 간 네트워크로 나타낼 수 있다. 전술한 바와 같이 게놈 모듈 네트워크에서 모듈 간 에지가 존재한다. 여기서 에지는 모듈이 서로 일정한 연관성 내지 연결성이 있다는 의미이다. 에지는 모듈이 일정한 정보를 전달하거나 교환하는 채널이라고 볼 수도 있다.If the genetic network is a program driven by genes, the program structure of an organism can be represented as a network between modules. As described above, there is an edge between modules in the genomic module network. Here, the edge means that the modules have a certain relationship or connection. Edge can also be viewed as a channel through which a module transfers or exchanges certain information.

모듈 간 네트워크를 구성하는 과정에 대하여 설명한다. 유전자 데이터 세트에서 추출한 가능한 모든 모듈 쌍에 대하여 상대 엔트로피(relative entropy)를 측정한다. 모듈 i 및 모듈 j를 기준으로 설명한다. 상대 엔트로피는 모듈 i가 모듈 j에 대하여 갖는 정보 이득을 의미한다. 상대 엔트로피는

Figure pat00157
로 표현될 수 있다. 여기서
Figure pat00158
Figure pat00159
는 각각 모듈 i와 모듈 j에 대한 밀도 행렬을 나타낸다. 상대 엔트로피는 항상 음수가 아니고 비가환적이다. 즉,
Figure pat00160
이다. 상대 엔트로피는 모듈 간 네트워크를 구성하기 위한 정보로 사용된다. 두 개의 밀도 행렬이 동일하다면 상대 엔트로피는 0(zero)이다. 두 개의 밀도 행렬의 차이가 크면 상대 엔트로피 값도 커진다. The process of configuring a network between modules will be described. Relative entropy is measured for all possible pairs of modules extracted from the genetic data set. The description is based on module i and module j. Relative entropy refers to the information gain that module i has for module j. The relative entropy is
Figure pat00157
It can be expressed as here
Figure pat00158
And
Figure pat00159
Denotes the density matrices for module i and module j, respectively. Relative entropy is always non-negative and irreversible. In other words,
Figure pat00160
to be. Relative entropy is used as information for configuring a network between modules. If the two density matrices are identical, the relative entropy is zero. If the difference between the two density matrices is large, the relative entropy value also increases.

한편, 상대 엔트로피는 서로 다른 조직에서 분리한 모듈 간 유사성을 파악하는 과정에도 사용된다. 서로 다른 조직에서 분리된 모듈은 샘플 공간이 전혀 다르기 때문에 직접적인 비교가 불가능하다. 한 조직의 모듈을 다른 조직으로 맵핑하여 계산한 상대 엔트로피는 동일 샘플 공간에서 밀도 행렬의 차이를 나타낸다.On the other hand, relative entropy is also used in the process of grasping the similarity between modules separated from different organizations. Separated modules from different tissues cannot be directly compared because the sample space is completely different. The relative entropy calculated by mapping a module of one tissue to another tissue represents the difference in density matrix in the same sample space.

모듈 i가 모듈 j에 대하여 정보 이득이 낮다면 모듈 i와 모듈 j는 서로 연관성이 높다고 할 수 있다. 이 경우 모듈 i와 모듈 j 사이에 에지를 연결하여 네트워크를 구축한다. If module i has a low information gain with respect to module j, it can be said that module i and module j have a high correlation. In this case, a network is established by connecting the edge between module i and module j.

낮은 레벨에서 상대 엔트로피의 해상도를 높이기 위하여, 상대 엔트로피에 음의 로그(log)를 적용할 수 있다. 로그를 적용한 상대 엔트로피는

Figure pat00161
이다. 여기서,
Figure pat00162
이다.
Figure pat00163
> 0이고, i≠ j이다. 아래 표 4는 모듈 간 네트워크를 구축하기 위한 알고리즘에 대한 슈도코드의 예이다.In order to increase the resolution of the relative entropy at a low level, a negative log can be applied to the relative entropy. The relative entropy to which the logarithm is applied is
Figure pat00161
to be. here,
Figure pat00162
to be.
Figure pat00163
> 0 and i≠ j. Table 4 below is an example of pseudocode for an algorithm for building a network between modules.

Figure pat00164
Figure pat00164

주어진 모듈 i에 대하여 다른 상대 모듈 j와의 연관성을 결정하기 위하여 일정한 임계값을 사용한다. 모듈 i와 모듈 j 사이의

Figure pat00165
가 임계값을 초과하지 않는 경우 모듈 i와 모듈 j 사이에 에지를 연결한다. 컷오프(cutoff, Cf)와 관련하여 모듈 간 에지를 결정하기 위한 적절한 임계값을 찾아야 한다. 예컨대, 상기 표 4와 같이
Figure pat00166
의 제1 사분위수(Q1), 제2 사분위수(Q2) 및 제3 사분위수(Q3)를 사용할 수 있다.For a given module i, a certain threshold is used to determine the association with another counterpart module j. Between module i and module j
Figure pat00165
Connect the edge between module i and module j if is not exceeding the threshold. In relation to the cutoff (C f ), we need to find an appropriate threshold to determine the inter-module edge. For example, as in Table 4 above
Figure pat00166
The first quartile (Q1), the second quartile (Q2), and the third quartile (Q3) of can be used.

게놈 모듈 간의 정보 교환 패턴은 모듈 간 네트워크로 표현할 수 있다. 모듈 사이의 연결성을 확인하기 위하여 샘플 공간에서 게놈 모듈 사이의 상대 엔트로피를 측정한다.The pattern of information exchange between genomic modules can be expressed as a network between modules. The relative entropy between genomic modules in the sample space is measured to confirm the connectivity between modules.

가능한 모든 게놈 모듈의 쌍으로부터 상대 엔트로피를 측정하고 컷오프를 이용하여 계산된 임계값을 넘지 않는 상대 엔트로피 값으로 구성된 인접 행렬이 마련될 수 있다. 인접 행렬을 이용하여 모듈 간 네트워크를 구성할 수 있다. 컷오프를 감소시킴에 따라 계산한 인접 행렬로부터 모듈 간 네트워크를 구성할 때, 모듈 연결 순서는 조직 유형에 따른다.An adjacency matrix composed of relative entropy values not exceeding a threshold calculated using cutoffs and measuring relative entropy from all possible pairs of genomic modules can be prepared. An adjacency matrix can be used to form a network between modules. When constructing a network between modules from an adjacency matrix calculated by reducing the cutoff, the order of module connection depends on the organization type.

초기에 연결되는 모듈은 모듈 간 네트워크를 구성하는 각 영역에서 시드(seed)를 구성한다고 할 수 있다. 도 8은 8개의 조직에 대한 TCGA 데이터 세트로 모듈 간 네트워크를 구성한 예이다. 검은색 화살표는 커널 도메인의 시드를 나타내고, 흰색 화살표는 세포 주기 및 DNA 수선(CCDR) 도메인의 시드를 나타낸다. 모듈의 엔트로피는 그레이 스케일(gray scale)로 표현했다. 밝은 색일수록 낮은 엔트로피를 의미한다. 도 8에서 각 노드는 하나의 모듈을 나타내고, 각 모듈은 노드의 숫자로 식별한다.It can be said that the modules that are initially connected constitute a seed in each area that constitutes a network between modules. 8 is an example of configuring a module-to-module network with TCGA data sets for eight organizations. Black arrows indicate seeds of kernel domains, white arrows indicate seeds of cell cycle and DNA repair (CCDR) domains. The entropy of the module was expressed in gray scale. The brighter the color, the lower the entropy. In FIG. 8, each node represents one module, and each module is identified by the number of nodes.

BRNO 및 CONO 데이터 세트의 경우 커널 도메인의 시드가 컷오프(Cf) 4.0에 표시되었다. BRCA의 커널 도메인의 첫 번째 에지(edge)는 Cf가 2.2일 때까지 나타나지 않았다. LUAD, COAD 및 READ 데이터 세트의 모듈 간 네트워크는 각각 Cf 3.0, 2.8 및 3.0에서 커널 도메인의 첫 번째 에지가 나타났다. LUSC 및 OV는 Cf 1.9에서 커널 도메인의 첫 번째 에지가 나타났다. 이러한 결과는 커널 도메인과 관련하여 종양의 모듈 간 네트워크가 정상 조직과 다를 수 있음을 시사한다.For the BRNO and CONO data sets, the seeds of the kernel domain were indicated at cutoff (C f ) 4.0. The first edge of the BRCA kernel domain did not appear until C f was 2.2. The inter-module networks of the LUAD, COAD, and READ data sets showed the first edge of the kernel domain at C f 3.0, 2.8 and 3.0, respectively. For LUSC and OV, the first edge of the kernel domain appeared at C f 1.9. These results suggest that the network between modules of the tumor may differ from that of normal tissues with respect to the kernel domain.

TCGA 데이터 세트에 대해 실험적으로 Cf를 변경하면서 모듈 간 네트워크를 재구성하였다. 전체 에지의 수와 모듈당 에지의 수는 정상 조직이 종양 조직보다 많았다. 이는 종양의 게놈 시스템이 정상 조직보다 단순하다는 것을 암시한다.For the TCGA data set, the inter-module network was reconstructed by experimentally changing C f . The total number of edges and the number of edges per module were larger in normal tissue than in tumor tissue. This suggests that the tumor's genomic system is simpler than that of normal tissue.

도 9는 다양한 컷오프값을 적용한 BRNO의 모듈 간 네트워크에 대한 예이다. 도 9에서 kn은 커널 도메인이고, cc는 CCDR 도메인이고, pr은 실질(parenchyma) 도메인이고, st는 간질(stroma) 도메인이다. 도 9에서 각 노드는 그레이 스케일 값을 갖는다. 색이 밝을 수록 낮은 엔트로피를 의미한다. 컷오프 Cf를 낮추면 에지를 갖는 모듈의 개수가 증가하며 네트워크의 단절이 감소한다. Cf가 1.0에 도달하기 전 도메인 사이에 완벽한 연결을 보여준다. Cf 4.0에서 이미 모든 도메인(kn, cc, pr 및 st)의 시드가 식별 가능하다. 9 is an example of a network between modules of BRNO to which various cutoff values are applied. In FIG. 9, kn is a kernel domain, cc is a CCDR domain, pr is a parenchyma domain, and st is a stroma domain. In FIG. 9, each node has a gray scale value. The brighter the color, the lower the entropy. Lowering the cutoff C f increases the number of modules with edges and reduces network disconnection. It shows a perfect link between domains before C f reaches 1.0. In C f 4.0, the seeds of all domains (kn, cc, pr and st) are already identifiable.

각 모듈을 다른 조직의 유전자 발현 데이터 세트에 맵핑하고 유전자 온톨로지를 이용하여 기본 유전자의 기능을 탐색해보면, 모듈 간 네트워크로 구분된 각 영역의 특정 생물학적 기능을 유추할 수 있다. Cf 1.0으로 구성한 BRNO의 모듈 간 네트워크는 도메인 영역 사이의 관계를 명확하게 설명한다. 커널 도메인(kn)은 모듈 m52와 m60을 통해 실질의 기능을 수행하는 모듈(pr)을 제어할 수 있다. 모듈 m3은 커널 도메인과 CCDR 도메인 사이의 정보 흐름을 중계한다.By mapping each module to a gene expression data set of another tissue and exploring the function of basic genes using gene ontology, it is possible to infer a specific biological function of each region divided into a network between modules. BRNO's inter-module network composed of C f 1.0 clearly explains the relationship between domain domains. The kernel domain kn may control a module pr that performs a real function through the modules m52 and m60. Module m3 relays the information flow between the kernel domain and the CCDR domain.

정상 유방의 간질의 기능은 st 영역의 모듈로 나타난다. Cf 4.0에서 st 영역은 두 개의 영역으로 구분된다. m38, m64 및 m79를 포함하는 영역은 지방 세포(adipocytes)와 관련되고, m27 및 m50을 포함하는 영역은 간질 도메인과 커널 도메인의 중계를 수행한다고 분석할 수 있다. The function of the epilepsy of the normal breast appears as a module in the st region. In C f 4.0, the st area is divided into two areas. It can be analyzed that the regions including m38, m64 and m79 are related to adipocytes, and the regions including m27 and m50 perform relay between the interstitial domain and the kernel domain.

간질 도메인 st는 Cf 2.5에서 6개의 시드가 된다. 모듈을 분석하면 혈관 신생(angiogenesis), 면역 기능(마크로파지), 세포외기질 생성, 지방 세포에 대한 동작을 수행한다고 추정할 수 있다. 또한, 커널 도메인과 CCDR 도메인의 중계 역할도 수행한다고 추정할 수 있다.The interstitial domain st becomes 6 seeds at C f 2.5. By analyzing the module, it can be assumed that it performs angiogenesis, immune function (macrophage), extracellular matrix production, and action on adipocytes. In addition, it can be estimated that it also plays a relay role between the kernel domain and the CCDR domain.

Cf 값에 따라 구분되는 다양한 모듈 간 네트워크를 통해 각 도메인과 모듈 사이의 기능을 해석할 수 있다. C f Functions between each domain and module can be analyzed through a network between various modules classified according to values.

모듈 간 네트워크의 중앙 영역에 위치한 몇 개의 모듈은 게놈 시스템의 모든 도메인을 연결한다. 일종의 메타 프로그램으로 간주될 수 있다. 해당 모듈은 세포외기질과 혈관구조(vasculature)가 간질, 실질 및 커널 도메인에 속한 모듈 사이의 통신에 의해 조절된다는 것을 암시한다. 정상 유방 조직에서 면역 기능과 관련된 게놈 시스템은 다른 시스템에 의해 억제 된 것으로 보인다. Several modules located in the central region of the inter-module network connect all domains of the genomic system. It can be regarded as a kind of meta program. This module implies that the extracellular matrix and vasculature are regulated by communication between modules belonging to the epileptic, parenchymal and kernel domains. The genomic system involved in immune function in normal breast tissue appears to be suppressed by other systems.

도 10은 BRNO의 모듈 간 네트워크를 다른 조직의 모듈에 맵핑한 예를 도시한다. 노드의 색상은 BRNO의 게놈 모듈이 다른 조직에서 갖는 엔트로피의 변화량을 나타낸다. 각 노드는 그레이스케일 값을 갖는다. 밝은 색은 BRNO와 다른 조직에서 엔트로피가 거의 동일한 것을 나타낸다. 상대적으로 어두운 색은 BRNO보다 다른 조직에서 엔트로피가 높다는 것을 나타낸다.10 shows an example of mapping the BRNO's inter-module network to modules of other organizations. The color of the node indicates the amount of change in entropy that the BRNO's genomic module has in other tissues. Each node has a grayscale value. Bright colors indicate that the entropy is approximately the same in BRNO and other tissues. Relatively dark colors indicate higher entropy in tissues other than BRNO.

도 10에서 (A)는 BRNO를 CONO에 맵핑한 예이고, (B)는 BRNO를 BRCA에 맵핑한 예이고, (C)는 BRNO를 LUAD에 맵핑한 예이고, (D)는 BRNO를 LUSC에 맵핑한 예이다. 도 10에서 (A)는 다른 정상 조직에 대한 맵핑이고, (B)부터 (D)까지는 종양 조직에 대한 맵핑의 예이다. 모듈 간 네트워크를 맵핑하는 과정은 게놈 모듈 네트워크를 도메인의 종류 및 모듈 간 엔트로피의 차이를 기준으로 수행할 수 있다. 도 10에서 f는 지방 조직 도메인을 의미한다.In FIG. 10, (A) is an example of mapping BRNO to CONO, (B) is an example of mapping BRNO to BRCA, (C) is an example of mapping BRNO to LUAD, and (D) is an example of mapping BRNO to LUSC. This is an example of mapping. In FIG. 10 (A) is mapping to other normal tissues, and (B) to (D) are examples of mapping to tumor tissues. The process of mapping the network between modules may be performed based on a genomic module network based on a type of domain and a difference in entropy between modules. In FIG. 10, f denotes an adipose tissue domain.

도 10 (A)를 살펴보면, BRNO에서 CONO에 맵핑된 모듈 간 네트워크는 커널 도메인(kn)은 0.091-0.182nats 엔트로피를 보인다. 이는 기본 모듈인 BRNO의 엔트로피(0.017-0.109 nats)와 유사한 것이다. 그러나 BRNO에 맵핑된 CONO 커널 도메인은 0.144-0.289 nats 엔트로피를 가져 CONO 독자의 엔트로피(0.016-0.043 nats)보다 조금 높은 값을 보인다. 이러한 차이는 CONO가 BRNO에 비하여 약간 더 넓은 커널 도메인을 갖기 때문일 수 있다. 따라서 결장 조직이 유방 조직보다 더 많은 세포 유형으로 구성된다고 추정할 수 있다. 다른 영역에서는, 정상 유방의 실질(pr) 및 지방 조직 (f)에 있는 모듈 중 일부가 증가된 맵핑 엔트로피를 보여준다. 따라서 정상 유방 조직의 생물학적 프로그램의 상당 부분은 정상 결장에서도 활성화되어야하지만 기능적 활동의 정도는 환경 및 기타 모듈의 매개 변수 입력에 따라 변경 될 수 있다는 것을 보여준다. 커널 도메인을 제외하고는 CONO에서 BRNO로 맵핑된 모듈은 CONO의 독립 모듈보다 덜 활동적이다. 이 결과는 정상 결장의 게놈 시스템이 정상 유방의 게놈 시스템보다 복잡하다는 것을 암시한다.Referring to FIG. 10(A), in the inter-module network mapped to CONO in BRNO, the kernel domain (kn) shows 0.091-0.182nats entropy. This is similar to the basic module BRNO's entropy (0.017-0.109 nats). However, the CONO kernel domain mapped to BRNO has an entropy of 0.144-0.289 nats, which is slightly higher than the original entropy of CONO (0.016-0.043 nats). This difference may be due to the fact that CONO has a slightly wider kernel domain than BRNO. Thus, it can be assumed that colon tissue is composed of more cell types than breast tissue. In other areas, some of the modules in the parenchyma (pr) and adipose tissue (f) of the normal breast show increased mapping entropy. Thus, it shows that a significant part of the biological program of normal breast tissue should be activated even in the normal colon, but the degree of functional activity may change depending on the input of parameters of the environment and other modules. Except for the kernel domain, modules mapped from CONO to BRNO are less active than standalone modules in CONO. These results suggest that the genomic system of the normal colon is more complex than that of the normal breast.

도 10(B)부터 도 10(D)까지는 각각 BRNO의 모듈 간 네트워크를 종양 데이터 세트인 BRCA, LUAD 및 LUSC로 맵핑한 결과를 도시한다. 종양 유형이 다르지만 맵핑된 모듈 간 네트워크의 엔트로피 분포 패턴은 세 가지 암 데이터 세트 모두에서 유사했다. 10(B) to 10(D) show the results of mapping the inter-module networks of BRNO to the tumor data sets BRCA, LUAD, and LUSC, respectively. Although the tumor types were different, the pattern of entropy distribution of the network between the mapped modules was similar in all three cancer data sets.

BRNO의 실질 도메인(pr)에 포함된 모든 모듈을 각 종양 조직에 맵핑했을 때 엔트로피는 0.890-1.493 nats으로 나타났다. 이는 BRNO 에서의 본래 엔트로피 0.109 nats 또는 BRNO에서 CONO에 맵핑했을 때의 엔트로피 0.263 nats보다 매우 높은 것이다. 따라서 종양 조직에서 실질 도메인(pr)은 정상적인 기능을 수행하지 못할 정도로 변형되었다고 볼 수 있다. When all modules included in the parenchymal domain (pr) of BRNO were mapped to each tumor tissue, the entropy was 0.890-1.493 nats. This is much higher than the original entropy of 0.109 nats in BRNO or 0.263 nats of entropy when mapping from BRNO to CONO. Therefore, it can be considered that the parenchymal domain (pr) in the tumor tissue is deformed to the extent that it cannot perform its normal function.

CCDR 도메인의 경우 맵핑된 모듈의 엔트로피가 0.754-1.507 nats로 나타났다. 서로 다른 종양 유형에 대하여 서로 다른 파손 패턴을 보인다.In the case of the CCDR domain, the entropy of the mapped module was 0.754-1.507 nats. Different failure patterns are shown for different tumor types.

특히 도메인을 연결하는 메타 모듈은 종양 조직에서 비활성화되었다. 메타 모듈은 서로 다른 도메인을 연결하는 역할을 수행하는 모듈을 말한다. BRNO에서 LUSC로 맵핑한 경우 모듈 m3에 대한 엔트로피는 0.795-1.407 nats로서, CCDR 도메인 다음으로 높은 붕괴(disinitegration)를 보였다.In particular, the meta-module linking domains was inactivated in tumor tissue. Meta modules are modules that connect different domains. In the case of mapping from BRNO to LUSC, the entropy for the module m3 was 0.795-1.407 nats, showing the second highest disinitegration after the CCDR domain.

게놈 시스템의 커널, CCDR 및 실질 도메인은 간질 도메인에 일정한 정보를 전달하여 혈관 신생(c), 면역 기능(d), 지방 조직(f) 형성을 포함하는 세포외기질 형성을 제어한다. 종양에서 '간질 도메인(st)'과 '실질 (pr), 커널(kn) 및 CCDR(cc) 도메인'을 연결하는 a 및 e 영역도 종양 조직에서 매우 약화되었다. 이는 종양 조직에서 간질 도메인이 다른 도메인과 서로 통신하기 어려운 상태라는 것을 암시한다. 즉 간질 도메인이 다른 도메인에 정보를 전달하여 일정한 기능에 관여하지 못하는 것을 말한다. 이는 종양 조직에서 간질이 적절한 조절없이 비정상적으로 구축되는 현상과 일치한다.The kernel, CCDR, and parenchymal domains of the genomic system transmit certain information to the stromal domain to control extracellular matrix formation, including angiogenesis (c), immune function (d), and adipose tissue (f) formation. The a and e regions connecting the'interstitial domain (st)' and the'parenchymal (pr), kernel (kn) and CCDR (cc) domain' in the tumor were also very weakened in the tumor tissue. This suggests that the interstitial domains are in a difficult state to communicate with other domains in the tumor tissue. In other words, it means that the epileptic domain is not involved in certain functions by transmitting information to other domains. This is consistent with the abnormal construction of the epilepsy in the tumor tissue without proper control.

6종의 종양 조직 유전자 발현 데이터(BRCA, COAD, READ, LUAD, LUSC, OV), 2종의 정상 조직 유전자 발현 데이터 데이터(BRNO, CONO) 및 3종의 혼합 데이터(X6CA, X2NO, X6C2N)로부터 얻은 게놈 모듈은 다양한 엔트로피 레벨을 갖는다. 실험을 통해 살펴보면, 엔트로피가 극도로 낮은 모듈이 분리된다. 가장 낮은 엔트로피를 갖는 모듈은 (i) 대부분의 조직에서의 두 번째 모듈(m2)과 (ii) 유방종양 조직(BRCA), 정상 결장 조직(CONO) 및 난소종양 조직(OV)의 첫 번째 모듈(m1)이었다. 전술한 바와 같이 엔트로피가 다른 모듈에 비하여 낮은 게놈 모듈은 커널 모듈에 해당한다.From 6 types of tumor tissue gene expression data (BRCA, COAD, READ, LUAD, LUSC, OV), 2 types of normal tissue gene expression data (BRNO, CONO), and 3 types of mixed data (X6CA, X2NO, X6C2N) The resulting genomic module has various levels of entropy. When examined through an experiment, modules with extremely low entropy are separated. The modules with the lowest entropy are (i) the second module in most tissues (m2) and (ii) the first module in breast tumor tissue (BRCA), normal colon tissue (CONO) and ovarian tumor tissue (OV) ( m1). As described above, a genomic module having a lower entropy than other modules corresponds to a kernel module.

도 11은 8개의 조직에 대한 커널 모듈을 도시한 예이다. 8종의 조직에 대한 TCGA 데이터 세트는 전술한 BRNO, CONO, BRCA, COAD, READ, LUAD, LUSC 및 OV이다.11 is an example showing kernel modules for eight organizations. The TCGA data sets for the eight tissues are BRNO, CONO, BRCA, COAD, READ, LUAD, LUSC and OV described above.

전술한 바와 같이 각 모듈은 복수의 유전자를 포함한다. 모듈에 속한 유전자는 유전자 네트워크를 구성한다. 도 11에서 각 노드의 크기는 유전자 사이의 에지의 개수에 비례한다. 도 11에서 알 수 있듯이 서로 다른 조직의 모듈이지만 주요한 유전자가 공통된 것을 알 수 있다. 예컨대, TYR, HBE1, F2, GDF3 및 AHSG는 모든 조직에서 공통적으로 포함되며, 나머지 유전자들도 절반 이상의 조직에서 공통적으로 포함된다. 또한 대부분의 조직에서 TYR과 AHSG를 주축으로 유전자 네트워크가 구성되어 있는 공통점을 확인할 수 있다. 서로 다른 조직에서 완벽하게 동일한 유전자로 구성되지는 않지만, 상기 모듈(모듈을 구성하는 유전자)은 서로 다른 조직에서 상당히 공통된다는 것을 알 수 있다.As described above, each module contains a plurality of genes. The genes belonging to the module make up the gene network. In FIG. 11, the size of each node is proportional to the number of edges between genes. As can be seen from FIG. 11, although the modules of different tissues, it can be seen that major genes are common. For example, TYR, HBE1, F2, GDF3 and AHSG are commonly included in all tissues, and the remaining genes are also commonly included in more than half of the tissues. In addition, in most tissues, it is possible to confirm the commonality that the gene network is composed mainly of TYR and AHSG. It can be seen that although not completely composed of the same genes in different tissues, the modules (genes constituting the modules) are quite common in different tissues.

특정 모듈이 모든 조직에서 엔트로피가 매우 낮음은 표현형과 기능에 상관없이 모든 세포에서 활성화됨을 의미한다. 따라서 상기 모듈은 모든 종류의 세포에서 공통적인 기능을 수행하는 것을 의미하며 진핵 생물의 게놈 시스템에서 핵심적 구성에 해당한다고 볼 수 있다. 엔트로피가 모든 조직에서 극도로 낮으며 공통적 유전자로 구성된 상기 모듈을 이하 커널(kernel) 모듈이라고 명명한다. 복수의 커널 모듈이 존재할 수 있으며, 복수의 커널 모듈로 구성된 집합을 커널 도메인이라고 명명한다. 커널 모듈은 특정 단백질 네트워크에 관련된 단백질의 생성보다는 논코딩(non-coding) RNA와 같은 유전자 발현 부산물의 생성으로 게놈 시스템의 활성화에 중요한 기능을 하는 것으로 추정된다.The very low entropy of a particular module in all tissues means that it is activated in all cells regardless of phenotype and function. Therefore, the module is meant to perform a common function in all types of cells, and can be considered to be a key component in the genomic system of eukaryotes. This module, which has an extremely low entropy in all tissues and is composed of a common gene, is hereinafter referred to as a kernel module. There may be a plurality of kernel modules, and a set consisting of a plurality of kernel modules is called a kernel domain. The kernel module is presumed to play an important function in the activation of the genomic system by generating gene expression byproducts such as non-coding RNA rather than generating proteins related to a specific protein network.

실험적으로 커널 모듈이 서로 다른 조직 간에 공통되는지 확인하기 위하여 커널 모듈을 각기 다른 조직에 맵핑하였다. 도 12는 BRNO의 커널 모듈을 다른 조직에 맵핑한 결과를 도시한 예이다. 여기서, 맵핑은 주어진 모듈에 속한 유전자에 해당하는 데이터를 다른 조직의 유전자 발현 데이터로부터 추출하여 동일한 계산을 수행하는 과정을 의미한다.Experimentally, kernel modules were mapped to different organizations in order to check whether kernel modules are common between different organizations. 12 is an example showing the result of mapping the kernel module of BRNO to another organization. Here, mapping refers to a process of performing the same calculation by extracting data corresponding to a gene belonging to a given module from gene expression data of another tissue.

도 12에서 (A)는 BRNO의 기본 커널 모듈이다. (B)는 BRNO를 CONO에 맵핑한 결과이다. (C)는 BRNO를 LUSC에 맵핑한 결과이다. (D)는 BRNO를 BRCA에 맵핑한 결과이다. (E)는 BRNO를 COAD에 맵핑한 결과이다. (F)는 BRNO를 READ에 맵핑한 결과이다. (G)는 BRNO를 X6CA에 맵핑한 결과이다. (H)는 BRNO를 X2NO에 맵핑한 결과이다. 유전자 네트워크의 노드는 그레이스케일로 값을 표현하였다. 색상이 밝은 노드는 해당 유전자의 LOR 값이 0에 가까운 것을 의미하고, 색상이 어두운 노드는 LOR 값이 음수임을 나타낸다. 색상이 밝을수록 0에 가까운 값이고, 어두울수록 음의 값이 큰 것을 의미한다.In FIG. 12, (A) is a basic kernel module of BRNO. (B) is the result of mapping BRNO to CONO. (C) is the result of mapping BRNO to LUSC. (D) is the result of mapping BRNO to BRCA. (E) is the result of mapping BRNO to COAD. (F) is the result of mapping BRNO to READ. (G) is the result of mapping BRNO to X6CA. (H) is the result of mapping BRNO to X2NO. The nodes of the gene network are expressed in grayscale. A node with a light color indicates that the LOR value of the gene is close to 0, and a node with a dark color indicates that the LOR value is negative. The brighter the color, the closer to 0, and the darker the negative value.

BRNO의 커널을 다른 조직에 맵핑할 때 맵핑된 유전자가 다른 커널 영역에 존재하지 않거나, 맵핑할 조직의 커널 영역의 복잡성이 낮으면 엔트로피가 증가한다. BRNO의 커널을 다른 조직에 맵핑한다는 것은 다른 조직의 유전자 발현 데이터에서 BRNO의 커널에 포함된 유전자의 데이터를 추출하여 필요한 계산을 수행한다는 의미이다. BRNO의 커널을 CONO로 맵핑하였을 때 계산한 엔트로피는 0.091 nats이다. 이는 CONO(정상 결장 조직)에서 무작위로 선택된 유전자의 엔트로피인 0.515 nats보다 훨씬 낮은 것이다. 따라서 두 개의 서로 다른 조직 사이에 커널 모듈의 유사성이 상당히 높다는 것을 알 수 있다. 도 12의 (B)를 살펴보면, BRNO의 커널을 CONO로 맵핑하였을 때 대부분의 유전자에서 LOR이 0에 가까운 것을 알 수 있다. 한편, BRNO 커널을 종양 데이터(BRCA, COAD, READ, LUAD, LUSC, OV)에 맵핑하였을 때 엔트로피는 0.224-0.601 nats로 비교적 높았다. 따라서 BRNO(정상 유방 조직)에서 종양 조직으로의 맵핑에서 엔트로피가 높다는 것은 종양의 커널 영역이 정상 조직에 비해 그 특성의 방향성이 분산되었음을 의미한다. 나아가 CONO의 커널 모듈을 다른 데이터 세트에 맵핑할 때도 비슷한 결과가 나타났다. When the BRNO kernel is mapped to another tissue, entropy increases if the mapped gene does not exist in the other kernel region or the complexity of the kernel region of the tissue to be mapped is low. Mapping the kernel of BRNO to other tissues means that the necessary calculations are performed by extracting the data of genes contained in the kernel of BRNO from the gene expression data of other tissues. The entropy calculated when the BRNO kernel is mapped to CONO is 0.091 nats. This is much lower than 0.515 nats, the entropy of a randomly selected gene in CONO (normal colon tissue). Therefore, it can be seen that the similarity of kernel modules between two different organizations is quite high. Referring to (B) of FIG. 12, when the kernel of BRNO is mapped to CONO, it can be seen that LOR is close to 0 in most genes. On the other hand, when the BRNO kernel was mapped to tumor data (BRCA, COAD, READ, LUAD, LUSC, OV), the entropy was relatively high, 0.224-0.601 nats. Therefore, the high entropy in the mapping from BRNO (normal breast tissue) to tumor tissue means that the kernel region of the tumor has a distributed direction of its characteristics compared to the normal tissue. Furthermore, similar results were obtained when the kernel modules of CONO were mapped to different data sets.

종양과의 관계에서 중요한 세포 주기 및 DNA 수선(cell cycle and DNA repair, 이하 CCDR이라함)에 관련된 도메인에 대하여 설명한다.Domains related to cell cycle and DNA repair (hereinafter referred to as CCDR), which are important in relation to tumors, will be described.

세포 분열은 수정란에서 체세포로의 다세포 생물의 발달과 단세포 생물의 개체군 증가를 위한 필수적인 과정이다. 세포 분열은 세포주기 정지 및 DNA 손상 수리를 통해 정교하게 조절되며, 조절 장애는 비정상적인 세포 성장을 초래할 수 있다.Cell division is an essential process for the development of multicellular organisms from fertilized eggs to somatic cells and for increasing the population of single-celled organisms. Cell division is finely regulated through cell cycle arrest and repair of DNA damage, and dysregulation can lead to abnormal cell growth.

CCDR 도메인은 정상 유방 조직에서 복수의 모듈로 구성된다. CCDR을 구성하는 12개의 모듈은 세포 분열에 참여하는 유전자(예컨대, BUB1)로 구성되고, 서로 에지를 통해 강하게 연결되는 것으로 나타났다. 이러한 유전자로 구성되는 모듈은 다른 정상 조직(CONO, X2NO)에서도 다수 발견되었으며, 종양 조직에서는 소수의 모듈이 발견되었다.The CCDR domain is made up of multiple modules in normal breast tissue. The 12 modules that make up the CCDR are composed of genes (eg, BUB1) that participate in cell division, and have been shown to be strongly connected to each other through edges. A number of modules composed of these genes were also found in other normal tissues (CONO, X2NO), and a few modules were found in tumor tissues.

정상 유방 조직의 12 개의 CCDR 모듈을 다른 정상 조직으로 맵핑했을 때 엔트로피 값은 본래 엔트로피 값과 전체적으로 비슷하다. 대조적으로, CCDR 모듈을 종양 데이터 세트로 맵핑했을 때 엔트로피 값은 각각의 데이터 세트에서 계산한 랜덤 엔트로피 수준으로 높아진다. When 12 CCDR modules of normal breast tissue are mapped to other normal tissues, the entropy value is generally similar to the original entropy value. In contrast, when the CCDR module is mapped to a tumor data set, the entropy value is raised to the level of random entropy calculated for each data set.

도 13은 BRNO의 CCDR 도메인의 모듈을 다른 조직의 모듈에 맵핑한 예를 도시한다. 도 13은 CCDR 도메인에 속한 몇 개의 모듈에 대한 유전자 네트워크를 도시한다. 도 13은 CCDR의 모듈 중 m3, m41 및 m49를 도시한다. 도 13은 BRNO의 CCDR 모듈을 각각 CONO, BRCA 및 LUSC에 맵핑한 결과이다. 노드의 색상은 도 12에서 설명한 바와 같다. 13 shows an example of mapping modules of the CCDR domain of BRNO to modules of other tissues. 13 shows the genetic network for several modules belonging to the CCDR domain. 13 shows m3, m41 and m49 among the modules of the CCDR. 13 is a result of mapping the CCDR module of BRNO to CONO, BRCA and LUSC, respectively. The color of the node is as described in FIG. 12.

도 13은 정상 유방의 CCDR 도메인을 구성하는 모듈 내의 유전자 네트워크를 도시한다. 유전자의 발현에 기여하는 모듈의 확률은 또한 유전자가 모듈과 어떻게 관련이 있는지를 나타낸다. 정상 유방의 CCDR 모듈이 정상 결장 (CONO)에 맵핑되었을 때, 대부분의 유전자는 모듈에 높은 확률을 보였다. 대조적으로, CCDR 모듈이 암 데이터 세트로 맵핑될 때 확률은 크게 감소했다. m3, m41 및 m49를 대부분의 종양 데이터 세트에 맵핑했을 때 엔트로피 값은 1.0 nats를 초과한다. 이것은 종양에서 CCDR 모듈의 붕괴 또는 변형이 암세포 증식을 초래할 뿐 아니라, 커널 영역의 통제를 벗어나 실질 및 간질의 세포 사건과 균형을 이루지 못하게 한다는 것을 의미한다. 13 shows the genetic network within the modules that make up the CCDR domain of a normal breast. The probability of a module contributing to the expression of a gene also indicates how the gene relates to the module. When the CCDR module of the normal breast was mapped to the normal colon (CONO), most of the genes showed a high probability to the module. In contrast, the probability was greatly reduced when the CCDR module was mapped to a cancer data set. The entropy values exceed 1.0 nats when m3, m41 and m49 were mapped to most tumor data sets. This means that the disruption or modification of the CCDR module in the tumor not only leads to cancer cell proliferation, but also prevents it from being in balance with parenchymal and interstitial cellular events beyond the control of the kernel region.

정상 유방 조직의 CCDR 모듈을 다른 정상 조직 및 종양 조직에 맵핑하여 얻은 결과를 종합하면, 정상 세포에서는 CCDR 프로그램의 엄격한 통제를 받으며, 종양 조직에서는 CCDR 모듈의 붕괴 또는 변형으로 인해 DNA 손상이 발생한 세포에서 세포 주기가 계속되는 것을 나타낸다. BRNO에서 LUAD로 맵핑하였을 때 엔트로피 값은 BRNO가 LUSC에 맵핑되는 경우의 값보다 2배 이상 크다. 이는 LUAD이 비하여 LUSC가 암의 진행 속도가 빠르고 돌연변이 확률도 높다는 종래 연구결과와 일치한다. When the results obtained by mapping the CCDR module of normal breast tissue to other normal and tumor tissues are summarized, normal cells are under strict control of the CCDR program, and in tumor tissues, cells in which DNA damage has occurred due to the collapse or modification of the CCDR module. It indicates that the cell cycle continues. When mapping from BRNO to LUAD, the entropy value is more than twice as large as the value when BRNO is mapped to LUSC. This is consistent with the results of previous studies that LUSC has a faster cancer progression rate and a higher probability of mutation than LUAD.

전술한 게놈 모듈 네트워크 구축 과정을 정리한다. 도 14는 게놈 모듈 네트워크 구축 과정에 대한 순서도(200)의 예이다. 도 14와 같은 방법으로 구축한 게놈 모듈 네트워크를 기본 게놈 모듈 네트워크라고 명명한다. 기본 게놈 모듈 네트워크는 다음과 같은 과정으로 구축될 수 있다.The above-described genomic module network construction process is summarized. 14 is an example of a flow chart 200 for a process of constructing a genome module network. The genome module network constructed in the same manner as in Fig. 14 is referred to as a basic genome module network. The basic genome module network can be constructed in the following process.

분석장치는 유전자 발현 데이터를 입력받는다(210). 여기서 유전자 발현 데이터는 정상 조직에 대한 유전자 발현 데이터일 수 있다. 유전자 발현 데이터는 복수의 샘플에서 추출한 데이터인 것이 바람직하다. 유전자 발현 데이터는 cDNA 마이크로어레이와 같은 기법을 활용하여 획득한 데이터이다. 이후 분석장치는 유전자 발현 데이터를 기준으로 유전자들을 특정한 모듈로 구분(모듈화)한다(220). 이는 유전자 발현 데이터를 해석하여 게놈을 구성하는 유전자들을 특정한 모듈로 구분하는 과정이다. 분석장치는 복수의 모듈 사이에서 모듈 간 네트워크를 구축한다(230). 또 분석장치는 모듈에 속한 복수의 유전자 사이에서 유전자 네트워크를 구축한다(240). 유전자 네트워크 구축은 모듈화 이후에 수행되면 된다. 분석장치는 모듈 간 네트워크를 분석하여, 모듈 레벨에서 게놈을 분석할 수 있다(250). 분석장치는 모듈 간 네트워크를 기준으로 모듈 사이의 관계성을 분석할 수 있다. 또한, 서로 다른 샘플에 대한 모듈 간 네트워크를 맵핑하여 서로 다른 샘플의 관계성에 대해서도 분석할 수 있다. 전술한 바와 같이 정상 조직과 비교하여 종양 조직에서 특정한 모듈 또는 특정한 도메인의 활성이 약화되는 것을 확인할 수 있다. The analysis device receives gene expression data (210). Here, the gene expression data may be gene expression data for a normal tissue. The gene expression data is preferably data extracted from a plurality of samples. Gene expression data is data obtained using a technique such as cDNA microarray. Thereafter, the analysis device divides (modulates) genes into specific modules based on the gene expression data (220). This is the process of analyzing gene expression data and dividing genes that make up the genome into specific modules. The analysis device establishes an inter-module network between a plurality of modules (230). In addition, the analysis device builds a gene network between a plurality of genes belonging to the module (240). Gene network construction can be performed after modularization. The analysis device may analyze a network between modules and analyze a genome at a module level (250). The analysis device can analyze the relationship between modules based on the network between modules. In addition, it is possible to analyze the relationship between different samples by mapping networks between modules for different samples. As described above, it can be confirmed that the activity of a specific module or a specific domain in the tumor tissue is weakened compared to the normal tissue.

나아가 분석장치는 유전자 레벨에서 게놈을 분석할 수도 있다(260). 유전자 네트워크를 이용하여 유전자 사이의 관계성을 분석할 수 있다. 나아가 서로 다른 샘플에 대한 유전자 네트워크를 맵핑하여, 특정 샘플에 대한 유전자 기능을 분석할 수도 있다. 예컨대, 종양 환자에 대한 특정 유전자의 기능의 활성, 특정 유전자의 비활성, 종양과 관련된 유전자의 검출 등과 같은 분석을 수행할 수 있다. 이를 활용하면 특정 질환과 관련된 유전자(마커)를 파악할 수 있다.Furthermore, the analysis device may analyze the genome at the gene level (260). Genetic networks can be used to analyze relationships between genes. Furthermore, it is also possible to analyze gene functions of specific samples by mapping gene networks for different samples. For example, an analysis such as the activity of a specific gene function in a tumor patient, a specific gene inactivity, detection of a gene related to a tumor, etc. may be performed. This can be used to identify genes (markers) related to specific diseases.

도 14에서 모듈 간 네트워크 구축(230)과 유전자 네트워크 구축(240)의 순서 선후는 관계없다. 따라서, 도 14와 달리 분석장치는 게놈의 모듈화(220) 이후에 유전자 네트워크를 먼저 구축할 수도 있다.In FIG. 14, the order of the inter-module network construction 230 and the gene network construction 240 is not related. Therefore, unlike FIG. 14, the analysis device may first construct a gene network after the modularization 220 of the genome.

도 15는 게놈 모듈 네트워크를 이용하여 샘플 데이터에 대한 분석 지표를 산출하는 과정(300)에 대한 예이다. 분석 지표는 전술한 SP, MSP, DSP 및 LOR 중 적어도 하나를 포함한다. 15 is an example of a process 300 of calculating an analysis index for sample data using a genome module network. The analysis index includes at least one of the aforementioned SP, MSP, DSP and LOR.

도 15는 3개의 DB를 도시한다. 정상조직 데이터 DB는 복수의 정상 조직에 대한 유전자 발현 정보(전술한 제1 유전자 발현 데이터)를 저장한다. 게놈 모듈 DB는 게놈 모듈 네트워크를 구축한 후 생성되는 정보를 저장한다. 샘플 데이터 DB는 분석 대상의 유전자 발현 정보(제2 유전자 발현 데이터)를 저장한다. 샘플 데이터 DB는 종양 조직에 대한 유전자 발현 정보를 저장할 수 있다. 샘플 데이터 DB는 복수의 종양 조직의 유전자 발현 정보와 해당 샘플의 개별적 특성 정보를 저장할 수 있다. 이하 샘플 데이터 DB는 종양 환자의 유전자 발현 정보를 저장한다고 가정한다. 도 15은 3개의 DB를 별도로 도시하였지만, 물리적으로는 동일한 저장 장치에 3개의 DB가 위치할 수도 있다.15 shows three DBs. The normal tissue data DB stores gene expression information (first gene expression data described above) for a plurality of normal tissues. The genome module DB stores information generated after constructing a genome module network. The sample data DB stores gene expression information (second gene expression data) to be analyzed. The sample data DB may store gene expression information for tumor tissue. The sample data DB may store gene expression information of a plurality of tumor tissues and individual characteristic information of a corresponding sample. Hereinafter, it is assumed that the sample data DB stores gene expression information of tumor patients. Although FIG. 15 shows three DBs separately, three DBs may be physically located in the same storage device.

분석장치는 종양조직 데이터 DB에서 종양 샘플의 유전자 발현 벡터를 획득한다. 발현 벡터(expression vector)는 특정 샘플에서 게놈 전체 또는 일부 유전자의 발현 데이터를 추출하여 구성한 1차원 배열을 의미한다. 분석장치는 정상 조직 데이터 DB에 등록된 전체 샘플에서 특정 유전자들로 구성된 조합의 유전자 발현 데이터를 추출하고 전술한 수학식 3을 원용하여 유전자 공간(gene space)에서의 밀도 행렬(

Figure pat00167
(s))을 계산한다. 또한 상기 유전자 공간에서의 밀도 행렬에 대한 특정 샘플의 확률은 수학식 4를 원용하여 계산한다. 분석장치는 종양 조직 샘플의 유전자 발현 데이터를 획득하고, 이로부터 발현 벡터를 생성할 수 있다. 분석장치는 유전자 발현 데이터로부터 일정한 밀도 행렬을 생성할 수 있다.The analysis device acquires the gene expression vector of the tumor sample from the tumor tissue data DB. The expression vector refers to a one-dimensional array constructed by extracting the expression data of the whole genome or some genes from a specific sample. The analysis device extracts gene expression data of a combination consisting of specific genes from all samples registered in the normal tissue data DB, and uses the above-described Equation 3 to obtain a density matrix in the gene space (
Figure pat00167
(s) ) is calculated. Also, the probability of a specific sample for the density matrix in the gene space is calculated using Equation 4. The analysis device may acquire gene expression data of a tumor tissue sample and generate an expression vector therefrom. The analysis device can generate a constant density matrix from gene expression data.

분석장치는 정상조직 데이터 DB에서 정상 조직에 대한 제1 유전자 발현 데이터를 획득한다. 분석장치는 제1 유전자 발현 데이터를 기준으로 게놈 모듈 네트워크를 구축한다(310). 게놈 모듈 DB는 구축된 게놈 모듈 네트워크에 대한 정보를 저장한다. The analysis device acquires first gene expression data for the normal tissue from the normal tissue data DB. The analysis device constructs a genome module network based on the first gene expression data (310). The genome module DB stores information on the constructed genome module network.

분석장치는 게놈 모듈 네트워크의 타깃 모듈에 속한 유전자를 식별하기 위하여 게놈 모듈 DB에서 특정한 유전자의 인덱스를 추출할 수 있다(320). 게놈 모듈 DB는 특정 모듈이 어떤 유전자로 구성되는지에 대한 정보 내지 특정 도메인이 어떤 모듈로 구성되는지에 대한 정보를 제공한다. 또 게놈 모듈 DB는 유전자를 기준으로는 해당 유전자가 어떤 모듈 또는 어떤 도메인에 포함되는지에 대한 정보를 제공할 수 있다. 게놈 모듈 DB는 모듈 식별자, 도메인 식별자, 유전자 식별자, 모듈과 유전자를 매칭한 테이블, 도메인과 모듈을 매칭한 테이블, 도메인과 유전자를 매칭한 테이블 등을 포함할 수 있다.The analysis device may extract the index of a specific gene from the genome module DB in order to identify the gene belonging to the target module of the genome module network (320). The genome module DB provides information on which gene a specific module is composed of or information on which module a specific domain is composed. In addition, the genome module DB may provide information on which module or domain the gene is included in, based on the gene. The genome module DB may include a module identifier, a domain identifier, a gene identifier, a table matching a module and a gene, a table matching a domain and a module, a table matching a domain and a gene, and the like.

분석장치는 정상조직 데이터 DB, 샘플 데이터 DB 및 게놈 모듈 DB가 제공하는 정보를 이용하여 정상 조직과 종양 조직을 비교 분석한다. 분석장치는 정상 조직 대비 종양 조직의 변이를 정량하기 위하여 다양한 지표를 생성할 수 있다. 도 15는 분석장치가 샘플 확률(SP), 모듈 샘플 확률(MSP), 도메인 샘플 확률(DSP) 및 로그 승산비(LOR)를 연산하는 예를 도시한다.The analysis device compares and analyzes normal tissues and tumor tissues using information provided by the normal tissue data DB, sample data DB, and genome module DB. The analysis device may generate various indicators to quantify the variation of tumor tissue compared to normal tissue. 15 shows an example in which the analysis device calculates a sample probability (SP), a module sample probability (MSP), a domain sample probability (DSP), and a log odds ratio (LOR).

지표를 연산 과정에 이용하는 정상 조직에 대한 유전자 발현 데이터는 게놈 모듈 네트워크 구축에 사용되었던 유전자 발현 데이터 또는 별도의 정상 조직에서 추출한 유전자 발현 데이터일 수 있다. Gene expression data for a normal tissue using an index in the calculation process may be gene expression data used to construct a genome module network or gene expression data extracted from a separate normal tissue.

분석장치는 SP를 연산할 수 있다(330). SP는 분석 대상인 개별 암환자의 샘플에서 정상으로부터 게놈 시스템의 변이 정도를 전체 게놈 모듈들에 포함된 모든 유전자들에 대하여 정량화한 값이다. SP는 전체 게놈 모듈을 기준으로 현재 입력된 샘플의 변이 정도를 표현한 것이다. 즉, SP는 전체 게놈 모듈에 포함된 유전자 모두에 대한 분석값에 해당한다. 이를 위해 분석장치는 전체 게놈 모듈 중 하나 이상의 모듈에 포함된 모든 유전자의 인덱스를 추출하여, 정상 조직에서 밀도 행렬을 구하고 특정 샘플 데이터에서 해당 유전자로 발현 벡터를 구성하여 SP를 연산한다. SP는 분석 대상인 샘플 데이터에 대하여 일정한 확률로 표현된다. 해당 유전자 집합에 대한 샘플 i의 확률은 아래의 수학식 12와 같이 표현될 수 있다. 이는 수학식 3을 원용하여 해당 유전자들로 정의된 유전자 공간에서 계산한 밀도 행렬(

Figure pat00168
)과 샘플 i에서 해당 유전자의 발현 데이터로 구성한 발현 벡터(si)를 이용하여 계산한다.The analysis device may calculate the SP (330). SP is a value obtained by quantifying the degree of variation of the genomic system from normal in a sample of an individual cancer patient to be analyzed for all genes included in the whole genome modules. SP represents the degree of variation of the currently input sample based on the whole genome module. That is, SP corresponds to an analysis value for all genes included in the whole genome module. To this end, the analysis device extracts the indexes of all genes included in one or more modules of the whole genome module, obtains a density matrix from normal tissue, and constructs an expression vector with the corresponding gene from specific sample data to calculate SP. SP is expressed with a certain probability for the sample data to be analyzed. The probability of sample i for the corresponding gene set can be expressed as Equation 12 below. This is a density matrix calculated in the gene space defined by the corresponding genes using Equation 3 (
Figure pat00168
) And the expression vector (s i ) composed of the expression data of the corresponding gene in sample i.

Figure pat00169
Figure pat00169

실제 특정 샘플 i의 게놈 시스템의 변이 정도는 정상 조직의 전체 모듈에 포함된 유전자의 발현 데이터를 기준으로 판단할 수 있다. 따라서 SP는 결국 아래의 수학식 13과 같이 표현할 수 있다. 즉 SP는 수학식 13에서 연산한 Pi와 같다.In fact, the degree of variation of the genomic system of a specific sample i can be determined based on the expression data of genes included in all modules of normal tissue. Therefore, SP can be expressed as in Equation 13 below. That is, SP is equal to P i calculated in Equation 13.

Figure pat00170
Figure pat00170

수학식 13에서 GM은 정상 조직의 전체 모듈 중 하나 이상의 모듈에 포함된 모든 유전자 집합의 발현행렬을 의미하고, siM은 특정 샘플 데이터 si에서 해당 유전자를 식별하여 구성한 발현벡터를 의미한다.In Equation 13, G M refers to the expression matrix of all gene sets included in one or more modules of all modules of a normal tissue, and s iM refers to an expression vector constructed by identifying the corresponding gene from specific sample data s i .

분석장치는 SP를 연산하기 위하여 정상 조직의 게놈 모듈 중 하나 이상의 모듈에 속한 모든 유전자를 식별하고, 정상 조직 참조 데이터 DB의 전체 샘플에서 해당 유전자의 발현 데이터를 추출하여 밀도 행렬을, 종양조직 참조 샘플 데이터에서 해당 유전자의 발현 데이터를 추출하여 발현 벡터를 구성하여 SP를 연산한다.In order to calculate the SP, the analysis device identifies all genes belonging to one or more of the genome modules of normal tissues, extracts the expression data of the corresponding gene from the entire sample of the normal tissue reference data DB, and generates a density matrix, a tumor tissue reference sample. SP is calculated by constructing an expression vector by extracting the expression data of the gene from the data.

분석장치는 MSP를 연산할 수 있다(340). MSP는 모듈별 샘플 확률을 의미한다. 전술한 SP가 전체 게놈 모듈에 포함되는 모든 유전자를 기준으로 정상 조직으로부터의 변이 정도를 수량화한 샘플 확률이었다면, MSP는 각 모듈을 기준으로 계산한 샘플 확률을 나타낸다. 이를 위해 분석장치는 특정 게놈 모듈에 포함된 유전자 인덱스를 추출하여, 정상 조직에서 밀도 행렬을 구하고 특정 샘플 데이터에서 해당 유전자로 발현 벡터를 구성하여 MSP를 연산한다. MSP는 정상 조직의 특정 모듈에 대한 특정 샘플의 변이 정도를 나타낸다. 즉 MSP는 특정 샘플에서 모듈별로 게놈 시스템의 변이 정도를 정량화한 값이다. 질환(특정 종양 등)에 따라 특정 모듈에서 먼저 크게 변이가 나타날 수 있다. 따라서 MSP 분석도 질환 진단이나 예측을 위한 의미있는 지표가 된다. 나아가 후술하겠지만 MSP는 샘플을 일정하게 분류하는데 사용되기도 한다. MSP는 아래의 수학식 14와 같이 나타낼 수 있다.The analysis device may calculate the MSP (340). MSP means the sample probability for each module. If the above-described SP was a sample probability quantifying the degree of mutation from a normal tissue based on all genes included in the whole genome module, MSP represents the sample probability calculated based on each module. To this end, the analysis device extracts the gene index included in a specific genomic module, obtains a density matrix from a normal tissue, and constructs an expression vector with the corresponding gene from specific sample data to calculate MSP. MSP represents the degree of variability of a particular sample for a particular module of normal tissue. That is, MSP is a value obtained by quantifying the degree of variation of the genomic system for each module in a specific sample. Depending on the disease (specific tumor, etc.), a large variation may appear first in a specific module. Therefore, MSP analysis is also a meaningful index for disease diagnosis or prediction. Further, as will be described later, MSP is also used to classify samples uniformly. MSP can be expressed as Equation 14 below.

Figure pat00171
Figure pat00171

수학식 14에서 Gα은 정상 조직의 특정 모듈

Figure pat00172
에 포함된 유전자 집합의 발현행렬을 의미한다. s는 특정 샘플 데이터 si에서 특정 모듈
Figure pat00173
에 포함된 유전자 발현 벡터를 의미한다. 즉 MSP는 정상 조직의 특정 모듈을 기준으로 확인한 특정 샘플 조직의 게놈 시스템 변이를 나타낸다. 따라서 MSP를 연산하기 위해서는 사전에 게놈 모듈 네트워크가 구축되어야 한다. 유전자들을 포함하는 모듈들이 결정되어야 하기 때문이다.In Equation 14, G α is a specific module of normal tissue
Figure pat00172
It means the expression matrix of the gene set included in. s is the specific module in the specific sample data s i
Figure pat00173
It means a gene expression vector included in. In other words, MSP represents a genomic system variation of a specific sample tissue identified based on a specific module of a normal tissue. Therefore, in order to calculate MSP, a genome module network must be established in advance. This is because the modules containing the genes have to be determined.

한편 분석장치는 DSP를 연산할 수 있다(350). 게놈 모듈 도메인은 생물학적 기능이 유사한 게놈 모듈의 집합으로서 게놈 모듈 네트워크에서 인접한 모듈들로 구성된다. DSP는 특정 도메인에 속하는 모듈 중 하나 이상의 모듈에 포함된 모든 유전자를 기준으로 계산한 샘플 확률을 나타낸다. 이를 위해 분석장치는 특정 도메인에 속하는 모듈 중 하나 이상의 모듈에 포함된 모든 유전자의 인덱스를 추출하여, 정상 조직 데이터로부터 밀도행렬을 구하고 분석 대상 샘플 데이터에서 해당 유전자로 발현벡터를 구성하여 DSP를 연산한다. DSP는 정상 조직의 특정 게놈 모듈 도메인에 대한 분석 대상 샘플의 변이 정도를 나타낸다. 즉 DSP는 분석 대상 샘플에서 도메인별로 게놈 시스템의 변이 정도를 정량화한 값이다. DSP를 수학식 14로 설명하면 수학식 14에서 Gα은 정상 조직의 특정 도메인

Figure pat00174
에 속한 모듈에 포함된 유전자 집합의 발현행렬을 의미하고, s는 샘플 데이터 si에서 해당 유전자의 데이터를 추출하여 구성한 유전자 발현 벡터를 의미한다.Meanwhile, the analysis device may calculate the DSP (350). A genomic module domain is a collection of genomic modules having similar biological functions and is composed of adjacent modules in a genomic module network. DSP represents a sample probability calculated based on all genes included in one or more modules belonging to a specific domain. To this end, the analysis device extracts the indexes of all genes included in one or more modules belonging to a specific domain, obtains a density matrix from normal tissue data, and constructs an expression vector with the corresponding gene from the sample data to be analyzed to calculate DSP. . DSP represents the degree of variation of a sample to be analyzed for a specific genomic module domain of normal tissue. That is, DSP is a value obtained by quantifying the degree of variation of the genomic system for each domain in the sample to be analyzed. If DSP is described by Equation 14, G α is a specific domain of normal tissue in Equation 14
Figure pat00174
It refers to the expression matrix of the gene set included in the module belonging to and s refers to a gene expression vector constructed by extracting the data of the corresponding gene from the sample data s i .

분석장치는 샘플 확률에 대한 특정 유전자의 LOR(log odds ratio)을 연산할 수 있다(360). LOR은 특정 조건의 유무에 따른 확률의 log ratio를 의미하는 일반화된 용어이다. 전술한 LOR은 한 게놈 모듈에서 특정 유전자의 유무에 따라 나머지 유전자의 게놈 모듈에 대한 확률의 변동 정도를 의미하며 유전자 간의 연결성을 정량화한 값이다. 한편 한 샘플에서 특정 유전자의 유무에 따른 샘플 확률(SP, MSP, DSP)의 변동 역시 LOR에 해당한다. 즉 샘플 확률에 대한 특정 유전자의 LOR은 한 샘플에서 해당 유전자가 게놈 시스템의 변이에 미치는 영향을 정량화한 값이다. LOR은 하나의 유전자 단위의 분석 결과이다. 분석장치는 몇 가지 단위를 기준으로 LOR을 연산할 수 있다. (1) LORSP는 분석 대상 샘플에서 특정 유전자가 전체 게놈 모듈에 대한 샘플 확률(SP)에 미치는 영향의 정도를 정량화한 값이다. (2) LORMSP는 분석 대상 샘플에서 특정 유전자가 특정 게놈 모듈에 대한 샘플 확률(MSP)에 미치는 영향의 정도를 정량화한 값이다. (3) LORDSP는 분석 대상 샘플에서 특정 유전자가 특정 도메인에 속한 복수의 게놈 모듈에 대한 샘플 확률(DSP)에 미치는 영향의 정도를 정량화한 값이다.The analysis device may calculate a log odds ratio (LOR) of a specific gene with respect to the sample probability (360). LOR is a generalized term that means the log ratio of probability according to the presence or absence of a specific condition. The LOR described above refers to the degree of variation of the probability of the genome module of the remaining genes according to the presence or absence of a specific gene in one genome module, and is a value obtained by quantifying the connectivity between genes. On the other hand, fluctuations in sample probability (SP, MSP, DSP) according to the presence or absence of a specific gene in one sample also correspond to LOR. That is, the LOR of a specific gene with respect to the sample probability is a quantification of the effect of the gene on the mutation of the genome system in one sample. LOR is an analysis result of one gene unit. The analysis device can calculate LOR based on several units. (1) LOR SP is a value obtained by quantifying the degree of influence of a specific gene on the sample probability (SP) for the whole genome module in the sample to be analyzed. (2) LOR MSP is a quantification of the degree of influence of a specific gene on the sample probability (MSP) for a specific genomic module in the sample to be analyzed. (3) LOR DSP is a quantification of the degree of influence of a specific gene on the sample probability (DSP) for a plurality of genomic modules belonging to a specific domain in the sample to be analyzed.

도 15는 정상 조직 유전자 발현 데이터로 게놈 모듈 네트워크를 구축하고, 이후 샘플이 정상 조직과 비교하여 변이를 갖는 정보를 추정하는 예이다. 도 15와 달리, 초기에 종양 조직 유전자 발현 데이터로 게놈 모듈 네트워크를 구축하고, 이후 샘플과 종양 조직을 비교할 수 있다. 이 경우, 샘플이 종양 조직과 얼마나 차이가 있는지 또는 얼마나 유사한지를 파악하여 샘플에 대한 분석을 할 수도 있다.15 is an example of constructing a genome module network from normal tissue gene expression data, and then estimating information having mutations in samples compared with normal tissues. Unlike FIG. 15, a genomic module network may be initially constructed from tumor tissue gene expression data, and then samples and tumor tissues may be compared. In this case, it is possible to analyze the sample by determining how different or similar the sample is to the tumor tissue.

도 16은 정상 조직의 게놈 모듈을 이용하여 복수의 종양 조직 샘플의 샘플 확률(SP)을 연산한 예를 도시한다. 도 16에서 각 점(dot)은 각 샘플의 SP를 나타낸다. 도 16은 248개 유방종양 조직(BRCA) 샘플의 SP를 나타낸다. 도 16에서 A는 정상 유방 조직(BRNO)의 모듈에 포함된 모든 유전자에 대한 각 유방암 샘플의 SP를 나타낸다. 즉 전술한 수학식 13에서 정의한 SP에 해당한다. 도 16에서 B는 전체 유전자에 대한 각 유방암 샘플의 확률을 나타내고, C는 어떤 모듈에도 포함되지 않은 모든 유전자에 대한 확률을 나타낸다. 전술한 바와 같이 SP는 해당 샘플의 게놈 시스템 변이 정도를 나타낸다. 게놈 시스템의 변이가 큰 샘플일수록 SP가 낮은 값을 갖게 되고, 도 16의 그래프에서 왼쪽에 위치하게 된다. 도 16에서 BRNO 모듈에 포함된 모든 유전자에 대한 샘플 확률과 비교하였을 때, 전체 유전자에 대한 샘플 확률은 전체적으로 낮지만 샘플에 따른 추이(기울기)는 유사한 반면, 어떤 모듈에도 포함되지 않은 모든 유전자에 대한 샘플 확률은 기울기가 절반 수준으로 샘플에 따른 차이가 작다. 도 16의 그래프는 각 종양 샘플에서 모듈에 포함되지 않은 유전자는 게놈 시스템의 변이를 잘 반영하지 못하며 게놈 시스템의 변이를 주도하는 것은 모듈에 속한 유전자들임을 나타낸다. 도 16은 정상 조직의 게놈 모듈에 포함된 유전자를 이용한 샘플 확률, 즉 SP가 각 종양 샘플의 게놈 시스템의 변이를 잘 반영함을 나타낸다. Fig. 16 shows an example in which the sample probability (SP) of a plurality of tumor tissue samples is calculated using a genome module of a normal tissue. In Fig. 16, each dot represents the SP of each sample. 16 shows the SP of 248 breast tumor tissue (BRCA) samples. In FIG. 16, A shows the SP of each breast cancer sample for all genes included in the module of normal breast tissue (BRNO). That is, it corresponds to the SP defined in Equation 13 above. In FIG. 16, B represents the probability of each breast cancer sample for all genes, and C represents the probability for all genes not included in any module. As described above, SP represents the degree of variation in the genomic system of the sample. The larger the variation of the genomic system, the lower the SP value, and is located on the left in the graph of FIG. In FIG. 16, when compared with the sample probability for all genes included in the BRNO module, the sample probability for all genes is generally low, but the trend (slope) according to the sample is similar, whereas for all genes not included in any module. The sample probability is about half the slope, so the difference between samples is small. The graph of FIG. 16 shows that genes that are not included in the module in each tumor sample do not reflect mutations in the genomic system well, and it is the genes belonging to the module that lead the mutations in the genome system. Fig. 16 shows that the sample probability, that is, SP, using a gene included in the genome module of a normal tissue, well reflects the variation of the genomic system of each tumor sample.

도 17은 SP를 기준으로 구분한 종양 조직 샘플군을 비교한 예를 도시한다. 도 17은 종양조직 참조 데이터 DB에서 248명 유방암 환자의 유전자 발현 데이터와 함께 저장된 각 환자의 사망 여부와 사망 시점 정보를 이용하여 카플란-마이어(Kaplan-Meier) 생존 분석을 수행한 결과이다. 도 17(A)는 각 샘플에서 SP를 계산하고 SP가 0.746 이상인 샘플군(A)과 0.746 미만인 샘플군(B)으로 나누어 생존 분석을 수행한 결과이다. 생존 곡선 주변 영역은 95% 신뢰구간을 의미한다. 도 17(A)는 SP가 0.746 이상인 샘플군이 0.746 미만인 샘플군에 비해 해당 환자가 약 1,700일 동안 생존할 확률이 유의하게 높음(p-value<0.05)을 나타낸다. 도 17(B)는 종래 유방암 치료의 기준으로 흔히 사용되는 에스트로겐 수용체(ER)의 발현 유무로 샘플을 분류하여 각 샘플군의 생존 분석을 수행한 결과이다. 도 17(B)는 유방암 샘플에서 ER이 발현이 존재하는 샘플군(A)과 존재하지 않는 샘플군(B)의 생존 분석을 수행한 결과이다. 도 17(B)는 ER의 발현 유무가 유방암환자의 생존률과 무관함을 나타낸다. 도 17은 정상 조직의 게놈 모듈을 이용하여 신규 암환자 샘플의 SP를 계산하면 특정 기간까지 해당 환자의 생존 예측이 가능함을 보여준다.17 shows an example of comparing tumor tissue sample groups classified based on SP. FIG. 17 is a result of performing a Kaplan-Meier survival analysis using information on the death and death of each patient stored together with gene expression data of 248 breast cancer patients in the tumor tissue reference data DB. FIG. 17(A) is a result of performing a survival analysis by calculating SP in each sample and dividing it into a sample group (A) having an SP of 0.746 or more and a sample group (B) having an SP of less than 0.746. The area around the survival curve represents the 95% confidence interval. FIG. 17(A) shows that the sample group having an SP of 0.746 or more has a significantly higher probability of survival for about 1,700 days (p-value<0.05) than the sample group having an SP of less than 0.746. FIG. 17(B) is a result of performing a survival analysis of each sample group by classifying samples by the presence or absence of expression of an estrogen receptor (ER), which is commonly used as a standard for conventional breast cancer treatment. Fig. 17(B) is a result of performing a survival analysis of a sample group (A) in which ER expression is present and a sample group (B) in which ER is not expressed in breast cancer samples. 17(B) shows that the presence or absence of ER expression is independent of the survival rate of breast cancer patients. 17 shows that by calculating the SP of a sample of a new cancer patient using a genome module of a normal tissue, it is possible to predict the survival of the patient until a specific period.

분석장치는 샘플 확률을 이용하여 종양조직 참조 데이터의 샘플을 분류할 수 있다. 도 18은 MSP를 기준으로 종양 조직의 샘플을 분류한 예이다. 도 18은 정상 유방 조직(BRNO)에서 분리한 85개 게놈 모듈에 대한 248명 유방암 환자의 조직 샘플(BRCA)의 MSP를 계산하여 샘플을 분류한 예이다. 도 18은 정상 유방 조직의 게놈 모듈에 대한 유방암 샘플의 MSP를 계층적 클러스터링(hierarchical clustering)을 통해 샘플을 분류한 예이다. 샘플의 분류는 정상 조직의 게놈 모듈에 대한 MSP를 전체 또는 일부만 사용하거나 MSP 대신 DSP를 사용하여 수행할 수도 있다. The analysis device may classify a sample of tumor tissue reference data using the sample probability. 18 is an example of classifying a sample of tumor tissue based on MSP. 18 is an example of classifying samples by calculating the MSP of a tissue sample (BRCA) of 248 breast cancer patients for 85 genomic modules isolated from normal breast tissue (BRNO). 18 is an example of classifying samples through hierarchical clustering of MSPs of breast cancer samples against genomic modules of normal breast tissue. Classification of samples may be performed using all or only part of the MSP for the genomic module of normal tissue or using DSP instead of MSP.

도 18에서 하단의 히트맵(heat map)은 각 모듈에 대하여 샘플별로 MSP를 계산한 결과를 도시한다. 도 18에서 하단의 히트맵의 가로축은 클러스터링으로 정렬된 유방암 샘플에 해당하며, 세로축은 정상 유방 조직의 게놈 모듈을 도메인에 따라 분류한 것이다. 도 18에서 상단의 수상도(dendrogram)는 정상 유방 조직의 85개 모듈에 대한 MSP 전체를 기준으로 유방암 샘플의 클러스터링을 수행한 결과를 도시한다. 도 18에서 R로 시작하는 표기는 계층적 분류에 따른 샘플군을 의미한다. 샘플 개수의 편차를 고려하여 총 8개의 유방암 샘플군(R.1.1, R.1.2.1, R.1,2,2, R.2.1, R.2.2.1.1, R.2.2.1.2, R.2.2.2.1, R.2.2.2.2)으로 분류하였다. 도 18의 히트맵에서 R.2.1은 다른 샘플군에 비해 MSP가 높은 샘플로 구성되었음을 나타낸다.In FIG. 18, a heat map at the bottom shows the result of calculating the MSP for each sample for each module. In FIG. 18, the horizontal axis of the heat map at the bottom corresponds to the breast cancer samples arranged by clustering, and the vertical axis is the classification of genomic modules of normal breast tissue according to domains. In FIG. 18, the upper dendrogram shows the results of clustering of breast cancer samples based on the entire MSP for 85 modules of normal breast tissue. In FIG. 18, the notation starting with R means a sample group according to hierarchical classification. Considering the variation in the number of samples, a total of 8 breast cancer sample groups (R.1.1, R.1.2.1, R.1,2,2, R.2.1, R.2.2.1.1, R.2.2.1.2, R. 2.2.2.1, R.2.2.2.2). In the heat map of FIG. 18, R.2.1 indicates that the sample was composed of a sample having a higher MSP than other sample groups.

도 18의 수상도 하단에 표시된 점으로 구성된 3개 열은 위에서부터 에스트로겐 수용체(ER), 프로게스테론 수용체(PR) 및 HER2 수용체의 발현 유무를 나타낸다. 이들 수용체의 발현 유무는 종래 유방암 진단 및 약물 치료 방침에 사용되는 정보로서 유방암 유전자 발현 데이터와 함께 제공되는 샘플 정보에서 추출한 결과이다. 검은색 점은 해당 샘플에서 해당 수용체가 발현함을, 흰색 점은 발현하지 않음을 의미한다. 도 18에서 MSP를 이용한 샘플 클러스터링은 종양의 특성 및 진행정도와 연관성이 높은 결과를 나타낸다. 예컨대, 샘플군 R.1.2.1과 R.1.2.2에서 ER, PR, HER2이 모두 발현하지 않은 삼중음성샘플(triple negative)이 나머지 샘플군에 비해 확연히 많음을 알 수 있다. 종래 유방암 진단에서 삼중음성의 경우 가장 위험도가 높은 환자로 분류되며 반대로 ER, PR이 발현되는 경우 상대적으로 위험도가 낮은 환자로 분류되고 있다.The three columns consisting of dots indicated at the bottom of the aqueous phase of FIG. 18 indicate the presence or absence of estrogen receptor (ER), progesterone receptor (PR), and HER2 receptor expression from above. The presence or absence of expression of these receptors is information used in conventional breast cancer diagnosis and drug treatment policies and is a result extracted from sample information provided together with breast cancer gene expression data. Black dots indicate that the receptor is expressed in the sample, and white dots indicate that it does not. In FIG. 18, sample clustering using MSP shows a result that is highly correlated with tumor characteristics and progression. For example, it can be seen that in the sample groups R.1.2.1 and R.1.2.2, triple negative samples in which all ER, PR, and HER2 were not expressed were significantly more than the remaining sample groups. In the case of conventional breast cancer diagnosis, triple negative is classified as the highest risk patient, and conversely, when ER and PR are expressed, it is classified as a relatively low risk patient.

도 19는 정상 조직의 게놈 모듈 네트워크에 종양 조직 샘플군의 각 모듈별 평균 MSP를 표시한 예이다. 도 19은 정상 유방 조직의 게놈 모듈 네트워크에 도 18에서 분류한 8개의 유방암 샘플군의 각 모듈별 평균 MSP를 표시한 결과이다. 한편 도 19의 우측 하단에 도시한 게놈 모듈 네트워크는 정상 유방 조직(BRNO) 전체 샘플의 각 모듈별 MSP의 평균을 표시한 결과이다. 도 19에서 각 게놈 모듈 네트워크의 모듈은 평균 MSP가 1에 가까울수록 밝은색으로, 0에 가까울수록 어두운 색으로 표시하였다. 즉, 도 19는 각 유방암 샘플군에서 게놈 시스템의 변이가 주로 일어나는 모듈 및 도메인을 나타낸다. 도 19는 샘플군에 따라 변이가 주로 일어나는 도메인에 차이가 있음을 나타낸다. 예컨대, 샘플군 R.1.2.2는 CCDR 도메인의 모듈 변이가 심하게 발생하였다. 전술한 바와 같이 CCDR 도메인은 세포 주기 및 DNA 수선에 관련한 도메인이다. 따라서 특정 환자의 샘플이 R.1.2.2에 속한다면, 세포 주기 조절을 타겟으로 하는 약물 치료는 효과가 없을 것으로 예상된다. 이미 세포 주기와 관련된 기작이 제대로 동작하지 않을 가능성이 매우 높기 때문이다. 또한, 샘플군 R.2.1은 61번 모듈을 제외한 모든 모듈에서 정상 유방 조직과 유사한 수준의 MSP를 나타낸다. 따라서 R.2.1에 속하는 환자는 비교적 정상에 가까우며 유방암 초기 환자로서 다양한 치료가 가능할 것으로 예상된다. 이와 같이 MSP와 MSP를 통한 샘플 분류를 환자 맞춤 치료를 위한 기준으로 사용할 수도 있다. 나아가 구축한 게놈 모듈 네트워크의 모듈 및 도메인 분류가 생물학적으로 의미 있는 기술임을 나타낸다. 19 is an example of displaying the average MSP for each module of a tumor tissue sample group in a genome module network of a normal tissue. FIG. 19 is a result of displaying the average MSP for each module of the eight breast cancer sample groups classified in FIG. 18 on the genome module network of normal breast tissue. Meanwhile, the genome module network shown in the lower right of FIG. 19 is a result of displaying the average of MSPs for each module of the entire sample of normal breast tissue (BRNO). In FIG. 19, the modules of each genomic module network are displayed in a lighter color as the average MSP is closer to 1 and darker as the average MSP is closer to 0. That is, FIG. 19 shows modules and domains in which mutations in genomic systems mainly occur in each breast cancer sample group. 19 shows that there are differences in domains in which mutations mainly occur according to sample groups. For example, in the sample group R.1.2.2, module variation of the CCDR domain was severely generated. As described above, the CCDR domain is a domain related to the cell cycle and DNA repair. Therefore, if a sample from a specific patient belongs to R.1.2.2, it is expected that drug therapy targeting cell cycle regulation will not be effective. This is because there is a very high possibility that the mechanisms related to the cell cycle are not working properly. In addition, sample group R.2.1 showed similar level of MSP to normal breast tissue in all modules except for module 61. Therefore, patients belonging to R.2.1 are relatively close to normal, and various treatments are expected as early breast cancer patients. In this way, sample classification through MSP and MSP can also be used as a criterion for personalized treatment. Furthermore, it shows that the module and domain classification of the constructed genomic module network is a biologically meaningful technology.

도 20은 특정 유전자 집단의 밀도 행렬을 유전자 공간에서 정의하고 해당 유전자 집합에 대한 분석 대상 샘플의 확률을 도시한 예이다. 도 20은 LOR 연산을 위한 값을 설명하기 위한 것이다. 도 20에서 일반 (얇은) 실선의 타원은 해당 유전자 집단에 대한 밀도 행렬(

Figure pat00175
(S))을 나타내고, 굵은 실선 타원은 해당 유전자 집단에서 유전자 j를 배제하였을 때의 밀도 행렬(
Figure pat00176
(S) \j)을 나타낸다. 도 20에서 점선은 각 밀도 행렬에 대한 샘플의 확률 궤적을 나타낸다. LOR은 아래의 수학식 15와 같이 표현할 수 있다. 한편, LOR은 특정한 모듈에 속한 특정 유전자에 대하여 연산할 수 있다.FIG. 20 is an example of defining a density matrix of a specific gene group in a gene space and showing the probability of a sample to be analyzed for the gene set. 20 is for explaining values for LOR operation. In FIG. 20, the ellipse of the normal (thin) solid line is the density matrix for the corresponding gene group (
Figure pat00175
(S) ), and the bold solid ellipse indicates the density matrix when gene j is excluded from the gene group (
Figure pat00176
(S) \j ). In FIG. 20, a dotted line represents a probability trajectory of a sample for each density matrix. LOR can be expressed as Equation 15 below. On the other hand, LOR can be calculated on a specific gene belonging to a specific module.

Figure pat00177
Figure pat00177

LOR는 샘플 데이터 si에서 유전자 j가 샘플 확률(SP, MSP, DSP)에 미치는 영향을 정량화한 값이다. 샘플 확률이 분석 대상 샘플에서 게놈 시스템의 변이 정도를 정량화한 값이라면 LOR은 해당 샘플에서 특정 유전자가 상기 샘플 확률에 미치는 영향의 정도를 정량화한 값이다. 게놈 시스템의 변이를 촉진하는 유전자의 경우 LOR이 음(negative)의 값을 갖고, 반대로 변이를 억제하는 유전자의 경우 LOR이 양(positive)의 값을 갖는다.LOR is a quantification of the effect of gene j on sample probability (SP, MSP, DSP) in sample data s i . If the sample probability is a value obtained by quantifying the degree of variation of the genomic system in the sample to be analyzed, the LOR is a value obtained by quantifying the degree of the effect of a specific gene on the sample probability in the sample. In the case of a gene that promotes mutation of the genomic system, the LOR has a negative value, and in the case of a gene that suppresses the mutation, the LOR has a positive value.

도 21은 정상 조직의 특정 유전자 집단의 밀도행렬을 이용하여 종양 조직의 각 샘플에서 계산한 해당 유전자의 LOR을 도시한 예이다. 도 21은 정상 유방 조직의 유전자 발현 데이터로부터 계산한 특정 유전자 집단의 밀도행렬을 이용하여 248개 유방종양 조직의 각 샘플에서 해당 유전자 집단에 속하는 유전자를 순차적 복원 추출함으로써 계산한 LOR을 도시한 예이다. 도 21에서 각 유전자는 248개 유방암 샘플에서 다양한 분포의 LOR을 갖는다. 도 21는 각 유전자가 게놈 시스템의 변이에 미치는 영향도가 유방암 환자에 따라 다름을 나타낸다. 도 21에서 특정 유전자의 LOR이 0에서 크게 벗어나는 유방암 샘플은 게놈 시스템 변이에 해당 유전자에 의한 영향을 많이 받는 샘플임을 의미한다.21 is an example showing the LOR of a corresponding gene calculated in each sample of a tumor tissue using a density matrix of a specific gene group in a normal tissue. 21 is an example showing the LOR calculated by sequentially restoring and extracting genes belonging to the corresponding gene group from each sample of 248 breast tumor tissues using the density matrix of a specific gene group calculated from gene expression data of normal breast tissue. . In Figure 21, each gene has a different distribution of LOR in 248 breast cancer samples. Fig. 21 shows that the degree of influence of each gene on the mutation of the genomic system varies according to breast cancer patients. In FIG. 21, a breast cancer sample in which the LOR of a specific gene is greatly deviated from 0 means a sample that is highly affected by the gene in the genome system mutation.

수학식 15에서 (1) LORSP경우 Pi는 수학식 13에서 정의한 대로 분석 대상 샘플 si의 SP에 해당하고, Pi\j는 전체 게놈 모듈에 속한 유전자 중에서 유전자 j를 배제하였을 때 해당 유전자에 대한 샘플 si의 SP를 연산한 값을 의미한다. (2) LORMSP경우 Pi는 수학식 14에서 정의한 대로 특정 모듈

Figure pat00178
에 대한 분석 대상 샘플 si의 MSP에 해당하고, Pi\j는 특정 모듈
Figure pat00179
에 속한 유전자 중에서 유전자 j를 배제하였을 때 해당 유전자에 대한 샘플 si의 MSP를 연산한 값을 의미한다. (3) LORDSP경우 Pi는 특정 도메인에 속한 모든 모듈 중 하나 이상의 모듈에 포함된 유전자에 대한 분석 대상 샘플 si의 DSP를 연산한 값이고, Pi\j는 해당 유전자 중에서 유전자 j를 배제하였을 때 샘플 si의 DSP를 연산한 값을 의미한다.In Equation 15 (1) In the case of LOR SP , P i corresponds to the SP of the sample s i to be analyzed as defined in Equation 13, and P i \ j is the corresponding gene when gene j is excluded from the genes belonging to the whole genome module. It means the calculated value of SP of sample s i for. (2) In the case of LOR MSP , P i is a specific module as defined in Equation 14
Figure pat00178
Corresponds to the MSP of the sample s i to be analyzed for, and P i \j is a specific module
Figure pat00179
It means the value obtained by calculating the MSP of the sample s i for the gene when gene j is excluded from the genes belonging to. (3) In the case of LOR DSP , P i is a value obtained by calculating the DSP of the sample s i to be analyzed for genes included in one or more modules of all modules belonging to a specific domain, and P i \ j excludes the gene j from the genes. It means the value calculated by DSP of the sample s i .

분석장치는 정상 조직의 특정 유전자 조합의 발현 데이터로 계산한 밀도행렬과 분석 대상 샘플에서 해당 유전자들로 구성한 발현 벡터를 이용하여 샘플 확률을 구하고 특정 유전자를 배제하였을 때의 샘플 확률을 구하여 LOR을 연산할 수 있다. 또한, 특정한 모듈에 속한 유전자에 대한 분석을 수행할 수도 있기 때문에, 분석장치는 게놈 모듈 DB를 참조하여 특정 모듈에 속한 유전자를 식별하고, 해당 유전자에 대한 LOR을 연산할 수도 있다.The analysis device calculates the LOR by calculating the sample probability using the density matrix calculated from the expression data of a specific gene combination in normal tissue and the expression vector composed of the corresponding genes in the sample to be analyzed, and calculating the sample probability when a specific gene is excluded. can do. In addition, since it is possible to perform analysis on a gene belonging to a specific module, the analysis device may identify a gene belonging to a specific module by referring to the genome module DB and calculate the LOR for the gene.

전술한 LOR에 대한 설명에서 정상 조직을 이용하여 분석 대상 샘플의 각 유전자의 LOR을 연산한 예를 설명하였다. 경우에 따라서는 종양 조직을 이용하여 분석 대상 샘플의 각 유전자의 LOR을 연산할 수도 있다. 이 경우 종양 조직의 유전자 발현 데이터에서 분리한 게놈 모듈로부터 밀도 행렬을 구하고, 이후 분석 대상 샘플의 발현 벡터를 구성하여 각 유전자의 LOR을 연산할 수 있다. In the above description of the LOR, an example of calculating the LOR of each gene of the sample to be analyzed using normal tissue was described. In some cases, it is also possible to calculate the LOR of each gene of the sample to be analyzed using tumor tissue. In this case, the density matrix is obtained from the genome module separated from the gene expression data of the tumor tissue, and the LOR of each gene can be calculated by constructing the expression vector of the sample to be analyzed.

도 22는 정상 조직의 게놈 모듈을 이용하여 종양 조직의 각 샘플에서 계산한 유전자의 LOR의 예이다. 도 22는 정상 유방 조직(BRNO)의 모듈을 이용하여 248개 유방종양 조직(BRCA)의 각 샘플에서 계산한 유전자의 LOR의 예이다. 도 22의 가로축은 도 18의 MSP를 이용한 샘플 분류 결과에 따라 배열한 유방암 샘플에 해당한다. 즉, 도 22는 유방암의 각 샘플에 대한 일부 유전자의 LOR을 점 도표로 도시한 것이다. 도 22는 유방암 환자의 샘플에 따라 패턴이 일정한 20개의 유전자의 LOR을 예로 도시한다. 그래프에서 ×로 표기한 유전자는 모두 음의 LOR값을 갖는다. 즉, 해당 유전자는 유방암을 촉진하는 유전자라고 할 수 있다. 한편, ○으로 표기한 유전자는 양의 LOR 값을 갖는다. 따라서 해당 유전자는 유방암을 억제하는 유전자라고 할 수 있다. 이와 같이 일부 유전자의 LOR은 종양과 같은 특정 질환에서도 일정한 경향의 값을 갖는다. 따라서 LOR이 유전자 분석을 위한 특정 지표로 사용될 수 있다는 것을 알 수 있다.22 is an example of the LOR of a gene calculated in each sample of a tumor tissue using a genome module of a normal tissue. 22 is an example of the LOR of genes calculated in each sample of 248 breast tumor tissues (BRCA) using a normal breast tissue (BRNO) module. The horizontal axis of FIG. 22 corresponds to breast cancer samples arranged according to the result of sample classification using MSP of FIG. 18. That is, FIG. 22 shows the LOR of some genes for each sample of breast cancer in a dot plot. 22 shows an example of the LOR of 20 genes having a constant pattern according to a sample of breast cancer patients. In the graph, all genes marked with × have negative LOR values. In other words, the gene can be said to be a gene that promotes breast cancer. On the other hand, genes marked with ○ have a positive LOR value. Therefore, the gene can be said to be a gene that suppresses breast cancer. As such, the LOR of some genes has a certain tendency even in certain diseases such as tumors. Thus, it can be seen that LOR can be used as a specific indicator for genetic analysis.

한편, 게놈 모듈 네트워크는 전술한 기본 게놈 모듈 네트워크 외에 다른 접근으로도 구축될 수 있다. 유전자 발현 데이터를 일정하게 필터링하고, 필터링된 데이터를 기준으로 게놈 모듈 네트워크를 구축할 수 있다. 이와 같이 필터링된 데이터에 기반한 게놈 모듈 네트워크를 필터링 기반 게놈 모듈 네트워크라고 명명한다. On the other hand, the genome module network can be constructed by other approaches other than the basic genome module network described above. Gene expression data can be constantly filtered, and a genome module network can be constructed based on the filtered data. The genomic module network based on the filtered data is referred to as a filtering-based genomic module network.

도 23은 필터링 기반 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법(400)에 대한 순서도의 예이다.23 is an example of a flow chart of a method 400 for analyzing sample data based on a filtering-based genome module network.

분석장치는 두 종류의 유전자 발현 데이터를 사용한다. 하나는 게놈 모듈 네트워크를 구축하기 위한 기준이 되는 특정 조직에 대한 제1 유전자 발현 데이터이다. 여기서 특정 조직은 정상 조직 또는 종양 조직일 수 있다.The analysis device uses two types of gene expression data. One is the first gene expression data for a specific tissue that serves as the basis for constructing a genomic module network. Here, the specific tissue may be a normal tissue or a tumor tissue.

다른 하나는 분석 대상이 되는 샘플 조직에 대한 제2 유전자 발현 데이터이다. 분석 대상 조직은 전술한 정상 조직과 동일한 위치에 발생한 종양 조직이다.The other is the second gene expression data for the sample tissue to be analyzed. The tissue to be analyzed is a tumor tissue generated at the same location as the above-described normal tissue.

분석장치는 정상 조직 또는 종양 조직에 대한 제1 유전자 발현 데이터를 이용하여 전술한 제1 게놈 모듈 네트워크를 구축한다(410). 제1 게놈 모듈 네트워크는 정상 조직 또는 종양 조직에 대한 유전자 발현 데이터를 기준으로 구축된다. 제1 게놈 모듈 네트워크는 모듈 식별자, 모듈에 속하는 유전자 식별자, 모듈 간의 연결 정보, 도메인 식별자, 도메인을 구성하는 모듈의 식별자, 도메인을 구성하는 유전자 식별자, 하나의 모듈에 속한 유전자 간의 연결 정보(유전자 네트워크) 등으로 구성될 수 있다. 게놈 모듈 네트워크가 구축되면 모듈과 소속되는 유전자가 매칭되고, 모듈과의 연결성 및 모듈에 속한 유전자의 연결성도 완성된다.The analysis device constructs the above-described first genomic module network by using the first gene expression data for normal tissue or tumor tissue (410). The first genomic module network is built on the basis of gene expression data for normal or tumor tissue. The first genomic module network includes a module identifier, a gene identifier belonging to a module, connection information between modules, a domain identifier, an identifier of a module constituting a domain, a gene identifier constituting a domain, and connection information between genes belonging to one module (gene network ), etc. When the genome module network is established, the genes belonging to the module are matched, and the connectivity with the module and the connectivity of the genes belonging to the module are completed.

분석장치는 제1 게놈 모듈 네트워크에 속한 특정 모듈을 기준으로 제1 유전자 발현 데이터 및 샘플 조직의 제2 유전자 발현 데이터에 대한 필터링을 수행한다(420). 구체적인 필터링 과정에 대해서는 후술한다. 제1 게놈 모듈 네트워크는 복수의 모듈로 구성되고, 어느 하나의 모듈을 적어도 하나의 모듈과 연결성을 갖는다. 즉, 어느 하나의 모듈은 적어도 하나의 모듈에 일정한 정보를 전달한다. 필터링 과정은 비교적 많은 정보를 전달하는 어느 하나의 모듈(경우에 따라서는 복수의 모듈)에 대한 정보 전달을 차단(필터링)하는 과정에 해당한다. 정보 전달이 차단되는 특정 모듈은 전술한 커널 모듈일 수 있다. 커널 모듈이 엔트로피가 다른 모듈에 비하여 낮고, 다양한 생물학적 과정에 관여할 가능성이 높다고 설명한 바 있다. 한편 커널 도메인에 복수의 커널 모듈이 속할 수 있다. 이 경우 커널 모듈 중 적어도 어느 하나를 기준으로 필터링을 할 수 있다. 예컨대, 커널 모듈 중 가장 엔트로피가 낮은 모듈을 기준으로 필터링을 할 수 있다. The analysis device performs filtering on the first gene expression data and the second gene expression data of the sample tissue based on a specific module belonging to the first genome module network (420). A detailed filtering process will be described later. The first genomic module network is composed of a plurality of modules, and has connectivity between any one module and at least one module. That is, any one module delivers certain information to at least one module. The filtering process corresponds to a process of blocking (filtering) information transfer to any one module (or a plurality of modules in some cases) that transfers a relatively large amount of information. The specific module from which information transmission is blocked may be the aforementioned kernel module. It has been explained that the kernel module has a lower entropy than other modules and is more likely to be involved in various biological processes. Meanwhile, a plurality of kernel modules may belong to the kernel domain. In this case, filtering may be performed based on at least one of the kernel modules. For example, filtering may be performed based on a module having the lowest entropy among kernel modules.

필터링 대상이 되는 특정 모듈은 일정한 기준값 이하의 엔트로피를 갖는 모듈일 수 있다. 여기서 기준값은 분석 대상이 되는 조직의 종류, 질환의 종류, 데이터 수집 환경 등에 따라 다른 값이 사용될 수 있다.The specific module to be filtered may be a module having an entropy less than a certain reference value. Here, the reference value may be a different value depending on the type of tissue to be analyzed, the type of disease, and the data collection environment.

분석장치는 필터링된 제1 유전자 발현 데이터를 이용하여 제2 게놈 모듈 네트워크를 구축한다(430). 게놈 모듈 네트워크를 구축하는 과정은 전술한 바와 같다. 제2 게놈 모듈 네트워크는 일정하게 필터링된 데이터를 기준으로 구축된다.The analysis device constructs a second genome module network using the filtered first gene expression data (430). The process of constructing the genome module network is as described above. The second genome module network is built on the basis of the constantly filtered data.

분석장치는 구축된 제2 게놈 모듈 네트워크를 기준으로 샘플 조직의 필터링된 제2 유전자 발현 데이터에 대한 모듈 맵핑을 수행한다(440). 즉 분석장치는 제2 게놈 모듈 네트워크에서 특정 모듈에 속하는 유전자 식별자를 이용하여 샘플 조직의 제2 유전자 발현 데이터가 각각 어떤 모듈에 속하게 되는지 확인한다.The analysis device performs module mapping on the filtered second gene expression data of the sample tissue based on the constructed second genome module network (440). That is, the analysis device identifies which module each of the second gene expression data of the sample tissue belongs to by using the gene identifier belonging to the specific module in the second genome module network.

분석장치는 구축된 제2 게놈 모듈 네트워크의 모듈을 기준으로 제1 유전자 발현 데이터와 제2 유전자 발현 데이터를 비교 분석한다(450). 분석장치는 게놈 모듈 네트워크의 전체 모듈, 게놈 모듈 네트워크에 속한 복수의 모듈 또는 게놈 모듈 네트워크에 속한 어느 하나의 모듈(타깃 모듈)을 기준으로 분석을 수행한다.The analysis device compares and analyzes the first gene expression data and the second gene expression data based on the module of the constructed second genome module network (450). The analysis device performs analysis based on the entire module of the genome module network, a plurality of modules belonging to the genome module network, or any one module (target module) belonging to the genome module network.

분석장치는 타깃 모듈에 속한 제1 유전자 발현 데이터와 동일한 타깃 모듈에 속한 제2 유전자 발현 데이터의 차이를 비교한다. 이를 통해 분석장치는 샘플 조직이 정상 조직 또는 종양 조직 대비하여 어떤 변화(변이)가 있었는지 정량적으로 확인할 수 있다. 분석장치는 필터링 전의 제1 유전자 발현 데이터 및 필터링 전의 제2 유전자 발현 데이터를 이용하여 샘플 조직의 변이를 분석할 수 있다. 또 분석장치는 필터링된 제1 유전자 발현 데이터 및 필터링된 제2 유전자 발현 데이터를 이용하여 샘플 조직의 변이를 분석할 수 있다.The analysis device compares the difference between the first gene expression data belonging to the target module and the second gene expression data belonging to the same target module. Through this, the analysis device can quantitatively check what kind of change (mutation) has occurred in the sample tissue compared to the normal tissue or tumor tissue. The analysis device may analyze the variation of the sample tissue using the first gene expression data before filtering and the second gene expression data before filtering. In addition, the analysis device may analyze the variation of the sample tissue using the filtered first gene expression data and the filtered second gene expression data.

도 24는 필터링 기반 게놈 모듈 네트워크를 이용하여 샘플 데이터에 대한 분석 지표를 산출하는 과정(500)에 대한 예이다.24 is an example of a process 500 of calculating an analysis index for sample data using a filtering-based genome module network.

도 24는 5가지 종류의 DB를 도시한다. 제1 유전체 데이터 DB는 복수의 정상 조직 또는 종양 조직에 대한 유전자 발현 정보를 저장한다. 제1 유전체 데이터 DB는 전술한 제1 유전자 발현 데이터를 저장한다. 제1 유전체 필터링 데이터 DB는 제1 유전체 데이터 DB의 데이터를 일정하게 필터링한 데이터를 저장한다. 24 shows five types of DBs. The first genome data DB stores gene expression information for a plurality of normal tissues or tumor tissues. The first genome data DB stores the above-described first gene expression data. The first genome filtering data DB stores data obtained by uniformly filtering data of the first genome data DB.

게놈 모듈 DB는 게놈 모듈 네트워크를 구축한 후 생성되는 정보를 저장한다. 제2 유전체 데이터 DB는 분석 대상의 유전자 발현 정보를 저장한다. 제2 유전체 데이터 DB는 전술한 제2 유전자 발현 데이터를 저장한다. 제2 유전체 데이터 DB는 종양 조직에 대한 유전자 발현 정보를 저장할 수 있다. 제2 유전체 데이터 DB는 복수의 종양 조직의 유전자 발현 정보와 해당 샘플의 개별적 특성 정보를 저장할 수 있다. 이하 제2 유전체 데이터 DB는 종양 환자의 유전자 발현 정보를 저장한다고 가정한다. 제2 유전체 필터링 데이터 DB는 제2 유전체 데이터 DB의 데이터를 일정하게 필터링한 데이터를 저장한다. The genome module DB stores information generated after constructing a genome module network. The second genome data DB stores gene expression information to be analyzed. The second genome data DB stores the above-described second gene expression data. The second genome data DB may store gene expression information on tumor tissue. The second genome data DB may store gene expression information of a plurality of tumor tissues and individual characteristic information of a corresponding sample. Hereinafter, it is assumed that the second genome data DB stores gene expression information of a tumor patient. The second genome filtering data DB stores data obtained by uniformly filtering data of the second genome data DB.

도 24는 5개의 DB를 별도로 도시하였지만, 복수의 DB가 물리적으로 동일한 저장 장치에 위치할 수도 있다.Although FIG. 24 shows five DBs separately, a plurality of DBs may be physically located in the same storage device.

분석장치는 제1 유전체 데이터 DB에서 정상 조직 또는 종양 조직에 대한 제1 유전자 발현 데이터를 획득한다. 전술한 바와 같이 분석장치는 제1 유전자 발현 데이터를 기준으로 제1 게놈 모듈 네트워크를 구축한다(510). The analysis device acquires first gene expression data for a normal tissue or a tumor tissue from the first genome data DB. As described above, the analysis device constructs a first genome module network based on the first gene expression data (510).

분석장치는 제1 게놈 모듈 네트워크에 속한 특정 모듈을 기준으로 제1 유전자 발현 데이터 및 제2 유전자 발현 데이터를 필터링한다(520). 제1 유전체 필터링 데이터 DB는 필터링된 제1 유전자 발현 데이터를 저장한다. 제2 유전체 필터링 데이터 DB는 필터링된 제2 유전자 발현 데이터를 저장한다.The analysis device filters the first gene expression data and the second gene expression data based on a specific module belonging to the first genome module network (520). The first genome filtering data DB stores the filtered first gene expression data. The second genome filtering data DB stores the filtered second gene expression data.

분석장치는 필터링된 제1 유전자 발현 데이터를 기준으로 새로운 제2 게놈 모듈 네트워크를 구축한다(530). 게놈 모듈 DB는 구축된 제2 게놈 모듈 네트워크에 대한 정보를 저장한다.The analysis device constructs a new second genome module network based on the filtered first gene expression data (530). The genome module DB stores information on the constructed second genome module network.

분석장치는 제2 게놈 모듈 네트워크의 타깃 모듈에 속한 유전자를 식별하기 위하여 게놈 모듈 DB에서 특정한 유전자의 인덱스를 추출할 수 있다(540). 게놈 모듈 DB는 모듈 식별자, 도메인 식별자, 유전자 식별자, 모듈과 유전자를 매칭한 테이블, 도메인과 모듈을 매칭한 테이블, 도메인과 유전자를 매칭한 테이블 등을 포함할 수 있다.The analysis device may extract an index of a specific gene from the genome module DB in order to identify the gene belonging to the target module of the second genome module network (540 ). The genome module DB may include a module identifier, a domain identifier, a gene identifier, a table matching a module and a gene, a table matching a domain and a module, a table matching a domain and a gene, and the like.

분석장치는 제1 유전체 필터링 데이터 DB, 제2 유전체 필터링 데이터 DB 및 게놈 모듈 DB가 제공하는 정보를 이용하여 제2 게놈 모듈 네트워크를 기반으로 종양조직 샘플의 개별적 변이를 분석한다. 분석장치는 다수의 정상 조직 또는 종양 조직 대비 개별적 종양 조직의 변이를 정량하기 위하여 다양한 지표를 생성할 수 있다. 이 과정에서 분석장치는 제2 게놈 모듈 네트워크를 기준으로 지표를 생성한다.The analysis device analyzes individual mutations of a tumor tissue sample based on the second genome module network using information provided by the first genome filtering data DB, the second genome filtering data DB, and the genome module DB. The analysis device may generate various indicators to quantify variation of individual tumor tissues compared to a plurality of normal tissues or tumor tissues. In this process, the analysis device generates an index based on the second genome module network.

지표를 연산 과정에 이용하는 유전자 발현 데이터는 게놈 모듈 네트워크 구축에 사용되었던 유전자 발현 데이터 또는 별도의 조직에서 추출한 유전자 발현 데이터일 수 있다. 또 지표를 연산 과정에 이용하는 유전자 발현 데이터는 필터링된 유전자 발현 데이터 또는 필터링 전 유전자 발현 데이터일 수 있다.Gene expression data using the index in the calculation process may be gene expression data used to construct a genome module network or gene expression data extracted from a separate tissue. In addition, the gene expression data using the index in the calculation process may be filtered gene expression data or pre-filtered gene expression data.

분석장치는 SP를 연산할 수 있다(550). SP는 분석 대상인 개별 암환자의 샘플에서 게놈 시스템의 변이 정도를 정상 조직 또는 종양 조직의 전체 게놈 모듈들에 포함된 모든 유전자들에 대하여 정량화한 값이다. SP는 전체 게놈 모듈을 기준으로 현재 입력된 샘플의 변이 정도를 표현한 것이다. 분석장치는 전체 게놈 모듈 중 하나 이상의 모듈에 포함된 모든 유전자의 인덱스를 추출하여, 정상 조직 또는 종양 조직에서 밀도 행렬을 구하고 특정 샘플 데이터에서 해당 유전자로 발현 벡터를 구성하여 SP를 연산한다. SP는 분석 대상인 샘플 데이터에 대하여 일정한 확률로 표현된다. 해당 유전자 집합에 대한 샘플 i의 확률은 전술한 수학식 12와 같이 표현될 수 있다. 다만 분석장치는 제2 게놈 모듈 네트워크를 기준으로 SP를 연산한다. 또 분석장치는 필터링된 데이터를 기준으로 SP를 연산할 수 있다.The analysis device may calculate the SP (550). SP is a value obtained by quantifying the degree of variation of the genomic system in a sample of an individual cancer patient to be analyzed for all genes included in the whole genome modules of normal tissue or tumor tissue. SP represents the degree of variation of the currently input sample based on the whole genome module. The analysis device extracts the indexes of all genes included in one or more modules of the whole genome module, obtains a density matrix from normal or tumor tissue, and constructs an expression vector with the corresponding gene from specific sample data to calculate SP. SP is expressed with a certain probability for the sample data to be analyzed. The probability of sample i for the corresponding gene set may be expressed as in Equation 12 described above. However, the analysis device calculates the SP based on the second genome module network. In addition, the analysis device can calculate the SP based on the filtered data.

분석장치는 SP를 연산하기 위하여 제2 게놈 모듈 네트워크의 게놈 모듈 중 하나 이상의 모듈에 속한 모든 유전자를 식별하고, 제1 유전체 필터링 데이터 DB의 전체 샘플에서 해당 유전자의 발현 데이터를 추출하여 밀도 행렬 연산하고, 제2 유전체 필터링 데이터에서 해당 유전자의 발현 데이터를 추출하여 발현 벡터를 구성하여 SP를 연산한다.In order to calculate SP, the analysis device identifies all genes belonging to one or more of the genome modules of the second genome module network, extracts the expression data of the corresponding gene from the entire sample of the first genome filtering data DB, and calculates the density matrix. , SP is calculated by constructing an expression vector by extracting the expression data of the corresponding gene from the second genome filtering data.

분석장치는 MSP를 연산할 수 있다(560). MSP는 모듈별 샘플 확률을 의미한다. 전술한 SP가 전체 게놈 모듈에 포함되는 모든 유전자를 기준으로 정상 조직으로부터의 변이 정도를 수량화한 샘플 확률이었다면, MSP는 각 모듈을 기준으로 계산한 샘플 확률을 나타낸다. 이를 위해 분석장치는 특정 게놈 모듈에 포함된 유전자 인덱스를 추출하여, 정상 조직 또는 종양 조직에서 밀도 행렬을 구하고 특정 샘플 데이터에서 해당 유전자로 발현 벡터를 구성하여 MSP를 연산한다. MSP는 정상 조직 또는 종양 조직의 특정 모듈에 대한 특정 샘플의 변이 정도를 나타낸다. 즉 MSP는 특정 샘플에서 모듈별로 게놈 시스템의 변이 정도를 정량화한 값이다. 질환(특정 종양 등)에 따라 특정 모듈에서 먼저 크게 변이가 나타날 수 있다. 따라서 MSP 분석도 질환 진단이나 예측을 위한 의미있는 지표가 된다. 나아가 후술하겠지만 MSP는 샘플을 일정하게 분류하는데 사용되기도 한다. MSP는 전술한 수학식 14와 같이 나타낼 수 있다. 다만 분석장치는 제2 게놈 모듈 네트워크를 기준으로 MSP를 연산한다. 또 분석장치는 필터링된 데이터를 기준으로 MSP를 연산할 수 있다.The analysis device may calculate the MSP (560). MSP means the sample probability for each module. If the above-described SP was a sample probability quantifying the degree of mutation from a normal tissue based on all genes included in the whole genome module, MSP represents the sample probability calculated based on each module. To this end, the analysis device extracts the gene index included in a specific genomic module, obtains a density matrix from normal or tumor tissue, and constructs an expression vector with the gene from specific sample data to calculate MSP. MSP refers to the degree of variability of a specific sample to a specific module of normal or tumor tissue. That is, MSP is a value obtained by quantifying the degree of variation of the genomic system for each module in a specific sample. Depending on the disease (specific tumor, etc.), a large variation may appear first in a specific module. Therefore, MSP analysis is also a meaningful index for disease diagnosis or prediction. Further, as will be described later, MSP is also used to classify samples uniformly. MSP can be expressed as in Equation 14 above. However, the analysis device calculates the MSP based on the second genome module network. In addition, the analysis device can calculate the MSP based on the filtered data.

한편 분석장치는 DSP를 연산할 수 있다(570). 게놈 모듈 도메인은 생물학적 기능이 유사한 게놈 모듈의 집합으로서 게놈 모듈 네트워크에서 인접한 모듈들로 구성된다. DSP는 특정 도메인에 속하는 모듈 중 하나 이상의 모듈에 포함된 모든 유전자를 기준으로 계산한 샘플 확률을 나타낸다. 이를 위해 분석장치는 특정 도메인에 속하는 모듈 중 하나 이상의 모듈에 포함된 모든 유전자의 인덱스를 추출하여, 정상 조직 또는 종양 조직 데이터로부터 밀도행렬을 구하고 분석 대상 샘플 데이터에서 해당 유전자로 발현벡터를 구성하여 DSP를 연산한다. DSP는 정상 조직 또는 종양 조직의 특정 게놈 모듈 도메인에 대한 분석 대상 샘플의 변이 정도를 나타낸다. 즉 DSP는 분석 대상 샘플에서 도메인별로 게놈 시스템의 변이 정도를 정량화한 값이다. DSP를 수학식 14로 설명하면 수학식 14에서 Gα은 정상 조직 또는 종양 조직의 특정 도메인

Figure pat00180
에 속한 모듈에 포함된 유전자 집합의 발현행렬을 의미하고, s는 샘플 데이터 si에서 해당 유전자의 데이터를 추출하여 구성한 유전자 발현 벡터를 의미한다. 다만 분석장치는 제2 게놈 모듈 네트워크를 기준으로 DSP를 연산한다. 또 분석장치는 필터링된 데이터를 기준으로 DSP를 연산할 수 있다.Meanwhile, the analysis device may calculate the DSP (570). A genomic module domain is a collection of genomic modules having similar biological functions and is composed of adjacent modules in a genomic module network. DSP represents a sample probability calculated based on all genes included in one or more modules belonging to a specific domain. To this end, the analysis device extracts the indexes of all genes included in one or more modules belonging to a specific domain, obtains a density matrix from normal tissue or tumor tissue data, and constructs an expression vector with the corresponding gene from the sample data to be analyzed. Computes DSP represents the degree of variation of a sample to be analyzed for a specific genomic module domain in normal or tumor tissue. That is, DSP is a value obtained by quantifying the degree of variation of the genomic system for each domain in the sample to be analyzed. If DSP is described by Equation 14, G α in Equation 14 is a specific domain of normal tissue or tumor tissue.
Figure pat00180
It refers to the expression matrix of the gene set included in the module belonging to and s refers to a gene expression vector constructed by extracting the data of the corresponding gene from the sample data s i . However, the analysis device computes the DSP based on the second genome module network. Also, the analysis device can calculate the DSP based on the filtered data.

분석장치는 샘플 확률에 대한 특정 유전자의 LOR(log odds ratio)을 연산할 수 있다(580). LOR은 한 게놈 모듈에서 특정 유전자의 유무에 따라 나머지 유전자의 게놈 모듈에 대한 확률의 변동 정도를 의미하며 유전자 간의 연결성을 정량화한 값이다. 한편 한 샘플에서 특정 유전자의 유무에 따른 샘플 확률(SP, MSP, DSP)의 변동 역시 LOR에 해당한다. 즉 샘플 확률에 대한 특정 유전자의 LOR은 한 샘플에서 해당 유전자가 게놈 시스템의 변이에 미치는 영향을 정량화한 값이다. LOR은 하나의 유전자 단위의 분석 결과이다. 분석장치는 몇 가지 단위를 기준으로 LOR을 연산할 수 있다. (1) LORSP는 분석 대상 샘플에서 특정 유전자가 전체 게놈 모듈에 대한 샘플 확률(SP)에 미치는 영향의 정도를 정량화한 값이다. (2) LORMSP는 분석 대상 샘플에서 특정 유전자가 특정 게놈 모듈에 대한 샘플 확률(MSP)에 미치는 영향의 정도를 정량화한 값이다. (3) LORDSP는 분석 대상 샘플에서 특정 유전자가 특정 도메인에 속한 복수의 게놈 모듈에 대한 샘플 확률(DSP)에 미치는 영향의 정도를 정량화한 값이다. 다만 분석장치는 제2 게놈 모듈 네트워크를 기준으로 LOR을 연산한다. 또 분석장치는 필터링된 데이터를 기준으로 LOR을 연산할 수 있다.The analysis device may calculate a log odds ratio (LOR) of a specific gene with respect to the sample probability (580). LOR refers to the degree of fluctuation of the probability of the genome module of the remaining genes according to the presence or absence of a specific gene in one genome module, and is a value obtained by quantifying the connectivity between genes. On the other hand, fluctuations in sample probability (SP, MSP, DSP) according to the presence or absence of a specific gene in one sample also correspond to LOR. That is, the LOR of a specific gene with respect to the sample probability is a quantification of the effect of the gene on the mutation of the genome system in one sample. LOR is an analysis result of one gene unit. The analysis device can calculate LOR based on several units. (1) LOR SP is a value obtained by quantifying the degree of influence of a specific gene on the sample probability (SP) for the whole genome module in the sample to be analyzed. (2) LOR MSP is a quantification of the degree of influence of a specific gene on the sample probability (MSP) for a specific genomic module in the sample to be analyzed. (3) LOR DSP is a quantification of the degree of influence of a specific gene on the sample probability (DSP) for a plurality of genomic modules belonging to a specific domain in the sample to be analyzed. However, the analysis device calculates the LOR based on the second genome module network. In addition, the analysis device can calculate the LOR based on the filtered data.

도 25는 유전자 발현 데이터에 대한 필터링 과정(600)에 대한 예이다. 유전자 발현 데이터 DB는 필터링 대상인 유전자 발현 데이터를 저장한다. 분석장치는 전술한 제1 유전자 발현 데이터 및 제2 유전자 발현 데이터에 대하여 각각 필터링을 수행할 수 있다. 분석장치는 필터링 대상인 유전자 발현 데이터로부터 선형 조합(linear combination)의 특정 성분을 제거한다. 선형 조합의 특정 성분 제거를 위한 다양한 기법이 사용될 수 있다. 설명의 편의를 위해 특이값 분해(Singular Value Decomposition, 이하 SVD)를 사용한다고 가정한다. 25 is an example of a filtering process 600 for gene expression data. The gene expression data DB stores gene expression data to be filtered. The analysis apparatus may perform filtering on the above-described first gene expression data and second gene expression data, respectively. The analysis device removes a specific component of a linear combination from the gene expression data to be filtered. Various techniques can be used for the removal of certain components of the linear combination. For convenience of explanation, it is assumed that Singular Value Decomposition (SVD) is used.

도 25에 도시한 바와 같이 유전자 발현 데이터 DB는 m개(복수)의 샘플 각각에 대하여 n개의 유전자에 대한 발현 데이터를 보유한다. 분석장치는 이과 같은 2차원 행렬 형태의 유전자 발현 데이터로부터 선형 조합의 특정 성분을 제거한다. 특이값 분해는 m×n 크기의 행렬 A를 아래의 수학식 16과 같이 분해한다. U는 좌 특이벡터(left singular vector) 행렬이고, S는 특이값(singular value) 행렬이고, V는 우 특이벡터(right singular vector) 행렬이다. 특이값 분해는 해당 분야에서 널리 알려진 기술이므로 자세한 설명은 생략한다.As shown in Fig. 25, the gene expression data DB holds expression data for n genes for each of m (plural) samples. The analysis device removes a specific component of a linear combination from the gene expression data in the form of a two-dimensional matrix. Singular value decomposition decomposes the m×n matrix A as shown in Equation 16 below. U is a left singular vector matrix, S is a singular value matrix, and V is a right singular vector matrix. Since singular value decomposition is a technique widely known in the field, detailed descriptions are omitted.

Figure pat00181
Figure pat00181

분석장치는 유전자 발현 데이터 세트를 입력받는다(610). 분석장치는 전체 유전자 발현 데이터 세트에 대한 SVD를 수행한다(620). The analysis device receives the gene expression data set (610). The analysis device performs SVD on the entire gene expression data set (620).

분석장치는 정상 조직의 유전자 발현 데이터를 사용하여 게놈 모듈 네트워크를 구축한다(630). 분석장치는 구축한 게놈 모듈 네트워크에 속한 모듈 중 필터링 기준이 되는 특정 모듈을 선택하고, 특정 모듈에 대한 SVD 연산을 한다(640). 분석장치는 특정 모듈에 속한 유전자 발현 데이터에 대한 SVD 연산을 한다. 이하 설명의 편의를 위해 필터링 기준이 되는 모듈을 커널 모듈이라고 가정한다. 분석장치는 커널 모듈의 SVD 분해 결과에서 V(우 특이벡터 행렬)의 주고유벡터(열 벡터)를 추출한다(650).The analysis device constructs a genome module network using gene expression data of normal tissue (630). The analysis device selects a specific module to be a filtering criterion among modules belonging to the constructed genome module network, and performs SVD calculation for the specific module (640). The analysis device performs SVD calculation on gene expression data belonging to a specific module. For convenience of description, it is assumed that a module serving as a filtering criterion is a kernel module. The analysis device extracts the main vector (column vector) of V (right singular vector matrix) from the SVD decomposition result of the kernel module (650).

분석장치는 전체 유전자 발현 데이터에 대한 SVD 결과에서 U(좌 특이벡터 행렬) 및 S(특이값 행렬)를 선택한다. 또 분석장치는 커널 모듈에 대한 SVD 결과에서 V(우 특이벡터 행렬)의 주고유벡터 V1를 선택한다. The analysis device selects U (left singular vector matrix) and S (singular value matrix) from the SVD results for all gene expression data. Also, the analysis device selects the giveaway vector V 1 of V (right singular vector matrix) from the SVD result for the kernel module.

분석장치는 전체 유전자 발현 데이터에 대한 SVD 결과에서 U(좌 특이벡터 행렬) 및 S(특이값 행렬)와 커널 모듈에 대한 SVD 결과에서 V(우 특이벡터 행렬)의 주고유벡터 V1를 이용하여 필터링을 수행한다(660). 이를 통해 분석장치는 일정하게 필터링된 유전자 발현 데이터 세트를 마련한다(670). The analysis device uses U (left singular vector matrix) and S (singular value matrix) in the SVD results for all gene expression data, and the giveaway vector V 1 of V (right singular vector matrix) in the SVD results for the kernel module. Filtering is performed (660). Through this, the analysis device prepares a constant filtered gene expression data set (670).

Figure pat00182
Figure pat00182

상기 표 5는 필터링 과정에 대한 수도 코드이다. 표 5는 커널 도메인의 첫 번째 커널 모듈을 기준으로 필터링을 수행하는 예이다. 분석장치는 전체 유전자 발현 데이터에 대한 SVD 결과에서 U(좌 특이벡터 행렬), S(특이값 행렬) 및 커널 모듈에 대한 SVD 결과에서 V(우 특이벡터 행렬)의 첫 번째 고유 벡터 V1를 곱하여 필터값 벡터

Figure pat00183
를 생성한다. 경우에 따라서 분석장치는 필터값 벡터를 정규화한다. 최종적으로 분석장치는 전체 유전자 발현 데이터 G의 각 열 데이터에서 필터값 벡터를 감산한 G'를 생성한다. G'가 필터링된 유전자 발현 데이터에 해당한다. 경우에 따라서 분석장치는 G'를 정규화할 수 있다.Table 5 is a number code for the filtering process. Table 5 shows an example of performing filtering based on the first kernel module in the kernel domain. The analysis device multiplies the first eigenvector V 1 of V (right singular vector matrix) from the SVD result for the entire gene expression data, U (left singular vector matrix), S (singular value matrix), and SVD results for the kernel module. Filter value vector
Figure pat00183
Create In some cases, the analysis device normalizes the filter value vector. Finally, the analysis device generates G'obtained by subtracting the filter value vector from each row data of the total gene expression data G. G'corresponds to the filtered gene expression data. In some cases, the analyzer can normalize G'.

이하 필터링한 데이터에 기반하여 구축된 게놈 모듈 네트워크에 대한 예를 설명한다. 본래 유전자 발현 데이터는 선형적 조합(linear combination)으로 구성된 값이다. 여기서 특정 성분을 제거하는 데이터 필터링을 수행하면, 특정 성분에 의해 가려졌던 기저의 특성을 찾을 수 있다. 필터링 결과로 새롭게 도출되는 모듈을 기저 모듈이라고 명명한다. 필터링된 데이터에 기반하여 구축된 게놈 모듈 네트워크도 생물학적으로 의미가 있음을 보이고자 한다. Hereinafter, an example of a genome module network constructed based on the filtered data will be described. Originally, gene expression data is a value composed of a linear combination. Here, by performing data filtering to remove a specific component, it is possible to find the underlying characteristics that have been obscured by the specific component. A module newly derived from the filtering result is called a base module. It is intended to show that the genomic module network constructed based on the filtered data is also biologically meaningful.

도 26은 BRCA를 필터링한 데이터를 이용하여 생성된 게놈 모듈 네트워크에 대한 예이다. BRCA를 필터링한 데이터를 BRX라고 명명한다. BRX는 BRCA를 커널 모듈의 주 고유벡터를 이용하여 필터링한 결과이다. 도 26은 BRX를 기준으로 구축한 게놈 모듈 네트워크에 대한 예이다. 이하 BRX를 기준으로 구축한 게놈 모듈 네트워크를 BRX 게놈 모듈 네트워크라고 명명한다.26 is an example of a genome module network generated using data obtained by filtering BRCA. The data obtained by filtering BRCA is called BRX. BRX is the result of filtering BRCA using the main eigenvector of the kernel module. 26 is an example of a genomic module network constructed based on BRX. Hereinafter, a genome module network constructed based on BRX is referred to as a BRX genome module network.

도 26에서 BRX 게놈 모듈 네트워크에 종래 BRCA(필터링 전 데이터)로부터 구축되는 게놈 모듈 네트워크에도 존재하는 모듈을 원으로 표시하였다. 도 26에서 BRX 게놈 모듈 네트워크에만 존재하는 모듈을 사각형으로 표시하였다. 즉, 필터링 전에는 보이지 않던 기저 모듈이 도출되는 것을 알 수 있다. 후술하겠지만, BRX를 이용한 게놈 모듈 네트워크의 모듈 중 종양 침윤 림프구(tumor infiltrating lymphocyte, TIL)와 관련된 모듈의 활성이 확인되었다. 예컨대, BRX 게놈 모듈 네트워크의 11번 모듈(BRX#11), 20번 모듈(BRX#20), 39번 모듈(BRX#39), 및 52번 모듈(BRX#52)에는 림프구의 이동에 필요한 각종 케모카인 리간드(chemokine ligand), 면역 반응에 관여하는 인터루킨 수용체(interleukin receptor), 인터페론(interferone) 등이 다수 포함되어 있다. 상기 게놈 모듈 중 BRX#11, BRX#20는 필터링 전 BRCA 게놈 모듈 네트워크에도 존재하는 게놈 모듈이나, BRX#39, BRX#52는 필터링 후 새로 발견된 기저 모듈이다. In Fig. 26, modules existing in the genome module network constructed from conventional BRCA (data before filtering) in the BRX genome module network are indicated by circles. In Figure 26, modules present only in the BRX genomic module network are indicated by squares. That is, it can be seen that a base module that was not visible before filtering is derived. As will be described later, the activity of a module related to tumor infiltrating lymphocyte (TIL) among the modules of the genomic module network using BRX was confirmed. For example, module 11 (BRX#11), module 20 (BRX#20), module 39 (BRX#39), and module 52 (BRX#52) of the BRX Genome Module Network It contains a number of chemokine ligands, interleukin receptors involved in the immune response, and interferones. Among the genomic modules, BRX#11 and BRX#20 are genomic modules that exist in the BRCA genome module network before filtering, while BRX#39 and BRX#52 are base modules newly discovered after filtering.

도 27 및 도 28은 도 26의 게놈 모듈 네트워크의 특정 모듈에 대한 MSP를 기준으로 샘플을 분류한 예이다. 도 27 및 도 28는 특정 BRX 게놈 모듈에 대한 MSP를 기준으로 샘플을 분류할 때, 콕스비례위험모형(Cox proportional hazard model) 생존분석의 위험률비(hazard ratio)가 최대화되는 MSP를 기준점으로 고MSP 샘플군과 저MSP 샘플군으로 분류한 예이다. 도 27은 BRX 게놈 모듈 네트워크의 2번 모듈(BRX#2)에 대한 MSP를 기준으로 샘플을 분류한 예이다. 도 27은 BRX#2에 대한 고MSP 샘플군(A)과 저MSP 샘플군(B)으로 구축한 BRX#2의 유전자 네트워크이다. 각 샘플군의 필터링 전 데이터로 BRX#2의 엔트로피를 계산했을 때, 양 샘플군의 엔트로피가 매우 낮음이 확인된다. 이는 BRX#2가 필터링 전 게놈 모듈 네트워크에도 존재하는 게놈 모듈임을 증명한다. 한편, 도 28은 BRX 게놈 모듈 네트워크의 9번 모듈(BRX#9)에 대한 MSP를 기준으로 샘플을 분류한 예이다. 도 28은 BRX#9에 대한 고MSP 샘플군(A)과 저MSP 샘플군(B)으로 구축한 BRX#9의 유전자 네트워크이다. 각 샘플군의 필터링 전 BRCA 데이터로 BRX#9의 엔트로피를 계산했을 때, 저MSP 샘플군의 엔트로피가 고MSP 샘플군의 엔트로피의 2배 이상임이 확인되었다. 이는 BRX#9가 필터링 전 BRCA 게놈 모듈 탐색에서 발견되지 않는 기저 모듈임을 증명한다. 도 28은 저MSP 샘플군에서 BRX#9의 유전자 네트워크(B)가 고MSP 샘플군에서 유전자 네트워크(A)보다 연결성이 좋음을 보여준다.27 and 28 are examples of classifying samples based on MSPs for specific modules of the genome module network of FIG. 26. 27 and 28 show MSP at which the hazard ratio of the survival analysis of the Cox proportional hazard model is maximized when classifying samples based on the MSP for a specific BRX genome module as a reference point. This is an example of classifying into a sample group and a low MSP sample group. 27 is an example of classifying a sample based on the MSP for module 2 (BRX#2) of the BRX genome module network. Fig. 27 is a genetic network of BRX#2 constructed from a high MSP sample group (A) and a low MSP sample group (B) for BRX#2. When the entropy of BRX#2 is calculated from the data before filtering of each sample group, it is confirmed that the entropy of both sample groups is very low. This proves that BRX#2 is a genomic module that also exists in the genomic module network before filtering. Meanwhile, FIG. 28 is an example of classifying samples based on the MSP for module 9 (BRX#9) of the BRX genome module network. Fig. 28 is a genetic network of BRX#9 constructed from a high MSP sample group (A) and a low MSP sample group (B) for BRX#9. When the entropy of BRX#9 was calculated from the BRCA data before filtering of each sample group, it was confirmed that the entropy of the low MSP sample group was more than twice the entropy of the high MSP sample group. This proves that BRX#9 is a basal module not found in the BRCA genomic module search before filtering. 28 shows that the BRX#9 gene network (B) in the low MSP sample group has better connectivity than the gene network (A) in the high MSP sample group.

도 29는 특정 샘플군에 대한 생존곡선이다. 도 29는 BRX#9를 이용하여 분류한 유방암 환자군의 카플란-마이어 생존 분석을 수행한 예이다. 도 29에서 A는 고MSP 샘플군, B는 저MSP 샘플군 환자의 생존 곡선 및 99% 신뢰구간을 의미한다. BRX 게놈 모듈 네트워크에서 도출되는 BRX#9에 대한 생물학적 특성은 완전하게 규명되지 않았다. 다만 콕스비례확률모형 생존분석의 결과, 저MSP 샘플군 환자의 생존율이 고MSP 샘플군 환자에 비해 2.4배 높았다(p-value < 0.05). 이는 BRX#9가 유방암 진행과 관련하여 유방암 샘플의 유의미한 분류를 가능케 하는 게놈 모듈임의 근거가 된다. 도 29는 BRCA 데이터의 필터링으로 얻은 BRX 기저 게놈 모듈에 대한 MSP가 낮은 샘플은 유방암 본연의 특성과 거리가 있는, 즉 정상 조직에 가까운 샘플임을 암시한다. 다른 여러 유방암 기저 모듈에 대한 MSP로 환자를 분류한 결과, 저MSP 샘플군의 환자에서 생존율이 높은 경향이 관찰되었다. 29 is a survival curve for a specific sample group. 29 is an example of performing Kaplan-Meier survival analysis of breast cancer patient groups classified using BRX#9. In FIG. 29, A denotes a high MSP sample group, B denotes a survival curve and a 99% confidence interval of patients in the low MSP sample group. The biological properties of BRX#9 derived from the BRX genomic module network have not been fully characterized. However, as a result of the Cox proportional probability model survival analysis, the survival rate of patients in the low MSP sample group was 2.4 times higher than that of the patients in the high MSP sample group (p-value <0.05). This is the basis that BRX#9 is a genomic module that allows for meaningful classification of breast cancer samples in relation to breast cancer progression. FIG. 29 implies that a sample with a low MSP for the BRX basal genomic module obtained by filtering BRCA data is a sample with a distance from breast cancer intrinsic characteristics, that is, close to normal tissue. As a result of classifying patients by MSP for several other breast cancer basal modules, a high survival rate was observed in patients in the low MSP sample group.

커널 모듈을 이용한 샘플 분석Sample analysis using kernel module

연구자가 이용한 유전자 발현 데이터 세트를 설명한다. 활용한 유전자 발현 데이터 세트는 전술한 실험 과정에서 사용한 데이터와 유사하다. 이하 게놈 모듈 네트워크를 활용한 샘플 분석의 예를 설명하기 위하여 다시 한번 설명한다. 기본적으로 8개의 TCGA 유전자 발현 데이터 세트는 아래 표 6과 같다. 기본적으로 아래와 같이 2개의 정상 조직과 6개의 종양 조직에 대한 데이터를 이용하였다. Describe the gene expression data set used by the researcher. The gene expression data set used is similar to the data used in the experimental process described above. Hereinafter, it will be described again to describe an example of sample analysis using the genome module network. Basically, 8 TCGA gene expression data sets are shown in Table 6 below. Basically, data on 2 normal tissues and 6 tumor tissues were used as follows.

조직(Tissue)Tissue 유전자 발현 데이터 세트 명명Naming gene expression data sets normal breast(정상 유방 조직)normal breast BRNOBRNO normal colon(정상 결장 조직)normal colon CONOCONO breast cancer(유방암 조직)breast cancer BRCABRCA colon adenocarcinoma(결장암 조직)colon adenocarcinoma (colon cancer tissue) COADCOAD rectal adenocarcinoma(직장암 조직)rectal adenocarcinoma (rectal cancer tissue) READREAD lung adenocarcinoma(폐선암 조직)lung adenocarcinoma (lung adenocarcinoma) LUADLUAD lung squamous cell carcinoma(폐편평세포암조직직)lung squamous cell carcinoma LUSCLUSC ovarian cancer(난소암 조직)ovarian cancer OVOV

나아가, 상기 8개의 유전자 발현 데이터 세트 중 복수의 데이터 세트를 추출하여 합성한 혼합 데이터 세트를 추가하였다. 혼합 데이터 세트를 아래 표 7과 같다. X2NO는 정상 조직 데이터 세트의 혼합 데이터 세트이고, X6CA는 6개의 종양 조직 데이터 세트의 혼합 데이터 세트이고, X6C2N는 전체 8개의 데이터 세트의혼합 데이터 세트이다.Furthermore, a mixed data set synthesized by extracting a plurality of data sets among the eight gene expression data sets was added. The mixed data set is shown in Table 7 below. X2NO is a mixed data set of normal tissue data sets, X6CA is a mixed data set of 6 tumor tissue data sets, and X6C2N is a mixed data set of all eight data sets.

복수의 데이터 세트Multiple data sets 혼합 데이터 세트 명명Mixed data set naming BRNO + CONOBRNO + CONO X2NOX2NO BRCA+COAD+READ+LUAD+LUSC+OVBRCA+COAD+READ+LUAD+LUSC+OV X6CAX6CA 전체 8개의 데이터세트 혼합Mixing all 8 datasets X6C2NX6C2N

연구자는 8개의 유전자 발현 데이터 세트들 및 3개의 혼합 데이터 세트들(전체 11개의 유전자 발현 데이터 세트들)을 이용하여 게놈 모듈을 분리하였다. 게놈 모듈 구성은 전술한 게놈 모듈 네트워크 생성 방법(실험에서는 기본 게놈 모듈 네트워크 생성 기법을 사용함)에 따른다. The researcher separated the genomic module using 8 gene expression data sets and 3 mixed data sets (a total of 11 gene expression data sets). The genomic module configuration follows the above-described method of generating a genome module network (in the experiment, a basic genome module network generation technique is used).

종양 특이적 게놈 시스템 발굴Discovery of tumor-specific genomic systems

상기 11개의 유전자 발현 데이터 세트들 각각에 대하여 게놈 모듈 네트워크들을 구성하였다. 11개의 게놈 모듈 네트워크들 각각에 대하여 다른 모듈과 비교하여 낮은 엔트로피를 갖는 모듈을 구분하였다. 즉, 11개의 게놈 모듈 네트워크들 각각에서 커널 모듈을 결정하였다. 전술한 바와 같이 커널 모듈은 기준값보다 낮은 엔트로피를 갖는 모듈에 해당한다. 한편, 커널 모듈을 구분하는 기준값은 샘플에 따라 적응적으로 변경되는 값일 수도 있고, 고정된 값일 수도 있다. 11개의 유전자 발현 데이터 세트들에서 모두 TYR 및 AHSG를 중심으로 형성되는 커널 모듈이 분리되었다. Genomic module networks were constructed for each of the 11 gene expression data sets. For each of the 11 genomic module networks, modules with low entropy were identified compared to other modules. That is, a kernel module was determined from each of the 11 genome module networks. As described above, the kernel module corresponds to a module having an entropy lower than the reference value. Meanwhile, the reference value for classifying the kernel module may be a value that is adaptively changed according to samples or may be a fixed value. Kernel modules formed around TYR and AHSG were isolated from all 11 gene expression data sets.

상기 11개의 게놈 모듈 네트워크에서 공통되게 정상 조직의 커널 모듈에는 포함되지만, 종양 조직의 커널 모듈에는 포함되지 않는 유전자들을 확인하였다. 실험적으로는 모두 7개의 유전자들이 확인되었다. 7개의 유전자들은 모두 CT 항원(cancer testis antigen) 유전자에 포함되는 것이었다. 구체적으로 7개의 유전자들은 MAGEA1, MAGEA3, MAGEA4, MAGEA10, MAGEA12, CSAG1, 및 CSAG3A이다. 이와 같이 게놈 모듈 네트워크 분석을 통하여 커널 모듈을 기준으로 종양과 연관성 높다고 강하게 추정되는 유전자들을 CG(critical genes)라고 명명한다. 커널 모듈에 속한 유전자들에서 CG를 제외한 유전자들을 CGX라고 명명한다. 아래 표 8은 11개 유전자 발현 데이터 세트들에서 추출한 커널 모듈(Kernel), CGX 및 CG에 대한 엔트로피를 나타낸다.In common in the 11 genome module networks, genes included in kernel modules of normal tissues but not included in kernel modules of tumor tissues were identified. Experimentally, all 7 genes were identified. All seven genes were included in the CT antigen (cancer testis antigen) gene. Specifically, the seven genes are MAGEA1, MAGEA3, MAGEA4, MAGEA10, MAGEA12, CSAG1, and CSAG3A. Genes that are strongly presumed to be highly related to tumors based on the kernel module through genomic module network analysis are called CG (critical genes). Genes other than CG in the genes belonging to the kernel module are called CGX. Table 8 below shows the entropy for the kernel module (Kernel), CGX and CG extracted from 11 gene expression data sets.

Figure pat00184
Figure pat00184

BRCA, OV 및 X6C2N을 제외하고, 나머지 데이터 세트들에서 커널 모듈의 엔트로피는 모두 0.1 bits 이하였다. Except for BRCA, OV and X6C2N, the entropy of the kernel module in the remaining data sets were all 0.1 bits or less.

전사 상태(transcriptional state) 행렬

Figure pat00185
는 유전자 발현 데이터 세트
Figure pat00186
Figure pat00187
의 관계이다.
Figure pat00188
은 m개의 샘플에서 개별 샘플의 특성에 관련된 요소이다. 그러므로,
Figure pat00189
은 2n 전사 상태들에 대하여 개별 샘플의 측정 과정의 편차를 포함한 상이한 특성을 모두 포함하게 된다.
Figure pat00190
을 특이값 분해(SVD)로 인수분해하면
Figure pat00191
이다. 여기서, 고유값인
Figure pat00192
는 대각 행렬로 포함된 샘플이 동질(homogeneous)이 아니라면, 단위 행렬(identity matrix) I가 될 수 없다. 따라서, 유전자 발현데이터로 계산한 폰노이만 엔트로피
Figure pat00193
는 전사 상태의 엔트로피
Figure pat00194
보다 크게 된다. 이는 두 가지 이유로 발생할 수 있다. 첫째, 동질적 샘플 군에 대해 작위적 샘플 선택이나, 샘플 취급 과정에 문제가 있는 경우
Figure pat00195
의 편중에 의해 발생한다. 둘째, 타입이 다른 샘플이 혼합된다면 단일 T라는 가정에서 벗어나게 된다.Transcriptional state matrix
Figure pat00185
Is the gene expression data set
Figure pat00186
Wow
Figure pat00187
Is the relationship.
Figure pat00188
Is a factor related to the properties of individual samples in m samples. therefore,
Figure pat00189
Will contain all of the different properties, including variations in the measurement process of individual samples for 2 n transfer states.
Figure pat00190
Factoring with singular value decomposition (SVD)
Figure pat00191
to be. Here, the eigenvalue
Figure pat00192
If the samples included in the diagonal matrix are not homogeneous, then cannot be the identity matrix I. Therefore, von Neumann entropy calculated from gene expression data
Figure pat00193
Is the entropy of the warrior state
Figure pat00194
Becomes larger. This can happen for two reasons. First, if there is a problem with the random sample selection or sample handling process for a homogeneous sample group
Figure pat00195
It is caused by the bias of Second, if samples of different types are mixed, the assumption of a single T is deviated.

X6C2N의 경우 정상 조직과 종양 조직의 혼합 데이터이기 때문에, T의 이질도(heterogeneity)가 커서 커널 모듈의 엔트로피가 상승하는 경우이다. 이와 같은 이론과 예증에 기반하면, 다양한 서브 타입이 섞여 있을 것으로 추정되는 BRCA와 OV에서 커널의 엔트로피가 높은 것은 당연하다. In the case of X6C2N, since the data is a mixture of normal and tumor tissues, the heterogeneity of T is large and the entropy of the kernel module increases. Based on such theories and examples, it is natural that the entropy of the kernel is high in BRCA and OV, which are estimated to be mixed with various subtypes.

한편, 모든 종양 조직에서 추출된 커널 모듈은 CG를 포함하지 않기 때문에 커널 모듈과 CGX의 엔트로피는 같을 수밖에 없다. 한편, BRNO, CONO 및 X2NO에서 커널 모듈 및 CGX의 엔트로피가 거의 같았다. 커널 모듈 및 CGX에서 정상 조직의 엔트로피는 종양 조작의 엔트로피에 비하여 낮았지만 그 차이는 비교적 작았다. 반면에 CG의 엔트로피는 정상 조직과 종양 조직에서 최소 10배 이상의 큰 차이(종양 조직의 엔트로피가 매우 높음)를 보인다. 이는 종양 조직에서 CG가 커널 모듈에서 분리되며 심한 경우(예컨대, LUSC)에는 완전히 붕괴된다고 해석할 수 있다.Meanwhile, since the kernel module extracted from all tumor tissues does not contain CG, the entropy of the kernel module and CGX is bound to be the same. Meanwhile, in BRNO, CONO and X2NO, the entropy of the kernel module and CGX was almost the same. The entropy of normal tissue in kernel module and CGX was lower than that of tumor manipulation, but the difference was relatively small. On the other hand, the entropy of CG shows a difference of at least 10 times larger (the entropy of the tumor tissue is very high) between normal and tumor tissues. It can be interpreted that in the tumor tissue, CG is separated from the kernel module and in severe cases (eg, LUSC) is completely disrupted.

BRNO, CONO 및 X2NO에서 커널 모듈, CGX 및 CG를 비교해보면, BRNO와 CONO의 혼합 데이터인 X2NO에서 커널 모듈과 CGX의 엔트로피는 1.7 ~ 2.0배로 대폭 증가하였다. 커널 모듈의 엔트로피의 증가는 커널 모듈에서 상당부분을 차지하는 CGX에 기인한 것이다. 이는 앞서 언급한 바와 같이 전사 상태 T가 서로 다른 샘플들이 섞이면서 엔트로피가 증가한 것이다. 따라서 BRNO와 CONO의 CGX는 서로 다른 전사 상태에 있다는 의미이고 두 조직의 생물학적 특성의 차이의 시발점이 됨을 암시한다. Comparing the kernel module, CGX and CG in BRNO, CONO, and X2NO, the entropy of the kernel module and CGX in X2NO, which is the mixed data of BRNO and CONO, increased significantly from 1.7 to 2.0 times. The increase in entropy of kernel modules is due to CGX, which occupies a significant portion of kernel modules. As mentioned above, this is an increase in entropy as samples having different transcription states T are mixed. Therefore, the CGX of BRNO and CONO imply that they are in different transcriptional states and are the starting point of the difference in the biological properties of the two tissues.

반면에 X2NO의 CG의 엔트로피는 BRNO 및 CONO와 비교해서 증가가 미미했다. 종류가 다른 BRNO와 CONO의 샘플을 혼합하였음에도 불구하고 CG의 엔트로피의 증가가 미미하였다는 사실은 CG가 두 조직의 생물학적 차이가 생성되기 이전에 기능하는 게놈 시스템임을 암시한다 종양 조직의 CGX 및 CG의 엔트로피와 정상 조직을 비교하여 보면 CG의 엔트로피 증가는 CGX 에 비해 상당히 더 큼을 알 수 있다. 이는 종양 조직의 발생이 CG의 붕괴에 기인함을 암시한다.On the other hand, the entropy of CG of X2NO was insignificant compared to that of BRNO and CONO. The fact that the increase in entropy of CG was minimal despite mixing samples of BRNO and CONO of different types suggests that CG is a functional genomic system before the biological differences between the two tissues are created. Comparing entropy with normal tissue, it can be seen that the increase in entropy of CG is significantly greater than that of CGX. This suggests that the development of tumor tissue is due to the disruption of CG.

종양 조직에서 CG의 이탈 정도를 측정하기 위해 상대 엔트로피와 각도 발산(angular divergence, AD)를 측정하였다. 측정한 상대 엔트로피 및 각 발산은 아래 표 9와 같다. 종양 조직에서도 정상 조직과 동등한 조건으로 CGX와 CG의 상대 엔트로피를 연산하기 위해 종양 조직에서 분리된 커널 모듈의 유전자 세트에 CG를 추가하여 종양 조직의 커널을 구성하였다.Relative entropy and angular divergence (AD) were measured to measure the degree of CG deviation from the tumor tissue. The measured relative entropy and each divergence are shown in Table 9 below. In tumor tissue, in order to calculate the relative entropy of CGX and CG under the same conditions as normal tissue, CG was added to the gene set of the kernel module isolated from the tumor tissue to construct the kernel of the tumor tissue.

Figure pat00196
Figure pat00196

상기 표 9에서 kr은 커널 모듈을 나타내고,

Figure pat00197
는 상대 엔트로피
Figure pat00198
를 나타내고,
Figure pat00199
Figure pat00200
로서,
Figure pat00201
는 A의 밀도 행렬의 제1 고유 벡터를 나타낸다.In Table 9, kr represents a kernel module,
Figure pat00197
Is the relative entropy
Figure pat00198
Represents,
Figure pat00199
Is
Figure pat00200
as,
Figure pat00201
Denotes the first eigenvector of the density matrix of A.

이와 같은 방식으로 생성된 종양 조직의 커널 모듈과 정상 조직의 커널 모듈에 대한 CGX의 상대 엔트로피

Figure pat00202
및 CG의 상대 엔트로피
Figure pat00203
를 연산하였데, 모두 종양 조직에서 증가하였다. 또한, CGX에 대한 CG의 상대 엔트로피
Figure pat00204
도 같은 정도로 종양 조직에서 증가하였다. The relative entropy of CGX for the kernel module of the tumor tissue and the kernel module of the normal tissue generated in this way
Figure pat00202
And relative entropy of CG
Figure pat00203
Was calculated, all increased in tumor tissue. Also, the relative entropy of CG to CGX
Figure pat00204
The same degree increased in tumor tissue.

또한, 커널 모듈의 밀도 행렬의 제1 고유 벡터

Figure pat00205
와 CG의 밀도 행렬의 제1 고유 벡터
Figure pat00206
사이의 각도 발산(ADCG,kr),Also, the first eigenvector of the density matrix of the kernel module
Figure pat00205
And the first eigenvector of the density matrix of CG
Figure pat00206
Divergence of the angle between (AD CG,kr ),

커널 모듈의 밀도 행렬의 제1 고유 벡터

Figure pat00207
와 CGX의 밀도 행렬의 제1 고유 벡터
Figure pat00208
사이의 각도 발산(ADCGX,kr) 및 CG의 밀도 행렬의 제1 고유 벡터
Figure pat00209
와 CGX의 밀도 행렬의 제1 고유 벡터
Figure pat00210
사이의 각도 발산 (ADCG,CGX)을 측정하였다. CG의 유전자 수가 CGX에 비해 작아 종양 조직의 커널 모듈에 추가된 CG의 영향은 비교적 제한적일 것이다. First eigenvector of density matrix of kernel module
Figure pat00207
And the first eigenvector of the density matrix of CGX
Figure pat00208
The angle divergence between (AD CGX,kr ) and the first eigenvector of the density matrix of CG
Figure pat00209
And the first eigenvector of the density matrix of CGX
Figure pat00210
The angular divergence between (AD CG,CGX ) was measured. The number of genes in CG is smaller than that of CGX, so the effect of CG added to the kernel module of tumor tissue will be relatively limited.

실제로 종양 조직에서 ADCGX,kr은 ADCG,kr에 비해 작았다. 즉, ADCG,kr은 정상 조직에 비해 종양 조직에서 상당히 컸다(anova test: p = 0.001). 또한 ADCG,CGX도 종양 조직에서 상당히 컸다(anova test: p = 0.001). 이 결과들은 정상 조직에서 CGX와 CG가 밀접한 연관을 갖는데 비하여, 종양 조직에서는 CGX와 CG는 분리되고 CG가 붕괴되는 경향을 가짐을 나타낸다.In fact, AD CGX,kr in tumor tissue was smaller than AD CG,kr . In other words, AD CG,kr was significantly greater in tumor tissue than in normal tissue (anova test: p = 0.001). In addition, AD CG and CGX were also significantly greater in tumor tissue (anova test: p = 0.001). These results indicate that CGX and CG are closely related in normal tissues, whereas in tumor tissues, CGX and CG are separated and CG has a tendency to collapse.

정상 조직과 종양 조직에서 유전자 세트 CGX와 CG가 게놈 시스템으로써 변이(transformation)되는 정도와 방향을 규명하기 위해, CGX 및 CG의 조직 간의 상대 엔트로피를 연산하였다. 먼저, CGX의 조직 간 상대 엔트로피를 계산하기 위해 조직 A의 CGX의 유전자로 구성된 유전자 공간에서 조직 A의 샘플 군의 밀도 행렬

Figure pat00211
에 대한 조직 B의 샘플 군의 밀도 행렬
Figure pat00212
의 상대 엔트로피
Figure pat00213
를 계산하였다. 조직 간 CGX의 상대 엔트로피를 계산한 결과는 아래 표 10과 같다. In order to determine the degree and direction in which the gene sets CGX and CG are transformed into a genomic system in normal and tumor tissues, the relative entropy between the tissues of CGX and CG was calculated. First, the density matrix of the sample group of tissue A in the gene space composed of the genes of CGX of tissue A to calculate the relative entropy between tissues of CGX.
Figure pat00211
The density matrix of the sample group of tissue B for
Figure pat00212
Relative entropy of
Figure pat00213
Was calculated. The results of calculating the relative entropy of CGX between tissues are shown in Table 10 below.

Figure pat00214
Figure pat00214

혼합 데이터 세트를 제외하고 BRNO(정상유방조직)의 CGX에 대한 상대 엔트로피가 가장 작은 조직은 BRCA(유방암)이고, CONO(정상결장조직)의 CGX에 대한 상대 엔트로피가 가장 작은 조직은 COAD(결장암)와 READ(직장암)이다. 또한 LUAD(폐선암)의 CGX에 대한 상대 엔트로피가 가장 작은 조직은 또다른 폐암의 일종인 LUSC(폐편평세포암)이다. 이와 같은 경향은 CGX에 대한 조직 간 상대 엔트로피로 생성한 수상도(dendrogram)에 나타난다.Excluding the mixed data set, the tissue with the smallest relative entropy for CGX in BRNO (normal breast tissue) is BRCA (breast cancer), and the tissue with the smallest relative entropy for CGX in CONO (normal breast tissue) is COAD (colon cancer). And READ (rectal cancer). In addition, the tissue with the smallest relative entropy for CGX of LUAD (lung adenocarcinoma) is LUSC (lung squamous cell carcinoma), another type of lung cancer. This trend appears in the dendrogram generated by the relative entropy between tissues for CGX.

도 30은 CGX에 대한 8개의 조직 간 상대 엔트로피를 기준으로 클러스터링한 결과이다. 도 30는 CGX에 대한 8개의 조직 간 상대 엔트로피를 기준으로 생성한 수상도이다. 도 30의 수상도는 종양 조직과 정상 조직 간의 구분이 아닌, 종양 조직과 기원이 되는 정상 조직을 함께 묶어 조직의 종류에 따른 분류를 정확하게 하고 있다. 30 is a result of clustering based on the relative entropy between eight tissues for CGX. FIG. 30 is a diagram of an aqueous phase generated based on the relative entropy between eight tissues for CGX. Fig. 30 is not a division between a tumor tissue and a normal tissue, but a tumor tissue and a normal tissue as an origin are grouped together to accurately classify according to the type of tissue.

조직 간 CG의 상대 엔트로피를 계산한 결과는 아래 표 11과 같다.The results of calculating the relative entropy of CG between tissues are shown in Table 11 below.

Figure pat00215
Figure pat00215

혼합 데이터 세트를 제외하고 BRNO(정상유방조직)의 CG에 대한 상대 엔트로피가 가장 작은 조직은 또 다른 정상 조직인 CONO(정상결장조직)이고, BRCA(유방암)의 CG에 대한 상대 엔트로피가 가장 작은 조직은 LUAD(폐선암), COAD(결장암) 및 READ(직장암)이다. 또한 악성의 경향이 높은 LUSC(폐편평세포암)와 OV(난소암)는 상호 간 CG에 대한 상대 엔트로피가 가장 작았다. 이와 같은 경향은 CG에 대한 조직 간 상대 엔트로피로 생성한 수상도에 나타난다.Excluding the mixed data set, the tissue with the smallest relative entropy for CG in BRNO (normal breast tissue) is another normal tissue, CONO (normal colon tissue), and the tissue with the smallest relative entropy for CG in BRCA (breast cancer) These are LUAD (lung adenocarcinoma), COAD (colon cancer) and READ (rectal cancer). In addition, LUSC (pulmonary squamous cell carcinoma) and OV (ovarian cancer), which tend to be malignant, had the lowest relative entropy for CG. This trend appears in the water level generated by the relative entropy between tissues for CG.

도 31은 CG에 대한 8개의 조직의 상대 엔트로피를 기준으로 클러스터링한 결과이다. 도 31는 CG에 대한 8개의 조직 간 상대 엔트로피를 기준으로 생성한 수상도이다. 도 31의 수상도는 정상 조직과 종양 조직을 정확하게 구분하며 종양 조직 내에서도 종양의 특성에 따른 분류를 하고 있다. 31 shows the results of clustering based on the relative entropy of 8 tissues for CG. FIG. 31 is a diagram of an aqueous phase generated based on the relative entropy between eight tissues for CG. Fig. 31 accurately distinguishes the normal tissue and the tumor tissue, and the tumor tissue is classified according to the characteristics of the tumor.

종양 조직은 조직과 종양세포를 포함하는 모든 세포에서 표현형의 전반적인 변이가 초래된다. 이와 같은 변이는 특정 유전자 혹은 유전자군의 발현 정도의 변동 혹은 돌연변이로 설명하기 위한 시도가 있어 왔다. 그러나 종래 연구는 단일 요소를 기준으로 정상 조직과 종양 조직을 명확하게 구분하지 못한다. Tumor tissue results in overall phenotypic variation in tissues and in all cells, including tumor cells. Attempts have been made to explain such mutations as changes or mutations in the degree of expression of specific genes or gene groups. However, conventional studies cannot clearly distinguish between normal and tumor tissues based on a single factor.

이에 반하여, 도 30 및 도 31을 살펴보면, 게놈 모듈 네트워크 구축 후 커널 모듈에 대한 분석(CG 및 CGX의 변이 측정)은 정상 조직과 종양 조직을 구분할 뿐만 아니라 조직의 종류를 분류할 수 있었다. 게놈 시스템 내에서 커널 모듈의 기능적 위치와 연구의 결과는 종양이 CG의 이탈과 CGX의 변이로 시작됨을 제시한다.On the contrary, referring to FIGS. 30 and 31, analysis of the kernel module (measurement of CG and CGX mutations) after the construction of the genome module network was able to classify not only normal tissues and tumor tissues, but also the types of tissues. The functional location of the kernel module within the genomic system and the results of the study suggest that tumors begin with CG departure and CGX mutation.

이하 커널 모듈을 기준으로 한 분석(CG 및 CGX)이 유의미한 것인지 추가적인 분석을 설명한다. Hereinafter, whether the analysis based on the kernel module (CG and CGX) is meaningful, an additional analysis will be described.

1. 유방암 관련 호르몬 수용체(Hormone receptor)1. Hormone receptor related to breast cancer

종양 조직에서 CG 및 CGX가 구성하는 게놈 시스템의 무결성(integrity)은 세포의 악성 변환(malignant transformation)과 관련된다. 따라서, CG와 CGX는 세포의 정상적 기능 전반에 영향을 미칠 수 있을 것이다. 연구자는 유방암에서 CG와 CGX를 분석하여 이와 같은 예측이 맞는지 검증하였다. The integrity of the genomic system that CG and CGX make up in tumor tissue is associated with malignant transformation of cells. Thus, CG and CGX may have an overall effect on the normal function of cells. Researchers analyzed CG and CGX in breast cancer to verify whether these predictions were correct.

일반적으로 호르몬 수용체의 발현 여부를 이용하여 유방암의 치료 방법이 결정된다. 호르몬 수용체 음성 유방암의 경우 호르몬 요법 치료의 효과가 없으며 호르몬 요법 약물은 호르몬 수용체 양성 유방암의 경우에 효과가 있는 것으로 알려져 있다. 그러나 모든 유방암 환자에게 이러한 치료법을 일괄적으로 적용하기에는 개인별로 치료 효과가 다르게 나타나는 경우가 많다. In general, the treatment method of breast cancer is determined using the expression of hormone receptors. In the case of hormone receptor negative breast cancer, hormone therapy treatment is not effective, and hormone therapy drugs are known to be effective in the case of hormone receptor positive breast cancer. However, in order to apply these treatments collectively to all breast cancer patients, treatment effects are often different for each individual.

연구자는 유방암에서 CG 및 CGX의 무결성과 호르몬 수용체의 발현 사이의 관계를 분석하였다. 아래 분석에서 연구자는 유방암 관련한 BRCA 및 BRNO 샘플에서 수용체의 양성 발현 및 음성 발현을 기준으로 그룹을 분류하고, 분류한 그룹을 기준으로 분석을 하였다.The researchers analyzed the relationship between the integrity of CG and CGX and the expression of hormone receptors in breast cancer. In the analysis below, the researcher classified groups based on positive and negative expression of receptors in BRCA and BRNO samples related to breast cancer, and analyzed based on the classified groups.

ER(Estrogen receptor), PR(progesterone receptor) 및 HER2(human epidermal growth factor receptor 2)에 대해 각 양성(positive) 샘플 그룹과 음성(negative) 샘플 그룹을 추출하여 CG 및 CGX (각각 n = 44)의 엔트로피를 계산하였다. CG의 엔트로피는 ER, PR 및 HER2의 양성 그룹에서 각각 0.1522, 0.1399 및 0.1986 bits로 측정되었고, ER, PR 및 HER2의 음성 그룹에서는 각각 0.4666, 0.3781 및 0.2604 bits로 측정되었다. 즉, CG의 엔트로피는 각 호르몬 수용체에서 양성 그룹이 음성 그룹보다 낮게 측정되었다. CGX의 엔트로피는 ER, PR 및 HER2의 양성 그룹에서 각각 0.2378, 0.2172 및 0.2708 bits로 측정되었고, ER, PR 및 HER2의 음성 그룹에서는 각각 0.2269, 0.2775 및 0.2417 bits로 측정되었다. 즉, CGX의 엔트로피는 양성 그룹과 음성 그룹의 차이가 미미하였다. CG and CGX ( n = 44 each) were extracted for each positive and negative sample group for ER (estrogen receptor), PR (progesterone receptor), and HER2 (human epidermal growth factor receptor 2). Entropy was calculated. The entropy of CG was measured to be 0.1522, 0.1399 and 0.1986 bits in the positive group of ER, PR and HER2, respectively, and 0.4666, 0.3781 and 0.2604 bits in the negative group of ER, PR and HER2, respectively. That is, the entropy of CG was measured lower in the positive group than in the negative group in each hormone receptor. The entropy of CGX was measured to be 0.2378, 0.2172 and 0.2708 bits in the positive group of ER, PR and HER2, respectively, and 0.2269, 0.2775 and 0.2417 bits in the negative group of ER, PR and HER2, respectively. That is, the difference between the positive and negative groups in the entropy of CGX was insignificant.

또한, BRCA는 종양 조직으로써 CGX로부터 CG가 분리되는데 그 분리되는 정도와 각 수용체의 발현상태와의 관계를 CGX와 CG 사이의 상대 엔트로피로 추정하였다. BRNO에서의 상대 엔트로피를 보면 CGX에 대한 CG의 상대 엔트로피는 0.025 bits (n = 28)이고 CG에 대한 CGX의 경우에는 0.062 bits (n = 28)였다.In addition, BRCA is a tumor tissue, and CG is separated from CGX, and the relationship between the degree of separation and the expression state of each receptor was estimated as the relative entropy between CGX and CG. Looking at the relative entropy in BRNO, the relative entropy of CG to CGX was 0.025 bits (n = 28) and that of CGX to CG was 0.062 bits ( n = 28).

BRCA 샘플(n = 44) 중 ER+, PR+ 및 HER2 + (양성 그룹)에서는 CGX에 대한 CG의 상대 엔트로피는 각 1.4845, 1.5023 및 3.5093 bits로 상당히 높은 편이었다. 그러나 음성 샘플 그룹에서는 7.1480, 5.4585 및 3.0739 bits로 증가하였다. CG에 대한 CGX의 경우 세 종류의 수용체의 양성 샘플 그룹에서 1.5616, 1.5307 및 4.0471 bits 였으며, 음성 샘플 그룹에서는 6.4663, 5.2620 및 3.1832 bits였다. 양성 샘플 그룹과 비교하여 음성 샘플 그룹에서는 ER과 PR에서는 상당히 증가하였으나, HER2에서는 오히려 줄어들었다.Among the BRCA samples (n = 44), in ER+, PR+, and HER2+ (positive group), the relative entropy of CG to CGX was significantly higher, 1.4845, 1.5023 and 3.5093 bits, respectively. However, in the voice sample group, it increased to 7.1480, 5.4585 and 3.0739 bits. CGX for CG was 1.5616, 1.5307 and 4.0471 bits in the positive sample group of the three receptors, and 6.4663, 5.2620 and 3.1832 bits in the negative sample group. Compared to the positive sample group, ER and PR significantly increased in the negative sample group, but decreased in HER2.

BRCA의 각 수용체의 양성 또는 음성 샘플 그룹에서 CG와 CGX의 BRNO에 대한 상대 엔트로피를 계산하였다(아래 표 12).The relative entropy for BRNO of CG and CGX was calculated in the positive or negative sample group of each receptor of BRCA (Table 12 below).

Figure pat00216
Figure pat00216

일반적으로 게놈 모듈의 BRNO에 대한 BRCA의 상대 엔트로피는 정상 상태로부터 이탈하는 정도를 의미한다. 따라서 ER 및 PR에 대해서 CG는 명확히 정상 상태로부터 이탈 정도가 클때 수용체는 발현되지 않았으나, 수용체의 발현 여부에 대한 CGX의 이탈 정도의 차이는 크지 않았다. HER2에서는 CG가 정상 상태로부터의 이탈하면 수용체의 발현은 억제되었으나, CGX에서는 정상 상태로부터의 이탈이 오히려 수용체의 발현을 촉진하였다. 즉,HER2의 발현은 CG가 작게 이탈하고 CGX가 크게 이탈할 때 증가한다. 반면에 ER 및 PR은 CG 및 CGX가 모두 BRNO로부터 이탈이 작을 때 발현되었다.In general, the relative entropy of BRCA to BRNO of the genomic module refers to the degree of deviation from the steady state. Therefore, for ER and PR, when the degree of departure from the normal state of CG was large, the receptor was not expressed, but the difference in the degree of departure of CGX with respect to the expression of the receptor was not large. In HER2, when CG escaped from the normal state, the expression of the receptor was suppressed, but in CGX, the departure from the normal state rather promoted the expression of the receptor. In other words, the expression of HER2 increases when CG leaves small and CGX leaves large. On the other hand, ER and PR were expressed when both CG and CGX had a small departure from BRNO.

한편, CG 및 CGX를 기준으로 각 샘플의 MSP를 계산할 수 있다. MSPCG와 MSPCGX는 각각 CG 및 CGX를 기준으로 계산한 각 샘플의 MSP를 의미한다. 도 32는 BRCA 샘플 248개에서 MSPCG 및 MSPCGX를 계산하고, 수용체의 발현에 따른 MSPCG 및 MSPCGX 분포를 도시한 결과이다. 도 32(A)는 BRCA 샘플에서 수용체 발현에 따른 MSPCG의 분포를 도시한 예이고, 도 32(B)는 BRCA 샘플에서 수용체 발현에 따른 MSPCGX의 분포를 도시한 예이다.Meanwhile, the MSP of each sample can be calculated based on CG and CGX. MSP CG and MSP CGX refer to the MSP of each sample calculated based on CG and CGX, respectively. FIG. 32 is a result of calculating MSP CG and MSP CGX in 248 BRCA samples and showing the distribution of MSP CG and MSP CGX according to the expression of the receptor. FIG. 32(A) is an example showing the distribution of MSP CG according to receptor expression in a BRCA sample, and FIG. 32(B) is an example showing the distribution of MSP CGX according to receptor expression in a BRCA sample.

도 32(A)에서, MSPCG의 분포는 3개의 수용체의 양성 및 음성 샘플 그룹 각각에서 유의한 차이를 보이고, 각 수용체의 양성 샘플 그룹에서 MSPCG의 중앙값이 음성 샘플 그룹에서 MSPCG의 중앙값에 비하여 유의하게 컸다. 도 32(B)에서, MSPCGX는 ER+와 PR+가 각각의 음성 샘플 그룹에 비하여 유의하게 컸다. 반면에 HER2의 경우는 유의하지는 않지만 음성 샘플 그룹에서 MSPCGX가 양성 샘플 그룹에 비하여 컸다. In Figure 32(A), the distribution of MSP CG shows a significant difference in each of the positive and negative sample groups of three receptors, and the median value of MSPCG in the positive sample group of each receptor is compared to the median value of MSP CG in the negative sample group. It was significantly larger. In FIG. 32(B), MSP CGX was significantly greater in ER+ and PR+ than in each negative sample group. On the other hand, in the case of HER2, although not significant, MSP CGX was higher in the negative sample group than in the positive sample group.

한편, TNBC(triple negative breast cancer, ER-/PR-/HER2-)샘플 그룹의 경우 MSPCG 및 MSPCGX가 나머지 샘플 그룹과 유의한 차이를 나타내었다 (p-value < 0.005). Meanwhile, in the case of the TNBC (triple negative breast cancer, ER-/PR-/HER2-) sample group, MSPCG and MSPCGX showed a significant difference from the other sample groups (p-value <0.005).

이를 좀 더 확인하기 위해 MSPCG 및 MSPCGX의 수준에 따라 BRCA 샘플을 나누어 수용체 발현의 유의한 차이를 이항 검정(binomial test)으로 검증하였다. MSPCG가 0.9932 보다 작은 경우에 오직 ER의 발현이 BRCA 전체에 비해 유의하게 감소되어 있었다. MSPCGX가 0.9885 보다 큰 경우 ER과 PR의 발현은 BRCA 전체에 비해 유의하게 증가되어 있었다. HER2의 경우에는 MSPCG 및 MSPCGX의 수준에 따른 유의한 변동은 없었다. 정상 유방 조직에서 CG와 CGX는 커널 모듈에 포함되어 있다. 따라서 유방암에서도 두 게놈 시스템 사이에는 밀접한 연관을 가질 수 밖에 없다.To further confirm this, the BRCA samples were divided according to the levels of MSP CG and MSP CGX , and a significant difference in receptor expression was verified by a binomial test. When the MSP CG was less than 0.9932, only the expression of ER was significantly reduced compared to the whole BRCA. When MSP CGX was greater than 0.9885, the expression of ER and PR was significantly increased compared to the whole BRCA. In the case of HER2, there was no significant change according to the levels of MSP CG and MSP CGX . In normal breast tissue, CG and CGX are contained in kernel modules. Therefore, even in breast cancer, the two genomic systems must have a close connection.

연구자는 MSPCG와 MSPCGX의 수준에 따라 BRCA 샘플 그룹 'hh', 'hl', 'lh' 및 'll'을 생성하였다(아래 표 13).Researchers gave the BRCA sample group 'hh', 'hl', 'lh' and 'll' in accordance with the levels of MSP and the MSP CGX CG (Table 13 below).

Figure pat00217
Figure pat00217

상기 표 13에서 ThCG와 ThCGX는 MSPCG와 MSPCGX를 이용하여 샘플을 나누는 각각의 기준점을 의미한다. 이하에서는 ThCG = 0.9932, ThCGX = 0.9885일 때를 가정하여 설명한다. In Table 13, Th CG and Th CGX refer to each reference point for dividing a sample using MSP CG and MSP CGX . Hereinafter, it is assumed that Th CG = 0.9932 and Th CGX = 0.9885.

네 개의 BRCA 샘플 그룹 중 lh는 샘플의 수가 11개에 불과하여 제외하였다. 나머지 세 개의 BRCA 샘플 그룹 각각에서 ER, PR, HER2의 발현 빈도를 계산한 후, 이항 검정으로 각 수용체의 양성 그룹과 음성 그룹 사이의 유의성을 검증하였다(아래 표 14). Of the four BRCA sample groups, lh was excluded because the number of samples was only 11. After calculating the expression frequencies of ER, PR, and HER2 in each of the remaining three BRCA sample groups, the significance between the positive and negative groups of each receptor was verified by a binomial assay (Table 14 below).

Figure pat00218
Figure pat00218

ER과 PR 각각의 음성 그룹과 양성 그룹 간 이항 검정 결과, 샘플 그룹 ll, 즉 저MSPCG, 저MSPCGX인 BRCA 샘플 그룹에서는 예상되는 바와 같이 두 수용체의 음성 샘플의 빈도가 유의하게 높았다. As a result of the binomial test between the negative and positive groups of ER and PR, as expected, in the sample group ll , that is, the BRCA sample group with low MSP CG and low MSP CGX , the frequency of negative samples of both receptors was significantly higher as expected.

반면에 HER2는 샘플 그룹 ll에서 음성의 빈도가 유의하게 높았고, 샘플 그룹 hl, 즉 고MSPCG, 저MSPCGX인 샘플 그룹에서는 양성의 빈도가 유의하게 높았다. 이와 같은 결과는 표 12에서 HER2 양성 샘플 그룹이 HER2 음성 샘플 그룹 대비 BRNO에 대한 CG의 상대 엔트로피는 낮으며, CGX의 상대 엔트로피는 높은 것과 일치한다. On the other hand, the frequency of negative HER2 was significantly higher in sample group ll , and the frequency of positive was significantly higher in sample group hl , that is, high MSP CG and low MSP CGX . This result is consistent with that in Table 12, the relative entropy of CG for BRNO in the HER2-positive sample group is low and that of CGX is high compared to the HER2-negative sample group.

ER과 PR의 발현은 CG와 CGX의 게놈 시스템이 붕괴되는 정도에 의존적이며, 특히 CG의 게놈 시스템에 대한 의존도가 컸다. HER2의 발현이 유의하게 증가하는 BRCA 샘플 그룹 hl에서 BRNO의 CG 및 CGX에 대한 상대 엔트로피는 각각 0.0023 및 0.4018 bits이다. 즉, HER2+샘플에서는 세포의 분화와 관련된 CGX의 붕괴의 정도가 크지만, 종양형성능(tumorigenicity)의 시작점인 CG의 무결성은 비교적 유지되고 있어, 세포 증식의 통제력을 상실한 미분화세포로서의 특성을 발휘할 것으로 추정할 수 있다. The expression of ER and PR was dependent on the degree of disruption of the genomic systems of CG and CGX, and in particular, the dependence of CG on the genomic system was large. The relative entropy for CG and CGX of BRNO in BRCA sample group hl where the expression of HER2 is significantly increased are 0.0023 and 0.4018 bits, respectively. In other words, in the HER2+ sample, the degree of disruption of CGX related to cell differentiation is large, but the integrity of CG, which is the starting point of tumorigenicity, is relatively maintained. can do.

반면에 BRCA 샘플 그룹 ll에서는 BRNO의 CG와 CGX에 대한 상대 엔트로피가 각각 0.6986 및 0.4357 bits로 증가되어 있어 HER2를 발현할 수 있는 게놈 시스템이 붕괴되어 있음을 나타낸다. 따라서, 샘플 그룹 ll에서 HER2 발현의 저하가 나타날 수 있다. 한편, BRCA 샘플 그룹 hh, 즉 CG와 CGX 모두의 게놈 시스템이 잘 보존되어 있어 분화된 상피 세포(epithelial cell)의 특성을 잘 유지하고 있는 샘플 그룹에서도 HER2+에 비해 HER2- 샘플이 다수 포함되어 있었다(표 14). 즉, HER2- 샘플은 샘플 그룹 hh와 ll에서 모두 나타난다. On the other hand, in BRCA sample group ll , the relative entropy of BRNO for CG and CGX was increased to 0.6986 and 0.4357 bits, respectively, indicating that the genomic system capable of expressing HER2 was disrupted. Thus, a decrease in HER2 expression may appear in sample group ll . On the other hand, in the BRCA sample group hh, that is, the sample group that maintains the characteristics of differentiated epithelial cells well because the genomic systems of both CG and CGX were well preserved, many HER2- samples were included compared to HER2+ ( Table 14). That is, the HER2- sample appears in both sample groups hh and ll.

따라서 HER2의 발현과 연관된 유방암의 악성도는 HER2+ 샘플 전체와 HER2- 샘플 중 샘플 그룹 ll에서 높다. 한편, 샘플 그룹 ll에서 ER과 PR의 발현은 저하되어 있을 가능성이 높기 때문에 악성도가 높은 유방암 환자는 결국 3개의 수용체가 모두 음성(triple negative)이 될 확률이 크다.Therefore, the malignancy of breast cancer associated with the expression of HER2 was high in the HER2+ sample and in the sample group ll of the HER2- sample. On the other hand, since it is highly likely that the expression of ER and PR in sample group ll is lowered, breast cancer patients with high malignancy have a high probability that all three receptors will eventually become triple negative.

이와 같은 결과를 종합하면 CG와 CGX의 게놈 시스템은 유방암에서 세포의 분화 정도와 종양형성능에 관여함으로써 ER, PR 및 HER2의 발현과 연관된다.Taking these results together, the genomic system of CG and CGX is related to the expression of ER, PR and HER2 by being involved in the degree of differentiation and tumorigenicity of cells in breast cancer.

2. CG 및 2. CG and CGXCGX 연관된 게놈 모듈 Associated genomic module

TCGA의 정상 유방 조직의 유전자 발현 데이터(BRNO)는 28개의 샘플로 구성된다. 유방암의 수술로 적출된 조직에서 병리학적으로 정상으로 판정된 조직을 사용하였다. 연구자는 BRNO 샘플에 대하여 CG와 CGX에 대한 MSP를 연산하였다. MSPCG 및 MSPCGX는 각각 0.9911 ~ 0.9989 및 0.9921 ~ 0.9984에 분포하고 있었다. 두 확률 분포의 하방 값은 유방암의 최댓값보다 작아 병리학적으로 정상이라 할지라도 게놈 시스템에 있어서는 잠재적으로 종양으로 변환될 가능성을 내포하고 있다. TCGA's normal breast tissue gene expression data (BRNO) consisted of 28 samples. The tissues determined to be pathologically normal from the tissues extracted by surgery for breast cancer were used. Researchers calculated MSPs for CG and CGX for BRNO samples. MSP CG and MSP CGX were distributed in 0.9911 to 0.9989 and 0.9921 to 0.9984, respectively. The lower values of the two probability distributions are less than the maximum values for breast cancer, implying the potential for transformation into a tumor in the genomic system, even if pathologically normal.

따라서 MSPCG 및 MSPCGX로 BRNO 샘플에 대한 계층적 클러스터링(hierarchical clustering)하였다. 도 33은 BRNO 샘플에 대하여 MSPCG 및 MSPCGX를 기준으로 클러스터링한 결과이다. 도 33은 BRNO 샘플의 MSPCG 및 MSPCGX를 기준으로 생성한 BRNO 샘플의 수상도이다. BRNO 샘플의 수상도는 BRNO 샘플의 게놈 시스템이 서로 이질적 특성을 가질 수 있음을 시사한다. Therefore, MSP CG and MSP CGX were used for hierarchical clustering of BRNO samples. 33 is a result of clustering BRNO samples based on MSP CG and MSP CGX . 33 is an aqueous phase diagram of a BRNO sample generated based on MSP CG and MSP CGX of a BRNO sample. The aqueous phase of the BRNO sample suggests that the genomic systems of the BRNO sample may have heterogeneous properties from each other.

도 34는 BRNO의 모듈 간 네트워크에서 커널 모듈에 대한 각 게놈 모듈의 상대 엔트로피를 표시한 예이다. 도 34는 BRNO 샘플 전체의 데이터로 계산한 커널 모듈에 대한 각 게놈 모듈의 상대 엔트로피이다. 도 34의 BRNO 모듈 간 네트워크에서 도메인과 도메인에 속하는 모듈은 다음과 같다 (표 15).FIG. 34 is an example showing the relative entropy of each genomic module with respect to the kernel module in the BRNO inter-module network. 34 is the relative entropy of each genomic module with respect to the kernel module calculated from the data of the entire BRNO sample. The domains and modules belonging to the domains in the BRNO inter-module network of FIG. 34 are as follows (Table 15).

Figure pat00219
Figure pat00219

BRNO의 게놈 시스템은 커널 모듈을 중심으로 연결되어 있다. meta는 전술한 메타 도메인을 의미한다. 지방 조직 형성 도메인(adipo)의 일부 모듈들에서 상대 엔트로피는 0.9265 ~ 4.3553 bits로 증가하였고, 상피 형성 도메인(epi)에 포함된 모듈들에서 상대 엔트로피는 1.0170 ~ 1.9703 bits로 증가되었다.BRNO's genomic system is linked around the kernel module. meta means the above-described meta domain. In some modules of the adipose tissue formation domain (adipo), the relative entropy was increased to 0.9265 ~ 4.3553 bits, and in the modules included in the epithelial domain (epi), the relative entropy was increased to 1.0170 ~ 1.9703 bits.

상피 형성 도메인(epi)의 모듈들이 커널 모듈에 지배에서 이탈되는 것을 확인하고자 도 33의 BRNO 샘플의 수상도 중에서 MSPCG 및 MSPCGX 가 1 에 가까운 값들을 가지는 가지(R.2.2.1.2)의 샘플들(샘플 인덱스 15, 11, 18, 8, 24, 7, 21, 10 및 19)로 각 모듈들의 커널 모듈에 대한 상대 엔트로피를 계산하였다.In order to confirm that the modules of the epithelial domain (epi) are deviated from the dominance of the kernel module, the sample of the branch (R.2.2.1.2) having values close to 1 in the MSP CG and MSP CGX of the BRNO sample of FIG. Relative entropy for the kernel module of each module was calculated by using (sample indexes 15, 11, 18, 8, 24, 7, 21, 10 and 19).

도 35는 BRNO의 모듈 간 네트워크에서 샘플 일부를 기준으로 커널 모듈에 대한 각 게놈 모듈의 상대 엔트로피를 표시한 예이다. 도 35는 BRNO 샘플 수상도의 가지 중에서 R.2.2.1.2에 속한 샘플들로 계산한 커널 모듈에 대한 각 게놈 모듈의 상대 엔트로피이다. 도 35에서 보이는 바와 같이 상피 형성 도메인(epi)에 속한 모듈들의 상대 엔트로피(0.0496 ~ 0.2131 bits)는 대폭 감소하였으며, 지방 형성 도메인(adipo)에 속한 일부 모듈들의 상대 엔트로피도 감소되었다. 이 결과는 정상 유방 샘플 중에서도 게놈 시스템이 가장 정상으로 추정되는 샘플들의 경우, 커널 모듈이 게놈 시스템의 대부분의 모듈을 지배함을 시사한다.FIG. 35 is an example of displaying the relative entropy of each genomic module with respect to a kernel module based on a part of a sample in the BRNO inter-module network. 35 is a relative entropy of each genomic module for a kernel module calculated from samples belonging to R.2.2.1.2 among the branches of the BRNO sample water degree. As shown in FIG. 35, the relative entropy (0.0496 ~ 0.2131 bits) of the modules belonging to the epithelial domain (epi) was significantly reduced, and the relative entropy of some modules belonging to the adipoforming domain (adipo) was also reduced. This result suggests that the kernel module dominates most modules of the genome system in the case of samples whose genomic system is estimated to be the most normal among normal breast samples.

연구자는 BRNO 샘플 일부를 이용하여 커널 모듈의 상당부분을 구성하는 CGX에 대한 BRNO 모듈들의 상대 엔트로피를 연산하였다. 도 36은 BRNO의 모듈 간 네트워크에서 샘플 일부를 기준으로 커널 모듈의 CGX에 대한 각 게놈 모듈의 상대 엔트로피를 표시한 예이다. 도 36은 BRNO 샘플 수상도의 가지 중에서 R.2.2.1.2에 속한 샘플들로 계산한 커널 모듈의 CGX에 대한 각 게놈 모듈의 상대 엔트로피이다. 도 36을 살펴보면, 도 35의 전체 커널 모듈에 대한 각 게놈 모듈의 상대 엔트로피와 거의 유사한 것을 알 수 있다.Using some of the BRNO samples, the researcher calculated the relative entropy of the BRNO modules for CGX, which constitutes a large part of the kernel module. FIG. 36 is an example of displaying the relative entropy of each genomic module to CGX of a kernel module based on a part of a sample in the BRNO inter-module network. FIG. 36 is a relative entropy of each genomic module to CGX of a kernel module calculated from samples belonging to R.2.2.1.2 among the branches of the BRNO sample award degree. Referring to FIG. 36, it can be seen that the relative entropy of each genomic module with respect to the entire kernel module of FIG. 35 is substantially similar.

연구자는 BRNO 샘플 일부를 이용하여 커널 모듈의 상당부분을 구성하는 CG에 대한 BRNO 모듈들의 상대 엔트로피를 연산하였다. 도 37은 BRNO의 모듈 간 네트워크에서 샘플 일부를 기준으로 커널 모듈의 CG에 대한 각 게놈 모듈의 상대 엔트로피를 표시한 예이다. 도 37은 BRNO 샘플 수상도의 가지 중에서 R.2.2.1.2에 속한 샘플들로 계산한 커널 모듈의 CG에 대한 각 게놈 모듈의 상대 엔트로피이다. 모든 모듈에서 CG에 대한 상대 엔트로피가 CGX에 대한 엔트로피보다 컸다. 따라서 CG는 간접적으로 BRNO의 모듈들에 연결되는 것으로 추정할 수 있다.Using some of the BRNO samples, the researcher calculated the relative entropy of the BRNO modules for the CG that constitutes a large part of the kernel module. 37 is an example showing the relative entropy of each genomic module with respect to the CG of the kernel module based on a part of the sample in the BRNO inter-module network. 37 is the relative entropy of each genomic module to the CG of the kernel module calculated from samples belonging to R.2.2.1.2 among the branches of the BRNO sample water degree. In all modules, the relative entropy for CG was greater than the entropy for CGX. Therefore, it can be assumed that the CG is indirectly connected to the BRNO modules.

도 33의 BRNO 샘플 수상도의 가지, 즉 R.1, R.2.1, R.2.2.1.1, R.2.2.1.2, 및 R.2.2.2 중에서 R.1은 샘플의 수가 2개에 불과하여 엔트로피를 계산하기에는 적합하지 않다. 따라서 R.1을 제외하고 각 가지에서 CGX에 대한 CG의 상대 엔트로피를 계산한 결과,R.2.1에서 CGX에 대한 CG의 상대 엔트로피

Figure pat00220
가 0.0196 bits로 제일 컸다. Among the branches of the BRNO sample water degree of FIG. 33, that is, R.1, R.2.1, R.2.2.1.1, R.2.2.1.2, and R.2.2.2, R.1 has only two samples, It is not suitable for calculating entropy. Therefore, as a result of calculating the relative entropy of CG to CGX in each branch except R.1, the relative entropy of CG to CGX in R.2.1
Figure pat00220
Was the largest at 0.0196 bits.

BRNO 샘플 수상도의 각 샘플 가지 R.2.1, R.2.2.1.1, R.2.2.1.2 및 R.2.2.2에서 커널 모듈에 대한 각 게놈 모듈들의 상대 엔트로피

Figure pat00221
의 평균치는 0.2175, 0.3582, 0.0843 및 0.1094 bits이다. R.2.2.1.1과 R.2.1에서 상대적으로 높은 값을 갖는다. 표준편차는 각각 순서대로 0.2943, 0.6219, 0.1485 및 0.1739이다. 즉, R.2.2.1.1 에서 유난히 큰데, 이는 상피 형성 도메인(epi) 및 지방 형성 도메인(adipo)의 모듈들의 상대 엔트로피가 집중적으로 커지는데 기인한다. 따라서, R.2.1에서는 CG의 이탈로 인해 각 게놈 모듈에 대한 CGX의 지배력이 전반적으로 감소된 것으로 추정되는 반면, R.2.2.1.1에서는 보다 복잡한 기작이 개입되었을 것으로 추정된다.The relative entropy of each genomic module to the kernel module in each sample branch R.2.1, R.2.2.1.1, R.2.2.1.2 and R.2.2.2 of the BRNO sample award degree
Figure pat00221
The average values of are 0.2175, 0.3582, 0.0843 and 0.1094 bits. It has a relatively high value in R.2.2.1.1 and R.2.1. The standard deviations are 0.2943, 0.6219, 0.1485 and 0.1739, respectively. That is, it is exceptionally large in R.2.2.1.1, which is due to the intensive increase in the relative entropy of the modules of the epithelial domain (epi) and the adipose domain (adipo). Therefore, in R.2.1, it is estimated that the dominance of CGX for each genomic module is generally reduced due to the departure of CG, whereas in R.2.2.1.1, a more complex mechanism is estimated to be involved.

3. 정상 샘플에 대한 종양 발생 예측 분석3. Analysis of predictive tumor occurrence for normal samples

BRNO 샘플들의 특성을 더 명확히 확인하기 위해 BRNO의 샘플들을 유방암의 샘플들(BRCA)과 합하여 BRNO의 CG 및 CGX에 대한 MSP를 계산하고 계층적 클러스터링을 수행하였다. 도 38은 BRNO의 CG 및 CGX에 대해 계산한 BRNO 샘플 및 BRCA 샘플의 MSP를 기준으로 클러스터링한 결과이다. 도 38의 하단은 분류된 가지에 속하는 샘플의 이름을 확대 도시하였다.In order to more clearly confirm the characteristics of BRNO samples, samples of BRNO were combined with samples of breast cancer (BRCA) to calculate MSPs for CG and CGX of BRNO, and hierarchical clustering was performed. 38 shows the results of clustering based on the MSP of the BRNO sample and the BRCA sample calculated for CG and CGX of BRNO. The lower part of FIG. 38 is an enlarged view of the names of samples belonging to the classified branches.

대부분의 BRNO 샘플(19개)은 BRCA 샘플들과는 분리되어 있었으나,BRNO 샘플 수상도의 가지 중에서 R.2.2.2에 포함되어 있는 샘플 4, 5 및 6은 바로 인접한 가지에서 BRCA의 샘플들과 섞여 있었으며,R.2.1의 샘플 12, 20 및 26은 보다 먼 가지로 분리되어 BRCA의 샘플들과 섞여 있었다. R.1의 샘플 14 및 23과 R.2.1의 샘플 16은 상당히 먼 가지로 분리되어 BRCA의 샘플들에 섞였다. 이와 같은 결과는 병리학적으로 종양 세포를 분별할 수 있기 이전에 게놈 시스템에서 변이가 진행될 수 있음을 시사한다. 즉, BRCA의 샘플과 같은 가지로 분류된 BRNO의 샘플들은 정상 조직과 달리 종양 조직으로의 변이가 시작된 샘플(종양 발병 가능)이라고 볼 수 있다.Most of the BRNO samples (19) were separated from the BRCA samples, but among the branches of the BRNO sample aqueous phase, samples 4, 5 and 6 included in R.2.2.2 were mixed with the samples of BRCA in the immediately adjacent branch. Samples 12, 20, and 26 of R.2.1 were separated into more distant branches and mixed with samples of BRCA. Samples 14 and 23 of R.1 and sample 16 of R.2.1 were separated into considerably distant branches and mixed with samples of BRCA. These results suggest that mutations may proceed in the genomic system before tumor cells can be identified pathologically. In other words, samples of BRNO that are classified in the same branch as those of BRCA can be seen as samples in which mutations into tumor tissues have begun (possible tumor development), unlike normal tissues.

BRNO 샘플에서 게놈 시스템의 변이를 확인하기 위해 전체 BRNO 게놈 모듈들에 대한 BRNO와 BRCA의 샘플들의 MSP를 계산하고 레벨 플롯(levelplot)을 작성하였다. 도 39는 전체 BRNO 게놈 모듈들에 대해 계산한 BRNO와 BRCA의 샘플들의 MSP를 기준으로 클러스터링한 레벨 플롯의 예이다. 도 39에서 가로축은 BRNO와 BRCA의 샘플들의 계층적 클러스터링 결과이고, 세로축은 전체 BRNO 게놈 모듈들의 계층적 클러스터링 결과이다. 예측했던 바와 같이 BRNO와 BRCA의 샘플들은 일부를 제외하고 수상도에서 서로 다른 가지로 분리되어 있었다. BRNO 샘플로 구성된 가지에서 이탈한 BRNO 샘플 2 및 3은 상피 형성 도메인(epi)의 모듈들에 대한 MSP가 BRCA 샘플들의 MSP 수준으로 감소되어 있으며, BRNO 샘플 9에서는 모듈 76 및 81에 대한 MSP가 0.3463 및 0.3118로 상당히 붕괴되어 있으나, 나머지 모듈들에 대한 MSP도 정상으로 인정하기 어려운 0.8~0.9 사이에 있었다. 또한, BRNO 샘플 20, 15 및 22의 MSP는 이들 샘플에서 지방 형성과 관련된 모듈 61이 붕괴되고, 모듈 49 및 33이 부분적으로 붕괴되었음을 나타낸다. BRNO 샘플 12도 BRNO 샘플로 구성된 가지에서 벗어나 BRCA의 샘플과 같은 가지에 포함되어 있다. BRNO 샘플 12의 MSP는 전체 85개의 BRNO 게놈 모듈 중 30개에서 가장 낮은 값을 보였는데, 이는 BRNO 샘플들 중 가장 많은 것이다. In order to confirm the variation of the genomic system in the BRNO sample, MSPs of samples of BRNO and BRCA were calculated for all BRNO genome modules and a level plot was created. 39 is an example of a level plot clustered based on MSP of samples of BRNO and BRCA calculated for all BRNO genome modules. In FIG. 39, the horizontal axis is the hierarchical clustering result of samples of BRNO and BRCA, and the vertical axis is the hierarchical clustering result of all BRNO genome modules. As expected, samples of BRNO and BRCA were separated into different branches in the aqueous phase except for some. In BRNO samples 2 and 3, which deviated from the branch consisting of the BRNO sample, the MSP for the modules of the epithelial domain (epi) was reduced to the MSP level of the BRCA samples, and in the BRNO sample 9, the MSP for modules 76 and 81 was 0.3463. And 0.3118, but the MSP for the remaining modules was also between 0.8 and 0.9, which is difficult to recognize as normal. In addition, the MSPs of BRNO samples 20, 15 and 22 indicate that in these samples, modules 61 related to fat formation were collapsed, and modules 49 and 33 were partially collapsed. BRNO sample 12 is also included in the same branch as the BRCA sample, away from the branch composed of the BRNO sample. The MSP of BRNO sample 12 showed the lowest value in 30 of all 85 BRNO genomic modules, which is the most among BRNO samples.

이 30개에 해당하는 모듈들은 세포 주기(cell cycle), 간질(stroma) 및 혈관 신생(angiogenesis)에 관련된 도메인에 주로 속해 있다. 도 40은 전체 BRNO 게놈 모듈에 대한 BRNO 샘플 12의 MSP 중에서 가장 낮은 MSP를 갖는 모듈을 BRNO 모듈 간 네트워크에 도시한 예이다. 도 40은 BRNO 샘플들 전체를 사용하여 구축한 모듈 간 네트워크에 BRNO 샘플 12의 MSP가 낮은 모듈을 도시한 예이다. These 30 modules mainly belong to domains related to the cell cycle, stroma and angiogenesis. FIG. 40 is an example showing a module having the lowest MSP among the MSPs of BRNO sample 12 for all BRNO genome modules in a network between BRNO modules. 40 is an example of a module having a low MSP of BRNO sample 12 in an inter-module network constructed using all of BRNO samples.

이와 같은 결과들은 TCGA의 BRNO 샘플들은 게놈 시스템의 변이라는 측면에서 볼 때 모두가 정상 범주에 있다고 보기 어렵다는 것을 시사한다. 특히 샘플 2, 3 및 9에서는 상피 형성 도메인(epi)의 모듈들이 변이되어 있음을 보여주고 있다. 일반적으로 상대 엔트로피의 증가는 모듈의 붕괴 및 변이를 통해서 발생할 수 있다. 붕괴는 엔트로피의 증가로, 변이는 고유 벡터의 각도 발산으로 구별할 수 있다. 상피 형성 도메인(epi)의 각 모듈(34, 52, 53, 70, 76, 81, 84)에 대해서 각 샘플의 각도 발산을 계산한 결과는 아래 표 16에 나타냈다.These results suggest that TCGA's BRNO samples are unlikely to be all in the normal range in terms of variations in the genomic system. In particular, samples 2, 3 and 9 show that the modules of the epithelial domain (epi) are mutated. In general, an increase in relative entropy can occur through collapse and mutation of the module. The decay can be distinguished by an increase in entropy and the variance by the angular divergence of the eigenvector. The results of calculating the angle divergence of each sample for each module (34, 52, 53, 70, 76, 81, 84) of the epithelial domain (epi) are shown in Table 16 below.

Figure pat00222
Figure pat00222

BRNO 샘플 수상도의 R.2.2.1.1의 샘플들 중에서 2, 3 및 9번에서만 각도 발산이 크기는 하지만 엔트로피의 계산을 위해서 여기에 속한 모든 샘플들을 대상으로 각도 발산을 계산하였다. 엔트로피는 R.2.2.1.1에서 증가되어 있었다. 따라서 R.2.2.1.1의 샘플들에서 상피 형성 도메인(epi)은 변이와 붕괴가 동시에 발생하고 있음을 알 수 있다.Although the angular divergence is large only in 2, 3 and 9 of the samples of R.2.2.1.1 of the BRNO sample water degree, the angular divergence was calculated for all the samples included therein for the calculation of entropy. Entropy was increased in R.2.2.1.1. Therefore, it can be seen that in the samples of R.2.2.1.1, mutation and disruption of the epithelial domain (epi) occur simultaneously.

전술한 바와 같이 게놈 모듈 사이에 연결성은 상대 엔트로피로 추정할 수 있다. 특정 측면에 대해서 동일한 속성을 가지는 샘플 그룹에서 획득한 유전자 발현 데이터로부터 두 게놈 모듈의 밀도 행렬들을 계산하고, 이들 밀도 행렬로부터 상대 엔트로피를 측정한다. 상대 엔트로피는 샘플 공간에서 얻어지는 것이기 때문에 전체 샘플에서의 연결성을 추정할 수 있게 해준다. 그러나, 상대 엔트로피는 개별 샘플 내에서의 모듈 간 연결성을 추정하지 못한다. 개별 샘플 내의 모듈 간 연결성 추정을 위하여 연구자는 SSMC(Single Sample Modular Connectivity)라는 지표를 개발하였다. 후술하는 설명에 앞서 SSMC에 대하여 설명한다.As described above, the connectivity between genomic modules can be estimated by relative entropy. Density matrices of the two genomic modules are calculated from gene expression data obtained from a group of samples having the same properties for a specific aspect, and relative entropy is measured from these density matrices. Since the relative entropy is obtained in the sample space, it makes it possible to estimate the connectivity in the entire sample. However, the relative entropy cannot estimate the connectivity between modules within individual samples. In order to estimate the connectivity between modules in individual samples, the researcher developed an indicator called SSMC (Single Sample Modular Connectivity). SSMC will be described prior to the following description.

연구자는 개별 샘플에서 게놈 모듈 간 연결성을 추정하기 위해 두 모듈에 의해 공유되는 유전자 세트 c와 각 모듈에 고유한 유전자 세트 a 및 b를 가정하였다. 샘플 i의 샘플 벡터

Figure pat00223
는 각 유전자 세트의 샘플 벡터
Figure pat00224
,
Figure pat00225
Figure pat00226
로 구성된다. 각 모듈의 밀도 행렬을 각각 ρc,a와 ρc,b로 정의하고, 두 게놈 모듈의 통합 밀도 행렬을 ρ로 정의했을 때, 각 모듈의 엔트로피 사이의 관계는
Figure pat00227
이다. 이때 두 모듈 사이에 상대 엔트로피가 충분히 낮다면
Figure pat00228
이다. 그 반대의 경우에는
Figure pat00229
로 근접한다. 따라서 전자의 경우 ρ는 단축(minor axis)의 고유 값에 대한 장축(major axis)의 고유값의 비가 큰 타원이고, 후자의 경우 상대 엔트로피가 증가함에 따라 비율이 감소하여 점차 원형에 가까워진다. 따라서 두 게놈 모듈의 통합 밀도 행렬 ρ에 대한 샘플 i의 확률 pi
Figure pat00230
이고, 모든 샘플의 확률은 모듈 a 및 b에 대한 확률이 높건 낮건 감소하게 된다. 한편,두 모듈이 합쳐진 것에 대한 샘플 i의 확률 pi는 유전자 세트 a, b 및 공유되는 유전자 세트 c의 함수로 아래의 수학식 17과 같이 표시된다.In order to estimate the connectivity between genomic modules in individual samples, the investigator assumed a set of genes c shared by the two modules and a set of genes a and b unique to each module. Sample vector of sample i
Figure pat00223
Is the sample vector for each gene set
Figure pat00224
,
Figure pat00225
And
Figure pat00226
Consists of When the density matrix of each module is defined as ρ c,a and ρ c,b , and the integrated density matrix of the two genomic modules is defined as ρ, the relationship between the entropy of each module is
Figure pat00227
to be. At this time, if the relative entropy between the two modules is low enough
Figure pat00228
to be. Vice versa
Figure pat00229
Close to Therefore, in the former case, ρ is an ellipse in which the ratio of the eigenvalue of the major axis to the eigenvalue of the minor axis is large, and in the latter case, the ratio decreases as the relative entropy increases and gradually approaches the circle. Therefore, the probability p i of sample i for the integrated density matrix ρ of the two genomic modules is
Figure pat00230
And the probability of all samples is module a And the probability for b decreases, whether high or low. Meanwhile, the probability p i of sample i for the two modules combined is the gene set a, It is expressed as Equation 17 below as a function of b and shared gene set c.

Figure pat00231
Figure pat00231

여기서, 두 게놈 모듈의 통합 밀도 행렬 ρ는 아래 수학식 18과 같이 각 유전자 세트의 밀도 행렬(ρ c, ρ aρ b)과 그들 사이에서 생성되는 비대칭 행렬 (ρ ca, ρ cb, ρ ac,ρ ab ρ bc)로 구성된다.Here, the integrated density matrix ρ of the two genome modules is the density matrix ( ρ c , ρ a and ρ b ) of each gene set and the asymmetric matrix generated between them ( ρ ca , ρ cb , ρ ac ) as shown in Equation 18 below. , ρ ab and ρ bc ).

Figure pat00232
Figure pat00232

여기서,

Figure pat00233
, here,
Figure pat00233
,

Figure pat00234
,
Figure pat00234
,

Figure pat00235
이다.
Figure pat00235
to be.

따라서, pi는 아래 수학식 19와 같이 표현될 수 있다.Therefore, p i can be expressed as Equation 19 below.

Figure pat00236
Figure pat00236

여기서,

Figure pat00237
,
Figure pat00238
,
Figure pat00239
이며,
Figure pat00240
Figure pat00241
를 제외한 나머지 항은 각 모듈 개별에서 샘플의 특성을 규정한다. 따라서 샘플 i에서 두 모듈 사이의 연결성과는 관계가 없다. 두 모듈에 의해서 공유되는 유전자 세트 c는 두 모듈 사이에 연결성을 증가시키며 특히 γ가 클수록 연결성은 커진다.
Figure pat00242
는 두 모듈에 의해 공유되지 않은 유전자들에 의한 연결성을 표시하며 공유되는 유전자의 수가 적을 때 중요한 의미를 갖는다. 따라서 두 모듈을 합친 것에 대한 샘플 i의 확률 pi는 두 모듈의 무결성과 연결성을 종합적으로 표현한다. pi가 SSMC 지표에 해당한다.here,
Figure pat00237
,
Figure pat00238
,
Figure pat00239
Is,
Figure pat00240
And
Figure pat00241
The remaining terms except for stipulate the characteristics of the sample in each module. Therefore, in sample i, the connectivity between the two modules is irrelevant. The gene set c shared by the two modules increases the connectivity between the two modules, especially the greater γ, the greater the connectivity.
Figure pat00242
Indicates connectivity by genes that are not shared by the two modules, and has an important meaning when the number of shared genes is small. Hence, the probability p i of sample i for combining the two modules together expresses the integrity and connectivity of the two modules. p i corresponds to the SSMC indicator.

커널 모듈 모듈과 상피 형성 도메인(epi)의 모듈들 사이에 연관 관계를 살펴보기 위해 각 BRNO 샘플에서 SSMC를 계산하였다. 아래 표 14는 BRNO의 각 샘플에서 BRNO 모듈 6과 상피 형성 도메인(epi)의 모듈들 사이의 SSMC를 나타낸다. 아래 표 15는 BRNO의 각 샘플에서 BRNO 모듈 68과 상피 형성 도메인(epi)의 모듈들 사이의 SSMC를 나타낸다.SSMC was calculated in each BRNO sample to examine the relationship between the kernel module module and the modules of the epithelial domain (epi). Table 14 below shows the SSMC between BRNO module 6 and the modules of the epithelial domain (epi) in each sample of BRNO. Table 15 below shows the SSMC between the BRNO module 68 and the modules of the epithelial domain (epi) in each sample of BRNO.

표 17 및 표 18에서 BRNO 샘플 수상도 R.2.2.1.1에 속하는 BRNO 샘플 2, 3 및 9는 상피 형성 도메인(epi)의 모든 모듈에서 SSMC는 감소되어 있음이 확인된다. 이는 해당 모듈에 대한 정보 교환이 단절 또는 감소되었다는 것을 의미한다. BRNO 모듈 간 네트워크상에서 상피 형성 도메인(epi)에 제일 가까운 모듈은 6 및 68이다. In Tables 17 and 18, it was confirmed that the BRNO samples 2, 3, and 9 belonging to the BRNO sample water level R.2.2.1.1 had reduced SSMC in all modules of the epithelial domain (epi). This means that the exchange of information for the module has been cut off or reduced. The modules closest to the epithelial domain (epi) on the network between BRNO modules are 6 and 68.

Figure pat00243
Figure pat00243

Figure pat00244
Figure pat00244

BRNO 샘플 2, 3 및 9에서 모듈 6 및 68은 상피 형성 도메인(epi)의 모듈들과 SSMC가 감소되어 있었다. 모듈 6 및 68과 커널 모듈 사이에 SSMC를 계산한 결과는 샘플 3에서 미미한 연결성의 저하를 볼 수 있었지만, 샘플 2 및 9에서는 연결성 저하를 전혀 볼 수 없었다. 따라서 모듈 6 및 68과 상피 형성 도메인(epi) 사이에는 커널 모듈의 영향을 받는 또 다른 모듈이 매개되고 있음을 시사한다. 근처의 여러 모듈과 커널 모듈 및 6과 68 사이 관계를 조사한 결과 모듈 18 이 가장 유력하였다. In BRNO samples 2, 3 and 9, modules 6 and 68 had reduced modules of the epithelial domain (epi) and SSMC. As a result of calculating SSMC between modules 6 and 68 and the kernel module, a slight decrease in connectivity was observed in Sample 3, but no decrease in connectivity was observed in Samples 2 and 9. Therefore, it is suggested that another module affected by the kernel module is mediated between modules 6 and 68 and the epithelial domain (epi). As a result of examining the relationship between several nearby modules and kernel modules, and between 6 and 68, module 18 was the most prominent.

커널 모듈과 모듈 18과의 SSMC는 샘플 2, 3 및 9를 제외한 경우 평균이 0.9811 ± 0.0050이고, 샘플 2, 3 및 9의 경우 각각 0.9488, 0.9328 및 0.9460으로 저하되어 있었다. 커널 모듈을 구성하는 유전자 세트인 CG에 대한 SSMC를 계산한 결과 샘플 2, 3 및 9의 경우 0.8796, 0.8374 및 0.8762였으며,이들을 제외한 나머지의 평균은 0.9661 ± 0.0087이었다. 커널 모듈을 구성하는 유전자 세트인 CGX에 대한 SSMC를 계산한 결과 샘플 2, 3 및 9의 경우 0.9397, 0.9205 및 0.9362였으며, 이들을 제외한 나머지의 평균은 0.9789 ± 0.0051 이었다. 이러한 결과는 커널 모듈에서 CG의 변이가 커널 모듈과 모듈 18의 연결성을 훼손하고 모듈 6 및 68과 상피 형성 도메인(epi)의 연결을 차단하였으며, 그 결과 상피 세포의 기능적 특성은 소실되어 상피 세포가 다른 형태로 변환될 수 있음을 의미한다.The SSMC between the kernel module and module 18 had an average of 0.9811 ± 0.0050 excluding samples 2, 3 and 9, and decreased to 0.9488, 0.9328 and 0.9460 in samples 2, 3 and 9, respectively. As a result of calculating SSMC for CG, which is a set of genes constituting the kernel module, samples 2, 3, and 9 were 0.8796, 0.8374, and 0.8762, and the average of the rest excluding them was 0.9661 ± 0.0087. As a result of calculating SSMC for CGX, which is a set of genes constituting the kernel module, samples 2, 3 and 9 were 0.9397, 0.9205, and 0.9362, and the average of the rest excluding them was 0.9789 ± 0.0051. These results indicate that the mutation of CG in the kernel module damaged the connectivity between the kernel module and module 18 and blocked the connection between modules 6 and 68 and the epithelial domain (epi). As a result, the functional properties of the epithelial cells were lost, resulting in the loss of epithelial cells. It means that it can be transformed into other forms.

연구자는 샘플 2, 3 및 9가 포함된 R.2.2.1.1의 BRNO 샘플들(이하 BN2211로 표시함)로 새로이 모듈들을 추출한 결과 모두 87개의 모듈을 얻을 수 있었다. BN2211에서 얻은 모듈들의 생물학적 기능을 확인하기 위해 BRNO의 모듈을 BN2211에 맵핑하고 BN2211 모듈과의 상대 엔트로피를 계산하였다. BN2211 모듈은 BN2211에 속한 샘플들을 이용하여 구축한 모듈 간 네트워크에 속한 모듈을 의미한다. 도 41은 BRNO로부터 BN2211에 맵핑된 BRNO 모듈들에 대한 BN2211 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다. BRNO의 상피 형성 도메인(epi)의 모듈(34, 52, 53, 70, 76, 81 및 84)들은 BN2211의 모듈 87에서만 상대 엔트로피가 낮았다. 즉, BN2211에서는 상피 형성 도메인(epi)의 모듈들이 대부분 붕괴되었음을 확인할 수 있었다. 반면에 BN2211의 모듈 21, 30, 39 및 81은 BRNO에서 일치하는 모듈이 없음을 보여준다. 도 42는 BN2211의 모듈 21, 30, 39 및 81에 대한 BRNO 샘플들의 MSP의 분포이다. 도 42와 같이 BN2211 모듈 21 과 81에서 샘플 9의 MSP는 작았으나,그 외의 경우에는 비교적 높은 값을 가지고 있었다. 따라서 모듈 21, 30, 39 및 81은 BRNO 샘플 2, 3 및 9에서 무결성이 비교적 잘 유지되고 있다. 한편, 각 BRNO 샘플에서 BRNO의 각 모듈과 이들 BN2211의 모듈들의 SSMC를 계산하여 본 결과 샘플 2, 3 및 9에서 연결성이 감소되어 있었다. 특히 샘플 2 및 3에서는 이 모듈들의 고립은 두드러졌으나,샘플 9에서는 커널 모듈 및 CCDR 도메인과의 연결성(SSMC: 0.03- 0.88)은 충분치는 않으나 고립은 완화되어 있었다. 이들 샘플에서 모듈 21, 30, 39 및 81을 제외한 BN 2211의 모든 모듈들은 커널 모듈과의 연결성이 충분했으며, 상피 형성 도메인(epi)을 제외한 대부분의 다른 모듈과도 연결성은 높았다. BN2211의 모듈 21, 39, 30 및 81의 생물학적 기능이 변환되는지 를 확인하기 위해 BRNO 샘플 모두에서 이들 모듈의 밀도 행렬(

Figure pat00245
, i=21,30,39,81)로부터 각각의 제1 고유 벡터 (
Figure pat00246
)를 계산하였다. 각 BN2211 모듈의 유전자 공간에서 BRNO 샘플 j (j = 1, ... , 28)의 발현 벡터
Figure pat00247
Figure pat00248
사이의 각도를 측정한 결과는 아래 표 19와 같다.As a result of newly extracting modules from BRNO samples of R.2.2.1.1 (hereinafter referred to as BN2211) containing samples 2, 3 and 9, all 87 modules were obtained. In order to confirm the biological function of the modules obtained from BN2211, the modules of BRNO were mapped to BN2211 and the relative entropy with the BN2211 module was calculated. The BN2211 module refers to a module belonging to an inter-module network built using samples belonging to BN2211. 41 is an example of a level plot clustered based on the relative entropy of BN2211 modules for BRNO modules mapped from BRNO to BN2211. Modules (34, 52, 53, 70, 76, 81 and 84) of the epithelial domain (epi) of BRNO had a low relative entropy only in module 87 of BN2211. That is, in BN2211, it was confirmed that most of the modules of the epithelial domain (epi) were collapsed. On the other hand, modules 21, 30, 39 and 81 of BN2211 show that there is no matching module in BRNO. 42 is the distribution of MSP of BRNO samples for modules 21, 30, 39 and 81 of BN2211. As shown in FIG. 42, in the BN2211 modules 21 and 81, the MSP of Sample 9 was small, but in other cases, the MSP was relatively high. Thus, modules 21, 30, 39 and 81 are relatively well maintained in integrity in BRNO samples 2, 3 and 9. Meanwhile, as a result of calculating the SSMC of each BRNO module and the BN2211 modules in each BRNO sample, the connectivity was reduced in samples 2, 3, and 9. In particular, in Samples 2 and 3, the isolation of these modules was remarkable, but in Sample 9, the connectivity between the kernel module and the CCDR domain (SSMC: 0.03-0.88) was not sufficient, but the isolation was relaxed. In these samples, all modules of BN 2211 except for modules 21, 30, 39, and 81 had sufficient connectivity with kernel modules, and had high connectivity with most other modules except for the epithelial domain (epi). Density matrices of these modules in all BRNO samples to see if the biological functions of modules 21, 39, 30 and 81 of BN2211 are transformed (
Figure pat00245
, i=21,30,39,81) from each first eigenvector (
Figure pat00246
) Was calculated. Expression vector of BRNO sample j (j = 1, ..., 28) in the gene space of each BN2211 module
Figure pat00247
Wow
Figure pat00248
The results of measuring the angle between are shown in Table 19 below.

Figure pat00249
Figure pat00249

BRNO 샘플 2, 3 및 9에서 발현 벡터의 각도는 다른 샘플들과는 현저히 다른 값을 가지고 있어 방향이 현저하게 달라져 있음을 알 수 있다. 이는 BRNO의 이들 샘플에서 게놈 모듈들이 발생시키는 표현형의 크기(정도)가 아닌 방향이 달라짐으로 인해 생물학적 특성이 변환되었음을 보여준다.It can be seen that the angle of the expression vector in BRNO samples 2, 3 and 9 has a significantly different value from that of other samples, so that the direction is significantly different. This shows that in these samples of BRNO, the biological properties were transformed due to a change in the orientation, not the size (degree) of the phenotype generated by the genomic modules.

BN2211의 모듈 21, 30, 39 및 81은 커널 모듈에 의한 직간접적 지배로부터 벗어나 있다. BNRF는 BRNO에서 커널 모듈의 영향을 제거하여 생성한 유전자 데이터 세트이다. BNRF는 전술한 필터링 기법을 이용하여 BRNO를 커널 모듈의 주 고유벡터를 이용하여 필터링한 결과이다. 따라서, BN2211에서 커널 모듈의 영향을 받지 않는 모듈은 BNRF에서 감지되어야 할 것이다. BNRF에 BN2211의 모듈들을 맵핑하고 BNRF의 모듈들과 상대 엔트로피를 측정하였다. BNRF의 모듈들은 BNRF의 유전자 데이터 세트를 이용하여 구축한 모듈 간 네트워크에 속한 모듈을 의미한다. 도 43은 BN2211로부터 BNRF에 맵핑된 BN2211 모듈들에 대한 BNRF 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다. BN2211의 모듈 21, 30 및 39에 대한 상대 엔트로피가 낮은 BNRF의 모듈들은 8, 27, 45 및 13이었다(아래 표 20 참조). Modules 21, 30, 39 and 81 of BN2211 are free from direct or indirect domination by kernel modules. BNRF is a genetic data set created by removing the influence of the kernel module in BRNO. The BNRF is a result of filtering BRNO using the main eigenvector of the kernel module using the above-described filtering technique. Therefore, modules that are not affected by the kernel module in BN2211 should be detected in the BNRF. The modules of BN2211 were mapped to the BNRF, and the modules of the BNRF and the relative entropy were measured. The modules of BNRF refer to modules belonging to the inter-module network constructed using the genetic data set of BNRF. 43 is an example of a level plot clustered based on the relative entropy of BNRF modules for BN2211 modules mapped from BN2211 to BNRF. The modules of BNRF with low relative entropy for modules 21, 30 and 39 of BN2211 were 8, 27, 45 and 13 (see Table 20 below).

Figure pat00250
Figure pat00250

BN2211의 모듈 81에 대해서는 BNRF의 모듈 17 이 0.139bits로 가장 낮은 상대 엔트로피를 보였다. BNRF의 이들 모듈을 BRNO에 맵핑한 유전자 공간에서 밀도 행렬의 제1 고유 벡터에 대한 BRNO의 샘플 벡터들의 각도의 분포는 BN2211 모듈 21, 30, 39 및 81과 유사하게 BRNO 샘플 2, 3 및 9에서 다른 샘플들과 현격한 차이를 보였다. 이와 같은 결과는 BN2211과 BNRF의 이들 모듈들이 세포의 변환과 직결되어 있음을 암시한다.For module 81 of BN2211, module 17 of BNRF showed the lowest relative entropy at 0.139 bits. The distribution of the angles of sample vectors of BRNO relative to the first eigenvector of the density matrix in the gene space of mapping these modules of BNRF to BRNO is similar to BN2211 modules 21, 30, 39 and 81 in BRNO samples 2, 3 and 9 It showed a marked difference from other samples. These results suggest that these modules of BN2211 and BNRF are directly related to cellular transformation.

세포의 생물학적 특성의 변환을 규명하기 위해 BN2211의 모듈 21, 30, 39 및 81을 구성하는 유전자를 조사하였다(아래 표 21 참조). Genes constituting modules 21, 30, 39 and 81 of BN2211 were investigated to elucidate the transformation of the biological properties of cells (see Table 21 below).

Figure pat00251
Figure pat00251

BRNO 샘플 2, 3 및 9를 포함하는 R.2.2.1.1에서의 BN2211의 모듈 21, 30, 39 및 81의 변이에 기여하는 정도를 분석하기 위하여, BRNO 샘플들 중에서 가장 정상으로 볼 수 있는 R.2.2.1.2에 대해서 각 모듈에 포함된 유전자들의 LOR를 계산하고 비교하였다. 도 44는 BN2211의 모듈 21, 30, 39 및 81의 유전자들에 대한 LOR을 연산한 결과이다. 도 44는 BN2211의 모듈의 유전자들을 기준으로 BRNO 샘플 그룹 R.2.2.1.1과 R.2.2.1.2의 유의성을 나타낸다. 도 44(A)는 BN2211의 모듈 21의 LOR, 도 44(B)는 BN2211의 모듈 30의 LOR, 도 44(C)는 BN2211의 모듈 39의 LOR, 도 44(D)는 BN2211의 모듈 81의 LOR을 나타낸다. 통계학적으로 유의한 차이를 보이는 다수의 유전자가 포함되어 있었으며,이들은 대부분 EMT(Epithelial Mesenchymal Transition)과 밀접한 연관을 갖는 유전자들이였다. BN2211의 모듈 21, 30, 39 및 81을 'EMT 모듈'로 명명한다. In order to analyze the extent to which BN2211 contributes to the variance of modules 21, 30, 39 and 81 in R.2.2.1.1, including BRNO samples 2, 3 and 9, R. For 2.2.1.2, the LOR of genes included in each module was calculated and compared. 44 is a result of calculating LOR for genes of modules 21, 30, 39, and 81 of BN2211. 44 shows the significance of BRNO sample groups R.2.2.1.1 and R.2.2.1.2 based on the genes of the module of BN2211. 44(A) is the LOR of module 21 of BN2211, FIG. 44(B) is the LOR of module 30 of BN2211, FIG. 44(C) is the LOR of module 39 of BN2211, and FIG. 44(D) is of module 81 of BN2211 Represents LOR. A number of genes showing statistically significant differences were included, and most of them were genes closely related to EMT (Epithelial Mesenchymal Transition). Modules 21, 30, 39 and 81 of BN2211 are designated as'EMT modules'.

EMT 모듈이 유방암에 미치는 역할을 추적하기 위해 BRCA의 모듈들에 대한 BN2211의 모듈들의 상대 엔트로피의 레벨 플롯을 작성하였다. 도 45는 BRCA로부터 BN2211에 맵핑된 BRCA 모듈들에 대한 BN2211의 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다. 도 45에서 보는 바와 같이 BN2211의 모듈 21, 30, 39 및 81 에 대응될 수 있는 BRCA의 모듈은 없었다. 맵핑된 BN2211의 모듈들에 대한 BRCA 모듈들의 상대 엔트로피를 계산하였다. 도 46은 BN2211로부터 BRCA에 맵핑된 BN2211 모듈들에 대한 BRCA 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다. 이 경우에도 BN2211의 모듈 21, 30, 39 및 81에 대응될 수 있는 BRCA의 모듈들을 발견할 수는 없었다. 따라서 이들 모듈들은 BRCA에서 탐지가 어려울 정도로 드문 샘플에서만 활성화되거나 혹은 하나의 샘플 안에서 일부의 세포에서만 활성화된다고 볼 수 있다. In order to trace the role of the EMT module on breast cancer, a level plot of the relative entropy of the modules of BN2211 versus the modules of BRCA was created. FIG. 45 is an example of a level plot in which BRCA modules mapped from BRCA to BN2211 are clustered based on the relative entropy of modules of BN2211. As shown in FIG. 45, there was no BRCA module that could correspond to modules 21, 30, 39, and 81 of BN2211. The relative entropy of the BRCA modules for the mapped BN2211 modules was calculated. 46 is an example of a level plot clustered based on the relative entropy of BRCA modules for BN2211 modules mapped from BN2211 to BRCA. Even in this case, it was not possible to find modules of BRCA that can correspond to modules 21, 30, 39, and 81 of BN2211. Therefore, these modules can be seen to be activated only in rare samples, which is difficult to detect in BRCA, or activated only in some cells in one sample.

이를 판별하기 위해 BN2211의 이들 모듈에 대한 BRCA 샘플의 MSP를 계산하고 샘플 수상도를 작성하였다. 도 47은 BN2211의 일부 모듈들에 대한 BRCA 샘플의 MSP를 기준으로 클러스터링한 결과이다. 도 47은 BN2211의 모듈 21, 30, 39 및 81에 대한 BRCA 샘플의 MSP를 기준으로 클러스터링한 결과이다. 도 47에서 보는 바와 같이 R.2.2 에 속한 BRCA 샘플들은 상대적으로 높은 MSP를 가진다. 따라서 하나의 샘플 안에서 이들 모듈이 활성화되는 세포의 빈도가 낮은 것이 아니라, 이들이 활성화되는 샘플이 제한적인 이유로 탐지가 어려운 것으로 해석하는 것이 타당하다. 이러한 결과는 BRCA가 다양한 서브타입의 유방암의 집합체라는 개념과 일치한다. To determine this, the MSP of the BRCA samples for these modules of BN2211 was calculated and the sample award degree was created. 47 is a result of clustering based on the MSP of BRCA samples for some modules of BN2211. 47 is a result of clustering based on the MSP of BRCA samples for modules 21, 30, 39 and 81 of BN2211. As shown in FIG. 47, BRCA samples belonging to R.2.2 have a relatively high MSP. Therefore, it is reasonable to interpret that the frequency of cells in which these modules are activated in one sample is not low, but that the sample in which these modules are activated is difficult to detect for limited reasons. These results are consistent with the notion that BRCA is an aggregate of various subtypes of breast cancer.

BRCA에서 EMT의 발생을 감지하기 위해 BRCA의 샘플을 MSPCG와 MSPCGX에 대하여 각각 임계값 (ThCG = 0.9976 및 ThCGX = 0.9724)의 이상 및 이하로 그룹을 나누어(4개의 그룹) MSPCG 및 MSPCGX 모두가 임계값보다 높은 경우 BAHH,MSPCG는 높으나 MSPCGX는 낮은 경우 BAHL, MSPCG는 낮고 MSPCGX는 높은 경우 BALH, 그리고 모두 낮은 경우 BALL로 분류하였다. 임계값은 MSPCG 및 MSPCGX 각각에서 콕스비례위험모형(Cox proportional hazards model) 생존분석의 위험률(hazard ratio)을 최대화하는 값으로 하였다. 도 48은 BRCA의 샘플을 MSPCG와 MSPCGX의 기준으로 분류한 그룹에 대한 생존 곡선이다. 도 48은 샘플 그룹 BAHL(MSPCG>ThCG 이고 MSPCGX<ThCGX)과 나머지 샘플 사이의 생존 분석을 수행한 예이다. 샘플 그룹 BAHL은 생존 가능성이 가장 급격하게 감소하는데,BAHL의 샘플들에서 위험비는 3.628 (p = 0002)로 유의하게 컸으며, 사망자 대부분은 1,000 일 이전에 사망하였다. BALH와 비교하여 3,000 일 이내에 사망할 확률은 18.38배 (p = 0.0004) 증가하였다. In order to detect the occurrence of EMT in BRCA, samples of BRCA were grouped above and below thresholds (ThCG = 0.9976 and ThCGX = 0.9724) for MSP CG and MSP CGX , respectively (4 groups), MSP CG and MSP CGX. When all were higher than the threshold, BAHH, MSP CG was high, but MSP CGX was low, BAHL, MSP CG was low and MSP CGX was high, BALH, and all low, BALL. The threshold value was a value that maximizes the hazard ratio of the survival analysis of the Cox proportional hazards model in MSP CG and MSP CGX, respectively. Fig. 48 is a survival curve for a group in which samples of BRCA are classified based on MSP CG and MSP CGX . 48 is an example of performing a survival analysis between the sample group BAHL (MSP CG >Th CG and MSP CGX <Th CGX ) and the remaining samples. In the sample group BAHL, the probability of survival was most rapidly decreased. In the samples of BAHL, the risk ratio was significantly higher at 3.628 (p = 0002), and most of the deaths died before 1,000 days. Compared to BALH, the probability of dying within 3,000 days increased by 18.38 times ( p = 0.0004).

BRNO 샘플에서 CGX에 대한 CG의 상대 엔트로피는 0.0251 bits 였으나,BAHL에서는 0.0782 bits로 증가하였으며, 이는 표 9에 제시된 바와 같이 BRCA 전체 샘플에서 CGX에 대한 CG의 상대 엔트로피가 4.6542 bits 임에 비하면 매우 낮은 수준이다. 반대로 CG에 대한 CGX의 상대 엔트로피는 BRNO 및 BAHL에서 각 0.0616 bits 및 1.5938 bits로 대폭 증가하였다. BAHL에서 독자적으로 모듈을 분리하여 분리된 커널 모듈은 유전자 AHSG, APOA2, APOC3, APOH, ASGR2, C14orf1 15, CSAG1, CSAG3A, DCT, DPPA4, F2, GATA1, GDF3, HBE1, HBG1 , HEMGN, IGFBP1, LIN28, MAGEA1, MAGEA10, MAGEA12, MAGEA3, MAGEA4, PASD1, PRODH2, RHAG, RHOXF2B, SERPINA7, SILV, TM4SF5 및 TYR로 CG를 포함하고 있다. CG를 제외한 나머지 유전자들은 BRNO의 CGX와 구성이 일부 달라져 있으며, 이들에 대한 CG의 상대 엔트로피는 0.0167 bits로 대단히 낮다. 따라서 커널 모듈에서 CGX와 CG가 분리되고 CG가 붕괴되는 일반적인 종양 조직과 달리, BAHL 에서는 CG가 잘 보존되어 있으며 CGX와 분리되지 않고, 대신 CGX가 변이되어 CG와 연결성이 강화되는 방식으로 커널 모듈의 변이가 발생되었음을 알 수 있다.In the BRNO sample, the relative entropy of CG to CGX was 0.0251 bits, but increased to 0.0782 bits in BAHL, which is very low compared to the relative entropy of CG to CGX in the entire BRCA sample as 4.6542 bits as shown in Table 9. to be. In contrast, the relative entropy of CGX to CG was significantly increased in BRNO and BAHL to 0.0616 bits and 1.5938 bits, respectively. The kernel modules independently separated from BAHL and separated are genes AHSG, APOA2, APOC3, APOH, ASGR2, C14orf1 15, CSAG1, CSAG3A, DCT, DPPA4, F2, GATA1, GDF3, HBE1, HBG1, HEMGN, IGFBP1, LIN28 , MAGEA1, MAGEA10, MAGEA12, MAGEA3, MAGEA4, PASD1, PRODH2, RHAG, RHOXF2B, SERPINA7, SILV, TM4SF5 and TYR. Except for CG, the rest of the genes have some different composition from BRNO's CGX, and the relative entropy of CG for them is very low, 0.0167 bits. Therefore, unlike general tumor tissues in which CGX and CG are separated from the kernel module and CG is collapsed, in BAHL, CG is well preserved and not separated from CGX. Instead, CGX is mutated to enhance connectivity with CG. It can be seen that mutation has occurred.

커널 모듈의 변이와 BRCA의 표현형 사이에 관계를 규명하고자 네 개의 샘플 그룹에서 유방암 병기 중 림프절 전이 정도를 의미하는 N stage와의 관계를 살펴보았다(아래 표 22). To elucidate the relationship between the mutation of the kernel module and the phenotype of BRCA, the relationship with the N stage, which means the degree of lymph node metastasis among breast cancer stages, was examined in four sample groups (Table 22 below).

Figure pat00252
Figure pat00252

BAHL 에서만 림프절 전이가 없는 N0가 유의하게 감소되어 있음을 볼 수 있다. 따라서 이 결과는 MSPCG가 증가하고 MSPCGX가 감소되면 종양 세포의 운동성(motility)의 증가가 초래되며,이는 BRNO의 경우와 마찬가지로 EMT의 원인이 될 수 있음을 의미한다.It can be seen that only BAHL has a significant decrease in N0 without lymph node metastasis. Therefore, this result means that an increase in MSP CG and a decrease in MSP CGX causes an increase in tumor cell motility, which may cause EMT as in the case of BRNO.

연구자는 종양 세포의 EMT를 유발하는 게놈 시스템을 규명하고자 BAHL 샘플에서 게놈 모듈을 추출하였다 게놈 모듈은 모두 63개가 추출되었으며,활성화되어 있는 게놈 시스템의 정보 콘텐츠는 0.7312 bits로 BRCA의 1.0150 bits에 비해서는 작아 유방암 서브 타입의 혼재 정도가 감소하였음을 알 수 있다. 그렇지만 BRNO의 0.3712 bits 보다 커서 서브 타입의 혼재 혹은 게놈 시스템의 붕괴가 있음을 알 수 있다. BRNO의 모듈들의 BAHL에 대한 맵핑 엔트로피는 0.9760 ± 0.5821 bits였으며,BAHL의 모듈들의 BRNO에 대한 맵핑 엔트로피는 0.4234 ± 0.3038 bits 였다. 이와 같은 결과는 BAHL에서 BRNO의 모듈들이 붕괴됨을 암시하고 있으며, BAHL의 모듈들은 BRNO에서 정도에 따라 활성화됨을 추정할 수 있다. BRNO에 대한 BAHL의 이질성을 확인하기 위해 BRNO의 모듈들에 대한 BAHL 모듈들의 상대 엔트로피를 계산하였다. 도 49는 BRNO로부터 BAHL에 맵핑된 BRNO의 모듈들에 대한 BAHL 모듈들의 상대 엔트로피를 기준으로 클러스터링한 레벨 플롯의 예이다. BRNO의 CCDR 도메인은 BAHL에서 모듈 46 빛 57로 대응되며(A 영역),커널 모듈 도메인 (B 영역)과 간질 도메인 (C 영역)도 명확히 구분된다. 반면에 상피 형성 도메인(epi)은 BAHL에서 명확한 구분 없이 비교적 높은 상대 엔트로피로 널리 분포하고 있다(D 영역). BAHL에서 상피 세포는 종양 상태로 변환되었음을 의미한다.The researcher extracted genomic modules from BAHL samples to identify the genomic system that induces EMT in tumor cells. All 63 genome modules were extracted, and the information content of the activated genomic system was 0.7312 bits, compared to 1.0150 bits of BRCA. It can be seen that the degree of mixing of breast cancer subtypes decreased. However, larger than 0.3712 bits of BRNO, it can be seen that there is a mixture of subtypes or collapse of the genomic system. The mapping entropy of the BRNO modules to BAHL was 0.9760 ± 0.5821 bits, and the mapping entropy of the BAHL modules to BRNO was 0.4234 ± 0.3038 bits. These results imply that the modules of BRNO in BAHL are collapsed, and it can be estimated that the modules of BAHL are activated according to the degree in BRNO. In order to confirm the heterogeneity of BAHL with respect to BRNO, the relative entropy of BAHL modules with respect to the modules of BRNO was calculated. 49 is an example of a level plot clustered based on the relative entropy of BAHL modules for modules of BRNO mapped from BRNO to BAHL. The CCDR domain of BRNO corresponds to module 46 light 57 in BAHL (area A), and kernel module domains (area B) and interstitial domains (area C) are also clearly distinguished. On the other hand, the epithelial domain (epi) is widely distributed in BAHL with a relatively high relative entropy without clear distinction (region D). In BAHL, it means that epithelial cells have transformed into a tumor state.

연구자는 BAHL에서 분리된 모듈과 종양 조직 세포의 림프절 침윤 사이의 관계를 규명하기 위해 BAHL의 모듈에 대한 BRCA 샘플들의 MSP를 계산하였다. 도 50은 BAHL 모듈에 대한 BRCA 샘플들의 MSP 분포를 도시한 예이다. BRCA 샘플을 N 스테이지의 N0 그룹과 N1 이상의 그룹으로 나눈 후 각 모듈에서 MSP 분포의 차이의 유의성을 크루스칼 왈리스 검정(Kruskal Wallis test)로 검증하였다. 도 50은 BAHL 모듈 26, 32, 43, 53 및 60에서 N0 그룹의 MSP분포와 N1 이상의 그룹의 MSP분포 간 유의한 차이가 있음을 나타낸다. 이 모듈들에 대한 BRNO 샘플들의 MSP의 분포는 도 51과 같다. 도 51은 BAHL 모듈 26, 32, 43, 53 및 60에 대한 BRNO 샘플의 MSP를 도시한 예이다. 도 51에서 보는 바와 같이 BAHL 모듈 60에서 이들 BRNO 샘플들의 MSP는 뚜렷하게 저하되어 있다.The investigator calculated the MSPs of BRCA samples for the modules of BAHL to elucidate the relationship between the modules isolated from BAHL and lymph node invasion of tumor tissue cells. 50 is an example showing the MSP distribution of BRCA samples for the BAHL module. The BRCA samples were divided into N0 group and N1 or higher group of N stage, and the significance of the difference in MSP distribution in each module was verified by the Kruskal Wallis test. 50 shows that there is a significant difference between the MSP distribution of the N0 group and the MSP distribution of the N1 or higher group in BAHL modules 26, 32, 43, 53 and 60. The distribution of MSP of BRNO samples for these modules is shown in FIG. 51. 51 is an example showing the MSP of BRNO samples for BAHL modules 26, 32, 43, 53 and 60. As shown in Fig. 51, the MSP of these BRNO samples in the BAHL module 60 is markedly lowered.

BAHL의 커널 모듈에서 CG를 제외한 CGX 부분은 BRNO의 CGX와 다르게 변이되어 있으므로 BAHL 샘플에서 모듈 60은 변이된 CGX에 의해 제어되고 높은 MSP를 가지며 노드 침윤이 가속화될 수 있다. 반면에 정상 상태의 CGX를 갖는 BRNO 샘플에서는 모듈 60이 CGX와의 정보 교류가 단절된 경우에 문제를 초래한다. 실제로 BRNO에서 CGX와 BRNO에 맵핑된 BAHL의 모듈 60의 SSMC는 샘플 2, 3 및 9를 제외한 나머지의 평균이 0.9374 ± 0.0117인 반면 세 샘플에서는 0.8124 ± 0.0195로 감소되어 있다. 결론적으로 BRNO의 샘플 2, 3 및 9에서는 BAHL 모듈 60이 정상적인 CGX와의 정보 교류 단절로 인해 조절로부터 벗어남으로써 세포의 변환을 유발하는 반면,BRCA에서는 변이된 CGX가 BAHL 모듈 60을 조절함으로써 세포의 변환을 유발한다.In the BAHL kernel module, CGX excluding CG is mutated differently from BRNO's CGX, so module 60 in the BAHL sample is controlled by the mutated CGX, has a high MSP, and node invasion can be accelerated. On the other hand, in the BRNO sample with the CGX in a steady state, a problem occurs when the module 60 is disconnected from the information exchange with the CGX. In fact, the SSMC of BAHL's module 60 mapped to CGX and BRNO in BRNO had an average of 0.9374 ± 0.0117 excluding samples 2, 3 and 9, while the average of the rest of the samples was reduced to 0.8124 ± 0.0195. In conclusion, in samples 2, 3 and 9 of BRNO, BAHL module 60 induces cell transformation by deviating from regulation due to interruption of information exchange with normal CGX, whereas in BRCA, mutated CGX modulates BAHL module 60 to transform cells. Cause.

BRCA의 N0그룹과 N1 이상의 그룹은 비교적 상이한 게놈 시스템을 갖게 되므로 각 모듈의 구성 유전자의 LOR의 분포에 있어서도 두 샘플 그룹은 차이를 갖는다(아래 표 23). 모듈 26의 PIM2는 STAT3를 지속적으로 활성화함으로써 유방암 세포의 EMT를 유발한다. NT5E (CD73)도 EMT의 활성과 밀접한 연관을 가진다.Since the N0 group and the N1 or higher group of BRCA have relatively different genomic systems, the two sample groups also have differences in the distribution of the LOR of the constituent genes of each module (Table 23 below). PIM2 of module 26 induces EMT in breast cancer cells by continuously activating STAT3. NT5E (CD73) is also closely related to the activity of EMT.

Figure pat00253
Figure pat00253

BAHL의 이들 모듈에 대한 BRCA 샘플들의 MSP들로 수상도을 구성하여 N 스테이지와 MSP 사이의 관계를 규명하였다. 도 52는 BAHL 모듈 26, 32, 43, 53 및 60에 대한 BRCA 샘플의 MSP를 기준으로 클러스터링한 결과이다. 도 52에서 N 스테이지가 N0인 BRCA 샘플들은 R.2.2에 집중되어 있으며,R.2.1.2.2.2.2.2.2.1(붉은색 박스)에서는 전체에 비해 N0의 비율(35.4%,p = 00427)은 작고, N2의 비율(26.6%,p = 0.0122)은 커서 이들 모듈의 변동이 종양 조직 세포의 림프절 침윤에 관여했음을 보여준다. 또한, 28개의 BAHL 샘플들 중에서 22개가 이곳에 포함됨으로써 커널 모듈의 변이(MSPCG 상승 및 MSPCGX 하락)가 이들 모듈의 변이와 관련되어 있음을 암시한다.The relationship between the N-stage and MSP was elucidated by constructing the award map with the MSPs of the BRCA samples for these modules of BAHL. 52 shows the results of clustering based on the MSP of BRCA samples for BAHL modules 26, 32, 43, 53 and 60. In FIG. 52, BRCA samples with N stage of N0 are concentrated in R.2.2, and in R.2.1.2.2.2.2.2.2.1 (red box), the ratio of N0 to the whole (35.4%, p = 00427) Is small, and the ratio of N2 (26.6%, p = 0.0122) is large, indicating that the fluctuation of these modules is involved in the lymph node invasion of tumor tissue cells. In addition, 22 of the 28 BAHL samples were included here, suggesting that kernel module mutations (MSP CG rise and MSP CGX fall) are related to mutations in these modules.

4. 유방암에서의 DNA 손상4. DNA damage in breast cancer

종양 발생 원인으로 가장 강력하게 추정되는 유전자의 돌연변이는 종양에서 일반적으로 광범위하게 발생한다. TCGA의 BRCA 데이터에서도 샘플에 따라 다양한 돌연변이가 다양한 정도로 발생하였다. 연구자는 커널 모듈의 변이가 돌연변이의 발생과 관련되는지를 추적하고,또한 관련된 게놈 시스템을 탐색하였다.Mutations in genes that are most likely to be responsible for oncogenesis generally occur extensively in tumors. In the BRCA data of TCGA, various mutations occurred in varying degrees depending on the sample. Researchers tracked whether kernel module mutations were related to the occurrence of mutations, and also explored related genomic systems.

돌연변이의 발생 원인은 실로 다양해서 조직의 내적 및 외적 환경에 의존적이다. 따라서 돌연변이의 발생은 개별 샘플에 따라 변이가 클 수밖에 없다. BRCA의 하나의 샘플에서 평균 155 개의 돌연변이들이 발생했으며, 표준 편차는 181.5에 이른다. 돌연변이는 여러 요인이 복합적으로 작용하여 발생할 것으로 추정되는 바 주요 요인을 찾는 것은 쉽지 않다. 전술한 바와 같이 종양형성능은 커널 모듈 변이가 CG와 CGX의 분리에서 시작되므로,BRNO CG와 CGX에 대한 BRCA 샘플의 MSP와 돌연변이 사이 관계를 규명할 수 있을 것이다.The causes of mutations are truly diverse and depend on the internal and external environment of the tissue. Therefore, the occurrence of mutations inevitably varies depending on individual samples. An average of 155 mutations occurred in one sample of BRCA, with a standard deviation of 181.5. Mutation is presumed to occur due to a combination of several factors, so finding the main factors is difficult. As described above, since the kernel module mutation starts with the separation of CG and CGX, the relationship between the MSP and the mutation of the BRCA sample for BRNO CG and CGX can be elucidated.

먼저, MSPCG를 임계값으로 돌연변이의 발생 빈도의 분포를 보면 MSPCG가 중앙값보다 클 경우 돌연변이는 188.1 ± 229.0이며, 작으면 121.6 ± 107.2로 유의(크루스칼 왈리스 검정, p = 0.0006; anova test, p = 00037)하게 증가하였다. MSPCGX의 경우 중앙값보다 큰 경우 188.7 ± 232.9이며, 작은 경우 121.0 ± 98.0으로 유의(크루스칼 왈리스 검정 p = 0.0005; anova test, p = 00031)하게 증가하였다. 커널 모듈의 변이는 종양 조직이 시작되는 지점으로써 각 샘플에서 CG와 CGX의 MSP가 돌연변이와 연관됨을 보인다. 또한, 각 샘플에서 CG와 CGX의 연결성을 보여주는 SSMC가 중앙값보다 클 때와 작을 때 돌연변이의 빈도를 비교한 결과 SSMC가 큰 경우에 돌연변이의 발생 빈도는 115.6 ± 94.2로 작았으며,반대의 경우 발생 빈도는 194.1 ± 232.8으로 컸다. 표준편차가 컸음에도 불구하고 이러한 차이는 통계적으로 유의(크루스칼 왈리스 검정, p = 1.0 x 10- 5 ; anova test, p = 00006)하였다.First, looking at the distribution of the incidence of mutations with MSP CG as a threshold value, if MSP CG is greater than the median, the mutation is 188.1 ± 229.0, and if it is small, it is significant as 121.6 ± 107.2 (Cruscal Wallis test, p = 0.0006; anova test. , p = 00037). In the case of MSP CGX , it was 188.7 ± 232.9 when it was greater than the median, and 121.0 ± 98.0 when it was smaller than the median value (Cruscal Wallis test p = 0.0005; anova test, p = 00031). The mutation of the kernel module is the starting point of the tumor tissue, showing that the MSP of CG and CGX in each sample is associated with the mutation. In addition, as a result of comparing the frequency of mutations when the SSMC showing the connectivity between CG and CGX in each sample was greater than the median value and when it was less than the median, the incidence of mutations was as low as 115.6 ± 94.2 when the SSMC was large. Was as large as 194.1 ± 232.8. In spite of the standard deviation keoteum and this difference is statistically significant (Kruskal Wallis test, p = 1.0 x 10- 5; anova test, p = 00006) was.

돌연변이의 발생 빈도와 커널 모듈의 변이 사이의 관계를 좀 더 정밀하게 분석하기 위해, 연구자는 BRCA의 MSPCG 및 MSPCGX로 샘플의 수상도을 작성하고,샘플을 10개의 그룹으로 분류하였다. 도 53은 MSPCG와 MSPCGX에 따라 BRCA 샘플을 클러스터링한 결과이다. In order to more precisely analyze the relationship between the incidence of mutations and mutations in the kernel module, the investigator made a water degree of the samples with MSPCG and MSPCGX of BRCA, and classified the samples into 10 groups. 53 is a result of clustering BRCA samples according to MSP CG and MSP CGX .

각 샘플 그룹의 돌연변이 발생 빈도의 중앙값과 BRCA의 CG 및 CGX가 BRNO로부터 이탈하는 정도를 나타내는 상대 엔트로피 사이의 관계를 보았다. 도 54는 BRCA 샘플 그룹의 돌연변이 발생 빈도의 중앙값과 BRNO의 CG 및 CGX에 대한 BRCA의 CG 및 CGX의 상대 엔트로피 사이의 선형 회귀 분석 결과를 도시한다. 도 54(A)는 도 53의 BRCA 샘플 그룹의 돌연변이 발생 빈도의 중앙값과 BRNO의 CG에 대한 BRCA의 CG의 상대 엔트로피 사이의 선형 회귀 분석 결과를 도시한다. 도 54(B)는 도 53의 BRCA 샘플 그룹의 돌연변이 발생 빈도의 중앙값과 BRNO의 CGX에 대한 BRCA의 CGX의 상대 엔트로피 사이의 선형 회귀 분석 결과를 도시한다. CG의 상대 엔트로피에 대한 BRCA 샘플의 돌연변이 빈도의 선형 회귀에서 r2은 0.87이었으나,CGX의 경우에는 0.10으로 작았다. CG와 CGX의 상대 엔트로피에 대한 돌연변이 발생 빈도의 듀얼 선형 회귀(dual linear regression)의 경우에는 r2이 0.93 (p = 8.0 x 10-5)로 증가하였다. 따라서 커널 모듈의 변이 중에서 CG의 이탈이 주로 돌연변이의 발생에 관련되겠지만 CGX의 변이도 일부 영향을 미친다.The relationship between the median incidence of mutations in each sample group and the relative entropy, which indicates the degree to which CG and CGX of BRCA deviate from BRNO were looked at. Figure 54 shows the results of a linear regression analysis between the median incidence of mutations in the BRCA sample group and the relative entropy of CG and CGX of BRCA to CG and CGX of BRNO. Fig. 54(A) shows the results of a linear regression analysis between the median incidence of mutations in the BRCA sample group of Fig. 53 and the relative entropy of CG of BRCA to CG of BRNO. Fig. 54(B) shows the results of a linear regression analysis between the median incidence of mutations in the BRCA sample group of Fig. 53 and the relative entropy of CGX of BRCA to CGX of BRNO. In the linear regression of the mutation frequency of the BRCA sample with respect to the relative entropy of CG, r 2 was 0.87, but in the case of CGX, it was as small as 0.10. In the case of dual linear regression of mutation incidence for the relative entropy of CG and CGX, r 2 increased to 0.93 (p = 8.0 x 10-5). Therefore, among the mutations in the kernel module, CG departure is mainly related to the occurrence of mutations, but the mutations in CGX also have some influence.

커널 모듈의 구성 유전자를 고려할 때 CG의 이탈 자체로 돌연변이가 유발될 이유를 찾을 수는 없다. 따라서 CG 및 CGX의 변이가 영향을 미치는 모듈들 중에서 돌연변이를 유발할 수 있는 것을 탐색하는 것이 타당할 것이다. 돌연변이와 관련된 모듈을 탐색하기 위해서는 정상 상태로부터의 이탈 정도와 돌연변이 발생빈도를 비교하는 것이 타당하므로, BRCA의 샘플 그룹 j 에 대해서 BRNO의 모듈에 대한 BRCA의 상대 엔트로피

Figure pat00254
를 계산하였으며,BRCA 샘플 그룹 j의 돌연변이 빈도의 중앙값 mj를 계산하였다. 모듈 i에서 mj를 Sij에 대해 선형 회귀 분석을 시행하고,
Figure pat00255
를 BRNO의 모듈 간 네트워크에 표시하였다. 도 55는 BRNO의 모듈 간 네트워크의 각 모듈에 BRCA 샘플 그룹의 돌연변이 빈도에 대한 선형 회귀 분석 결과를 BRNO의 모듈 간 네트워크에 도시한 예이다. 도 55는 BRNO의 각 모듈에서 도 53의 BRCA 샘플 그룹의 돌연변이 빈도에 대한 선형 회귀 분석을 시행하고 각 모듈의 r2를 BRNO의 모듈 간 네트워크에 도시한 예이다. 돌연변이의 빈도와 커널 모듈인 모듈 2는 CG와 CGX에서 본 바와 같이 밀접한 연관(r2 = 0.90, p = 3×10-5)을 보여주고 있다. 커널 모듈 도메인에 속하지 않는 모듈 51은 r2이 0.89로 두 번째로 컸다(p = 4.3×10-5).Considering the constituent genes of the kernel module, it is not possible to find the reason for mutations caused by CG departure itself. Therefore, it would be reasonable to search for mutations in the modules in which CG and CGX mutations can cause mutations. To search for a module related to mutation, it is reasonable to compare the degree of deviation from the steady state and the frequency of mutation. Therefore, the relative entropy of BRCA to the module of BRNO for the sample group j of BRCA.
Figure pat00254
Was calculated, and the median value m j of the mutation frequency of the BRCA sample group j was calculated. Perform a linear regression analysis on S ij for m j in module i,
Figure pat00255
Is shown in BRNO's inter-module network. FIG. 55 is an example of a linear regression analysis result of the mutation frequency of a BRCA sample group in each module of the BRNO inter-module network in the BRNO inter-module network. FIG. 55 is an example of performing a linear regression analysis on the mutation frequency of the BRCA sample group of FIG. 53 in each module of BRNO, and showing r 2 of each module in the inter-module network of BRNO. The frequency of mutations and module 2, the kernel module, show a close correlation (r 2 = 0.90, p = 3×10 -5 ) as seen in CG and CGX. Module 51, which does not belong to the kernel module domain, has an r 2 of 0.89, the second largest (p = 4.3 × 10 -5 ).

돌연변이와 연관된 모듈을 더 탐색하기 위해 모듈 51 이외의 다른 모듈들도 포함시켜 다중 선형 회귀 분석을 시행하였다. 모듈 51 에 모듈 44 및 모듈 58을 포함시켰을 때 r2 및 p-값은 각각 0.99 및 2.4×10-6였다. 이들 세 모듈에 대한 CG 및 CGX의 영향력을 추정하기 위해 도 52의 BRCA 샘플 그룹들에서 BRNO에 대한 이들 모듈의 상대 엔트로피를 CG 및 CGX의 상대 엔트로피 대해 선형 회귀 분석을 시행하고 r2를 구하였다 (아래 표 24). In order to further explore the modules related to mutation, multiple linear regression analysis was performed by including modules other than module 51. When modules 44 and 58 were included in module 51, the r 2 and p-values were 0.99 and 2.4×10 −6, respectively. In order to estimate the influence of CG and CGX on these three modules, linear regression analysis was performed on the relative entropy of these modules for BRNO in BRCA sample groups of FIG. 52 and the relative entropy of CG and CGX, and r 2 was calculated ( Table 24 below).

Figure pat00256
Figure pat00256

돌연변이와 연관성이 가장 큰 모듈 51이 정상으로부터 이탈하는 정도인 상대 엔트로피는 CG와 CGX가 이탈하는 정도의 선형 조합에 대한 의존도가 92%에 이른다. 반면에 모듈 58 및 44는 각각 63% 및 54%이며, 돌연변이의 빈도에 대한 r2는 각각 0.70 및 0.44이며, p-값은 각 0.003 및 0.036으로 유의하다.Relative entropy, which is the degree to which module 51, which is most associated with mutations, deviates from normal, has 92% dependence on the linear combination of the degree to which CG and CGX deviate. On the other hand, modules 58 and 44 are 63% and 54%, respectively, and r 2 for the frequency of mutations are 0.70 and 0.44, respectively, and the p-values are significant as 0.003 and 0.036, respectively.

돌연변이와 관련 정도가 큰 유전자를 탐색하기 위해 샘플 공간에서 유전자의 확률을 계산하였다. BRCA의 MSPCG 및 MSPCGX로 생성된 샘플 수상도에 따른 10개의 샘플 공간을 분리하고,샘플 공간 j 에서 유전자 i의 확률

Figure pat00257
를 계산하였다. 또한 BRNO의 샘플 공간에서의 확률(
Figure pat00258
)을 계산하고,BRCA의 샘플 공간 j에서 유전자 i의 승산비(odds ratio)
Figure pat00259
를 얻었다. BRCA의 샘플 공간 j 에서
Figure pat00260
에 대해 돌연변이 빈도의 중앙값 mj의 선형 회귀 분석을 하였다. BRNO 모듈 51 에서 유의한( p값 < 005) 유전자는 20개 (MAGEA12, MAGEA1, CAD, MKRN3, PROC, ASFIB, RELL2, C21orf125, PFKFB4, SPAG4, C9orf100, C8G, MCM7, E2F1, ORC1L, NY-SAR-48, DLL3, SERPINF2, MAGEA4 및 DUSP9)였으며,r2가 가장 큰 것은 MAGEA12(0.93)이고 가장 작은 것은 DUSP9(0.40)이었다. 모듈 58에서는 18개의 유전자의 승산비에 대해 돌연변이의 빈도가 유의한 선형관계를 보였으며, NME5의 r2가 0.57로 가장 컸다. To search for genes with a high degree of association with mutations, the probability of genes in the sample space was calculated. Separation of 10 sample spaces according to the aqueous phase of the samples generated by BRCA's MSP CG and MSP CGX , and the probability of gene i in sample space j
Figure pat00257
Was calculated. Also, the probability (
Figure pat00258
), and the odds ratio of gene i in the sample space j of BRCA
Figure pat00259
Got it. In BRCA's sample space j
Figure pat00260
For, a linear regression analysis of the median mutation frequency m j was performed. In BRNO module 51, there were 20 ( p value <005) genes (MAGEA12, MAGEA1, CAD, MKRN3, PROC, ASFIB, RELL2, C21orf125, PFKFB4, SPAG4, C9orf100, C8G, MCM7, E2F1, ORC1L, NY-SAR) -48, DLL3, SERPINF2, MAGEA4 and DUSP9), with the largest r 2 being MAGEA12 (0.93) and the smallest being DUSP9 (0.40). In Module 58, the frequency of mutations showed a significant linear relationship with the odds ratio of 18 genes, and the r 2 of NME5 was the largest at 0.57.

게놈 시스템에서 DNA의 손상에 대한 반응(DNA Damage Response: DDR)과 회복(repair)에 관련된 부분의 특성을 분리하여 규명할 필요가 있다. DDR과 관련된 게놈 시스템은 영역이 광범위할 수 있으며 돌연변이의 발생 빈도에 따라 BRCA 샘플을 4개의 그룹으로 분류하고,BRNO의 모듈에 대한 각 샘플 그룹의 상대 엔트로피를 계산하였다. 도 56은 돌연변이 빈도에 따라 분류한 4개 BRCA 샘플 그룹들의 BRNO 모듈에 대한 상대 엔트로피를 도시한다. 구간 A는 BRNO의 CCDR 도메인으로 DNA 손상의 회복에 관련된 유전자들을 포함하고 있다.In the genomic system, it is necessary to separate and identify the characteristics of parts related to DNA damage response (DDR) and repair. The genome system related to DDR may have a wide range of regions, and BRCA samples were classified into four groups according to the frequency of mutations, and the relative entropy of each sample group for the BRNO module was calculated. Figure 56 shows the relative entropy for the BRNO module of the four BRCA sample groups sorted according to mutation frequency. Section A is the CCDR domain of BRNO, which contains genes involved in the repair of DNA damage.

그런데 구간 A의 모듈들과 모듈 3에서만 돌연변이의 빈도가 500 이상인 샘플 그룹의 상대 엔트로피는 두 번째로 컸으나,그 외에 다른 모듈에서는 이 샘플 그룹의 상대 엔트로피가 제일 켰다. 앞에서 보았던 모듈 51, 58 및 44의 상대 엔트로피는 돌연변이의 빈도와 선형관계를 가지고 있으며 r2가 1 에 가까워 DDR에 적합하며,구성 유전자의 기능은 DNA 손상 회복과는 거리가 있다. 이와 같은 결과를 종합하여 보면 돌연변이 발생 빈도는 DDR을 운영하는 게놈 시스템의 무결성과 DNA 손상에 대한 회복 시스템을 운영하는 게놈 시스템의 무결성으로 결정되는바 돌연변이의 빈도가 500 이상에서는 DNA 손상 회복 시스템의 무결성은 비교적 좋은 반면 DDR의 운영 시스템의 붕괴가 심화되어있다. CCDR 도메인을 제외한 모든 모듈에서 상대 엔트로피는 제일 많이 상승되어 있다. 그러므로 돌연변이의 발생 빈도는 DDR과 DNA 손상 회복 시스템에 의존적인바 본 연구에서는 돌연변이의 빈도와 모듈 51과 CCDR 도메인의 모듈 중 하나 사이에 선형 조합을 시도하였다. CCDR 도메인의 모듈 43과 DDR 시스템에 해당하는 모듈 51의 선형 조합은 r2이 0.93이고 p-값은 8.0 × 10-5였다. 도 57은 돌연변이 빈도와 BRNO 모듈 43 및 51에 대한 BRCA의 상대 엔트로피의 선행 회귀 분석 결과이다. MSPCG와 MSPCGX로 구분된 BRCA 샘플 그룹에서 돌연변이의 빈도가 제일 높은 R.1은 도 57에서 보는 바와 같이 다른 샘플 그룹과는 달리 모듈 51 에 대한 의존도가 아주 크다. 따라서 돌연변이 발생 빈도가 극단적으로 큰 경우 DNA 손상 회복 시스템보다는 DDR 시스템의 변이에 기인한다. However, only in the modules of section A and module 3, the relative entropy of the sample group with a mutation frequency of 500 or more was the second largest, but in other modules, the relative entropy of this sample group was the highest. The relative entropy of modules 51, 58 and 44 as seen above has a linear relationship with the frequency of mutations, and r 2 is close to 1, making it suitable for DDR, and the function of the constituent genes is far from DNA damage recovery. Taking these results together, the frequency of mutation is determined by the integrity of the genome system operating DDR and the integrity of the genome system operating the DNA damage recovery system.If the frequency of mutations is 500 or more, the integrity of the DNA damage recovery system While the is relatively good, the collapse of the operating system of DDR is intensifying. Relative entropy is the highest in all modules except the CCDR domain. Therefore, the incidence of mutations is dependent on the DDR and DNA damage repair system. In this study, a linear combination was attempted between the frequency of mutations and one of the modules 51 and the CCDR domain. The linear combination of module 43 of the CCDR domain and module 51 corresponding to the DDR system had an r 2 of 0.93 and a p-value of 8.0 × 10 -5 . Fig. 57 is a result of prior regression analysis of mutation frequency and relative entropy of BRCA for BRNO modules 43 and 51. R.1, which has the highest mutation frequency in the BRCA sample group divided into MSP CG and MSP CGX , has a very high dependence on module 51, unlike other sample groups, as shown in FIG. 57. Therefore, when the frequency of mutation is extremely high, it is due to a mutation in the DDR system rather than a DNA damage recovery system.

앞에서 제시한 바와 같이 커널 모듈의 변이는 연결된 게놈 시스템의 변이를 유발함으로써 DNA의 돌연변이가 발생한다. 게놈 시스템에 광범위하게 분포하는 DDR 중 가장 민감한 모듈 51과 DNA 손상 회복 시스템의 모듈 43 이 커널 모듈과 연관되는 기전을 밝히는 것은 중요한 의미를 가진다. 연구자는 BRCA 샘플 그룹들에서 CG 및 CGX와 모듈 43 및 51의 상대 엔트로피 사이의 관계를 규명하였다(아래 표 25). As previously suggested, mutations in kernel modules cause mutations in the connected genomic system, resulting in DNA mutations. It is of great significance to clarify the mechanisms that the most sensitive module 51 and module 43 of the DNA damage repair system are related to the kernel module among DDRs widely distributed in the genomic system. Researchers have elucidated the relationship between CG and CGX and the relative entropy of modules 43 and 51 in BRCA sample groups (Table 25 below).

Figure pat00261
Figure pat00261

모듈 43은 BRCA의 샘플 공간에서 CG와 CGX 사이에 상대 엔트로피에 의존적이나,모듈 51은 이들 상대 엔트로피에도 의존적이나 BRNO의 CG에 대한 BRCA의 상대 엔트로피에 주로 의존적이다. 결국, 커널 모듈 변이의 서로 다른 측면이 DDR과 DNA 손상 회복 시스템의 붕괴에 서로 다른 영향을 주어 이중화된 돌연변이 발생 빈도를 가져온다.Module 43 is dependent on the relative entropy between CG and CGX in the sample space of BRCA, but module 51 is also dependent on these relative entropy, but is mainly dependent on the relative entropy of BRCA to BRNO's CG. In the end, different aspects of kernel module mutations have different effects on the collapse of DDR and DNA damage repair systems, leading to the frequency of redundant mutations.

전술한 게놈 모듈 네트워크, 게놈 모듈 네트워크의 커널 모듈을 이용한 분석 과정을 정리한다. 도 58은 게놈 모듈 네트워크의 커널 모듈을 분석하는 과정(700)에 대한 예이다. 도 58은 정상 조직의 유전자 발현 데이터 및 종양 조직의 유전자 발현 데이터를 이용하여 커널 모듈을 결정하고, 커널 모듈에 속한 유전자들의 상이점을 기준으로 일정한 지표를 생성하는 과정이다. The analysis process using the above-described genome module network and kernel module of the genome module network is summarized. 58 is an example of a process 700 of analyzing a kernel module of a genome module network. 58 is a process of determining a kernel module using gene expression data of a normal tissue and gene expression data of a tumor tissue, and generating a constant index based on differences of genes belonging to the kernel module.

분석장치는 정상 조직에 대한 유전자 발현 데이터 세트를 이용하여 제1 게놈 모듈 네트워크를 구축한다(711). 분석 장치는 제1 게놈 모듈 네트워크의 커널 모듈(제1 커널 모듈)을 결정한다(712). 또한, 분석장치는 종양 조직에 대한 유전자 발현 데이터 세트를 이용하여 제2 게놈 모듈 네트워크를 구축한다(721). 분석 장치는 제2 게놈 모듈 네트워크의 커널 모듈(제2 커널 모듈)을 결정한다(722).The analysis device constructs a first genome module network using a gene expression data set for normal tissue (711). The analysis device determines a kernel module (first kernel module) of the first genome module network (712). In addition, the analysis device constructs a second genome module network using the gene expression data set for the tumor tissue (721). The analysis device determines a kernel module (second kernel module) of the second genome module network (722).

전술한 바와 같이, 커널 모듈은 모듈 간 네트워크의 다른 모듈에 비하여 엔트로피가 낮은 모듈이다. 분석장치는 일정한 기준값보다 엔트로피가 낮은 모듈을 커널 모듈로 결정할 수 있다. 이때의 기준값은 조직의 종류, 종양의 종류, 유전자 발현 데이터 세트의 특성 등에 따라 적절한 값이 사용될 수 있다. 또한, 분석장치는 모듈 간 네트워크의 전체 모듈들에 대한 엔트로피를 연산하고, 상위 모듈들과 차이가 일정값 이상인 하위 모듈을 기준으로 커널 모듈로 결정할 수도 있다. 다만, 커널 모듈은 다른 모듈에 비하여 엔트로피가 현저하게 낮은 모듈에 해당하므로, 뚜렷하게 구분되는 그룹을 커널 모듈로 결정하는 것이 바람직하다.As described above, the kernel module is a module having a lower entropy than other modules in the inter-module network. The analysis device may determine a module having an entropy lower than a certain reference value as a kernel module. In this case, an appropriate value may be used according to the type of tissue, the type of tumor, and the characteristics of the gene expression data set. In addition, the analysis device may calculate entropy for all modules of the inter-module network, and may determine a kernel module based on a lower module having a difference between the upper modules and a predetermined value. However, since the kernel module corresponds to a module having a significantly lower entropy than other modules, it is preferable to determine a clearly distinguished group as a kernel module.

분석장치는 제1 커널 모듈(정상 조직)에는 존재하지만, 제2 커널 모듈(종양 조직)에 존재하는 않는 제1 유전자 그룹(CG)과 커널 모듈에서 CG를 제외한 나머지 제2 유전자 그룹(CGX)을 결정한다(730).The analysis device includes a first gene group (CG) that is present in the first kernel module (normal tissue) but does not exist in the second kernel module (tumor tissue), and the remaining second gene group (CGX) excluding CG from the kernel module. Determine (730).

이후, 분석장치는 제1 유전자 그룹(CG)과 제2 유전자 그룹(CGX)을 기준으로 다양한 변이 지표를 결정할 수 있다(740). 변이 지표는 CG와 CGX 사이의 상대 엔트로피, CG와 CGX에 대한 MSP 등을 결정할 수 있다. 나아가 분석 장치는 커널 모듈(CG 및/또는 CGX)와 다른 모듈의 연결성(SSMC)을 결정할 수도 있다. 다양한 지표 및 분석예는 전술한 바와 같다.Thereafter, the analysis device may determine various mutation indices based on the first gene group (CG) and the second gene group (CGX) (740). The mutation index can determine the relative entropy between CG and CGX, MSP for CG and CGX, etc. Furthermore, the analysis device may determine the connectivity (SSMC) between the kernel module (CG and/or CGX) and other modules. Various indicators and analysis examples are as described above.

분석장치는 정상 조직과 종양 조직을 분석하여 생성한 커널 모듈 정보, CG 유전자 정보 및 CGX 유전 정도 등을 별도의 레퍼런스 DB에 저장할 수도 있다.The analysis device may store kernel module information, CG gene information, and CGX inheritance levels generated by analyzing normal and tumor tissues in a separate reference DB.

도 59는 게놈 모듈 네트워크의 커널 모듈을 기준으로 샘플을 분석하는 과정(800)에 대한 예이다. 먼저, 레퍼런스 DB는 도 58에서 설명한 과정과 유사하게 구축될 수 있다. 분석장치는 종양 조직 데이터 DB에서 종양 조직의 제1 유전자 발현 데이터 세트를 획득하고, 정상 조직 데이터 DB에서 정장 조직의 제2 유전자 발현 데이터 세트를 획득한다. 분석장치는 제1 유전자 발현 데이터 세트 및 제2 유전자 발현 데이터 세트를 이용하여 각각 게놈 모듈 네트워크를 구축하고, 커널 모듈을 분석하여 전술한 바와 같이 커널 모듈에 속한 유전자 정보, CG, CGX 등에 대한 정보를 결정할 수 있다(810). 레퍼런스 DB는 커널 모듈을 분석한 결과를 저장할 수 있다. 레퍼런스 DB는 정상 조직과 종양 조직 각각의 유전자 발현 데이터 세트, 정상 조직과 종양 조직 각각의 게놈 모듈 네트워크 구성 정보, 정상 조직과 종양 조직 각각의 커널 구성 정보, CG 유전자 정보 및 CGX 유전자 정보 등을 저장할 수 있다.59 is an example of a process 800 of analyzing a sample based on the kernel module of the genome module network. First, the reference DB may be constructed similarly to the process described in FIG. 58. The analysis device acquires a first gene expression data set of tumor tissue from the tumor tissue data DB, and acquires a second gene expression data set of enteric tissue from the normal tissue data DB. The analysis device constructs a genome module network using the first gene expression data set and the second gene expression data set, and analyzes the kernel module to obtain information on gene information, CG, CGX, etc. belonging to the kernel module as described above. Can be determined (810). The reference DB can store the result of analyzing the kernel module. The reference DB can store gene expression data sets for each normal tissue and tumor tissue, genomic module network configuration information for each normal tissue and tumor tissue, kernel configuration information for each normal tissue and tumor tissue, CG gene information, and CGX gene information. have.

샘플 데이터 DB는 분석 대상의 유전자 발현 데이터를 보유한다. 분석 대상은 환자, 정상 또는 정상 범주에 속하지만 종양 발병 가능성 있는 후보 등일 수 있다. The sample data DB holds gene expression data to be analyzed. An analysis target may be a patient, a normal or a candidate that falls into the normal category but is likely to develop a tumor.

분석장치는 러페런스 DB에 저장된 정보를 기준으로 커널 모듈에 속하는 커널 유전자, CG 유전자 및 CGX 유전자를 식별한다(820). The analysis device identifies kernel genes, CG genes, and CGX genes belonging to the kernel module based on the information stored in the reference DB (820).

분석장치는 샘플에 대한 다양한 분석을 수행할 수 있다. 이하 분석장치는 정상 조직의 유전자 발현 데이터, 종양 조직의 유전자 발현 데이터 및 샘플의 유전자 발현 데이터를 식별한다고 가정한다.The analysis device can perform various analysis on the sample. Hereinafter, it is assumed that the analysis device identifies gene expression data of normal tissue, gene expression data of tumor tissue, and gene expression data of a sample.

(1) 분석장치는 샘플의 유전자 발현 데이터를 기준으로 게놈 모듈 네트워크를 구축할 수 있다. 분석 장치는 샘플의 게놈 모듈 네트워크에서 커널 모듈을 결정할 수 있다. 분석장치는 샘플의 커널 모듈에 CG가 존재하는지를 기준으로, 샘플이 정상 범주인지 또는 종양인지 판단할 수도 있다. (1) The analysis device can construct a genome module network based on the gene expression data of the sample. The analysis device may determine the kernel module in the sample's genomic module network. The analysis device may determine whether the sample is a normal category or a tumor based on whether CG is present in the kernel module of the sample.

(2) 분석장치는 정상 조직의 유전자 발현 데이터 세트와 함께 샘플의 유전자 발현 데이터를 조합하고, 조합된 데이터를 기준으로 게놈 모듈 네트워크를 구축할 수 있다. 분석장치는 정상 조직과 샘플을 비교하는 방식으로 샘플에 대한 분석을 할 수 있다. 예컨대, 분석 장치는 CG와 CGX의 상대 엔트로피를 비교할 수 있고(830), CG와 CGX의 MSP를 비교할 수도 있고(840), 커널 모듈과 다른 모듈의 연결성을 비교할 수도 있고(850), MSP 기반한 클러스터링을 수행하여 정상과 샘플을 비교할 수도 있고(860), 클러스터링된 그룹의 LOR을 연산하여 정상과 샘플을 비교할 수도 있다(860).(2) The analysis device can combine gene expression data of a sample with a gene expression data set of a normal tissue, and build a genome module network based on the combined data. The analysis device can analyze the sample by comparing the sample with the normal tissue. For example, the analysis device may compare the relative entropy of CG and CGX (830), compare the MSPs of CG and CGX (840), compare the connectivity between the kernel module and other modules (850), and clustering based on MSPs. The normal and the sample may be compared by performing (860), or the normal and the sample may be compared by calculating the LOR of the clustered group (860).

(3) 분석장치는 종양 조직의 유전자 발현 데이터 세트와 함께 샘플의 유전자 발현 데이터를 조합하고, 조합된 데이터를 기준으로 게놈 모듈 네트워크를 구축할 수 있다. 분석장치는 종양 조직과 샘플을 비교하는 방식으로 샘플에 대한 분석을 할 수 있다. 예컨대, 분석 장치는 CG와 CGX의 상대 엔트로피를 비교할 수 있고(830), CG와 CGX의 MSP를 비교할 수도 있고(840), 커널 모듈과 다른 모듈의 연결성을 비교할 수도 있고(850), MSP 기반한 클러스터링을 수행하여 종양과 샘플을 비교할 수도 있고(860), 클러스터링된 그룹의 LOR을 연산하여 종양과 샘플을 비교할 수도 있다(860).(3) The analysis device can combine gene expression data of a sample with a gene expression data set of a tumor tissue, and build a genome module network based on the combined data. The analysis device can analyze the sample by comparing the tumor tissue with the sample. For example, the analysis device may compare the relative entropy of CG and CGX (830), compare the MSPs of CG and CGX (840), compare the connectivity between the kernel module and other modules (850), and clustering based on MSPs. The tumor and the sample may be compared by performing (860), or the tumor and the sample may be compared by calculating the LOR of the clustered group (860).

(4) 분석장치는 정상 조직의 유전자 발현 데이터, 종양 조직의 유전자 발현 데이터 세트와 함께 샘플의 유전자 발현 데이터를 조합하고, 조합된 데이터를 기준으로 게놈 모듈 네트워크를 구축할 수 있다. 분석장치는 종양 조직과 샘플을 비교하는 방식으로 샘플에 대한 분석을 할 수 있다. 예컨대, 분석 장치는 CG와 CGX의 상대 엔트로피를 비교할 수 있고(830), CG와 CGX의 MSP를 비교할 수도 있고(840), 커널 모듈과 다른 모듈의 연결성을 비교할 수도 있고(850), MSP 기반한 클러스터링을 수행하여 정상/종양과 샘플을 비교할 수도 있고(860), 클러스터링된 그룹의 LOR을 연산하여 정상/종양과 샘플을 비교할 수도 있다(860).(4) The analysis device may combine gene expression data of a sample with gene expression data of normal tissue and gene expression data of tumor tissue, and construct a genome module network based on the combined data. The analysis device can analyze the sample by comparing the tumor tissue with the sample. For example, the analysis device may compare the relative entropy of CG and CGX (830), compare the MSPs of CG and CGX (840), compare the connectivity between the kernel module and other modules (850), and clustering based on MSPs. The normal/tumor and the sample may be compared by performing (860), or the normal/tumor and the sample may be compared by calculating the LOR of the clustered group (860).

도 60은 게놈 모듈 네트워크의 커널 모듈을 기준으로 샘플을 분석하는 시스템(900)에 대한 예이다. 도 60은 커널 모듈에 기반한 샘플 분석 방법에 따라 샘플을 분석하는 서비스를 제공하는 시스템에 해당한다. 샘플 분석 방법은 도 59 등에서 설명한 다양한 방법 중 적어도 하나일 수 있다.60 is an example of a system 900 that analyzes a sample based on a kernel module of a genome module network. 60 corresponds to a system that provides a service for analyzing samples according to a sample analysis method based on a kernel module. The sample analysis method may be at least one of various methods described in FIG. 59 and the like.

분석 시스템(900)은 레퍼런스 DB(910) 및 분석장치(920 및/또는 930)을 포함한다. 분석장치(920)는 네트워크상의 분석 서버에 해당하고, 분석장치(930)는 개인이 사용하는 컴퓨터장치에 해당한다. 컴퓨터장치는 PC, 스마트 기기 등과 같은 다양한 형태로 구현될 수도 있다.The analysis system 900 includes a reference DB 910 and an analysis device 920 and/or 930. The analysis device 920 corresponds to an analysis server on a network, and the analysis device 930 corresponds to a computer device used by an individual. The computer device may be implemented in various forms such as a PC or a smart device.

유전자 데이터 생성장치(80)는 샘플의 시료를 분석하여 유전자 발현 데이터를 생성하는 장치에 해당한다. 유전자 발현 데이터는 마이크로어레이를 통해 획득될 수 있다. 나아가 NGS 분석을 통해서도 유전자 발현 데이터가 마련될 수도 있다.The gene data generating device 80 corresponds to a device for generating gene expression data by analyzing a sample of a sample. Gene expression data can be obtained through microarray. Furthermore, gene expression data may also be prepared through NGS analysis.

분석장치(920)는 네트워크를 통해 샘플의 유전자 발현 데이터를 수신할 수 있다. 또한 분석장치(920)는 네트워크를 통해 레퍼런스 DB(910)로부터 정상 조직과 종양 조직 각각의 유전자 발현 데이터 세트, 정상 조직과 종양 조직 각각의 게놈 모듈 네트워크 구성 정보, 정상 조직과 종양 조직 각각의 커널 구성 정보, CG 유전자 정보 및 CGX 유전자 정보 등을 수신할 수 있다. 분석장치(920)는 레퍼런스 데이터와 샘플의 유전자 발현 데이터를 이용하여 게놈 모듈 네트워크를 구축하고, 전술한 바와 같이 커널 모듈을 기준으로 샘플을 분석할 수 있다. 한편, 분석장치(920)는 분석 결과를 사용자 단말(50)에 전송할 수도 있다.The analysis device 920 may receive gene expression data of a sample through a network. In addition, the analysis device 920 includes gene expression data sets for each of the normal tissues and tumor tissues from the reference DB 910 through the network, information on the genomic module network configuration information for each of the normal tissues and tumor tissues, and the kernel configuration for each of the normal tissues and tumor tissues. Information, CG gene information, and CGX gene information may be received. The analysis device 920 may construct a genome module network using reference data and gene expression data of the sample, and analyze the sample based on the kernel module as described above. Meanwhile, the analysis device 920 may transmit the analysis result to the user terminal 50.

분석장치(930)는 네트워크 또는 저장매체(USB, SD 카드, 하드디스크 등)를 통해 샘플의 유전자 발현 데이터를 획득할 수 있다. 또한 분석장치(930)는 네트워크를 통해 레퍼런스 DB(910)로부터 정상 조직과 종양 조직 각각의 유전자 발현 데이터 세트, 정상 조직과 종양 조직 각각의 게놈 모듈 네트워크 구성 정보, 정상 조직과 종양 조직 각각의 커널 구성 정보, CG 유전자 정보 및 CGX 유전자 정보 등을 수신할 수 있다. 또는, 도 60과는 달리 분석장치(930)가 레퍼런스 DB에 유선으로 연결되거나, 분석장치(930)가 저장매체에 레퍼런스 DB를 포함하는 형태일 수도 있다. 분석장치(930)는 레퍼런스 데이터와 샘플의 유전자 발현 데이터를 이용하여 게놈 모듈 네트워크를 구축하고, 전술한 바와 같이 커널 모듈을 기준으로 샘플을 분석할 수 있다. 한편, 분석장치(930)는 분석 결과를 화면에 출력할 수 있다. 또는 분석장치(930)는 분석 결과를 사용자 단말(50)에 전송할 수도 있다.The analysis device 930 may acquire gene expression data of a sample through a network or a storage medium (USB, SD card, hard disk, etc.). In addition, the analysis device 930 includes gene expression data sets for each of the normal tissues and tumor tissues from the reference DB 910 through the network, information on the genomic module network configuration information for each of the normal tissues and tumor tissues, and the kernel configuration for each of the normal tissues and tumor tissues. Information, CG gene information, and CGX gene information may be received. Alternatively, unlike FIG. 60, the analysis device 930 may be connected to a reference DB by wire, or the analysis device 930 may include a reference DB in a storage medium. The analysis device 930 may build a genome module network using reference data and gene expression data of the sample, and analyze the sample based on the kernel module as described above. Meanwhile, the analysis device 930 may output the analysis result on the screen. Alternatively, the analysis device 930 may transmit the analysis result to the user terminal 50.

도 61은 게놈 모듈 네트워크의 커널 모듈을 기준으로 샘플을 분석하는 분석장치(1000)에 대한 예이다. 도 61은 전술한 분석장치(920, 930)에 대한 구성일 수도 있다.61 is an example of an analysis apparatus 1000 that analyzes a sample based on a kernel module of a genome module network. 61 may be a configuration of the aforementioned analysis devices 920 and 930.

분석장치(1000)는 샘플 데이터를 분석하는 프로그램을 이용하여 샘플에 대한 건강 정보를 생성할 수 있다. 분석장치(1000)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(1000)는 PC, 스마트기기, 컴퓨터 장치, 네트워크의 서버, 데이터 처리 전용 칩셋 등의 형태를 가질 수 있다. The analysis device 1000 may generate health information for a sample by using a program that analyzes sample data. The analysis device 1000 may be physically implemented in various forms. For example, the analysis device 1000 may have a form such as a PC, a smart device, a computer device, a server of a network, and a chipset dedicated to data processing.

분석장치(1000)는 저장장치(1010), 메모리(1020), 연산장치(1030), 인터페이스 장치(1040), 통신장치(1050) 및 출력장치(1060)를 포함할 수 있다. The analysis device 1000 may include a storage device 1010, a memory 1020, an operation device 1030, an interface device 1040, a communication device 1050, and an output device 1060.

저장장치(1010)는 게놈 모듈 네트워크를 구성하는 프로그램 및/또는 게놈 모듈 네트워크의 커널 모듈을 기준으로 샘플을 분석하는 프로그램을 저장할 수 있다. The storage device 1010 may store a program constituting a genome module network and/or a program for analyzing a sample based on a kernel module of the genome module network.

저장장치(1010)는 입력받은 유전자 발현 데이터를 저장할 수 있다.The storage device 1010 may store the received gene expression data.

저장장치(1010)는 정상 조직 및 종양 조직을 분석한 레퍼런스 데이터를 저장할 수도 있다. 레퍼런스 데이터는 정상 조직과 종양 조직 각각의 유전자 발현 데이터 세트, 정상 조직과 종양 조직 각각의 게놈 모듈 네트워크 구성 정보, 정상 조직과 종양 조직 각각의 커널 구성 정보, CG 유전자 정보 및 CGX 유전자 정보 등을 포함할 수 있다.The storage device 1010 may store reference data obtained by analyzing normal tissues and tumor tissues. The reference data include gene expression data sets for each of normal and tumor tissues, genomic module network configuration information for each of normal tissues and tumor tissues, kernel configuration information for each of normal and tumor tissues, CG gene information, and CGX gene information. I can.

메모리(1020)는 분석장치(1000)가 데이터 처리 과정에 필요한 데이터 및 생성되는 임시 데이터를 저장할 수 있다.The memory 1020 may store data required for a data processing process by the analysis apparatus 1000 and temporary data generated.

인터페이스장치(1040)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스장치(1040)는 물리적으로 연결된 입력장치 또는 외부 저장장치로부터 샘플의 유전자 발현 데이터 및/또는 레퍼런스 데이터를 입력받을 수 있다. 인터페이스장치(1040)는 데이터 처리를 위한 프로그램을 입력받을 수 있다. The interface device 1040 is a device that receives certain commands and data from the outside. The interface device 1040 may receive gene expression data and/or reference data of a sample from an input device physically connected or an external storage device. The interface device 1040 may receive a program for processing data.

통신장치(1050)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신장치(1050)는 외부 객체로부터 샘플의 유전자 발현 데이터 및/또는 레퍼런스 데이터를 수신할 수 있다. 통신장치(1050)는 데이터 처리를 위한 프로그램 및 데이터를 수신할 수 있다. 통신장치(1050)는 네트워크상에 존재하는 레퍼런스 DB와 통신하여 레퍼런스 데이터를 수신할 수 있다. 한편, 통신장치(1050)는 샘플에 대한 분석 결과를 외부로 송신할 수도 있다.The communication device 1050 refers to a component that receives and transmits certain information through a wired or wireless network. The communication device 1050 may receive gene expression data and/or reference data of a sample from an external object. The communication device 1050 may receive a program and data for data processing. The communication device 1050 may receive reference data by communicating with a reference DB existing on a network. Meanwhile, the communication device 1050 may transmit an analysis result for the sample to the outside.

통신장치(1050) 내지 인터페이스장치(1040)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(1050) 내지 인터페이스장치(1040)를 입력장치라고 명명할 수 있다.The communication device 1050 to the interface device 1040 are devices that receive certain data or commands from the outside. The communication device 1050 to the interface device 1040 may be referred to as an input device.

출력장치(1060)는 일정한 정보를 출력하는 장치이다. 출력장치(1060)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.The output device 1060 is a device that outputs certain information. The output device 1060 may output an interface required for a data processing process and an analysis result.

연산 장치(1030)는 유전자 발현 데이터를 이용하여 게놈 모듈 네트워크를 구축할 수 있다. 연산 장치(1030)는 정상 조직, 종양 조직 및 샘플 각각에 대한 게놈 모듈 네트워크를 구축할 수 있다.The computing device 1030 can construct a genome module network using gene expression data. The computing device 1030 may build a genome module network for each of a normal tissue, a tumor tissue, and a sample.

연산 장치(1030)는 샘플의 유전자 발현 데이터를 이용하여 게놈 모듈 네트워크를 구축하고, 정상 조직(또는 종양 조직)의 커널 모듈 정보와 샘플의 커널 모듈 정보를 비교하여 샘플을 분석할 수 있다. The computing device 1030 may analyze a sample by constructing a genome module network using gene expression data of a sample and comparing kernel module information of a normal tissue (or tumor tissue) with kernel module information of the sample.

연산 장치(1030)는 정상 조직(및/또는 종양 조직)의 유전자 발현 데이터 및 샘플의 유전자 발현 데이터를 이용하여 게놈 모듈 네트워크를 구축하고, 도 58 등에서 설명한 분석 방법(지표 내지 클러스터링 등)을 이용하여 샘플을 분석할 수 있다. 예컨대, 연산 장치(1030)는 샘플에 대하여 정상 상태, 종양 발병 상태, 종양 발병 가능성, 종양에 대한 맞춤형 치료 방법 등을 분석 결과로 도출할 수 있다.The computing device 1030 constructs a genome module network using gene expression data of a normal tissue (and/or a tumor tissue) and gene expression data of a sample, and uses the analysis method (indicator, clustering, etc.) described in FIG. The sample can be analyzed. For example, the computing device 1030 may derive a normal state, a tumor onset state, a tumor onset possibility, and a customized treatment method for a tumor as an analysis result of the sample.

연산 장치(1030)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.The computing device 1030 may be a device such as a processor, an AP, or a chip in which a program is embedded that processes data and processes certain operations.

또한, 상술한 바와 같은 게놈 모듈 네트워크, 모듈 간 네트워크, 커널 모듈 내지 커널 모듈의 유전자들에 기반한 샘플 분석방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.In addition, the genome module network, the inter-module network, the kernel module or the sample analysis method based on genes of the kernel module as described above may be implemented as a program (or application) including an executable algorithm that can be executed on a computer. The program may be provided by being stored in a temporary or non-transitory computer readable medium.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.The non-transitory readable medium refers to a medium that stores data semi-permanently and can be read by a device, not a medium that stores data for a short moment, such as a register, cache, or memory. Specifically, the above-described various applications or programs include CD, DVD, hard disk, Blu-ray disk, USB, memory card, read-only memory (ROM), programmable read only memory (PROM), and eraseable PROM (EPROM). Alternatively, it may be provided by being stored in a non-transitory readable medium such as an EEPROM (Electrically EPROM) or a flash memory.

일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.Temporary readable media are static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDR SDRAM), and enhanced SDRAM (Enhanced SDRAM). SDRAM, ESDRAM), Synchronous DRAM (Synclink DRAM, SLDRAM) and Direct Rambus RAM (Direct Rambus RAM, DRRAM) refers to a variety of RAM.

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.The present embodiment and the accompanying drawings are merely illustrative of some of the technical ideas included in the above-described technology, and those skilled in the art will be able to easily within the scope of the technical ideas included in the specification and drawings of the above-described technology. It will be apparent that all of the modified examples and specific embodiments that can be inferred are included in the scope of the rights of the above-described technology.

Claims (14)

분석장치가 샘플의 유전자 발현 데이터를 이용하여 엔트로피를 기준으로 상기 샘플에 대한 게놈 모듈 네트워크를 구축하는 단계; 및
상기 분석장치가 레퍼런스 게놈 모듈 네트워크의 레퍼런스 커널 모듈과 상기 샘플의 게놈 모듈 네트워크의 샘플 커널 모듈을 기준으로, 상기 샘플에 대한 분석을 수행하는 단계를 포함하되,
상기 레퍼런스 게놈 모듈 네트워크는 정상 조직의 유전자 발현 데이터 세트 및 종양 조직의 유전자 발현 데이터 세트 중 적어도 하나의 세트를 이용하여 사전에 구축되고, 상기 커널 모듈은 상기 게놈 모듈 네트워크에서 다른 모듈에 비하여 엔트로피가 기준값 이상 낮은 모듈이고, 상기 엔트로피는 복수의 유전자에 대한 전사 발현 가능성을 기준으로 상기 복수의 유전자 사이의 상호관계를 나타내는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
Constructing a genome module network for the sample based on entropy by the analysis device using the gene expression data of the sample; And
The analysis device comprises the step of performing an analysis on the sample based on the reference kernel module of the reference genome module network and the sample kernel module of the genome module network of the sample,
The reference genome module network is constructed in advance using at least one of a gene expression data set of a normal tissue and a gene expression data set of a tumor tissue, and the kernel module has an entropy of a reference value compared to other modules in the genome module network. A method of analyzing a sample based on a kernel module of a genome module network, which is a module having an abnormally low level, and wherein the entropy indicates a correlation between the plurality of genes based on the possibility of transcriptional expression for the plurality of genes.
제1항에 있어서,
상기 분석장치는 상기 샘플의 유전자 발현 데이터를 이용하여 복수의 게놈 모듈을 포함하는 상기 게놈 모듈 네트워크를 구축하되,
상기 복수의 게놈 모듈을 구분하는 단계는
상기 복수의 유전자를 임의의 복수 집합으로 구분하고, 상기 복수의 집합 각각에 대하여 유전자를 하나씩 제거해가면서 각 집합의 엔트로피가 임계값보다 작도록 조정하는 단계; 및
상기 복수의 집합 각각에 대하여 엔트로피가 상기 임계값 이하이면서 동시에 주고유벡터의 변동이 기준값 이하인 것을 조건으로 상기 집합에 속하지 않는 유전자를 집합에 추가하는 단계를 포함하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 1,
The analysis device constructs the genome module network including a plurality of genome modules using gene expression data of the sample,
The step of distinguishing the plurality of genomic modules
Dividing the plurality of genes into a plurality of arbitrary sets, and adjusting the entropy of each set to be less than a threshold value while removing one gene from each of the plurality of sets; And
A sample based on a kernel module of a genome module network comprising the step of adding a gene that does not belong to the set to a set provided that the entropy for each of the plurality of sets is less than the threshold value and at the same time, the fluctuation of the reference vector is less than the reference value Analysis method.
제1항에 있어서,
상기 분석 장치는 상기 정상 조직의 커널 모듈에는 존재하고, 상기 종양 조직의 커널 모듈에는 존재하지 않는 유전자로 구성되는 제1 유전자 그룹 및 커널 모듈에서 상기 제1 유전자 그룹에 속한 유전자들을 제외한 유전자로 구성되는 제2 유전자 그룹 중 적어도 하나의 유전자 그룹을 기준으로 상기 레퍼런스 커널 모듈과 상기 샘플 커널 모듈을 비교하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 1,
The analysis device includes a first gene group consisting of genes present in the kernel module of the normal tissue and not present in the kernel module of the tumor tissue, and genes excluding genes belonging to the first gene group in the kernel module. A sample analysis method based on a kernel module of a genome module network comparing the reference kernel module and the sample kernel module based on at least one gene group of the second gene group.
제3항에 있어서,
상기 분석 장치는 상기 제1 유전자 그룹과 상기 제2 유전자 그룹 사이의 상대 엔트로피, 상기 제1 유전자 그룹과 상기 제2 유전자 그룹 중 적어도 하나의 그룹에 대한 변이 정도를 기준으로 상기 레퍼런스 커널 모듈과 상기 샘플 커널 모듈을 비교하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 3,
The analysis device includes the reference kernel module and the sample based on a relative entropy between the first gene group and the second gene group, and a degree of mutation for at least one of the first gene group and the second gene group. A sample analysis method based on kernel modules of a genome module network comparing kernel modules.
제3항에 있어서,
상기 분석 장치는 상기 제1 유전자 그룹과 상기 제2 유전자 그룹 사이의 상대 엔트로피, 상기 제1 유전자 그룹과 상기 제2 유전자 그룹 중 적어도 하나의 그룹에 대한 변이 정도를 기준으로 상기 레퍼런스 커널 모듈과 상기 샘플 커널 모듈을 분류하고, 분류한 그룹에서 상기 레퍼런스 커널 모듈과 상기 샘플 커널 모듈에 대한 LOR(log odds ratio)을 연산하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 3,
The analysis device includes the reference kernel module and the sample based on a relative entropy between the first gene group and the second gene group, and a degree of mutation for at least one of the first gene group and the second gene group. A sample analysis method based on a kernel module of a genomic module network for classifying a kernel module and calculating a log odds ratio (LOR) for the reference kernel module and the sample kernel module in the classified group.
제1항에 있어서,
상기 분석 장치는 상기 레퍼런스 게놈 모듈 네트워크에서 커널 모듈과 다른 모듈의 연결성과 상기 샘플의 게놈 모듈 네트워크에서 커널 모듈과 다른 모듈의 연결성을 비교하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 1,
The analysis device is a sample analysis method based on a kernel module of a genome module network for comparing the connectivity between a kernel module and other modules in the reference genome module network and a kernel module and other modules in the genome module network of the sample.
분석장치가 레퍼런스 유전자 발현 데이터 및 샘플의 유전자 발현 데이터를 조합한 유전자 발현 데이터를 이용하여 엔트로피를 기준으로 게놈 모듈 네트워크를 구축하는 단계; 및
상기 분석장치가 게놈 모듈 네트워크의 커널 모듈을 기준으로, 상기 샘플에 대한 분석을 수행하는 단계를 포함하되,
상기 레퍼런스 유전자 발현 데이터는 정상 조직의 유전자 발현 데이터 세트 및 종양 조직의 유전자 발현 데이터 세트 중 적어도 하나의 세트를 포함하고, 상기 커널 모듈은 상기 게놈 모듈 네트워크에서 다른 모듈에 비하여 엔트로피가 기준값 이상 낮은 모듈이고, 상기 엔트로피는 복수의 유전자에 대한 전사 발현 가능성을 기준으로 상기 복수의 유전자 사이의 상호관계를 나타내는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
Constructing a genome module network based on entropy using gene expression data obtained by combining the reference gene expression data and the gene expression data of the sample by the analysis device; And
The analysis device comprises the step of performing an analysis on the sample based on the kernel module of the genome module network,
The reference gene expression data includes at least one set of a gene expression data set of a normal tissue and a gene expression data set of a tumor tissue, and the kernel module is a module having an entropy lower than a reference value compared to other modules in the genome module network. , The entropy is a sample analysis method based on a kernel module of a genomic module network indicating a correlation between the plurality of genes based on the possibility of transcriptional expression for a plurality of genes.
제7항에 있어서,
상기 분석장치는 상기 조합한 유전자 발현 데이터를 이용하여 복수의 게놈 모듈을 포함하는 상기 게놈 모듈 네트워크를 구축하되,
상기 복수의 게놈 모듈을 구분하는 단계는
상기 복수의 유전자를 임의의 복수 집합으로 구분하고, 상기 복수의 집합 각각에 대하여 유전자를 하나씩 제거해가면서 각 집합의 엔트로피가 임계값보다 작도록 조정하는 단계; 및
상기 복수의 집합 각각에 대하여 엔트로피가 상기 임계값 이하이면서 동시에 주고유벡터의 변동이 기준값 이하인 것을 조건으로 상기 집합에 속하지 않는 유전자를 집합에 추가하는 단계를 포함하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 7,
The analysis device constructs the genome module network including a plurality of genome modules using the combined gene expression data,
The step of distinguishing the plurality of genomic modules
Dividing the plurality of genes into a plurality of arbitrary sets, and adjusting the entropy of each set to be less than a threshold value while removing one gene from each of the plurality of sets; And
A sample based on a kernel module of a genome module network comprising the step of adding a gene that does not belong to the set to a set provided that the entropy for each of the plurality of sets is less than the threshold value and at the same time, the fluctuation of the reference vector is less than the reference value Analysis method.
제7항에 있어서,
상기 분석 장치는 상기 정상 조직의 커널 모듈에는 존재하고, 상기 종양 조직의 커널 모듈에는 존재하지 않는 유전자로 구성되는 제1 유전자 그룹 및 커널 모듈에서 상기 제1 유전자 그룹에 속한 유전자들을 제외한 유전자로 구성되는 제2 유전자 그룹 중 적어도 하나의 유전자 그룹을 기준으로 상기 레퍼런스 유전자 발현 데이터의 커널 모듈과 상기 샘플의 커널 모듈을 비교하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 7,
The analysis device includes a first gene group consisting of genes present in the kernel module of the normal tissue and not present in the kernel module of the tumor tissue, and genes excluding genes belonging to the first gene group in the kernel module. A sample analysis method based on a kernel module of a genomic module network comparing a kernel module of the reference gene expression data with a kernel module of the sample based on at least one gene group of the second gene group.
제9항에 있어서,
상기 분석 장치는 상기 제1 유전자 그룹과 상기 제2 유전자 그룹 사이의 상대 엔트로피, 상기 제1 유전자 그룹과 상기 제2 유전자 그룹 중 적어도 하나의 그룹에 대한 변이 정도를 기준으로 상기 레퍼런스 유전자 발현 데이터의 커널 모듈과 상기 샘플의 커널 모듈을 비교하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 9,
The analysis device includes a kernel of the reference gene expression data based on a relative entropy between the first gene group and the second gene group, and a degree of mutation for at least one of the first gene group and the second gene group. A sample analysis method based on a kernel module of a genome module network comparing a module with a kernel module of the sample.
제9항에 있어서,
상기 분석 장치는 상기 제1 유전자 그룹과 상기 제2 유전자 그룹 사이의 상대 엔트로피, 상기 제1 유전자 그룹과 상기 제2 유전자 그룹 중 적어도 하나의 그룹에 대한 변이 정도를 기준으로 상기 레퍼런스 커널 모듈과 상기 샘플 커널 모듈을 분류하고, 분류한 그룹에서 상기 레퍼런스 유전자 발현 데이터와 상기 샘플의 유전자 발현 데이터에 대한 LOR(log odds ratio)을 연산하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 9,
The analysis device includes the reference kernel module and the sample based on a relative entropy between the first gene group and the second gene group, and a degree of mutation for at least one of the first gene group and the second gene group. A sample analysis method based on a kernel module of a genome module network for classifying a kernel module and calculating a log odds ratio (LOR) for the reference gene expression data and the gene expression data of the sample in the classified group.
제7항에 있어서,
상기 분석 장치는 상기 게놈 모듈 네트워크에서 커널 모듈과 다른 모듈의 연결성을 기준으로 상기 레퍼런스 유전자 발현 데이터와 상기 샘플의 유전자 발현 데이터를 비교하는 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법.
The method of claim 7,
The analysis device is a sample analysis method based on a kernel module of a genome module network comparing the reference gene expression data with the gene expression data of the sample based on the connectivity between a kernel module and other modules in the genome module network.
레퍼런스의 데이터 및 샘플의 유전자 발현 데이터를 입력받는 입력장치;
유전자 발현 데이터 세트로 구축되는 게놈 모듈 네트워크의 커널 모듈을 기준으로 데이터를 분석하는 프로그램을 저장하는 저장장치; 및
상기 프로그램을 이용하여 상기 샘플의 유전자 발현 데이터를 이용하여 게놈 모듈 네트워크를 구축하고, 상기 구축된 게놈 모듈 네트워크의 커널 모듈을 구성하는 유전자 정보를 기준으로 상기 샘플을 분석하는 연산장치를 포함하되,
상기 레퍼런스의 데이터는 정상 조직의 유전자 발현 데이터 세트 및 종양 조직의 유전자 발현 데이터 세트 중 적어도 하나의 세트 또는 상기 적어도 하나의 세트를 이용하여 구축된 레퍼런스 게놈 모듈 네트워크 데이터이고, 상기 커널 모듈은 상기 게놈 모듈 네트워크에서 다른 모듈에 비하여 엔트로피가 기준값 이상 낮은 모듈이고, 상기 엔트로피는 복수의 유전자에 대한 전사 발현 가능성을 기준으로 상기 복수의 유전자 사이의 상호관계를 나타내는 분석 장치.
An input device for receiving reference data and gene expression data of a sample;
A storage device for storing a program for analyzing data based on a kernel module of a genome module network constructed from a gene expression data set; And
Constructing a genome module network using the gene expression data of the sample using the program, and comprising a computing device for analyzing the sample based on gene information constituting the kernel module of the constructed genome module network,
The data of the reference is at least one of a gene expression data set of a normal tissue and a gene expression data set of a tumor tissue, or a reference genome module network data constructed using the at least one set, and the kernel module is the genome module A module in which the entropy is lower than a reference value compared to other modules in the network, and the entropy is an analysis device that indicates a correlation between the plurality of genes based on the possibility of transcriptional expression for the plurality of genes.
제13항에 있어서,
상기 연산장치는 상기 정상 조직의 커널 모듈에는 존재하고, 상기 종양 조직의 커널 모듈에는 존재하지 않는 유전자로 구성되는 제1 유전자 그룹 및 커널 모듈에서 상기 제1 유전자 그룹에 속한 유전자들을 제외한 유전자로 구성되는 제2 유전자 그룹 중 적어도 하나의 유전자 그룹을 기준으로 상기 레퍼런스와 상기 샘플을 비교하는 분석 장치.
The method of claim 13,
The computing device is composed of a first gene group composed of genes present in the kernel module of the normal tissue and not present in the kernel module of the tumor tissue, and genes excluding genes belonging to the first gene group in the kernel module. Analysis device for comparing the reference and the sample based on at least one gene group among the second gene group.
KR1020200055087A 2019-05-14 2020-05-08 Sample data analysis method based on kernel modules in genomic module network and analysis apparatus KR102346561B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/KR2020/006305 WO2020231184A1 (en) 2019-05-14 2020-05-13 Sample analysis method and device based on kernel module in genome module network
EP20805845.3A EP3970606A4 (en) 2019-05-14 2020-05-13 Sample analysis method and device based on kernel module in genome module network
US17/608,548 US20220215268A1 (en) 2019-05-14 2020-05-13 Sample analysis method and device based on kernel module in genomic module network

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190056105 2019-05-14
KR1020190056105 2019-05-14

Publications (2)

Publication Number Publication Date
KR20200131750A true KR20200131750A (en) 2020-11-24
KR102346561B1 KR102346561B1 (en) 2022-01-03

Family

ID=73679557

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200055087A KR102346561B1 (en) 2019-05-14 2020-05-08 Sample data analysis method based on kernel modules in genomic module network and analysis apparatus

Country Status (1)

Country Link
KR (1) KR102346561B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023121166A1 (en) * 2021-12-20 2023-06-29 한양대학교 산학협력단 Gene ontology-based genetic data analysis method and analysis device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100293130A1 (en) * 2006-11-30 2010-11-18 Stephan Dietrich A Genetic analysis systems and methods
US20170002319A1 (en) * 2015-05-13 2017-01-05 Whitehead Institute For Biomedical Research Master Transcription Factors Identification and Use Thereof
KR20170047037A (en) * 2015-10-22 2017-05-04 한국과학기술원 System and method
KR20170090093A (en) * 2016-01-28 2017-08-07 연세대학교 산학협력단 Method and Apparatus for Analyzing Disease-related Genes
JP2018181290A (en) * 2017-04-13 2018-11-15 大▲連▼大学 Filter type feature selection algorithm based on improved information measurement and ga
KR20190032847A (en) * 2017-09-20 2019-03-28 이화여자대학교 산학협력단 miRNA and mRNA ASSOCIATION ANALYSIS METHOD AND GENERATING APPARATUS FOR miRNA and mRNA ASSOCIATION NETWORK

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100293130A1 (en) * 2006-11-30 2010-11-18 Stephan Dietrich A Genetic analysis systems and methods
US9092391B2 (en) 2006-11-30 2015-07-28 Navigenics, Inc. Genetic analysis systems and methods
US20170002319A1 (en) * 2015-05-13 2017-01-05 Whitehead Institute For Biomedical Research Master Transcription Factors Identification and Use Thereof
KR20170047037A (en) * 2015-10-22 2017-05-04 한국과학기술원 System and method
KR20170090093A (en) * 2016-01-28 2017-08-07 연세대학교 산학협력단 Method and Apparatus for Analyzing Disease-related Genes
JP2018181290A (en) * 2017-04-13 2018-11-15 大▲連▼大学 Filter type feature selection algorithm based on improved information measurement and ga
KR20190032847A (en) * 2017-09-20 2019-03-28 이화여자대학교 산학협력단 miRNA and mRNA ASSOCIATION ANALYSIS METHOD AND GENERATING APPARATUS FOR miRNA and mRNA ASSOCIATION NETWORK

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAN, J. et al. "The effects of variations in genomic modules on breast cancer phenotype", Animal Cells and Systems, 18.5: pp.296~303, 2014 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023121166A1 (en) * 2021-12-20 2023-06-29 한양대학교 산학협력단 Gene ontology-based genetic data analysis method and analysis device

Also Published As

Publication number Publication date
KR102346561B1 (en) 2022-01-03

Similar Documents

Publication Publication Date Title
Sompairac et al. Independent component analysis for unraveling the complexity of cancer omics datasets
Shimada et al. shinyDepMap, a tool to identify targetable cancer genes and their functional connections from Cancer Dependency Map data
Hsu et al. An unsupervised hierarchical dynamic self-organizing approach to cancer class discovery and marker gene identification in microarray data
Golugula et al. Supervised regularized canonical correlation analysis: integrating histologic and proteomic measurements for predicting biochemical recurrence following prostate surgery
Presson et al. Protein expression based multimarker analysis of breast cancer samples
EP3443116B1 (en) Sub-population detection and quantization of receptor-ligand states for characterizing inter-cellular communication and intratumoral heterogeneity
Mourragui et al. Predicting patient response with models trained on cell lines and patient-derived xenografts by nonlinear transfer learning
Sun et al. Cancer progression modeling using static sample data
Bühnemann et al. Quantification of the heterogeneity of prognostic cellular biomarkers in ewing sarcoma using automated image and random survival forest analysis
Ye et al. Circular Trajectory Reconstruction Uncovers Cell‐Cycle Progression and Regulatory Dynamics from Single‐Cell Hi‐C Maps
KR102137029B1 (en) Sample data analysis method based on genomic module network from filtered data
Allehaibi et al. iTAGPred: A Two‐Level Prediction Model for Identification of Angiogenesis and Tumor Angiogenesis Biomarkers
KR102051710B1 (en) Genome analysis method based on modularization
Allen et al. MAPLE: a hybrid framework for multi-sample spatial transcriptomics data
US20200372972A1 (en) Sample data analysis method based on genomic module network
KR102346561B1 (en) Sample data analysis method based on kernel modules in genomic module network and analysis apparatus
Yuan et al. Self-organizing maps for cellular in silico staining and cell substate classification
Kusonmano et al. Effects of pooling samples on the performance of classification algorithms: a comparative study
Singha et al. GraphGR: A graph neural network to predict the effect of pharmacotherapy on the cancer cell growth
EP3970606A1 (en) Sample analysis method and device based on kernel module in genome module network
US20200286582A1 (en) Sample data analysis method based on genomic module network with filtered data
KR102110262B1 (en) Sample data analysis method based on genomic module network
US10192642B2 (en) System and method for determining an association of at least one biological feature with a medical condition
Anaya et al. Aggregation Tool for Genomic Concepts (ATGC): A deep learning framework for sparse genomic measures and its application to tumor mutational burden
Polewko-Klim et al. Data integration strategy for robust classification of biomedical data

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant