WO2023121166A1 - 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치 - Google Patents

유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치 Download PDF

Info

Publication number
WO2023121166A1
WO2023121166A1 PCT/KR2022/020687 KR2022020687W WO2023121166A1 WO 2023121166 A1 WO2023121166 A1 WO 2023121166A1 KR 2022020687 W KR2022020687 W KR 2022020687W WO 2023121166 A1 WO2023121166 A1 WO 2023121166A1
Authority
WO
WIPO (PCT)
Prior art keywords
gene
expression data
sample
gene expression
term
Prior art date
Application number
PCT/KR2022/020687
Other languages
English (en)
French (fr)
Inventor
김진혁
김혜영
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Publication of WO2023121166A1 publication Critical patent/WO2023121166A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Definitions

  • the technique described below relates to a technique of analyzing genetic data of a sample based on expression information of genes calculated by gene ontology.
  • the technique described below is intended to provide a technique for analyzing a sample based on transcriptional expression information of genes in the sample.
  • the technique described below aims to provide a technique for analyzing a sample by interpreting gene expression information in a gene space targeting genes determined based on gene ontology.
  • the gene ontology-based genetic data analysis method includes the step of receiving gene expression data of a sample and gene expression data of a reference tissue by an analysis device, and inputting gene set information related to at least one gene ontology term by the analysis device Receiving, by the analysis device, first gene expression data for genes belonging to the gene set among gene expression data of the sample and second gene expression data for genes belonging to the gene set among gene expression data of the reference tissue Extracting data and calculating, by the analysis device, entropy for the first gene expression data and the second gene expression data, and calculating a degree of variation of the sample based on the reference tissue.
  • An analysis device for analyzing Gene Ontology-based genetic data includes an input device for receiving gene set information related to at least one Gene Ontology term, a storage device for storing gene expression data of a sample and gene expression data of a reference tissue, and a gene of the sample Extracting first gene expression data for genes belonging to the gene set from expression data and second gene expression data for genes belonging to the gene set from among gene expression data of the reference tissue, and extracting the first gene expression data and an arithmetic unit for calculating the degree of variation of the sample based on the reference tissue by calculating entropy for the second gene expression data.
  • the technology described below is a new approach to effectively analyze the phenotype of a sample using only gene expression information.
  • the technology described below provides diagnosis and treatment for a specific disease by interpreting gene ontology information previously used as information that can be used for actual disease treatment.
  • 1 is an example of a gene ontology-based sample analysis system.
  • 2(A) is an example showing the transcriptional state of a single gene.
  • Figure 2(B) is an example of a transcriptional state vector of the genes of Figure 2(A).
  • 3(A) is an example showing the transcriptional state of two genes.
  • FIG. 3(B) is a result of projecting the density matrix onto a plane composed of elementary transcription states with high probability in FIG. 3(A).
  • 4(A) is an example showing the transcriptional state of three genes.
  • Figure 4(B) is an example of a histogram for the probability of the basal transcription state of Figure 4(A).
  • FIG. 4(C) is a result of projecting the density matrix onto a plane composed of elementary transcription states with high probability in FIG. 3(A).
  • 5 is a result of one-way ANOVA test for entropy of a cell cycle-related GO term gene set.
  • FIG. 6 is an example in which the correlation between the GO term entropy of BRCA and the GO term entropy of BRNO is divided according to the sample probability of BRCA and analyzed.
  • 9 is an example of analyzing the correlation between GO term relative entropy of each organization for BRNO.
  • 10 is an example of analyzing the correlation between GO term angle divergence of each organization for BRNO.
  • 11 is an example of analyzing the correlation between the GO term relative entropy and angular divergence of BRCA for BRNO and the GO term relative entropy and angular divergence of LUSC by dividing them according to the sample probability of BRCA.
  • 13 is an example of comparing GO term angle divergence of each organization with respect to BRNO.
  • 16 is an example of GSP distribution of normal tissue samples and GSP distribution of tumor samples for density matrices of normal genome and tumor genome.
  • 17 is an example of performing hierarchical clustering of BRCA samples based on GSPs for specific GO terms.
  • 18 is an example illustrating the LOR of a specific gene in an individual sample for a genomic system with a density matrix ⁇ .
  • 19 is an example comparing GLOR and LER of each gene for the genomic system of a specific GO term in BRCA and BRNO samples.
  • Figure 20 is an example of GLOR and LER of gene ASPM for cell cycle-related GO terms 6 and 46 genomic systems in BRCA and BRNO samples.
  • 21 is an example of a process of calculating an analysis index for a Gene Ontology-based sample.
  • 22 is another example of a process of calculating an analysis indicator for a Gene Ontology-based sample.
  • 23 is an example of an analysis device that analyzes gene data based on gene ontology.
  • first, second, A, B, etc. may be used to describe various elements, but the elements are not limited by the above terms, and are merely used to distinguish one element from another. used only as For example, without departing from the scope of the technology described below, a first element may be referred to as a second element, and similarly, the second element may be referred to as a first element.
  • the terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.
  • each component to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function.
  • each component to be described below may additionally perform some or all of the functions of other components in addition to its main function, and some of the main functions of each component may be performed by other components. Of course, it may be dedicated and performed by .
  • each process constituting the method may occur in a different order from the specified order unless a specific order is clearly described in context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.
  • a sample may basically mean a living object.
  • An object basically includes humans, animals, plants, microorganisms, and the like. However, in the following description, it is assumed that the sample is a human subject.
  • a sample may be represented by a sample obtained from a subject to be analyzed. Accordingly, a sample includes meanings such as an individual, a tissue of an individual, a cell set of an individual, and the like.
  • Sample data refers to gene expression data of a sample.
  • Gene expression means that a gene is transcribed into an RNA product.
  • Gene expression data is a data set representing the expression level of genes.
  • gene expression data can be calculated by techniques such as microarray and Next Generation Sequencing (NGS).
  • Gene ontology corresponds to a computerized data model that analyzes the properties of genes and gene products of organisms (including humans). Gene ontology provides classification of gene-related information. Gene Ontology is built in the form of an open database. Gene ontology is generally defined at independent levels (sub-ontologies) such as molecular function, biological process, and cellular component. For example, the gene product cytochrome c can be described as oxidoreductase activity in terms of molecular function, oxidative phosphorylation in terms of life metabolism, and mitochondrial matrix in terms of cellular composition.
  • the gene ontology term is a way to express genes and gene products as gene ontology.
  • a GO term includes identifiers, definitions, the aforementioned sub-ontologies, and relationships with other terms.
  • the gene ontology may be expressed in a graph form having a GO term as a node. That is, genes or gene products are expressed in association with other objects.
  • Entropy represents the functional unity and activity of a trait of multiple genes.
  • Sample probability means the probability of each sample for genes belonging to a certain gene group.
  • the sample probability may correspond to a quantified value indicating the degree of variation of a specific sample with respect to normal tissue for all genes of the sample.
  • the log odds ratio (hereinafter referred to as LOR) is the ratio of the first probability when the gene is in the gene group and the second probability when the gene is not in the gene group, based on a specific gene. is the log value for LOR can indicate the effect of a particular gene on a genomic system.
  • an analysis device refers to a computer device capable of processing and calculating input data.
  • the analysis device may be any one of devices such as a PC, a smart phone, a server, and a chipset in which a program is embedded.
  • FIG. 1 is an example of a gene ontology-based sample analysis system 100 .
  • analysis devices 140 , 150 , and 160 analyze genetic data of a sample.
  • the analysis device is shown in the form of a server 140 and computer terminals 150 and 160.
  • the genome analysis device 110 generates gene expression data by analyzing a sample of a patient having a specific disease. Genetic data may be data on DNA or RNA sequences. The genome analysis device 110 produces gene expression data in the form of digital data.
  • the reference database 120 stores reference gene expression data for a particular disease.
  • the reference gene expression data may be gene expression data of normal people.
  • the GO database 130 stores gene ontology information.
  • the GO database 130 may output information of gene(s) related to a specific GO term.
  • the server 140 receives gene expression data for a sample from the genome analysis device 110 .
  • Server 140 receives reference gene expression data from reference database 120 .
  • Server 140 may receive genetic information related to a specific GO term from GO database 130 .
  • the specific GO term may be a single term or a plurality of terms.
  • Gene information related to a specific GO term is information on a gene set related to the corresponding GO term, and may include identification information of genes included in the corresponding gene set.
  • the server 140 may query the GO database 130 for a specific GO term and receive genetic information related to the GO term.
  • a separate computer device may query the GO database 130 to transmit genetic information related to the GO term to the server 140.
  • the server 140 extracts only information about a set of genes related to the GO term from the gene expression data of the sample. In addition, the server 140 extracts only information about gene sets related to the GO term from the reference gene expression data.
  • the server 140 may calculate an index representing the degree of variation of the sample using the expression data of the gene set of the sample data and the expression data of the gene set of the reference data.
  • the user 10 may access the server 140 through a user terminal (PC, smart phone, etc.) and check the analysis result performed by the server 140.
  • the computer terminal 150 receives gene expression data for a sample from the genome analysis device 110 .
  • the computer terminal 150 receives reference gene expression data from the reference database 120 .
  • the computer terminal 150 may receive genetic information related to a specific GO term from the GO database 130 .
  • the specific GO term may be a single term or a plurality of terms.
  • Gene information related to a specific GO term is information on a gene set related to the corresponding GO term, and may include identification information of genes included in the corresponding gene set.
  • the computer terminal 150 may receive genetic information related to the GO term by querying the GO database 130 for a specific GO term.
  • a separate computer device may query the GO database 130 to transmit gene information related to the GO term to the computer terminal 150.
  • the computer terminal 150 extracts only information about a gene set related to the GO term from the gene expression data of the sample. In addition, the computer terminal 150 extracts only information about a gene set related to the GO term from the reference gene expression data.
  • the computer terminal 150 may calculate an index representing the degree of variation of the sample using the expression data of the gene set of the sample data and the expression data of the gene set of the reference data.
  • the user 20 may check the analysis result through the computer terminal 150 used by the user 20 .
  • the computer terminal 160 receives gene data through a medium (eg, USB, SD card, etc.) in which gene expression data for the sample generated by the genome analysis device 110 is stored.
  • a medium eg, USB, SD card, etc.
  • the computer terminal 160 receives gene expression data for a sample from the genome analysis device 110 .
  • the computer terminal 160 receives reference gene expression data from the reference database 120 .
  • the computer terminal 160 may receive genetic information related to a specific GO term from the GO database 130 .
  • the specific GO term may be a single term or a plurality of terms.
  • Gene information related to a specific GO term is information on a gene set related to the corresponding GO term, and may include identification information of genes included in the corresponding gene set.
  • the computer terminal 160 may receive genetic information related to the GO term by querying the GO database 130 for a specific GO term.
  • a separate computer device may query the GO database 130 to transmit gene information related to the GO term to the computer terminal 160.
  • the computer terminal 160 extracts only information about a gene set related to the GO term from the gene expression data of the sample. In addition, the computer terminal 160 extracts only information about a gene set related to the GO term from the reference gene expression data.
  • the computer terminal 160 may calculate an index indicating the degree of variation of the sample using the expression data of the gene set of the sample data and the expression data of the gene set of the reference data.
  • the user 30 may check the analysis result through the computer terminal 160 used by the user 30 .
  • the gene can be divided into an active state 'on' receiving transcriptional stimulation and an inactive state 'off' not receiving stimulation.
  • 2(A) is an example showing the transcriptional state of a single gene.
  • the transcriptional state t 1 of a single gene can be defined as the basis transcriptional states at multiple time points.
  • the arrow indicates the time point at which the basal transcriptional state was measured.
  • the number of off and on states of the gene was 16 and 12, respectively.
  • FIG. 2(B) is an example of a transcriptional state vector of the genes of Figure 2(A).
  • t 1 ⁇ of the gene in FIG. 2(A) is 16
  • is the density matrix of the transfer state t 1 . Since ⁇ is equal to ⁇ 2 , it is a pure state. Also, the diagonals of ⁇ are the probabilities of
  • the transcriptional state in a genome composed of two genes can be expressed as follows. Assuming a genome composed of gene 1 and gene 2, the transcriptional states of each gene are referred to as t 1 and t 2 , respectively.
  • 3(A) is an example showing the transcriptional state of two genes.
  • t 1 and t 2 indicate the transcriptional state of each gene in a plot form. Both genes have four orthogonal (mutually exclusive) basal transcriptional states (
  • the transcriptional state of one gene and the transcriptional state of another gene can be expressed as a pre-given conditional state (t 1
  • the arrow indicates the time point at which the basal transcriptional state was measured.
  • the color of the arrow indicates the observation point of each conditional state.
  • the basic transcriptional state is
  • the basal transcriptional state is
  • t 1 can be determined. Table 1 below shows the results calculated by counting the number of basal transcription states in FIG. 3(A).
  • Table 1 is in the form of a matrix, the transcriptional state T TT of the entire genome is obtained. Therefore, the density matrix ⁇ is obtained by normalizing the trace of TT TT to 1, and is as follows.
  • the density matrix ⁇ is not in a pure state.
  • is the average of the density matrix ⁇ 1 of t 1
  • 00> is the highest, and the probability of the other basic states is small.
  • FIG. 3(B) is a result of projecting the density matrix onto a plane composed of elementary transcription states with high probability in FIG. 3(A).
  • 3(B) is the result of projecting the density matrix ⁇ onto a plane composed of
  • the von Neumann entropy of ⁇ calculated in this example -Tr( ⁇ log ⁇ ) is 0.05 bits. Meanwhile, the probability p that an arbitrary transfer state t contributes to the density matrix ⁇ is defined as in Equation 3 below.
  • Equation 3 the probabilities that the transcriptional states t 1 and t 2 of the two genes contribute to the activity of the genome are calculated according to Equation 3 are 0.9859 and 0.9906, respectively.
  • 4(A) is an example showing the transcriptional state of three genes.
  • 4(A) is an example of transcriptional states of three genes, t 1 , t 2 and t 3 .
  • the arrow indicates the point at which the basal transcriptional state was observed.
  • Table 2 The results of counting the conditional states t 1
  • the density matrices ⁇ 1 , ⁇ 2 and ⁇ 3 of each gene are respectively Calculate with The density matrix ⁇ of the entire genome can be calculated as the arithmetic average of the density matrices of individual genes.
  • the density matrix ⁇ of the whole genome is shown in Equation 5 below.
  • Figure 4(B) is an example of a histogram for the probability of the basal transcription state of Figure 4(A).
  • the probability of each basal transcription state is listed along the diagonal of the density matrix ⁇ .
  • 101 ⁇ are similar.
  • the probabilities for the basal transcriptional state are non-uniform, suggesting that the degree to which the three genes are transcribed is correlated.
  • the eigenvalues of the density matrix ⁇ were 9.8130 ⁇ 10 -1 , 1.2800 ⁇ 10 -2 and 6.0000 ⁇ 10 -3 , and the rest were close to zero. Even if the probability of the basic transcription state is uniform, it cannot be said that the transcription state is uniform.
  • the transferred state can be said to be uniform when it has a uniform probability distribution in all directions of the space formed by the basic transferred state. Therefore, the uniformity of the transfer state can be confirmed by the degree of uniformity of the eigenvalues.
  • FIG. 4(C) is a result of projecting the density matrix onto a plane composed of elementary transcription states with high probability in FIG. 3(A).
  • 4(C) is the result of projecting the density matrix ⁇ onto a plane composed of two elementary transfer states
  • the non-uniformity of the eigenvalues is very large and the von Neumann entropy is also small as 0.1512 bits.
  • a genome with n genes has a total of 2 n basal state vectors.
  • Each of the n genes has a ground state vector with orthonormal properties.
  • the basis state vector indicated by The transcriptional state T of a genome composed of n genes is shown in Equation 6 below.
  • the density matrix ⁇ is TT TT , and the dimension of the density matrix is 2 n ⁇ 2 n .
  • the von Neumann entropy of the density matrix ⁇ is -Tr( ⁇ log ⁇ ), which means the non-uniformity of the probability distribution. This entropy can be referred to as the average amount of information generated by the genome.
  • v 1 > with the largest eigenvalue of ⁇ defines the properties of the information generated by the genome.
  • the genetic program contained in the genome generates information through the transcriptional state T. Accurate mathematical interpretation of the process in which the generated information is transferred to mRNA is important.
  • the genomic space in which transcriptional states are described in a genome composed of all n genes is While the space of , the mRNA corresponding to the channel through which the information is transmitted is is the genetic space of Genomic space refers to a Hilbert space having the basis state vector of the genome as a coordinate axis.
  • the real space is a three-dimensional space in the real world where chemical reactions such as generation of specific proteins through gene activation in living organisms occur. Therefore, it is impossible to directly access the genomic space to determine the activity of the genome. Therefore, a method for transforming and analyzing genomic space into sample space of gene expression data is needed.
  • the sample space is an m-dimensional space where each sample is defined as a unit vector.
  • the spatial transformation process uses two matrices U and ⁇ to reduce the dimensionality while minimizing the loss of transmitted information.
  • is a matrix for converting a genomic space into a gene space and is represented by Equation 7 below.
  • consists of 2 n and n rows and columns, respectively, and the diagonal elements up to the top n rows are 1 and the rest of the elements are 0.
  • Density matrix of transcriptional states T is 2 n eigenvectors and eigenvalues have here am.
  • U consists of the eigenvectors of ⁇
  • the basis vector of T' is equal to the eigenvectors of ⁇ .
  • the matrix ⁇ is T' of project on Therefore, the density matrix of the projected T' TT ⁇ eigenvalues of is, if the entropy of ⁇ is small enough Because of, close to Therefore, the entropy of ⁇ ' is , which is also close to the entropy of T.
  • information generated by the eukaryotic genome can be transferred to mRNAs with minimal loss.
  • NGS Next-Generation Sequencing
  • a gene expression data set can be interpreted as a distribution of n genes in the R m sample space, depending on the transcriptional state T of the genome. As mentioned above, T is was transformed into T TT ⁇ in the gene space of . In this process, the selection of a sample means a transition from gene space to sample space, and between the two spaces mediates Therefore, between genomic space and sample space, mediates This matrix consists of 2 n rows and m columns, and only the diagonal elements of the first m rows are 1 and the rest of the elements are 0.
  • the eigenvalues of the density matrix in the sample space can be obtained if the entropy of the transfer state is sufficiently small, close to Therefore, the entropy calculated in the sample group is close to however , the entropy of the gene expression data set approaches that of the transcriptional state.
  • the genome of eukaryotic cells, including human cells, has scenarios of cell operation and activates the necessary scenarios depending on the type of tissue. Therefore, scenarios activated in the same tissue can be determined by the entropy of the transcriptional state.
  • the above provides a mathematical basis for calculating the entropy of this transcriptional state from a gene expression data set of a sample group.
  • genes are involved in the expression of one trait in eukaryotic cells. If a gene group related to the expression of a specific trait is organized within the genome to regulate the expression of the trait, mRNAs produced by the gene group must encode information for expression and regulation.
  • the analyzer analyzes the sample by analyzing the gene set extracted according to the GO term for a specific trait.
  • the gene set extracted by the GO term is called the target gene set.
  • the analysis device analyzes a sample by comparing reference data and sample data for a target gene set. At this time, the characteristics of the target gene set are calculated based on entropy, SP, and LOR according to the above-described genomic state.
  • GO term screening can obtain related information by querying a DB that provides gene ontology information.
  • the researcher extracted genes involved in the life metabolism of genes in each of the selected GO terms. This allowed the researcher to define an associated gene group that includes one or more genes involved in each GO term. Genes included in each of these gene groups are the results of individual research in the field, and it cannot be said to include all genes necessary for the expression of traits, and the degree of relatedness may vary depending on the type of tissue. Therefore, the researcher set the minimum number of genes that can calculate the amount of information relatively stably as 10, and selected a GO term that includes more genes. The criterion of the number of genes for selecting GO terms may be determined empirically. Table 3 below is the GO terms selected by the researcher in relation to infinite cell division, one of the characteristic traits of tumors.
  • the gene expression data set consisted of six types of cancer tissue, normal breast tissue, breast cancer (BRCA), colon cancer (COAD), rectal cancer (READ), lung adenocarcinoma (LUAD), lung squamous cell carcinoma (LUSC), and ovarian cancer (OV). (BRNO) and normal colon tissue (CONO) data were used.
  • BRCA and the like refer to data sets that are publicly available for academic research by measuring gene expression levels from corresponding tissues in The Cancer Genome Atlas (TCGA).
  • the researcher performed a One-way ANOVA test to verify the statistical significance between the entropy and random entropy of the 78 GO term gene clusters in each tissue sample.
  • the gene set selected by the GO term includes genes selected by the entire GO term.
  • 5 is a result of one-way ANOVA test for entropy of a cell cycle-related GO term gene set. 5 is a result of comparing the entropy of a GO term gene set and an arbitrarily selected gene set among genes of each tissue sample.
  • 'GO term' represents the entropy of the GO term gene set (hereinafter referred to as GO term entropy)
  • 'random' represents the random entropy of the gene set randomly selected from the tissue sample.
  • the randomly selected gene set consists of the same number of genes as the number of genes in the GO term gene set of the corresponding tissue sample.
  • the cell cycle-related GO term entropy distribution in normal breast tissue (BRNO) and normal colon tissue (CONO) was significantly lower than the entropy distribution of GO term gene sets in tumor tissues (p-value ⁇ 10 -19 ).
  • BRNO normal breast tissue
  • CONO normal colon tissue
  • p-value 0.494
  • GO term entropy and random entropy there was a significant difference between GO term entropy and random entropy in normal tissues.
  • entropy of 78 GO terms was calculated in 8 types of tissues to examine whether there were differences between tissues in the activity of cell cycle-related GO term gene sets.
  • a linear regression was performed between the GO term entropy of two normal tissues, BRNO and CONO.
  • the slope was 0.506
  • the y-intercept was 0.241
  • the coefficient of determination r 2 was 0.558.
  • the GO term entropy in both organizations had mostly low values (BRNO: 0.088-1.147 bits, CONO: 0.101-0.767 bits). Therefore, it can be seen that the activity of the cell cycle-related GO term gene set is in a normal state in the two normal tissues, but the operation of cell cycle regulation is different.
  • Table 4 shows the results of linear regression of the GO term entropy of each tumor tissue with respect to the cell cycle-related GO term entropy of BRNO, a normal tissue.
  • the slope was greater than 1 and the y-intercept was less than 1, unlike the case of other tumor tissues.
  • the coefficient of determination r 2 was the first and second largest, respectively.
  • the GO term entropy was calculated by dividing the tumor tissue sample according to the size of the sample probability (SP).
  • SP sample probability
  • 6 is an example in which the correlation between the GO term entropy of BRCA and the GO term entropy of BRNO is divided according to the sample probability of BRCA and analyzed. 6 is a result of dividing breast cancer samples according to the size of the sample probability to calculate the cell cycle-related GO term entropy and performing linear regression on the entropy of normal breast tissue.
  • the y-intercept increased to 0.256, 0.890, and 1.908. That is, as the sample probability decreases, the cell cycle-related GO term entropy increases, suggesting that the function is lost.
  • the slopes and y-intercepts of COAD and READ entropies for the entropy of BRNO have approximate values.
  • 7 is an example of analyzing the correlation between GO term entropy of COAD and GO term entropy of READ, COAD, BRCA, and LUSC. 7 shows the results of linear regression of READ, COAD, BRCA, and LUSC entropy for COAD cell cycle-related GO term entropy. Since the magnitude of entropy means only the amount of information, the property of direction is excluded. Nevertheless, the slope and y-intercept approach 1 and 0, respectively.
  • Relative entropy is a measure that can show the degree to which one system differs from another. The researchers calculated relative entropy to determine whether the activity of the genomic system of individual GO term gene sets differs between tissues.
  • tissue y is an example of the relative entropy of tissue y to tissue x.
  • the relative entropy of one tissue (x) to another tissue (y) shows the difference in properties between the two tissues.
  • tissue x and tissue y have density matrices of ⁇ x and ⁇ y , respectively.
  • the first eigenvector of each density matrix and is associated with the attribute in which the gene set of the corresponding GO term i is activated in each tissue. That is, the relative entropy S ( ⁇ y ⁇ x ) expressed by Equation 9 below represents the degree to which the activity in tissue y varies with respect to the activation of the gene set of the corresponding GO term i in tissue x.
  • the factors that increase the relative entropy of one tissue to another for any set of GO term genes are: First, the entropy of the two tissues is different. The second is because the biological properties of the corresponding GO term gene sets in the two tissues are different. In FIG. 8 , compared to the density matrix of tissue x, the density matrix of tissue y has a shape closer to a circle, which means that entropy increases. It also shows that the direction of the first eigenvector of tissue y is different compared to the first eigenvector of tissue x. On the other hand, angular divergence (AD) means that the biological properties are different in the activation of the corresponding GO term gene set.
  • AD angular divergence
  • r 2 was 0.992, which was close to 1, and the slope was also 1.016, which was close to 1. Also, the intercept is 0.128, which is close to zero.
  • r 2 , slope and intercept were 0.802, 1.175 and 1.948 between CONO and READ, respectively, and r 2 , slope and intercept were 0.823, 1.167 and 1.747 between CONO and COAD, respectively.
  • r 2 , slope and intercept were 0.8641, 1.5660 and 1.6776 between BRCA and READ, respectively, and r 2 , slope and intercept were 0.8841, 1.5645 and 1.4950 between BRCA and COAD, respectively.
  • FIG. 10 is an example of analyzing the correlation between GO term angle divergence of each organization for BRNO.
  • FIG. 10 is a result of calculating the cell cycle-related GO term angle divergence of each tissue with respect to normal breast tissue, and performing a forward regression between GO term angle divergence for BRNO of two randomly selected tissues.
  • angular divergence AD
  • r 2 , slope and intercept between COAD and READ were 0.9745, 0.9690, and 1.8874, respectively.
  • the r 2 , slope and intercept between CONO and READ were 0.6762, 0.9168 and 16.8844, respectively.
  • the r 2 , slope and intercept between CONO and COAD were 0.7236, 0.9662 and 14.79328, respectively.
  • the r 2 , slope and intercept between BRCA and READ were 0.6023, 1.2077 and 17.0596, respectively.
  • r 2 , slope and intercept between BRCA and COAD were 0.6671, 1.2949 and 14.4069, respectively.
  • 11 is an example of analyzing the correlation between the GO term relative entropy and angular divergence of BRCA for BRNO and the GO term relative entropy and angular divergence of LUSC by dividing them according to the sample probability of BRCA.
  • 11(A) shows the result of performing linear regression on the cell cycle-related GO term relative entropy for BRNO and the GO term relative entropy for LUSC in the BRCA low SP and high SP sample groups.
  • the coefficient of determination was 0.890 and the slope was 0.926, which was close to 1.
  • the slope of the linear regression of the angle divergence for the high SP sample group of breast cancer and the BRNO of LUSC was 0.441, which was larger than the slope of the relative entropy.
  • the GO term was created as a product of various biological studies. Therefore, it has important biological and medical significance.
  • GSP GO sample probability
  • ⁇ 14 is an example of displaying the probability of a sample in the genetic space of a genomic system having a density matrix ⁇ .
  • the dimension of the density matrix ⁇ in the genetic space R n formed by n genes having a common gene ontology is n ⁇ n. Therefore, ⁇ is represented as an ellipsoid consisting of n eigenvectors and eigenvalues for each in genetic space.
  • normal tissue samples are eigenvectors with the largest eigenvalues in a given genetic space. distributed along The probability p i for the density matrix ⁇ of sample i is is given as is the expression vector determined by the gene expression data of sample i. go The closer to , the larger pi becomes. Let p i be the sample probability. on the other side Samples that deviate from the normal population will therefore have a reduced sample probability. That is, the degree of transformation of the tumor sample from the normal tissue can be estimated as a sample probability.
  • the researcher calculated the density matrix of all BRNO genes to determine the degree to which the genomic system of individual patients with BRCA deviated from BRNO, and then calculated the sample probabilities in BRNO and BRCA individual samples.
  • Clinical information includes information such as estrogen, progesterone receptors and HER2 (Human epidermal growth factor receptor 2) expression, survival, and time of death for each breast cancer patient.
  • Mutation information includes information such as genes that cause mutations, locations in the genome, and types of mutations for each patient.
  • gene expression data sets of 28 normal breast tissue (BRNO) samples determined to be pathologically normal during the tissue collection process of breast cancer patients were used. The researcher cannot acquire individual patient information except for the academic and clinical information of the samples (tissues) provided by TCGA, and therefore all analysis samples (tissues) are named with serial numbers (e.g., BRCA No. 1 patient, etc.) .
  • the sample probability was the smallest at 0.155 in patients with BRCA No. 4 and the highest at 0.657 in patients with BRCA No. 41.
  • the sample probability of patient 41 is within the range of 0.550 - 0.791 of the normal breast tissue BRNO sample probability.
  • sample probabilities cannot be said to accurately reflect the state of the genomic system of individual samples.
  • TNBC triple negative breast cancer
  • non-TNBC non-TNBC with a one-way anova
  • the researcher calculated the sample probabilities of the BRNO and BRCA samples for all genes that included one or more of the 78 cell cycle-related GO terms in the annotation, not for all genes. That is, the researcher calculated the sample probability in the gene space formed by the gene set sampled with the entire cell cycle-related GO term for the BRNO and BRCA samples (hereinafter, the entire cell cycle-related GO term gene set).
  • HER2 human epidermal growth factor receptor 2
  • GSP GO sample probability
  • GSP The researcher calculated the GSP of BRCA samples against the density matrix of BRNO in 78 cell cycle-related GO terms.
  • GSP can be expressed as in Equation 10 below.
  • G ⁇ means an expression matrix of a gene set included in a specific GO term gene set ⁇ of normal tissue.
  • s i ⁇ means a gene expression vector included in ⁇ in the specific sample data s i .
  • GSP represents a genomic system variation of a specific sample tissue identified based on a specific GO term gene set of normal tissue.
  • FIG. 15 is an example of calculating the GSP of BRNO and BRCA samples for the density matrix of BRNO and the GSP of BRNO and BRCA samples for the density matrix of BRCA in 78 cell cycle-related GO terms.
  • the GSP of the BRNO sample for the density matrix of BRNO has a narrow distribution range
  • the GSP of the BRCA sample has a wide distribution range.
  • the GSP of the BRNO samples was calculated for the density matrix of BRCA in each GO term, and after randomly selecting the same number of BRCA samples, the GSP was calculated to compare the distribution areas.
  • FIG. 15(B) the GSP distribution area of the BRNO sample for the BRCA density matrix was reduced, but the width of the distribution was also narrower than that of the BRCA GSP distribution area. The reason is as shown in FIG. 16 .
  • 16 is an example of the GSP distribution of normal tissue samples and GSP distributions of tumor samples for density matrices of normal genome and tumor genome.
  • 16(A) shows the GSP distribution area of a normal tissue sample and the GSP distribution area of a tumor sample with respect to the density matrix of a normal genome.
  • 16(B) shows the GSP distribution area of the normal tissue sample and the GSP distribution area of the tumor sample with respect to the density matrix of the tumor genome.
  • the GSPs of normal tissue samples relative to the tumor genome are degraded, but the GSPs in both genomes are narrowly distributed.
  • the GSPs of the tumor samples had a wide distribution in both genomes.
  • the wide distribution range of GSP in tumor samples means that mutations in the GO term-related genomic system can occur in various ways in each tumor sample.
  • FIG. 16(A) shows that the GSP distribution of BRCA samples in all GO term gene sets is significantly (p-value ⁇ 10 -5 ) lower than that of BRNO samples. In addition, the distribution of probabilities of BRCA is wider than that of BRNO, indicating that the changed cell cycle characteristics vary greatly between samples.
  • Figure 15 shows the GSP for patients 4, 18 and 41 (samples). In the case of patient 41 with a large sample probability (SP) among the BRCA samples, the GSP values in all GO term gene sets tended to be large, but the values were slightly lower than those of normal breast tissue (BRNO). On the other hand, the GSP of patient 4 with TNBC showed the lowest value or a value close to the lowest value in most of the GO term gene sets. In the case of patient #18, who is positive for estrogen and progesterone receptors, the GSP is higher than that of patient #4, but overall the value is lower.
  • SP sample probability
  • ER and PR blockers may be useful in regulating the cell cycle, and even if ER and PR are expressed, the function of the blockers will be limited in patients with low GSP values.
  • HSGO 3, 18, 2, 20, 39, 15, 32, 55, 33, 4, 75, 35, 7, 69, 29, 22, 28, 74, and 54 (p-value ⁇ 5.0 ⁇ 10 -9 ).
  • the GO terms are listed in order of decreasing significance of the GSP difference between the two groups by comparing the GSP distribution in the sample group in which the number of mutations is greater than or equal to 90 and the group in which the number of mutations is less than or equal to 90.
  • FIG. 17 is an example of performing hierarchical clustering of BRCA samples based on GSPs for specific GO terms.
  • FIG. 17 is a result of hierarchical clustering of BRCA samples based on GSP of the gene set of the specific GO terms. The clustering result hierarchically classifies all samples, and the largest group is divided into the left group and the right group of the root.
  • GSP can be an index for evaluating tumor-like phenotypes for the GO term gene set. That is, for a GO term gene set for a specific sample (patient), the value of GSP can provide information on tumor onset, tumor malignancy, tumor treatment target, and the like.
  • a gene to be analyzed is called a target gene.
  • the odds ratio of sample probabilities of samples before and after removal of a particular gene of interest from a genomic system in an individual patient's sample indicates the degree to which the gene of interest is involved in deviation from normal.
  • a genogroup G consisting of n genes is an n-dimensional gene space form Within this space, the expression data of G measured in sample i is the expression vector define Within this gene space, the density matrix ⁇ of gene expression data measured in normal samples defines the emerging traits of that gene group.
  • 18 is an example illustrating the LOR of a specific gene in an individual sample for a genomic system with a density matrix ⁇ .
  • the activity level of G in one sample i can be expressed as sample probability p i as shown in FIG. 18 .
  • the degree to which the sample probability p i ⁇ j (sample probability when gene j is excluded from G) of sample i is shifted from p i can be known as LOR ij for the sample probability represented by Equation 11 below.
  • LOR ij can be said to be the contribution of gene j in sample i to the genomic system composed of gene group G.
  • p i is the sample probability of G of sample i
  • p i ⁇ j is the sample probability of genes other than gene j in G of sample i.
  • LOR represents the degree to which each gene in an individual sample in a tumor is associated with disruption of the genomic system.
  • the LOR for a gene group (GO term gene set) related to the GO term among the genes of sample i may be calculated.
  • the LOR targeting the GO term gene set is named GLOR.
  • GLOR represents the contribution of gene j to the GO term gene set.
  • GLOR can be calculated by Equation 11 above, where p i is sample i and G is the sample probability for the GO term gene set.
  • the researchers calculated the GLOR for each of the cell cycle-related GO term gene sets in breast cancer tissue (BRCA).
  • BRCA breast cancer tissue
  • the researchers determined the extent to which each gene in individual BRCA samples was involved in the deviation of the genomic system of GO term 6 from its steady state.
  • Gene expression data measured using microarray technology which means the mRNA fluctuation rate of each gene LER is data refined through the log2 LOWESS normalization process that uses the mRNA fluctuation rate of each gene as a standard LER of individual samples The distribution can be compared to the control group and the experimental group in each gene, but it is difficult to suggest biological significance.
  • Figure 19 is an example of comparing the GLOR and LER of each gene for the genomic system of a specific GO term in BRCA and BRNO samples.
  • Figure 19 (A) is the result of calculating the GLOR of each gene for the genomic system of GO term 6 in BRCA and BRNO samples
  • Figure 19 (B) is the gene belonging to GO term 6 in BRCA and BRNO samples
  • the number of genes showing a significant (p ⁇ 0.05) difference between BRCA and LER of BRNO was 122 out of 163.
  • LER mutation was not related to GO, and the cell In contrast, in Fig.
  • GLOR showed a significant difference between BRCA and BRNO in 108 genes.
  • the LER distribution range of each gene is BRNO
  • IQR interquartile range
  • GLOR is a calculation of the odds ratio of sample probability by one gene in the GO term gene set
  • the LOR of the corresponding gene is inevitably different depending on the GO term.
  • ASPM it is included in GO terms 6 and 46 (mitotic nuclear division).
  • GO term 6's genomic system does not contribute significantly on average to transformation, whereas GO term 46's In genomic systems, it significantly contributes to the collapse of genomic systems.
  • Figure 20 is an example of GLOR and LER of gene ASPM for cell cycle-related GO terms 6 and 46 genomic systems in BRCA and BRNO samples.
  • 20(A) is LER
  • FIG. 20(B) is an example of GLOR.
  • the LER distribution cannot vary according to GO terms, but GLOR shows different distributions in GO terms 6 and 46 in both BRNO and BRCA.
  • the GLOR of individual samples also differs between the two GO terms.
  • the process of analyzing a sample using the aforementioned GSP and GLOR will be summarized. Meanwhile, the researcher studied the cell cycle-related GO term while using breast cancer samples.
  • the methodology described above is not limited to specific phenotypes (diseases) or specific GO terms. Therefore, the sample analysis method described below can indicate the degree of variation of a sample from normal using a gene set determined by a certain GO term for various phenotypes.
  • 21 is an example of a process 200 of calculating an analysis index for a Gene Ontology-based sample. 21 illustrates an analysis device as an example of a server.
  • the analyzer receives gene expression data and specific GO terms of the sample (210). Specific GO terms may vary depending on the type of disease, treatment target, and the like. A GO term may be a plurality of terms.
  • the analyzer queries the GO database for the input GO term and receives information on the corresponding GO term gene set (220).
  • the analyzer extracts expression data of genes included in the GO term gene set from the gene expression data of the sample (230).
  • the GO term may be a single term or a plurality of terms.
  • the extracted genes include genes related to each of the plurality of GO terms.
  • the analyzer receives expression data (reference gene set expression data) of genes included in the GO term gene set from the normal tissue gene database (240).
  • the analysis device receives normal tissue gene expression data from the normal tissue gene database, and extracts expression data (reference gene set expression data) of genes included in the GO term gene set from the received gene expression data (240).
  • the GO term may be a single term or a plurality of terms.
  • the extracted genes include genes related to each of the plurality of GO terms.
  • the analyzer calculates a sample probability (GSP) using the gene expression data of the GO term gene set of the sample and the expression data of the reference gene set (250).
  • the analyzer may calculate GSP for each single GO term. Alternatively, the analyzer may calculate GSP for a plurality of GO terms.
  • the analysis device may derive analysis results (variation level, malignancy level of disease, treatment target, etc.) for the sample based on the calculated GSP.
  • the analyzer calculates GLOR using the gene expression data of the GO term gene set of the sample and the expression data of the reference gene set (260). As described in Equation 10, the analyzer may calculate GLOR using sample probabilities of genes remaining after removing a gene from the GO term gene set of the sample and sample probabilities of the entire gene set. The analyzer can calculate GLOR for each single GO term. Alternatively, the analyzer may calculate GLOR for a plurality of GO terms. The analysis device may derive analysis results (degree of mutation, degree of malignancy of disease, treatment target, etc.) for the sample based on the calculated GLOR.
  • 21 illustrates an analysis device as an example of a server. Unlike FIG. 21 , in FIG. 22 , the reference tissue is a tumor tissue rather than a normal tissue. 21 is an example in which the analyzer calculates GSP or LOR for a sample in relation to a normal tissue. 22 is an example in which the analyzer calculates GSP or LOR for a sample in relation to the sample and the tumor tissue. Therefore, the GSP calculated by the analysis device provides information about the degree of similarity of the sample to the tumor tissue.
  • the LOR calculated by the analysis device represents the degree to which a certain gene in a sample contributes to a sample tissue having characteristics similar to those of a tumor tissue. Such results can be obtained by using reference data of tumor tissue instead of normal tissue in the above-described GSP and LOR calculation process.
  • the analyzer receives gene expression data and specific GO terms of the sample (310). Specific GO terms may vary depending on the type of disease, treatment target, and the like. A GO term may be a plurality of terms.
  • the analyzer queries the GO database for the input GO term and receives information on the corresponding GO term gene set (320).
  • the analyzer extracts expression data of genes included in the GO term gene set from the gene expression data of the sample (330).
  • the GO term may be a single term or a plurality of terms.
  • the extracted genes include genes related to each of the plurality of GO terms.
  • the analyzer receives expression data (reference gene set expression data) of genes included in the GO term gene set from the tumor tissue gene database (340).
  • the analysis device receives gene expression data of the tumor tissue from the tumor tissue gene database, and extracts expression data (reference gene set expression data) of genes included in the GO term gene set from the received gene expression data (340).
  • the GO term may be a single term or a plurality of terms.
  • the extracted genes include genes related to each of the plurality of GO terms.
  • the analyzer calculates a sample probability (GSP) using the gene expression data of the GO term gene set of the sample and the expression data of the reference gene set (350).
  • the analyzer may calculate GSP for each single GO term. Alternatively, the analyzer may calculate GSP for a plurality of GO terms.
  • the analysis device may derive analysis results (variation level, malignancy level of disease, treatment target, etc.) for the sample based on the calculated GSP.
  • the analyzer calculates GLOR using the gene expression data of the GO term gene set of the sample and the expression data of the reference gene set (360). As described in Equation 10, the analyzer may calculate GLOR using sample probabilities of genes remaining after removing a gene from the GO term gene set of the sample and sample probabilities of the entire gene set. The analyzer can calculate GLOR for each single GO term. Alternatively, the analyzer may calculate GLOR for a plurality of GO terms. The analysis device may derive analysis results (degree of mutation, degree of malignancy of disease, treatment target, etc.) for the sample based on the calculated GLOR.
  • the analysis device 400 is a device corresponding to the analysis device 140 , 150 or 160 of FIG. 1 .
  • the analysis device 400 may be physically implemented in various forms.
  • the analysis device 400 may have a form of a PC, a smart device, a server on a network, or a chipset dedicated to data processing.
  • the analysis device 400 may include a storage device 410, a memory 420, an arithmetic device 430, an interface device 440, a communication device 450, and an output device 460.
  • the storage device 410 may store programs or source codes necessary for data processing.
  • the storage device 410 may store gene expression data of the sample.
  • the storage device 410 may store gene expression data (reference gene expression data) for normal tissue or tumor tissue.
  • the storage device 410 may store analysis results and information obtained by visually processing the analysis results.
  • the memory 420 may store data and information generated in the course of analyzing gene ontology-based genetic data by the analysis device 400 .
  • the interface device 440 is a device that receives certain commands and data from the outside.
  • the interface device 440 may receive gene expression data of the sample.
  • the interface device 440 may receive reference gene expression data.
  • the interface device 440 may receive gene expression data and/or reference gene expression data of a sample from a physically connected input device or an external storage device.
  • the interface device 440 may receive a GO term.
  • the interface device 440 may receive gene set information related to specific GO term(s).
  • the communication device 450 refers to a component that receives and transmits certain information through a wired or wireless network.
  • the communication device 450 may receive gene expression data of a sample from an external object.
  • the communication device 450 may receive reference gene expression data from an external object.
  • the communication device 450 may receive a GO term.
  • the communication device 450 may receive gene set information related to specific GO term(s).
  • the communication device 450 may transmit an analysis result of the sample to an external object.
  • the communication device 450 or interface device 440 is a device that receives certain data or commands from the outside.
  • the communication device 450 or the interface device 440 may be referred to as an input/output device.
  • the communication device 450 or the interface device 440 may be referred to as an input device.
  • the output device 460 is a device that outputs certain information.
  • the output device 460 may output interfaces and analysis results required for data processing.
  • the computing device 430 may preprocess the gene expression data of the sample and/or the reference gene expression data to a certain extent.
  • the computing device 430 may extract expression data of genes belonging to the gene set related to the GO term from among the gene expression data of the sample based on the information of the gene set related to the GO term.
  • the computing device 430 may extract expression data of genes belonging to the GO term related gene set from among the gene expression data with reference to the GO term related gene set information.
  • the GO term includes at least one term.
  • the computing device 430 may calculate the GSP using the gene expression data of the sample and the reference gene expression data for the gene set related to the GO term.
  • the GSP calculation process is as described above.
  • the calculation device 430 may calculate GLOR, which is information that any one gene contributes to the degree of mutation, targeting the gene set related to the GO term.
  • the GLOR calculation process is as described above.
  • the computing device 430 may derive an analysis result (mutation level, malignancy level of disease, treatment target, etc.) of the sample based on the GSP and/or GLOR of the sample.
  • the arithmetic device 430 may be a device such as a processor, an AP, or a chip in which a program is embedded that processes data and performs certain arithmetic operations.
  • the method for analyzing genome data of a sample as described above may be implemented as a program (or application) including an executable algorithm that can be executed on a computer.
  • the program may be stored and provided in a temporary or non-transitory computer readable medium.
  • a non-transitory readable medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and can be read by a device.
  • the various applications or programs described above are CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM (read-only memory), PROM (programmable read only memory), EPROM (Erasable PROM, EPROM)
  • ROM read-only memory
  • PROM programmable read only memory
  • EPROM Erasable PROM, EPROM
  • it may be stored and provided in a non-transitory readable medium such as EEPROM (Electrically EPROM) or flash memory.
  • Temporary readable media include static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDR SDRAM), and enhanced SDRAM (Enhanced SDRAM). SDRAM, ESDRAM), Synchronous DRAM (Synclink DRAM, SLDRAM) and Direct Rambus RAM (DRRAM).
  • SRAM static RAM
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDR SDRAM double data rate SDRAM
  • Enhanced SDRAM Enhanced SDRAM
  • SDRAM ESDRAM
  • Synchronous DRAM Synchronous DRAM
  • SLDRAM Direct Rambus RAM
  • DRRAM Direct Rambus RAM

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

유전자 온톨로지 기반 유전자 데이터 분석 방법은 분석장치가 샘플의 유전자 발현 데이터 및 참조 조직의 유전자 발현 데이터를 입력받는 단계, 상기 분석장치가 적어도 하나의 유전자 온톨로지 텀에 관련된 유전자 세트 정보를 입력받는 단계, 상기 분석장치가 상기 샘플의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제1 유전자 발현 데이터 및 상기 참조 조직의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제2 유전자 발현 데이터를 추출하는 단계 및 상기 분석장치가 상기 제1 유전자 발현 데이터 및 상기 제2 유전자 발현 데이터를 대상으로 엔트로피를 연산하여 상기 참조 조직 기준으로 상기 샘플의 변이 정도를 연산하는 단계를 포함한다.

Description

유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치
이하 설명하는 기술은 유전자 온톨로지로 산출되는 유전자들의 발현 정보를 기준으로 샘플의 유전자 데이터를 분석하는 기법에 관한 것이다.
전통적으로 악성종양과 같은 질환은 원인이 게놈에 있을 것으로 추정하며, 따라서 악성종양을 극복하기 위한 연구는 게놈에 집중되어 있다. 분자생물학의 발달로 전통적 항암 화학요법의 부작용을 줄이고 암세포만을 선택적으로 파괴하는 분자표적 치료가 가능하게 되었다. 그러나 악성종양에 대한 완벽한 치료는 아직 불가능하다. 이는 게놈의 기능 및 작용기전에 대한 이해의 부족으로부터 기인한다. 게놈에 대한 전통적인 연구방법은 생화학적 기술에 기반한 것으로 화학적 기능 이상으로 이해를 확장하기에는 한계가 있다.
이하 설명하는 기술은 샘플의 유전자들의 전사 발현 정보를 기준으로 샘플을 분석하는 기법을 제공하고자 한다. 이하 설명하는 기술은 유전자 온톨로지를 기준으로 결정되는 유전자들을 대상으로 유전자의 발현 정보를 유전자 공간에서 해석하여 샘플을 분석하는 기법을 제공하고자 한다.
유전자 온톨로지 기반 유전자 데이터 분석 방법은 분석장치가 샘플의 유전자 발현 데이터 및 참조 조직의 유전자 발현 데이터를 입력받는 단계, 상기 분석장치가 적어도 하나의 유전자 온톨로지 텀(gene ontology term)에 관련된 유전자 세트 정보를 입력받는 단계, 상기 분석장치가 상기 샘플의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제1 유전자 발현 데이터 및 상기 참조 조직의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제2 유전자 발현 데이터를 추출하는 단계 및 상기 분석장치가 상기 제1 유전자 발현 데이터 및 상기 제2 유전자 발현 데이터를 대상으로 엔트로피를 연산하여 상기 참조 조직 기준으로 상기 샘플의 변이 정도를 연산하는 단계를 포함한다.
유전자 온톨로지 기반 유전자 데이터를 분석하는 분석장치는 적어도 하나의 유전자 온톨로지 텀에 관련된 유전자 세트 정보를 입력받는 입력장치, 샘플의 유전자 발현 데이터 및 참조 조직의 유전자 발현 데이터를 저장하는 저장장치 및 상기 샘플의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제1 유전자 발현 데이터 및 상기 참조 조직의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제2 유전자 발현 데이터를 추출하고, 상기 제1 유전자 발현 데이터 및 상기 제2 유전자 발현 데이터를 대상으로 엔트로피를 연산하여 상기 참조 조직 기준으로 상기 샘플의 변이 정도를 연산하는 연산장치를 포함한다.
이하 설명하는 기술은 유전자 발현 정보만을 이용하여 샘플의 표현형을 효과적으로 분석하는 새로운 접근법이다. 이하 설명하는 기술은 종전에 활용되었던 유전자 온톨로지 정보를 실제 질환 치료에 활용할 수 있는 정보로 해석하여 특정 질환에 대한 진단 및 치료법을 제공한다.
도 1은 유전자 온톨로지 기반 샘플 분석 시스템에 대한 예이다.
도 2(A)는 단일 유전자의 전사 상태를 나타내는 예이다.
도 2(B)는 도 2(A)의 유전자들의 전사 상태 벡터의 예이다.
도 3(A)는 두 개의 유전자들 전사 상태를 나타내는 예이다.
도 3(B)는 도 3(A)에서 확률이 높은 기초 전사 상태들로 이루어진 평면에 밀도 행렬을 투사한 결과이다.
도 4(A)는 3개 유전자의 전사 상태를 나타내는 예이다.
도 4(B)는 도 4(A)의 기초 전사 상태의 확률에 대한 히스토그램의 예이다.
도 4(C)는 도 3(A)에서 확률이 높은 기초 전사 상태들로 이루어진 평면에 밀도 행렬을 투사한 결과이다.
도 5는 세포 주기 관련 GO 텀 유전자 세트의 엔트로피에 대한 일원분산분석 검정 결과이다.
도 6은 BRCA의 GO 텀 엔트로피와 BRNO의 GO 텀 엔트로피 사이의 상관성을 BRCA의 샘플 확률에 따라 나누어 분석한 예이다.
도 7은 COAD의 GO 텀 엔트로피와 READ, COAD, BRCA, LUSC GO 텀 엔트로피 사이의 상관성을 분석한 예이다.
도 8은 조직 x에 대한 조직 y의 상대 엔트로피의 예이다.
도 9는 BRNO에 대한 각 조직들의 GO 텀 상대 엔트로피 사이의 상관성을 분석한 예이다.
도 10은 BRNO에 대한 각 조직들의 GO 텀 각도 발산 사이의 상관성을 분석한 예이다.
도 11은 BRNO에 대한 BRCA의 GO 텀 상대 엔트로피 및 각도 발산과 LUSC의 GO 텀 상대 엔트로피 및 각도 발산 사이의 상관성을 BRCA의 샘플 확률에 따라 나누어 분석한 예이다.
도 12는 BRNO에 대한 각 조직들의 GO 텀 상대 엔트로피를 비교한 예이다.
도 13은 BRNO에 대한 각 조직들의 GO 텀 각도 발산을 비교한 예이다.
도 14는 밀도 행렬 ρ를 갖는 게놈 시스템의 유전자 공간에 샘플의 확률을 표시한 예이다.
도 15는 세포 주기 관련 GO 텀 78개에서 BRNO의 밀도 행렬에 대한 BRNO와 BRCA 샘플들의 GSP 및 BRCA의 밀도 행렬에 대한 BRNO와 BRCA 샘플들의 GSP를 계산한 예이다.
도 16은 정상 게놈 및 종양 게놈의 밀도 행렬에 대한 정상 조직 샘플의 GSP 분포와 종양 샘플의 GSP 분포의 예이다.
도 17은 특정 GO 텀들에 대한 GSP를 기준으로 BRCA 샘플의 계층적 클러스터링을 수행한 예이다.
도 18은 밀도 행렬 ρ를 갖는 게놈 시스템에 대하여 개별 샘플에서 특정 유전자의 LOR을 설명하는 예이다.
도 19는 BRCA 및 BRNO 샘플들에서 특정 GO 텀의 게놈 시스템에 대한 각 유전자의 GLOR를 LER과 비교한 예이다.
도 20은 BRCA 및 BRNO 샘플들에서 세포 주기 관련 GO 텀 6번과 46번 게놈 시스템에 대한 유전자 ASPM의 GLOR과 LER의 예이다.
도 21은 유전자 온톨로지 기반 샘플에 대한 분석 지표를 산출하는 과정에 대한 예이다.
도 22는 유전자 온톨로지 기반 샘플에 대한 분석 지표를 산출하는 과정에 대한 다른 예이다.
도 23은 유전자 온톨로지 기반 유전자 데이터를 분석하는 분석 장치에 대한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명에서 사용되는 용어를 먼저 설명한다.
샘플은 기본적으로 살아 있는 개체를 의미할 수 있다. 개체는 기본적으로 인간, 동물, 식물, 미생물 등을 포함하는 의미이다. 다만, 이하 설명에서 샘플은 인간을 대상으로 한다고 가정한다. 샘플은 분석 대상인 개체에서 취득한 시료로 대표될 수 있다. 따라서, 샘플은 개인, 개인의 조직, 개인의 세포 집합 등과 같은 의미를 포함한다.
샘플 데이터는 샘플의 유전자 발현 데이터를 의미한다.
유전자 발현은 유전자가 RNA 산물로 전사되는 것을 의미한다.
유전자 발현 데이터는 유전자들의 발현 정도를 나타내는 데이터 세트이다. 한편, 유전자 발현 데이터는 마이크로 어레이(microarray), NGS(Next Generation Sequencing) 등과 같은 기법으로 산출될 수 있다.
유전자 온톨로지(gene ontology, GO)는 생물(인간 포함)의 유전자 및 유전자 산물의 속성을 분석하는 전산화된 데이터 모델에 해당한다. 유전자 온톨로지는 유전자 관련 정보에 대한 분류를 제공한다. 유전자 온톨로지는 공개 데이터베이스 형태로 구축되어 있다. 유전자 온톨로지는 일반적으로 분자 수준에서의 기능(Molecular Function), 생명 대사(Biological Process) 및 세포의 구성 요소(Cellular Component)와 같은 독립된 수준(서브 온톨로지)으로 정의된다. 예컨대, 유전자 산물인 사이토그롬 c(cytochrome c)는 분자 기능 측면에서 산화환원효소 활성, 생명 대사 측면에서 산화적 인산화, 세포 구성 측면에서 미토콘드리아 기질로 설명될 수 있다.
유전자 온톨로지 텀(GO term)은 유전자 및 유전자 산물을 유전자 온톨로지로 표현하는 방식이다. GO 텀은 식별자, 정의, 전술한 서브 온톨로지들, 다른 텀과의 관계를 포함한다. 유전자 온톨로지는 GO 텀을 노드로 갖는 그래프 형태로 표현될 수도 있다. 즉, 유전자 내지 유전자 산물이 다른 객체와의 연관성으로 표현되는 것이다.
엔트로피는 복수 유전자의 기능적 단합도 및 특성의 활성도를 나타낸다.
샘플 확률(sample probability, 이하 SP로 표기함)은 일정한 유전자군에 속한 유전자들에 대한 각 샘플의 확률을 의미한다. 예컨대, 샘플 확률은 샘플의 전체 유전자들을 대상으로 정상 조직을 기준으로 특정 샘플의 변이 정도 나타내는 정량화된 값에 해당할 수 있다.
로그 승산비(Log Odds Ratio, 이하 LOR로 표기함)는 특정 유전자를 기준으로, 해당 유전자가 유전자군에 있는 경우의 제1 확률과 해당 유전자가 해당 유전자군에 없는 경우의 제2 확률의 비율에 대한 로그값이다. LOR는 특정 유전자가 게놈 시스템에 미치는 영향을 나타낼 수 있다.
이하 유전자 온톨로지 기반의 샘플(유전자 데이터) 분석은 일정한 분석 장치에서 수행될 수 있다. 분석장치는 입력 데이터를 처리하고 연산할 수 있는 컴퓨터 장치를 의미한다. 예컨대, 분석장치는 PC, 스마트폰, 서버, 프로그램이 임베드된 칩셋 등과 같은 장치 중 어느 하나 일 수 있다.
도 1은 유전자 온톨로지 기반 샘플 분석 시스템(100)에 대한 예이다. 도 1에서 분석장치(140, 150, 160)가 샘플의 유전자 데이터를 분석한다. 도 1에서 분석장치는 서버(140) 및 컴퓨터 단말(150, 160) 형태로 도시하였다.
유전체 분석장치(110)는 특정 질환을 갖는 환자의 샘플을 분석하여 유전자 발현 데이터를 생성한다. 유전자 데이터는 DNA 또는 RNA 서열에 대한 데이터일 수 있다. 유전체 분석장치(110)는 디지털 데이터 형태의 유전자 발현 데이터를 생산한다.
참조 데이터베이스(120)는 특정 질환에 대한 참조 유전자 발현 데이터를 저장한다. 참조 유전자 발현 데이터는 정상인들의 유전자 발현 데이터일 수 있다.
GO 데이터베이스(130)는 유전자 온톨로지 정보를 저장한다. GO 데이터베이스(130)는 특정 GO 텀에 대하여 관련된 유전자(들)의 정보를 출력할 수 있다.
서버(140)는 유전체 분석장치(110)로부터 샘플에 대한 유전자 발현 데이터를 수신한다. 서버(140)는 참조 데이터베이스(120)로부터 참조 유전자 발현 데이터를 수신한다.
서버(140)는 GO 데이터베이스(130)로부터 특정 GO 텀에 관련된 유전자 정보를 수신할 수 있다. 여기서, 특정 GO 텀은 단일 텀일 수도 있고, 복수의 텀일 수도 있다. 특정 GO 텀에 관련된 유전자 정보는 해당 GO 텀에 관련된 유전자 세트에 대한 정보로서, 해당 유전자 세트에 포함된 유전자들의 식별 정보를 포함할 수 있다.
서버(140)가 특정 GO 텀을 GO 데이터베이스(130)에 쿼리하여 GO 텀에 관련된 유전자 정보를 수신할 수 있다. 또는, 별도의 컴퓨터 장치가 GO 데이터베이스(130)에 쿼리하여 GO 텀에 관련된 유전자 정보를 서버(140)에 전달되게 할 수도 있다.
서버(140)는 샘플의 유전자 발현 데이터에서 GO 텀에 관련된 유전자 세트에 대한 정보만을 추출한다. 또한, 서버(140)는 참조 유전자 발현 데이터에서 GO 텀에 관련된 유전자 세트에 대한 정보만을 추출한다. 서버(140)는 샘플 데이터의 유전자 세트의 발현 데이터 및 참조 데이터의 유전자 세트의 발현 데이터를 이용하여 샘플의 변이 정도를 나타내는 지표를 연산할 수 있다. 사용자(10)는 사용자 단말(PC, 스마트폰 등)을 통해 서버(140)에 접속하여, 서버(140)가 수행한 분석 결과를 확인할 수 있다.
컴퓨터 단말(150)은 유전체 분석장치(110)로부터 샘플에 대한 유전자 발현 데이터를 수신한다. 컴퓨터 단말(150)은 참조 데이터베이스(120)로부터 참조 유전자 발현 데이터를 수신한다.
컴퓨터 단말(150)은 GO 데이터베이스(130)로부터 특정 GO 텀에 관련된 유전자 정보를 수신할 수 있다. 여기서, 특정 GO 텀은 단일 텀일 수도 있고, 복수의 텀일 수도 있다. 특정 GO 텀에 관련된 유전자 정보는 해당 GO 텀에 관련된 유전자 세트에 대한 정보로서, 해당 유전자 세트에 포함된 유전자들의 식별 정보를 포함할 수 있다.
컴퓨터 단말(150)은 특정 GO 텀을 GO 데이터베이스(130)에 쿼리하여 GO 텀에 관련된 유전자 정보를 수신할 수 있다. 또는, 별도의 컴퓨터 장치가 GO 데이터베이스(130)에 쿼리하여 GO 텀에 관련된 유전자 정보를 컴퓨터 단말(150)에 전달되게 할 수도 있다.
컴퓨터 단말(150)은 샘플의 유전자 발현 데이터에서 GO 텀에 관련된 유전자 세트에 대한 정보만을 추출한다. 또한, 컴퓨터 단말(150)은 참조 유전자 발현 데이터에서 GO 텀에 관련된 유전자 세트에 대한 정보만을 추출한다. 컴퓨터 단말(150)은 샘플 데이터의 유전자 세트의 발현 데이터 및 참조 데이터의 유전자 세트의 발현 데이터를 이용하여 샘플의 변이 정도를 나타내는 지표를 연산할 수 있다. 사용자(20)는 자신이 사용하는 컴퓨터 단말(150)을 통해 분석 결과를 확인할 수 있다.
컴퓨터 단말(160)은 유전체 분석장치(110)가 생성한 샘플에 대한 유전자 발현 데이터가 저장된 매체(예컨대, USB, SD 카드 등)를 통해 유전자 데이터를 입력받는다.
컴퓨터 단말(160)은 유전체 분석장치(110)로부터 샘플에 대한 유전자 발현 데이터를 수신한다. 컴퓨터 단말(160)은 참조 데이터베이스(120)로부터 참조 유전자 발현 데이터를 수신한다.
컴퓨터 단말(160)은 GO 데이터베이스(130)로부터 특정 GO 텀에 관련된 유전자 정보를 수신할 수 있다. 여기서, 특정 GO 텀은 단일 텀일 수도 있고, 복수의 텀일 수도 있다. 특정 GO 텀에 관련된 유전자 정보는 해당 GO 텀에 관련된 유전자 세트에 대한 정보로서, 해당 유전자 세트에 포함된 유전자들의 식별 정보를 포함할 수 있다.
컴퓨터 단말(160)은 특정 GO 텀을 GO 데이터베이스(130)에 쿼리하여 GO 텀에 관련된 유전자 정보를 수신할 수 있다. 또는, 별도의 컴퓨터 장치가 GO 데이터베이스(130)에 쿼리하여 GO 텀에 관련된 유전자 정보를 컴퓨터 단말(160)에 전달되게 할 수도 있다.
컴퓨터 단말(160)은 샘플의 유전자 발현 데이터에서 GO 텀에 관련된 유전자 세트에 대한 정보만을 추출한다. 또한, 컴퓨터 단말(160)은 참조 유전자 발현 데이터에서 GO 텀에 관련된 유전자 세트에 대한 정보만을 추출한다. 컴퓨터 단말(160)은 샘플 데이터의 유전자 세트의 발현 데이터 및 참조 데이터의 유전자 세트의 발현 데이터를 이용하여 샘플의 변이 정도를 나타내는 지표를 연산할 수 있다. 사용자(30)는 자신이 사용하는 컴퓨터 단말(160)을 통해 분석 결과를 확인할 수 있다.
이하 분석장치가 유전자 온톨로지로 추출한 유전자 세트를 분석하는 과정 및 지표에 대하여 상세하게 설명한다.
먼저, 연구자가 정의하는 게놈 상태에 대하여 설명한다.
하나의 유전자만을 포함하는 게놈을 가정하면, 유전자는 전사 자극을 받는 활성 상태 'on'과 자극을 받지 않는 비활성 상태 'off'로 구분될 수 있다. 도 2(A)는 단일 유전자의 전사 상태(transcriptional state)를 나타내는 예이다. 단일 유전자의 전사 상태 t1은 다수의 시점에서 기초 전사 상태(basis transcriptional state)들로 정의될 수 있다. 도 2(A)에서 화살표는 기초 전사 상태를 측정한 시점을 나타낸다. 도 2(A)에서 해당 유전자의 off 상태 및 on 상태의 개수는 각각 16 및 12였다.
전사 상태인 'off' 및 'on'은 상호 배타(mutually exclusive)적이다. 이는 'off' 및 'on'가 기하학적으로는 직교 상태(orthonormal)로 표현될 수 있다. 따라서 'off' 상태는 |0〉, 'on' 상태는 |1〉로 표시할 수 있다. 〈0|1〉은 0이다. 도 2(B)는 도 2(A)의 유전자들의 전사 상태 벡터의 예이다. 기하학적 측면에서 도 2(A)의 유전자의 전사 상태 벡터 |t1〉은 16|0〉+ 12|1〉이다. 따라서 피타고라스의 정리를 이용한 각 기초 전사 상태의 확률(dwelling probability)은 poff = 162/(162 + 122) 및 pon = 122/(162 + 122)이다. 이를 보다 일반화하면, 확률은 트레이스(trace)가 1로 정규화된 t1의 dyad
Figure PCTKR2022020687-appb-img-000001
의 대각(diagonal)으로 아래 수학식 1과 같다.
Figure PCTKR2022020687-appb-img-000002
여기서 ρ는 전사 상태 t1의 밀도 행렬(density matrix)이다. ρ는 ρ2과 같기 때문에 순수 상태(pure state)이다. 또한, ρ의 대각은 순서대로 |0〉 및 |1〉의 확률이다.
나아가, 두 개의 유전자로 구성된 게놈에서 전사 상태는 다음과 같이 표현할 수 있다. 유전자 1 및 유전자 2로 구성된 게놈을 가정하면, 각 유전자의 전사 상태를 각각 t1 및 t2라고 한다.
도 3(A)는 두 개의 유전자들 전사 상태를 나타내는 예이다.
도 3(A)에서 t1 및 t2는 각 유전자의 전사 상태를 플롯(plot) 형태로 표시한 것이다. 2개의 유전자는 모두 4개의 직교(상호 배타) 기초 전사 상태 (|00〉, |01〉, |10〉, |11〉)를 갖는다.
어느 시점에서 한 유전자의 전사 상태와 다른 유전자의 전사 상태는 사전에 주어진 조건부 상태 (t1|t2 또는 t2|t1)로 표현될 수 있다. 도 3(A)에서 화살표는 기초 전사 상태를 측정한 시점을 나타낸다. 화살표의 색은 각 조건부 상태의 관측 시점을 구분하여 표시한다. 예컨대, t1|t2의 첫 번째 관측 시점에서 기초 전사 상태는 t1이 'off'이며 t2도 'off'로 |00〉이다. t1|t2의 두 번째 관측 시점에서 기초 전사 상태는 |11〉이다. 동일한 방법으로 t2|t1의 각 관측 지점의 기초 전사 상태를 결정할 수 있다. 도 3(A)에 대하여 각 기초 전사 상태를 개수하여 산출한 결과는 아래 표 1과 같다.
Figure PCTKR2022020687-appb-img-000003
표 1을 행렬의 형태로 하면 전체 게놈의 전사 상태 T가 된다. 따라서, 밀도 행렬 ρ는 TT의 트레이스를 1로 정규화한한 것으로 다음과 같다.
Figure PCTKR2022020687-appb-img-000004
밀도 행렬 ρ는 ρ2과 달라 순수 상태가 아니다. ρ는 t1|t2의 밀도 행렬 ρ1과 t2|t1의 밀도 행렬 ρ2의 평균으로 혼합 상태(mixed state)이다. 기초 전사 상태 |00〉의 확률이 가장 크고, 나머지 기초 상태들에 대한 확률은 작다.
ρ의 첫 번째 고유벡터는 0.8701 |00〉+ 0.2450 |01〉+ 0.3649 |10〉+ 0.2230 |11〉이며, 고유값은 0.9943이다. 도 3(B)는 도 3(A)에서 확률이 높은 기초 전사 상태들로 이루어진 평면에 밀도 행렬을 투사한 결과이다. 도 3(B)는 확률이 가장 큰 |00〉과 두 번째로 큰 |10〉로 이루어진 평면에 밀도 행렬 ρ를 투사한 결과이다.
이 예시에서 산출된 ρ의 폰노이만 엔트로피(von Neumann entropy) -Tr(ρlogρ)는 0.05 bits이다. 한편, 밀도 행렬 ρ에 대해 임의 전사 상태 t가 기여할 확률 p는 아래 수학식 3과 같이 정의된다.
Figure PCTKR2022020687-appb-img-000005
도 3의 예에서 두 유전자의 전사 상태 t1 및 t2가 게놈의 활성에 기여할 확률을 수학식 3에 따라 계산하면 각각 0.9859 및 0.9906이다.
나아가, 세 개의 유전자로 구성된 게놈에서 동일한 방법으로 유전자들의 활성을 분석하면 다음과 같다. 도 4(A)는 3개 유전자의 전사 상태를 나타내는 예이다. 도 4(A)는 3개 유전자의 전사 상태인 t1, t2 및 t3의 예시이다. 도 4(A)에서 화살표는 기초 전사 상태를 관측한 시점을 나타낸다. 3개의 유전자에 대한 조건부 상태 t1|t2t3 , t2|t1t3 및 t3|t1t2를 개수한 결과는 아래 표 2와 같다.
Figure PCTKR2022020687-appb-img-000006
3개의 유전자들의 전사 상태 벡터들은 아래 수학식 4와 같다.
Figure PCTKR2022020687-appb-img-000007
각 유전자의 밀도 행렬 ρ1, ρ2 및 ρ3를 각각
Figure PCTKR2022020687-appb-img-000008
로 계산한다. 전체 게놈의 밀도 행렬 ρ는 개별 유전자들의 밀도 행렬들의 산술평균으로 산출할 수 있다. 전체 게놈의 밀도 행렬 ρ는 아래 수학식 5와 같다.
Figure PCTKR2022020687-appb-img-000009
도 4(B)는 도 4(A)의 기초 전사 상태의 확률에 대한 히스토그램의 예이다. 밀도 행렬 ρ의 대각선을 따라 각 기초 전사 상태의 확률이 나열된다. |001〉 및 |101〉는 유사하다. 또한, 기초 전사 상태에 대한 확률은 비균일하여 3개의 유전자가 전사되는 정도는 서로 연관되었음을 시사한다.
밀도 행렬 ρ의 고유값은 9.8130 × 10-1, 1.2800 × 10-2 및 6.0000 × 10-3 등으로 나머지는 0에 가까웠다. 기초 전사 상태에 대한 확률이 균일하다 할지라고 전사 상태가 균일하다고 할 수는 없다. 전사 상태는 기초 전사 상태로 형성된 공간의 모든 방향에 대한 균일한 확률 분포를 가져야 균일하다고 할 수 있다. 따라서, 전사 상태의 균일도는 고유값들의 균일한 정도로 확인할 수 있다.
도 4(C)는 도 3(A)에서 확률이 높은 기초 전사 상태들로 이루어진 평면에 밀도 행렬을 투사한 결과이다. 도 4(C)는 확률이 높은 2개의 기초 전사 상태 |001〉과 |101〉로 이루어진 평면에 밀도 행렬 ρ를 투사한 결과이다. 앞서 설명한 바와 같이 고유값들의 비균일성은 대단히 크고 폰노이만 엔트로피도 0.1512 bits로 작다.
이제 전술한 과정을 일반화하여 n개의 유전자로 구성된 게놈의 전사 활성을 설명한다. n 개의 유전자를 갖는 게놈의 기초 상태 벡터는
Figure PCTKR2022020687-appb-img-000010
로 나타낼 수 있다. 여기서 jk∈{0,1}이고, k = 1,...,n이다. n 개의 유전자를 갖는 게놈은 전체 2n 개의 기초 상태 벡터를 갖는다. n 개의 유전자 각각은 직교 정규 특성을 갖는 기초 상태 벡터를 갖는다. 설명의 편의를 위하여 기초 상태 벡터를
Figure PCTKR2022020687-appb-img-000011
로 표시한다. n개의 유전자로 구성된 게놈의 전사 상태 T는 아래 수학식 6과 같다.
Figure PCTKR2022020687-appb-img-000012
따라서 밀도 행렬 ρ는 TT이며, 밀도 행렬의 차원은 2n × 2n이다. 밀도 행렬 ρ의 폰노이만 엔트로피는 -Tr(ρlogρ)이며 확률 분포의 비균일성을 의미한다. 이 엔트로피는 게놈이 생성하는 평균 정보량이라고 할 수 있다. ρ의 고유값이 가장 큰 고유 벡터 |v1〉은 게놈이 생성하는 정보의 속성을 정의한다.
게놈에 포함되어 있는 유전적 프로그램은 전사 상태 T를 통해 정보를 생성한다. 생성된 정보가 mRNA로 전달되는 과정에 대한 정확한 수학적 해석이 중요하다. 모두 n개의 유전자로 구성된 게놈에서 전사 상태가 기술되는 게놈 공간은
Figure PCTKR2022020687-appb-img-000013
의 공간인 반면에, 정보가 전달되는 채널에 해당하는 mRNA은
Figure PCTKR2022020687-appb-img-000014
의 유전자 공간이다. 게놈 공간은 게놈의 기초 상태 벡터를 좌표축으로 갖는 힐버트 공간(Hilbert space)을 의미한다.
실제 공간은 생물체에서 유전자 활성을 통한 특정 단백질 생성 등의 화학반응이 일어나는 현실 세계의 3차원 공간이다. 따라서 게놈의 활성을 파악하기 위하여 게놈 공간에 직접 접근하는 것은 불가능하다. 따라서 게놈 공간을 유전자 발현 데이터의 샘플 공간으로 변환하여 분석하기 위한 방법이 필요하다. 샘플 공간은 각 샘플을 단위벡터로 정의되는 m차원 공간이다.
공간 변환 과정은 전달되는 정보의 손실을 최소화하면서 차원은 축소하기 위해 두 개의 행렬 U와 Σ을 사용한다.
Σ는 게놈 공간을 유전자 공간으로 변환하기 위한 행렬로 아래 수학식 7과 같다. Σ는 각각 2n 및 n개의 행과 열로 구성되며 상위 n 행까지는 대각 요소가 1이며 나머지 요소는 0이다.
Figure PCTKR2022020687-appb-img-000015
한편, 행렬
Figure PCTKR2022020687-appb-img-000016
는 회전 행렬로서 아래 수학식 8과 같이
Figure PCTKR2022020687-appb-img-000017
를 회전시킨다.
Figure PCTKR2022020687-appb-img-000018
전사 상태 T의 밀도 행렬
Figure PCTKR2022020687-appb-img-000019
는 2n 개의 고유 벡터들
Figure PCTKR2022020687-appb-img-000020
및 고유값
Figure PCTKR2022020687-appb-img-000021
를 갖는다. 여기서
Figure PCTKR2022020687-appb-img-000022
이다. 따라서 U가 ρ의 고유 벡터들로 구성된다면, T'의 기초 벡터는 ρ의 고유 벡터들과 같아진다. 행렬 Σ는
Figure PCTKR2022020687-appb-img-000023
의 T'를
Figure PCTKR2022020687-appb-img-000024
에 투사한다. 따라서 투사된 T'Σ의 밀도 행렬
Figure PCTKR2022020687-appb-img-000025
의 고유값들
Figure PCTKR2022020687-appb-img-000026
는, ρ의 엔트로피가 충분히 작다면
Figure PCTKR2022020687-appb-img-000027
이므로,
Figure PCTKR2022020687-appb-img-000028
에 근접한다. 그러므로 ρ'의 엔트로피는
Figure PCTKR2022020687-appb-img-000029
에 근접하며, 또한 T의 엔트로피에 근접한다. 따라서, 진핵생물 게놈에 의해 생성된 정보는 손실을 최소화하면서 mRNAs로 전달될 수 있다.
일반적으로 NGS(Next-Generation Sequencing)와 같은 유전체 분석 기법이 생성한 샘플의 유전자 발현 데이터 세트에서 전사 상태에 관한 측정치를 얻을 수 있는 근거는 동일한 종류의 샘플 군의 게놈에는 동일한 시나리오가 활성화되어 있기 때문이다. 게놈이 기능을 상실한다면 전사는 단백체의 전사적 자극에 의존하게 될 것이다. 따라서 샘플 간 변이는 커질 수밖에 없다. 동일한 종류의 샘플군에서 유전자 발현 데이터 세트로 계산된 엔트로피를 전사 상태의 엔트로피와 비교하는 것은 중요한 의미를 가진다.
유전자 발현 데이터 세트는 Rm 샘플 공간에서 n개 유전자들의 분포로 해석될 수 있으며, 게놈의 전사 상태 T에 의존적이다. 전술한 바와 같이 T는
Figure PCTKR2022020687-appb-img-000030
의 유전자 공간에서 TΣ로 변환되었다. 이 과정에서 샘플의 선택은 유전자 공간에서 샘플 공간으로의 전환을 의미하며, 두 공간 사이는
Figure PCTKR2022020687-appb-img-000031
가 매개한다. 따라서 게놈 공간과 샘플 공간 사이에서는
Figure PCTKR2022020687-appb-img-000032
가 매개한다. 이 행렬은 2n행과 m열로 구성되며 처음 m행의 대각 요소만 1이고 나머지 요소는 0이다.
따라서 샘플 공간에서의 밀도 행렬의 고유값들은 전사 상태의 엔트로피가 충분히 작다면,
Figure PCTKR2022020687-appb-img-000033
에 근접한다. 따라서 샘플군에서 계산한 엔트로피는
Figure PCTKR2022020687-appb-img-000034
에 근접한다. 그런데
Figure PCTKR2022020687-appb-img-000035
이면, 유전자 발현 데이터 세트의 엔트로피는 전사 상태의 엔트로피와 근접하게 된다.
인간의 세포를 포함한 진핵 세포의 게놈은 세포 운영의 시나리오를 가지고 있으며 조직의 종류에 따라 필요한 시나리오를 활성화한다. 따라서 동일한 조직에서 활성화된 시나리오는 전사 상태의 엔트로피로 판단할 수 있다. 상기 내용은 이러한 전사 상태의 엔트로피를 샘플 군의 유전자 발현 데이터 세트로부터 산출하는 수학적 근거를 제시한다.
일반적으로 진핵 세포에서 하나의 형질 발현에는 다수의 유전자가 관여한다. 특정 형질의 발현에 관련된 유전자 그룹이 유전체 내에서 조직화되어 형질의 발현을 조절한다면, 그 유전자군에 의해 생성되는 mRNA들은 발현과 조절을 위한 정보를 인코딩하여야 한다.
도 1에서 분석장치는 특정 형질에 대한 GO 텀에 따라 추출된 유전자 세트를 분석하여 샘플을 분석하였다. GO 텀으로 추출된 유전자 세트를 타깃 유전자 세트라고 명명한다. 분석장치는 타깃 유전자 세트를 대상으로 레퍼런스 데이터와 샘플 데이터를 비교하는 방식으로 샘플을 분석한다. 이때 타깃 유전자 세트의 특징은 전술한 게놈 상태에 따른 엔트로피, SP 및 LOR 등을 기준으로 산출된다.
이하 연구자가 GO 텀과 전사 상태의 엔트로피, SP 및 LOR 등을 기준으로 공개된 데이터를 이용하여 실험한 내용을 설명한다. 이하 설명하는 데이터 처리 과정이나 연산은 분석장치(컴퓨터 장치)를 사용하여 수행하였다.
연구자는 종양의 특징적 형질의 하나인 무한 세포분열과 연관된 GO 텀들을 선별하였다. GO 텀 선별은 유전자 온톨로지 정보를 제공하는 DB에 쿼리하여 관련 정보를 획득할 수 있다. 연구자는 선별된 각 GO 텀들에서 유전자의 생명 대사에 포함되는 유전자들을 추출하였다. 이를 통해 연구자는 각 GO 텀에 연관된 하나 이상의 유전자를 포함하는 연관 유전자군을 정의할 수 있었다. 이들 각 유전자군에 포함된 유전자는 해당 분야의 개별 연구의 결과물로써 형질의 발현에 필요한 모든 유전자를 포함한다고 할 수 없을 뿐만 아니라, 조직의 종류에 따라 관련 정도는 달라질 수 있다. 따라서 연구자는 비교적 안정적으로 정보량을 계산할 수 있는 최소의 유전자 수를 10개로 정하고, 그 이상의 유전자를 포함하는 GO 텀을 선정하였다. GO 텀을 선별하기 위한 유전자 개수의 기준은 실험적으로 결정될 수도 있다. 아래 표 3은 연구자가 종양의 특징적 형질의 하나인 무한 세포분열과 관련하여 선정한 GO 텀들이다.
번호 GO term 유전자 개수
1 anaphase-promoting complex-dependent proteasomal ubiquitin-dependent protein catabolic process 80
2 cell cycle 1038
3 cell cycle arrest 224
4 cell cycle checkpoint 39
5 cell cycle phase transition 12
6 cell division 163
7 cellular response to DNA damage stimulus 160
8 centriole replication 17
9 centromere-specific nucleosome assembly 21
10 centrosome organization 23
11 chromatin modification 97
12 chromatin organization 103
13 chromatin remodeling 79
14 chromosome condensation 30
15 chromosome organization 19
16 chromosome segregation 73
17 DNA damage checkpoint 83
18 DNA damage response, signal transduction by p53 class mediator 114
19 DNA damage response, signal transduction by p53 class
mediator resulting in transcription of p21 class mediator
17
20 DNA duplex unwinding 43
21 DNA repair 293
22 DNA replication 269
23 DNA replication checkpoint 11
24 DNA replication initiation 29
25 DNA replication-independent nucleosome assembly 11
26 DNA strand elongation involved in DNA replication 31
27 DNA unwinding involved in DNA replication 11
28 DNA-dependent DNA replication 37
29 double-strand break repair 126
30 double-strand break repair via homologous recombination 67
31 establishment of mitotic spindle orientation 13
32 exit from mitosis 19
33 G1/S transition of mitotic cell cycle 210
34 G2 DNA damage checkpoint 32
35 G2/M transition of mitotic cell cycle 164
36 kinetochore assembly 11
37 metaphase plate congression 15
38 mismatch repair 27
39 mitotic cell cycle 617
40 mitotic cell cycle checkpoint 27
41 mitotic chromosome condensation 13
42 mitotic cytokinesis 18
43 mitotic G2 DNA damage checkpoint 11
44 mitotic metaphase 20
45 mitotic metaphase plate congression 11
46 mitotic nuclear division 230
47 mitotic nuclear envelope disassembly 37
48 mitotic sister chromatid cohesion 11
49 mitotic sister chromatid segregation 21
50 mitotic spindle assembly checkpoint 32
51 mitotic spindle organization 23
52 negative regulation of cell cycle 55
53 negative regulation of DNA replication 22
54 negative regulation of G1/S transition of mitotic cell
cycle
22
55 negative regulation of ubiquitin-protein ligase activity
involved in mitotic cell cycle
66
56 nucleotide-excision repair 79
57 nucleotide-excision repair, DNA gap filling 20
58 positive regulation of cell cycle 50
59 positive regulation of DNA repair 24
60 positive regulation of DNA replication 38
61 positive regulation of G2/M transition of mitotic cell
cycle
14
62 positive regulation of mitosis 29
63 positive regulation of mitotic cell cycle 31
64 regulation of cell cycle 193
65 regulation of cell cycle arrest 36
66 regulation of DNA recombination 14
67 regulation of DNA replication 70
68 regulation of double-strand break repair via homologous
recombination
13
69 regulation of exit from mitosis 13
70 regulation of G1/S transition of mitotic cell cycle 45
71 regulation of G2/M transition of mitotic cell cycle 25
72 regulation of mitosis 55
73 sister chromatid segregation 24
74 spindle assembly 77
75 spindle assembly checkpoint 40
76 spindle assembly involved in mitosis 11
77 spindle checkpoint 12
78 spindle organization 42
선정된 78개의 GO 텀의 유전자군들에 대하여 각 조직에서의 활성을 측정하기 위해 폰노이만 엔트로피를 계산하였다. 유전자 세트에 대한 엔트로피 계산은 전술한 바와 같다. 간략하게 설명하면, 연구자는 i번째 GO 텀의 유전자군 gi의 유전자 발현 데이터 Gi의 밀도 행렬
Figure PCTKR2022020687-appb-img-000036
을 산출하였다. 연구자는 -ρilog2ρi를 계산하여 gi에 대한 엔트로피를 산출하였다.또한, 하나의 GO 텀의 유전자군에 포함된 동수의 유전자를 무작위로 선정하여 같은 방법으로 엔트로피를 계산하였다. 이 과정을 1,000 회를 실시하고 평균을 계산하여, 모두 78개의 GO 텀에 대해 랜덤 엔트로피를 산출하였다.
연구자는 공개된 유전자 발현 데이터 세트를 이용하였다. 유전자 발현 데이터 세트는 유방암(BRCA), 결장암(COAD), 직장암(READ), 폐선암(LUAD), 폐편평상피세포암(LUSC), 난소암(OV) 등 6종의 암 조직, 정상유방조직(BRNO), 정상결장조직(CONO) 등 2종의 정상 조직의 데이터를 사용하였다. BRCA 등은 해당 조직으로부터 유전자 발현량의 측정을 TCGA(The Cancer Genome Atlas)에서 수행하여 학술적 연구를 위해 일반에 공개한 데이터 세트를 의미한다.
연구자는 각 조직의 샘플들에서 78개의 GO 텀 유전자군의 엔트로피와 랜덤 엔트로피 사이에 통계적 유의성을 검증하기 위해 일원분산분석 검정(One-way ANOVA test)를 시행하였다.
GO 텀으로 선택한 유전자 세트(이하 GO 텀 유전자 세트라 함)는 전체 GO 텀으로 선택한 유전자들을 포함한다. 도 5는 세포 주기 관련 GO 텀 유전자 세트의 엔트로피에 대한 일원분산분석 검정 결과이다. 도 5는 각 조직 샘플의 유전자들 중 GO 텀 유전자 세트와 임의로 선택한 유전자 세트의 엔트로피를 비교한 결과이다. 도 5에서 'GO 텀'은 GO 텀 유전자 세트의 엔트로피(이하 GO 텀 엔트로피라 함)를 나타내고, 'random'은 해당 조직 샘플에서 임의로 선택한 유전자 세트의 랜덤 엔트로피를 나타낸다. 임의로 선택한 유전자 세트는 해당 조직 샘플의 GO 텀 유전자 세트의 유전자들의 개수와 동일한 개수의 유전자들로 구성된다.
도 5를 살펴보면, 정상유방조직(BRNO) 및 정상결장조직(CONO)에서 세포 주기와 관련된 GO 텀 엔트로피 분포는 종양 조직들에서의 GO 텀 유전자 세트들의 엔트로피 분포보다 유의하게 낮았다(p-value < 10-19). 반면에 두 정상 조직 BRNO와 CONO 사이의 엔트로피는 유의한 차이가 없었다(p-value = 0.494). 한편, 정상 조직에서 GO 텀 엔트로피와 랜덤 엔트로피는 유의한 차이가 있었다. 그러나 종양 조직에서는 GO 텀 엔트로피 분포와 랜덤 엔트로피에는 유의한 차이가 없거나 차이가 있더라도 정상 조직에서만큼 크지 않았다. 이러한 결과는 대부분의 종양 조직에서 세포 주기 관련 게놈 시스템이 붕괴되어 있음을 나타낸다. 다만, LUAD에서 GO 텀 엔트로피 분포와 랜덤 엔트로피 분포 사이의 p-value가 2.673 × 10-11이었고, 이는 세포 주기 관련 게놈 시스템이 비교적 정상적으로 기능함을 보여준다.
이와 같은 결과는 정상 조직에서 매우 잘 작동하고 있는 세포 주기 관련 게놈 시스템의 기능이 종양의 악성도에 따라 변이의 차이가 있음을 암시하며, 일부 종양에서는 세포 주기 관련 게놈 시스템이 랜덤 유전자 세트의 수준으로 기능적 파괴가 발생하였음을 의미한다.
한편, 세포 주기 관련 GO 텀 유전자 세트의 활성도에 조직 간 차이가 있는지 알아보기 위해 8 종류의 조직에서 78개의 GO 텀 엔트로피를 계산하였다. 먼저 두 정상 조직 BRNO와 CONO의 GO 텀 엔트로피 간 선형 회귀(linear regression)을 시행하였다. 그 결과 기울기(slope)는 0.506, y-절편(intercept)은 0.241, 결정계수(coefficient of determination)인 r2은 0.558이었다. 또한, 두 조직에서 GO 텀 엔트로피는 대부분 낮은 값(BRNO: 0.088-1.147 bits, CONO: 0.101-0.767 bits)을 가지고 있었다. 따라서 두 정상 조직에서 세포 주기 관련 GO 텀 유전자 세트의 활성도는 정상적인 상태에 있으나, 세포 주기 조절의 운영이 서로 다름을 알 수 있다.
아래 표 4는 정상 조직인 BRNO의 세포 주기 관련 GO 텀 엔트로피에 대한 각 종양 조직의 GO 텀 엔트로피의 선형 회귀를 시행한 결과이다. BRNO에 대한 BRCA와 LUAD의 선형회귀 결과, 다른 종양 조직의 경우와 달리 기울기는 1보다 컸으며 y-절편은 1보다 작았다. 또한 결정계수 r2은 각각 첫 번째 및 두 번째로 컸다. 이러한 결과는 이들 두 조직의 세포 주기 관련 게놈 시스템이 상대적으로 덜 붕괴되었음을 암시한다. 반면 나머지 네 종양 조직(COAD, READ, LUSC, OV)에서 r2과 기울기가 낮으며 y-절편이 크다는 것은 세포 주기 관련 게놈 시스템이 심하게 붕괴되었음을 보여준다.
Figure PCTKR2022020687-appb-img-000037
정상 조직에 대한 종양 조직의 GO 텀 엔트로피의 변동을 보다 정밀하게 조사하기 위해 종양 조직 샘플을 샘플 확률(SP)의 크기에 따라 나누어 GO 텀 엔트로피를 계산하였다. 도 6은 BRCA의 GO 텀 엔트로피와 BRNO의 GO 텀 엔트로피 사이의 상관성을 BRCA의 샘플 확률에 따라 나누어 분석한 예이다. 도 6은 유방암 샘플을 샘플 확률의 크기에 따라 나누어 세포 주기 관련 GO 텀 엔트로피를 계산하고 정상 유방 조직의 엔트로피에 대하여 선형 회귀를 시행한 결과이다. 먼저 총 248개의 BRCA 샘플 중에서 무작위로 28개 샘플을 선택하여 세포 주기 관련 GO 텀 엔트로피를 계산하고 BRNO의 엔트로피에 대한 선형 회귀를 시행하였다. 그 결과 결정계수 r2은 비교적 크지만(0.734), 기울기(1.496)와 y-절편(0.821)이 증가되어 있었다. 유방암 샘플을 샘플 확률을 기준으로 나눈 세 개의 샘플군(high SP, mid SP, low SP)에서 결정계수 r2은 0.833, 0.659, 0.346으로 빠르게 감소하는 경향을 보였으며, 기울기는 모두 1에 근사한 값을 가졌으나, low SP 샘플군에서는 결정계수가 작기 때문에 선형성(linearity)의 의미는 작다. 반면, y-절편은 0.256, 0.890, 1.908로 증가하였다. 즉 샘플 확률이 낮아질수록 세포 주기 관련 GO 텀 엔트로피가 증가하여 기능을 상실함을 제시한다. 이와 같은 결과는 표 3-1에서 COAD, READ, LUSC 및 OV 엔트로피의 결정계수 및 기울기가 저하되어 있고 y-절편이 증가되어 있는 것과 일치한다.
한편 표 4에서 BRNO의 엔트로피에 대한 COAD와 READ 엔트로피들의 기울기와 y-절편은 근사한 값을 갖는다. 도 7은 COAD의 GO 텀 엔트로피와 READ, COAD, BRCA, LUSC의 GO 텀 엔트로피 사이의 상관성을 분석한 예이다. 도 7은 COAD의 세포 주기 관련 GO 텀 엔트로피에 대한 READ, COAD, BRCA, LUSC 엔트로피의 선형 회귀를 시행한 결과이다. 엔트로피의 크기는 정보량만을 의미하기 때문에 방향의 속성은 배제되어 있다. 그럼에도 불구하고 기울기와 y-절편은 각각 1과 0에 근접하고 있다. 결정계수 r2의 경우 COAD 자체의 결정계수(0.977)에 비해 READ의 결정계수(0.892)가 약간 낮지만 BRCA(0.469)나 LUSC(0.514)에 비해 상당히 높은 값을 갖는 것으로 볼 때, COAD와 READ는 상당히 유사한 특성을 갖는 종양임을 암시한다.
상대 엔트로피(Relative entropy)는 하나의 시스템에 대하여 다른 시스템이 상이한 정도를 보여줄 수 있는 측정치이다. 연구자는 개별적 GO 텀 유전자 세트의 게놈 시스템의 활성이 조직 간 차이가 있는지 확인하기 위하여 상대 엔트로피를 계산하였다.
도 8은 조직 x에 대한 조직 y의 상대 엔트로피의 예이다. 모두 n개의 유전자로 이루어진 임의의 GO 텀 유전자 세트에 대해 하나의 조직(x)에 대한 다른 조직(y)의 상대 엔트로피는 두 조직 간 속성의 차이를 보여준다. n 차원의 유전자 공간에서 조직 x와 조직 y는 각각 ρx 및 ρy의 밀도 행렬을 갖는다. 각 밀도 행렬의 첫 번째 고유 벡터
Figure PCTKR2022020687-appb-img-000038
Figure PCTKR2022020687-appb-img-000039
는 해당 GO 텀 i의 유전자 세트가 각 조직에서 활성화되는 속성과 연관된다. 즉, 아래 수학식 9로 표현되는 상대 엔트로피 S (ρy∥ρx)는 해당 GO 텀 i의 유전자 세트가 조직 x에서 활성화되는 것에 대해 조직 y에서의 활성도가 달라지는 정도를 나타낸다.
Figure PCTKR2022020687-appb-img-000040
임의의 GO 텀 유전자 세트에 대해 한 조직에 대한 다른 조직의 상대 엔트로피가 증가하는 요인은 다음과 같다. 첫째, 두 조직에서의 엔트로피가 다르기 때문이다. 두 번째 두 조직에서 해당 GO 텀 유전자 세트의 생물학적 속성이 다르기 때문이다. 도 8에서 조직 x의 밀도 행렬과 비교하여 조직 y의 밀도 행렬이 보다 원에 근접한 형태를 갖는데 이는 엔트로피가 증가하는 것을 의미한다. 또한, 조직 x의 첫 번째 고유 벡터에 비해 조직 y의 첫 번째 고유 벡터는 방향이 달라져 있음을 보여준다. 한편, 각도 발산(Angular divergence, AD)는 해당 GO 텀 유전자 세트의 활성화에 있어 생물학적 속성이 다름을 의미한다.
먼저, 상대 엔트로피 및 각도 발산의 신뢰성을 확보하기 위해 세포 주기 관련 GO 텀 유전자 세트에 대해 BRNO에 대한 다른 각 조직들(BRCA, COAD, READ, LUAD, LUSC, OV, CONO)의 상대 엔트로피 및 각도 발산을 계산하였다. 또한, BRNO에 대하여 연산된 각 조직들의 상대 엔트로피에 대하여 선형 회귀(linear regression)을 하여 결과를 분석하였다. 도 9는 BRNO에 대한 각 조직들의 GO 텀 상대 엔트로피 사이의 상관성을 분석한 예이다. 도 9는 정상 유방 조직에 대한 각 조직들의 세포 주기 관련 GO 텀 상대 엔트로피를 계산하고, 임의로 선택한 두 조직의 BRNO에 대한 GO 텀 상대 엔트로피 사이의 선행 회귀를 시행한 결과이다. 생물학적 측면에서 거의 동일한 조직으로 고려되는 COAD와 READ의 상대 엔트로피 사이에서 r2은 0.992로 1에 거의 근접하였으며, 경사(slope)도 1.016으로 1에 근접한다. 또한, 절편(intercept)은 0.128로 0에 근접한다. 반면에 CONO와 READ 사이에서 r2, 경사 및 절편 각각은 0.802, 1.175 및 1.948이었고, CONO와 COAD 사이에서 r2, 경사 및 절편 각각은 0.823, 1.167 및 1.747이었다. 또한, BRCA와 READ 사이에서 r2, 경사 및 절편 각각은 0.8641, 1.5660 및 1.6776이었고, BRCA와 COAD 사이에서 r2, 경사 및 절편 각각은 0.8841, 1.5645 및 1.4950이었다.
도 10은 BRNO에 대한 각 조직들의 GO 텀 각도 발산 사이의 상관성을 분석한 예이다. 도 10은 정상 유방 조직에 대한 각 조직들의 세포 주기 관련 GO 텀 각도 발산을 계산하고, 임의로 선택한 두 조직의 BRNO에 대한 GO 텀 각도 발산 사이의 선행 회귀를 시행한 결과이다. 각도 발산(AD)의 경우 COAD와 READ 사이에서 r2, 경사 및 절편 각각은 0.9745, 0.9690 및 1.8874이었다. CONO와 READ 사이에서 r2, 경사 및 절편 각각은 0.6762, 0.9168 및 16.8844이었다. CONO와 COAD 사이에서 r2, 경사 및 절편 각각은 0.7236, 0.9662 및 14.79328이었다. BRCA와 READ 사이에서 r2, 경사 및 절편 각각은 0.6023,1.2077 및 17.0596이었다. 또한, BRCA와 COAD 사이에서 r2, 경사 및 절편 각각은 0.6671, 1.2949 및 14.4069이었다.
이 결과는 COAD와 READ가 동일한 종류의 조직임을 증명하고 있을 뿐만 아니라, 상대 엔트로피 및 각도 발산이 조직의 상이성을 규정하는데 중요한 지표가 됨을 의미한다.
상대 엔트로피와 각도 발산을 이용하여 악성의 정도가 가장 큰 LUSC와 BRCA에서 세포 주기 관련 GO 텀의 게놈시스템이 기능을 상실하는 정도를 비교하였다. 유방암 샘플 중 샘플 확률이 낮은 50개 샘플(low SP)과 샘플 확률이 높은 50개 샘플(high SP)의 BRNO에 대한 세포 주기 관련 GO 텀 상대 엔트로피와 각도 발산을 각각 계산하였다. 또한 BRNO에 대한 LUSC의 세포 주기 관련 GO 텀 상대 엔트로피와 각도 발산을 계산하였다. 도 11은 BRNO에 대한 BRCA의 GO 텀 상대 엔트로피 및 각도 발산과 LUSC의 GO 텀 상대 엔트로피 및 각도 발산 사이의 상관성을 BRCA의 샘플 확률에 따라 나누어 분석한 예이다. 도 11(A)는 BRCA의 low SP 샘플군과 high SP 샘플군에서 BRNO에 대한 세포 주기 관련 GO 텀 상대 엔트로피를 LUSC의 GO 텀 상대 엔트로피에 대하여 선형 회귀를 시행한 결과이다. 유방암의 low SP 샘플군과 LUSC의 선형 회귀 시행 결과, 결정 계수는 0.890이고 기울기는 0.926으로 1에 근사하였다. 반면에 high SP 샘플군과 LUSC의 선형 회귀 시행 결과, 결정계수는 0.836이고 기울기는 0.358로 기울기가 매우 낮았다. 도 11(B)는 BRCA의 low SP 샘플군과 high SP 샘플군에서 BRNO에 대한 세포 주기 관련 GO 텀 각도 발산을 LUSC의 GO 텀 각도 발산에 대하여 선형 회귀를 시행한 결과이다. 유방암의 low SP 샘플군과 LUSC의 BRNO에 대한 각도 발산의 선형 회귀 시행 결과 기울기는 0.738로 상대 엔트로피의 기울기보다 낮았다. 반면 유방암의 high SP 샘플군과 LUSC의 BRNO에 대한 각도 발산의 선형 회귀 시행 결과 기울기는 0.441로 상대 엔트로피의 기울기보다 컸다. 이와 같은 결과는 정상 조직에 대한 종양 조직의 상대 엔트로피가 주로 게놈 시스템의 붕괴를 반영하는 지표가 됨을 암시하며, 특히 유방암 low SP 샘플군의 상대 엔트로피와 LUSC의 상대 엔트로피 사이에 기울기가 1에 근접함은 유방암과 LUSC가 게놈 시스템의 붕괴로 최종적으로는 유사한 형태의 종양세포로 수렴함을 보여준다.
도 12는 BRNO에 대한 각 조직들의 GO 텀 상대 엔트로피를 비교한 예이다. 도 13은 BRNO에 대한 각 조직들의 GO 텀 각도 발산을 비교한 예이다. 도 5를 참조하면 대부분의 GO 텀에서 BRNO와 CONO의 엔트로피가 거의 같은 수준으로 작았다. 그러나, 도 12를 살펴보면 BRNO에 대한 CONO의 상대 엔트로피는 0.3632 ~ 12.4180 bits로서 BRNO에 대한 BRCA의 상대 엔트로피보다 약간 크다. 이것은 BRNO에 대한 CONO의 각도 발산이 크기 때문에 상대 엔트로피가 증가함을 의미한다.
도 13을 살펴보면, 실제로 BRNO에 대한 CONO의 각도 발산이 BRNO에 대한 BRCA의 각도 발산보다 크다. 이는 CONO의 세포 주기의 생물학적 특성이 BRNO의 그것과는 상당히 다름을 암시한다. 앞에서 본 바와 같이 종양에서 세포 주기 관련 GO 텀 엔트로피는 정상 조직의 엔트로피에 비해 증가되어 있다. 이는 종양에서 상대 엔트로피와 각도 발산이 모두 증가하는 것이 세포 주기 관련 게놈 시스템의 붕괴 및 속성의 변화 모두에 기인함을 의미한다. 한편, 도 5를 살펴보면, LUAD의 경우 세포 주기 관련 GO 텀 엔트로피의 분포는 랜덤 엔트로피의 분포와 유의한 차이(p-value=2.673×10-11)를 보여 세포 주기 관련 GO 텀의 게놈 시스템이 비교적 건실함을 알 수 있다. 도 12에서 LUAD는 정상유방조직인 BRNO에 대한 상대 엔트로피가 다른 모든 조직보다 낮았으나, 도 13에서 BRNO에 대한 LUAD의 각도 발산은 유방암인 BRCA보다 컸다. 이것으로부터 LUAD에서는 세포 주기가 비교적 잘 조절되고 있으나 그 생물학적 속성이 BRNO와 다름을 알 수 있으며, 대신 암세포의 증식 속도나 돌연변이의 발생 빈도는 저하되어 있을 것으로 추정할 수 있다.
GO 텀은 다양한 생물학적 연구의 산물로 생성되었다. 따라서 중요한 생물학 및 의학적 의의를 가진다. 연구자는 유방암에 대한 유전자 발현 데이터를 중심으로 연구를 하여 개별 환자에서 GO 텀 게놈 시스템의 상태가 정상으로부터 이탈하는 정보를 측정하는 방법을 개발하였다. 이하 해당 지표에 대하여 설명한다.
GSP(GO sample probability)
도 14는 밀도 행렬 ρ를 갖는 게놈 시스템의 유전자 공간에 샘플의 확률을 표시한 예이다. 일반적으로 하나의 유전자 온톨로지를 공통으로 갖는 유전자 n개가 형성하는 유전자 공간 Rn에서 밀도행렬 ρ의 차원은 n×n이다. 따라서 ρ는 유전자 공간에서 n개 고유 벡터들과 각각에 대한 고유값들 이루어진 타원체(ellipsoid)로 표시된다. 일반적으로 정상 조직 샘플은 주어진 유전자 공간에서 고유값이 가장 큰 고유 벡터
Figure PCTKR2022020687-appb-img-000041
를 따라 분포한다. 샘플 i의 밀도 행렬 ρ에 대한 확률 pi
Figure PCTKR2022020687-appb-img-000042
로 주어진다.
Figure PCTKR2022020687-appb-img-000043
는 샘플 i의 유전자 발현 데이터로 결정되는 발현 벡터이다.
Figure PCTKR2022020687-appb-img-000044
Figure PCTKR2022020687-appb-img-000045
에 근접할수록 pi는 커진다. pi를 샘플 확률이라고 명명한다. 반면에
Figure PCTKR2022020687-appb-img-000046
로부터 멀어지는 샘플은 정상 군집으로부터 이탈하는 것이며 따라서 샘플 확률도 감소하게 된다. 즉, 종양 샘플이 정상 조직으로부터 변형(transformation)되는 정도를 샘플 확률로 추정할 수 있다.
먼저, 연구자는 BRCA 개별 환자의 게놈 시스템이 BRNO로부터 이탈되는 정도를 파악하기 위해 BRNO 전체 유전자들의 밀도 행렬을 계산한 후 이에 대한 BRNO 및 BRCA의 개별 샘플에서 샘플 확률을 계산하였다.
연구자는 TCGA(The Cancer Genome Atlas)에서 학술적 연구를 위해 일반에 공개한 248명의 유방암 (BRCA) 환자의 유전자 발현 데이터 세트, 임상적 정보 및 돌연변이 정보를 이용하였다. 임상적 정보는 유방암 환자별 에스트로겐(estrogen), 프로게스테론(progesterone) 수용체 및 HER2(Human epidermal growth factor receptor 2)의 발현 여부, 생존 여부, 사망 시점 등의 정보가 포함되어 있다. 돌연변이 정보는 환자별로 돌연변이 발생 유전자, 게놈 내 위치, 돌연변이의 종류 등의 정보가 포함되어 있다. 또한, 유방암 환자의 조직 채취 과정에서 병리학적으로 정상으로 판정된 28개 정상유방조직(BRNO) 샘플의 유전자 발현 데이터 세트를 이용하였다. 연구자는 TCGA에서 제공하는 샘플(조직)의 학술적, 임상적 정보를 제외한 환자 개인의 정보를 취득할 수 없으며, 따라서 모든 분석 샘플(조직)은 일련번호(예, BRCA 1번 환자 등)로 명명하였다.
샘플 확률은 BRCA 4번 환자에서 0.155로 가장 작았으며 BRCA 41번 환자에서는 0.657로 가장 컸다. 41번 환자의 샘플 확률은 정상 유방 조직인 BRNO의 샘플 확률의 범위 0.550 - 0.791 안에 있다. 물론, 정상 유방 조직에서 활성화되지 않는 유전자도 포함되었기 때문에 샘플 확률이 개별 샘플의 게놈 시스템의 상태를 정확하게 반영한다고 할 수 없다. 다만, 샘플 확률이 유방암의 악성 정보를 나타내는 관계를 검증하기 위하여 TNBC(triple negative breast cancer)와 non-TNBC 차이를 one-way anova로 검증한 결과 TNBC의 샘플 확률이 유의(p-value=8.61×10-7)하게 작았다.
연구자는 전체 유전자가 아닌, 전술한 78개의 세포 주기 관련 GO 텀이 annotation에 하나 이상 포함된 모든 유전자들에 대하여 BRNO 및 BRCA 샘플의 샘플 확률을 계산하였다. 즉 연구자는 BRNO 및 BRCA 샘플에 대하여 세포 주기 관련 GO 텀 전체로 샘플링한 유전자 세트(이하 세포 주기 관련 전체 GO 텀 유전자 세트)가 형성하는 유전자 공간에서의 샘플 확률을 계산하였다.
BRCA에서 세포 주기 관련 전체 GO 텀 유전자 세트에 대한 샘플 확률의 최대값은 0.772이었다. 이 값은 전체 유전자에 대한 샘플 확률의 최대값(0.657)보다 증가한 값이었다. 그러나, BRCA에서 세포 주기 관련 전체 GO 텀 유전자 세트에 대한 샘플 확률의 최저값은 0.06으로 전체 유전자에 대한 샘플 확률 최저값(0.155)보다 작았다. 따라서 해당 샘플에서 세포 주기의 게놈 시스템이 완전히 붕괴되어 있음을 시사한다. 또한, TNBC 샘플의 샘플 확률의 분포도 전체 유전자에 대한 확률보다 더 작은 값으로 치우쳤으며, non-TNBC 샘플의 SP의 분포와 보다 유의(p-value=2.98×10-12)한 차이를 보였다. 따라서 에스트로겐(estrogen), 프로게스테론(progesterone) 수용체 및 HER2(Human epidermal growth factor receptor 2)의 발현 여부는 게놈 시스템의 세포 주기 조절 기능과 관련이 있음을 보여준다.
연구자는 이러한 원리를 세포 주기 관련 GO 텀 각각에 적용하였다. 연구자는 특정 GO 텀 유전자 세트가 형성하는 유전자 공간에서 정상 조직의 밀도 행렬에 대해 개별 종양 샘플의 확률을 계산하였다. 이 샘플 확률을 GSP(GO sample probability)라고 명명한다. 즉, GSP는 종양 조직에서 GO 텀 유전자 세트가 정상으로부터 이탈하는 정도를 표시한다.
연구자는 세포 주기 관련 GO 텀 78개에서 BRNO의 밀도 행렬에 대한 BRCA 샘플들의 GSP를 계산하였다. GSP는 아래 수학식 10과 같이 나타낼 수 있다.
Figure PCTKR2022020687-appb-img-000047
수학식 10에서 Gα은 정상 조직의 특정 GO 텀 유전자 세트 α에 포함된 유전자 집합의 발현행렬을 의미한다. s는 특정 샘플 데이터 si에서 α에 포함된 유전자 발현 벡터를 의미한다. 즉, GSP는 정상 조직의 특정 GO 텀 유전자 세트를 기준으로 확인한 특정 샘플 조직의 게놈 시스템 변이를 나타낸다.
도 15는 세포 주기 관련 GO 텀 78개에서 BRNO의 밀도 행렬에 대한 BRNO와 BRCA 샘플들의 GSP 및 BRCA의 밀도 행렬에 대한 BRNO와 BRCA 샘플들의 GSP를 계산한 예이다. 도 15(A)에서 BRNO의 밀도 행렬에 대한 BRNO 샘플의 GSP는 분포의 범위가 좁은 반면 BRCA 샘플의 GSP는 광범위한 분포 영역을 갖는다. 이를 확인하기 위해 각 GO 텀에서 BRCA의 밀도 행렬에 대한 BRNO 샘플의 GSP를 계산하고, 동수의 BRCA 샘플을 무작위로 선택한 후 GSP를 계산하여 분포의 영역을 비교하였다. 도 15(B)에서 BRCA의 밀도 행렬에 대한 BRNO 샘플의 GSP 분포 영역이 저하되었으나 분포의 폭 역시 BRCA의 GSP의 분포 영역에 비해 좁았다. 그 이유는 도 16에서 보는 바와 같다.
도 16은 겅상 게놈 및 종양 게놈의 밀도 행렬에 대한 정상 조직 샘플의 GSP 분포와 종양 샘플의 GSP 분포의 예이다. 도 16(A)는 정상 게놈의 밀도 행렬에 대하여 정상 조직 샘플의 GSP 분포 영역과 종양 샘플의 GSP 분포 영역을 보여준다. 도 16(B)는 종양 게놈의 밀도 행렬에 대하여 정상 조직 샘플의 GSP 분포 영역과 종양 샘플의 GSP 분포 영역을 보여준다. 종양 게놈에 대한 정상 조직 샘플의 GSP는 저하되어 있지만 두 게놈에서의 GSP는 좁게 분포된다. 반면 종양 샘플의 GSP는 두 게놈에서 모두 넓은 분포를 가지게 된다. 이와 같이 종양 샘플에서 GSP의 분포 범위가 넓다는 것은 각 종양 샘플에서 GO 텀 관련 게놈 시스템의 변이가 다양하게 발생할 수 있음을 의미한다.
도 16(A)는 모든 GO 텀 유전자 세트들에서 BRCA 샘플의 GSP의 분포는 BRNO 샘플의 GSP 분포에 비해 유의(p-value<10-5)하게 저하되어 있음을 보여준다. 또한, BRCA의 확률들의 분포는 BRNO에 비해 폭이 넓어 변화된 세포 주기의 특성이 샘플 간에 차이가 큼을 나타낸다. 도 15는 4번, 18번 및 41번 환자(샘플)에 대한 GSP를 표시하였다. BRCA 샘플 중 샘플 확률(SP)이 큰 41번 환자의 경우 모든 GO 텀 유전자 세트에서 GSP는 큰 값을 갖는 편이지만 정상유방조직(BRNO)의 GSP보다는 조금 낮은 값을 보였다. 반면에 TNBC인 4번 환자의 GSP은 대부분의 GO 텀 유전자 세트에서 최저값 혹은 최저값에 근접한 값을 보였다. 에스트로겐 및 프로게스테론 수용체가 양성인 18번 환자의 경우 GSP가 4번 환자보다는 크지만 전체적으로 낮은 값을 보인다.
연구자는 세포 주기의 GSP와 유방암의 표현형 사이에 연관관계를 규명하였다. 먼저, 에스트로겐 수용체(ER) 및 프로게스테론 수용체(PR) 및 HER2의 발현에 따른 GSP 분포의 차이를 계산하였다. ER+와 ER- 샘플 그룹 사이에서는 GO 텀 12번(chromatin organization)을 제외하고 다른 GO 텀에서 모두 유의한 차이를 보였다. PR+와 PR- 샘플 그룹 사이에서는 78개 GO 텀 모두에서 GSP가 유의한 차이를 보였다. ER 및 PR 모두에서 p-value가 가장 작은 GO 텀은 36번(kinetochore assembly)으로 각각 6.01×10-24 및 4.08×10-18였다. 이러한 결과는 ER 및 PR이 발현된 종양 세포에서 발현되지 않은 세포에 비해 세포 주기 관련 GO 텀의 게놈 시스템이 비교적 보존됨을 의미한다. 따라서 ER 및 PR 차단제는 세포 주기의 조절에 유용하게 작용할 수 있을 것이며, ER 및 PR이 발현되어 있다 할지라도 GSP 값이 낮은 환자는 차단제의 기능이 제한 될 수밖에 없을 것이다.
연구자는 HER2+와 HER2- 사이에서도 세포 주기 관련 GO 텀별로 GSP를 계산하였다. 아래 표 5는 HER2+와 HER2- 샘플에 대하여 주요한 GO 텀의 결과를 정리한 것이다.
Figure PCTKR2022020687-appb-img-000048
표 5를 살펴보면 9개의 GO 텀은 HER2의 발현 여부에 따른 GSP의 분포에 유의한 차이를 보였다.
스테로이드 호르몬인 에스트로겐 및 프로게스테론에 대한 수용체의 발현은 세포의 기능에 근본적인 변화를 초래한다. 따라서 ER 및 PR의 발현이 HER2의 발현에 미치는 효과는 다를 수밖에 없다. 연구자는 ER+와 ER-일 때 각각 HER2+와 HER2-사이에 GSP 분포의 유의한 차이가 있는 GO 텀을 탐색하였다. ER+ 유방암 세포에서 HER2 발현 여부에 따른 GSP의 분포에 유의한 차이가 있는 GO 텀은 41개이며 HER2-의 GSP 분포가 HER2+의 GSP 보다 큰 값을 가졌다. 그러나, ER-에서는 39개의 GO 텀에서 HER2+의 GSP가 HER2-의 GSP 보다 유의하게 상위에 분포하였다. 즉, ER+와 ER- 사이에서 HER2에 의한 GSP의 분포의 변동은 방향이 서로 반대였다. 또한 관련된 GO 텀에 있어서도 차이가 있는 지를 알아본 결과 분포의 변동 방향은 반대이지만 41개(ER+) 및 39개(ER-) 중에서 19개의 GO 텀(4, 14, 16, 17, 19, 22,36, 39, 42, 46, 48, 50, 64, 66, 68, 71, 74, 75 및 77)만이 양쪽 모두에 포함되었다. 이러한 결과는 ER+와 ER- 유방암 세포는 세포 주기의 생물학적 속성이 완전히 다름은 나타낸다.
최근의 다양한 연구기법들은 유전자에서의 돌연변이에 대한 대량의 정밀한 추적을 가능하게 하였다. 연구자는 세포 주기 관련 여러 GO 텀에서 게놈 시스템의 붕괴와 돌연변이의 발생 사이에 관련성을 유방암으로 규명하고자 하였다. 먼저, 돌연변이의 발생 분포를 보면 빈도가 특이하게 높은 샘플들이 있었다. 따라서 연구자는 이상치를 제외하기 위해 돌연변이의 발생 빈도가 312개 이하인 샘플들만을 사용하였다. BRCA에서 발생한 돌연변이의 수를 90개를 기준으로 샘플을 구분하고, 전체 유전자 세트의 BRNO에 대한 BRCA 샘플들의 샘플 확률 분포를 비교한 결과 유의(p-value=1.10×10-9)하게 샘플 확률이 작은 경우 돌연변이가 많이 발생하였다. 이러한 결과는 유방암의 게놈 시스템이 붕괴하는 정도가 돌연변이의 발생 빈도와 관련이 있음을 제시한다. 또한, 세포 주기와 돌연변이의 발생 사이에 관련을 검증하기 위해 세포 주기 관련 GO 텀 유전자 세트에 포함된 1,944개의 유전자만을 이용하여 동일한 방법으로 계산한 샘플 확률 분포의 차이는 역시 유의(p-value=1.58 × 10-9)하게 SP가 작은 경우에서 돌연변이가 많이 발생했다. 이와 같은 결과는 돌연변이의 발생이 세포 주기 관련 GO 텀 이외의 광범위한 게놈의 기능과 연관되어 있음을 암시한다.
또한, 연구자는 돌연변이의 발생과 연관된 세포 주기 관련 GO 텀을 탐색하기 위해 돌연변이의 개수에 따라 샘플 그룹을 나누어 GSP의 분포를 비교하였다.돌연변이와 연관성이 큰 GO 텀(highly significant GO term on mutation, 이하 HSGO)은 3, 18, 2, 20, 39, 15, 32, 55, 33, 4, 75, 35, 7, 69, 29, 22, 28, 74 및 54번이었다(p-value < 5.0 × 10-9). 상기 GO 텀들은 돌연변이 개수가 90개를 기준으로 그 이상 발생한 샘플 그룹과 그 미만으로 발생한 그룹 상의 GSP 분포를 비교하여 두 그룹 사이의 GSP 차이의 유의성이 감소하는 순으로 나열한 것이다. 78개 세포 주기 관련 GO 텀 중 돌연변이와 가장 연관성이 낮은 GO 텀 58번에서도 p-value는 0.05보다 작았다(p-value = 0.045). 따라서 78개의 세포 주기 관련 GO 텀 모두 유방암에서 돌연변이의 발생과 직간접적으로 관련되어 있음을 의미한다.
연구자는 돌연변이의 발생과 세포 주기 관련 GO 텀 사이의 연관성을 정확히 규명하기 위해 HSGO에 대한 GSP를 기준으로 BRCA 샘플을 분류하였다. 도 17은 특정 GO 텀들에 대한 GSP를 기준으로 BRCA 샘플의 계층적 클러스터링을 수행한 예이다. 도 17은 BRCA 샘플들을 상기 특정 GO 텀들의 유전자 세트에 대한 GSP를 기준으로 계층적 클러스터링을 수행한 결과이다. 클러스터링 결과는 전체 샘플들을 계층적으로 구분하는데 가장 크게는 루트의 좌측 그룹과 우측 그룹으로 구분된다. 좌측 그룹(R.1) 및 우측(R.2) 그룹에 속한 샘플군의 돌연변이 개수(mean±SD)는 각각 89.6±52.2 및 129.7±58.3이었고, 유의(p-value=8.63×10-7)한 차이를 보였다. 나아가 연구자는 두 샘플 그룹들에서 각 GO 텀에 대해 돌연변이 개수의 로그값과 GSP 사이에 선형 회귀를 수행하였다. 선형 회귀 결과 R.1 그룹에서는 유의(p-value < 0.05)한 GO 텀을 찾을 수 없었으나, R.2 그룹에서는 유의한 GO 텀이 11개(36, 15, 38, 14, 16, 23, 26, 3, 63, 13 및 54)가 관찰되었다.
이와 같은 연구 결과는 GO 텀 유전자 세트에 대하여 GSP가 종양과 같은 표현형을 평가하는 지표가 될 수 있다는 점을 분명하게 나타낸다. 즉, 특정 샘플(환자)에 대한 GO 텀 유전자 세트에 대하여 GSP의 값은 종양의 발병, 종양의 악성 정도, 종양 치료의 타깃 등에 대한 정보를 제공할 수 있다.
GLOR(GO log odds ratio)
전술한 바와 같이 개별 종양 환자에서 세포 주기 관련 GO 텀 유전자 세트의 게놈 시스템이 정상 상태로부터 이탈하는 데 관련된 유전자를 탐색하는 것은 실질적 의미에서 중요한 가치를 지닌다. 개별 종양 샘플에서 정상으로부터 이탈하는 데 각 유전자가 관련되는 정도는 그 유전자의 발현 정도로 알 수 없고, 시스템의 구성 요소로서 이탈에 기여하는 정도를 측정할 수 있어야 한다.
분석 대상인 유전자를 대상 유전자라고 명명한다. 개별 환자의 샘플에서 한 게놈 시스템으로부터 특정한 대상 유전자를 제거하기 전후에 샘플의 샘플 확률의 승산비(odds ratio)는 대상 유전자가 정상으로부터의 이탈에 관련된 정도를 나타낸다.
n개의 유전자들로 구성된 유전자군 G는 n 차원 유전자 공간
Figure PCTKR2022020687-appb-img-000049
를 형성한다. 이 공간 내에서 샘플 i에서 측정된 G의 발현 데이터는 발현 벡터
Figure PCTKR2022020687-appb-img-000050
를 정의한다. 이 유전자 공간 내에서 정상 샘플들에서 측정된 유전자 발현 데이터의 밀도 행렬 ρ는 해당 유전자군의 특성(emerging traits)을 정의한다. 도 18은 밀도 행렬 ρ를 갖는 게놈 시스템에 대하여 개별 샘플에서 특정 유전자의 LOR을 설명하는 예이다. 한 샘플 i에서 G의 활성 정도는 도 18에서 보는 바와 같이 샘플 확률 pi로 표시할 수 있다. 한편, 샘플 i의 샘플 확률 pi\j(G에서 유전자 j를 제외한 경우의 샘플 확률)가 pi로부터 변이되는 정도는 아래 수학식 11로 표현되는 샘플 확률에 대한 LORij로 알 수 있다. LORij는 샘플 i에서 유전자 j가 유전자군 G로 구성되는 게놈 시스템에 대한 기여도라고 할 수 있다.
Figure PCTKR2022020687-appb-img-000051
pi는 샘플 i의 G에 대한 샘플 확률이고, pi\j는 샘플 i의 G에서 유전자 j를 제외한 다른 유전자들에 대한 샘플 확률이다. LOR은 종양에서 개별 샘플의 각 유전자가 게놈 시스템의 붕괴와 연관된 정도를 나타낸다.
나아가, 샘플 i의 유전자들 중 GO 텀에 관련된 유전자군(GO 텀 유전자 세트)에 대한 LOR를 연산할 수 있다. GO 텀 유전자 세트를 대상으로 하는 LOR를 GLOR라고 명명한다. 이 경우, GLOR는 GO 텀 유전자 세트를 대상으로 유전자 j가 해당 유전자 세트에 기여하는 정도를 나타낸다. GLOR는 상기 수학식 11로 연산될 수 있고, 이때 pi는 샘플 i의 G는 GO 텀 유전자 세트에 대한 샘플 확률이 된다.
연구자는 유방암 조직(BRCA)에서 세포 주기 관련 GO 텀 유전자 세트 각각에 대한 GLOR을 연산하였다. 연구자는 GO 텀 6번(cell division)에 대해 개별 BRCA 샘플에서 각 유전자가 GO 텀 6번의 게놈 시스템이 정상 상태로부터 이탈하는데 관련된 정도를 파악하였다.
연구자는 GLOR의 결과와 비교하기 위하여 동일 샘플에 대한 유전자 세트에 대하여 LER(log expression 연구자는 GLOR의 결과와 비교하기 위하여 동일 샘플에 대한 유전자 세트에 대하여 LER(log expression ratio)을 연산하였다. LER은 마이크로어레이 기술을 사용해서 측정된 유전자 발현 데이터로 각 유전자의 mRNA 변동율을 의미한다. LER은 각 유전자의 mRNA 변동율을 표준적으로 사용하는 log2 LOWESS normalization 과정을 통해 정제한 데이터이다. 개별 샘플의 LER의 분포는 각 유전자에서 대조군과 실험군을 비교할 수는 있으나, 생물학적 의미를 제시하기는 어렵다. 도 19는 BRCA 및 BRNO 샘플들에서 특정 GO 텀의 게놈 시스템에 대한 각 유전자의 GLOR를 LER과 비교한 예이다. 도 19(A)은 BRCA 및 BRNO 샘플들에서 GO 텀 6번의 게놈 시스템에 대한 각 유전자의 GLOR을 계산한 결과이다. 도 19(B)는 BRCA 및 BRNO 샘플들에서 GO 텀 6번에 속하는 유전자의 LER을 도시한 결과이다. 도 19(A)에서 BRNO의 LER에 대해 BRCA가 유의(p < 0.05)한 차이를 보여주는 유전자는 163개 중에서 122개였다. 그러나 LER의 변이는 GO와는 상관이 없어 세포 분열이라는 세포 기능의 실조에 대한 유전자들의 기여도를 보여주지는 못한다. 반면, 도 19(B)에서 GLOR은 108 개의 유전자에서 BRNO에 대해 BRCA가 유의한 차이를 보였다. 각 유전자의 LER 분포 범위는 BRNO와 BRCA 사이에 큰 차이가 없어, BRCA의 IQR(interquartile range)이 BRNO의 평균 1.67배였다. 또한, 분포 영역도 유전자에 따라 변동이 컸다. 반면에 BRCA GLOR의 IQR은 BRNO의 평균 9.93배에 이르렀다. 분포 영역도 BRNO는 0 근처에 집중되어 있으며, BRCA의 유전자들의 GLOR의 분포는 전체적으로 보아 0을 중심으로 위 및/또는 아래로 확장하는 형태를 보여준다. 이러한 현상은 게놈 시스템의 붕괴가 미미한 샘플의 GLOR은 BRNO의 GLOR 분포 영역 내 혹은 그 영역에 근접하기 때문이다. GLOR의 이러한 특성을 이용하여 종양에서 GO의 붕괴와 관련도가 큰 유전자를 추출하였다. 먼저, 개별 유전자 i의 LOR의 중앙값을 계산하고,
Figure PCTKR2022020687-appb-img-000052
밖에 위치하는 유전자를 탐색하였다. BRCA 248개 샘플에서는 평균적으로 GO 텀 6번에서 6개 유전자들(FGF2, FIGF, NANOG, PDGFD, POU5F1 SCG2)이 유방암에서 "세포 분열"의 게놈 시스템의 붕괴에 보다 크게 기여함을 알 수 있었다.
개별 환자에서 GLOR의 의미를 살펴보면, 샘플 확률이 제일 큰 BRCA 41번 환자(p = 0.657)의 경우 모든 유전자에서 GLOR이 BRNO에 근접하여 분포하고 있었고, LOR이 BRCA의 IQR 밖에 분포하는 유전자는 없었다. 샘플 확률이 약간 작은 BRCA 42 번 환자(p = 0.630)는 BRNO의 분포 범위로부터 벗어나는 정도가 41번 환자보다 조금 더 크지만 역시 근접해 있으며, GLOR이 IQR 외부에 분포하는 유전자는 POU5F1SCG2의 두 개에 불과했다. 반면에 샘플 확률이 가장 작은 BRCA 4번 환자(p = 0.155)의 GLOR은 양쪽 극단으로 치우침을 볼 수 있어 IQR 외부에 분포하는 유전자는 163개 중에서 49개였다. 또한, 4번 환자보다 샘플 확률이 약간 큰 18번 환자(p = 0.191)도 역시 양 극단으로 치우쳐 분포하는 경향을 보여 IQR 외부에 분포하는 유전자는 4번 환자보다 보다는 적지만 35개에 이르렀다.
GLOR은 GO 텀 유전자 세트에서 하나의 유전자에 의한 샘플 확률의 승산비를 계산한 것이기 때문에 GO 텀에 따라 해당 유전자의 LOR은 다를 수밖에 없다. 예를 들어 유전자 ASPM의 경우 GO 텀 6번과 46번(mitotic nuclear division)에 포함되는데, BRCA에서 GO 텀 6번의 게놈 시스템이 변형되는 데 있어 평균적으로 보아 유의한 기여를 하지 않는 반면 GO 텀 46번의 게놈 시스템에서는 유의하게 게놈 시스템의 붕괴에 기여한다.
도 20은 BRCA 및 BRNO 샘플들에서 세포 주기 관련 GO 텀 6번과 46번 게놈 시스템에 대한 유전자 ASPM의 GLOR과 LER의 예이다. 도 20(A)가 LER이고, 도 20(B)가 GLOR에 대한 예이다. 도 20에서 보는 바와 같이 LER의 분포는 GO 텀에 따라 달라질 수 없으나, GLOR은 BRNO 및 BRCA 모두 GO 텀 6번과 46번에서 다른 분포를 보이고 있다. 나아가, 개별 샘플의 GLOR도 역시 두 GO 텀 사이에서 다르다. 이와 같은 결과는 GLOR이 여러 생물학적 기능에서 기능하는 유전자가 관련된 각각의 게놈 시스템들에서의 기여도를 수치화할 수 있으며, 악성 종양을 포함한 질병에서 게놈 시스템의 변이 정도를 보여줄 수 있음을 시사한다.
이하 전술한 GSP 및 GLOR을 이용하여 샘플을 분석하는 과정을 정리한다. 한편, 연구자는 유방암 샘플을 사용하면서 세포 주기 관련 GO 텀을 중심으로 연구하였다. 다만, 전술한 방법론은 특정 표현형(질환)이나 특정 GO 텀에 제한되지 않는다. 따라서, 이하 설명하는 샘플 분석 방법은 다양한 표현형에 대하여 어느 GO 텀으로 결정되는 유전자 세트를 이용하여 샘플이 정상으로부터 변이된 정도를 나타낼 수 있다.
도 21은 유전자 온톨로지 기반 샘플에 대한 분석 지표를 산출하는 과정(200)에 대한 예이다. 도 21은 분석장치를 서버인 예로 도시하였다.
분석장치는 샘플의 유전자 발현 데이터 및 특정 GO 텀을 입력받는다(210). 특정 GO 텀은 질환의 종류, 치료 타깃 등에 따라 달라질 수 있다. GO 텀은 복수개의 텀일 수도 있다.
분석장치는 입력받은 GO 텀을 GO 데이터베이스에 쿼리하여 해당 GO 텀 유전자 세트의 정보를 수신한다(220).
분석장치는 샘플의 유전자 발현 데이터에서 GO 텀 유전자 세트에 포함된 유전자들의 발현 데이터를 추출한다(230). 여기서 GO 텀은 단일 텀 또는 복수의 텀일 수 있다. 복수의 GO 텀인 경우, 추출되는 유전자들은 복수의 GO 텀 각각에 연관된 유전자들을 포함한다.
분석장치는 정상 조직 유전자 데이터베이스로부터 GO 텀 유전자 세트에 포함된 유전자들의 발현 데이터(참조 유전자 세트 발현 데이터)를 수신한다(240). 또는, 분석장치는 정상 조직 유전자 데이터베이스로부터 정상 조직의 유전자 발현 데이터를 수신하고, 수신한 유전자 발현 데이터에서 GO 텀 유전자 세트에 포함된 유전자들의 발현 데이터(참조 유전자 세트 발현 데이터)를 추출한다(240). 여기서 GO 텀은 단일 텀 또는 복수의 텀일 수 있다. 복수의 GO 텀인 경우, 추출되는 유전자들은 복수의 GO 텀 각각에 연관된 유전자들을 포함한다.
분석장치는 샘플의 GO 텀 유전자 세트의 유전자 발현 데이터 및 참조 유전자 세트 발현 데이터를 이용하여 샘플 확률(GSP)을 연산한다(250). 분석장치는 단일 GO 텀별로 GSP를 연산할 수 있다. 또는 분석장치는 복수의 GO 텀들에 대한 GSP를 연산할 수도 있다. 분석장치는 연산한 GSP를 기준으로 샘플에 대한 분석 결과(변이 정도, 질환의 악성 정도, 치료 타깃 등)를 도출할 수 있다.
또한, 분석장치는 샘플의 GO 텀 유전자 세트의 유전자 발현 데이터 및 참조 유전자 세트 발현 데이터를 이용하여 GLOR를 연산한다(260). 수학식 10에서 설명한 바와 같이 분석장치는 샘플의 GO 텀 유전자 세트 중 어느 유전자를 제거하고 남은 유전자들의 샘플 확률과 전체 유전자 세트에 대한 샘플 확률을 이용하여 GLOR을 연산할 수 있다. 분석장치는 단일 GO 텀별로 GLOR을 연산할 수 있다. 또는 분석장치는 복수의 GO 텀들에 대한 GLOR을 연산할 수도 있다. 분석장치는 연산한 GLOR을 기준으로 샘플에 대한 분석 결과(변이 정도, 질환의 악성 정도, 치료 타깃 등)를 도출할 수 있다.
도 22는 유전자 온톨로지 기반 샘플에 대한 분석 지표를 산출하는 과정(300)에 대한 다른 예이다. 도 21은 분석장치를 서버인 예로 도시하였다. 도 22는 도 21와 달리 참조 조직이 정상 조직이 아닌 종양 조직이다. 도 21은 분석장치가 샘플을 정상 조직과의 관계에서 샘플에 대한 GSP나 LOR를 연산한 예이다. 도 22는 분석장치가 샘플을 종양 조직과의 관계에서 샘플에 대한 GSP나 LOR를 연산한 예이다. 따라서, 분석장치가 산출하는 GSP는 샘플이 종양 조직과 유사한 정도에 대한 정보를 제공한다. 분석 장치가 산출하는 LOR은 샘플의 어느 유전자가 샘플 조직이 종양 조직과 유사한 특성을 갖는데 기여하는 정도를 나타낸다. 전술한 GSP 및 LOR 산출 과정에서 정상 조직 대신 종양 조직의 참조 데이터를 이용하면 이와 같은 결과를 얻을 수 있다.
분석장치는 샘플의 유전자 발현 데이터 및 특정 GO 텀을 입력받는다(310). 특정 GO 텀은 질환의 종류, 치료 타깃 등에 따라 달라질 수 있다. GO 텀은 복수개의 텀일 수도 있다.
분석장치는 입력받은 GO 텀을 GO 데이터베이스에 쿼리하여 해당 GO 텀 유전자 세트의 정보를 수신한다(320).
분석장치는 샘플의 유전자 발현 데이터에서 GO 텀 유전자 세트에 포함된 유전자들의 발현 데이터를 추출한다(330). 여기서 GO 텀은 단일 텀 또는 복수의 텀일 수 있다. 복수의 GO 텀인 경우, 추출되는 유전자들은 복수의 GO 텀 각각에 연관된 유전자들을 포함한다.
분석장치는 종양 조직 유전자 데이터베이스로부터 GO 텀 유전자 세트에 포함된 유전자들의 발현 데이터(참조 유전자 세트 발현 데이터)를 수신한다(340). 또는, 분석장치는 종양 조직 유전자 데이터베이스로부터 종양 조직의 유전자 발현 데이터를 수신하고, 수신한 유전자 발현 데이터에서 GO 텀 유전자 세트에 포함된 유전자들의 발현 데이터(참조 유전자 세트 발현 데이터)를 추출한다(340). 여기서 GO 텀은 단일 텀 또는 복수의 텀일 수 있다. 복수의 GO 텀인 경우, 추출되는 유전자들은 복수의 GO 텀 각각에 연관된 유전자들을 포함한다.
분석장치는 샘플의 GO 텀 유전자 세트의 유전자 발현 데이터 및 참조 유전자 세트 발현 데이터를 이용하여 샘플 확률(GSP)을 연산한다(350). 분석장치는 단일 GO 텀별로 GSP를 연산할 수 있다. 또는 분석장치는 복수의 GO 텀들에 대한 GSP를 연산할 수도 있다. 분석장치는 연산한 GSP를 기준으로 샘플에 대한 분석 결과(변이 정도, 질환의 악성 정도, 치료 타깃 등)를 도출할 수 있다.
또한, 분석장치는 샘플의 GO 텀 유전자 세트의 유전자 발현 데이터 및 참조 유전자 세트 발현 데이터를 이용하여 GLOR를 연산한다(360). 수학식 10에서 설명한 바와 같이 분석장치는 샘플의 GO 텀 유전자 세트 중 어느 유전자를 제거하고 남은 유전자들의 샘플 확률과 전체 유전자 세트에 대한 샘플 확률을 이용하여 GLOR을 연산할 수 있다. 분석장치는 단일 GO 텀별로 GLOR을 연산할 수 있다. 또는 분석장치는 복수의 GO 텀들에 대한 GLOR을 연산할 수도 있다. 분석장치는 연산한 GLOR을 기준으로 샘플에 대한 분석 결과(변이 정도, 질환의 악성 정도, 치료 타깃 등)를 도출할 수 있다.
도 23은 유전자 온톨로지 기반 유전자 데이터를 분석하는 분석 장치(400)에 대한 예이다. 분석장치(400)는 도 1의 분석 장치(140, 150 또는 160)에 해당하는 장치이다. 분석장치(400)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(400)는 PC, 스마트 기기, 네트워크상의 서버, 데이터 처리 전용 칩셋 등의 형태를 가질 수 있다.
분석장치(400)는 저장장치(410), 메모리(420), 연산장치(430), 인터페이스 장치(440), 통신장치(450) 및 출력장치(460)를 포함할 수 있다.
저장장치(410)는 데이터 처리에 필요한 프로그램 내지 소스 코드 등을 저장할 수 있다.
저장장치(410)는 샘플의 유전자 발현 데이터를 저장할 수 있다.
저장장치(410)는 정상 조직 또는 종양 조직에 대한 유전자 발현 데이터(참조 유전자 발현 데이터)를 저장할 수 있다.
저장장치(410)는 분석 결과 및 분석 결과를 시각적으로 처리한 정보를 저장할 수 있다.
메모리(420)는 분석장치(400)가 유전자 온톨로지 기반 유전자 데이터를 분석하는 과정에서 생성되는 데이터 및 정보 등을 저장할 수 있다.
인터페이스 장치(440)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다.
인터페이스 장치(440)는 샘플의 유전자 발현 데이터를 입력받을 수 있다.
인터페이스 장치(440)는 참조 유전자 발현 데이터를 입력받을 수 있다.
인터페이스 장치(440)는 물리적으로 연결된 입력 장치 또는 외부 저장장치로부터 샘플의 유전자 발현 데이터 및/또는 참조 유전자 발현 데이터를 입력받을 수 있다.
인터페이스 장치(440)는 GO 텀을 입력받을 수 있다. 인터페이스 장치(440)는 특정 GO 텀(들)에 관련된 유전자 세트 정보를 입력받을 수 있다.
통신장치(450)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다.
통신장치(450)는 외부 객체로부터 샘플의 유전자 발현 데이터를 수신할 수 있다.
통신장치(450)는 외부 객체로부터 참조 유전자 발현 데이터를 수신할 수 있다.
통신장치(450)는 GO 텀을 입력받을 수 있다. 통신장치(450)는 특정 GO 텀(들)에 관련된 유전자 세트 정보를 입력받을 수 있다.
통신장치(450)는 샘플에 대한 분석 결과를 외부 객체로 송신할 수 있다.
통신장치(450) 내지 인터페이스 장치(440)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(450) 내지 인터페이스 장치(440)를 입출력 장치라고 할 수 있다. 또한, 정보 입력 가능만을 고려하면 통신장치(450) 내지 인터페이스 장치(440)를 입력장치라고 명명할 수도 있다.
출력장치(460)는 일정한 정보를 출력하는 장치이다. 출력장치(460)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.
연산 장치(430)는 샘플의 유전자 발현 데이터 및/또는 참조 유전자 발현 데이터를 일정하게 전처리할 수 있다.
연산 장치(430)는 GO 텀 관련된 유전자 세트의 정보를 기준을 샘플의 유전자 발현 데이터 중 GO 텀 관련된 유전자 세트에 속한 유전자들의 발현 데이터를 추출할 수 있다.
연산 장치(430)는 GO 텀 관련된 유전자 세트의 정보를 기준을 참조 유전자 발현 데이터 중 GO 텀 관련된 유전자 세트에 속한 유전자들의 발현 데이터를 추출할 수 있다. 여기서, GO 텀은 적어도 하나의 텀을 포함한다.
연산 장치(430)는 GO 텀 관련된 유전자 세트를 대상으로 샘플의 유전자 발현 데이터와 참조 유전자 발현 데이터를 이용하여 GSP를 연산할 수 있다. GSP 연산 과정은 전술한 바와 같다.
연산 장치(430)는 GO 텀 관련된 유전자 세트를 대상으로 어느 하나의 유전자가 변이 정도에 기여하는 정보인 GLOR을 연산할 수 있다. GLOR 연산 과정은 전술한 바와 같다.
연산 장치(430)는 샘플에 대한 GSP 및/또는 GLOR을 기준으로 샘플에 대한 분석 결과(변이 정도, 질환의 악성 정도, 치료 타깃 등)를 도출할 수 있다.
연산 장치(430)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
또한, 상술한 바와 같은 샘플의 유전체 데이터 분석 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (10)

  1. 분석장치가 샘플의 유전자 발현 데이터 및 참조 조직의 유전자 발현 데이터를 입력받는 단계;
    상기 분석장치가 적어도 하나의 유전자 온톨로지 텀(gene ontology term)에 관련된 유전자 세트 정보를 입력받는 단계;
    상기 분석장치가 상기 샘플의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제1 유전자 발현 데이터 및 상기 참조 조직의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제2 유전자 발현 데이터를 추출하는 단계; 및
    상기 분석장치가 상기 제1 유전자 발현 데이터 및 상기 제2 유전자 발현 데이터를 대상으로 엔트로피를 연산하여 상기 참조 조직 기준으로 상기 샘플의 변이 정도를 연산하는 단계를 포함하되,
    상기 엔트로피는 상기 유전자 세트에 속하는 유전자들의 전사 상태를 정의하는 밀도 행렬에서 확률 분포의 비균일성을 나타내는 유전자 온톨로지 기반 유전자 데이터 분석 방법.
  2. 제1항에 있어서,
    상기 분석장치는 상기 제1 유전자 발현 데이터를 이용하여 유전자 공간에서의 상기 밀도 행렬을 구하고, 상기 제2 유전자 발현 데이터를 이용하여 발현 벡터를 구하여 상기 변이 정도를 결정하는 유전자 온톨로지 기반 유전자 데이터 분석 방법.
  3. 제1항에 있어서,
    상기 변이 정도는 아래의 수식으로 연산되는 유전자 온톨로지 기반 유전자 데이터 분석 방법.
    Figure PCTKR2022020687-appb-img-000053
    (여기서,
    Figure PCTKR2022020687-appb-img-000054
    는 샘플 확률이고, Gα은 참조 유전체 발현 데이터에서 상기 유전자 세트 α에 포함된 유전자 집합의 발현행렬, s는 샘플 발현 데이터 si에서 α에 포함된 유전자 발현 벡터임)
  4. 제1항에 있어서,
    상기 분석장치가 상기 제1 유전자 발현 데이터와 상기 제1 유전자 발현 데이터에서 특정 유전자를 제외시킨 잔여 유전자 발현 데이터의 변이 정도를 비교하여 상기 특정 유전자가 상기 변이 정도에 기여하는 정도를 결정하는 단계를 더 포함하는 유전자 온톨로지 기반 유전자 데이터 분석 방법.
  5. 제4항에 있어서,
    상기 분석장치가 상기 제1 유전자 발현 데이터와의 변이 정도와 상기 잔여 유전자 발현 데이터의 변이 정도를 기준으로 LOR(log odds ratio)을 연산하여 상기 기여하는 정도를 결정하는 유전자 온톨로지 기반 유전자 데이터 분석 방법.
  6. 적어도 하나의 유전자 온톨로지 텀(gene ontology term)에 관련된 유전자 세트 정보를 입력받는 입력장치;
    샘플의 유전자 발현 데이터 및 참조 조직의 유전자 발현 데이터를 저장하는 저장장치; 및
    상기 샘플의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제1 유전자 발현 데이터 및 상기 참조 조직의 유전자 발현 데이터 중 상기 유전자 세트에 속하는 유전자들에 대한 제2 유전자 발현 데이터를 추출하고, 상기 제1 유전자 발현 데이터 및 상기 제2 유전자 발현 데이터를 대상으로 엔트로피를 연산하여 상기 참조 조직 기준으로 상기 샘플의 변이 정도를 연산하는 연산장치를 포함하되,
    상기 엔트로피는 상기 유전자 세트에 속하는 유전자들의 전사 상태를 정의하는 밀도 행렬에서 확률 분포의 비균일성을 나타내는 유전자 온톨로지 기반 유전자 데이터를 분석하는 분석장치.
  7. 제6항에 있어서,
    상기 유전자 세트 정보는 유전자 온톨로지 데이터베이스에 상기 유전자 온톨로지 텀을 쿼리하여 획득하는 유전자 온톨로지 기반 유전자 데이터를 분석하는 분석장치.
  8. 제6항에 있어서,
    상기 연산장치는 상기 제1 유전자 발현 데이터를 이용하여 유전자 공간에서의 상기 밀도 행렬을 구하고, 상기 제2 유전자 발현 데이터를 이용하여 발현 벡터를 구하여 상기 변이 정도를 결정하는 유전자 온톨로지 기반 유전자 데이터를 분석하는 분석장치.
  9. 제6항에 있어서,
    상기 변이 정도는 아래의 수식으로 연산되는 유전자 온톨로지 기반 유전자 데이터를 분석하는 분석장치.
    Figure PCTKR2022020687-appb-img-000055
    (여기서,
    Figure PCTKR2022020687-appb-img-000056
    는 샘플 확률이고, Gα은 참조 유전체 발현 데이터에서 상기 유전자 세트 α에 포함된 유전자 집합의 발현행렬, s는 샘플 발현 데이터 si에서 α에 포함된 유전자 발현 벡터임)
  10. 제6항에 있어서,
    상기 연산치는 상기 제1 유전자 발현 데이터의 상기 변이 정도와 상기 제1 유전자 발현 데이터에서 특정 유전자를 제외시킨 잔여 유전자 발현 데이터의 변이 정도를 기준으로 LOR(log odds ratio)을 연산하여 상기 특정 유전자가 상기 변이 정도에 기여하는 정도를 결정하는 유전자 온톨로지 기반 유전자 데이터를 분석하는 분석장치.
PCT/KR2022/020687 2021-12-20 2022-12-19 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치 WO2023121166A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210183137A KR20230094009A (ko) 2021-12-20 2021-12-20 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치
KR10-2021-0183137 2021-12-20

Publications (1)

Publication Number Publication Date
WO2023121166A1 true WO2023121166A1 (ko) 2023-06-29

Family

ID=86903375

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/020687 WO2023121166A1 (ko) 2021-12-20 2022-12-19 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치

Country Status (2)

Country Link
KR (1) KR20230094009A (ko)
WO (1) WO2023121166A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080086332A (ko) * 2007-03-21 2008-09-25 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
US20180165413A1 (en) * 2016-04-20 2018-06-14 Soochow University Gene expression data classification method and classification system
WO2019093695A1 (ko) * 2017-11-13 2019-05-16 한양대학교 산학협력단 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법
WO2019131785A1 (ja) * 2017-12-26 2019-07-04 国立大学法人京都大学 個々の細胞情報から組織高次元情報を推定する装置、方法、プログラム
KR20200131750A (ko) * 2019-05-14 2020-11-24 한양대학교 산학협력단 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법 및 분석장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170000707A (ko) 2015-06-24 2017-01-03 삼성전자주식회사 유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080086332A (ko) * 2007-03-21 2008-09-25 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
US20180165413A1 (en) * 2016-04-20 2018-06-14 Soochow University Gene expression data classification method and classification system
WO2019093695A1 (ko) * 2017-11-13 2019-05-16 한양대학교 산학협력단 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법
WO2019131785A1 (ja) * 2017-12-26 2019-07-04 国立大学法人京都大学 個々の細胞情報から組織高次元情報を推定する装置、方法、プログラム
KR20200131750A (ko) * 2019-05-14 2020-11-24 한양대학교 산학협력단 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법 및 분석장치

Also Published As

Publication number Publication date
KR20230094009A (ko) 2023-06-27

Similar Documents

Publication Publication Date Title
Zhao et al. Detection of differentially abundant cell subpopulations in scRNA-seq data
Sergushichev An algorithm for fast preranked gene set enrichment analysis using cumulative statistic calculation
Jiang et al. Genome-wide analysis of developmental and sex-regulated gene expression profiles in Caenorhabditis elegans
Lobo Basic local alignment search tool (BLAST)
Chaisson et al. Mapping single molecule sequencing reads using basic local alignment with successive refinement (BLASR): application and theory
Chen et al. Selection of differentially expressed genes in microarray data analysis
WO2018143540A1 (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
Liu et al. Prediction of Polycomb target genes in mouse embryonic stem cells
WO2017135496A1 (ko) 약물과 단백질 간 관계 분석 방법 및 장치
Costa et al. Predicting gene expression in T cell differentiation from histone modifications and transcription factor binding affinities by linear mixture models
WO2021125744A1 (en) Method and system for providing interpretation information on pathomics data
Guo et al. Discovering nuclear targeting signal sequence through protein language learning and multivariate analysis
Mazo-Vargas et al. Deep cis-regulatory homology of the butterfly wing pattern ground plan
WO2023121166A1 (ko) 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치
Chen et al. A multiple information fusion method for predicting subcellular locations of two different types of bacterial protein simultaneously
Méndez et al. Discriminant analysis to evaluate clustering of gene expression data
WO2019093695A1 (ko) 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법
Tenenhaus et al. Gene association networks from microarray data using a regularized estimation of partial correlation based on PLS regression
Liu et al. Block-constraint robust principal component analysis and its application to integrated analysis of TCGA data
Li et al. SENIES: DNA shape enhanced two-layer deep learning predictor for the identification of enhancers and their strength
Ghazanfar et al. StabMap: mosaic single cell data integration using non-overlapping features
WO2024049266A1 (ko) Nft화된 유전자 정보 기반 사용자 인증 방법, 장치 및 시스템
Li U-statistics in genetic association studies
WO2023038501A1 (ko) 약물과 셀 라인의 유사도 행렬에 기반한 합성곱 신경망을 이용하여 약물 반응을 예측하는 시스템
Taguchi et al. Mathematical formulation and application of kernel tensor decomposition based unsupervised feature extraction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22911799

Country of ref document: EP

Kind code of ref document: A1