KR20010052341A - Quantitative methods, systems and apparatuses for gene expression analysis - Google Patents

Quantitative methods, systems and apparatuses for gene expression analysis Download PDF

Info

Publication number
KR20010052341A
KR20010052341A KR1020007012657A KR20007012657A KR20010052341A KR 20010052341 A KR20010052341 A KR 20010052341A KR 1020007012657 A KR1020007012657 A KR 1020007012657A KR 20007012657 A KR20007012657 A KR 20007012657A KR 20010052341 A KR20010052341 A KR 20010052341A
Authority
KR
South Korea
Prior art keywords
gene expression
gene
signal
expression profile
profile
Prior art date
Application number
KR1020007012657A
Other languages
Korean (ko)
Inventor
스튜워트 쉬에럴
Original Assignee
로제타 인파마틱스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로제타 인파마틱스 인코포레이티드 filed Critical 로제타 인파마틱스 인코포레이티드
Publication of KR20010052341A publication Critical patent/KR20010052341A/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 프로파일의 관련성을 정량하고, 사전선택된 단일 유전자 프로파일에 대하여 복수의 유전자 발현 프로파일의 관련성을 정렬하는 방법을 제공한다. 이런 방법은 세포에 대한 환경조건의 관련성, 예를 들면, 세포에 대한 제약학적 약물의 효과에서 관련성을 정량하는데 유용하다. 이런 방법은 또한, 세포의 한정된 유전자 돌연변이에 대한 사전선택된 환경조건의 관련성을 정량하고, 복수의 유전자 돌연변이의 관련성을 정량하는데 유용하다. 또한, 이런 방법을 실행하기 위한 시스템과 장치를 제시한다. 더 나아가, 유전자 발현 분석을 위한 유전자의 유익한 부분집합을 선택하는 정량 방법, 시스템, 장치를 제공한다.The present invention provides a method of quantifying the association of a first gene expression profile with a second gene profile and aligning the association of a plurality of gene expression profiles with respect to a single preselected gene profile. This method is useful for quantifying the relevance of environmental conditions to cells, for example, the effects of pharmaceutical drugs on cells. This method is also useful for quantifying the relevance of preselected environmental conditions to defined gene mutations in cells, and for quantifying the relevance of multiple gene mutations. It also presents a system and apparatus for implementing this method. Furthermore, provided are quantitative methods, systems, and apparatus for selecting a beneficial subset of genes for gene expression analysis.

Description

유전자 발현 분석을 위한 정량 방법, 시스템, 장치{QUANTITATIVE METHODS, SYSTEMS AND APPARATUSES FOR GENE EXPRESSION ANALYSIS}Quantitative Methods, Systems, and Apparatus for Gene Expression Analysis {QUANTITATIVE METHODS, SYSTEMS AND APPARATUSES FOR GENE EXPRESSION ANALYSIS}

전통적인 약물 개발에서, 공지된 생물화학적 경로상의 효소와 같은 특이적 약물 표적을 먼저 선택한다. 이후, 선택된 표적에 특이적인 하나 또는 복수의 시험관내 또는 생체내 분석법을 개발해야 한다. 표적이 선택되고, 특이적인 분석법이 개발된 이후에야, 원하는 활성을 보유한 화학적 화합물을 선별할 수 있다. 일단, 지정된 분석법에서 선택된 표적에 대하여 원하는 활성을 보유한 화합물이 확인되면, 이들 초기 주도 화합물은 좀더 유익한 치료요법적, 약물동태적, 임상적 특성을 보유한 유도체를 개발하기 위한 속성역할을 한다. 이들 유도체의 생물활성은 주도 화합물을 확인할 때와 동일한 지정된 분석법을 이용하여 평가한다.In traditional drug development, specific drug targets such as enzymes on known biochemical pathways are first selected. Thereafter, one or a plurality of in vitro or in vivo assays specific for the selected target should be developed. Only after a target is selected and specific assays have been developed can a chemical compound possessing the desired activity be selected. Once the compounds possessing the desired activity for the selected targets in the designated assays are identified, these early prototyping compounds play a role in the development of derivatives with more beneficial therapeutic, pharmacokinetic and clinical properties. The bioactivity of these derivatives is assessed using the same designated assays as when identifying the dominating compounds.

전통적인 약물 개발 전형에서 전술한 단계 각각은 임상전 시험에서 장래성 있던 화합물이 임상실험에 실패하게 되는 원인이 된다.Each of the above mentioned steps in a traditional drug development prototype causes compounds that were prospective in preclinical testing to fail clinical trials.

먼저, 약물 표적의 선택은 약물이 목표로 하는 질병 또는 병인과정과 임상적으로 연관된 생물 경로의 지식을 전제로 한다. 임상실험이 시작된 후, 선택된 표적은 생리학적으로 부적절한 것으로 입증될 수도 있다. 가령, 표적은 다수의 관련된 또는 무관한 생물경로에 관여할 수 있다. 지정된 시험관내 분석으로 이들 평행 또는 교차하는 생물 경로에 대한 후보 약물의 효과를 확인하지 못할 수도 있다. 결과로, 시험관내에서 표적활성에 긍정적인 영향을 주는 약물이 생체내에 투여되는 경우, 예상치 못한 독성 또는 바람직하지 않은 부작용을 유발할 수도 있다.First, the selection of drug targets presupposes knowledge of the biological pathways clinically associated with the disease or etiology that the drug targets. After the clinical trial begins, the selected target may prove to be physiologically inappropriate. For example, a target may be involved in a number of related or unrelated biopaths. Designated in vitro assays may not confirm the effects of candidate drugs on these parallel or intersecting biological pathways. As a result, if a drug that has a positive effect on target activity in vitro is administered in vivo, it may cause unexpected toxicity or undesirable side effects.

둘째, 시험관내 분석 방법은 충분히 민감하지도, 충분히 특이적이지 못하다. 주도 화합물 유도체의 개발에 상기와 동일한 분석법을 사용하는 경우, 이런 문제에 부딪치게 될 수도 있다.Second, in vitro assays are not sensitive enough or specific enough. This problem may be encountered when the same assay is used for the development of the prodrug derivatives.

따라서, 제약학적 분야에는 약물 개발을 위한 향상된 전략이 계속해서 필요하다. 특히, 적당한 초기 선별에 그다지 의존하지 않는 약물 개발 계획이 필요하다. 또한, 임상전 약물개발동안 생물경로로부터 선택된 표적의 분리를 회피하는 약물 개발 전략이 필요하다. 또한, 병리상태 또는 관심있는 질환 또는 질병과 관련된 생물 경로와 신규한 표적을 확인하는 약물 개발 방법이 필요하다.Therefore, there is a continuing need for improved strategies for drug development in the pharmaceutical field. In particular, there is a need for a drug development plan that does not rely much on proper initial screening. There is also a need for a drug development strategy that avoids separation of selected targets from the biopath during preclinical drug development. There is also a need for drug development methods that identify novel pathways and biological pathways associated with a pathology or disease or disorder of interest.

최근에 유전자 발현의 측정 분야에서의 기술적 진보로 인해 원핵 또는 진핵 세포에서 전사된 다수의 유전자의 발현을 동시에 측정하는 것이 가능해졌다. 이런 유전자 발현 프로파일을 만들 수 있게 됨으로써 신규한 약물 개발 전략을 연구할 수 있는 재료 물질이 도출되었다(Ashby et al., United States Patent No. 5,549,588).Recent technological advances in the field of measuring gene expression have made it possible to simultaneously measure the expression of multiple genes transcribed in prokaryotic or eukaryotic cells. The ability to create such gene expression profiles has led to material materials that can be used to study novel drug development strategies (Ashby et al., United States Patent No. 5,549,588).

지금까지 대부분의 유전자 프로파일은 숙주세포로부터 핵산 발현산물을 분리하고, 산물을 표지하고(예, 형광 또는 방사성핵종 표지), 개별 서열을 보유한 표면-고착된 DNA 단위체로 구성된 공간적으로-어드레스가능 매트릭스에 표지된 핵산을 하이브리드형성시켜 만들었다(Lashkari et al., Proc. Natl. Acad. Sci. USA, 94, pp. 13057-62(1997); DeRisi et al., Science, 278, pp. 680-86(1997); Wodicka et al., Nature Biotechnology, 15, pp. 1359-67(1997); and Pietu et al., Genome Research, 6, pp. 492-503(1986).To date, most gene profiles have separated nucleic acid expression products from host cells, labeled products (e.g., fluorescent or radionuclide labels), and placed them on spatially-addressable matrices consisting of surface-fixed DNA units bearing individual sequences. Labeled nucleic acids were made by hybridization (Lashkari et al., Proc. Natl. Acad. Sci. USA, 94, pp. 13057-62 (1997); DeRisi et al., Science, 278, pp. 680-86 ( 1997); Wodicka et al., Nature Biotechnology, 15, pp. 1359-67 (1997); and Pietu et al., Genome Research, 6, pp. 492-503 (1986).

매트릭스의 성분은 숙주에 의해 발현될 수 있는 전체 유전자를 나타내도록 선택하는데, 고착된 DNA 매트릭스는 상기 숙주로부터 만들어진다. 스캐닝 레이저, 스캐닝 공초점 형광 현미경 또는 인영사기로 기록한 바와 같이, 매트릭스상의 다양한 DNA 요소와 특이적 하이브리드형성은 개별 유전자의 발현을 암시한다. 개별유전자의 본질은 매트릭스에서 요소의 공간적 위치로 인코드된다. 데이터는 획득하고, 디지털화하고, 전기적으로 저장한다. 합쳐진 데이터로 선택된 세포 배양물에 의해 발현된 유전자 부분집합의 본질을 파악한다.The components of the matrix are chosen to represent the entire genes that can be expressed by the host, wherein the fixed DNA matrix is made from the host. As recorded by scanning laser, scanning confocal fluorescence microscopy or imprinters, the specific hybridization with various DNA elements on the matrix suggests the expression of individual genes. The nature of the individual genes is encoded as the spatial location of the elements in the matrix. Data is acquired, digitized and stored electronically. The combined data identifies the nature of the subset of genes expressed by the selected cell culture.

Ashby et al., 미국 특허 No. 5,549,588에서 유전자 발현 프로파일을 만드는 다른 방식을 공개한다. Ashby는 "게놈 리포터 매트릭스"를 제시하였는데, 여기서, 공간적으로-어드레서가능 매트릭스의 각 요소는 특이적 핵산서열이 아닌 하나 또는 복수의 동일한 세포(또는 세포의 클론)로 구성된다. 각 매트릭스 위치에서 세포는 재조합 구조체를 보유하는데, 상기 구조체는 별개의 전사 조절 요소로부터 공통 리포터 유전자의 발현을 감독한다. 전사 조절 요소는 다수의 진핵 또는 원핵세포로부터 유도할 수 있다. 충분한 양의 매트릭스 요소와 전사 조절 요소는 선택된 미생물의 유전자 발현 레퍼토리의 대표적인 샘플링을 제공하기 위하여 포함시킨다.Ashby et al., US Pat. 5,549,588 discloses other ways of creating gene expression profiles. Ashby presented a "genome reporter matrix" wherein each element of the spatially-addressable matrix consists of one or a plurality of identical cells (or clones of cells) rather than specific nucleic acid sequences. At each matrix position, the cell carries a recombinant construct that directs expression of the common reporter gene from separate transcriptional regulatory elements. Transcriptional regulatory elements can be derived from a number of eukaryotic or prokaryotic cells. Sufficient amounts of matrix elements and transcriptional regulatory elements are included to provide representative sampling of the gene expression repertoire of the selected microorganism.

유전자 발현을 측정하기 위하여 Ashby등은 리포터에 적당하고, 이에 지시를 받는 검출 장치로 스캔하여 직접 매트릭스를 판독한다. 한 구체예에서, 리포터는 형광 신호, 예를 들면, 녹색 형광 단백질을 만드는 단백질을 인코드하고, 따라서, 형광검출기로 스캔한다; 한 구체예에서, 리포터는 광도계로 검출가능한 신호를 생산하는 효소를 인코드하고, 따라서, 광도계로 스캔한다. 스캐너로 기록된 신호는 각각의 전사 조절 요소에 의해 조절되는 발현을 암시하는데, 상기 조절요소의 본질은 매트릭스에서 요소의 공간적 위치로 인코드된다.In order to measure gene expression, Ashby et al. Read the matrix directly by scanning with a detection device suitable for the reporter and directed to it. In one embodiment, the reporter encodes a protein that produces a fluorescent signal, eg, a green fluorescent protein, and thus scans with a fluorescence detector; In one embodiment, the reporter encodes an enzyme that produces a detectable signal with the photometer, and thus scans with the photometer. The signal recorded by the scanner suggests the expression regulated by each transcriptional regulatory element, the nature of which is encoded in the spatial position of the element in the matrix.

유전자 발현 프로파일을 만들기 위한 전술한 기술 기준(이후, 총체적으로 "발현 매트릭스"로 지칭)은 한정된 조건하의 세포에서 유전자의 동시 발현에 대한 다수의 정보를 제공한다.The foregoing technical criteria for creating gene expression profiles (hereinafter collectively referred to as "expression matrices") provide a great deal of information about the simultaneous expression of genes in cells under defined conditions.

당업자는 따라서, 유전자 발현 프로파일의 정성적 비교, 예를 들면, 상이한 조건하에서 변형된 수준의 발현을 보이는 유전자 부분집합의 확인을 강조하였다; 당업자는 대규모의 다차원 데이터의 정량분석에는 가능하지 않은 데이터 조작을 강조하였다(Ashby et al.(supra); Lashkari et al.(supra); DeRisi et al.(supra); Rine et al., WO 98/06874; and Seilhamer et al., WO 95/20681(each of which is incorporated herein by reference).Those skilled in the art thus emphasized the qualitative comparison of gene expression profiles, eg the identification of subsets of genes showing modified levels of expression under different conditions; Those skilled in the art have highlighted data manipulation that is not possible for quantitative analysis of large scale multidimensional data (Ashby et al. (Supra); Lashkari et al. (Supra); DeRisi et al. (Supra); Rine et al., WO 98 / 06874; and Seilhamer et al., WO 95/20681 (each of which is incorporated herein by reference).

이들 정성분석 방법으로는 전체 유전자 프로파일의 관련성을 반복적으로 계산할 수 없다. 따라서, 정량적인 유전자 발현 프로파일을 만들고, 이런 정보를 이용하여 다양한 환경조건하의(예, 상이한 화합물로 처리) 선택된 세포에서 유전자 발현의 관련성을 정량적으로 비교하는 것이 바람직하다.These qualitative methods do not allow iterative calculation of relevance of the entire gene profile. Thus, it is desirable to create quantitative gene expression profiles and use this information to quantitatively compare the relevance of gene expression in selected cells under various environmental conditions (eg, treatment with different compounds).

따라서, 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법이 필요하다. 또한, 단일 사전-선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일의 관련성을 순위대로 정렬할 수 있는 방법이 필요하다. 또한, 저장된 데이터(즉, 이전 실험에서 얻은 유전자 발현 프로파일 데이터)를 조회하고, 관련성의 대하여 새로이 비교분석할 수 있는 정량방법과 장치가 필요하다.Therefore, there is a need for a method of quantifying the relationship between a first gene expression profile and a second gene expression profile. There is also a need for a method capable of ordering the relevance of multiple gene expression profiles to a single pre-selected gene expression profile. In addition, there is a need for a quantitative method and apparatus for retrieving stored data (ie, gene expression profile data obtained in previous experiments) and for performing new comparative analysis on relevance.

유전자 발현 측정분야에서 최근의 기술적 진보로 인해 원핵 또는 진핵세포에서 전사된 다수의 유전자의 발현을 동시에 측정할 수 있게 되었지만, 기술적 측면에서 볼 때, 극소수의 발현 유전자만이 분석되고 있다. 가령, 약물 후보의 샘플이 조합화학법으로 소량생산되는 경우, 그 양이 제한적이다; 임의 세포형의 모든 유전자에 대한 효과를 시험할 수 있는 약물은 거의 없다. 또한, 세포의 전체 발현가능 유전자에서 각 후보 약물을 분석하는 것은 너무나 많은 경비가 소요된다.Recent technological advances in the field of gene expression measurement have made it possible to simultaneously measure the expression of multiple genes transcribed in prokaryotic or eukaryotic cells, but from a technical point of view only very few expressed genes have been analyzed. For example, if a sample of a drug candidate is produced in small quantities by combinatorial chemistry, the amount is limited; Few drugs can test the effects on all genes of any cell type. In addition, analyzing each candidate drug in the entire expressible gene of the cell is too costly.

이들 문제는 분석할 게놈이 복잡할 경우에 부딪치게 된다. 따라서, 맥주효모균(Saccharomyces cerevisiae)과 같은 효모 세포의 발현 가능한 유전자 각각에 대한 약물 또는 다른 환경요인의 효과를 평가하려면, 대략 6,000개 유전자의 발현을 측정해야 한다; 선충(C. elegans)와 같은 선충류의 유전자 발현에 대해 유사한 분석을 실시하려면, 대략 20,000개 유전자의 발현을 측정해야 한다; 사람 세포의 발현가능한 유전자에 대한 약물 또는 다른 환경요인의 효과를 평가하려면, 대략 100,000개의 유전자를 측정해야 한다.These problems are encountered when the genome to be analyzed is complex. Thus, to evaluate the effect of drugs or other environmental factors on each of the expressible genes of yeast cells, such as Saccharomyces cerevisiae, the expression of approximately 6,000 genes should be measured; To perform similar analysis on gene expression of nematodes, such as nematodes (C. elegans), the expression of approximately 20,000 genes must be measured; To assess the effects of drugs or other environmental factors on the expressible genes of human cells, approximately 100,000 genes should be measured.

또한, 모든 유전자가 동등하게 유용한 것은 아니다. 일부는 환경 조건에 상관없이, 발현상의 역동 범위가 부족하여 충분한 정보를 얻지 못한다. 다른 유전자는 발현이 다양하게 진행되어, 많은 정보를 얻을 수 있다. 따라서, 미국 특허 No. 5,811,231(Farr et al.,)과 유럽 특허 EP 0680517 B1에서, 세포에 독성을 나타내는 화합물을 확인하고 특성화하기 위한 "스트레스 유전자"의 선별을 제시한다.In addition, not all genes are equally useful. Some do not obtain sufficient information due to the lack of dynamic range of expression, regardless of environmental conditions. Different genes have a variety of expressions, and much information can be obtained. Thus, U.S. Patent No. 5,811,231 (Farr et al.,) And European Patent EP 0680517 B1, present a selection of "stress genes" for identifying and characterizing compounds that are toxic to cells.

하지만, 이런 방식은 유전자 기능에 대한 선행된 지식을 필요로 한다. 또한, 이런 조절된 선별에 의한 선입견으로 인해, 이전에 예상치못한 관계를 확인할 가능성은 줄어든다; 이런 예상치못한 관계의 확인에 유용한 방법, 예를 들면, 이 글에서 제시한 방법에서, 이런 조절된 선별은 특히, 바람직하지 않다.However, this approach requires prior knowledge of gene function. In addition, preconceived notions of such controlled screening reduce the likelihood of identifying previously unanticipated relationships; In a method useful for identifying such unexpected relationships, for example the method presented in this article, such controlled selection is particularly undesirable.

다른 방식은 선택된 부분집합이 전체를 대표할 것이라는 희망에서 완전 임의로 부분집합을 선택하는 것이다. 문제는 이렇게 선택된 부분집합은 하나 또는 복수의 환경 조건하에서 세포상태를 설명하기에는 유용하지 않다는 점이다.Another way is to select a subset completely randomly in the hope that the selected subset will represent the whole. The problem is that this selected subset is not useful for describing cellular conditions under one or more environmental conditions.

또 다른 방식은 공통 기능이 아닌 사전선택된 환경조건에 대한 공통 반응으로 확인된 유전자를 선별하는 것이다(Whitney et al., Nat. Biotechnol., 16:1329-33(1998). 완전 조절된 방식과 완전 임의의 방식의 중간에 위치한 상기 방식은 양 방식의 단점을 어느 정도 보유한다.Another approach is to select genes identified as common responses to preselected environmental conditions, not common functions (Whitney et al., Nat. Biotechnol., 16: 1329-33 (1998). Located in the middle of any scheme, the scheme retains some of the disadvantages of both schemes.

따라서, 당분야에 발현 분석을 위하여 유전자의 유용한 부분집합을 선별할 수 있는 방법이 필요하다.Thus, there is a need in the art for methods that can select useful subsets of genes for expression analysis.

본 발명의 요약Summary of the invention

본 발명은 유전자 프로파일의 정량분석을 위한 방법, 시스템, 장치를 제공하여 당분야의 이런 저런 문제를 해결한다. 실험 예에서, 이런 분석법으로 다양한 약물 처리의 관련성을 정량하고 순위대로 정렬하여, 참고약물에 의해 영향받는 분자표적과 동일한 분자표적에 작용하는 화학약물을 확인하고; 참고약물의 생리 경로와 동일한 생리 경로에서 작용하는 화학약물을 확인하고; 참고약물과 비교하여 화학약물의 작용기작--(참고약물의 분자 표적의 사전확인 또는 지정된 분석의 개발없이)을 입증할 수 있는 것을 알 수 있다. 이런 분석은 다른 환경 조건 또는 유전적 섭동(예, 돌연변이)에 의해 유발된 것들을 비롯한 다른 세포 표현형의 비교에 적용할 수 있다.The present invention solves these and other problems in the art by providing methods, systems, and apparatus for quantitative analysis of gene profiles. In experimental examples, this assay quantifies the relevance of various drug treatments and sorts them in order to identify chemicals that act on the same molecular targets as those affected by the reference drug; Identifying chemicals that act in the same physiological pathway as that of the reference drug; It can be seen that the mechanism of action of a chemical can be demonstrated compared to the reference drug (without prior identification of the molecular target of the reference drug or development of a designated assay). This analysis can be applied to comparison of other cell phenotypes, including those caused by different environmental conditions or genetic perturbations (eg mutations).

제 1 측면에서, 본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법을 제공한다. 제 1 방법은 (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에 공통적으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 각각 만들고; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호 각각의 쌍에 대하여 상대적인 발현 스코어를 공식화하고; (c) 이들 쌍-단위의 공식화된 상대적 발현 스코어로부터 복합 스코어를 계산하는 것으로 구성되는데, 상기 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량한다.In a first aspect, the present invention provides a method for quantifying the relationship between a first gene expression profile and a second gene expression profile. The first method comprises (a) generating a first gene expression signal and a second gene expression signal for each gene that is common to the first gene expression profile and the second gene expression profile; (b) formulate a relative expression score for each pair of first gene expression signal and second gene expression signal; (c) calculating a composite score from the formulated relative expression scores of these pair-units, which composite score quantifies the relevance of the two gene expression profiles.

다른 측면에서, 본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 제 2 방법을 제공하는데, 상기 제 2 방법은 가벼운 조건하에서 얻어진 유전자 발현 프로파일의 비교에 특히 적합하다.In another aspect, the present invention provides a second method for quantifying the relevance of a first gene expression profile to a second gene expression profile, said second method being particularly suitable for comparing gene expression profiles obtained under light conditions.

제 2 방법은 (a) 제 1 유전자 발현 신호와 제 2 유전자 발현 프로파일에 공통적으로 나타나는 각 유전자에 대하여 각각 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고; (b) 공통적으로 나타나는 유전자에 대한 여러 쌍의 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에서 선형 회귀를 실시하는 것으로 구성되는데, 여기서, 이런 회귀의 상관관계 계수는 두 유전자 발현 프로파일의 관련성을 정량한다.The second method comprises (a) generating a first gene expression signal and a second gene expression signal for each gene that is common to the first gene expression signal and the second gene expression profile; (b) performing linear regression on several pairs of first and second gene expression signals for commonly occurring genes, wherein the correlation coefficient of this regression quantifies the relevance of the two gene expression profiles. do.

제 3 측면에서, 본 발명은 단일 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일의 관련성을 순위대로 정렬하는 방법을 제공하는데, 상기 방법은 (a) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고; (b) 상기 한 쌍 단위-측정된 양을 순위대로 정렬하는 것으로 구성된다. 본 발명의 이런 측면의 적절한 구체예에서, 관련성의 한 쌍 단위 정량은 여기에 새로이 제시한 2가지 방법중 하나에 따라 실시한다.In a third aspect, the present invention provides a method of ordering the relevance of a plurality of gene expression profiles to a single preselected gene expression profile, the method comprising: (a) expressing a plurality of genes with respect to a preselected gene expression profile; Quantifying the relevance of each profile in pairs; (b) sorting the pair unit-measured amounts in order. In a suitable embodiment of this aspect of the invention, the pairwise quantification of relevance is carried out according to one of the two methods newly presented herein.

전술한 방법의 일련의 구체예에서, 본 발명은 세포에 대한 제 1 환경조건과 제 2 환경조건의 관련성을 정량하는 방법을 제공하는데, 상기 방법은 (a) 제 1 환경조건과 제 2 환경 조건하에서 세포 또는 유전적으로 동일한 세포로부터 유전자 발현 프로파일을 얻고; (b) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일을 정량하는 것으로 구성된다. 적절한 구체예에서, 제 1 환경조건과 제 2 환경 조건에는 화학적 화합물, 예를 들면, 제약학적 약물에 노출시키는 것이 포함된다.In a series of embodiments of the foregoing methods, the present invention provides a method for quantifying the relationship between a first environmental condition and a second environmental condition for a cell, the method comprising: (a) a first environmental condition and a second environmental condition; Obtaining a gene expression profile from cells under or genetically identical cells under; (b) quantifying the first gene expression profile and the second gene expression profile. In suitable embodiments, the first and second environmental conditions include exposure to chemical compounds, such as pharmaceutical drugs.

본 발명은 또한, 세포에서 사전선택된 단일 환경조건에 대한 복수의 환경조건의 관련성을 순위대로 정렬하는 방법을 제공하는데, 상기 방법은 (a) 세포 또는 유전적으로 동일한 세포로부터 복수의 환경조건과 사전결정된 환경조건 각각에 대한 유전자 발현 프로파일을 얻고; (b) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일의 관련성을 한 쌍 단위로 정량하고; (c) 한 쌍 단위-측정된 양을 순위대로 정렬하는 것으로 구성된다. 적절한 구체예에서, 환경 조건은 화학적 화합물에 대한 노출로 구성된다.The invention also provides a method of ordering the relevance of a plurality of environmental conditions to a single preselected environmental condition in a cell, the method comprising: (a) pre-determining a plurality of environmental conditions from a cell or genetically identical cells; Obtaining a gene expression profile for each of the environmental conditions; (b) quantifying the relevance of the plurality of gene expression profiles in pairs relative to the preselected gene expression profile; (c) ordering the paired unit-measured quantities in order. In suitable embodiments, the environmental conditions consist of exposure to chemical compounds.

또 다른 일단의 구체예에서, 본 발명은 세포의 한정된 유전자 돌연변이에 대한 사전선택된 환경조건의 관련성을 정량하는 방법을 제공하는데, 상기 방법은 (a) 한정된 돌연변이를 보유한 세포에서 제 1 유전자 발현 프로파일을, 사전 선택된 환경조건하의 야생형 세포에서 제 2 유전자 발현 프로파일을 얻고; (b) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 것으로 구성된다.In another set of embodiments, the present invention provides a method of quantifying the relevance of a preselected environmental condition to a defined gene mutation in a cell, the method comprising: (a) determining a first gene expression profile in a cell with a defined mutation; Obtaining a second gene expression profile in wild-type cells under preselected environmental conditions; (b) quantifying the association of the first gene expression profile with the second gene expression profile.

본 발명은 또한, 세포의 한정된 돌연변이에 대한 복수의 환경조건 각각의 관련성을 순위대로 정렬하는 방법을 제공하는데, 상기 방법은 (a) 복수의 환경조건중 한가지 조건하의 야생형 세포로부터 일단의 제 1 유전자 발현 프로파일을, 한정된 돌연변이를 보유한 세포로부터 제 2 유전자 발현 프로파일을 얻고; (b) 제 2 유전자 발현 프로파일에 대하여 제 1 유전자 프로파일 각각의 관련성을 한 쌍 단위로 정량하고; (c) 한 쌍 단위-측정된 양을 순위대로 정렬하는 것으로 구성된다. 적절한 구체예에서, 환경 조건은 화학적 화합물에 노출되는 것이고, 한 쌍-단위 정량은 이 글에서 새로이 제시한 2가지 방법중 하나에 따라 실시한다.The present invention also provides a method of ordering the relevance of each of a plurality of environmental conditions to a defined mutation of a cell, the method comprising: (a) a group of first genes from wild-type cells under one of the plurality of environmental conditions; Obtaining an expression profile of a second gene expression profile from cells with defined mutations; (b) quantifying the association of each of the first gene profiles in pairs relative to the second gene expression profile; (c) ordering the paired unit-measured quantities in order. In a suitable embodiment, the environmental conditions are those exposed to chemical compounds, and the pair-unit quantification is carried out according to one of the two new methods presented in this article.

다른 일단의 구체예에서, 본 발명은 세포의 제 2 유전자 돌연변이에 대한 세포의 제 1 유전자 돌연변이의 관련성을 정량하는 방법을 제공하는데, 상기 방법은 (a) 제 1 유전자 돌연변이를 보유한 세포로부터 제 1 유전자 발현 프로파일을, 제 2 유전자 돌연변이를 보유한 제 2 유전자 발현 프로파일을 얻고; (b) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 것으로 구성된다. 본 발명은 또한, 세포의 사전선택된 유전자 돌연변이에 대한 복수의 유전자 돌연변이 각각의 관련성을 순위대로 정렬하는 방법을 제공하는데, 상기 방법은 복수의 돌연변이중 한가지를 보유한 세포로부터 일단의 제 1 유전자 발현 프로파일을, 사전선택된 돌연변이를 보유한 세포로부터 제 2 유전자 발현 프로파일을 얻고; (b) 제 2 유전자 발현 프로파일에 대하여 제 1 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고; (c) 한 쌍 단위-측정된 양을 순위대로 정렬하는 것으로 구성된다.In another embodiment, the present invention provides a method for quantifying the relevance of a cell's first gene mutation to a cell's second gene mutation, wherein the method comprises: (a) a first gene from a cell bearing the first gene mutation. Obtaining a gene expression profile, a second gene expression profile carrying a second gene mutation; (b) quantifying the association of the first gene expression profile with the second gene expression profile. The present invention also provides a method of ordering the relevance of each of a plurality of gene mutations to a preselected gene mutation of a cell, wherein the method comprises a first set of first gene expression profiles from a cell bearing one of the plurality of mutations. Obtaining a second gene expression profile from a cell having a preselected mutation; (b) quantifying the association of each of the first gene expression profiles in pairs relative to the second gene expression profile; (c) ordering the paired unit-measured quantities in order.

적절한 구체예에서, 환경 조건은 화학적 화합물에 세포를 노출시키는 것이고, 세포는 효모 세포, 가급적 맥주효모균(Saccharomyces cerevisiae)이고, 유전자 발현 프로파일은 게놈 리포터 매트릭스로부터 획득한다. 방법은 광범위하게 임의의 환경 조건(사람을 포함한 진핵세포와 원핵세포)과 다른 형태의 발현 매트릭스로부터 획득한 유전자 발현 프로파일에 적용할 수 있다.In a suitable embodiment, the environmental condition is to expose the cells to a chemical compound, the cells are yeast cells, preferably Saccharomyces cerevisiae, and the gene expression profile is obtained from the genome reporter matrix. The method can be broadly applied to gene expression profiles obtained from any environmental conditions (eukaryotic and prokaryotic cells, including humans) and other forms of expression matrices.

다른 측면에서, 본 발명은 전술한 정량 방법을 실시하기 위한 시스템(컴퓨터 시스템 포함)을 제공한다.In another aspect, the present invention provides a system (including a computer system) for implementing the aforementioned quantitative method.

따라서, 이런 측면에서, 본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하기 위한 시스템을 제공하는데, 상기 시스템은 (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들기 위한 수단; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에 대한 상대적 발현 스코어를 공식화하는 수단; (c) 한 쌍 단위의 상대적 발현 스코어로부터 복합 스코어를 계산하는 수단으로 구성되는데, 상기 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량하는 역할을 한다.Thus, in this aspect, the present invention provides a system for quantifying the relationship between a first gene expression profile and a second gene expression profile, wherein the system is (a) common in both the first gene expression profile and the second gene expression profile. Means for producing a first gene expression signal and a second gene expression signal for each gene represented by; (b) means for formulating a relative expression score for the first gene expression signal and the second gene expression signal; (c) means for calculating a composite score from a pair of relative expression scores, wherein the composite score serves to quantify the relevance of the two gene expression profiles.

관련된 측면에서, 본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 시스템을 제공하는데, 상기 시스템은 (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 프로파일에서 공통으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들기 위한 수단; (b) 공통적으로 나타나는 유전자에 대한 여러 쌍의 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에서 선형 회귀를 실시하는 수단으로 구성되는데, 여기서, 이런 회귀의 상관관계 계수는 두 유전자 발현 프로파일의 관련성을 정량한다.In a related aspect, the present invention provides a system for quantifying the relevance of a first gene expression profile and a second gene expression profile, the system being in common in (a) a profile of a first gene expression profile and a second gene expression profile. Means for generating a first gene expression signal and a second gene expression signal for each gene presenting; (b) means for performing linear regression on several pairs of first and second gene expression signals for commonly occurring genes, wherein the correlation coefficient of this regression is related to the relationship between the two gene expression profiles. Quantify

다른 관련된 측면에서, 본 발명은 단일 사전선택된 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순위대로 정렬하기 위한 시스템을 제공하는데, 상기 시스템은 (a) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하는 수단; (b) 한 쌍 단위-측정된 양을 순위대로 정렬하는 수단으로 구성된다.In another related aspect, the present invention provides a system for ranking the relevance of a plurality of gene expression profiles to a single preselected gene expression profile, the system comprising: (a) a plurality of genes for a preselected gene expression profile; Means for quantifying the relevance of each expression profile in pairs; (b) means for sorting the paired unit-measured quantities in order.

본 발명은 또한, 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 컴퓨터 시스템을 제공하는데, 상기 컴퓨터 시스템은 디지털 마이크로프로세서와 같은 프로세서로 구성되고, (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통적으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호의 각 쌍에 대하여 상대적인 발현 스코어를 공식화하고; (c) 한 쌍-단위의 상대적 발현 스코어로부터 복합 스코어를 계산하도록 프로그램되는데, 여기서, 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량한다.The present invention also provides a computer system for quantifying the relevance of a first gene expression profile and a second gene expression profile, said computer system comprising a processor, such as a digital microprocessor, (a) a first gene expression profile and Generate a first gene expression signal and a second gene expression signal for each gene that appears in common in the second gene expression profile; (b) formulate a relative expression score for each pair of first and second gene expression signals; (c) is calculated to calculate a composite score from the relative expression score of a pair-unit, where the composite score quantifies the relevance of the two gene expression profiles.

유사하게, 본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 컴퓨터 시스템을 제공하는데, 상기 컴퓨터 시스템은 디지털 마이크로프로세서와 같은 프로세서로 구성되고, (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통적으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고; (b) 공통적으로 나타나는 유전자에 대한 여러 쌍의 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에서 선형 회귀를 실시하도록 프로그램되는데, 여기서, 이런 회귀의 상관관계 계수는 두 유전자 발현 프로파일의 관련성을 정량한다.Similarly, the present invention provides a computer system for quantifying the association of a first gene expression profile with a second gene expression profile, wherein the computer system consists of a processor such as a digital microprocessor, and (a) the first gene expression profile Generating a first gene expression signal and a second gene expression signal for each gene commonly present in the second gene expression profile; (b) is programmed to perform linear regression on several pairs of first and second gene expression signals for commonly occurring genes, where the correlation coefficient of this regression quantifies the relevance of the two gene expression profiles. .

본 발명은 또한, 사전선택된 단일 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순위대로 배열하는 컴퓨터 시스템을 제공하는데, 상기 컴퓨터 시스템은 디지털 마이크로프로세서와 같은 프로세서로 구성되고, (a) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고; (b) 이들 한 쌍 단위-측정된 양을 순위대로 정렬하도록 프로그램된다. 프로그램가능한 디지털 컴퓨터, 입력수단, 전시수단으로 구성된 장치를 제공하는데, 상기 장치는 입력된 발현 데이터에 대해 제시한 계산 방법을 실행하고, 조합된 전시수단에 정량결과를 제시할 수 있다.The invention also provides a computer system for arranging the relevance of a plurality of gene expression profiles to a preselected single gene expression profile, the computer system comprising a processor such as a digital microprocessor, and (a) a preselected Quantifying the association of each of the plurality of gene expression profiles in pairs relative to the gene expression profile; (b) are programmed to sort these pair unit-measured quantities in order. An apparatus comprising a programmable digital computer, an input means, and an exhibition means is provided, which can execute the calculation method presented on the input expression data and present the quantitative result to the combined exhibition means.

또 다른 측면에서, 본 발명은 명령을 저장하는 컴퓨터 판독가능 저장매체를 제공하는데, 상기 명령이 컴퓨터에 의해 실행되는 경우, 컴퓨터는 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법 및 사전선택된 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순위대로 정렬하는 방법을 비롯하여, 이 글에서 밝힌 신규한 방법 각각을 실행하게 된다.In another aspect, the invention provides a computer readable storage medium for storing instructions, wherein when the instructions are executed by a computer, the computer quantifies the association of the first gene expression profile with the second gene expression profile. And sorting the relevance of a plurality of gene expression profiles to preselected gene expression profiles, each of the novel methods described in this article.

또 다른 측면에서, 본 발명은 본 발명의 방법에 적용되는 데이터 구조를 보유한 컴퓨터 판독가능 저장매체를 제공한다. 이런 측면에서, 본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일을 정량으로 관련시키는 데이터를 저장하도록 형성된 데이터 구조를 보유한 컴퓨터 판독가능 저장 매체를 제공하는데, 상기 데이터 구조는 발현 프로파일 각각에 대한 동조기와 스칼라로 구성되고, 상기 스칼라는 제 1 유전자 발현 프로파일과 제 2 발현 프로파일을 정량적으로 관련시킨다. 본 발명은 또한, 사전선택된 단일 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순위대로 정렬시키는 데이터를 저장하도록 형성된 데이터 구조를 보유한 컴퓨터 판독가능 저장 매체를 제공하는데, 상기 매체는 (a) 스칼라의 순위화된 목록, 각 스칼라는 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고; (b) 각 스칼라와 각각의 유전자 발현 프로파일을 연계시키는 동조기로 구성된다.In another aspect, the present invention provides a computer readable storage medium having a data structure applied to the method of the present invention. In this aspect, the present invention provides a computer readable storage medium having a data structure configured to store data that quantitatively associates a first gene expression profile with a second gene expression profile, the data structure for each expression profile. Consisting of a tuner and a scalar, said scalar quantitatively correlating a first gene expression profile with a second expression profile. The invention also provides a computer readable storage medium having a data structure configured to store data that ranks the relevance of a plurality of gene expression profiles to a preselected single gene expression profile, the medium comprising (a) a scalar A ranked list of, each scalar quantifies the relevance of each of the plurality of gene expression profiles in pairs to a preselected gene expression profile; (b) a tuner that associates each scalar with a respective gene expression profile.

유전자 발현 측정분야에서 최근의 기술적 진보로 인해 원핵 또는 진핵세포에서 전사된 다수의 유전자의 발현을 동시에 측정할 수 있게 되었지만, 기술적 측면에서 볼 때, 극소수의 발현 유전자만이 분석되고 있다. 가령, 약물 후보의 샘플이 조합화학법으로 소량생산되는 경우, 그 양이 제한적이다; 임의 세포형의 모든 유전자에 대한 효과를 시험할 수 있는 약물은 거의 없다. 또한, 세포의 전체 발현가능 유전자에서 각 후보 약물을 분석하는 것은 너무나 경비가 많이 든다.Recent technological advances in the field of gene expression measurement have made it possible to simultaneously measure the expression of multiple genes transcribed in prokaryotic or eukaryotic cells, but from a technical point of view only very few expressed genes have been analyzed. For example, if a sample of a drug candidate is produced in small quantities by combinatorial chemistry, the amount is limited; Few drugs can test the effects on all genes of any cell type. In addition, analyzing each candidate drug in the entire expressible gene of the cell is too expensive.

따라서, 다른 측면에서, 본 발명은 발현 분석을 위한 유전자의 유익한 부분집합을 선별하는 방법을 제공한다. 본 발명은 세포 표현형 선별 방법을 제공하는데, 상기 방법은 발현 분석을 위해 세포에서 20%정도의 발현가능 유전자를 선별하는 것으로 구성되고, 여기서, 선별된 유전자의 동시 발현은 세포 표현형을 충분히 한정하여, 세포표현형을 다른 세포의 표현형과 정량적으로 연관시킬 수 있게 한다. 이들 방법에서, 세포에서 20%정도의 발현가능 유전자를 선별하고, 좀더 바람직하게는 15%정도의 발현가능 유전자, 이보다 좀더 바람직하게는 10%정도의 발현가능 유전자, 최적으로는 5%의 발현가능 유전자, 가장 바람직하게는 1%-5%의 발현가능 유전자, 최종적으로는 1-2%의 발현가능 유전자를 선별한다. 이런 선별에 영향을 주는 대수, 컴퓨터 시스템, 네트워크, 이런 방법에 영향을 주는 다른 장치를 또한 제시한다.Thus, in another aspect, the present invention provides a method of selecting a beneficial subset of genes for expression analysis. The present invention provides a cell phenotype selection method, which comprises selecting about 20% expressable genes in a cell for expression analysis, wherein simultaneous expression of the selected genes sufficiently limits the cell phenotype, Allows cell phenotypes to be quantitatively associated with other cell phenotypes. In these methods, 20% expressable genes are selected from cells, more preferably 15% expressable genes, more preferably 10% expressable genes, optimally 5% expressible. Genes, most preferably 1% -5% expressable genes and finally 1-2% expressable genes are selected. We also present algebras, computer systems, networks that influence this screening, and other devices that affect this method.

한 구체예에서, 본 발명의 방법은 발현이 연관되어 있는 각 유전자군에서 최대 발현 범위를 보이는 유전자를 선별하는 것으로 구성된다. 적절한 구체예에서, 선별은 복수의 유전자 발현 프로파일에 공통적으로 나타나는 일단의 유전자에서 실시하고, 각 범위와 상관관계는 복수의 유전자 발현 프로파일상의 발현 데이터로부터 계산한다.In one embodiment, the methods of the invention consist of selecting genes that exhibit the maximum range of expression in each gene group to which expression is associated. In suitable embodiments, the selection is performed on a group of genes that are common to a plurality of gene expression profiles, and each range and correlation is calculated from expression data on the plurality of gene expression profiles.

관련된 측면에서, 본 발명은 발현 분석을 위한 유전자의 유익한 부분집합을 선택하는 시스템을 제공하는데, 상기 시스템은 발현이 상관하는 각 유전자군에서 최대 발현 범위의 유전자를 선별하는 수단으로 구성된다. 적절한 구체예에서, 선별은 복수의 유전자 발현 프로파일에서 공통적으로 나타나는 유전자에서 실시하고, 각 범위와 상관관계는 복수의 유전자 발현 프로파일상의 발현 데이터로부터 계산한다.In a related aspect, the present invention provides a system for selecting a beneficial subset of genes for expression analysis, which system comprises means for selecting genes of the maximum expression range in each gene group to which expression correlates. In suitable embodiments, the selection is carried out on genes that are common in a plurality of gene expression profiles, and each range and correlation is calculated from expression data on the plurality of gene expression profiles.

본 발명은 또한, 발현 분석을 위한 유전자의 유익한 부분집합을 선별하기 위한 컴퓨터 시스템을 제공하는데, 상기 컴퓨터 시스템은 다음과 같이 구성된다: 발현이 상관하는 각 유전자군에서 최대 발현 범위의 유전자를 선별하도록 프로그램된 프로세서(예, 디지털 마이크로프로세서); 명령을 저장하는 컴퓨터 판독가능 저장매체, 상기 명령이 컴퓨터에 의해 실행되는 경우, 컴퓨터는 발현 분석 분석을 위해 유전자의 유익한 부분집합을 선별하는 방법을 실시하고, 상기 방법은 발현이 연관되어 있는 각 유전자군에서 최대 발현 범위의 유전자를 선별하는 것으로 구성되고; 발현 분석을 위한 유전자의 유익한 부분집합을 판단하는 데이터를 저장하도록 형성된 데이터 구조를 보유한 컴퓨터 판독가능 저장 매체, 상기 데이터 구조는 일단의 유전자 동조기로 구성되고, 선택적으로 유전자 기능에 대한 설명서가 포함된다.The present invention also provides a computer system for selecting a beneficial subset of genes for expression analysis, the computer system consisting of: to select genes of the maximum expression range in each gene group to which expression correlates. A programmed processor (eg, digital microprocessor); A computer readable storage medium for storing instructions, where the instructions are executed by a computer, the computer implements a method of selecting a beneficial subset of genes for expression analysis analysis, the method wherein each gene to which expression is associated Selecting genes in the group of maximum expression range; A computer readable storage medium having a data structure configured to store data for determining a beneficial subset of genes for expression analysis, the data structure consisting of a group of gene tuners and optionally including instructions for gene function.

본 발명은 제약학적 약물 개발에 사용할 수 있는 생물정보학적 방법에 고나한다. 특히, 본 발명은 유전자 발현 프로파일의 정량분석, 비교, 저장, 시각적 제시를 위한 방법, 시스템, 장치에 관한다. 본 발명은 또한, 발현 분석을 위한 유전자의 유익한 부분집합을 선별하는 정량방법, 시스템, 장치에 관한다.The present invention is directed to bioinformatics methods that can be used for pharmaceutical drug development. In particular, the present invention relates to methods, systems, and apparatus for quantitative analysis, comparison, storage, and visual presentation of gene expression profiles. The invention also relates to quantification methods, systems, and apparatus for selecting a beneficial subset of genes for expression analysis.

본 발명의 이런 목적과 장점은 첨부된 도면과 함께 다음의 상세한 설명을 참고하면 확실해진다.These and other objects and advantages of the present invention will become apparent from the following detailed description taken in conjunction with the accompanying drawings.

도1은 유전자 발현 프로파일의 정량분석에 적당한 유전자 발현신호를 유전자 발현 매트릭스에서 초기에 얻어진 신호로부터 유도하는 과정을 설명하는 일관 공정도로, 도1A는 초기 신호 처리를 도식화하고, 도1B는 환경-대응된 조절에 따른 선택적 연속 보정을 설명한다.FIG. 1 is an integrated process diagram illustrating the process of deriving a gene expression signal suitable for quantitative analysis of a gene expression profile from a signal initially obtained in a gene expression matrix, FIG. 1A illustrates initial signal processing, and FIG. The optional continuous correction according to the adjusted adjustments will be described.

도2는 도1에 따라 처리된 유전자 발현 신호의 분산 도표로, 상기 신호는 구조와 기능에서 밀접하게 관련된 것으로 알려진 2개의 화학요법적 약물: 50㎍/㎖ 다우나루비신과 50㎍/㎖ 독소루비신중 하나로 개별처리된 게놈 리포터 매트릭스로부터 유도한다(실시예 2 참조).FIG. 2 is a scatter plot of the gene expression signal processed according to FIG. 1, wherein the signal is in two chemotherapeutic drugs known to be closely related in structure and function: 50 μg / ml daunarubicin and 50 μg / ml doxorubicin Derived from one individually processed genomic reporter matrix (see Example 2).

도3은 이종 구조와 기능의 2가지 약물: 50㎍/㎖ 독소루비신과 0.08㎍/㎖ 미코나졸중 하나로 개별처리된 매트릭스로부터 유도한 유전자 발현 신호의 곡선을 나타낸다.Figure 3 shows a curve of gene expression signals derived from a matrix separately treated with two drugs of heterologous structure and function: 50 μg / ml doxorubicin and 0.08 μg / ml myconazole.

도4는 이종 구조와 유사한 기능의 2가지 약물: 9㎍/㎖ 미코페놀산과 50㎍/㎖ 다우나루비신중 하나로 개별처리된 매트릭스로부터 유도한 유전자 발현 신호의 곡선을 나타낸다.Figure 4 shows a curve of gene expression signals derived from a matrix separately treated with two drugs of similar function to heterologous structure: 9 μg / ml mycophenolic acid and 50 μg / ml daunarubicin.

도5는 도1에서 계획한 과정에 따라 만든 개별 유전자 발현 신호를 유전자 발현 프로파일의 관련성의 순위를 정하기 위한 정량적 수치로 환산하는 제 1 과정을 설명하는 일관 공정도다.FIG. 5 is a consistent process diagram illustrating a first process of converting individual gene expression signals made according to the process planned in FIG. 1 into quantitative values for ranking the relevance of gene expression profiles.

도6은 도1에서 계획한 과정에 따라 만든 개별 유전자 발현 신호를 유전자 발현 프로파일의 관련성의 순위를 정하기 위한 정량적 수치로 환산하는 제 1 과정을 설명하는 일관 공정도다.6 is a consistent process diagram illustrating a first process of converting individual gene expression signals made according to the process planned in FIG. 1 into quantitative values for ranking the relevance of gene expression profiles.

도7은 도1에 따라 실제처리된 유전자 발현 신호의 분산 도표로, 상기 신호는 1532개의 분리된 유전자 발현 리포터로 구성된 게놈 리포터 매트릭스로부터 유도하고, 상기 매트릭스는 구조와 기능에서 밀접하게 관련된 것으로 알려진 2개의 화학요법적 약물: 10㎍/㎖ 로바스타틴(X 축)과 20㎍/㎖(메바스타틴(Y 축)중 하나로 개별 처리한다.FIG. 7 is a scatter plot of the gene expression signal actually processed according to FIG. 1, which signal is derived from a genomic reporter matrix consisting of 1532 isolated gene expression reporters, said matrix being closely related in structure and function. FIG. Chemotherapy drugs in dogs: Individual treatment with one of 10 μg / ml lovastatin (X axis) and 20 μg / ml (mevastatin (Y axis)).

도8은 도7에 제시한 1532개 유전자 발현 신호의 96개 유전자 부분집합으로부터 유전자 발현 신호의 분산 도표로, 상기 부분집합은 도9와 10에서 도표로 나타낸 알고리즘에 따라 선별한다.FIG. 8 is a scatter plot of gene expression signals from 96 gene subsets of the 1532 gene expression signals shown in FIG. 7, wherein the subsets are selected according to the algorithms plotted in FIGS. 9 and 10.

도9는 유전자 발현 프로파일의 정량 분석을 위한 유전자의 유익한 부분집합을 선별하기 위한 알고리즘상의 2가지 중요한 단계중 제 1 단계를 도식화하는 일관 공정도다.9 is a consistent process diagram that illustrates the first of two important steps in the algorithm for selecting a beneficial subset of genes for quantitative analysis of gene expression profiles.

도10은 유전자 발현 프로파일의 정량 분석을 위한 유전자의 유익한 부분집합을 선별하기 위하여, 알고리즘상의 중요한 두 단계중 제 2 단계를 2회에 걸쳐 반복하는 것을 도식화한다.Figure 10 depicts two iterations of the second of two important algorithmic steps in order to select a beneficial subset of genes for quantitative analysis of gene expression profiles.

본 발명을 완전히 이해하기 위하여, 다음의 상세한 설명을 제시한다.명세서에서, 다음의 용어를 사용한다.In order to fully understand the present invention, the following detailed description is provided. In the specification, the following terms are used.

이 글에서, "유전자 발현 매트릭스"는 복수 유전자의 동시 발현에 대한 데이터를 획득하는 장치를 의미한다(Lashkari et al., Proc. Natl. Acad. Sci. USA, 94, pp. 13057-62(1997); DeRisi et al., Science, 278, pp. 680-86(1997); Wodicka et al., Nature Biotechnology, 15, pp. 1359-67(1997); Pietu et al., Genome Research, 6, pp. 492-503(1996); Ashby et al., U.S. Patent No. 5,549,588). "게놈 리포터 매트릭스"는 Ashby등의 유전자 발현 매트릭스를 의미한다.In this article, "gene expression matrix" refers to a device for obtaining data on the simultaneous expression of multiple genes (Lashkari et al., Proc. Natl. Acad. Sci. USA, 94, pp. 13057-62 (1997). DeRisi et al., Science, 278, pp. 680-86 (1997); Wodicka et al., Nature Biotechnology, 15, pp. 1359-67 (1997); Pietu et al., Genome Research, 6, pp 492-503 (1996); Ashby et al., US Patent No. 5,549,588. "Genome reporter matrix" means a gene expression matrix such as Ashby.

"유전자 발현프로파일"은 전자장치 또는 다른 장치에 영구히 또는 일시적으로 저장되어 있는 설정된 데이터를 의미하는데, 이것의 각 요소는 세포의 분명하고 확인가능한 개방 해독 틀의 동시 발현의 수치를 나타내는데, 일반적으로 유전자 발현 매트릭스에서 얻어진다."Gene expression profile" means established data that is permanently or temporarily stored in an electronic device or other device, each element of which represents a level of simultaneous expression of a clear and identifiable open translational framework of a cell, typically a gene. Obtained in the expression matrix.

제 1 측면에서, 본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법을 제공하는데, 상기 방법은 (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통적으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호의 각 쌍에 대한 상대적인 발현 스코어를 공식화하고, (c) 한 쌍 단위의 상대적인 발현 스코어로부터 복합 스코어를 계산하는 것으로 구성되는데, 상기 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량한다.In a first aspect, the present invention provides a method for quantifying the relevance of a first gene expression profile to a second gene expression profile, the method comprising (a) a common expression in a first gene expression profile and a second gene expression profile. Generating a first gene expression signal and a second gene expression signal for each gene; (b) formulating a relative expression score for each pair of first and second gene expression signals, and (c) calculating a composite score from the relative expression scores of a pair of units, wherein the composite score is Quantify the relevance of two gene expression profiles.

본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 제 2 방법을 제공하는데, 상기 2 방법은 (a) 제 1 유전자 발현 신호와 제 2 유전자 발현 프로파일에 공통적으로 나타나는 각 유전자에 대하여 각각 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고; (b) 공통적으로 나타나는 유전자에 대한 여러 쌍의 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에서 선형 회귀를 실시하는 것으로 구성되는데, 여기서, 이런 회귀의 상관관계 계수는 두 유전자 발현 프로파일의 관련성을 정량한다.The present invention provides a second method for quantifying the relevance of a first gene expression profile and a second gene expression profile, the method of which (a) each gene commonly present in the first gene expression signal and the second gene expression profile. Generate a first gene expression signal and a second gene expression signal for, respectively; (b) performing linear regression on several pairs of first and second gene expression signals for commonly occurring genes, wherein the correlation coefficient of this regression quantifies the relevance of the two gene expression profiles. do.

본 발명은 단일 사전선택된 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순위대로 정렬하는 방법을 제공하는데, 상기 방법은 (a) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고; (b) 상기 한 쌍 단위-측정된 양을 순위대로 정렬하는 것으로 구성된다. 본 발명의 이런 측면의 적절한 구체예에서, 관련성의 한 쌍 단위 정량은 여기에 새로이 제시한 2가지 방법중 하나에 따라 실시한다.The present invention provides a method of ordering the relevance of a plurality of gene expression profiles to a single preselected gene expression profile, the method comprising: (a) relevance of each of the plurality of gene expression profiles to a preselected gene expression profile; Quantitate in pairs; (b) sorting the pair unit-measured amounts in order. In a suitable embodiment of this aspect of the invention, the pairwise quantification of relevance is carried out according to one of the two methods newly presented herein.

이들 각각의 방법은 자세히 기술한 도면을 참고로 하면 더 쉽게 이해할 수 있다.Each of these methods can be more easily understood with reference to the drawings in detail.

초기 발현 데이터로부터 개별 유전자 발현 신호의 일반화Generalization of Individual Gene Expression Signals from Initial Expression Data

도1은 유전자 발현 프로파일의 정량분석에 적당한 유전자 발현신호를 유전자 발현 매트릭스에서 초기에 얻어진 신호로부터 유도하는 과정을 설명하는 일관 공정도로, 도1A는 초기 신호 처리를 도식화하고, 도1B는 환경-대응된 조절에 따른 선택적 연속 보정을 설명한다.FIG. 1 is an integrated process diagram illustrating the process of deriving a gene expression signal suitable for quantitative analysis of a gene expression profile from a signal initially obtained in a gene expression matrix, FIG. 1A illustrates initial signal processing, and FIG. The optional continuous correction according to the adjusted adjustments will be described.

박스 116으로 한계를 정해 놓은 초기 데이터 획득 단계는 순차적으로 실시하거나 또는 동시에 실시할 수 있다; 디지털화 101은 독립된 아날로그-대-디지털 변환기를 이용한 신호 획득 장치 자체로 실시하거나, 또는 발현데이터를 디지털형태로 직접 획득하여 실시할 수 있다.The initial data acquisition step, bounded by box 116, can be performed sequentially or simultaneously; Digitization 101 may be performed by a signal acquisition device itself using an independent analog-to-digital converter, or may be performed by directly acquiring expression data in a digital form.

연속 데이터 조작 단계(도 1A, 1B, 5, 6) 각각은 컴퓨터 과학분야에 공지된 기술을 이용한 프로그램가능 디지털 컴퓨터로 성취할 수 있다. 단계중 일부는 당분야에 공지된 아날로그 회로를 이용하여 대체달성할 수 있다. 단계는 단일 연산 장치, 일련의 연산 장치에서 실시하거나, 또는 단계의 임시 순위가 지켜지는 한도에서 평행 교차 다중 연산 장치에 분산시킬 수 있다. 과정은 연속적 또는 불연속적으로 실시하는데, 중간수치는 연속처리를 위한 확인된 단계에서 저장한다Each of the successive data manipulation steps (FIGS. 1A, 1B, 5, 6) can be accomplished with a programmable digital computer using techniques known in the computer sciences. Some of the steps can be accomplished by using analog circuitry known in the art. Steps may be performed on a single computing device, a series of computing devices, or distributed to parallel cross-multiplying devices as long as the temporary ranking of the steps is kept. The process can be carried out continuously or discontinuously, with intermediate values stored at the identified stage for continuous processing.

디지털 컴퓨터의 프로그램측면에서, 도 1, 5, 6, 9, 10에서 보인 단계는 당분야에 공지된 고급언어중 하나로 코드하는데, 이런 고급언어에는 FORTRAN, BASIC, Pascal, C, C+, C++, JavaTM등이 포함되지만, 이들에 한정하지 않는다;From the program side of the digital computer, the steps shown in Figures 1, 5, 6, 9, and 10 are coded in one of the high-level languages known in the art, such as FORTRAN, BASIC, Pascal, C, C +, C ++, Java. TM etc. are included, but it is not limited to these;

대안으로, 도 1, 5, 6, 9, 10에서 보인 단계는 어셈블리 언어로 직접 코드할 수 있다. 여러 단계는 서브루틴, 마크로 또는 다른 상업적으로 구할 수 있는 통계 분석 프로그램(JMP?(SAS Institute) 또는 UNISTAT?Statistical Package(Unistat, Ltd.))이나 수학 함수 프로그램(MathematicaTM(Wolfram Research, Inc.))에 포함되어 있는 다른 개체를 이용하여 성취할 수 있다. 프로그램 언어의 선택은 당업자에 용이하게 할 수 있다.Alternatively, the steps shown in Figures 1, 5, 6, 9, 10 can be coded directly in assembly language. The different steps are subroutines, macros or other commercially available statistical analysis programs (JMP? (SAS Institute) or UNISTAT? Statistical Package (Unistat, Ltd.)) or mathematical function programs (Mathematica TM (Wolfram Research, Inc.) Achievements using other entities included in). The choice of programming language can be facilitated by those skilled in the art.

도1에서 보인 바와 같이, 발현 데이터는 먼저 특정 유전자 발현 매트릭스에 적합한 형태와 방식의 초기 발현 신호로 획득한다(100); Ashby등의 발현 매트릭스의 경우, 형광 데이터는 스캐닝 레이저로 획득할 수 있다. 초기 발현 신호는 발현 매트릭스의 물리적 위치(매트릭스 요소) 각각에 대하여 개별적으로 획득한다. 이들 초기 발현 신호는 선택된 환경 조건하에서 매트릭스에 개별 분석된 유전자 각각의 발현 수준을 나타낸다.As shown in FIG. 1, expression data is first obtained as an initial expression signal of a form and manner suitable for a particular gene expression matrix (100); In the case of expression matrices such as Ashby, fluorescence data can be obtained with a scanning laser. Initial expression signals are acquired separately for each physical location (matrix element) of the expression matrix. These initial expression signals represent the expression level of each gene analyzed in the matrix under selected environmental conditions.

초기 기본 신호는 일반적으로 유전자 발현 매트릭스상의 하나 도는 복수의 조절위치로부터 획득한다. 이런 기본 컨트롤의 성질은 물리적 매트릭스에 의존한다. 가령, 형광표지된 또는 방사성표지된 핵산의 하이브리드형성을 특정하는 이들 매트릭스는 컨트롤로 핵산을 전혀 포함하지 않은 매트릭스상의 하나 또는 복수의 위치 또는 공지된 ORF와 상보적이지 않은 핵산을 보유한 매트릭스상의 하나 또는 복수의 위치로부터의 적량을 포함한다. 유사하게, 형질전환된 세포(Ashby et a,)상의 재조합 리포터로부터 발현을 측정하는 매트릭스는 컨트롤로 재조합 리포터 구조체가 결핍된 세포를 보유한 매트릭스; 리포터유전자를 발현할 수 없는 재조합 구조체를 함유한 세포를 보유한 매트릭스; 리포터 구조체는 포함하나 필요한 기질이 결핍된 세포를 보유한 매트릭스상의 하나 또는 복수의 위치로부터의 적량을 포함한다.Initial base signals are generally obtained from one or more regulatory sites on the gene expression matrix. The nature of these basic controls depends on the physical matrix. For example, these matrices that specify hybridization of fluorescently or radiolabeled nucleic acids may be one or a plurality of positions on the matrix that do not contain any nucleic acid as a control or one on a matrix that contains nucleic acids that are not complementary to a known ORF. It includes appropriate quantities from a plurality of positions. Similarly, a matrix measuring expression from recombinant reporters on transformed cells (Ashby et a,) includes a matrix containing cells lacking the recombinant reporter construct as a control; A matrix containing cells containing a recombinant construct that is unable to express a reporter gene; The reporter construct includes an appropriate amount from one or more locations on the matrix that contains cells that contain but lack the necessary substrate.

비록 기본 컨트롤 요소는 일반적으로 각 매트릭스에 포함되지만, 기본 적량은 또한, 상이한 물리적 매트릭스로부터 얻거나 또는 유사한 매트릭스로부터 이전에 저장된 데이터 수치를 참고로 할 수 있다. 이런 컨트롤의 형태와 개수의 선택은 당업자의 능력범위에 포함된다.Although the basic control elements are generally included in each matrix, the basic quantities can also refer to data values previously obtained from different physical matrices or previously stored from similar matrices. The choice of type and number of such controls is within the skill of the person skilled in the art.

일반적으로 형광의 강도를 나타내는 신호로 획득되는 초기 발현 신호와 초기 기본 신호는 이후 디지털화하고(101), 초기 신호 수치와 초기 기본 수치로서 전기적으로 저장한다. 임의의 용이한 표, 매트릭스 또는 스프레트시트 형태를 사용하여, 이들 데이터를 저장하는데, 상기 데이터는 총체적으로 유전자 발현 프로파일로 칭한다. 데이터는 임의접근 기억장치상의 수치와 같은 휘발성 데이터로 저장할 수 있다. 다른 방법으로, 데이터는 자석식, 광학식 또는 자석광학식 저장 매체에 좀더 영구적으로 저장할 수 있다.In general, the initial expression signal and the initial basic signal obtained as a signal representing the intensity of the fluorescence are then digitized 101 and then electrically stored as the initial signal value and the initial basic value. These data are stored using any convenient table, matrix or spreadsheet form, referred to collectively as a gene expression profile. The data can be stored as volatile data, such as values on random access storage. Alternatively, the data can be stored more permanently in a magnetic, optical or magneto optical storage medium.

인지하는 바와 같이, 발현 매트릭스의 각 개별 요소에 대한 초기 신호 수치는 상응하는 다차원 데이터 매트릭스상의 위치에 의해, 데이터 각 구성요소에 헤드 정보를 첨부하여, 또는 당분업자에게 공지된 다른 적당한 방법으로 개별적으로 분명하게 구분한다. 가령, 단일 물리적 매트릭스 요소의 형광 강도는 다중 필드, 실험 동작을 위한 동조기등로 구성되는 단일 레코드로 표현할 수 있는데, 상기 하나 또는 복수의 필드는 신호의 물리적 출처, 데이터, 데이터 획득 시간을 파악한다.As will be appreciated, the initial signal values for each individual element of the expression matrix can be individually determined by location on the corresponding multidimensional data matrix, by attaching head information to each component of the data, or by other suitable methods known to those skilled in the art. Distinguish clearly. For example, the fluorescence intensity of a single physical matrix element can be represented by a single record consisting of multiple fields, tuners for experimental operation, etc. The one or more fields identify the physical source of the signal, data, and data acquisition time.

인지하는 바와 같이, 초기 발현 신호의 동적 범위는 발현 매트릭스의 형태에 따른 물리적 제약, 특히, 발현 리포터의 동적 범위와 획득 장치의 감수성 범위에 의해 한정된다. 이해하는 바와 같이, 아날로그 신호는 8-bit, 16-bit, 32-bit등과 같이 깊이를 변화시키는 디지털 데이터로 하여 초기 신호 수치로 나타낼 수 있는데, 데이터가 깊어질수록, 인코드되는 강도는 더 분명해지는 반면, 이들 데이터에 대한 저장 필요성은 더욱 커지게 된다. 데이터 깊이는 따라서, 당업자가 이해할 수 있는 경험적 필요성에 기초하여 선택한다. 도한, 초기 디지털화는 한가지 데이터 깊이를 이용하여 실시하고, 이후의 분석은 깊이를 줄인 데이터로 진행한다. 후자의 경우에, 단순한 선형 변환은 사용하여 데이터 깊이를 감소시킬 수 있다.As will be appreciated, the dynamic range of the initial expression signal is defined by the physical constraints of the shape of the expression matrix, in particular the dynamic range of the expression reporter and the sensitivity range of the acquisition device. As you can see, analog signals can be represented as initial signal values as digital data with varying depths, such as 8-bit, 16-bit, 32-bit, etc. The deeper the data, the stronger the encoded strength is. On the other hand, the need for storing these data becomes even greater. The data depth is therefore selected based on empirical needs that one of ordinary skill in the art can understand. In addition, initial digitization is performed using one data depth, and subsequent analysis proceeds to data with reduced depth. In the latter case, simple linear transformations can be used to reduce the data depth.

적절한 방식에서, 유동하는 포인트 수치를 사용한다.In an appropriate manner, use floating point numbers.

다수의 매트릭스 위치로부터 초기 발현 신호는 낮기(즉, 기본이하) 때문에, 가급적 기본 보정(118)을 실시하는데, 이런 과정이 꼭 필요한 것은 아니다. 이런 보정을 실시하는 몇 가지 방법이 당분야에 알려져 있다. 한가지 방식에서, 측정된(이전의) 기본 수치는 입력된 초기 수치에 상관없이 각 초기 신호 수치에 첨가한다. 다른 방식에서, 측정된 기본 수치의 ½을 각 입력 수치에 더한다.Since the initial expression signal from a number of matrix locations is low (ie subbasal), this process is not necessary to perform a baseline correction 118 whenever possible. Several methods of making such corrections are known in the art. In one approach, the measured (previous) baseline value is added to each initial signal value regardless of the initial value entered. Alternatively, add ½ of the measured base value to each input value.

이들 공지된 방식 또는 다른 적당한 방식을 사용할 수 있긴 하지만, 다음의 방식이 선호된다. 각 초기 신호 수치는 초기 기본 수치와 비교한다(102). 신호 수치가 기본 수치와 동일하거나 또는 이를 초과하는 경우, 보정은 실시하지 않고, 변이 신호를 초기 신호 수치로 지정한다(106). 다른 방법으로, 초기 신호 수치가 기본 수치보다 적은 경우, 신호는 기본 수치로 지정한다(104).Although these known or other suitable methods can be used, the following methods are preferred. Each initial signal value is compared with the initial basic value (102). If the signal value is equal to or exceeds the basic value, no correction is performed, and the transition signal is designated as the initial signal value (106). Alternatively, if the initial signal value is less than the base value, the signal is designated as the base value (104).

이런 방식은 기본 보정에 대한 이전의 방식보다 좀더 보존성이다. 제 1 신호 A를 0으로, 제 2 신호 B를 기본 수준(BKG)과 동일한 것으로 추정한다. BKG가 각 신호 수치에 더해지는 제 1 방식에서, A수치는 BKG와 동일하고, B수치는 BKG의 2배가 되고, 따라서, B는 A수치의 2배가 되도록 인위적으로 설정한다. ½ BKG를 각 신호 수치에 더하는 제 2 방식에서, A는 ½BKG가 되고, B는 1½BKG가 되고, 따라서, B수치는 A수치의 3배가 되도록 인위적으로 설정한다. 적절한 방식에서, A만 BKG로 조정하고, B는 BKG로 계속 유지시켜, 보정후 B 수치가 A수치보다 크지 않도록 한다.This approach is more conservative than the previous approach to basic calibration. It is assumed that the first signal A is 0 and the second signal B is equal to the base level BKG. In the first manner in which BKG is added to each signal value, the A value is equal to the BKG, and the B value is twice the BKG, and therefore B is artificially set to be twice the A value. In a second scheme of adding ½ BKG to each signal value, A becomes ½ BKG and B becomes 1½ BKG, so that the B value is artificially set to be three times the A value. In an appropriate manner, adjust only A to BKG and keep B to BKG so that the B value after calibration is not greater than the A value.

기본 보정에 대한 이런 보존성 방식을 이용하여, 하나 또는 복수의 유전자 발현 프로파일을 정량적으로 관련시키는 복합 스코어를 만들기 위해 가능한한 다수의 획득 유전자 발현 신호를 사용하는 본 발명의 목적을 심화시킨다.Using this conservative approach to basic correction, the object of the present invention is to deepen the use of as many acquired gene expression signals as possible to produce a composite score that quantitatively correlates one or multiple gene expression profiles.

선행 방법은 일반적으로 유전자 단위에 기초한 발현수준의 변화를 기록하여 세포내 유전자 발현의 변화를 평가하였다. 다수의 유전자를 동시에 측정하는 경우에도, 변화는 다차원적인 데이터로 기록된다(Lashkari et al.,). 임의 유전자의 발현상의 변화를 살펴보는 경우에-심지어 일단의 개별 유전자상의 발현 변화를 살펴보는 경우- 측정 오차의 존재로 인해 이런 발현 비교에서 거의 변화지 않는 신호를 이용해야 한다.Prior methods generally assess changes in intracellular gene expression by recording changes in expression levels based on gene units. Even when multiple genes are measured simultaneously, changes are recorded as multidimensional data (Lashkari et al.,). When looking at changes in the expression of an arbitrary gene—even when looking at changes in the expression of a set of individual genes—signals should be used that are almost unchanged in this expression comparison due to the presence of measurement errors.

일반적으로, 선택된 다중 표준오차의 일부를 초과하지 않는 발현수준상의 변화는 무시한다. 가령, 2배미만, 5배미만 또는 심지어 10배미만의 개별유전자상의 발현변화는 일반적으로 무시한다.In general, changes in expression levels that do not exceed some of the multiple standard errors chosen are ignored. For example, less than 2 times, less than 5 times or even less than 10 times the expression changes on individual genes are generally ignored.

하지만, 본 발명에서 이런 다수의 무시된 데이터가 유전자 발현상의 실제적인 변화이고, 따라서, 유전자 발현 프로파일의 비교에 대한 유용한 정보가 된다고 인식한다. 가령, 도2, 3, 4는 분산 도표로, 각 분산된 점은 2개의 확인된 조건하에서 개별 유전자의 상대적인 발현을 제시한다. 도면은 하기에 자세히 설명한다.However, it is recognized in the present invention that many of these ignored data are actual changes in gene expression and, thus, are useful information for comparison of gene expression profiles. For example, Figures 2, 3, and 4 are scatter plots, with each scattered point showing the relative expression of individual genes under two identified conditions. The drawings are described in detail below.

본 목적을 위해, 눈금은 대수이고, 이들 도면의 수평축과 수직축상의 점표시는 1 자연로그(e1,e2,e3등)의 간격으로 설정된다는 것을 이해해야 한다. 보이는 바와 같이, 대부분의 데이터는 두 축상에서 각 방향의 제 1 점표시로 한정되는 스퀘어 내에 존재한다. 다시 말하면, 이런 스퀘어내의 모든 데이터는 표준오차와 이런 변화를 구분할 수 없어 무시되는 자연 로그(대략, 2.7배)이하의 변화이기 때문에 분석에서 무시하였다. 2 자연로그(e2, 또는 7.4-배)이하의 변화를 무시하는 경우, 각 방향에서 제 2 점표시로 한정된 스퀘어상의 모든 데이터는 분석에서 제거된다. 도면에서 알 수 있듯이, 결과적으로 유용한 데이터의 대부분이 상실되게 된다.For this purpose, it should be understood that the scales are logarithmic and that the dot markings on the horizontal and vertical axes of these figures are set at intervals of one natural log (e 1 , e 2 , e 3, etc.). As can be seen, most of the data is in a square defined by the first dot in each direction on both axes. In other words, all the data in these squares were ignored in the analysis because they were below the natural logarithm (approximately 2.7 times) which were ignored because they were indistinguishable from the standard error. When ignoring changes less than two natural logs (e 2 , or 7.4- times), all data on the square defined by the second point mark in each direction are removed from the analysis. As can be seen from the figure, most of the useful data is lost.

본 발명에서는 이들 데이터를 이용할 수 있다. 임의 유전자의 발현상의 작은 변화의 유의성은 표준오차의 크기로 인해 측정할 수 없지만, 전체적인 변화의 유의성은 실제 측정할 수 있다; 선행방법은 유의성의 측정에서 표준오차에 집중하지만, 본 발명은 대신 평균 표준 오차에 집중한다. 평균적으로, 2가지 상이한 환경조건사이의 유전자 발현상의 전체적인 변화는 하기에 제시한 바와 같이 강하게 상호연관된다.In the present invention, these data can be used. The significance of small changes in the expression of any gene cannot be measured due to the magnitude of the standard error, but the significance of the overall change can be measured in practice; While the prior art focuses on standard error in the measurement of significance, the present invention instead focuses on the mean standard error. On average, the overall change in gene expression between the two different environmental conditions is strongly correlated as shown below.

따라서, 기본 보정 단계를 거처 다수의 데이터를 계속 유지시키기 위해서는 전술한 바와 같이 기본에 대한 보존성 보정을 사용하는 것이 바람직하다.Therefore, it is preferable to use the retention retention correction for the base as described above in order to keep the plurality of data through the basic correction step.

기본에 대하여 가급적 조정된 각 매트릭스 요소에 대한 신호는 이후, 다른 동일한 실험, 다시 말하면, 단일 발현 매트릭스에서 데이터 획득 동작 또는 복수 매트릭스로부터 개별 데이터 획득상의 변이에 대한 컨트롤로 표준화시킨다.The signal for each matrix element adjusted as far as possible relative to the base is then normalized to other identical experiments, ie control of data acquisition behavior in a single expression matrix or variation in individual data acquisition from multiple matrices.

발현 신호를 표준화시키는 것의 유용성은 유전자 발현 매트릭스를 이용한 발현 유전자의 고도 비교측정이 가능해지기 이전에도 당분야에 인식되었었다. 따라서, 노잔 블랏 분석에 의한 개별 유전자 발현 수치는 동일 블랏에 동시에 또는 연속적으로 프로브된 연속 하우스키핑 유전자의 발현 수치와 비교하여 표준화하였다. 이런 방식으로, 불평등 겔 로딩, mRNA 순도 변이등에 의해 도입된 변이성을 조절할 수 있었다.The usefulness of standardizing expression signals has been recognized in the art even before high comparative measurements of expressed genes using a gene expression matrix are possible. Thus, individual gene expression values by Nozan blot analysis were normalized compared to expression values of continuous housekeeping genes probed simultaneously or sequentially in the same blot. In this way, the variability introduced by unequal gel loading, mRNA purity variation, and the like could be controlled.

선행 방식의 한계는 참고기준으로 선택된 개별 유전자 자체의 발현이 상이할 수 있다는 점이었다. 이런 문제는 본 발명에서 세포의 전체 유전자 발현, 예를 들면, "하우스키핑 유전자"의 발현을 측정하고, 약물의 존재하에서 유전자 발현의 변화(선행 문헌에서 예상할 수는 없는 효과)를 측정하려함으로써 더욱 복잡해졌다.The limitation of the previous approach was that the expression of the individual genes themselves selected for reference may be different. This problem is solved by measuring the total gene expression of a cell, e.g., the expression of "housekeeping gene" in the present invention, and by measuring the change in gene expression in the presence of the drug (unexpected effect in the prior literature). More complicated

실험간의 변이에 대한 컨트롤에 대해 신호를 표준화하는 몇 가지 방법이 존재한다. 한가지 방식은 모든 유전자의 평균 신호를 일정한 것으로 간주하는 것이고, 다른 방식은 신호의 루트 평균 스퀘어를 표준화하는 것이고, 또 다른 것은 신호수치의 평균로그를 표준화하는 것이다. 평균 로그 표준화는 효과적으로 외곽신호를 제거하는데, 상기 외곽신호는 평균 신호 수치로부터 가장 멀리 존재하는 신호다.There are several ways to normalize the signal to control for variation between experiments. One way is to consider the mean signal of all genes as constant, the other way is to normalize the root mean square of the signal, and the other way is to normalize the mean log of the signal values. Average log normalization effectively removes the outer signal, which is the farthest signal from the average signal value.

여기에서 적절한 방법은 모든 유전자에서 평균 신호는 일정한 것으로 간주하는 것이다: 표준화는 108에서 보인 바와 같이 모든 신호의 합으로 각 신호를 나누어 성취한다(도1A).The proper method here is to assume that the mean signal in all genes is constant: normalization is achieved by dividing each signal by the sum of all signals as shown in 108 (FIG. 1A).

세포에서 발현된 유전자중 극히 일부만을 평가하는 경우에는 평균 유전자 발현 신호가 일정해야 한다고 가정할 필요가 없다. 따라서, 유전자의 소규모의 부분집합을 선택하는 경우-유전자 발현 프로파일의 초기 생성, 이후의 정량분석 또는 초기 획득과 이후의 분석을 위해-표준화 단계는 선택적으로 생략할 수 있다. 따라서, 표준화 단계(108)는 하기 실시예 5에서 제시한 정량분석동안 96개 유전자 부분집합의 분석에서 생략하였다: 표준화단계는 일정한 평균 발현의 가정이 유효하지 않기 때문에 생략하였다.When only a small fraction of genes expressed in cells are evaluated, it is not necessary to assume that the mean gene expression signal should be constant. Thus, when selecting a small subset of genes—for the initial generation, subsequent quantitation or initial acquisition and subsequent analysis of gene expression profiles—the standardization step can optionally be omitted. Thus, the normalization step 108 was omitted from the analysis of 96 gene subsets during the quantitative analysis presented in Example 5 below: The normalization step was omitted because the assumption of constant mean expression was not valid.

정량 유전자 발현 프로파일 분석을 위해 개별 신호 수치를 만드는 최종 단계(110)로서, 각 신호 수치의 대수를 취한다; 다시 말하면, 신호는 신호 수치의 대수로 지정한다. log10을 사용할 수도 있지만, 자연 로그가 선호된다.As a final step 110 of making individual signal levels for quantitative gene expression profile analysis, the logarithm of each signal level is taken; In other words, the signal is specified as the logarithm of the signal value. You can also use log 10 , but natural logs are preferred.

신호 수치의 대수를 이용하여 비교분석을 실시하는 것은 3가지 장점이 있다. 먼저, 대수수치로 전환하면, 발현수준상의 등가의 변화는 발현상의 감소 또는 증가인지에 상관없이 동등하게 평가된다.Performing comparative analysis using logarithms of signal values has three advantages. First, when converted to algebraic values, the equivalent change in expression level is evaluated equally regardless of whether it is a decrease or increase in expression.

가령, 초기 1 수치에서 10배 감소와 10배 증가를 예로 들어보자. 10배 감소(0.1 단위)는 0.9 단위의 절대 감소다. 10배 증가(10 단위)는 9.0 단위의 절대증가다. 증가의 절대 수치 9.0은 절대 감소 수치 0.9보다 유전자 발현에서 훨씬 큰 변화로 보인다. 각 수치에 log10을 하면, 대조적으로 3개의 수치는 -1, 0, +1로 되고, 감소와 증가는 실제적으로 동일하다.For example, consider a 10-fold decrease and a 10-fold increase in the initial 1 value. A 10-fold decrease (0.1 units) is an absolute decrease of 0.9 units. A tenfold increase (10 units) is an absolute increase of 9.0 units. The absolute value of increase of 9.0 appears to be a much larger change in gene expression than the absolute decrease of value of 0.9. With log 10 for each value, the three values, in contrast, are -1, 0, +1, and the decrease and increase are practically the same.

대수수치를 계산하는 것은 다른 부수적인 장점은 발현 프로파일 데이터의 성질을 직접적으로 평가할 수 있다는 것이다. 2개의 복제 프로파일을 비교할 때, 모든 유전자에 대하여 계산된 로그비율은 임의 측정 오차로부터 표준 분산에 따라 0근처에서 분포하는 것으로 보인다. 표준 통계학적 측정으로 상이한 실험에서 재현가능한 수치를 정량화할 수 있다.Computing algebraic values is another side benefit of being able to directly assess the nature of expression profile data. When comparing the two replication profiles, the calculated log ratio for all genes appears to be distributed near zero according to the standard variance from any measurement error. Standard statistical measurements can quantify the values reproducible in different experiments.

대수수치를 사용하는 세 번째 장점은 대수 척도에 따라 수치를 구분하면 도 2-4(하기 참조)에서 보는 바와 같이 데이터의 시각적 전시에 이점에 생긴다는 것이다.A third advantage of using algebraic values is that the division of values according to algebraic scales has an advantage in the visual display of data as shown in FIGS. 2-4 (see below).

단계 110으로 종결되는 도1A의 과정에서 만들어진 신호는 도5와 6에서 도식화한 바와 같이 유전자 발현 프로파일의 정량분석에 이용하기 적합하다. 하지만, 도1B에서 제시한 바와 같이 일련의 추가 단계를 가급적 실시한다.The signal produced in the process of FIG. 1A ending in step 110 is suitable for use in quantitative analysis of gene expression profiles as illustrated in FIGS. 5 and 6. However, as shown in FIG. 1B, a series of additional steps is preferably performed.

약물은 유기 용매를 비롯한 다양한 용매에서 제조하는데, 이들 용매 자체가 유전자 발현에 다양한 영향을 준다. 따라서, 약물을 세포 배양배지에 도입하여 만들어진 유전자 발현 프로파일상의 변화에는 (1) 약물에 의해 만들어진 변화와 (2) 용매에 의해 야기된 변화가 포함된다. 배지 자체가 실시예 4와 표7에서 제시한 바와 같이 변화의 한 원인이 된다. 또한, 균주 또는 세포-형 차이가 분석한 세포사이에 존재한다.Drugs are prepared in a variety of solvents, including organic solvents, which themselves have a variety of effects on gene expression. Thus, changes in the gene expression profile made by introducing a drug into a cell culture medium include (1) changes made by the drug and (2) changes caused by the solvent. The medium itself is one cause of the change as shown in Example 4 and Table 7. In addition, strains or cell-type differences exist between the cells analyzed.

이들 환경 효과를 조절하고, 따라서, 실험 약물의 작용에 기인한 유전자 발현상의 변화에 대한 이후의 프로파일 비교에 집중하기 위하여, 용매-대응된, 배지-대응된, 가급적 균주-대응된 조절에 의한 신호는 도1B에서 자세히 설명한 바와 같이 공제해야 한다.Signals by solvent-matched, medium-matched, preferably strain-matched regulation, in order to modulate these environmental effects and thus focus on subsequent profile comparisons of changes in gene expression due to the action of the experimental drug. Must be deducted as detailed in FIG. 1B.

먼저, 대응된 컨트롤 발현 매트릭스 초기 발현 신호와 초기 기본 신호를 획득한다. 가령, 액티노마이신 D 용액에 메탄올의 존재로 인해 야기된 유전자 발현 프로파일에 대한 효과(표1과 2)의 컨트롤로, 다른 동일한 발현 매트릭스(게놈 리포터 매트릭스)는 동일한 농도에서 매탄올로만 처리하고, 초기 발현 신호와 초기 기본 신호는 이로부터 획득한다.First, the corresponding control expression matrix initial expression signal and initial base signal are obtained. For example, as a control of the effects on gene expression profiles caused by the presence of methanol in the actinomycin D solution (Tables 1 and 2), other identical expression matrices (genome reporter matrices) were treated with only methanol at the same concentration, Initial expression signals and initial base signals are obtained therefrom.

환경적으로-대응된 컨트롤에 대한 보정은 도1B에서 제시한 바와 같이 각 유전자에 대하여 개별적으로 실시한다.Calibration for environmentally-corresponding controls is performed separately for each gene as shown in FIG. 1B.

먼저, 대응된 컨트롤 매트릭스(Signalmc132)로부터 유전자 신호는 실험 매트릭스로부터 획득한 유전자 신호(130)로부터 공제한다(134).First, the genetic signal from the corresponding control matrix (Signal mc 132) is subtracted from the genetic signal 130 obtained from the experimental matrix (134).

다음, 표준화에 앞서 이전의 기본 보정(118)에 의해 도입된 인위결과는 2가지 결정 쿼리(136과 140)의 방법으로 처리한다. 쿼리는 임의 순위로 순차적으로 실시하거나 또는 좀더 일반적으로 단일 코드 라인에서 성취할 수 있다.Next, the artificial results introduced by the previous basic correction 118 prior to standardization are processed in the manner of two decision queries 136 and 140. Queries can be performed sequentially in any order, or more generally in a single line of code.

보정된 신호(134)가 0이하인 경우--다시 말하면, Signalmc132가 실험 신호(130)를 초과하는 경우--Signalmc는 표준화이전의 기본 보정동안 인위적으로 증가되고(104), Signalmc의 실제 수치는 신호(130)이하일 가능성이 있다. 따라서, 제 1 결정 쿼리(136)는 보정된 신호(134)가 0이하인지와 Signalmc가 단계 102에서 기본이하인 지를 물어보게 된다. 제 1 결정 쿼리(136)가 참(true)으로 바뀌면, 보정된 신호는 0으로 설정된다(138). 다시 말하면, 보정된 신호가 참인지를 결정하는 것이 불가능하기 때문에, 수치를 0으로 설정하여 신호가 연속분석으로부터 제거되도록 한다.If is less than or equal to 0, the correction signal 134 - in other words, when the Signal mc 132 exceeds the test signal 130 of --Signal mc is increased artificially for basic correction of previous standards (104), Signal mc The actual value may be less than or equal to the signal 130. Accordingly, the first decision query 136 asks whether the corrected signal 134 is equal to or less than zero and whether signal mc is equal to or less than basic in step 102. If the first decision query 136 turns true, then the corrected signal is set to zero (138). In other words, since it is impossible to determine whether the corrected signal is true, set the value to zero so that the signal is removed from the continuous analysis.

유사하게, 보정된 신호(134)가 0보다 큰 경우--다시 말하면, 실험 신호(130)가 대응된 컨트롤 Signalmc132를 초과하는 경우--표준화이전의 시험신호(130)는 기본 보정동안 인위적으로 증가하고, 시그널(130)의 실제 수치는 Signalmc이하일 가능성이 있다. 따라서, 제 2 결정 쿼리(140)가 참(true)으로 바뀌면, 보정된 신호는 0으로 설정된다(142).Similarly, if the corrected signal 134 is greater than zero--that is, if the experimental signal 130 exceeds the corresponding control signal mc 132--the test signal 130 prior to normalization is artificially calibrated during the basic calibration. , The actual value of the signal 130 may be less than or equal to signal mc . Thus, if the second decision query 140 changes to true, the corrected signal is set to zero (142).

도2, 3, 4는 도1A와 1B에서 제시한 단계를 비롯하여 전술한 대로 처리한 유전자 발현 데이터의 분산 도표를 보여준다.Figures 2, 3 and 4 show scatter plots of gene expression data processed as described above, including the steps shown in Figures 1A and 1B.

도2-4에서 데이터는 게놈 리포터 매트릭스(하기 실시예 참조)에 의해 만들어진 초기 발현 신호로부터 유도한다. 도2는 구조와 기능이 밀접하게 관련된 것으로 공지된 2가지 화학요법적 약물: 다우나루비신과 독소루비신중 하나로 개별 처리한 매트릭스로부터 유도한 데이터를 점으로 보여준다. 도3은 구조와 기능이 상이한 2가지 약물: 독소루비신(화학요법적 약물)과 미코나졸(항진균제)중 하나로 개별 처리한 매트릭스로부터 유도한 데이터를 점으로 보여준다. 도4는 구조는 상이하나 기능이 관련된 화학요법적 약물: DNA 합성을 저해하는 미코페놀산과 다우나루비신중 하나로 개별 처리한 매트릭스로부터 유도한 데이터를 점으로 보여준다.Data in Figures 2-4 are derived from the initial expression signal produced by the genome reporter matrix (see Examples below). Figure 2 shows the data derived from the matrix individually treated with one of two chemotherapeutic drugs known to be closely related in structure and function: daunarubicin and doxorubicin. Figure 3 shows the data from the matrix separately treated with one of two drugs with different structures and functions: doxorubicin (chemotherapy drug) and myconazole (antifungal agent). Figure 4 shows the data derived from the chemotherapy drugs with different structures but with associated functions: matrixes treated separately with either mycophenolic acid or daunarubicin that inhibit DNA synthesis.

도2, 3, 4의 그래프상의 각 점은 특정 유전자의 발현을 나타낸다: X는 약물중 하나(도2에서 독소루비신, 도3에서 독소루비신, 도4에서 다우나루비신)의 존재하에 얻어진 신호로부터 계산한 수치를 점으로 조정하고, Y는 제 약물(도2에서 다우나루비신, 도3에서 미코나졸, 도4에서 미코페놀산)의 존재하에 얻어진 신호로부터 계산한 수치를 점으로 조정한다.Each point on the graph of Figures 2, 3, and 4 represents the expression of a particular gene: X is calculated from the signal obtained in the presence of one of the drugs (doxorubicin in Figure 2, doxorubicin in Figure 3, Daunarubicin in Figure 4). The numerical value is adjusted to the point, and Y adjusts the numerical value calculated from the signal obtained in the presence of the drug (Daunarubisin in FIG. 2, myconazole in FIG. 3, mycophenolic acid in FIG. 4) to the point.

도2, 3, 4의 시각 검사에서, 약물 개발을 용이하게 하는 발현 프로파일 분석의 유용성을 알 수 있고, 또한, 이들 도면에서 제시한 극단적인 관련성(또는 비관련성)에서 상기와 같이 처리된 데이터의 즉석 정량 분석도 유용하다는 것을 알 수 있다.In the visual examinations of Figures 2, 3, and 4, the usefulness of expression profile analysis can be seen to facilitate drug development, and in addition to the extreme relevance (or irrelevance) presented in these figures, Instant quantitative analysis is also useful.

가령, 도2를 즉석 검사해보면, 2가지 약물이 동일하진 않지만 유사하게 대부분의 효모 유전자의 발현에 영향을 준다는 것을 알 수 있다: 다우나루비신에 의해 발현이 증가된 각 유전자는 독소루비신에 의해 동등하게 증가하고; 다우나루비신 처리에 의해 발현이 감소된 각 유전자는 독소루비신 처리에 의해 동등하게 억제되고; 발현이 다우나루비신 처리에 아무런 영향을 받지않는 각 유전자는 유사하게 독소루비신 처리에 아무런 영향을 받지 않는다.For example, an instantaneous examination of FIG. 2 shows that the two drugs are not identical but similarly affect the expression of most yeast genes: Each gene with increased expression by daunarubicin is equally doxorubicin Increasing; Each gene whose expression was reduced by daunarubicin treatment is equally inhibited by doxorubicin treatment; Each gene whose expression is not affected by Daunarubicin treatment is similarly unaffected by doxorubicin treatment.

대조적으로, 무관한 약물 독소루비신과 미코나졸을 이용하여 만들어진 유전자 발현 프로파일로부터 유사하게 점으로 표시한 데이터는 상당히 상이한 패턴을 보인다(도3). 도에서 보는 바와 같이, 일부 유전자의 발현은 두 약물에 의해 증가하고(오른쪽 상부 사분면상의 점들), 일부 유전자의 발현은 두 약물의 처리에 의해 감소하고(왼쪽 하부 사분면상의 점들), 다른 유전자의 발현은 약물에 의해 반대로 영향을 받는다(왼쪽 상부와 오른쪽 하부 사분면상의 점들).In contrast, similarly dotted data from gene expression profiles made using the irrelevant drug doxorubicin and myconazole show significantly different patterns (FIG. 3). As shown in the figure, the expression of some genes is increased by two drugs (dots in the upper right quadrant), the expression of some genes is decreased by treatment of the two drugs (dots in the lower left quadrant), and the expression of other genes. Is adversely affected by the drug (points on the upper left and lower right quadrants).

도4는 중간적인 경우를 보여주는데, 여기서, 두 약물은 기작은 상이하지만 DNA 합성에 영향을 주는 것으로 알려져 있다.Figure 4 shows an intermediate case, where the two drugs are known to affect DNA synthesis although they differ in mechanism.

따라서, 약물 관련성의 정량평가가 가능하다. 도2에서 보이는 것과 유사한 분산된 점 분포를 보이는 이들 약물(또는 다른 환경조건)은 작용이 밀접하게 관련되어 있다; 도3과 유사한 분산된 점 분포를 보이는 약물은 기능적으로 무관하다; 도4와 유사한 분산된 점 분포를 보이는 약물은 상이하지만 다소 연관된 작용기작은 보유한다.Thus, quantitative evaluation of drug relevance is possible. These drugs (or other environmental conditions) with a dispersed point distribution similar to that shown in Figure 2 are closely related in action; Drugs with a scattered point distribution similar to that of Figure 3 are functionally irrelevant; Drugs with a scattered point distribution similar to that of FIG. 4 have different but somewhat related mechanisms of action.

공지된 효능의 주도 화합물의 경우, 정밀한 생화학 분석법에 의존하지 않고 유사한 활성을 보유한 약물을 파악하여 유도체와 유사체를 선별할 수 있다. 사실, 주도 화합물의 작용기작은 알 필요가 없다. 하지만, 이런 분석의 잠재성은 이런 관련성 패턴을 인식하는 능력에 의해 제한된다. 도2와 3에 보이는 극한에서는 최소인 이런 문제점은 도4에서와 같은 중간정도의 경우에는 더욱 분명하게 드러난다. 본 발명은 유전자 발현 프로파일의 재현가능한 정량평가를 제공하여 이런 문제를 해결한다; 본 발명에서 또한, 2가지 화합물이상의 분석이 가능하기 때문에 만들어지는 유전자 발현 프로파일의 관련성을 순위대로 정렬할 수 있다.In the case of known potent compounds, derivatives and analogs can be selected by identifying drugs with similar activity without resorting to precise biochemical assays. In fact, the mechanism of action of the lead compound does not need to be known. However, the potential of this analysis is limited by the ability to recognize these association patterns. This problem, which is minimal in the extremes shown in FIGS. 2 and 3, is more apparent in the intermediate case as in FIG. 4. The present invention solves this problem by providing a reproducible quantitative assessment of gene expression profiles; In the present invention, since the analysis of two or more compounds is possible, the relevance of the gene expression profile produced can be arranged in order.

복합 스코어의 만들어 유전자 발현 프로파일의 관련성을 정량하는 방법How to quantify the relevance of gene expression profiles by making composite scores

본 발명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법을 제공하는데, 상기 방법은 (a) 제 1 유전자 발현 프로파이로가 제 2 유전자 발현 프로파일에 공통적으로 나타나는 유전자 각각에 대하여 제 1 유전자 신호와 제 2 유전자 신호를 만들고; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호의 각 쌍에 대한 상대적인 발현 스코어를 공식화하고; (c) 상기 한 쌍-단위의 상대적인 발현 스코어로부터 복합 스코어를 계산하는 것으로 구성되고, 여기서, 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량한다.The present invention provides a method for quantifying the relationship between a first gene expression profile and a second gene expression profile, the method comprising: (a) for each gene in which the first gene expression propyloid is common to the second gene expression profile; Generate a first genetic signal and a second genetic signal relative to each other; (b) formulate a relative expression score for each pair of first and second gene expression signals; (c) calculating a composite score from the pair-unit relative expression scores, wherein the composite score quantifies the relevance of the two gene expression profiles.

본 발명의 제 1 단계는 전술하였는데, 도1A와 1B를 참고로 한다. 제 2단계와 제 3단계는 도5를 참고로 하여 설명한다.The first step of the invention has been described above, with reference to Figures 1A and 1B. The second and third steps will be described with reference to FIG.

약술하면, 상대적 발현 스코어(524)는 두 유전자 발현 프로파일에서 공통적으로 나타나는 각 유전자에 대하여 개별적으로 공식화한다(528). 이후, 복합 스코어는 이런 개별 유전자의 전체적인 상대적 발현 스코어로부터 계산하는데(526), 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량하는 역할을 한다.In summary, relative expression scores 524 are individually formulated for each gene that appears common in both gene expression profiles (528). The composite score is then calculated from the overall relative expression scores of these individual genes (526), where the composite score serves to quantify the relevance of the two gene expression profiles.

도5에서 자세히 설명한 바와 같이, 제 1 조건하의 유전자에 대한 신호 (Signal 1, 500)는 입력이다. 이 신호는 도1에서 제시한대로 처리한다; 전술한 바와 같이, 신호는 가급적 환경-대응된 조건을 공제하여 도1B에서 제시한 대로 보정하지만, 이런 과정이 반드시 필요한 것은 아니다. 제 2 조건하의 동일 유전자에 대한 신호(Signal 2, 502)는 도1에서 제시한대로 유사하게 처리하고, 공제하여 상대적 발현 스코어(504)를 만든다. 신호 입력 수치는 대수(110)이기 때문에, 차이는 발현의 비율이 된다.As described in detail in Fig. 5, signals for the genes under the first condition (Signal 1, 500) are input. This signal is processed as shown in Figure 1; As mentioned above, the signal is corrected as shown in FIG. 1B, preferably by subtracting the environment-corresponding conditions, but this is not necessary. Signals 2 and 502 for the same gene under the second condition are similarly processed and subtracted as shown in FIG. 1 to produce a relative expression score 504. Since the signal input value is logarithm 110, the difference is the rate of expression.

표준화이전에 기본 보정에 의해 도입된 인위결과(118)는 대응된 컨트롤 신호의 공제후 전술한 바와 같이 이 시점에서 처리해야 한다.The artificial result 118 introduced by the basic correction before standardization should be processed at this point as described above after the subtraction of the corresponding control signal.

인공결과 상관관계는 2가지 결정 쿼리(506과 510)를 이용하여 실시한다. 쿼리는 임의 순위로 순차적으로 실시하거나, 또는 좀더 일반적으로 단일 코드 라인에서 성취할 수 있다.Artificial result correlation is performed using two decision queries (506 and 510). Queries can be performed sequentially in any order, or more generally in a single line of code.

상대적 발현 스코어(스코어 504)가 0이하인 경우--다시 말하면, 신호 2가 신호 1를 초과하는 경우--신호 2는 표준화이전의 기본 보정동안 인위적으로 증가되고(104), 신호 2의 실제 수치는 신호 1이하일 가능성이 있다. 따라서, 제 1 결정 쿼리(506)는 상대적 발현 스코어(504)가 0이하인지와 신호 2가 단계 102에서 기본이하인 지를 물어보게 된다. 제 1 결정 쿼리(506)가 참(true)으로 바뀌면, 신호 2는 0으로 설정된다(508). 다시 말하면, 상대적 스코어가 참인지를 결정하는 것이 불가능하기 때문에, 수치를 0으로 설정하여 스코어가 복합 스코어(526)에 포함되지 않도록 한다.If the relative expression score (score 504) is less than or equal to zero--that is, if signal 2 exceeds signal 1--signal 2 is artificially increased during the baseline correction prior to normalization (104), and the actual value of signal 2 is The signal may be 1 or less. Accordingly, the first decision query 506 asks whether the relative expression score 504 is less than or equal to zero and whether signal 2 is less than or equal to basic in step 102. If the first decision query 506 turns true, signal 2 is set to 0 (508). In other words, since it is impossible to determine whether the relative score is true, the value is set to zero so that the score is not included in the composite score 526.

유사하게, 상대적 발현 스코어(504)가 0보다 큰 경우--다시 말하면, 신호 1이 신호 2를 초과하는 경우--표준화이전의 신호 1은 기본 보정동안 인위적으로 증가하고(104), 신호 1의 실제 수치는 신호 2이하일 가능성이 있다. 따라서, 제 2 결정 쿼리(140)가 참(true)으로 바뀌면, 상대적 발현 스코어는 보정된 신호는 0으로 설정하여(518), 상대적 스코어가 복합 스코어(526)에 포함되지 않도록 한다.Similarly, if the relative expression score 504 is greater than zero--that is, if signal 1 exceeds signal 2--signal 1 prior to normalization artificially increases (104) during base calibration, The actual number may be less than or equal to signal 2. Thus, if the second decision query 140 changes to true, the relative expression score is set to zero with the corrected signal (518) such that the relative score is not included in the composite score 526.

다음, 유전자 단위 진입기준 비교를 실시한다(522). 각 발현 매트릭스 기술은 자체의 검출 진입기준을 보유하는데, 상기 진입기준이하의 신호는 신뢰수준에서 측정할 수 없다. 가령, Lashkari등의 올리고뉴클레오티드 하이브리드형성 플래트폼은 Ashby등의 세포 게놈 리포터 매트릭스와 상이한 검출 진입기준을 보유한다.Next, a genetic unit entry criterion comparison is performed (522). Each expression matrix technique has its own entry criteria for detection, below which signals cannot be measured at confidence levels. For example, the oligonucleotide hybridization platform of Lashkari et al. Has different detection entry criteria than the cell genome reporter matrix of Ashby et al.

이런 진입기준은 경험적으로 결정한다. 간단한 방식에서, 비-처리 프로파일의 획득 또는 동일 약물 처리한 세포로부터 프로파일의 획득을 2번 실시한다. 2개의 복제 프로파일을 비교하는 경우, 모든 유전자에 대해서 계산된 로그비율은 임의측정 오차로 인해 평균 분포에 따라 0 근처에 위치하는 것으로 보인다(단, 신호-대-노이즈 비율이 적당해야 한다--신호가 낮으면, 기본 보정은 분포를 왜곡시킨다). 이런 분포의 표준 편향은 적합한 진입기준을 설정하기 위한 가이드를 제공한다.These entry criteria are empirically determined. In a simple manner, acquisition of a non-treated profile or acquisition of a profile from the same drug treated cells is performed twice. When comparing two replication profiles, the calculated log ratio for all genes appears to be near zero according to the mean distribution due to random measurement error (however, the signal-to-noise ratio must be adequate--signal Is low, the default correction distorts the distribution). The standard bias of this distribution provides a guide for establishing appropriate entry criteria.

따라서, 기본 인위결과에 대하여 보정된(514) 상대적 발현 스코어의 절대수치가 경험적으로 설정된 진입기준(516)이하인 경우, 스코어는 0으로 지정되고(518), 이후 복합 스코어(526)에 포함되지 않는다. 현재, Ashby등의 게놈 리포터 매트릭스로부터 획득된 데이터에 대한 적절한 진입기준은 0.7이다. 당업자는 전술한 통계학적 기술을 이용하여 이런 경험적 진입기준을 설정할 수 있다. 또한, 기술 변화 또는 데이터 획득 기술은 기존의 데이터 획득 기술보다 더 효과적이기 때문에, 이런 경험적 진입기준은 변경될 가능성이 높다. 이후의 실험예 1-4에서, 이전에 수집한 데이터를 이용하여 1.0의 진입기준을 적용하였다.Thus, if the absolute value of the relative expression score corrected for the basic anthropogenic result is less than or equal to the empirically set entry criterion 516, the score is assigned to 0 (518) and then not included in the composite score 526. . Currently, the appropriate entry criterion for data obtained from the genomic reporter matrix of Ashby et al. Is 0.7. Those skilled in the art can establish these empirical entry criteria using the statistical techniques described above. In addition, because the technology change or data acquisition technology is more effective than the existing data acquisition technology, this empirical entry criterion is likely to change. In Experimental Examples 1 to 4 below, an entry criterion of 1.0 was applied using previously collected data.

또한, 박스(522)로 한정한 단계에서는 제 1 유전자 프로파일과 제 2 유전자 프로파일상의 유전자 발현 변화의 방향을 고려하지 않는다. 사용자-정의한 진입기준을 초과하지 않는 스코어를 0으로 설정하는 것은 당연히 필요하다. 나머지 스코어에 대하여, 임의 비-네거티브 스코어의 절대수치(520)를 스코어로 하여 방향성을 제거하는 것이 바람직하다. 2 처리의 관련성을 측정함에 있어, 유전자 억제의 정보 내용은 유전자 활성화의 정보 내용과 동등하게 처리한다--상대적 변화의 크기만을 사용한다.In addition, the step defined by the box 522 does not consider the direction of the gene expression change on the first gene profile and the second gene profile. It is of course necessary to set the score to 0 which does not exceed the user-defined entry criteria. For the remaining scores, it is desirable to remove the directionality by setting the absolute value 520 of any non-negative score as the score. 2 In determining the relevance of processing, the information content of gene suppression is treated equivalently to the information content of gene activation--use only the magnitude of the relative change.

따라서, 알고리즘상에서 상대적 발현 스코어를 0으로 설정하고, 데이터를 복합 발현 프로파일 스코어로부터 삭제하는 2가지 단계가 존재한다는 것을 알 수 있다. 박스(514)로 한정된 단계 506, 508, 510, 512에서, 기본 보정과 표준화로 인해 상대적 스코어의 방향이 참인지를 알 수 없는 경우 스코어는 0으로 설정한다. 박스(522)로 한정된 단계 516, 518, 520에서, 비록 인위결과는 아니지만 0과 통계학적으로 구분할 수 없는 경우, 스코어는 0으로 설정한다.Thus, it can be seen that there are two steps in the algorithm to set the relative expression score to zero and delete the data from the complex expression profile score. In steps 506, 508, 510, 512 defined by box 514, the score is set to zero if it is not known whether the direction of the relative score is true due to basic correction and standardization. In steps 516, 518, and 520 defined by box 522, the score is set to zero if not statistically indistinguishable from zero, although not an artificial result.

유전자 단위에 기초하여, 최종조작(524)으로 미생물의 다양한 유전자에 의해 분명하게 나타난 유전자 발현의 부동등 동적 범위를 보정한다. 가령, 일부 유전자는 조건 변화의 강약에 상관없이 유전자 발현을 단지 2배 변화시킬 수 있다; 다른 유전자는 유전자 발현을 200배 변화시킬 수 있다. 더 큰 동적 범위를 보유한 유전자가 비교분석을 과도하게 왜곡하는 것을 예방하기 위하여, 상대적 발현 스코어 각각은 이전 실험에서 상기 유전자에 대하여 관찰된 최대 발현의 제곱근의 로그로 나눈다. 524에서 보는 바와 같이, 상대적 발현 스코어 각각은 단계 108의 최대 신호 출력의 제곱근의 로그로 나눈다; 다시 말하면, 상대적 발현 스코어 각각은 유전자에서 지금까지 관찰된 최대 표준화 신호의 제곱근의 로그(½로그)로 나눈다. 당업자가 인지하는 바와 같이, 각 유전자에 대한 수치는 발현 매트릭스 기술(예, 배열크기)과 수집한 데이터에 의존하는데, 추가 실험을 실시하면 가끔 변화되기도 한다.Based on the genetic units, the final operation 524 corrects the dynamic range of dynamics of gene expression clearly manifested by the various genes of the microorganism. For example, some genes can only change the gene expression by a factor of two regardless of the intensity of the change in condition; Other genes can change gene expression 200-fold. In order to prevent genes with a larger dynamic range from excessively distorting the comparative analysis, each of the relative expression scores is divided by the logarithm of the square root of the maximum expression observed for that gene in the previous experiment. As seen at 524, each of the relative expression scores is divided by the logarithm of the square root of the maximum signal output in step 108; In other words, each of the relative expression scores is divided by the logarithm of the square root of the largest normalized signal observed so far in the gene (½ log). As will be appreciated by those skilled in the art, the values for each gene will depend on the expression matrix technique (eg, array size) and the data collected, which can sometimes change with further experimentation.

대안은 단계 524에서 다양한 유전자의 부동등 동적범위를 고려하는 것이다.An alternative is to consider the dynamic dynamic range of various genes at step 524.

이런 대안에서, 상대적 발현 스코어 각각은 단계 108의 지금까지의 최대 신호 출력-다시 말하면, 최대 표준화 신호-의 제곱근의 로그로 나누는데, 이 방식은 표준화를 성취하기 위하여 선택되는 수치에서 제 1 방식과 차이가 난다(단계 108에서 "Σ신호"). 이런 방식은 하기 실시예 5에서 자세히 설명한다.In this alternative, each of the relative expression scores is divided by the logarithm of the square root of the maximum signal output thus far, i.e. the maximum normalized signal, of step 108, which differs from the first scheme in the values chosen to achieve normalization. ("Σ signal" in step 108). This approach is described in detail in Example 5 below.

또 다른 구체예에서, TKDEOJR 발현 스코어 각각은 단계 108에서 최대 신호 입력의 제곱근의 로그로 나눈다; 다시 말하면, 상대적 발현 스코어 각각의 상기 유전자에 대한 최대 비표준화 신호의 제곱근의 로그(½로그)로 나눈다. 이것은 표준화가 부적절한 경우에 특히 적절하다.In another embodiment, each of the TKDEOJR expression scores is divided by the logarithm of the square root of the maximum signal input in step 108; In other words, divide by the logarithm (½ log) of the square root of the maximal unnormalized signal for each of the genes of the relative expression score. This is particularly relevant where standardization is inadequate.

다른 방법으로, 제곱근의 로그로 나누는 대신 최대 로그 신호-표준화 또는 비표준화-의 크기로 나눌 수 있다. 본 발명에서 최대 제곱근을 선별하는 원리는 특정 형태의 오차가 신호의 제곱근으로 변환시키는 것이다. 제곱근의 로그의 상관관계는 좀더 유익한 발현 프로파일 비교를 제공하는 것으로 밝혀졌다.Alternatively, instead of dividing by the logarithm of the square root, one can divide by the magnitude of the maximum log signal—normalized or denormalized. In the present invention, the principle of selecting the maximum square root is that a certain type of error is converted into the square root of the signal. The correlation of the logarithm of the square root has been found to provide a more beneficial expression profile comparison.

또 다른 방식은 발현이 최대로 변할 수 있는 유전자는 생물적으로 좀더 중요하거나 또는 최소한 환경 조건의 관련성을 평가함에 있어 좀더 유의성이 있다는 가정하에 보정을 전혀 하지 않는 것이다.Another approach is to make no corrections on the assumption that genes whose expression can change to maximum are more biologically important or at least more significant in assessing the relevance of environmental conditions.

또 다른 대안은 실시할 분석에 대한 경험적으로-결정된 유의성에 기초하여 다양한 유전자를 다르게 처리하는 것이다. 가령, 대부분의 유전자는 선행 실험에서 상기 유전자에 대하여 관찰된 최대 발현의 제곱근의 로그로 나누어, 전술한 대로 처리하였다. 하지만, 사전결정된 특정 유전자 부분집합은 이 단계에서 상이하게 처리하여 부분집합 분석에서 이들의 유의성을 증가 또는 감소시킨다.Another alternative is to process different genes differently based on empirically-determined significance for the assay to be performed. For example, most genes were treated as described above by dividing by the logarithm of the square root of the maximum expression observed for that gene in a previous experiment. However, certain predetermined gene subsets are treated differently at this stage to increase or decrease their significance in subset analysis.

박스 528에 의해 전체적으로 한정되는 전술한 단계는 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통으로 나타나는 유전자 각각에 대하여 실시한다. 원핵 또는 작은 진핵생물(예, 효모)에서 유전자 발현을 측정하는 것과 같은 일부 발현 매트릭스의 경우, 거의 모든 개방 해독 틀을 이렇게 비교할 수 있다. 포유동물 세포를 이용한 다른 플랫폼의 경우, 다수의 유전자를 평가한다. 분명하게, 제 1 환경 조건과 제 2 환경 조건사이에서 공통적으로 측정되는 유전자들만을 사용하여 상대적 유전자 발현 스코어를 만들 수 있다.The above-described steps, which are entirely defined by box 528, are performed for each of the genes that are common in both the first and second gene expression profiles. For some expression matrices, such as measuring gene expression in prokaryotic or small eukaryotes (eg yeast), almost all open reading frameworks can be compared this way. For other platforms using mammalian cells, multiple genes are evaluated. Clearly, only genes that are commonly measured between the first and second environmental conditions can be used to create relative gene expression scores.

스칼라 수치로 두 조건의 유전자 발현 프로파일의 관련성을 표현하는 최종적인 스칼라 수치(복합 스코어로 지칭)는 합계로 계산할 수 있다(526). 결과 수치가 작을수록, 비교한 두 조건하의 유전자 발현 프로파일은 더욱 밀접하게 관련되고, 완전 동일한 경우 수치는 0이 된다.The final scalar value (referred to as a composite score) expressing the relevance of the gene expression profile of the two conditions in terms of the scalar value may be calculated as a sum (526). The smaller the resulting value, the more closely the gene expression profile under the two conditions compared, and the value is zero if they are exactly the same.

추가의 보정의 필요하지 않지만, 합계는 스코어에 포함되는 유전자 퍼센트에 대하여 가급적 보정한다.Although no additional correction is required, the sum is corrected for the percent of genes included in the score.

쓸모없는 유전자, 다시 말하면, 이들의 상대적 스코어를 0으로 지정하여 박스 514에 의해 한정되는 단계에서 배제되는 유전자의 퍼센트는 복합 스코어에 영향을 준다. 따라서, 쓸모없는 유전자에 대한 최적 보정(526)에서, 상대적 발현 스코어의 단순한 합계에 유전자의 수/쓸모있는 유전자의 비율을 곱한다.Useless genes, ie, the percentage of genes excluded at the step defined by box 514 by assigning their relative score to 0, affects the composite score. Thus, in optimal correction 526 for useless genes, the simple sum of the relative expression scores is multiplied by the ratio of the number of genes / useful genes.

하기 실시예 1-4에서 제시한 분석은 864개 리포터를 보유한 매트릭스로부터 획득한 유전자 발현 프로파일에서 실시하였다. 도5에서 표시하지는 않았지만, 단계 526에서 얻은 스코어는 선택적으로 표준화시켜 1000개 유전자당 상대적 발현 스코어를 표현함으로써 상이한 크기의 매트릭스를 비교한다. 이런 표준화를 달성하기 위하여, 상대적 프로파일 스코어(526)에 1000/매트릭스상의 전체 유전자의 비율을 곱한다.The assays presented in Examples 1-4 below were performed on gene expression profiles obtained from matrices with 864 reporters. Although not shown in FIG. 5, the scores obtained in step 526 are selectively normalized to compare matrices of different sizes by expressing relative expression scores per 1000 genes. To achieve this standardization, the relative profile score 526 is multiplied by the ratio of total genes on the 1000 / matrix.

전술한 방법으로 두 유전자 발현 프로파일의 관련성의 서열을 정량할 수 있다: 결과의 복합 스코어가 작을수록, 프로파일의 관련성은 커지고; 프로파일의 관련성이 커질수록, 유전자 발현 프로파일을 얻은 2가지 상이한 조건하에서 세포의 전반적인 유전자 발현 상태의 관련성이 커진다.The method described above can quantify the sequence of relevance of two gene expression profiles: the smaller the composite score of the result, the greater the relevance of the profile; The greater the relevance of the profile, the greater the relevance of the overall gene expression status of the cell under the two different conditions from which the gene expression profile was obtained.

따라서, 세포의 전반적인 유전자 발현에 대한 2가지 환경조건의 관련성을 정량적으로 평가할 수 있다. 환경조건은 하기 실시예 4에서 추가로 밝힌 바와 같이 상이한 배지상의 배양이다. 대안으로, 2가지 환경조건은 2가지 상이한 화학물질, 예를 들면, 제약학적 약물 후보로 처리하는 것으로 구성되는데, 복합 스코어로 밝힌 바와 같이 약물 유전자 프로파일의 관련성은 약물 작용의 관련성을 암시한다. 본 발명의 이런 측면은 실시예 1-3에서 설명한다.Thus, the relevance of two environmental conditions to the overall gene expression of a cell can be assessed quantitatively. Environmental conditions are cultures on different media as further revealed in Example 4 below. Alternatively, the two environmental conditions consist of treatment with two different chemicals, eg, pharmaceutical drug candidates, with the relevance of the drug gene profile suggesting the relevance of drug action as revealed by the composite score. This aspect of the invention is described in Examples 1-3.

본 방법은 세포의 한정된 유전자 돌연변이에 대하여 사전선택된 환경조건을 정량적으로 관련시키는 사용할 수 있는데, 상기 방법은 돌연변이를 보유한 세포로부터 제 1 유전자 발현 프로파일을, 사전선택된 환경조건하의 야생형 세포로부터 제 2 유전자 발현 프로파일을 얻고; (b) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 것으로 구성된다.The method can be used to quantitatively correlate preselected environmental conditions to defined genetic mutations in a cell, wherein the method expresses a first gene expression profile from a cell with a mutation and a second gene expression from wild-type cells under a preselected environmental condition. Obtaining a profile; (b) quantifying the relationship between the first gene expression profile and the second gene expression profile.

본 발명의 적절한 구체예에서, 발현 데이터를 야생형 세포로부터 얻는 환경조건은 선택된 화학적 화합물에 노출시키는 것으로 구성된다. 한정된 돌연변이로 시작하는 본 방식으로, 효과면에서 유전자 돌연변이를 흉내내는 약물 후보를 정량적으로 파악할 수 있다. 반대로, 중요한 제약학적 약물의 유전자 발현 프로파일로 시작하여, 약물의 효과를 흉내내는 돌연변이는 약물의 존재하에서 얻어진 프로파일과 이들의 유전자 발현 프로파일의 관련성 정량으로 확인할 수 있다. 결과적으로, 약물에 의해 직접 또는 간접적으로 영향받은 모든 표적의 확인을 통해서 약물 작용 기작을 설명할 수 있다. 또한, 두 돌연변이의 관련성은 각각의 추가 약물로부터 얻은 유전자 발현 프로파일을 정량적으로 연관시켜 결정할 수 있다.In a suitable embodiment of the invention, the environmental conditions for obtaining expression data from wild-type cells consist of exposing to selected chemical compounds. This approach, starting with limited mutations, allows quantitative identification of drug candidates that mimic gene mutations in effect. Conversely, starting with gene expression profiles of important pharmaceutical drugs, mutations that mimic the effects of drugs can be identified by quantifying the relationship between the profiles obtained in the presence of drugs and their gene expression profiles. As a result, the mechanism of drug action can be explained through the identification of all targets directly or indirectly affected by the drug. In addition, the relevance of the two mutations can be determined by quantitatively correlating gene expression profiles obtained from each additional drug.

본 발명의 정량방법을 유전자 돌연변이의 분석에 적용하는 경우, 세포는 가급적 효모세포, 좀더 바람직하게는 맥주효모균(Saccharomyces cerevisiae)이다. 효모는 이런 목적과 유전자 돌연변이를 평가하는 다른 목적에 특히 적절한데, 그 이유는 (1) 맥주효모균(S. cerevisiae)의 전장 게놈이 서열분석되었고, (2) 상동성 재조합으로 표적 결실 또는 삽입을 쉽게 실시할 수 있고, (3) 효모와 사람사이에 다수의 기초적인 대사경로가 상당히 보존되어 있기 때문이다(Lashkari et al). 하지만, 이 방법은 돌연변이가 다른 원핵 또는 진핵 미생물의 세포에서 확인될 때는 언제나 적용할 수 있다.When the quantitative method of the present invention is applied to the analysis of gene mutations, the cells are preferably yeast cells, more preferably Saccharomyces cerevisiae. Yeast is particularly well suited for this and other purposes of evaluating genetic mutations because (1) the full-length genome of S. cerevisiae has been sequenced, and (2) homologous recombination results in target deletion or insertion. It is easy to implement and (3) many basic metabolic pathways are preserved between yeast and humans (Lashkari et al). However, this method is always applicable when mutations are identified in cells of other prokaryotic or eukaryotic microbes.

전술한 설명은 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일을 정량적으로 관련시키기 위한 방법에 관한 것이지만, 본 발명은 또한, 복수의 유전자 발현 프로파일의 관련성을 순위대로 정렬하는 방법을 제공한다.While the foregoing description relates to a method for quantitatively associating a first gene expression profile with a second gene expression profile, the present invention also provides a method for ordering the relevance of a plurality of gene expression profiles in order.

복수 유전자 발현 프로파일의 관련성을 순위대로 정렬하기 위하여, 각각 공통 지수 또는 참고 프로파일에 대한 관련성을 평가하여 일련의 복합 스코어를 얻는다. 이후, 복합 스코어는 순위대로 정렬하는데, 낮은 스코어는 지수 프로파일에 대한 더 큰 관련성을 암시한다. 이런 순위는 하기 표에서 제시한다.In order to rank the relevance of multiple gene expression profiles in rank order, the relevance of each common index or reference profile is evaluated to obtain a series of composite scores. The composite scores are then sorted by rank, with lower scores suggesting a greater relevance for the exponential profile. This ranking is shown in the table below.

따라서, 본 발명은 세포에서 사전선택된 단일 환경 조건에 대한 환경조건의 관련성을 순위대로 정렬하는 방법을 제공하는데, 상기 방법은 (a) 세포 또는 유전적으로 동일한 세포로부터 복수의 환경 조건 각각에 대한 유전자 발현 프로파일을, 사전선택된 환경조건에 대한 유전자 발현 프로파일을 구하고; (b) 사전선택된 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 한 쌍 단위로 정량하고; (c) 한 쌍-단위 측정된 양을 순위대로 정렬하는 것으로 구성된다. 적절한 구체예에서, 하나 또는 복수의 환경조건은 화학적 화합물에 세포를 노출시키는 것으로 구성된다.Accordingly, the present invention provides a method of ordering the relevance of environmental conditions to a single preselected environmental condition in a cell, the method comprising (a) gene expression for each of a plurality of environmental conditions from a cell or genetically identical cells. Obtaining the profile, the gene expression profile for the preselected environmental conditions; (b) quantifying the relevance of the plurality of gene expression profiles to preselected gene expression profiles in pairs; and (c) sorting the paired-unit measured quantities in order. In suitable embodiments, one or more environmental conditions consist of exposing the cell to a chemical compound.

유사하게, 본 발명은 또한, 세포의 한정된 유전자 돌연변이에 대하여 복수의 환경 조건 각각의 관련성을 순위대로 정렬하는 방법을 제공하는데, 상기 방법은 (a) 복수의 환경조건중 각 하나의 조건하의 야생형세포로부터 제 1 유전자 발현 프로파일을, 상기 한정된 돌연변이를 보유한 세포로부터 제 2 유전자 발현 프로파일을 구하고; (b) 제 2 유전자 발현 프로파일에 대하여 제 1 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고; (c) 한 쌍-단위로 측정된 양을 순위대로 정렬하는 것으로 구성된다.Similarly, the present invention also provides a method of ordering the relevance of each of a plurality of environmental conditions in order to a defined genetic mutation of a cell, the method comprising: (a) wild-type cells under each one of the plurality of environmental conditions; Obtaining a first gene expression profile from the second gene expression profile from a cell carrying the defined mutation; (b) quantifying the association of each of the first gene expression profiles in pairs relative to the second gene expression profile; (c) consists of sorting the quantities measured in pair-units in order.

유사한 방식으로, 본 발명은 또한, 세포의 한정된 또는 사전선택된 돌연변이에 대하여 복수의 유전자 돌연변이 각각의 관련성을 순위대로 정렬하는 방법을 제공하는데, 상기 방법은 (a) 복수의 유전자 돌연변이중 하나를 각각 보유한 세포로부터 제 1 유전자 발현 프로파일을, 사전선택된 돌연변이를 보유한 세포로부터 제 2 유전자 발현 프로파일을 얻고; (b) 제 2 유전자 발현 프로파일에 대하여 제 1 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고; (c) 한 쌍-단위로 측정된 양을 순위대로 정렬하는 것으로 구성된다.In a similar manner, the invention also provides a method of ordering the relevance of each of a plurality of gene mutations to a defined or preselected mutation of a cell, wherein the method comprises (a) each carrying one of the plurality of gene mutations. Obtaining a first gene expression profile from a cell and a second gene expression profile from a cell with a preselected mutation; (b) quantifying the association of each of the first gene expression profiles in pairs relative to the second gene expression profile; (c) consists of sorting the quantities measured in pair-units in order.

선형 회귀에 의한 유전자 발현 프로파일의 관련성을 정량하는 방법How to quantify the relevance of gene expression profiles by linear regression

도5의 과정으로 제시한 복합 스코어와 관련성의 서열결정은 외부유전자, 다시 말하면, 2가지 측정된 조건사이에서 발현이 실질적으로 변하는 유전자에 의해 상당히 가중된다. 그렇지만, 이것은 다양한 유전자 발현의 동적범위에 대한 보정과 도5에서 박스 522로 한정한 단계 516, 518, 520의 결과에도 해당되는데, 여기서, 데이터 산입(算入)을 위한 진입기준 필요성을 적용하여 측정된 조건에서 발현이 약간 변형된 세포에 의한 공헌을 감소시킨다. 이런 성향의 장점은 표현형 변화에 가장 기여하는 유전자의 서열에만 집중하게 된다는 것이다.The sequencing of the composite scores and relevance presented by the process of Figure 5 is significantly weighted by an external gene, ie a gene whose expression varies substantially between the two measured conditions. However, this also applies to the correction of the dynamic range of various gene expressions and to the results of steps 516, 518, 520 defined in box 522 in FIG. 5, where the measurements were made by applying the need for entry criteria for data entry. The expression in conditions reduces contribution by cells that are slightly modified. The advantage of this propensity is that it focuses only on the sequence of genes that most contribute to phenotypic changes.

도6은 유전자 발현 프로파일을 정량적으로 관련시키는 대체 방법을 제공하는데, 상기 방법은 변화의 크기보다는 개별 유전자 발현에서 변화의 방향의 공통성 측면에서 관련성의 순위를 중시한다. 도6에서 제시한 방법은 도5에서 제시한 방법에 비하여 몇 가지 장점, 특히, 작은 농도의 제약학적 약물을 이용하여 얻은 유전자 발현 프로파일을 연관시키는 능력을 제공하는데, 현재 저농도의 약물과 같은 경미한 처리 조건에서 획득된 프로파일의 관련성을 정량하는데 사용한다. 도5에서 제시한 알고리즘 또는 도6에서 제시한 알고리즘중 어느 것을 선택할 것인 지는 결과를 비교한 후, 경험적으로 결정한다. 이런 선택은 당분야의 지식에 포함된다.Figure 6 provides an alternative method of quantitatively correlating gene expression profiles, which places priority on relevance in terms of commonality of the direction of change in individual gene expression, rather than magnitude of change. The method presented in FIG. 6 provides several advantages over the method presented in FIG. 5, in particular the ability to correlate gene expression profiles obtained using small concentrations of pharmaceutical drugs, which are currently mild treatments such as low concentration drugs. Used to quantify the relevance of the profile obtained under the conditions. Whether to select the algorithm shown in FIG. 5 or the algorithm shown in FIG. 6 is determined empirically after comparing the results. This choice is included in the knowledge of the art.

이런 대체 방법의 세부내용을 설명하기 전에, 두 방법사이의 개념적 차이는 도2의 분산된 점을 고찰함으로써 최적으로 시각화할 수 있다. 전술한 바와 같이, 도2는 2가지 밀접히 관련된 항종양형성 화학요법적 약물로 개별처리된 효모세포에서 상이한 유전자의 상대적 유전자 발현을 분산된 점으로 나타낸다. 전술한 바와 같이, 처리는 밀접하게 관련된 것처럼 보이는데, 각각은 동등하게 개별 유전자 발현의 크기와 방향에 영향을 준다: 결과로서, 대부분의 점은 원점을 통과하는 선위에 대략적으로 분포한다. 인지하는 바와 같이, 동일한 조건, 기본 부재, 노이즈 부재, 다른 변이 부재는 이론적으로 일련의 발현점을 만드는데, 상기 발현점 모두 원점을 통과하는 선에 정확하게 위치한다.Before describing the details of this alternative method, the conceptual difference between the two methods can be optimally visualized by considering the scattered points of FIG. As noted above, FIG. 2 shows the scattered relative gene expression of different genes in yeast cells individually treated with two closely related anti-tumorigenic chemotherapy drugs. As mentioned above, the treatments appear to be closely related, each equally affecting the size and direction of individual gene expression: As a result, most points are roughly distributed over the line passing through the origin. As will be appreciated, the same conditions, basic members, noise members, and other variant members theoretically create a series of expression points, all of which are precisely located on the line passing through the origin.

단계 516, 518, 520(박스 522로 한정)에서 적용된 진입기준은 도2에서 데이터로부터 유추한 회귀선(일종의 신뢰 간격)으로부터 등거리인 2개의 동일 경사 평행선으로 개념화할 수 있다. 단계 516에서 경험적으로 적용된 진입기준을 작게 할수록, 가장 근접한 진입기준선은 데이터 회귀선에 접근하는 것으로 생각할 수 있다; 외부에 위치하는 데이터 점의 개수가 많아지는 경우, 가장 근접한 진입기준선은 데이터 회귀선에 멀어지고, 외부에 존재하는 데이터의 숫자는 적어지는 것으로 생각할 수 있다. 진입기준선 외부에 존재하는 점들만이 발현 프로파일 스코어(단계 518과 520을 비교한다)에 기여하기 때문에, 도5에서 제시한 방법은 실제적으로 이런 점들이 회귀선으로부터 떨어져있는 위치에 영향을 받는다.The entry criteria applied in steps 516, 518, and 520 (limited to box 522) can be conceptualized as two equally sloped parallel lines that are equidistant from the regression line (some kind of confidence interval) inferred from the data in FIG. As the entry criterion applied empirically in step 516 is smaller, the nearest entry baseline can be considered to approach the data regression line; When the number of externally located data points increases, it is considered that the nearest entry reference line is far from the data regression line, and the number of externally present data decreases. Since only points outside the entry baseline contribute to the expression profile score (compare steps 518 and 520), the method presented in FIG. 5 is actually affected by the location where these points are away from the regression line.

대조적으로, 도6에서 제시한 방법은 데이터 점이 이론적으로 처리에서 동일함을 의미하는 완벽한 회귀선에 맞추어지는 정도에 집중한다. 분석에서 최소 유의성을 보이지 않고 회귀선에 직접 위치하는 점들은 실질적으로 스코어에 기여한다. 이 방법은 유전자 발현에서 변화의 크기대신, 유전자 발현에서 변화의 방향에 집중한다. 이런 방법은 하기 실시예 3에서 보인 바와 같이, 비교할 다양한 약물 처리의 농도에 덜 민감하다.In contrast, the method presented in FIG. 6 focuses on the degree to which the data points are fitted to a perfect regression line, meaning that they are theoretically identical in processing. Points located directly on the regression line without showing minimal significance in the analysis actually contribute to the score. This method focuses on the direction of change in gene expression instead of the magnitude of change in gene expression. This method is less sensitive to the concentrations of the various drug treatments to be compared, as shown in Example 3 below.

도6은 두 유전자 발현 프로파일의 관련성을 정량하는 제 2 방식을 도식화한다.Figure 6 illustrates a second way of quantifying the relevance of two gene expression profiles.

도1에 따라 처리된 바와 같이, 제 1(신호 1, 600) 유전자 발현 프로파일과 제 2(신호 2, 601) 유전자 발현 프로파일에 공통적으로 나타나는 각 유전자에 대한 유전자 발현 신호는 입력이다. 신호는 도1B에서 설정한 대수에 따라, 대응된 컨트롤에 대하여 추가로 보정하였다.As processed according to FIG. 1, the gene expression signal for each gene that is common to the first (signal 1, 600) gene expression profile and the second (signal 2, 601) gene expression profile is an input. The signal was further corrected for the corresponding control according to the number set in FIG. 1B.

다음, 조작 610, 611 - 도5에서 설정된 이전의 대수로 단계 524에서 실시한 것과 유사 -에서 미생물의 다양한 유전자에 의해 명백하게 드러난 유전자 발현의 부동등 동적범위에 대하여 보정한다.Next, corrections are made for the dynamic range of dynamics of gene expression clearly revealed by the various genes of the microorganism in operations 610, 611-similar to those performed in step 524 with the previous logarithm set in FIG.

동적범위를 조정하는 동일한 대안은 단계 524의 측면에서 전술하였다. 따라서, 신호 600, 601은 단계 108로부터 최대(표준화된) 신호 출력의 제곱근의 로그로 나누거나; 단계 108에서 최대(비표준화된) 신호 입력의 제곱근의 로그로 나누거나; 제곱근의 로그가 아닌 최대치 신호-표준화된 또는 비표준화된-의 로그로 나누거나; 변화시키지 않아 동적범위에 대하여 보정을 실시하지 않거나; 또는 경험적으로 선택된 수치를 이용하여 개별적으로 조정할 수 있다. 도5에서 예시한 다른 대안은 최대 표준화된 수치의 제곱근의 로그로 나누어, 분석하는 모든 유전자의 동적범위를 조정하는 것인데, 여기서, 표준화를 위해 사용되는 수치는 더 큰 일단의 유전자로부터 선택된다.The same alternative of adjusting the dynamic range was described above in terms of step 524. Thus, signals 600 and 601 are divided by the logarithm of the square root of the maximum (normalized) signal output from step 108; Divide by the logarithm of the square root of the maximum (unnormalized) signal input in step 108; Dividing by the logarithm of the maximum signal—normalized or denormalized—not the logarithm of the square root; No change is made to correct dynamic range; Or it can be adjusted individually using empirically selected values. Another alternative illustrated in Figure 5 is to adjust the dynamic range of all genes to be analyzed by dividing by the logarithm of the square root of the maximum normalized value, where the values used for standardization are selected from a larger group of genes.

다음, 제 1발현 신호(신호1, 610)와 제 2 발현 신호(신호2, 611)는 관련시켜(620), 각 유전자에 대한 2-차원 좌표를 제공한다. 쌍으로 된 데이터의 집합에서 선형 회귀(625)-두 유전자 발현 프로파일에서 공통으로 나타나는 모든 유전자의 발현을 나타냄-는 두 유전자 발현 프로파일의 관련성 정량수치를 제공하는 스코어(626)를 제공하는데, 높은 수는 더 밀접한 관련성을 암시한다. 상관관계 계수 자체와 이의 임의 배수를 스코어로 사용할 수 있다. 하기 실시예에서 제시한 스코어는 상관관계 계수에 100을 곱하여 구한 것이다.Next, the first expression signal (signals 1, 610) and the second expression signal (signals 2, 611) are correlated (620) to provide two-dimensional coordinates for each gene. Linear regression 625 in the set of paired data, representing the expression of all genes common in both gene expression profiles, provides a score 626 that provides a relevance quantitative measure of the two gene expression profiles. Implies a more closely related relationship. The correlation coefficient itself and any multiple of it can be used as the score. The scores presented in the following examples are obtained by multiplying the correlation coefficient by 100.

따라서, 제 1 알고리즘(도 5)에서 각 유전자에 대한 제 1 발현 신호와 제 2 발현 신호를 합하여 복합 스코어를 얻기 전에, 양 발현신호를 단일 스칼라 수치(504)(제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일사이의 발현 비율을 나타냄)로 전환시키는 경우, 본 알고리즘은 최종단계까지 개별 좌표로서 수치를 계속 보유한다.Thus, before the first algorithm (FIG. 5) sums the first expression signal and the second expression signal for each gene to obtain a composite score, both expression signals are combined into a single scalar value 504 (first gene expression profile and second). Indicative of the ratio of expression between gene expression profiles), the algorithm continues to retain values as individual coordinates until the final stage.

선형 회귀 목적과 관련하여 공통적으로 나타나는 유전자 각각에 대한 제 1 신호와 제 2 신호가 사용될 수 있도록 하는 임의의 데이터 구조, 예를 들면, 단일 2-차원 매트릭스, 일단의 벡터등을 사용할 수 있다. 또한, 2차원 데이터를 통과하는 최적의 가상선에 대한 데이터 핏의 근접성은 단계 625와 626에서 상대적 프로파일 스코어의 계산을 위해 본 발명에 따라 사용할 수 있다. 당업자는 이런 구조와 통계학적 방법을 확인하고, 디지털 컴퓨터에서 이런 계산을 인코드할 수 있다; 핏의 이런 근접함으로 인해, 이 글에서 새로이 밝힌 유전자 발현 프로파일의 관련성을 신뢰성있고 재현가능하게 정량할 수 있다는 것을 발견하였다.Any data structure can be used, such as a single two-dimensional matrix, a set of vectors, etc., such that the first and second signals for each of the genes that appear in common with respect to the linear regression purpose can be used. In addition, the proximity of the data fit to the optimal virtual line through the two-dimensional data can be used in accordance with the present invention for the calculation of the relative profile score in steps 625 and 626. One skilled in the art can identify these structures and statistical methods and encode these calculations in a digital computer; This closeness of Pitt found that the relevance of the newly revealed gene expression profile can be reliably and reproducibly quantified.

도6에서 밝힌 단계를 본 발명에 추가할 수 있다.The steps identified in FIG. 6 can be added to the present invention.

신호 1(601)과 신호 2(602)는 506과 510에서 제시한 것과 동일한 의문의 대상이 된다. 다시 말하면, 이전의 기본 상관관계와 평균화가 잠재적으로, 두 조건사이에서 발현변화의 방향성의 한정적인 결정을 방해하는 지의 문제가 제기될 수 있다. 이런 경우, 다시 말하면, 506 또는 510에서 제시한 쿼리가 참이 된다면, 유전자에 대한 신호는 선형 회귀로부터 선택적으로 삭제한다.Signals 1 601 and 2 602 are subject to the same questions as presented in 506 and 510. In other words, questions may arise whether previous basic correlations and averaging potentially hinder the definitive determination of the direction of expression change between the two conditions. In this case, in other words, if the query presented at 506 or 510 is true, the signal for the gene is selectively deleted from linear regression.

도5에서 제시한 것과 유사한 도6에서 밝힌 방법을 이용하여, 세포의 전반적인 세포 발현에 대한 두 환경 조건의 관련성을 정량적으로 평가하고; 세포의 한정된 유전자 돌연변이에 대한 사전선택된 환경조건의 관련성을 정량적으로 평가하고; 2가지 상이한 돌연변이의 관련성을 정량할 수 있다. 또한, 도6에서 제시한 알고리즘과 방법을 이용하여, 부동등 환경조건하에서 획득된, 다양한 돌연변이를 보유한 세포로부터 획득된 또는 이들의 복합으로부터 획득된 복수의 유전자 프로파일의 관련성을 순위대로 정렬할 수 있다.Using the method shown in FIG. 6 similar to that shown in FIG. 5, quantitatively assessing the relevance of the two environmental conditions to the overall cell expression of the cells; Quantitatively assessing the relevance of preselected environmental conditions to defined gene mutations in cells; The relevance of two different mutations can be quantified. In addition, the algorithms and methods shown in FIG. 6 can be used to rank the relevance of a plurality of gene profiles obtained from cells with various mutations, obtained from different environments, or obtained from a combination thereof. .

전술한 바와 같이, 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에 공통적으로 나타나는 각 유전자는 도5에서 제시한 알고리즘 또는 도6에서 제시한 알고리즘을 적용하는 가에 상관없이 유전자 발현 프로파일상에 나타나는 다른 유전자와 동일하게 처리하였다. 하지만, 하나 또는 복수의 사전선택된 유전자의 발현 변화를 가중치를 줌으로써, 분석에서 이들의 유의성을 증가 또는 감소시킬 수 있다. 이런 가중치부여는 단계 524 또는 단계 610, 611에서 신호를 조정함으로써 실시할 수 있다.As described above, each gene that is common to the first gene expression profile and the second gene expression profile may be displayed on the gene expression profile regardless of whether the algorithm shown in FIG. 5 or the algorithm shown in FIG. 6 is applied. Same treatment as the gene. However, by weighting the expression changes of one or a plurality of preselected genes, one can increase or decrease their significance in the analysis. This weighting can be done by adjusting the signal in step 524 or steps 610 and 611.

데이터 저장Data storage

발명의 각 구체예에서, 도5에서 밝힌 방법 또는 도6에서 밝힌 방법을 사용하는 가에 상관없이, 데이터는 도 1, 5 또는 6에서 밝힌 과정으로 임의의 또는 모든 중간단계에서 개별 유전자 발현 프로파일을 저장할 수 있다. 임의의 단일 발현 매트릭스로부터 획득된 데이터는 단계 101에서 얻은 디지털화된 원 데이터, 단계 108에서 얻은 기본-조정된 표준화 신호, 단계 110에서 얻은 기본-조정되고, 표준화된 로그 신호 또는 단계 112에서 얻은 대응된 컨트롤에 대하여 완전 보정된 신호로서 저장할 수 있다.In each embodiment of the invention, irrespective of whether the method shown in FIG. 5 or the method shown in FIG. 6 is used, the data can be generated in any or all intermediate stages by individual gene expression profiles in the process shown in FIG. 1, 5 or 6. Can be stored. The data obtained from any single expression matrix is the digitized raw data obtained in step 101, the base-adjusted normalized signal obtained in step 108, the base-adjusted, standardized log signal obtained in step 110 or the corresponding obtained in step 112. It can be stored as a fully calibrated signal for the control.

관련성의 새로운 비교--다시 말하면, 도5의 알고리즘에 따른 복합 스코어의 새로운 계산 또는 도6의 알고리즘에 따른 상대적 프로파일의 계산--은 이전에 획득하고 저장했던 데이터를 이용하여 실시할 수 있다. 따라서, 추가의 실험을 실시하고, 이 글에서 밝힌 다양한 유전자 발현 매트릭스로부터 획득한 추가의 프로파일 데이터를 이 글에서 밝힌대로 설치한다면, 전술한 분석에 대하여 더 많은 자료를 얻을 수 있다. 특히, 더 많은 약물에서 전반적인 유전자 발현에 대한 이들의 효과를 검사하기 때문에, 비교를 실시할 수 있는 훨씬 포괄적인 데이터베이스를 마련할 수 있다.A new comparison of relevance--in other words, a new calculation of a composite score according to the algorithm of Figure 5 or a relative profile according to the algorithm of Figure 6--can be performed using previously acquired and stored data. Therefore, if you perform additional experiments and install additional profile data obtained from the various gene expression matrices described in this article as described in this article, more data can be obtained for the above analysis. In particular, because more drugs are tested for their effect on overall gene expression, a much more comprehensive database can be prepared for comparison.

유전자 발현 프로파일의 기억장치 각각은 비교를 위해 반복적으로 참조되는 개별 세포상태를 나타내는데, 상기 기억장치는 불활성 물질의 개별 상태를 확인하는 스펙트럼--NMR 스펙트럼, IR 스펙트럼, 질량 스펙트럼등--비교를 편집해 놓은 것과 유사하고, 이런 비교를 통해 알려지지 않은 화학구조 확인할 수 있다. 반대로, 본 방법과 이 글에서 밝힌 장치로 제공한 관련성의 정량평가는 변형하여 다른 스펙트럼에 적용할 수 있는데, 이런 변형은 당업자에게 공지된 것이다.Each of the memories of the gene expression profile represents an individual cell state that is repeatedly referenced for comparison, where the memories edit the spectra that identify the individual states of the inactive material--NMR spectra, IR spectra, mass spectra, etc. Similar to what we have done, this comparison can identify unknown chemical structures. Conversely, the quantitative assessment of the relevance provided by the method and the apparatus described in this article can be adapted to other spectra, which modifications are known to those skilled in the art.

유전자 발현 프로파일의 정량 분석을 위한 약물 개발과 다른 용도Drug Development and Other Uses for Quantitative Analysis of Gene Expression Profiles

이 글에서 제시한 정량방법, 시스템, 장치를 통해 신규한 약물 발견 방식이 도출되었다. 유전자 발현 프로파일의 관련성을 정량하기 위하여, 화합물은 공지된 기작의 약물, 공지된 효능의 약물과의 유사성을 검사하거나, 또는 한정된 돌연변이, 조건, 질환이나 질병상태에 대한 유사성을 검사한다.The new methods of drug discovery have been derived from the quantification methods, systems and devices presented in this article. To quantify the relevance of a gene expression profile, a compound tests for similarity with a known mechanism of drug, a drug of known potency, or for similar mutations, conditions, diseases or disease states.

일차 생리 과정이 화학물질에 의해 섭동되는 가에 상관없이, 약물로 표적세포를 처리하면, 표적세포에서 유전자 발현의 패턴이 변하게 된다. 유사하게 작용하는 약물은 유사한 패턴의 변화를 야기한다. 작용의 유사성이 클수록 유전자 발현 프로파일에서 변화의 유사성은 커진다. 결과적으로, 유전자 발현 프로파일의 관련성을 정량하는 능력으로 세포내 유전자 발현에 유사한 전반적인 효과를 보이는 약물; 추론상 유사한 작용기작을 보유한 약물을 확인할 수 있다;Regardless of whether the primary physiological process is perturbed by chemicals, treating the target cells with a drug changes the pattern of gene expression in the target cells. Similarly acting drugs cause similar patterns of change. The greater the similarity of action, the greater the similarity of changes in the gene expression profile. As a result, drugs that have a similar overall effect on intracellular gene expression with the ability to quantify the relevance of gene expression profiles; Inference, one can identify drugs with similar mechanisms of action;

제 1 약물의 작용기작이 공지된 경우, 표적 세포의 유전자 발현 프로파일에서 유사한 변화를 야기하는 다른 화학적 화합물을 확인하는 것은 유사한 생물 작용 기작을 공유하는 추가의 화합물을 확인하는 것이다. 제 1 약물의 기작은 알려져 있지 않지만, 상기 약물이 임의의 질환을 치료하는데 효과적인 것으로 알려져 있는 경우, 표적 세포의 유전자 발현 프로파일에 유사한 변화를 야기하는 약물을 확인하는 것은 기작은 모르지만 병리상태의 치료에 유사한 효과를 보이는 약물을 확인하는 것이다.If the mechanism of action of the first drug is known, identifying other chemical compounds that cause similar changes in the gene expression profile of the target cell is to identify additional compounds that share similar mechanisms of action. The mechanism of the first drug is unknown, but if the drug is known to be effective in treating any disease, identifying the drug causing a similar change in the gene expression profile of the target cell may be unknown, but not in the treatment of the pathology. Identify drugs that have a similar effect.

따라서, 유전자 발현 프로파일의 관련성을 정량하는 능력은 분리된 제약학적 표적을 확인하고, 지정된 분석을 개발하고, 지정된 분석에서 이들 활성에 대한 화합물을 선별하는 필요성을 제거한다.Thus, the ability to quantify the relevance of gene expression profiles eliminates the need to identify isolated pharmaceutical targets, develop directed assays, and select compounds for these activities in directed assays.

유전자 발현 프로파일의 관련성을 정량하는 능력은 또한, 기대되는 약물 후보의 작용 특이성의 범위를 좁히고 집중하기 위한 약물 개발의 후반기 단계동안의 노력을 용이하게 한다. 가령, 주도 화합물의 약리학적으로-효과적인 유도체는 상기와 같이, 주도 후보의 유도체에 대한 유전자 발현 프로파일의 정량적 관련성에 기초하여 확인할 수 있다.The ability to quantify the relevance of gene expression profiles also facilitates efforts during the later stages of drug development to narrow and focus on the specificity of action of anticipated drug candidates. For example, pharmacologically-effective derivatives of the protoplast compounds can be identified based on the quantitative relevance of the gene expression profile for derivatives of the protoplast candidate, as described above.

다음의 실험 실시예는 본 발명 정량 방법의 적용의 일부를 설명한다.The following experimental examples illustrate some of the applications of the present quantitative methods.

실시예 1에서, 약물의 액티노마이신 D와의 관련성은 액티노마이신 D의 존재하에 얻은 유전자 발현 프로파일과 다른 제약학적 약물에 노출시킨 직후 얻은 복수의 유전자 발현 프로파일을 비교하여 평가하였다. 전술한 알고리즘중 하나를 이용하여, 다양한 농도의 다우나루비신, 5-FUDR, 독소루비신, 5-FU, 수산화요소, 미코페놀산은 세포, 특히, 맥주효모균(S. cerevisiae)의 전반적인 유전자 발현에 대한 정량적으로 유사한 효과를 유발하는 것으로 확인되었다. 액티노마이신 D와 같은 이들 약물은 핵산 합성에 영향을 주는 것으로 공지된 것이다.In Example 1, the relevance of the drug to actinomycin D was evaluated by comparing the gene expression profile obtained in the presence of actinomycin D with a plurality of gene expression profiles obtained immediately after exposure to other pharmaceutical drugs. Using one of the algorithms described above, various concentrations of daunarubicin, 5-FUDR, doxorubicin, 5-FU, urea hydroxide, mycophenolic acid are quantitative for the overall gene expression of cells, especially S. cerevisiae. It was found to cause a similar effect. These drugs, such as actinomycin D, are known to affect nucleic acid synthesis.

따라서, 액티노마이신 D만 작용기작이 알려진 경우, 데이터에서 다우나루비신, 독소루비신, 뉴클레오티드 유사체 5-FUDR과 5-FU, 미코페놀산이 액티노마이신 D의 공지된 기작과 유사한 작용기작을 보이는 약물이라는 것을 알 수 있다. 액티노마이신 D가 핵산합성에 영향을 준다는 것을 아는 경우, 데이터에서 다우나루비신, 독소루비신, 뉴클레오티드 유사체 5-FUDR과 5-FU, 미코페놀산이 핵산합성에 영향을 주고, 따라서, 암의 치료에 치료요법적 약물로 유용하거나 또는 병원균, 특히, 바이러스 병원균의 생명주기를 교란시키는데 유용하다는 것을 알 수 있다.Thus, if only actinomycin D is known, the data indicate that daunarubicin, doxorubicin, the nucleotide analogues 5-FUDR and 5-FU, and mycophenolic acid are similar drugs with known mechanisms of actinomycin D. It can be seen that. If we know that actinomycin D affects nucleic acid synthesis, daunarubicin, doxorubicin, nucleotide analogues 5-FUDR and 5-FU, mycophenolic acid in the data affect the nucleic acid synthesis and, thus, treat the treatment of cancer. It can be seen that they are useful as therapeutic drugs or to disrupt the life cycle of pathogens, in particular viral pathogens.

반대로, 참고물질을 제외한 모든 약물의 기작이 공지인 경우, 이들 데이터에서 액티노마이신 D가 핵산 합성에 간섭한다는 것을 알 수 있는데, 여기에서 이의 기작을 통찰할 수 있다.Conversely, if the mechanisms of all drugs except the reference are known, these data show that actinomycin D interferes with nucleic acid synthesis, from which the mechanisms can be insighted.

이런 통찰에는 지정된 핵산합성 저해분석 및 약물에 대한 분자표적의 사전 확인을 필요로 하지 않는다. 결과적으로, 유사한 전반적인 효과를 보이는 약물은 확인하였지만, 부동등 분자표적은 확인하지 못하였다.These insights do not require designated nucleic acid synthesis inhibition assays and prior confirmation of molecular targets for the drug. As a result, drugs with similar overall effects were identified, but no immobilized molecular targets were identified.

실시예 2와 3에서 전반적인 유전자 발현 변화로 측정한 바와 같이, 2가지 농도중 하나의 다우나루비신에 대한 복수 유전자의 관련성을 평가하였는데, 여기서, 다시 한번, 작용의 관련성은 사전선택된 참고약물의 구조 또는 기작의 사전 지식없이도 결정할 수 있다는 것을 알 수 있다. 실시예 4에서 이 글에서 제시한 방법을 좀더 광범위하게 사용하여, 전반적인 환경조건의 세포에 대한 효과를 정량적으로 관련시킬 수 있다는 것을 알 수 있다.As measured by changes in overall gene expression in Examples 2 and 3, the relevance of multiple genes to one of two concentrations of daunarubicin was evaluated, where again, the relevance of the action was the structure of the preselected reference drug. Or it can be seen that the decision can be made without prior knowledge of the mechanism. It can be seen that in Example 4 the method presented in this article can be used more extensively to quantitatively correlate the effect on the cells of the overall environmental conditions.

유전자 발현 프로파일링을 위한 유익한 유전자 부분집합을 선별하는 방법How to Select Beneficial Gene Subsets for Gene Expression Profiling

실시예 1-4에서 각각 제시한 분석에서 정량적으로 비교한 유전자 발현 프로파일은 800개이상의 상이한 맥주효모균(S. cerevisiae)의 동시발현 수준에 대한 데이터를 보유한다. 이들 800개의 유전자는 6000개정도 될 것으로 평가되는 미생물의 발현가능한 유전자의 부분집합이다. 이런 결과에서 세포의 전체 유전자 발현의 일부는 이 글에서 제시한 방법을 성공적으로 적용하기 위해서 분석해야한다는 것을 알 수 있다. 정량분석은 평가된 유전자 증가의 퍼센트로 정보를 제공하지만, 극히 일부 유전자의 발현만 이런 분석에 사용될 것임은 확실하다.The quantitatively compared gene expression profiles in the assays presented in Examples 1-4 each retain data on the coexpression levels of more than 800 different S. cerevisiae. These 800 genes are a subset of the microorganisms' expressable genes, estimated to be 6000. These results indicate that some of the cell's total gene expression needs to be analyzed to successfully apply the method presented in this article. Quantitative analysis provides information as a percentage of the estimated gene growth, but it is clear that only a few gene expressions will be used for this analysis.

종종, 유전자 발현 데이터의 획득을 기술적으로 고려해보면, 극히 일부 발현가능한 유전자만 분석된다는 것을 알 수 있다. 가령, 약물 후보의 샘플이 조합화학법으로 소량생산되는 경우, 그 양이 제한적이다; 임의 세포형의 모든 유전자에 대한 효과를 시험할 수 있는 약물은 거의 없다. 또한, 세포의 전체 발현가능 유전자에서 각 후보 약물을 분석하는 것은 너무나 많은 경비가 소요된다.Often, when technically considering the acquisition of gene expression data, it can be seen that only very few expressable genes are analyzed. For example, if a sample of a drug candidate is produced in small quantities by combinatorial chemistry, the amount is limited; Few drugs can test the effects on all genes of any cell type. In addition, analyzing each candidate drug in the entire expressible gene of the cell is too costly.

이들 문제는 분석할 게놈이 복잡할 경우에 부딪치게 된다. 따라서, 선충(C. elegans)과 같은 선충류 유전자의 발현 가능한 유전자 각각에 대한 약물 또는 다른 환경요인의 효과를 평가하려면, 대략 20,000개 유전자의 발현을 측정해야 한다; 사람 세포의 발현가능한 유전자에 대한 약물 또는 다른 환경요인의 효과를 평가하려면, 대략 100,000개의 유전자를 측정해야 한다.These problems are encountered when the genome to be analyzed is complex. Thus, to assess the effects of drugs or other environmental factors on each of the expressible genes of nematode genes such as C. elegans, the expression of approximately 20,000 genes should be measured; To assess the effects of drugs or other environmental factors on the expressible genes of human cells, approximately 100,000 genes should be measured.

또한, 모든 유전자가 동등하게 유용한 것은 아니다. 일부는 환경 조건에 상관없이, 발현상의 역동 범위가 부족하여 충분한 정보를 얻지 못한다. 다른 유전자는 발현이 다양하게 진행되어, 많은 정보를 얻을 수 있다.In addition, not all genes are equally useful. Some do not obtain sufficient information due to the lack of dynamic range of expression, regardless of environmental conditions. Different genes have a variety of expressions, and much information can be obtained.

발현분석을 위한 유전자의 유익한 부분집합을 선별하는 한가지 방식은 공지된 또는 추정된 기능으로 개별적으로 유전자를 선별하는 것이다. 따라서, 미국 특허 No. 5,811,231(Farr et al.,)과 유럽 특허 EP 0680517 B1에서, 세포에 독성을 나타내는 화합물을 확인하고 특성화하기 위한 "스트레스 유전자"의 선별을 제시한다.One way of selecting beneficial subsets of genes for expression analysis is to select genes individually by known or inferred functions. Thus, U.S. Patent No. 5,811,231 (Farr et al.,) And European Patent EP 0680517 B1, present a selection of "stress genes" for identifying and characterizing compounds that are toxic to cells.

하지만, 이런 방식은 유전자 기능에 대한 선행된 지식을 필요로 한다. 또한, 이런 조절된 선별에 의한 선입견으로 인해, 이전에 예상치못한 관계를 확인할 가능성은 줄어든다; 이런 예상치못한 관계의 확인에 유용한 방법, 예를 들면, 이 글에서 제시한 방법에서, 이런 조절된 선별은 특히, 바람직하지 않다.However, this approach requires prior knowledge of gene function. In addition, preconceived notions of such controlled screening reduce the likelihood of identifying previously unanticipated relationships; In a method useful for identifying such unexpected relationships, for example the method presented in this article, such controlled selection is particularly undesirable.

다른 방식은 선택된 부분집합이 전체를 대표할 것이라는 희망에서 완전 임의로 부분집합을 선택하는 것이다. 문제는 이렇게 선택된 부분집합은 하나 또는 복수의 환경 조건하에서 세포상태를 설명하는 데에는 유용하지 않다는 점이다.Another way is to select a subset completely randomly in the hope that the selected subset will represent the whole. The problem is that this selected subset is not useful for describing cellular states under one or more environmental conditions.

또 다른 방식은 공통 기능이 아닌 사전선택된 환경조건에 대한 공통 반응으로 확인된 유전자를 선별하는 것이다(Whitney et al., Nat. Biotechnol., 16:1329-33(1998). 완전 조절된 방식과 완전 임의의 방식의 중간에 위치한 상기 방식은 양 방식의 단점을 어느 정도 보유한다.Another approach is to select genes identified as common responses to preselected environmental conditions, not common functions (Whitney et al., Nat. Biotechnol., 16: 1329-33 (1998). Located in the middle of any scheme, the scheme retains some of the disadvantages of both schemes.

도7과 8은 후술한 유전자 발현 분석을 위한 유익한 유전자 부분집합의 선별에 대한 신규한 대안의 결과를 정량적으로 보여준다. 이런 신규한 방식은 발현의 다양성-크기, 방향 또는 일반사항 제외-에 기초한 발현 분석을 위한 유전자의 선별을 내포한다.7 and 8 quantitatively show the results of a novel alternative to the selection of beneficial gene subsets for gene expression analysis described below. This novel approach involves the selection of genes for expression analysis based on diversity of expression—except size, direction or general.

도7은 도1에 따라 처리된 유전자 발현 신호의 분산 도표로, 이는 1532개의 개별 맥주효모균(S, cerevisiae) 유전자 발현 리포터로 구성된 게놈 리포터 매트릭스로부터 유도한 것이고, 각 매트릭스는 구조와 기능이 밀접하게 관련된 것으로 알려진 2개의 약물: 10㎍/㎖ 로바스타틴(X 축)과 20㎍/㎖ 메바스타틴(Y 축)중 하나로 개별처리한다. 도2에서 전술한 바와 같이, 도면을 검토해보면, 두 약물이 동일하진 않지만 대부분의 효모 유전자의 발현에 유사하게 영향을 준다는 것을 알 수 있다: 발현이 로바스타틴에 의해 증가되는 유전자는 각 유전자는 메바스타틴에 의해서도 동등하게 증가하다; 발현이 로바스타틴 처리에 의해 감소되는 유전자는 각 유전자는 메바스타틴 처리에 의해 동등하게 억제된다; 발현이 로바스타틴 처리에 아무런 영향을 받지 않는 유전자는 유사하게, 메바스타틴 처리에 아무런 영향을 받지 않는다. 결과는 대부분의 데이터 점이 원점을 통과하는 선위에 놓인다는 것이다.FIG. 7 is a scatter plot of the gene expression signal processed according to FIG. 1, derived from a genomic reporter matrix consisting of 1532 individual S. cerevisiae gene expression reporters, each matrix closely in structure and function. Two drugs known to be involved are treated separately: one of 10 μg / ml lovastatin (X axis) and 20 μg / ml mevastatin (Y axis). As discussed above in FIG. 2, a review of the figures shows that the two drugs are not identical but similarly affect the expression of most yeast genes: a gene whose expression is increased by lovastatin, each gene is mevastatin. Increases equally by; Genes whose expression is reduced by lovastatin treatment, each gene is equally inhibited by mevastatin treatment; Genes whose expression is not affected by lovastatin treatment are similarly unaffected by mevastatin treatment. The result is that most data points lie on the line passing through the origin.

도8은 1532개 유전자 발현 신호로부터 선별된 96개의 유전자 부분집합으로부터 유전자 발현 신호의 분산 도표다. 도7에서 제시한 유전자중 한 유전자만 도8에서 전시하기 위하여 선별했지만, 두 약물처리의 강한 상관관계는 여기에서도 알 수 있다. 선별된 부분집합에서 96개의 유전자 목록은 하기 실시예 5의 표9에 제시한다. 공지된 기능에 대한 고려없이 선별한 부분집합상의 유전자는 다양한 기능을 보유하는 것으로 보인다(표에 제시한 유전자 기능은 스탠포드 대학 사카로마이세스(Saccharomyces) 게놈 데이터베이스(Http://genome-www.stanfor.edu/Saccharomyce s)로부터 뽑은 것이다).8 is a scatter plot of gene expression signals from 96 gene subsets selected from 1532 gene expression signals. Only one of the genes shown in FIG. 7 was selected for display in FIG. 8, but the strong correlation between the two drug treatments can also be seen here. A list of 96 genes in the selected subset is shown in Table 9 of Example 5 below. Genes on subsets selected without consideration of known functions appear to possess a variety of functions (the gene functions shown in the table are shown in the Stanford University Saccharomyces genome database (http: //genome-www.stanfor). .edu / Saccharomyce s)).

도8에 제시한 유전자 부분집합은 2가지 기본 알고리즘 단계로 구성된 과정동안 도7에서 제시한 것들로부터 선별하였다: 제 1 단계에서, 도7에서 제시한 유전자 각각은 발현의 최대 동적범위에 따라 분류하였다; 제 2 단계에서, 반복과정동안 목록상의 거의 모든 유전자의 발현이 강하게 상호연관된다. 결과는 원판에서 보이는 다양한 유전자의 반응이 선택된 부분집합에도 계속 유지된다는 것인데, 상호연관된 각 유전자군은 최대 동적범위를 보이는 유전자의 부분집합으로 나타낸다.The gene subsets shown in FIG. 8 were selected from those shown in FIG. 7 during the process consisting of two basic algorithmic steps: In the first step, each of the genes shown in FIG. 7 was classified according to the maximum dynamic range of expression ; In the second step, the expression of almost all genes on the list is strongly correlated during the iteration. The result is that the response of the various genes seen in the disc persists in the selected subset, with each correlated gene group represented by a subset of genes with the largest dynamic range.

도8에서 예시한 것과 같이 사전에 발현 데이터를 획득한 다수의 유전자 중에서 유전자의 부분집합을 선별하는 것이 원칙이지만, 이 방식은 유전자 발현 매트릭스 자체에서 소수의 유익한 유전자 발현 신호를 획득하는데 가장 큰 유용성을 보인다.As illustrated in FIG. 8, it is a principle to select a subset of genes among a plurality of genes for which expression data has been acquired in advance, but this method has the greatest utility in acquiring a few beneficial gene expression signals in the gene expression matrix itself. see.

실시예 1-4는 맥주효모균(S. cerevisiae)에 의해 잠재적으로 발현될 수 있는 6000개 유전자중에서 864개-다시 말하면, 세포에 의해 잠재적으로 발현가능한 전체 유전자의 14.4%-의 발현을 측정하여, 세포 표현형을 정량적으로 한정하고, 따라서, 세포 상태의 관련성을 정량적으로 결정할 수 있다는 것을 보여준다. 실시예 5는 잠재적으로 발현가능한 유전자의 훨씬 작은 부분집합-6000개 중 96개 또는 잠재적으로 발현가능한 유전자의 1.6%-을 선별하는데, 이들의 발현은 세포표현형을 정량적으로 한정하고, 따라서, 세포상태의 관련성을 정량적으로 측정할 수 있을 만큼 유익하다.Examples 1-4 measure the expression of 864 out of 6000 genes that can potentially be expressed by S. cerevisiae, i.e., 14.4% of the total genes potentially expressable by cells, It is shown that the cell phenotype is quantitatively limited, and therefore the relevance of the cell state can be quantitatively determined. Example 5 selects a much smaller subset of potentially expressible genes—96 out of 6000 or 1.6% of potentially expressable genes—their expression quantitatively limits the cell phenotype, and therefore Is beneficial enough to quantitatively determine the relevance of

따라서, 본 발명의 중요한 측면은 세포 표현형 선별 방법을 제공하는 것인데, 상기 방법은 발현 분석을 위해 세포에서 20%정도의 발현가능 유전자를 선별하는 것으로 구성되고, 여기서, 선별된 유전자의 동시 발현은 세포 표현형을 충분히 한정하여, 세포표현형을 다른 세포의 표현형과 정량적으로 연관시킬 수 있게 한다. 이들 방법에서, 세포에서 20%정도의 발현가능 유전자를 선별하고, 좀더 바람직하게는 15%정도의 발현가능 유전자, 이보다 좀더 바람직하게는 10%정도의 발현가능 유전자, 최적으로는 5%의 발현가능 유전자, 가장 바람직하게는 1%-5%의 발현가능 유전자, 최종적으로는 1-2%의 발현가능 유전자를 선별한다. 이런 선별에 영향을 주는 대수, 컴퓨터 시스템, 네트워크, 이런 방법에 영향을 주는 다른 장치를 또한 제시한다.Accordingly, an important aspect of the present invention is to provide a cell phenotype selection method, which comprises selecting about 20% expressable genes in a cell for expression analysis, wherein simultaneous expression of the selected genes is a cell. The phenotype is sufficiently defined to allow the cell phenotype to be quantitatively associated with other cell phenotypes. In these methods, 20% expressable genes are selected from cells, more preferably 15% expressable genes, more preferably 10% expressable genes, optimally 5% expressible. Genes, most preferably 1% -5% expressable genes and finally 1-2% expressable genes are selected. We also present algebras, computer systems, networks that influence this screening, and other devices that affect this method.

발현 분석을 위해 발현가능한 유전자의 유익한 부분집합을 선별하는 알고리즘에서 2가지 기본 단계는 도9와 10을 참고로 하면 더 쉽게 이해할 수 있다.Two basic steps in the algorithm for selecting a beneficial subset of expressible genes for expression analysis can be more readily understood with reference to FIGS. 9 and 10.

알고리즘에서 2가지 중요한 단계중 제 1 단계는 발현의 동적범위에 따라 유전자를 배열하는 것이다. 가급적, 사실(史實)적인 데이터를 사용한다: 각 유전자에 대하여, 전자식으로 저장된 유전자 발현 프로파일의 데이터베이스에서 신호 108의 최대치와 최소치는 적절히 공식화된 쿼리(또는 일련의 쿼리)(900)에 따라 결정한다.The first of two important steps in the algorithm is to arrange the genes according to the dynamic range of expression. Use historical data whenever possible: For each gene, the maximum and minimum values of signal 108 in the database of electronically stored gene expression profiles are determined according to a properly formulated query (or set of queries) 900. .

전술한 바와 같이, 유전자 발현 데이터는 도 1, 5, 6에서 밝힌 과정동안 모든 중간 시점에서 저장할 수 있다. 도9에서 설정한 알고리즘 단계의 목적을 위해, 단계 108에서 출력되는 신호를 사용한다. 단계 108에서 출력된 신호가 데이터베이스에 존재하지 않는 경우, 수치는 저장된 수치로부터 재구성해야 한다-- 가령, 단계 110에서 출력된 신호수치가 저장되는 경우, 단계 108에서 출력된 신호는 단계 110을 뒤집어, 다시 말하면, 누승법(exponentiation)으로 계산할 수 있다.As mentioned above, gene expression data can be stored at all intermediate time points during the process identified in FIGS. 1, 5, 6. For the purpose of the algorithm step set in FIG. 9, the signal output in step 108 is used. If the signal output in step 108 does not exist in the database, the numerical value should be reconstructed from the stored numerical value-for example, if the signal value output in step 110 is stored, the signal output in step 108 reverses step 110, In other words, it can be calculated by exponentiation.

발현 범위는 최대 신호와 최소 신호의 비율(지정범위=Signalmax/Signalmin)로 계산한다(902). 동적범위의 다른 측정법-"Signalmax-Signalmin"을 사용할 수 있지만, 비율은 현재가 적절하다.The expression range is calculated by the ratio of the maximum signal and the minimum signal (specified range = Signal max / Signal min ) (902). Other measures of dynamic range-"Signal max -Signal min " can be used, but the ratio is now appropriate.

다음, 진입기준은 단계 902에서 구한 범위와 기존의 경험적 수치를 비교하여 적용한다(904). 범위가 진입기준을 초과하는 경우, 유전자는 이후 사용을 위해 계속 보관한다; 범위가 진입기준을 초과하지 않는 경우, 유전자는 추가분석에서 제외한다. 단계 906에서 보인 바와 같이, 이런 제외는 범위를 0으로 설정하여 쉽게 성취할 수 있다. 도8에서 보이고, 실시예 5에서 예시한 선별을 위해, 진입기준으로 10을 설정하였다. 다시 말하면, 데이터베이스상에 저장된 일단의 사실(史實)적인 유전자 발현 프로파일 전체에서 10배이상의 유전자 발현 수준 변화를 보이는 유전자만 선택된 부분집합에 존속시켰다.Next, the entry criterion is applied by comparing the range obtained in step 902 with existing empirical figures (904). If the range exceeds the entry criteria, the gene is kept for later use; If the range does not exceed the entry criteria, the gene is excluded from further analysis. As shown in step 906, this exclusion can be easily accomplished by setting the range to zero. For the screening shown in FIG. 8 and illustrated in Example 5, 10 was set as the entry criterion. In other words, only those genes that showed more than 10-fold changes in gene expression levels across a set of factual gene expression profiles stored on a database persisted in the selected subset.

알고리즘상의 이 단계에서 범위 진입기준의 선별은 경험적 필요에 따라 결정하게 되는데, 이것은 당분야의 통상적인 지식에 포함된다. 일반적으로, 10배의 진입기준에서 적당히 줄어든 크기의 유익한 부분집합이 제공된다.The selection of range entry criteria at this stage of the algorithm is determined by empirical needs, which is included in the common knowledge in the art. In general, a beneficial subset of moderately reduced size is provided at a 10-fold entry criterion.

하지만, 진입기준을 1정도로 설정할 수도 있다; 다시 말하면, 완전하게 컷오프를 제거하는 것이다. 결과적으로, 모든 다른 요인은 일정해지고, 더 큰 유전자 부분집합이 선별되게 된다. 또한, 이 단계에서 설정되는 진입기준은 전체 개수에 제한할 필요가 없다.However, you can set the entry criteria to about 1; In other words, the cutoff is completely removed. As a result, all other factors are constant and a larger subset of genes are selected. In addition, the entry criteria set at this stage need not be limited to the total number.

따라서, 진입기준은 1정도 또는 가급적 1이상 설정한다. 일반적으로, 진입기준은 2이상, 좀더 바람직하게는 3이상, 이보다 좀더 바람직하게는 4, 5, 6, 7, 8 또는 9이상, 가장 바람직하게는 10이상으로 설정한다.Therefore, the entry criteria is set to about 1 or preferably 1 or more. In general, the entry criteria is set to 2 or more, more preferably 3 or more, more preferably 4, 5, 6, 7, 8 or 9 or more, and most preferably 10 or more.

또한, 진입기준은 10 내지 100, 바람직하게는 50정도, 좀더 더 바람직하게는 25정도, 가장 바람직하게는 10-20으로 설정한다.In addition, the entry criterion is set to 10 to 100, preferably about 50, more preferably about 25, most preferably 10-20.

발현 범위가 경험적 진입기준을 초과하는 유전자는 이후 발현 범위에 따라 분류한다.Genes whose expression range exceeds the empirical entry criteria are then classified according to the expression range.

도10은 왼쪽에서 오른쪽으로 알고리즘 제 2 단계를 2번 반복하는 것을 개략적으로 설명한다. 왼쪽에 보이는 것은 단계 908에서 출력된 유전자 목록으로, 최대에서 최소 동적범위 순위로 배열한다. 부적절한 동적범위로 인해 단계 906에서 배제된 유전자는 보이지 않는다.10 schematically illustrates repeating the second algorithm step twice from left to right. Shown on the left is a list of genes output at step 908, ranging from maximum to minimum dynamic range ranking. The genes excluded at step 906 are not visible due to inadequate dynamic range.

공정의 제 1 반복동안, 목록상의 제 1 유전자는 지수 또는 참고 유전자 역할을 한다. 차례로 목록상의 유전자를 연속적으로 취하여, 유전자의 발현이 일단의 저장된 유전자 발현 프로파일 전체에서 지수 유전자와 상관하는 정도를 계산한다. 상관관계(r2)가 경험적으로 설정된 수치를 초과하는 경우, 유전자는 세트에서 제외시킨다.During the first iteration of the process, the first gene on the list serves as an index or reference gene. In turn, the genes in the list are taken consecutively to calculate the extent to which the expression of the gene correlates with the index gene throughout the entire stored gene expression profile. If the correlation (r 2 ) exceeds the empirically established value, the gene is excluded from the set.

이런 단계의 효과는 발현이 지수 유전자, "유전자 1"과 강하게 상관하는 모든 유전자를 제거하는 것이다; 상관관계의 정도가 높다는 것은 제외되는 유전자의 발현에 의해 제공된 정보가 지수 유전자의 발현 수치에 내재된 정보에 다수 존재한다는 것을 암시한다. 도10의 아랫부분에 보이는 바와 같이, 지수 유전자("유전자 1")는 유익한 유전자 부분집합에 존속시킨다; 도10의 중간에 예시한 바와 같이 이들과 높은 상관관계를 보이는 유전자("유전자 3"과 "유전자 4"는 제외시킨다. 목록은 최대에서 최소 발현 범위의 순위로 배열되어 있기 때문에, 연관된 군에서 존속되는 단일 유전자는 발현의 최대 동적범위를 보유한 유전자다.The effect of this step is to eliminate all genes whose expression strongly correlates with the index gene, “gene 1”; The high degree of correlation suggests that a large number of information provided by the expression of excluded genes is present in the information inherent in the expression levels of index genes. As shown at the bottom of FIG. 10, the exponential gene (“gene 1”) persists in the beneficial gene subset; As shown in the middle of Figure 10, genes that are highly correlated with them ("gene 3" and "gene 4" are excluded.) Because the list is arranged in order of maximum to minimum expression range, it persists in the associated group. A single gene is one that has the maximum dynamic range of expression.

공정의 제 2 반복동안, 유전자 1이후의 첫 번째 유전자(도10에서 "유전자 2")가 지수 또는 참고 유전자가 된다. 이것 또한, 도면의 아랫부분에 보이는 바와 같이, 존속된다.During the second iteration of the process, the first gene after gene 1 (“gene 2” in FIG. 10) becomes the index or reference gene. This also persists, as shown at the bottom of the figure.

차례로 목록상의 유전자를 연속적으로 취하여, 유전자의 발현이 일단의 저장된 유전자 발현 프로파일 전체에서 지수 유전자와 상관하는 정도를 계산한다. 상관관계(r2)가 경험적으로 설정된 수치를 초과하는 경우, 유전자는 세트에서 제외시킨다. 다음에 존속된(비연관된) 유전자("유전자 6")가 다음 반복을 위한 지수 유전자가 된다.In turn, the genes in the list are taken consecutively to calculate the extent to which the expression of the gene correlates with the index gene throughout the entire stored gene expression profile. If the correlation (r 2 ) exceeds the empirically established value, the gene is excluded from the set. The surviving (unrelated) gene ("gene 6") then becomes the index gene for the next iteration.

공정은 목록이 소멸할 때까지 반복한다.The process is repeated until the list is extinguished.

발현이 지수 유전자의 발현과 상관하는 유전자를 제거하는 단계를 반복적으로 실시하는데 있어, 상호 관련은 단계 140의 출력(즉, 박스 141의 출력)인 유전자 발현 신호에서 가급적 실시한다. 최종 부분집합에 존속된 유전자 수는 유전자 발현 프로파일의 데이터베이스에 데이터를 기여하는 유전자의 전체 수, 단계 904에서 적용한 범위 진입기준, 도10에서 도식화한 반복공정동안 적용된 상관관계 진입기준으로 결정하게 된다. 2개의 진입기준 수치는 경험적으로 조정하여, 임의로 선택된 수의 유전자를 보유한 유익한 부분집합을 만들 수 있다.In iteratively carrying out the step of removing the gene whose expression correlates with the expression of the index gene, the correlation is preferably performed at the gene expression signal, which is the output of step 140 (ie, the output of box 141). The number of genes remaining in the final subset is determined by the total number of genes contributing data to the database of gene expression profiles, the range entry criteria applied in step 904, and the correlation entry criteria applied during the iterative process depicted in FIG. Two entry criteria values can be empirically adjusted to create a beneficial subset with a randomly selected number of genes.

따라서, 하기 실시예 5에서 제시한 분석에서, 범위 진입기준과 상관관계 진입기준을 경험적으로 조정하여 96개 유전자를 보유한 부분집합-표준 미소역가 평판의 웰 수와 동일-을 제공하였는데, 진입기준은 10으로, 상관관계 진입기준은 0,675로 설정하였다.Thus, in the analysis presented in Example 5 below, the range entry criterion and the correlation entry criterion were empirically adjusted to provide a subset with 96 genes equal to the number of wells of a standard microtiter plate. The correlation entry criterion was set at 0,675.

일단 도9와 10에서 제시한 알고리즘에 따라 원하는 크기의 부분집합을 확인한 후, 도5와 6에서 제시한 알고리즘에 따라 상기 부분집합을 이용하여 정량분석을 실시할 수 있다. 분석은 실시예 5에서와 같이 좀더 포괄적인 유전자 발현 프로파일로부터 선택하여 실시하거나, 또는 리포터 매트릭스에서 확인된 유전자 부분집합을 이용하여 기대되는 유전자 발현 프로파일을 획득함으로써 실시할 수 있다.Once the subsets of the desired size are identified according to the algorithms shown in FIGS. 9 and 10, quantitative analysis can be performed using the subsets according to the algorithms shown in FIGS. 5 and 6. The analysis can be performed by selecting from a more comprehensive gene expression profile as in Example 5, or by obtaining the expected gene expression profile using the gene subsets identified in the reporter matrix.

실시예 5는 저장된 유전자 발현 프로파일의 데이터베이스에서 입수가능한 1532개 유전자에서 96개의 유전자 부분집합을 설명하는 것을 설명한다. 표8과 10-표8은 1532개 유전자를 이용한 관련성의 순위를 배열한 것이고, 표10은 전술한 방식을 이용하여 선별한 96개 유전자에 기초한 동일 프로파일의 관련성의 순위를 배열한 것이다-상의 데이터 비교에서, 96개 유전자 부분집합이 유전자 발현 프로파일의 관련성을 정량적으로 배열할 수 있을 만큼 충분한 다양성을 계속 유지한다는 것을 알 수 있다: 양 표상의 데이터에서 HMG-CoA 환원효소 저해물질이 로바스타틴과 가장 밀접하게 연관되어있다는 것을 알 수 있는데, 스테롤 생합성 경로상의 다른 단계에 영향을 주는 약물은 효과에서 밀접하게 관련된 다음 차례의 약물이 된다.Example 5 illustrates the description of 96 gene subsets in 1532 genes available in a database of stored gene expression profiles. Tables 8 and 10-Table 8 list the ranks of relevance using 1532 genes, and Table 10 lists the ranks of relevance of the same profile based on the 96 genes selected using the method described above. In comparison, it can be seen that the 96 gene subsets continue to have enough diversity to quantitatively arrange the relevance of gene expression profiles: HMG-CoA reductase inhibitors are closest to lovastatin in the data on both tables. It can be seen that the drug affecting other stages of the sterol biosynthetic pathway is the next drug closely related in effect.

실시예 5에서 유전자 발현의 정량 분석은 도6의 알고리즘(도1A, 1B, 6)을 이용한 96개의 유전자 부분집합에서 실시하였는데, 도5의 알고리즘(도1A, 1B, 5)을 또한, 사용할 수 있다. 또한, 도8-지수 프로파일(순위 0)에서 얻은 96개 유전자에 대한 발현 데이터 대 순위 2(1% 에탄올에 녹인 20㎍/㎖ 메바스타틴)에서 나타나는 프로파일에서 얻은 데이터의 도표-은 이렇게 선별된 부분집합이 또한, 유전자 발현 프로파일의 정량분석에 사용될 수 있다는 것을 보여준다.Quantitative analysis of gene expression in Example 5 was performed on 96 gene subsets using the algorithm of FIG. 6 (FIGS. 1A, 1B, 6), and the algorithm of FIG. 5 (FIGS. 1A, 1B, 5) can also be used. have. In addition, a table of expression data for 96 genes obtained in Figure 8-index profile (rank 0) versus data obtained from profiles appearing in rank 2 (20 μg / ml mevastatin dissolved in 1% ethanol) is thus selected. The set also shows that it can be used for quantitation of gene expression profiles.

다음의 실시예는 설명하기 위한 것으로, 본 발명을 제한하지 않는다.The following examples are for illustrative purposes only and do not limit the invention.

80㎍/㎖ 액티노마이신 D에 대한 약물의 관련성Relationship of the drug to 80 μg / ml actinomycin D

복제된 게놈 리포터 매트릭스는 Ashby등에 따라 만들었다. 간단히 말하면, 이런 매트릭스 재조합 구조체 각각에 대하여, 분명한 효모 프로모터로부터 형광 리포터를 추진하는 이들 구조체는 동일 균주 배경의 맥주효모균(Saccharomyces cerevisiae)의 분리된 배양물에 개별적으로 형질전환시켰다. 형질전환된 배양물을 선별하여 리포터를 유지시키고, 형질전환되지 않은 세포에 의한 오염을 예방하였다. 이런 형질전환된 효모의 배양물 각각은 매트릭스의 분리된 공간적으로-어드레스가능한 웰에서 분리하고 유지시켰다.Replicated genomic reporter matrices were made according to Ashby et al. In short, for each of these matrix recombination constructs, these constructs that propel the fluorescent reporter from the distinct yeast promoter were individually transformed into separate cultures of Saccharomyces cerevisiae of the same strain background. Transformed cultures were selected to maintain reporters and to prevent contamination by untransformed cells. Each of these transformed yeast cultures was isolated and maintained in separate spatially-addressable wells of the matrix.

사용하는 매트릭스는 864개의 분리된 구조체를 보유하는데, 이를 통해, 800개이상의 유전자의 발현수준을 동시에 측정할 수 있다. 각 매트릭스는 표1과 2에서 명시한 한정된 환경조건하에 둔다. 각 유전자 발현 프로파일은 Ashby등에서 제시한 각 매트릭스로부터 획득하고, 디지털화하고, 전자식으로 저장하였다.The matrix used has 864 isolated constructs, which allow simultaneous expression levels of more than 800 genes. Each matrix is placed under the limited environmental conditions specified in Tables 1 and 2. Each gene expression profile was obtained from each matrix presented by Ashby et al., Digitized and stored electronically.

이후, 80㎍/㎖ 액티노마이신 D의 존재하에 만들어진 프로파일과 각 유전자 발현 프로파일의 관련성은 도1A, 1B, 5(표1) 또는 도1A, 1B, 6(표2)에서 제시한 방법에 따라, 한 쌍 단위로 정량하였다. 한 쌍 단위의 관련성 수치는 이후 순위대로 배열하는데, 결과는 다음과 같다.Thereafter, the relationship between the profiles made in the presence of 80 μg / ml actinomycin D and each gene expression profile was determined according to the method shown in FIGS. 1A, 1B, 5 (Table 1) or 1A, 1B, 6 (Table 2). And quantified in pairs. The pairwise relevance figures are then arranged in rank order. The result is:

표1과 2는 이 글에서 제시한 각 방법으로 유전자 발현 프로파일의 관련성을 정량할 수 있고, 따라서, 약물 치료의 관련성을 확인할 수 있다는 것을 보여준다.Tables 1 and 2 show that each method presented in this article can quantify the relevance of gene expression profiles, thus confirming the relevance of drug treatment.

그러므로, 표1에서 제시한 바와 같이, 도1A, 1B, 5의 알고리즘에서 60 ㎍/㎖ 액티노마이신 D 처리가 참고 또는 지수 조건에 대한 가장 밀접하게 관련된 처리라는 것을 알 수 있는데, 상기 조건은 80㎍/㎖ 액티노마이신 D에 노출시키는 것이다. 40㎍/㎖ 액티노마이신 D와 50㎍/㎖ 액티노마이신 D가 그 뒤를 잇는다.Therefore, as shown in Table 1, it can be seen that the 60 μg / ml actinomycin D treatment in the algorithms of FIGS. 1A, 1B, 5 is the most closely related treatment for reference or exponential conditions, which is 80 Exposure to μg / ml actinomycin D. 40 μg / ml Actinomycin D followed by 50 μg / ml Actinomycin D.

다양한 농도의 다우나루비신, 5-FUDR, 독소루비신, 5-FU, 수산화요소, 미코페놀산이 그 다음에 온다. 액티노마이신 D와 유사한 이들 약물 모두 핵산합성에 영향을 준다. 부동등 활성의 약물을 이용한 치료는 훨씬 관련성이 덜한다: 효모 알파 인자를 이용한 치료는 순위 26과 27이고, 그 이후에 메바스타틴이 뒤를 잇는데, 후자는 HMG-CoA 환원효소의 저해물질이다. 순위 31은 약물이 아닌 환경적으로-대응된 컨트롤을 이용한 처리에 의해 만들어진 프로파일에서 발견되고, 항진균제(미코나졸과 그리세오풀빈) 처리와 칼슘 채널 차단물질(베라파밀) 처리가 그 뒤에 위치한다.Various concentrations of daunarubicin, 5-FUDR, doxorubicin, 5-FU, urea hydroxide, mycophenolic acid are next. Both of these drugs, similar to actinomycin D, affect nucleic acid synthesis. Treatment with anti-active drugs is much less relevant: treatment with yeast alpha factors is ranked 26 and 27, followed by mevastatin, the latter being an inhibitor of HMG-CoA reductase. Rank 31 is found in the profile made by treatment with environmentally-responsive controls, not drugs, followed by antifungal agents (myconazole and griseofulvin) treatment and calcium channel blocker (verapamil) treatment.

따라서, 액티노마이신 D의 작용기작만 공지인 경우, 데이터는 다우나루비신, 5-FUDR, 독소루비신, 5-FU, 수산화요소, 미코페놀산이 액티노마이신 D의 공지된 기작과 유사한 작용기작을 보유한 약물이라는 것을 암시한다. 액티노마이신 D가 핵산 합성을 방해한다는 것을 아는 경우, 데이터는 다우나루비신, 5-FUDR, 독소루비신, 5-FU, 수산화요소, 미코페놀산 또한, 핵산합성에 영향을 주고, 따라서, 암의 치료에 화학요법적 약물로서 유용하거나 또는 병원균, 특히, 바이러스 병원균의 생명주기를 교란시키는데 유용하다는 것을 암시한다.Thus, if only the mechanism of action of actinomycin D is known, the data shows that daunarubicin, 5-FUDR, doxorubicin, 5-FU, urea hydroxide, mycophenolic acid have a mechanism similar to the known mechanism of actinomycin D. It implies that it is a drug. If we know that actinomycin D interferes with nucleic acid synthesis, the data show that daunarubicin, 5-FUDR, doxorubicin, 5-FU, urea hydroxide, mycophenolic acid also affect nucleic acid synthesis and, thus, treatment of cancer To chemotherapy drugs or to disrupt the life cycle of pathogens, in particular viral pathogens.

반대로, 참고물질을 제외한 이들 약물 모두의 기작이 공지인 경우, 이들 데이터에서 액티노마이신 D가 핵산 합성에 간섭한다는 것을 알 수 있는데, 여기에서 이의 기작을 통찰할 수 있다.Conversely, if the mechanisms of all of these drugs except the reference are known, these data show that actinomycin D interferes with nucleic acid synthesis, from which the mechanisms can be insighted.

이런 통찰에는 지정된 핵산합성 저해분석 및 약물에 대한 분자표적의 사전 확인을 필요로 하지 않는다. 결과적으로, 유사한 전반적인 효과를 보이는 약물은 확인하였지만, 부동등 분자표적은 확인하지 못하였다.These insights do not require designated nucleic acid synthesis inhibition assays and prior confirmation of molecular targets for the drug. As a result, drugs with similar overall effects were identified, but no immobilized molecular targets were identified.

표2는 동일한 일단의 전자식으로-저장된 유전자 발현 프로파일 데이터에 적용한 바와 같이, 도1A, 1B, 6의 방법과 알고리즘을 이용하여 만들어진 유전자 발현 프로파일의 관련성의 정량적인 순위를 제시한다.Table 2 presents a quantitative ranking of the relevance of gene expression profiles made using the methods and algorithms of FIGS. 1A, 1B, 6, as applied to the same set of electronically-stored gene expression profile data.

보는 바와 같이, 핵산 합성에 영향을 주는 약물은 80㎍/㎖ 액티노마이신 D를 이용한 치료와 가장 밀접한 것으로 위치시킨다. 주목할 점은 순위의 배열이 액티노마이신 D의 농도 감소의 배열이라는 점이다As can be seen, the drugs affecting nucleic acid synthesis are located as closest to treatment with 80 μg / ml actinomycin D. Note that the arrangement of ranks is the arrangement of decreasing concentrations of actinomycin D.

실시예 2Example 2

50㎍/㎖ 다우나루비신에 대한 약물의 관련성Relationship of drug to 50 μg / ml daunarubicin

유전자 발현 프로파일은 실시예 1과 Ashby등이 제시한 바와 같이 획득하고, 저장하였다.Gene expression profiles were obtained and stored as shown in Example 1 and Ashby et al.

이후, 50㎍/㎖ 다우나루비신의 존재하에 만들어진 프로파일과 각 유전자 발현 프로파일의 관련성은 도1A, 1B, 5(표3) 또는 도1A, 1B, 6(표4)에서 제시한 방법에 따라, 한 쌍 단위로 정량하였다. 한 쌍 단위의 관련성 수치는 이후 순위대로 배열하는데, 결과는 다음과 같다.Thereafter, the relationship between the profiles made in the presence of 50 μg / ml daunarubicin and each gene expression profile was determined according to the method shown in FIGS. 1A, 1B, 5 (Table 3) or 1A, 1B, 6 (Table 4). Quantification was performed in pairs. The pairwise relevance figures are then arranged in rank order. The result is:

표3에서 제시한 데이터-도5에서 제시한 방법 이용-에서, 다우나루비신과 밀접한 작용을 하는 약물은 다음과 같이 확인되었는데: 독소루비신, 액티노마이신 D, 5-FU, 5-FUDR, 이것은 이들 약물의 공지된 활성과 일치한다. 대조적으로, 표4에서 제시한 데이터-도6에서 제시한 방법을 이용하여 만듦-에서, 밀접하게 관련된 것으로 보이는 베라파밀(칼슘 채널 차단물질)은 작용이 불분명하다.In the data presented in Table 3—using the method shown in FIG. 5—the drugs that work closely with daunarubicin have been identified as: doxorubicin, actinomycin D, 5-FU, 5-FUDR, which are these Consistent with the known activity of the drug. In contrast, in the data presented in Table 4—created using the method shown in FIG. 6—verapamil (calcium channel blocker), which appears to be closely related, is unclear.

따라서, 약물의 높은 농도로 대표되는 좀더 심각한 처리에서, 도5에서 제시한 방법이 도6에서 제시한 방법보다 적절한 것으로 보인다. 하기 실시예 3은 도6에서 제시한 방법이 낮은 농도의 약물에서 선호된다는 것을 보여준다.Thus, in more severe treatments represented by high concentrations of the drug, the method shown in FIG. 5 appears to be more appropriate than the method shown in FIG. Example 3 below shows that the method presented in FIG. 6 is preferred for low concentrations of drug.

본 실시예의 데이터에서, 복제된 유전자 발현 프로파일, 다시 말하면, 동일한 조건하에 분리된 실험에서 획득한 유전자 발현 프로파일이 서로 밀접한 순위의 데이터를 제공한다는 것을 알 수 있는데, 이것은 분석의 재현가능성을 보여준다.In the data of this example, it can be seen that the cloned gene expression profile, ie, the gene expression profile obtained in separate experiments under the same conditions, provides data of close ranking to each other, which shows the reproducibility of the assay.

실시예 3Example 3

12.5 ㎍/㎖ 다우나루비신에 대한 약물의 관련성Relationship of the drug to 12.5 μg / ml daunarubicin

유전자 발현 프로파일은 실시예 1과 Ashby등이 제시한 바와 같이 획득하고, 저장하였다.Gene expression profiles were obtained and stored as shown in Example 1 and Ashby et al.

이후, 12.5㎍/㎖ 다우나루비신의 존재하에 만들어진 프로파일과 각 유전자 발현 프로파일의 관련성은 도1A, 1B, 5(표5) 또는 도1A, 1B, 6(표6)에서 제시한 방법에 따라, 한 쌍 단위로 정량하였다. 한 쌍 단위의 관련성 수치는 이후 순위대로 배열하는데, 결과는 다음과 같다.Thereafter, the relationship between the profiles made in the presence of 12.5 μg / ml daunarubicin and each gene expression profile was determined according to the method shown in FIGS. 1A, 1B, 5 (Table 5) or 1A, 1B, 6 (Table 6). Quantification was performed in pairs. The pairwise relevance figures are then arranged in rank order. The result is:

표5와 6에서 제시한 결과는 낮은 약물 농도에서 유전자 발현 프로파일의 관련성을 정량하는 제 2 방법의 실제적인 장점을 보여준다.The results presented in Tables 5 and 6 show the practical advantages of the second method of quantifying the relevance of gene expression profiles at low drug concentrations.

표5에서 보는 바와 같이, 도5에서 제시한 제 1 방법으로는 단지 12.5㎍/㎖ 다우나루비신의 존재하에 만들어진 프로파일과 유전자 발현 프로파일의 관련성을 정확하게 정량하지 못하고, 따라서, 5% 식염수와 1000㎍/㎖ 딜티아젬(칼슘 채널 봉쇄물질)이 5-FU에 앞서 위치하게 되는데, 상기 5-FU 자체는 순위상 혐기성 성장과 베라파밀 이전에 위치한다.As shown in Table 5, the first method shown in FIG. 5 does not accurately quantify the association between the gene expression profile and the profile made in the presence of only 12.5 μg / ml daunarubicin, thus, 5% saline and 1000 μg. / Ml diltiazem (calcium channel blocker) is placed before 5-FU, which is placed prior to anaerobic growth and verapamil in rank.

대조적으로, 도6에서 제시한 방법에 따라 분석한 동일 유전자 발현 프로파일 데이터(표6)는 다양한 농도의 독소루비신 치료를 12.5㎍/㎖ 다우나루비신 처리와 가장 밀접하게 관련된 것으로 새롭게 정렬시키는데, 상기 독소루비신은 구조와 기능에서 다우나루비신과 가장 밀접하게 관련된 것으로 알려져 있다.In contrast, the same gene expression profile data analyzed according to the method shown in FIG. 6 (Table 6) newly aligns various concentrations of doxorubicin treatment with the most closely related 12.5 μg / ml daunarubicin treatment, which doxorubicin is It is known to be most closely related to daunarubicin in structure and function.

실시예 4Example 4

전반적인 환경조건의 관련성Relevance of overall environmental conditions

복제된 게놈 리포터 매트릭스는 실시예 1과 Ashby등이 제시한 바와 같이 만들었는데, 이것은 84개의 상이한 효모 개방 해독 틀의 동시 발현을 알려주는 864개의 별개 요소를 보유한다. 유전자 발현 프로파일은 각 매트릭스에 대하여 하기에 보인 조건하에서 획득하고, 디지털화하고, 저장하였다. 이후, 효모 최소배지에서 세포 배양에 의해 만들어진 프로파일과 각 유전자 발현 프로파일의 관련성은 도1A, 1B, 5에서 제시한 방법에 따라, 한 쌍 단위로 정량하였다. 한 쌍 단위의 관련성 수치는 이후 순위대로 배열하는데, 결과는 표7에 제시한다:The cloned genomic reporter matrix was made as presented by Example 1 and Ashby et al., Which holds 864 distinct elements that indicate the simultaneous expression of 84 different yeast open translational frameworks. Gene expression profiles were obtained, digitized and stored under the conditions shown below for each matrix. Then, the relationship between the profile produced by the cell culture in the yeast minimal medium and each gene expression profile was quantified in pairs, according to the method shown in Figure 1A, 1B, 5. The pairwise relevance figures are then arranged in rank order, and the results are shown in Table 7:

표7에서 보인 바와 같이, 이 글에서 제시한 정량방법으로, 개별 약물을 이용한 분리된 처리로 실시할 때처럼, 영양배지의 변화로 대표되는 전반적인 환경조건의 관련성을 순위대로 배열할 수 있다.As shown in Table 7, the quantitative methods presented in this article can be arranged in order of relevance of the overall environmental conditions represented by changes in nutrient medium, as in separate treatment with individual drugs.

또한, 이들 데이터에서 배지상의 변화가 전반적인 유전자 발현에 상당한 영향을 준다는 것을 확인할 수 있는데, 이것은 도1B에서 제시한 바와 같이 환경적으로-대응된 컨트롤에 대한 보정의 중요성을 보여준다.In addition, these data show that changes in media have a significant impact on overall gene expression, which shows the importance of correction for environmentally-corresponding controls, as shown in FIG. 1B.

실시예 5Example 5

유전자 발현 프로파일의 정량분석을 위한 유전자의 유익한 부분집합 선별Selection of Beneficial Subsets of Genes for Quantitative Analysis of Gene Expression Profiles

복제된 게놈 리포터 매트릭스는 Ashby등에 따라 만들었다. 본 실시예에 제시된 분석을 위하여 사용되는 매트릭스는 1532개의 분리된 구조체를 함유하는데, 이를 통해, 맥주효모균(S. cerevisiae)에 의해 발현될 수 있는 유전자의 ¼인 1500개이상 유전자의 발현수준을 동시에 측정할 수 있다. 각 매트릭스는 표8과 10 각각에서 개별 기재사항에서 명시한 바와 같이 한정된 환경조건에 두었다. 유전자 발현 프로파일은 Ashby등이 제시한 바와 같이 각 매트릭스로부터 획득하고, 디지털화하고, 전자식으로 저장하였다.Replicated genomic reporter matrices were made according to Ashby et al. The matrix used for the analysis presented in this example contains 1532 isolated constructs, thereby simultaneously expressing the expression levels of more than 1500 genes, ¼ of the genes that can be expressed by S. cerevisiae. It can be measured. Each matrix was subjected to limited environmental conditions as indicated in the individual descriptions in Tables 8 and 10, respectively. Gene expression profiles were obtained from each matrix, digitized and stored electronically as suggested by Ashby et al.

이후, 10㎍/㎖ 로바스타틴의 존재하에 만들어진 프로파일과 각 유전자 발현 프로파일의 관련성은 도1A, 1B, 6에서 제시한 방법에 따라 한 쌍 단위로 정량하는데, 상기 방법은 2가지 점에서 이전의 방법과 차이를 보인다.Thereafter, the relationship between the profile made in the presence of 10 μg / ml lovastatin and each gene expression profile is quantified in pairs according to the method shown in FIGS. 1A, 1B, and 6, which is similar to the previous method in two respects. Seems to make a difference.

첫째, 표준화 단계 108은 96개의 유전자 부분집합의 분석에서 생략되었는데, 그 이유는 일정한 유전자 발현의 가정을 작은 퍼센트의 세포 유전자에는 적용할 수 없기 때문이다.First, standardization step 108 was omitted from the analysis of 96 gene subsets because the assumption of constant gene expression is not applicable to a small percentage of cellular genes.

둘째, 리포터의 부동등 동적범위에 대한 보정은 각 유전자를 최대 표준화 신호의 제곱근의 로그로 나누는 단계 610과 611에서 성취할 수 있다; 하지만, 각각의 경우에, 표준화에 사용되는 수치는 1532개의 유전자 부분집합에 적당한 수치다.Second, the correction of the reporter's dynamic dynamic range can be achieved in steps 610 and 611 by dividing each gene by the logarithm of the square root of the maximum normalized signal; In each case, however, the values used for standardization are appropriate for the 1532 gene subset.

한 쌍 단위의 관련성 수치는 순위대로 배열하는데, 결과는 다음과 같다.Relevance figures in pairs are arranged in rank order. The result is:

표8는 도1A, 1B, 6의 알고리즘을 1532개의 별개 유전자 리포터를 보유한 유전자 발현 프로파일에 적용하면, 10㎍/㎖ 로바스타틴(HMG-CoA 환원효소 저해물질)에 대한 약물의 관련성을 정량할 수 있다는 것을 보여준다-상기 실시예 1-4에서 제시한 결과와 일치.Table 8 shows that applying the algorithms of Figures 1A, 1B and 6 to a gene expression profile with 1532 distinct gene reporters can quantify the relevance of the drug to 10 μg / ml lovastatin (HMG-CoA reductase inhibitor). -Consistent with the results presented in Examples 1-4 above.

따라서, 동일 분류의 다른 약물-메바스타틴, 플루바스타틴, 심바스틴, 아토바스타틴-이 로바스타틴과 가장 밀접하게 관련된 것으로 보인다. 스테롤 생합성 경로의 다른 단계에 영향을 주는 약물, 예를 들면, 에코나졸, 클로트리마졸, 플루코나졸은 순위상 뒤에 위치한다. 실제적으로 상이한 구조 또는 작용양식을 보이는 약물, 프로게스테론, 니페디핀, 투니카마이신이 그 뒤를 잇는다. 훨씬 낮은 상대적 프로파일 스코어를 보이는 다수의 다른 약물은 제시하지 않는다.Thus, other drugs of the same class-mevastatin, fluvastatin, simvastin, atorvastatin-appear to be most closely associated with lovastatin. Drugs that affect other stages of the sterol biosynthetic pathway, such as echonazol, clotrimazole, fluconazole, are placed after the ranks. Subsequently followed by drugs, progesterone, nifedipine, and tunicamycin, which exhibit substantially different structures or modes of action. Many other drugs with much lower relative profile scores are not shown.

도8을 작성하기 위하여 사용한 유전자 발현 프로파일의 데이터베이스는 이후 쿼리하고, 도9와 10에서 도식화한 알고리즘에 적용하였다. 이 알고리즘은 유전자 발현 프로파일에서 1532개 유전자의 부분집합을 확인하기 위하여 고안한 것으로, 이들은 유전자의 숫자 감소에 상관없이 유전자 발현 프로파일의 관련성을 정량할 수 있는 대표적 유전자 발현 레퍼토리이다. 96개 유전자를 보유한 부분집합-표준 미소역가 평판의 웰 수와 동일-을 성취하기 위하여, 범위 진입기준은 경험적으로 10으로 설정하고, 상관관계 진입기준은 0,675로 설정하였다.The database of gene expression profiles used to create Figure 8 was then queried and applied to the algorithms depicted in Figures 9 and 10. This algorithm was designed to identify a subset of 1532 genes in a gene expression profile, which is a representative gene expression repertoire that can quantify the relevance of a gene expression profile regardless of the number of genes decreased. In order to achieve a subset of 96 genes-equal to the number of wells of a standard microtiter plate, the range entry criterion was empirically set to 10 and the correlation entry criterion was set to 0,675.

이렇게 확인된 유전자 부분집합은 하기 표9에 제시한다. 본 발명에 따라 선택된 유전자에 대하여 표에 기록된 기능은 스탠포드 대학의 사카로마이세스(Saccharomyces) 게놈 데이터베이스(Http://genome-www.stanford.edu/Saccharomyce s)에서 현재 보고되고 있는 기능이다.The gene subsets thus identified are shown in Table 9 below. The functions listed in the table for genes selected according to the present invention are the functions currently reported in the Saccharomyces genome database (http://genome-www.stanford.edu/Saccharomyces) of Stanford University.

보는 바와 같이, 유전자 기능에 대한 고려없이 선택한 이런 부분집합에는 부동등 기능을 보유한 다양한 유전자 집합이 포함된다.As you can see, this subset, which is selected without consideration for gene function, includes a diverse set of genes that have invariant functions.

10㎍/㎖ 로바스타틴의 존재하에 만들어진 프로파일과 데이터베이스상의 각 유전자 발현 프로파일의 관련성은 이후, 표9에 제시한 96개 유전자로부터 얻은 발현 데이터만을 사용하여 도1A, 1B, 6에서 제시한 방법에 따라 한 쌍 단위로 정량하였다. 한 쌍 단위의 관련성 수치는 순위대로 배열하는데, 결과는 다음과 같다.The relationship between the profiles made in the presence of 10 μg / ml lovastatin and each gene expression profile in the database was then determined according to the method shown in FIGS. 1A, 1B and 6 using only expression data obtained from the 96 genes shown in Table 9. Quantification in pairs. Relevance figures in pairs are arranged in rank order. The result is:

표10은 유전자 발현 프로파일의 정량 분석이 가능한 유전자의 유익한 부분집합을 선별하는 것이 가능하다는 것을 보여준다. 1532개의 이용가능한 모든 유전자로부터 얻은 데이트를 이용하여 표8에서 제시한 분석에서와 같이 표9에서 제시한 96개 유전자만을 이용하여 표10에서 제시한 분석으로, 로바스타틴과 가장 밀접하게 관련된 약물로 HMG-CoA 환원효소 약물을 확인하였는데, 동일한 생합성 경로에 작용하는 약물은 가장 밀접하게 관련되어 있는 것으로 나타나고, 표적과 효과에서 완전히 무관한 약물은 가장 적게 관련되어 있는 것으로 나타난다.Table 10 shows that it is possible to select beneficial subsets of genes capable of quantitative analysis of gene expression profiles. The analysis shown in Table 10 using only 96 genes shown in Table 9, as in the analysis shown in Table 8 using data from all 1532 available genes, was the most closely related drug for lovastatin. CoA reductase drugs have been identified, with drugs acting on the same biosynthetic pathway appearing to be most closely related, and drugs that are completely independent of target and effect appear to be least relevant.

비록, 이런 실증은 발현데이터를 데이터베이스에서 입수할 수 있는 1532개의 유전자중에서 96개 유전자를 선별하여 실시하였지만, 이런 유익한 부분집합의 확인을 통해, 이후 확인된 리포터로부터 유전자 발현 데이터를 획득하고, 이렇게 획득된 데이터를 이용하여 유전자 발현 프로파일의 정량분석을 실시할 수 있다.Although this demonstration was performed by selecting 96 genes from 1532 genes for which expression data were available from the database, through identification of this beneficial subset, gene expression data were then obtained from the identified reporters and thus obtained. The data can be used to quantify gene expression profiles.

이 글에서 언급된 모든 특허, 공개공보, 다른 공개된 자료는 여기에 순전히 참고문헌으로 한다.All patents, publications, and other published materials mentioned in this article are hereby incorporated by reference in their entirety.

본 발명의 적절한 구체예를 설명하였기 때문에, 당업자에게 본 발명의 개념과 범주를 벗어나지 않는 모든 변화와 변형은 본 발명에 첨부된 청구항에 포함될 것이라는 것은 명백하다.Having described the preferred embodiments of the present invention, it will be apparent to those skilled in the art that all changes and modifications without departing from the spirit and scope of the present invention will be included in the appended claims.

Claims (65)

제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법에 있어서,In the method for quantifying the relationship between the first gene expression profile and the second gene expression profile, (a) 제 1 유전자 발현 프로파일과 제 1 유전자 발현 프로파일에서 공통적으로 나타내는 각 유전자에 대한 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고;(a) generating a first gene expression signal and a second gene expression signal for each gene in common in the first gene expression profile and the first gene expression profile; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호 각 쌍에 대한 상대적 발현 스코어를 공식화하고;(b) formulating relative expression scores for each pair of first and second gene expression signals; (c) 상기 한 쌍 단위의 상대적 발현 스코어로부터 복합 스코어를 계산하고,(c) calculating a composite score from the pair of relative expression scores, 여기서, 상기 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 방법.Wherein the composite score quantifies the relevance of two gene expression profiles. 제 1항에 있어서, 상기 유전자 발현 신호 발생 단계는 다음의 단계로 구성되는 것을 특징으로 하는 방법:The method of claim 1, wherein the gene expression signal generation step comprises the following steps: (a1) 각 유전자 각각에 대하여 획득한 초기 발현 신호의 크기와 이의 상대적 유전자 발현 프로파일에 대하여 획득한 초기 기본 신호의 크기를 비교하고;(a1) comparing the magnitude of the initial expression signal obtained for each gene with the magnitude of the initial basic signal obtained for its relative gene expression profile; (a2) 상대적 초기 기본 신호보다 작은 초기 발현 신호 각각의 크기를 조정한다.(a2) Adjust the magnitude of each of the initial expression signals smaller than the relative initial base signal. 제 2항에 있어서, 유전자 발현 신호 발생 단계는The method of claim 2, wherein the gene expression signal generation step (a3) 상대적 유전자 발현 프로파일에 대한 신호 전체에서 초기 발현 신호와 조정된 초기 발현 신호의 크기를 표준화하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.(a3) further comprising normalizing the magnitude of the initial expression signal and the adjusted initial expression signal throughout the signal for the relative gene expression profile. 제 3항에 있어서, 유전자 발현 신호 발생 단계는The method of claim 3, wherein the gene expression signal generation step (a4) 유전자 발현 신호 각각에 대한 수치로서 표준화된 신호의 대수를 지정하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.(a4) designating the logarithm of the normalized signal as a value for each gene expression signal. 제 4항에 있어서, 유전자 발현 신호 발생 단계는The method of claim 4, wherein the gene expression signal generation step (a5) 표준화된 로그 신호 각각에서, 조건-대응된 컨트롤로부터 상기 유전자에 대하여 획득된 동일하게 처리된 유전자 발현 신호를 공제하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.(a5) subtracting from each standardized log signal, the same processed gene expression signal obtained for the gene from the condition-matched control. 제 1항에 있어서, 상대적 발현 스코어 공식화 단계는 다음의 단계로 구성되는 것을 특징으로 하는 방법:The method of claim 1, wherein the step of formulating a relative expression score consists of the following steps: (b1) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호 각각에 대하여, 이들 사이의 비율을 계산하고;(b1) for each of the first gene expression signal and the second gene expression signal, calculate a ratio between them; (b2) 기본 신호 조정과 표준화 단계에 의해 상기 비율의 방향이 잠재적으로 변화된 상기 계산된 비율 각각은 추가 처리에서 배제한다.(b2) Each of the calculated ratios whose potential direction of the ratio has been changed by the basic signal adjustment and normalization steps is excluded from further processing. 제 6항에 있어서, 상대적 발현 스코어 공식화 단계는 다음의 단계를 추가로 포함하는 것으로 특징으로 하는 방법:The method of claim 6 wherein the step of formulating a relative expression score further comprises the following steps: (b3) 상기 계산된 비율의 절대 수치의 크기를 진입기준 상수의 크기와 비교하고;(b3) comparing the magnitude of the absolute value of the calculated ratio with the magnitude of the entry criterion constant; (b4) 상기 진입기준 상수를 초과하지 않는 절대수치의 상기 계산된 비율 각각을 추가처리에서 배제한다.(b4) Each of the calculated ratios of absolute values not exceeding the entry criterion constant is excluded from further processing. 제 7항에 있어서, 상대적 발현 스코어 공식화 단계는8. The method of claim 7, wherein formulating a relative expression score (b5) 상기 발현 스코어의 유전자에 대한 사실(史實)적으로 관찰된 최대 발현 신호에 대하여 상기 발현 스코어 각각을 개별적으로 표준화하는 단계를 추가로 포함하는 것으로 특징으로 하는 방법.(b5) further comprising individually normalizing each of said expression scores with respect to the maximally observed maximum expression signal for the gene of said expression scores. 제 6항에 있어서, 상대적 발현 스코어 공식화 단계는The method of claim 6, wherein the step of formulating a relative expression score is (b6) 상기 발현 스코어의 유전자에 대한 사실(史實)적으로 관찰된 최대 발현 신호에 대하여 상기 발현 스코어 각각을 개별적으로 표준화하는 단계를 추가로 포함하는 것으로 특징으로 하는 방법.(b6) separately normalizing each of said expression scores to the factually observed maximum expression signal for the gene of said expression scores. 제 1-9항중 어느 한 항에 있어서, 복합 스코어 계산 단계는 다음의 단계로 구성되는 것을 특징으로 하는 방법:10. The method of any one of claims 1-9, wherein the compound score calculation step consists of the following steps: (c1) 사전에 제거되지 않은 상대적 발현 스코어 모두를 축척하고;(c1) accumulate all relative expression scores that were not previously removed; (c2) 사전에 제거된 유전자의 퍼센트를 조정한다.(c2) Adjust the percentage of genes previously removed. 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법에 있어서,In the method for quantifying the relationship between the first gene expression profile and the second gene expression profile, (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에 공통적으로 나타나는 각 유전자에 대하여 제 1 발현 신호와 제 2 발현 신호를 만들고;(a) generating a first expression signal and a second expression signal for each gene common to the first gene expression profile and the second gene expression profile; (b) 상기 공통적으로 나타나는 유전자에 대한 일단의 쌍으로 된 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에서 선형회귀를 실시하고,(b) performing linear regression on the first and second gene expression signals in pairs for the commonly occurring genes, 여기서, 이런 회귀의 상관관계 계수는 두 유전자 프로파일의 관련성을 정량하는 것을 특징으로 하는 방법.Wherein the correlation coefficient of the regression quantifies the relevance of the two gene profiles. 제 11항에 있어서, 상기 유전자 발현 신호 발생 단계는 다음의 단계로 구성되는 것을 특징으로 하는 방법:The method of claim 11, wherein the gene expression signal generation step comprises the following steps: (a1) 각 유전자 각각에 대하여 획득한 초기 발현 신호의 크기와 이의 상대적 유전자 발현 프로파일에 대하여 획득한 초기 기본 신호의 크기를 비교하고;(a1) comparing the magnitude of the initial expression signal obtained for each gene with the magnitude of the initial basic signal obtained for its relative gene expression profile; (a2) 상대적 초기 기본 신호보다 작은 초기 발현 신호 각각의 크기를 조정한다.(a2) Adjust the magnitude of each of the initial expression signals smaller than the relative initial base signal. 제 12항에 있어서, 유전자 발현 신호 발생 단계는The method of claim 12, wherein the gene expression signal generation step (a3) 상대적 유전자 발현 프로파일에 대한 신호 전체에서 초기 발현 신호와 조정된 초기 발현 신호의 크기를 표준화하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.(a3) further comprising normalizing the magnitude of the initial expression signal and the adjusted initial expression signal throughout the signal for the relative gene expression profile. 제 13항에 있어서, 유전자 발현 신호 발생 단계는The method of claim 13, wherein the gene expression signal generation step (a4) 유전자 발현 신호 각각에 대한 수치로서 표준화된 신호의 대수를 지정하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.(a4) designating the logarithm of the normalized signal as a value for each gene expression signal. 제 14항에 있어서, 유전자 발현 신호 발생 단계는The method of claim 14, wherein the gene expression signal generation step (a5) 표준화된 로그 신호 각각에서, 조건-대응된 컨트롤로부터 상기 유전자에 대하여 획득된 동일하게 처리된 유전자 발현 신호를 공제하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.(a5) subtracting from each standardized log signal, the same processed gene expression signal obtained for the gene from the condition-matched control. 제 11항에 있어서, 제 1 유전자 발현 신호와 제 2 유전자 발현 신호의 크기에는 2 자연로그이하 크기의 신호가 포함되는 것을 특징으로 하는 방법.12. The method of claim 11, wherein the magnitude of the first gene expression signal and the second gene expression signal include signals of two or less natural logs. 제 16항에 있어서, 제 1 유전자 발현 신호와 제 2 유전자 발현 신호의 크기에는 1 자연로그이하 크기의 신호가 포함되는 것을 특징으로 하는 방법.17. The method of claim 16, wherein the magnitude of the first gene expression signal and the second gene expression signal include a signal of one natural log or less in size. 사전선택된 단일 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순위대로 배열하는 방법에 있어서,A method of arranging the relevance of a plurality of gene expression profiles to a preselected single gene expression profile, (a) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고;(a) quantifying the association of each of the plurality of gene expression profiles in pairs relative to the preselected gene expression profile; (b) 상기 한 쌍 단위로 측정된 양을 순위대로 정렬하는 것을 특징으로 하는 방법.(b) sorting the amounts measured in pairs in order of order. 세포에서 제 1 환경 조건과 제 2 환경조건의 관련성을 정량하는 방법에 있어서,In a method for quantifying the relationship between a first environmental condition and a second environmental condition in a cell, (a) 제 1 환경 조건과 제 2 환경조건중 한가지 조건하에 세포 또는 유전적으로 동일한 세포로부터 유전자 발현 프로파일을 구하고;(a) obtaining a gene expression profile from a cell or genetically identical cells under one of the first and second environmental conditions; (b) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 방법.(b) quantifying the association of the first gene expression profile with the second gene expression profile. 제 19항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 1항 내지 9항중 어느 한 항의 방법에 따라 실시하는 것을 특징으로 하는 방법.20. The method of claim 19, wherein quantifying the relevance of the gene expression profile is performed according to the method of any one of claims 1-9. 제 19항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 11항 내지 17항중 어느 한 항의 방법에 따라 실시하는 것을 특징으로 하는 방법.20. The method of claim 19, wherein quantifying the relevance of the gene expression profile is performed according to the method of any one of claims 11-17. 제 19항에 있어서, 제 1 환경 조건과 제 2 환경 조건은 제 1 화학적 화합물과 제 2 화학적 화합물에 세포를 노출시키는 것으로 구성되는 것을 특징으로 하는 방법.20. The method of claim 19, wherein the first and second environmental conditions consist of exposing the cell to a first chemical compound and a second chemical compound. 세포에서 사전선택된 환경 조건에 대한 복수의 유전자 환경 조건의 관련성을 순위대로 배열하는 방법에 있어서,A method of arranging the relevance of a plurality of genetic environmental conditions to a preselected environmental condition in a cell, (a) 세포 또는 유전적으로 동일한 세포로부터, 사전선택된 환경조건과 복수의 환경조건 각각에 대한 유전자 발현 프로파일을 구하고;(a) obtaining a gene expression profile for each of a preselected environmental condition and a plurality of environmental conditions from a cell or genetically identical cell; (b) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 정량하고;(b) quantifying the relevance of each of the plurality of gene expression profiles to the preselected gene expression profile; (c) 상기 한 쌍 단위로 측정된 양을 순위대로 정렬하는 것을 특징으로 하는 방법.(c) sorting the amounts measured in pairs in order of order. 제 23항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 1항의 방법에 따라 실시하는 것을 특징으로 하는 방법.24. The method of claim 23, wherein quantifying the relevance of the gene expression profile is performed according to the method of claim 1. 제 23항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 11항의 방법에 따라 실시하는 것을 특징으로 하는 방법.24. The method of claim 23, wherein quantifying the relevance of the gene expression profile is performed according to the method of claim 11. 제 23항에 있어서, 각 환경조건은 화학적 화합물에 세포를 노출시키는 것으로 구성되는 것을 특징으로 하는 방법.The method of claim 23, wherein each environmental condition consists of exposing the cell to a chemical compound. 세포에의 한정된 유전자 돌연변이에 대한 사전선택된 환경조건의 관련성을 정량하는 방법에 있어서,A method of quantifying the relevance of preselected environmental conditions to defined gene mutations in cells, (a) 한정된 돌연변이를 보유한 세포로부터 제 1 유전자 발현 프로파일을, 사전선택된 환경조건하의 야생형 세포로부터 제 2 유전자 발현 프로파일을 구하고;(a) obtaining a first gene expression profile from cells with defined mutations and a second gene expression profile from wild-type cells under preselected environmental conditions; (b) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 방법.(b) quantifying the association of the first gene expression profile with the second gene expression profile. 제 27항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 1항의 방법에 따라 실시하는 것을 특징으로 하는 방법.The method of claim 27, wherein quantifying the relevance of the gene expression profile is performed according to the method of claim 1. 제 27항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 11항의 방법에 따라 실시하는 것을 특징으로 하는 방법.The method of claim 27, wherein quantifying the relevance of the gene expression profile is performed according to the method of claim 11. 제 27항에 있어서, 사전선택된 환경조건은 화학적 화합물에 세포를 노출시키는 것으로 구성되는 것을 특징으로 하는 방법.28. The method of claim 27, wherein the preselected environmental conditions consist of exposing the cell to a chemical compound. 한정된 유전자 돌연변이에 대하여 복수의 환경 조건 각각의 관련성을 순위대로 배열하는 방법에 있어서,In a method of arranging the relevance of each of a plurality of environmental conditions in order to a limited gene mutation, (a) 복수의 환경조건중 한가지 조건하의 아생형 세포로부터 일단의 제 1 유전자 발현 프로파일을, 한정된 돌연변이를 보유한 세포로부터 제 2 유전자 발현 프로파일을 구하고;(a) obtaining a first set of first gene expression profiles from subgenous cells under one of a plurality of environmental conditions, and a second gene expression profile from cells with defined mutations; (b) 제 2 유전자 발현 파일에 대하여 제 1 유전자 프로파일 각각의 관련성을 한 쌍 단위로 정량하고;(b) quantifying the association of each of the first gene profiles in pairs relative to the second gene expression file; (c) 상기 한 쌍 단위로 측정된 양을 순위대로 정렬하는 것을 특징으로 하는 방법.(c) sorting the amounts measured in pairs in order of order. 제 31항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 1항의 방법에 따라 실시하는 것을 특징으로 하는 방법.32. The method of claim 31, wherein quantifying the relevance of the gene expression profile is performed according to the method of claim 1. 제 31항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 11항의 방법에 따라 실시하는 것을 특징으로 하는 방법.32. The method of claim 31, wherein quantifying the relevance of the gene expression profile is performed according to the method of claim 11. 제 31항에 있어서, 각 환경조건은 화학적 화합물에 세포를 노출시키는 것으로 구성되는 것을 특징으로 하는 방법.32. The method of claim 31, wherein each environmental condition consists of exposing the cell to a chemical compound. 세포의 제 2 유전자 돌연변이에 대한 세포의 제 1 유전자 돌연변이의 관련성을 정량하는 방법에 있어서,A method for quantifying the relevance of a cell's first gene mutation to a cell's second gene mutation, (a) 제 1 유전자 돌연변이를 보유한 세포로부터 제 1 유전자 발현 프로파일을, 제 2 유전자 돌연변이를 보유한 세포로부터 제 2 유전자 발현 프로파일을 구하고;(a) obtaining a first gene expression profile from a cell carrying a first gene mutation and a second gene expression profile from a cell carrying a second gene mutation; (b) 제 1 발현 프로파일과 제 2 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 방법.(b) quantifying the relationship between the first expression profile and the second expression profile. 제 35항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 1항의 방법에 따라 실시하는 것을 특징으로 하는 방법.36. The method of claim 35, wherein quantifying the relevance of the gene expression profile is performed according to the method of claim 1. 제 35항에 있어서, 유전자 발현 프로파일의 관련성을 정량하는 단계는 제 11항의 방법에 따라 실시하는 것을 특징으로 하는 방법.36. The method of claim 35, wherein quantifying the relevance of the gene expression profile is performed according to the method of claim 11. 세포의 사전선택된 유전자 돌연변이에 대하여 복수의 유전자 돌연변이 각각의 관련성을 순위대로 정렬하는 방법에 있어서,A method of sorting the relevance of each of a plurality of gene mutations in order to a preselected gene mutation in a cell, (a) 복수의 유전자 돌연변이중 하나를 보유한 각 세포로부터 일단의 제 1 유전자 발현 프로파일을, 사전선택된 돌연변이를 보유한 세포로부터 제 2 유전자 발현 프로파일을 구하고;(a) obtaining a set of first gene expression profiles from each cell carrying one of the plurality of gene mutations and a second gene expression profile from cells carrying a preselected mutation; (b) 제 2 유전자 발현 파일에 대하여 제 1 유전자 프로파일 각각의 관련성을 한 쌍 단위로 정량하고;(b) quantifying the association of each of the first gene profiles in pairs relative to the second gene expression file; (c) 상기 한 쌍 단위로 측정된 양을 순위대로 정렬하는 것을 특징으로 하는 방법.(c) sorting the amounts measured in pairs in order of order. 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하기 위한 시스템에 있어서, 상기 시스템은A system for quantifying the relevance of a first gene expression profile to a second gene expression profile, wherein the system is (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들기 위한 수단;(a) means for producing a first gene expression signal and a second gene expression signal for each gene that appears in common in the first gene expression profile and the second gene expression profile; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에 대한 상대적 발현 스코어를 공식화하는 수단;(b) means for formulating a relative expression score for the first gene expression signal and the second gene expression signal; (c) 한 쌍 단위의 상대적 발현 스코어로부터 복합 스코어를 계산하는 수단으로 구성되고, 여기서, 상기 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 시스템.(c) means for calculating a composite score from a pair of relative expression scores, wherein the composite score quantifies the relevance of two gene expression profiles. 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 시스템에 있어서, 상기 시스템은A system for quantifying the relevance of a first gene expression profile to a second gene expression profile, wherein the system is (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들기 위한 수단;(a) means for producing a first gene expression signal and a second gene expression signal for each gene that appears in common in the first gene expression profile and the second gene expression profile; (b) 공통적으로 나타나는 유전자에 대한 여러 쌍의 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에서 선형 회귀를 실시하는 수단으로 구성되고,(b) means for performing linear regression on the pair of first and second gene expression signals for commonly occurring genes, 여기서, 이런 회귀의 상관관계 계수는 두 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 시스템.Wherein the correlation coefficient of the regression quantifies the relevance of the two gene expression profiles. 단일 사전선택된 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순위대로 정렬하기 위한 시스템에 있어서, 상기 시스템은A system for ranking the relevance of a plurality of gene expression profiles to a single preselected gene expression profile, the system comprising (a) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하는 수단;(a) means for quantifying the association of each of the plurality of gene expression profiles in pairs relative to the preselected gene expression profile; (b) 한쌍 단위-측정된 양을 순위대로 정렬하는 수단으로 구성되는 것을 특징으로 하는 방법.(b) means for sorting the paired unit-measured quantities in order. 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 컴퓨터 시스템에 있어서, 상기 컴퓨터 시스템은A computer system for quantifying the relevance of a first gene expression profile to a second gene expression profile, the computer system comprising (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통적으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고;(a) generating a first gene expression signal and a second gene expression signal for each gene that appears in common in the first gene expression profile and the second gene expression profile; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호의 각 쌍에 대하여 상대적인 발현 스코어를 공식화하고;(b) formulate a relative expression score for each pair of first and second gene expression signals; (c) 한 쌍-단위의 상대적 발현 스코어로부터 복합 스코어를 계산하도록 프로그램된 프로세서로 구성되고,(c) a processor programmed to calculate a composite score from the relative expression score of a pair-unit, 여기서, 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 시스템.Wherein the composite score quantifies the relevance of two gene expression profiles. 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 컴퓨터 시스템에 있어서, 상기 컴퓨터 시스템은A computer system for quantifying the relevance of a first gene expression profile to a second gene expression profile, the computer system comprising (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에서 공통적으로 나타나는 각 유전자에 대하여 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고;(a) generating a first gene expression signal and a second gene expression signal for each gene that appears in common in the first gene expression profile and the second gene expression profile; (b) 공통적으로 나타나는 유전자에 대한 여러 쌍의 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에서 선형 회귀를 실시하도록 프로그램된 프로세서로 구성되고, 여기서, 이런 회귀의 상관관계 계수는 두 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 시스템.(b) a processor programmed to perform linear regression on several pairs of first and second gene expression signals for commonly occurring genes, wherein the correlation coefficients of these regressions are determined by two gene expression profiles. A system characterized by quantifying relevance. 사전선택된 단일 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순위대로 배열하는 컴퓨터 시스템에 있어서, 상기 컴퓨터 시스템은A computer system for arranging the relevance of a plurality of gene expression profiles to a preselected single gene expression profile, the computer system (a) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고;(a) quantifying the association of each of the plurality of gene expression profiles in pairs relative to the preselected gene expression profile; (b) 이들 한 쌍 단위-측정된 양을 순위대로 정렬하도록 프로그램된 프로세서로 구성되는 것을 특징으로 하는 시스템.(b) a processor configured to sort the paired unit-measured quantities in rank order. 명령을 저장하는 컴퓨터 판독가능 저장 매체에 있어서, 상기 명령이 컴퓨터에 의해 실행되면 컴퓨터는 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법을 실행하고, 상기 방법은A computer readable storage medium storing instructions, wherein when the instructions are executed by a computer, the computer executes a method for quantifying the association of the first gene expression profile with the second gene expression profile. (a) 제 1 유전자 발현 프로파일과 제 1 유전자 발현 프로파일에서 공통적으로 나타내는 각 유전자에 대한 제 1 유전자 발현 신호와 제 2 유전자 발현 신호를 만들고;(a) generating a first gene expression signal and a second gene expression signal for each gene in common in the first gene expression profile and the first gene expression profile; (b) 제 1 유전자 발현 신호와 제 2 유전자 발현 신호 각 쌍에 대한 상대적 발현 스코어를 공식화하고;(b) formulating relative expression scores for each pair of first and second gene expression signals; (c) 상기 한 쌍 단위의 상대적 발현 스코어로부터 복합 스코어를 계산하고,(c) calculating a composite score from the pair of relative expression scores, 여기서, 상기 복합 스코어는 두 유전자 발현 프로파일의 관련성을 정량하는 것을 특징으로 하는 저장 매체.Wherein said composite score quantifies the relevance of two gene expression profiles. 명령을 저장하는 컴퓨터 판독가능 저장 매체에 있어서, 상기 명령이 컴퓨터에 의해 실행되면 컴퓨터는 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법을 실행하고, 상기 방법은A computer readable storage medium storing instructions, wherein when the instructions are executed by a computer, the computer executes a method for quantifying the association of the first gene expression profile with the second gene expression profile. (a) 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일에 공통적으로 나타나는 각 유전자에 대하여 제 1 발현 신호와 제 2 발현 신호를 만들고;(a) generating a first expression signal and a second expression signal for each gene common to the first gene expression profile and the second gene expression profile; (b) 상기 공통적으로 나타나는 유전자에 대한 일단의 쌍으로 된 제 1 유전자 발현 신호와 제 2 유전자 발현 신호에서 선형회귀를 실시하고,(b) performing linear regression on the first and second gene expression signals in pairs for the commonly occurring genes, 여기서, 이런 회귀의 상관관계 계수는 두 유전자 프로파일의 관련성을 정량하는 것을 특징으로 하는 저장매체.Here, the correlation coefficient of the regression storage medium, characterized in that to quantify the relationship between the two gene profiles. 명령을 저장하는 컴퓨터 판독가능 저장 매체에 있어서, 상기 명령이 컴퓨터에 의해 실행되면 컴퓨터는 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일의 관련성을 정량하는 방법을 실행하고, 상기 방법은A computer readable storage medium storing instructions, wherein when the instructions are executed by a computer, the computer executes a method for quantifying the association of the first gene expression profile with the second gene expression profile. (a) 사전선택된 유전자 발현 프로파일에 대하여 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고;(a) quantifying the association of each of the plurality of gene expression profiles in pairs relative to the preselected gene expression profile; (b) 상기 한 쌍 단위로 측정된 양을 순위대로 정렬하는 것을 특징으로 하는 저장 매체.(b) storage medium, characterized in that the ordered quantity measured in pairs. 제 1 유전자 발현 프로파일과 제 2 유전자 발현 프로파일을 정량으로 관련시키는 데이터를 저장하도록 형성된 데이터 구조를 보유한 컴퓨터 판독가능 저장 매체에 있어서, 상기 데이터 구조는 발현 프로파일 각각에 대한 동조기와 스칼라로 구성되고, 상기 스칼라는 제 1 유전자 발현 프로파일과 제 2 발현 프로파일을 정량적으로 관련시키는 것을 특징으로 하는 저장매체.A computer readable storage medium having a data structure configured to store data quantitatively relating a first gene expression profile and a second gene expression profile, the data structure comprising a tuner and a scalar for each expression profile, wherein Scalar quantitatively correlates a first gene expression profile with a second expression profile. 사전선택된 단일 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일의 관련성을 순서대로 정렬시키는 데이터를 저장하도록 형성된 데이터 구조를 보유한 컴퓨터 판독가능 저장 매체에 있어서,A computer readable storage medium having a data structure configured to store data in order of relevance of a plurality of gene expression profiles to a preselected single gene expression profile, (a) 스칼라의 순서화된 목록, 각 스칼라는 사전선택된 유전자 발현 프로파일에 대한 복수의 유전자 발현 프로파일 각각의 관련성을 한 쌍 단위로 정량하고;(a) an ordered list of scalars, each scalar quantifying the association of each of a plurality of gene expression profiles to a preselected gene expression profile in pairs; (b) 각 스칼라와 각각의 유전자 발현 프로파일을 연계시키는 동조기로 구성되는 것을 특징으로 하는 저장매체.(b) a storage medium comprising a tuner that associates each scalar with a respective gene expression profile. 발현 분석을 위한 유전자의 유익한 부분집합을 선별하는 방법에 있어서, 발현이 연관된 각 유전자군에서 최대 발현 범위를 보유한 유전자를 선별하는 것을 특징으로 하는 방법.A method of selecting a beneficial subset of genes for expression analysis, characterized in that the gene having the maximum expression range is selected from each gene group to which expression is associated. 제 50항에 있어서, 상기 선별은 복수의 유전자 발현 프로파일에서 공통적으로 나타나는 일단의 유전자에서 실시되는 것을 특징으로 하는 방법.51. The method of claim 50, wherein said screening is performed on a group of genes that are common to a plurality of gene expression profiles. 제 51항에 있어서, 각 범위와 각 상관관계는 복수의 유전자 발현 프로파일상의 발현 데이터로부터 계산되는 것을 특징으로 하는 방법.The method of claim 51, wherein each range and each correlation is calculated from expression data on a plurality of gene expression profiles. 제 52항에 있어서, 범위는 최대 발현 대 최소 발현의 비율로 계산되는 것을 특징으로 하는 방법.The method of claim 52, wherein the range is calculated as the ratio of maximum expression to minimum expression. 제 52항에 있어서, 선별 단계는The method of claim 52, wherein the screening step (a) 복수의 유전자 발현 프로파일에서 공통적으로 나타나는 일단의 유전자를 발현가능한 범위상의 최대에서 최소의 순위로 배열하고;(a) arranging a group of genes that appear in common in a plurality of gene expression profiles, from highest to lowest in the range of expression; (b) 복수의 유전자 발현 프로파일에서 발현이 연관된 각 유전자군에서 최대 발현 범위를 보유한 유전자를 선택하는 것으로 구성되는 것을 특징으로 하는 방법.(b) selecting a gene having a maximum expression range in each gene group to which expression is associated in the plurality of gene expression profiles. 제 53항에 있어서, 선택 단계는 다음의 단계를 연속적으로 반복하는 것으로 구성되는 것을 특징으로 하는 방법:54. The method of claim 53, wherein the selecting step consists in successively repeating the following steps: (b1) 제 1 부분집합에 대하여, 아직 선택되지 않은 순위 배열된 세트에 남아있는 제 1 유전자를 선별하고;(b1) selecting, for the first subset, the first gene remaining in the rank ordered set that has not yet been selected; (b2) 복수의 유전자 발현 프로파일로부터, 선별된 유전자의 발현에 대한 상기 순위 배열된 세트내 각 유전자의 발현의 상관관계를 계산하고;(b2) calculating, from a plurality of gene expression profiles, a correlation of expression of each gene in said rank ordered set to expression of selected genes; (b3) 상기 순위 배열된 세트로부터, 진입기준 수치를 초과하는 상관관계를 보이는 모든 유전자를 제외시키다.(b3) Exclude all genes that show correlations above the entry criterion value from the rank ordered set. 제 53항에 있어서, 순위 배열 단계는 진입기준 수치보다 작은 범위의 모든 유전자를 제거하는 선행단계를 추가로 포함하는 것을 특징으로 하는 특징으로 하는 방법.54. The method of claim 53, wherein the ranking step further comprises a preceding step of removing all genes in a range less than the entry criterion value. 발현 분석을 위한 유전자의 유익한 부분집합을 선별하는 시스템에 있어서, 발현이 연관된 각 유전자군에서 최대 발현 범위를 보유한 유전자를 선별하는 수단으로 구성되는 것을 특징으로 하는 시스템.A system for selecting a beneficial subset of genes for expression analysis, the system comprising means for selecting genes having the maximum expression range in each gene group with which expression is associated. 발현 분석을 위한 유전자의 유익한 부분집합을 선별하는 컴퓨터 시스템에 있어서, 발현이 연관된 각 유전자군에서 최대 발현 범위를 보유한 유전자를 선별하도록 프로그램된 프로세서로 구성되는 것을 특징으로 하는 컴퓨터 시스템.A computer system for selecting a beneficial subset of genes for expression analysis, the computer system comprising a processor programmed to select a gene having a maximum expression range in each gene group with which expression is associated. 명령을 저장하는 컴퓨터 판독가능 저장 매체에 있어서, 상기 명령이 컴퓨터에 의해 실행되면 컴퓨터는 발현 분석을 위한 유전자의 유익한 부분집합을 선별하는 방법을 실행하고, 상기 방법은 발현이 연관된 각 유전자군에서 최대 발현 범위를 보유한 유전자를 선별하는 것으로 구성되는 것을 특징으로 하는 저장매체.A computer readable storage medium for storing instructions, wherein when the instructions are executed by a computer, the computer executes a method of selecting a beneficial subset of genes for expression analysis, the method maximizing in each group of genes with which expression is associated. A storage medium comprising the selection of a gene having a range of expression. 발현 분석을 위한 유전자의 유익한 부분집합을 확인하는 데이터를 저장하도록 형성된 데이터 구조를 보유한 컴퓨터 판독가능 저장 매체에 있어서, 일단의 유전자 동조기로 구성되고, 선택적으로 유전자 기능의 설명서를 포함하는 것을 특징으로 하는 저장매체.A computer readable storage medium having a data structure configured to store data identifying beneficial subsets of genes for expression analysis, the computer readable storage medium comprising a set of gene tuners and optionally comprising instructions for gene function Storage medium. 세포 표현형 선별 방법에 있어서, 상기 방법은 발현 분석을 위한 세포의 발현가능한 유전자중에서 20%정도를 선별하는 것으로 구성되고,In the cell phenotypic selection method, the method consists in selecting about 20% of the expressable genes of the cell for expression analysis, 여기서, 상기 선별된 유전자의 동시 발현은 세포의 표현형을 충분히 한정하여, 상기 표현형이 다른 세포의 표현형과 정량적으로 연관되도록 하는 것을 특징으로 하는 방법.Wherein co-expression of the selected genes sufficiently limits the phenotype of the cell, such that the phenotype is quantitatively associated with the phenotype of other cells. 제 61항에 있어서, 세포의 발현가능한 유전자중 10%정도를 선별하는 것을 특징으로 하는 방법.62. The method of claim 61, wherein about 10% of the expressable genes of the cell are selected. 제 62항에 있어서, 세포의 발현가능한 유전자중 5%정도를 선별하는 것을 특징으로 하는 방법.63. The method of claim 62, wherein about 5% of the expressible genes of the cell are selected. 제 63항에 있어서, 세포의 발현가능한 유전자중 2%정도를 선별하는 것을 특징으로 하는 방법.64. The method of claim 63, wherein about 2% of the expressable genes of the cell are selected. 제 65항에 있어서, 세포의 발현가능한 유전자중 1%정도를 선별하는 것을 특징으로 하는 방법.66. The method of claim 65, wherein about 1% of the expressible genes of the cells are selected.
KR1020007012657A 1998-05-12 1999-05-11 Quantitative methods, systems and apparatuses for gene expression analysis KR20010052341A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7666898A 1998-05-12 1998-05-12
US9/076,668 1998-05-12
US29265799A 1999-04-15 1999-04-15
US9/292,657 1999-04-15
PCT/US1999/010387 WO1999058720A1 (en) 1998-05-12 1999-05-11 Quantitative methods, systems and apparatuses for gene expression analysis

Publications (1)

Publication Number Publication Date
KR20010052341A true KR20010052341A (en) 2001-06-25

Family

ID=26758353

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007012657A KR20010052341A (en) 1998-05-12 1999-05-11 Quantitative methods, systems and apparatuses for gene expression analysis

Country Status (8)

Country Link
EP (1) EP1076722A1 (en)
JP (1) JP2002514804A (en)
KR (1) KR20010052341A (en)
CN (1) CN1309722A (en)
AU (1) AU750975B2 (en)
CA (1) CA2331510A1 (en)
IL (1) IL139567A0 (en)
WO (1) WO1999058720A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829867B1 (en) * 2006-12-05 2008-05-16 한국전자통신연구원 Method for clustering gene using gene expression profile
KR100964181B1 (en) * 2007-03-21 2010-06-17 한국전자통신연구원 Clustering method of gene expressed profile using Gene Ontology and apparatus thereof

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6203987B1 (en) 1998-10-27 2001-03-20 Rosetta Inpharmatics, Inc. Methods for using co-regulated genesets to enhance detection and classification of gene expression patterns
US6950752B1 (en) 1998-10-27 2005-09-27 Rosetta Inpharmatics Llc Methods for removing artifact from biological profiles
US6468476B1 (en) 1998-10-27 2002-10-22 Rosetta Inpharmatics, Inc. Methods for using-co-regulated genesets to enhance detection and classification of gene expression patterns
US6453241B1 (en) 1998-12-23 2002-09-17 Rosetta Inpharmatics, Inc. Method and system for analyzing biological response signal data
US6801859B1 (en) 1998-12-23 2004-10-05 Rosetta Inpharmatics Llc Methods of characterizing drug activities using consensus profiles
US6370478B1 (en) 1998-12-28 2002-04-09 Rosetta Inpharmatics, Inc. Methods for drug interaction prediction using biological response profiles
US6960439B2 (en) 1999-06-28 2005-11-01 Source Precision Medicine, Inc. Identification, monitoring and treatment of disease and characterization of biological condition using gene expression profiles
US6692916B2 (en) 1999-06-28 2004-02-17 Source Precision Medicine, Inc. Systems and methods for characterizing a biological condition or agent using precision gene expression profiles
WO2001029268A2 (en) * 1999-10-18 2001-04-26 Curagen Corporation Method for identifying interacting gene products
CA2397391A1 (en) * 2000-01-14 2001-07-19 Integriderm, L.L.C. Informative nucleic arrays and methods for making same
KR20030017459A (en) * 2000-03-09 2003-03-03 예일 유니버시티 Phytomics: a genomic-based approach to herbal compositions
US7363165B2 (en) 2000-05-04 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Significance analysis of microarrays
US7054755B2 (en) 2000-10-12 2006-05-30 Iconix Pharmaceuticals, Inc. Interactive correlation of compound information and genomic information
US6691042B2 (en) 2001-07-02 2004-02-10 Rosetta Inpharmatics Llc Methods for generating differential profiles by combining data obtained in separate measurements
GB0117631D0 (en) * 2001-07-19 2001-09-12 Syngenta Ltd Improvements in or relating to organic compounds
CN102402650A (en) 2001-11-09 2012-04-04 生命技术公司 Identification, monitoring and treatment of disease and characterization of biological condition using gene expression profiles
WO2003091450A1 (en) * 2002-04-24 2003-11-06 Azign Bioscience A/S Method for evaluating a therapeutic potential of a chemical entity
FR2840323B1 (en) * 2002-05-31 2006-07-07 Centre Nat Rech Scient METHOD OF ANALYZING TRANSCRIPTION VARIATIONS IN A GENE SET
US7588892B2 (en) 2004-07-19 2009-09-15 Entelos, Inc. Reagent sets and gene signatures for renal tubule injury
US7467118B2 (en) 2006-01-12 2008-12-16 Entelos Inc. Adjusted sparse linear programming method for classifying multi-dimensional biological data
KR101394339B1 (en) * 2012-03-06 2014-05-13 삼성에스디에스 주식회사 System and method for processing genome sequence in consideration of seed length
EP4156194A1 (en) * 2014-01-14 2023-03-29 Fabric Genomics, Inc. Methods and systems for genome analysis
CN108664769B (en) * 2017-03-31 2021-09-21 中国科学院上海营养与健康研究所 Drug relocation method based on cancer genome and non-specific gene tag
CN107723343B (en) * 2017-11-28 2021-03-23 宜昌美光硅谷生命科技股份有限公司 Method for quantitative analysis of gene
CN109935341B (en) * 2019-04-09 2021-04-13 北京深度制耀科技有限公司 Method and device for predicting new drug indication
CN113539366A (en) * 2020-04-17 2021-10-22 中国科学院上海药物研究所 Information processing method and device for predicting drug target
CN112687370B (en) * 2020-12-28 2023-12-22 北京博奥晶方生物科技有限公司 Electronic prescription generation method and device and electronic equipment

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3509100B2 (en) * 1993-01-21 2004-03-22 プレジデント アンド フェローズ オブ ハーバード カレッジ Method for measuring toxicity of compound utilizing mammalian stress promoter and diagnostic kit
US5777888A (en) * 1995-08-09 1998-07-07 Regents Of The University Of California Systems for generating and analyzing stimulus-response output signal matrices
US5569588A (en) * 1995-08-09 1996-10-29 The Regents Of The University Of California Methods for drug screening
WO1997013877A1 (en) * 1995-10-12 1997-04-17 Lynx Therapeutics, Inc. Measurement of gene expression profiles in toxicity determination
US6156502A (en) * 1995-12-21 2000-12-05 Beattie; Kenneth Loren Arbitrary sequence oligonucleotide fingerprinting

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829867B1 (en) * 2006-12-05 2008-05-16 한국전자통신연구원 Method for clustering gene using gene expression profile
KR100964181B1 (en) * 2007-03-21 2010-06-17 한국전자통신연구원 Clustering method of gene expressed profile using Gene Ontology and apparatus thereof

Also Published As

Publication number Publication date
CN1309722A (en) 2001-08-22
JP2002514804A (en) 2002-05-21
CA2331510A1 (en) 1999-11-18
EP1076722A1 (en) 2001-02-21
AU4075199A (en) 1999-11-29
WO1999058720A1 (en) 1999-11-18
AU750975B2 (en) 2002-08-01
IL139567A0 (en) 2002-02-10

Similar Documents

Publication Publication Date Title
KR20010052341A (en) Quantitative methods, systems and apparatuses for gene expression analysis
Bock et al. High-content CRISPR screening
DE69632716T2 (en) METHOD FOR DRUG TESTING
US5777888A (en) Systems for generating and analyzing stimulus-response output signal matrices
US6300078B1 (en) Computer system and method for determining a number of primary targets of a drug
KR20010053030A (en) Methods of monitoring disease states and therapies using gene expression profiles
US6326140B1 (en) Systems for generating and analyzing stimulus-response output signal matrices
Lopez et al. Feature extraction and signal processing for nylon DNA microarrays
Tran et al. Assessing yeast cell survival following hydrogen peroxide exposure
Ness Basic microarray analysis: strategies for successful experiments
US10174312B2 (en) Screening method for drug target gene using heterozygous deletion fission yeast strain
Cotsapas et al. Genetic dissection of gene regulation in multiple mouse tissues
Lockhart et al. DNA arrays and gene expression analysis in the brain
JP3669511B2 (en) System for generation and analysis of stimulus-response output signal matrix
Prasad et al. Identifying genes responsible for shoot development in Arabidopsis thaliana using microarray technique
Thomas et al. Statistical analysis of microarray data with replicated spots: a case study with Synechococcus WH8102
Timm et al. Targeted isolation and characterization of T-DNA mutants defective in photorespiration
Braam et al. Expression profiling in cardiovascular disease using microarrays
Wang et al. Development and application of transcriptomics technologies in plant science
Carrano et al. Key ingredients for efficient high throughput screening
Miertus et al. Key Ingredients for Efficient High-Throughput Screening Lucia Carrano and Stefano Donadio
Henderson Multivariate analysis of quantitative trait loci influencing variation in anxiety-related behavior in laboratory mice
Kuś qBio 2019
Daskalakis Optimization of cDNA microarray image analysis methods
Hagedorn Approaches to systems biology. Four methods to study single-cell gene expression, cell motility, antibody reactivity, and respiratory metabolism

Legal Events

Date Code Title Description
N231 Notification of change of applicant
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid