KR20180036622A - Apparatus and method for integrated analysis of gene expression omnibus's gene expression data - Google Patents

Apparatus and method for integrated analysis of gene expression omnibus's gene expression data Download PDF

Info

Publication number
KR20180036622A
KR20180036622A KR1020170127845A KR20170127845A KR20180036622A KR 20180036622 A KR20180036622 A KR 20180036622A KR 1020170127845 A KR1020170127845 A KR 1020170127845A KR 20170127845 A KR20170127845 A KR 20170127845A KR 20180036622 A KR20180036622 A KR 20180036622A
Authority
KR
South Korea
Prior art keywords
data
gene expression
geo
phenotype
value
Prior art date
Application number
KR1020170127845A
Other languages
Korean (ko)
Other versions
KR102099166B1 (en
Inventor
김홍기
임진묵
김필종
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Publication of KR20180036622A publication Critical patent/KR20180036622A/en
Application granted granted Critical
Publication of KR102099166B1 publication Critical patent/KR102099166B1/en

Links

Images

Classifications

    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G06F19/26
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to an apparatus for integrated analysis processing of gene expression data and a method thereof. The apparatus for integrated analysis processing according to one embodiment of the present invention comprises: a gene expression omnibus (GEO) data processing portion for collecting GEO data, and classifying the collected GEO data into phenotype data, gene expression value data, and gene expression data including a GEO platform (GPL); a phenotype data conversion portion for standardizing the expression data based on a feature word of the phenotype data; a gene expression data conversion portion for normalizing the gene expression value data included in the gene expression data; a data group generating portion for classifying the standardized phenotype data and the normalized gene expression data into a plurality of data groups; and a data analysis portion for analyzing the classified data groups and outputting analysis results.

Description

유전자 발현 데이터의 통합 분석 처리 장치 및 그 방법{APPARATUS AND METHOD FOR INTEGRATED ANALYSIS OF GENE EXPRESSION OMNIBUS'S GENE EXPRESSION DATA}[0001] APPARATUS AND METHOD FOR INTEGRATED ANALYSIS OF GENE EXPRESSION OMNIBUS'S GENE EXPRESSION DATA [0002]

본 발명은 유전자 발현 데이터의 통합 분석 처리 장치 및 그 방법에 관한 기술로서, 구체적으로는 유전자 발현 데이터를 통합하여 사용자에게 제공하는 기술적 사상에 관한 것이다.TECHNICAL FIELD [0001] The present invention relates to an apparatus and method for integrated analysis processing of gene expression data, and more particularly, to a technical idea of integrating gene expression data and providing the same to a user.

생명정보학에서 연구를 통하여 생성된 데이터를 저장 및 관리하는 데이터베이스 중 가장 유명한 데이터베이스로 GEO(Gene Expression Omnibus)가 있다. GEO (Gene Expression Omnibus) is the most famous database for storing and managing data generated through research in bioinformatics.

그러나, GEO의 홈페이지에 저장되어 있는 GEO 데이터는 각 연구자들이 검수 과정 없이 데이터를 저장하기 때문에 저장된 데이터의 구조가 각 데이터 별로 상이하다. 따라서, GEO 데이터를 연구자가 직접 다운로드하는 경우에, 데이터 분석을 위한 과도한 노력을 필요로 한다.However, since GEO data stored in the GEO homepage stores data without examination process, the structure of stored data differs for each data. Therefore, when the GEO data is directly downloaded by the researcher, it requires an excessive effort to analyze the data.

또한, GEO 분석을 위한 사이트를 활용하는 경우에, 각 연구자들이 저장한 데이터의 성격에 따라서 데이터 분석이 힘들 수 있고, 단일 세트에 대해서만 분석이 가능하므로 여러 데이터를 한번에 분석할 수 없으며, 연구자들이 미리 지정해 둔 데이터에 대해서만 분석 가능하다는 한계를 가지고 있다.In addition, when using the site for GEO analysis, it is difficult to analyze the data according to the nature of the data stored by each researcher, and since only one set can be analyzed, various data can not be analyzed at once, It has the limitation that it is possible to analyze only the data that is specified.

한국공개특허 제10-2016-0045617호 "miRNA 및 mRNA 발현 데이터를 통합 분석하는 방법 및 장치"Korean Patent Publication No. 10-2016-0045617 "Method and Apparatus for Integrated Analysis of miRNA and mRNA Expression Data"

본 발명은, GEO의 목록만을 가지고 통합된 GEO 데이터를 생성하여 유전체 발현 데이터의 분석을 위한 결과 데이터를 용이하게 획득할 수 있는 기술을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a technique capable of easily acquiring result data for analyzing genome expression data by generating integrated GEO data only with a list of GEOs.

또한, 본 발명은, TCGA 데이터와의 통합 분석을 제공함으로써 데이터 활용의 다양성을 향상시킬 수 있는 기술을 제공하는 것을 목적으로 한다.It is also an object of the present invention to provide a technique capable of improving diversity of data utilization by providing integrated analysis with TCGA data.

본 발명의 일실시예에 따른 통합 분석 처리 장치는 GEO(Gene Expression Omnibus) 데이터를 수집하고, 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분하는 GEO 데이터 처리부와, 표현형 데이터의 핵심어(Feature Word)에 기초하여 표현형 데이터를 표준화하는 표현형 데이터 변환부와, 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화하는 유전자 발현형 데이터 변환부와 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분하는 데이터 그룹 생성부 및 구분된 데이터 그룹을 분석하여 분석 결과를 출력하는 데이터 분석부를 포함한다.The integrated analysis processing apparatus according to an embodiment of the present invention collects GEO (Gene Expression Omnibus) data, converts the collected GEO data into expression data, gene expression value data, and gene expression data including GPL (GEO Platform) A genotype data conversion unit for normalizing gene expression value data included in the gene expression type data, a genotype expression data conversion unit for normalizing the gene expression value data included in the gene expression type data, A data group generation unit for classifying standardized phenotype data and normalized gene expression type data into a plurality of data groups, and a data analysis unit for analyzing the divided data groups and outputting analysis results.

일측에 따르면, GEO 데이터 처리부는 GSE 번호(GEO Series Number)에 기초하여 GEO 데이터를 수집하고, 수집된 GEO 데이터에서 표현형 데이터는 환자의 나이, 성별, 조직 위치 및 조직 상태 중에서 적어도 하나를 포함하고, 유전자 발현값 데이터는 mRNA의 발현량을 포함하며, GPL(GEO Platform)은 유전자 발현값 데이터의 탐지자(Probe)를 생물학적 기호로 변환할 수 있다. According to one aspect, the GEO data processing unit collects GEO data based on the GEO series number, and in the collected GEO data, the phenotype data includes at least one of the patient's age, gender, tissue location and tissue status, The gene expression value data includes the expression amount of the mRNA, and the GPL (GEO Platform) can convert the probe of gene expression value data into a biological symbol.

일측에 따르면, 표현형 데이터 변환부는 표현형 데이터에서 핵심어(Feature Word)와 값(Value)을 분리하고, 분리된 핵심어 및 값에 기초하여 표현형 데이터를 정형화된 데이터 형태로 변환하는 표준화를 수행할 수 있다. According to one aspect, the phenotype data conversion unit can perform standardization for separating a feature word from a value in a phenotype data, and converting the phenotype data into a formalized data form based on separated key words and values.

일측에 따르면, 표현형 데이터 변환부는 표현형 데이터를 표준화하기 위하여 참고하는 데이터가 저장된 표현형 데이터베이스를 포함하고, 표현형 데이터베이스는 대표핵심어-유사어 데이터베이스, 대표값-유사값 데이터베이스 및 변환 스크립트 데이터베이스 중에서 적어도 하나를 포함할 수 있다.According to one aspect, the phenotype data conversion unit includes at least one of a representative key word-similarity database, a representative value-similarity value database, and a conversion script database, wherein the phenotype database includes a phenotype database storing data to be referred to for standardizing the phenotype data .

일측에 따르면, 유전자 발현형 데이터 변환부는 유전자 발현형 데이터에 포함된 탐지자(Probe) 이름을 탐지자 이름과 생물학적으로 공통적인 의미를 가진 유전자 이름들 중에서 기설정된 임계값 이상으로 활용되고 있는 유전자 이름을 기준으로 하여 변경하고, 변경된 탐지자 이름에 대응되는 각 유전자 발현값 데이터를 정규화할 수 있다. According to one aspect of the present invention, the gene expression type data conversion unit converts the name of the probe included in the gene expression data into the name of the gene that is used more than a preset threshold among the gene names having a biologically common meaning with the detector name , And normalize each gene expression value data corresponding to the changed detector name.

일측에 따르면, TCGA(The Cancer Genome Atlas) 데이터를 수집하고, 수집된 TCGA 데이터에 가상의 GSE 번호(GEO Series Number)를 부여하여 TCGA 데이터를 표현형 데이터의 형태 및 유전자 발현형 데이터의 형태 중 적어도 하나의 형태로 변환하는 TCGA 데이터 변환부를 더 포함할 수 있다. According to one aspect, TCGA (The Cancer Genome Atlas) data is collected, and a virtual GSE number (GEO Series Number) is given to the collected TCGA data to generate at least one of the form of expression data and the form of gene expression data And a TCGA data converting unit for converting the data into a form of a TCGA data.

일측에 따르면, 표현형 데이터 변환부는 표현형 데이터 형태의 TCGA 데이터를 수신하고, 표현형 데이터 형태의 TCGA 데이터와 GEO 데이터 처리부에서 수신한 표현형 데이터를 통합하며, 통합된 표현형 데이터를 표준화할 수 있다. According to one aspect, the phenotype data conversion unit receives the TCGA data of the phenotype data type, integrates the TCGA data of the phenotype data type and the phenotype data received by the GEO data processing unit, and can standardize the integrated phenotype data.

일측에 따르면, 유전자 발현형 데이터 변환부는 유전자 발현형 데이터 형태의 TCGA 데이터를 수신하고, 유전자 발현형 데이터 형태의 TCGA 데이터와 GEO 데이터 처리부에서 수신한 유전자 발현형 데이터를 통합하며, 통합된 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화할 수 있다. According to one aspect, the gene expression type data conversion unit receives TCGA data in the form of gene expression data, integrates TCGA data in the form of gene expression data and gene expression data received in the GEO data processing unit, The gene expression value data included in the data can be normalized.

일측에 따르면, 데이터 그룹 생성부는 복수의 데이터 그룹으로 구분하기 위하여 P값(p-value)을 계산하는 통계 기법을 활용할 수 있다.According to one aspect, the data group generation unit may utilize a statistical technique for calculating a P value (p-value) in order to divide the data group into a plurality of data groups.

본 발명의 일실시예에 따른 통합 분석 처리 방법은 GEO 데이터 처리부에서 GEO(Gene Expression Omnibus) 데이터를 수집하고, 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분하는 단계와, 표현형 데이터 변환부에서 표현형 데이터의 핵심어(Feature Word)에 기초하여 표현형 데이터를 표준화하는 단계와, 유전자 발현형 데이터 변환부에서 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화하는 단계와 데이터 그룹 생성부에서 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분하는 단계 및 데이터 분석부에서 구분된 데이터 그룹을 분석하여 분석 결과를 출력하는 단계를 포함한다.The integrated analysis processing method according to an embodiment of the present invention collects GEO (Gene Expression Omnibus) data in a GEO data processing unit and converts the collected GEO data into expression data, gene expression value data, and GPL (GEO Platform) A step of standardizing the expression data based on a feature word of the expression data in a phenotype data conversion unit, a step of standardizing the expression data in a gene expression type data conversion unit, Value data, and a step of dividing the normalized expression data and the normalized gene expression type data into a plurality of data groups in the data group generation unit, and analyzing the data group separated in the data analysis unit and outputting the analysis result .

일측에 따르면, 표현형 데이터와 유전자 발현형 데이터로 구분하는 단계는 GSE 번호(GEO Series Number)에 기초하여 GEO 데이터 수집하고, 수집된 GEO 데이터에서 표현형 데이터는 환자의 나이, 성별, 조직 위치 및 조직 상태 중에서 적어도 하나를 포함하고, 유전자 발현값 데이터는 mRNA의 발현량을 포함하며, GPL(GEO Platform)은 유전자 발현값 데이터의 탐지자(Probe)를 생물학적 기호로 변환할 수 있다. According to one aspect, the step of distinguishing between phenotype data and gene expression data collects GEO data based on the GSE number (GEO Series Number), and in the collected GEO data, the phenotype data includes the patient's age, sex, , The gene expression value data includes the expression amount of mRNA, and the GPL (GEO Platform) can convert a probe of gene expression value data into a biological symbol.

일측에 따르면, TCGA 데이터 변환부에서 TCGA(The Cancer Genome Atlas) 데이터를 수집하고, 수집된 TCGA 데이터에 가상의 GSE 번호(GEO Series Number)를 부여하여 TCGA 데이터를 표현형 데이터의 형태 및 유전자 발현형 데이터의 형태 중 적어도 하나의 형태로 변환하는 단계를 더 포함할 수 있다. According to one aspect, the TCGA data conversion unit collects the Cancer Genome Atlas (TCGA) data, gives a virtual GSE number (GEO Series Number) to the collected TCGA data, and stores TCGA data in the form of expression data and gene expression data Into a form of at least one of the following.

일측에 따르면, 표현형 데이터를 표준화하는 단계는 표현형 데이터 형태의 TCGA 데이터를 수신하고, 표현형 데이터 형태의 TCGA 데이터와 GEO 데이터 처리부에서 수신한 표현형 데이터를 통합하며, 통합된 표현형 데이터를 표준화할 수 있다.According to one aspect, the step of standardizing the phenotype data includes receiving the TCGA data of the phenotype data type, integrating the TCGA data of the phenotype data type and the phenotype data received by the GEO data processing section, and standardizing the integrated phenotype data.

일측에 따르면, 유전자 발현값 데이터를 정규화하는 단계는 유전자 발현형 데이터 형태의 TCGA 데이터를 수신하고, 유전자 발현형 데이터 형태의 TCGA 데이터와 GEO 데이터 처리부에서 수신한 유전자 발현형 데이터를 통합하며, 통합된 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화할 수 있다.According to one aspect, the step of normalizing gene expression value data includes receiving TCGA data in the form of gene expression data, integrating TCGA data in the form of gene expression data and gene expression data received in the GEO data processing section, The gene expression value data included in the gene expression type data can be normalized.

일측에 따르면, 복수의 데이터 그룹으로 구분하는 단계는 복수의 데이터 그룹으로 구분하기 위하여 P값(p-value)을 계산하는 통계 기법을 활용할 수 있다.According to one aspect, the step of dividing into a plurality of data groups may utilize a statistical method of calculating a P value (p-value) to divide the data into a plurality of data groups.

일실시예에 따르면, GEO의 목록만을 가지고 통합된 GEO 데이터를 생성하여 유전체 발현 데이터의 분석을 위한 결과 데이터를 용이하게 획득할 수 있다. According to one embodiment, integrated GEO data can be generated with only a list of GEOs to easily obtain result data for analysis of genomic expression data.

또한, 일실시예에 따르면, TCGA 데이터와의 통합 분석을 제공함으로써 데이터 활용의 다양성을 향상시킬 수 있다.Also, according to one embodiment, the diversity of data utilization can be improved by providing an integrated analysis with TCGA data.

도 1은 본 발명의 일실시예에 따른 통합 분석 처리 장치를 도시하는 도면이다.
도 2는 본 발명의 일실시예에 따른 통합 분석 처리 장치의 GEO 데이터 처리부를 도시하는 도면이다.
도 3은 본 발명의 일실시예에 따른 통합 분석 처리 장치의 표현형 데이터 변환부를 도시하는 도면이다.
도 4는 본 발명의 일실시예에 따른 통합 분석 처리 장치의 유전자 발현형 데이터 변환부를 도시하는 도면이다.
도 5a 내지 도 5b는 본 발명의 일실시예에 따른 유전자 발현형 데이터 변환부에서 유전자 발현형 데이터를 정규화하는 실시예를 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따른 유전자 발현형 데이터 변환부에서 유전자 발현형 데이터의 탐지자 이름을 변환하는 실시예를 설명하기 위한 도면이다.
도 7a 내지 도 7c는 본 발명의 일실시예에 따른 통합 분석 처리 장치의 데이터 그룹 생성부에서 데이터 그룹을 구분하는 실시예를 설명하기 위한 도면이다.
도 8a 내지 도 8b은 본 발명의 일실시예에 따른 통합 분석 처리 장치의 데이터 분석부에서 분석 결과를 도출하는 실시예를 설명하기 위한 도면이다.
도 9는 본 발명의 다른 실시예에 따른 통합 분석 처리 장치를 도시하는 도면이다.
도 10은 본 발명의 일실시예에 따른 통합 분석 처리 방법을 도시하는 도면이다.
도 11은 본 발명의 다른 실시예에 따른 통합 분석 처리 방법을 도시하는 도면이다.
1 is a diagram showing an integrated analysis processing apparatus according to an embodiment of the present invention.
2 is a diagram showing a GEO data processing unit of an integrated analysis processing apparatus according to an embodiment of the present invention.
3 is a diagram showing a phenotype data conversion unit of an integrated analysis processing apparatus according to an embodiment of the present invention.
4 is a diagram showing a gene expression type data conversion unit of an integrated analysis processing apparatus according to an embodiment of the present invention.
5A and 5B are diagrams for explaining an embodiment of normalizing gene expression type data in a gene expression type data conversion unit according to an embodiment of the present invention.
6 is a diagram for explaining an embodiment for converting a name of a detector of gene expression type data in a gene expression type data conversion unit according to an embodiment of the present invention.
FIGS. 7A to 7C are diagrams for explaining an embodiment of dividing data groups in the data group generation unit of the integrated analysis processing apparatus according to an embodiment of the present invention.
8A and 8B are diagrams for explaining an embodiment for deriving an analysis result in a data analysis unit of an integrated analysis processing apparatus according to an embodiment of the present invention.
9 is a diagram showing an integrated analysis processing apparatus according to another embodiment of the present invention.
FIG. 10 is a diagram showing a method of integrated analysis processing according to an embodiment of the present invention.
11 is a diagram showing an integrated analysis processing method according to another embodiment of the present invention.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.It is to be understood that the specific structural or functional descriptions of embodiments of the present invention disclosed herein are presented for the purpose of describing embodiments only in accordance with the concepts of the present invention, May be embodied in various forms and are not limited to the embodiments described herein.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Embodiments in accordance with the concepts of the present invention are capable of various modifications and may take various forms, so that the embodiments are illustrated in the drawings and described in detail herein. However, it is not intended to limit the embodiments according to the concepts of the present invention to the specific disclosure forms, but includes changes, equivalents, or alternatives falling within the spirit and scope of the present invention.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.The terms first, second, or the like may be used to describe various elements, but the elements should not be limited by the terms. The terms may be named for the purpose of distinguishing one element from another, for example without departing from the scope of the right according to the concept of the present invention, the first element being referred to as the second element, Similarly, the second component may also be referred to as the first component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between. Expressions that describe the relationship between components, for example, "between" and "immediately" or "directly adjacent to" should be interpreted as well.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, the terms "comprises ", or" having ", and the like, are used to specify one or more of the features, numbers, steps, operations, elements, But do not preclude the presence or addition of steps, operations, elements, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning of the context in the relevant art and, unless explicitly defined herein, are to be interpreted as ideal or overly formal Do not.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. However, the scope of the patent application is not limited or limited by these embodiments. Like reference symbols in the drawings denote like elements.

도 1은 본 발명의 일실시예에 따른 통합 분석 처리 장치를 도시하는 도면이다.1 is a diagram showing an integrated analysis processing apparatus according to an embodiment of the present invention.

도 1을 참조하면, 일실시예에 따른 통합 분석 장치(100)는 GEO 데이터를 표현형 데이터와 유전자 발현형 데이터로 구분한다. 그리고, 표현형 데이터를 표준화하고 유전자 발현형 데이터를 정규화할 수 있다. Referring to FIG. 1, the integrated analysis apparatus 100 according to an embodiment divides GEO data into expression data and gene expression data. Then, the expression data can be standardized and the gene expression data can be normalized.

또한, 일실시예에 따른 통합 분석 장치(100)는 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분할 수 있다.In addition, the integrated analysis apparatus 100 according to an exemplary embodiment may classify the standardized phenotype data and the normalized gene expression type data into a plurality of data groups.

이를 위해, GEO 데이터 처리부(110), 표현형 데이터 변환부(120), 유전자 발현형 데이터 변환부(130), 데이터 그룹 생성부(140) 및 데이터 분석부(150)를 포함할 수 있다. For this, a GEO data processing unit 110, a phenotype data conversion unit 120, a gene expression type data conversion unit 130, a data group generation unit 140, and a data analysis unit 150 may be included.

먼저, 일실시예에 따른 GEO 데이터 처리부(110)는 GEO(Gene Expression Omnibus) 데이터를 수집하고, 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분할 수 있다. First, the GEO data processing unit 110 according to an embodiment collects GEO (Gene Expression Omnibus) data and converts the collected GEO data into expression data, a gene expression value data, and a gene expression type including a GPL (GEO Platform) Data.

일측에 따르면, GEO 데이터 처리부(110)는 GSE 번호(GEO Series Number)에 기초하여 GEO 데이터 수집할 수 있다.According to one aspect, the GEO data processing unit 110 can collect GEO data based on the GSE number (GEO Series Number).

예를 들어, GEO 데이터 처리부(110)는 연구자가 GSE 번호를 입력하면, 입력한 GSE 번호를 기반으로 하는 GEO 목록을 기준으로 GEO 데이터 서버에서 데이터를 다운로드 받을 수 있다.For example, the GEO data processing unit 110 can download data from the GEO data server based on the GEO list based on the entered GSE number when the researcher inputs the GSE number.

일측에 따르면, 수집된 GEO 데이터에서 표현형 데이터는 환자의 나이, 성별, 조직 위치 및 조직 상태 중에서 적어도 하나를 포함할 수 있다. 또한, 수집된 GEO 데이터에서 유전자 발현값 데이터는 mRNA의 발현량을 포함할 수 있으며, GPL(GEO Platform)은 유전자 발현값 데이터의 탐지자(Probe)를 생물학적 기호로 변환할 수 있다.According to one aspect, in the collected GEO data, the phenotype data may include at least one of the patient's age, sex, tissue location, and tissue status. Also, in the collected GEO data, the gene expression value data may include an expression amount of the mRNA, and the GPL (GEO Platform) can convert the probe of the gene expression value data into a biological symbol.

도 1에 도시된 GEO 데이터 처리부(110)는 이후 실시예 도 2를 통해 보다 구체적으로 설명 하기로 한다.The GEO data processing unit 110 shown in FIG. 1 will be described in more detail with reference to FIG.

일실시예에 따른 표현형 데이터 변환부(120)는 표현형 데이터의 핵심어(Feature Word)에 기초하여 표현형 데이터를 표준화할 수 있다.The phenotype data conversion unit 120 according to one embodiment can standardize the expression type data based on the keyword of the expression type data.

일측에 따르면, 표현형 데이터 변환부(120)는 표현형 데이터에서 핵심어(Feature Word)와 값(Value)을 분리하고, 분리된 핵심어 및 값에 기초하여 표현형 데이터를 정형화된 데이터 형태로 변환하는 표준화를 수행할 수 있다. According to one aspect, the phenotype data conversion unit 120 separates a feature word and a value from the phenotype data, and performs a standardization for converting the expression data into a form of a formalized data based on the separated key words and values can do.

일측에 따르면, 표현형 데이터 변환부(120)는 표현형 데이터를 표준화하기 위하여 참고하는 데이터가 저장된 표현형 데이터베이스를 포함할 수 있다. 또한, 표현형 데이터베이스는 대표핵심어-유사어 데이터베이스, 대표값-유사값 데이터베이스 및 변환 스크립트 데이터베이스 중에서 적어도 하나를 포함할 수 있다. According to one aspect, the phenotype data conversion unit 120 may include a phenotype database storing data to be referred to for standardizing the phenotype data. In addition, the phenotype database may include at least one of a representative key word-similarity database, a representative value-similarity value database, and a conversion script database.

도 1에 도시된 표현형 데이터 변환부(120)는 이후 실시예 도 3를 통해 보다 구체적으로 설명 하기로 한다.The phenotype data conversion unit 120 shown in FIG. 1 will be described in more detail with reference to FIG.

일실시예에 따른 유전자 발현형 데이터 변환부(130)는 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화할 수 있다.The gene expression type data conversion unit 130 according to one embodiment can normalize the gene expression value data included in the gene expression type data.

일측에 따르면, 유전자 발현형 데이터 변환부(130)는 유전자 발현형 데이터에 포함된 탐지자 이름을 생물학적으로 공통적인 의미를 가진 유전자 이름들 중에서 기설정된 임계값 이상으로 활용되고 있는 유전자 이름을 기준으로 하여 변경할 수 있다. According to one aspect of the present invention, the gene expression type data conversion unit 130 converts the name of the detectors included in the gene expression type data to a gene name having a biologically common meaning, .

또한, 유전자 발현형 데이터 변환부(130)는 변경된 탐지자 이름에 대응되는 각 유전자 발현값 데이터를 정규화할 수 있다.In addition, the gene expression type data conversion unit 130 may normalize the gene expression value data corresponding to the changed detector name.

예를 들어, 유전자 발현형 데이터 변환부(130)는 유전자 발현형 데이터에 포함된 탐지자 이름을 생물학적으로 공통적인 의미를 가진 유전자 이름들 중에서 가장 많이 활용되고 있는 하나의 유전자 이름을 기준으로 하여 변경할 수 있다. For example, the gene expression type data conversion unit 130 may convert the name of the detector included in the gene expression type data based on one gene name most commonly used among the gene names having a biologically common meaning .

즉, 유전자 발현형 데이터에 포함된 탐지자 이름을 최근까지 가장 많이 활용되는 유전자 이름으로 통일할 수 있다. That is, the name of the detectors contained in the gene expression data can be unified into the most frequently used gene names until recently.

또한, 유전자 발현형 데이터 변환부(130)는 변경된 탐지자 이름에 대응되는 각 유전자 발현값 데이터를 정규화할 수 있다. In addition, the gene expression type data conversion unit 130 may normalize the gene expression value data corresponding to the changed detector name.

도 1에 도시된 유전자 발현형 데이터 변환부(130)는 이후 실시예 도 4 내지 도 6를 통해 보다 구체적으로 설명 하기로 한다.The gene expression type data conversion unit 130 shown in FIG. 1 will be described in more detail with reference to FIG. 4 through FIG.

일실시예에 따른 데이터 그룹 생성부(140)는 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분할 수 있다. The data group generation unit 140 may classify the normalized expression data and the normalized gene expression type data into a plurality of data groups.

일측에 따르면, 데이터 그룹 생성부(140)는 복수의 데이터 그룹으로 구분하기 위하여 P값(p-value)을 계산하는 통계 기법을 활용할 수 있다. According to one aspect, the data group generating unit 140 may utilize a statistical technique for calculating a P value (p-value) to divide the data into a plurality of data groups.

도 1에 도시된 데이터 그룹 생성부(140)에서 데이터 그룹을 구분하는 동작은 이후 실시예 도 7a 내지 도 7c를 통해 보다 구체적으로 설명 하기로 한다.The operation of dividing a data group in the data group generator 140 shown in FIG. 1 will be described in more detail with reference to FIGS. 7A through 7C.

일실시예에 따른 데이터 분석부(150)는 구분된 데이터 그룹을 분석하여 분석 결과를 출력할 수 있다. The data analysis unit 150 according to an embodiment may analyze the divided data group and output the analysis result.

도 1에 도시된 데이터 분석부(150)에서 분석 결과를 출력하는 동작은 이후 실시예 도 8a 내지 도 8b를 통해 보다 구체적으로 설명 하기로 한다.The operation of outputting the analysis result by the data analysis unit 150 shown in FIG. 1 will be described in more detail with reference to FIGS. 8A to 8B.

즉, 본 발명을 이용하면, GEO의 목록만을 가지고 통합된 GEO 데이터를 생성하여 유전체 발현 데이터의 분석을 위한 결과 데이터를 용이하게 획득할 수 있다.That is, using the present invention, it is possible to easily acquire the result data for analysis of the genome expression data by generating the integrated GEO data with only the GEO list.

도 2는 본 발명의 일실시예에 따른 통합 분석 처리 장치의 GEO 데이터 처리부를 도시하는 도면이다.2 is a diagram showing a GEO data processing unit of an integrated analysis processing apparatus according to an embodiment of the present invention.

도 2를 참조하면, 일실시예에 따른 GEO 데이터 처리부(200)는 GEO 데이터를 수집하고, 수집된 GEO 데이터를 표현형 데이터와 유전자 발현형 데이터로 구분할 수 있다.Referring to FIG. 2, the GEO data processing unit 200 according to an exemplary embodiment collects GEO data and divides the collected GEO data into expression data and gene expression data.

이를 위해, 데이터 수집부(210) 및 데이터 정리부(220)를 포함할 수 있다. For this, a data collecting unit 210 and a data gathering unit 220 may be included.

일측에 따르면, 데이터 수집부(210)는 GSE 번호에 기초하여 GEO 데이터 수집할 수 있다. According to one aspect, the data collection unit 210 can collect GEO data based on the GSE number.

예를 들어, 데이터 수집부(210)는 연구자가 연구 중 GEO 홈페이지 또는 연구 논문을 통하여 획득한 GSE 번호를 텍스트 파일 또는 콘솔을 통하여 입력 받으면 GSE 번호를 기반으로 하는 GEO 목록을 생성할 수 있다. For example, the data collector 210 may generate a GEO list based on a GSE number when a researcher inputs a GSE number acquired through a GEO homepage or a research paper through a text file or a console during research.

이후, 데이터 수집부(210)는 생성한 GEO 목록을 기준으로 GEO 데이터 서버에서 데이터를 직접 다운로드 받을 수 있다. Thereafter, the data collecting unit 210 can directly download data from the GEO data server based on the generated GEO list.

또한, 데이터 수집부(210)는 GEO 데이터 서버에서 데이터를 직접 다운로드할 때 발생할 수 있는 인터넷 접속 오류 또는 서버 오류가 발생하면, 차후에 재 접속하여 다시 다운로드 하는 재실행 루틴을 수행하여 오류를 회피할 수 있다. In addition, if an Internet connection error or a server error that may occur when data is directly downloaded from the GEO data server occurs, the data collection unit 210 may perform a redo routine to reconnect and download again in the future to avoid errors .

일측에 따르면, 데이터 정리부(220)는 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분할 수 있다. According to one aspect, the data organizing unit 220 can divide the collected GEO data into expression data, gene expression value data, and gene expression type data including a GPL (GEO Platform).

일측에 따르면, 표현형 데이터는 환자의 나이, 성별, 조직 위치 및 조직 상태 중에서 적어도 하나를 포함하고, 유전자 발현값 데이터는 mRNA의 발현량을 포함할 수 있다. 또한, GPL(GEO Platform)은 유전자 발현값 데이터의 탐지자(Probe)를 생물학적 기호로 변환할 수 있다.According to one aspect, the phenotype data includes at least one of age, sex, tissue location and tissue state of the patient, and the gene expression value data may include an expression amount of mRNA. In addition, the GPL (GEO Platform) can convert probes of gene expression value data into biological symbols.

예를 들어, 데이터 정리부(220)는 구분된 표현형 데이터와 유전자 발현형 데이터를 별도의 저장장치에 저장할 수 있다. For example, the data organizing unit 220 may store the separated expression data and the gene expression data in a separate storage device.

도 3은 본 발명의 일실시예에 따른 통합 분석 처리 장치의 표현형 데이터 변환부를 도시하는 도면이다.3 is a diagram showing a phenotype data conversion unit of an integrated analysis processing apparatus according to an embodiment of the present invention.

도 3를 참조하면, 일실시예에 따른 표현형 데이터 변환부(300)는 핵심어(Feature Word)에 기초하여 표현형 데이터를 표준화 할 수 있다.Referring to FIG. 3, the phenotype data conversion unit 300 according to one embodiment can standardize expression type data based on a keyword (Feature Word).

이를 위해, 핵심어 분리부(310), 핵심어 통합부(320) 및 표현형 데이터베이스(330)를 포함할 수 있다. For this, the key word separating unit 310, the key word integrating unit 320, and the expression database 330 may be included.

일측에 따르면, 핵심어 분리부(310)는 도 1의 GEO 데이터 처리부로부터 수신한 표현형 데이터에서 핵심어(Feature Word)와 값(Value)을 분리할 수 있다.According to one aspect, the keyword separator 310 can separate the keyword from the keyword in the expression data received from the GEO data processor of FIG.

보다 구체적으로, 하기의 표1는 핵심어 분리부(310)에서 도 1의 GEO 데이터 처리부로부터 수신한 표현형 데이터를 도시하고 있다.More specifically, Table 1 below shows the expression data received from the GEO data processing unit of FIG. 1 by the keyword separating unit 310.

[표1][Table 1]

Figure pat00001
Figure pat00001

일측에 따르면, 핵심어 분리부(310)는 표1에 도시된 것과 같이 각 데이터 마다 핵심어와 값의 표현 방법이 서로 다른 데이터 테이블에서 핵심어 및 값을 용이하게 분리할 수 있다.According to one aspect of the present invention, the key word separator 310 can easily separate key words and values from data tables having different key word and value expression methods for each data as shown in Table 1.

예를 들어, 핵심어 분리부(310)는 표현형 데이터의 열이 맞지 않는 경우에는 '핵심어:값' 의 관계를 열 단위가 아닌 셀 단위로 분리 한 뒤에 핵심어를 찾아내고 핵심어를 기준으로 열을 다시 정렬할 수 있다. For example, if the column of the phenotype data does not match, the key word separation unit 310 separates the relation of 'key word: value' into cell units instead of column units, and then finds key words and re-arranges the columns can do.

특히, 핵심어 분리부(310)는 비 표준화 표현형 데이터에서는 '핵심어:값'의 관계를 분류하는 여러 기호를 찾아내어 열을 찾아낼 수 있다. In particular, in the non-standardized phenotype data, the keyword separating unit 310 can find a plurality of symbols for classifying the relation of 'key word: value' to find the column.

또한, 핵심어 분리부(310)는 기타 다른 열에 부여된 표현형 데이터의 경우에는 "핵심어:값"의 표현이 확인되는 경우에 표현형 데이터가 저장되어 있는 것으로 판단할 수 있다. In the case of the expression data assigned to the other columns, the keyword separator 310 can determine that the expression data is stored when the expression "key word: value" is confirmed.

즉, 핵심어 분리부(310)는 전술한 예시들을 통하여 하기의 표 2와 같이 핵심어를 기준으로 표현형 데이터를 정리할 수 있다.That is, the keyword separator 310 can organize the expression data based on the keyword as shown in the following Table 2 through the above-described examples.

[표2][Table 2]

Figure pat00002
Figure pat00002

일측에 따르면, 핵심어 통합부(320)는 분리된 핵심어 및 값에 기초하여 표현형 데이터를 정형화된 데이터 형태로 변환하는 표준화를 수행할 수 있다.According to one aspect, the key word integrating unit 320 can perform standardization for converting the expression data into the form of the standardized data based on the separated key words and values.

일측에 따르면, 핵심어 통합부(320)는 표현형 데이터를 표준화 하기 위하여 표현형 데이터베이스(330)에 저장된 데이터를 참고할 수 있다.According to one aspect, the keyword integration unit 320 may refer to the data stored in the expression database 330 to standardize the expression data.

일측에 따르면, 표현형 데이터베이스(330)는 대표핵심어-유사어 데이터베이스, 대표값-유사값 데이터베이스 및 변환 스크립트 데이터베이스 중에서 적어도 하나를 포함할 수 있다. According to one aspect, the phenotype database 330 may include at least one of a representative key word-similarity database, a representative value-similarity value database, and a conversion script database.

하기의 표3은 대표핵심어-유사어 데이터베이스의 예시를 나타내고, 표4는 대표값-유사값 데이터베이스의 예시를 나타내며, 표5는 변환 스크립트 데이터베이스의 예시를 나타낸다.Table 3 below shows an example of a representative key word-similarity database, Table 4 shows an example of a representative value-similarity database, and Table 5 shows an example of a conversion script database.

[표3][Table 3]

Figure pat00003
Figure pat00003

[표4][Table 4]

Figure pat00004
Figure pat00004

[표5][Table 5]

Figure pat00005
Figure pat00005

보다 구체적으로, 핵심어 통합부(320)는 표현형 데이터베이스(330)에 저장되어 있는 표3의 대표핵심어-유사어 데이터베이스를 참고하여 분리된 핵심어를 상호 의미가 동일한 형태로 변환할 수 있다. More specifically, the key word integrating unit 320 can convert the separated key words into a form having the same mutual meaning by referring to the representative key word-similarity database in Table 3 stored in the expression database 330. [

또한, 핵심어 통합부(320)는 표현형 데이터베이스(330)에 저장되어 있는 표4의 대표값-유사값 데이터베이스를 참고하여 분리된 값을 상호 의미가 동일한 형태로 변환할 수 있다.Also, the keyword integration unit 320 may convert the separated values into the same format with reference to the representative value-similarity database of Table 4 stored in the phenotype database 330.

일측에 따르면, 표현형 데이터베이스(330)에 저장되어 있는 표5의 변환 스크립트 데이터베이스는 핵심어를 추론할 수 있는 값 표현에 대한 변환 함수 및 텍스트를 함수로 변환하여 값을 변환할 수 있도록 하는 함수를 포함할 수 있다. According to one aspect, the conversion script database of Table 5 stored in the phenotype database 330 includes a conversion function for a value expression that can infer the keyword, and a function for converting a text into a function to convert the value .

즉, 표현형 데이터 변환부(300)는 표현형 데이터를 상호 의미가 동일한 정형화된 데이터 형태로 변환하는 표준화를 수행함으로써, 표현형 데이터를 통합할 수 있다.That is, the phenotype data conversion unit 300 may integrate the expression type data by performing standardization for converting the expression type data into the form of a regularized data having the same meaning.

도 4는 본 발명의 일실시예에 따른 통합 분석 처리 장치의 유전자 발현형 데이터 변환부를 도시하는 도면이다.4 is a diagram showing a gene expression type data conversion unit of an integrated analysis processing apparatus according to an embodiment of the present invention.

도 4를 참조하면, 일실시예에 따른 유전자 발현형 데이터 변환부(400)는 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화할 수 있다.Referring to FIG. 4, the gene expression type data conversion unit 400 according to one embodiment can normalize the gene expression value data included in the gene expression type data.

이를 위해, 유전자 발현형 데이터 변환부(400)는 데이터 ID 변환부(410) 및 데이터 정규화부(420)를 포함할 수 있다.For this, the gene expression type data conversion unit 400 may include a data ID conversion unit 410 and a data normalization unit 420.

일측에 따르면, 데이터 ID 변환부(410)는 도 1의 GEO 데이터 처리부로부터 수신한 유전자 발현형 데이터에 포함된 탐지자(Probe) 이름을 생물학적으로 공통적인 의미를 가진 유전자 이름들 중에서 기설정된 임계값 이상으로 활용되고 있는 유전자 이름을 기준으로 하여 변경할 수 있다.According to one aspect, the data ID conversion unit 410 converts the name of a probe included in the gene expression type data received from the GEO data processing unit of FIG. 1 into a predetermined threshold value among gene names having a biologically common meaning It can be changed based on the gene name being used above.

하기의 표6은 유전자 발현 정보 데이터의 예시를 나타낸다. Table 6 below shows an example of gene expression information data.

[표6][Table 6]

Figure pat00006
Figure pat00006

보다 구체적으로, 표6에 도시된 것과 같이 유전자 발현형 데이터는 행렬의 형태로 구성되어 있고, 각 행은 탐지자 이름을 의미하며, 각 열은 각각의 케이스를 식별할 수 있는 정보를 의미한다. More specifically, as shown in Table 6, the gene expression type data is configured in the form of a matrix, each row means a detector name, and each column indicates information that can identify each case.

일측에 따르면, 데이터 정규화부(420)는 데이터 ID 변환부(410)에서 변경된 탐지자 이름에 대응되는 각 유전자 발현값 데이터를 정규화할 수 있다. According to one aspect, the data normalization unit 420 can normalize the gene expression value data corresponding to the changed detector name in the data ID conversion unit 410.

다시 말해, 데이터 정규화부(420)는 유전자 발현형 데이터를 비교 가능한 통합 데이터로 활용할 수 있도록 변환하는 정규화 과정을 수행할 수 있다.In other words, the data normalization unit 420 may perform a normalization process of converting the gene expression type data so that the gene expression type data can be used as comparable integrated data.

도 4에 도시된 유전자 발현형 데이터 변환부(400)에서 유전자 발현형 데이터를 정규화하는 동작은 실시예 도 5a 내지 5b를 통해 보다 구체적으로 설명하기로 한다.The operation of normalizing the gene expression type data in the gene expression type data conversion unit 400 shown in FIG. 4 will be described in more detail with reference to FIGS. 5A to 5B.

즉, 유전자 발현형 데이터 변환부(400)는 유전자 발현형 데이터의 탐지자 이름을 생물학적으로 공통적인 의미를 가진 유전자 이름으로 통일하고, 유전자 발현값 데이터를 정규화함으로써, 유전자 발현형 데이터를 통합할 수 있다.That is, the gene expression type data conversion unit 400 can integrate the gene expression type data by unifying the name of the detectors of the gene expression type data with a gene name having a biologically common meaning and normalizing the gene expression value data have.

도 5a 내지 도 5b는 본 발명의 일실시예에 따른 유전자 발현형 데이터 변환부에서 유전자 발현형 데이터를 정규화하는 실시예를 설명하기 위한 도면이다.5A and 5B are diagrams for explaining an embodiment of normalizing gene expression type data in a gene expression type data conversion unit according to an embodiment of the present invention.

도 5a 내지 도 5b의 도면에서 행(X축)은 각각의 실험을 의미하고, 열(Y축)은 유전자 발현값 데이터를 의미한다.In the drawings of FIGS. 5A and 5B, row (X-axis) represents each experiment, and column (Y-axis) represents gene expression value data.

도 5a 내지 도 5b를 참조하면, 참조부호 510에 도시된 것과 같이 각 실험에서의 유전자 발현값 데이터는 서로 다른 평균값과 발현 민감도를 가지고 있기 때문에 각 실험에서 유전자 발현형 데이터 사이에 불일치가 존재하게 된다.Referring to FIGS. 5A and 5B, as shown in reference numeral 510, since gene expression value data in each experiment have different average values and expression sensitivities, discrepancies exist between gene expression type data in each experiment .

따라서, 유전자 발현형 데이터 변환부는 유전자 발현값 데이터의 평균화, 각 케이스의 제1 사분위 수와 제3 사분위 수의 동일화, 및 별도의 정규화기를 이용하는 방법 중에서 적어도 하나의 방법을 적용하여 도면부호 520과 같이 유전자 발현형 데이터를 정규화할 수 있다.Therefore, the gene expression type data conversion unit may perform at least one of the methods of averaging the gene expression value data, equalizing the first quartile and the third quartile of each case, and using a separate normalizer, Lt; RTI ID = 0.0 > genomic < / RTI > expression data can be normalized.

도 6은 본 발명의 일실시예에 따른 유전자 발현형 데이터 변환부에서 유전자 발현형 데이터의 탐지자 이름을 변환하는 실시예를 설명하기 위한 도면이다.6 is a diagram for explaining an embodiment for converting a name of a detector of gene expression type data in a gene expression type data conversion unit according to an embodiment of the present invention.

도 6을 참조하면, 유전자 발현형 데이터 변환부는 탐지자 이름을 변환 하기 위하여 변환 모듈을 사용할 수 있다.Referring to FIG. 6, the gene expression type data conversion unit may use a conversion module to convert a detector name.

예를 들어, 유전자 발현형 데이터 변환부는 변환 모듈에 사용하기 위하여 BioMart 모듈 또는 유전자 발현형 데이터의 유전자 이름에 대응되는 Ailun (http://ailun.stanford.edu)의 연구 결과 데이터를 활용할 수 있다. For example, the gene expression type data conversion unit may utilize the result data of Ailun (http://ailun.stanford.edu) corresponding to the gene name of BioMart module or gene expression type data for use in the conversion module.

보다 구체적으로, 유전자 발현형 데이터 변환부는 BioMart 모듈에서 제공하는 유전자 이름과 유전자 간의 매칭 정보를 활용하기 위하여 GPL 속성 테이블에 포함된 탐지자 이름과 값에 기초하여 질의를 함으로써 변환 가능한 테이블을 추출할 수 있다.More specifically, in order to utilize the matching information between the gene name and the gene provided in the BioMart module, the gene expression type data conversion unit can extract the convertible table by inquiring based on the name and value of the detector included in the GPL attribute table have.

즉, 유전자 발현형 데이터 변환부는 참조부호 610에 도시된 것과 같이 1차로 저장된 유전자 발현형 데이터의 유전자 이름을 참조부호 620에 도시된 것과 같이 HGNC Helper라는 모듈을 활용하여 변환함으로써, 참조부호 630에 도시된 것과 같이 최신의 유전자 이름을 사용할 수 있다.That is, the gene expression type data conversion unit converts the gene name of the gene expression type data stored primarily by using the module 610 as shown in reference numeral 610 by using a module called HGNC Helper, You can use the latest gene names as they are.

도 7a 내지 도 7c는 본 발명의 일실시예에 따른 통합 분석 처리 장치의 데이터 그룹 생성부에서 데이터 그룹을 구분하는 실시예를 설명하기 위한 도면이다.FIGS. 7A to 7C are diagrams for explaining an embodiment of dividing data groups in the data group generation unit of the integrated analysis processing apparatus according to an embodiment of the present invention.

도 7을 참조하면, 데이터 그룹 생성부는 도 1의 표현형 데이터 변환부 및 유전자 발현형 데이터 변환부로부터 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 수신할 수 있다.Referring to FIG. 7, the data group generation unit may receive normalized expression data and normalized gene expression type data from the phenotype data conversion unit and the gene expression type data conversion unit of FIG.

또한, 데이터 그룹 생성부는 수신한 데이터들의 분석을 위하여 참조부호 710과 같이 수신한 데이터들을 복수의 데이터 그룹으로 구분할 수 있다. In addition, the data group generation unit may divide the received data into a plurality of data groups, such as 710, for analysis of the received data.

일측에 따르면, 데이터 그룹 생성부는 데이터 그룹을 구분할 수 있는 데이터를 연속형 데이터와 범주형 데이터 그리고 생존분석 데이터로 구분할 수 있다.According to one aspect of the present invention, the data group generation unit can classify data that can identify a data group into continuous data, categorical data, and survival analysis data.

또한, 데이터 그룹 생성부는 분류를 위한 독립 변수로 범주형 변수나 연속형 변수를 활용하고 종속 변수로는 범주형, 연속형 또는 생존분석 변수를 활용할 수 있다. Also, the data group generator can use categorical variables or continuous variables as independent variables for classification and categorical, continuous or survival analysis variables as dependent variables.

바람직하게는, 데이터 그룹 생성부는 하기의 표7과 같이 각 종속 변수별로 상응하는 통계 기법을 활용하여 데이터 그룹을 구분할 수 있다.Preferably, the data group generation unit may classify the data groups using a statistical technique corresponding to each dependent variable as shown in Table 7 below.

[표7][Table 7]

Figure pat00007
Figure pat00007

보다 구체적으로, 데이터 그룹 생성부는 연속형 혹은 생존자료 형인 종속 변수에서 최적의 P값(p-value)를 가지도록 순서형 변수나 연속형 변수의 경우에는 컷오프(cut-off)값을 제시해 주고 범주형 변수인 경우에는 가장 작은 P값을 가지는 그룹을 제시할 수 있다.More specifically, the data group generator presents a cut-off value for sequential or continuous variables so as to have an optimal P value (p-value) in a dependent variable that is a continuous or survival data type, In the case of a type variable, a group with the smallest P value can be presented.

예를 들어, 데이터 그룹 생성부는 유방암의 중요 표지자 중 하나인 에스트로겐수용체(Estrogen Receptor) 중 ESR1을 독립 변수로 하고 연속 변수인 나이와 생존 분석 변수인 재발에 대한 결과를 참조부호 720 내지 730과 같이 제시할 수 있으며, 이를 기준으로 데이터 그룹을 둘로 구분할 수 있다.For example, the data group generating unit may include ESR1 among the estrogen receptor, one of the important markers of breast cancer, as an independent variable, and the results of recurrence, which is a continuous variable, age and survival analysis parameter, are indicated as reference numerals 720 to 730 And the data group can be divided into two groups based on this.

도 8a 내지 도 8b은 본 발명의 일실시예에 따른 통합 분석 처리 장치의 데이터 분석부에서 분석 결과를 도출하는 실시예를 설명하기 위한 도면이다.8A and 8B are diagrams for explaining an embodiment for deriving an analysis result in a data analysis unit of an integrated analysis processing apparatus according to an embodiment of the present invention.

도 8a 내지 도 8b를 참조하면, 데이터 분석부는 도 1의 데이터 그룹 생성부에서 구분된 데이터 그룹을 분석하고, 분석 결과를 출력할 수 있다. 8A and 8B, the data analyzer may analyze the data group classified by the data group generator of FIG. 1 and output the analysis result.

보다 구체적으로, 데이터 분석부는 참조부호 810에 도시된 바와 같이 행(X축)은 표현형 데이터의 핵심값을 표시하고, 열(Y축)은 각 집단별 데이터 및 통계적 유의성을 나타내기 위한 P값(P-value)을 표시한 분석 결과를 연구자에게 제공할 수 있다. More specifically, the data analyzer displays a key value of the phenotype data in a row (X-axis) and a P value (Y-axis) as data and statistical significance P-value) can be provided to the researcher.

또한, 데이터 분석부는 참조부호 820에 도시된 바와 같이 중요 유전자를 찾거나, 데이터를 거시적으로 조망할 수 있는 히트맵(Heatmap)을 통하여 분석 결과를 제공할 수도 있다.In addition, the data analysis unit may provide an analysis result through a heat map capable of finding an important gene or macroscopically viewing the data, as shown in reference numeral 820.

또한, 데이터 분석부는 도 1의 데이터 그룹 생성부에서 다수의 독립 변수 및 종속 변수를 사용함에 따라, 다수의 분석 결과를 한꺼번에 제공할 수도 있다.In addition, the data analysis unit may provide a plurality of analysis results at once by using a plurality of independent variables and dependent variables in the data group generation unit of FIG.

도 9는 본 발명의 다른 실시예에 따른 통합 분석 처리 장치를 도시하는 도면이다.9 is a diagram showing an integrated analysis processing apparatus according to another embodiment of the present invention.

도 9를 통하여 설명하는 내용 중에서, 일실시예에 따른 통합 분석 처리 장치에서 도 1 내지 8b를 통하여 설명한 내용과 중복되는 설명은 생략 하기로 한다.Among the contents described with reference to FIG. 9, the description of the integrated analysis processing apparatus according to one embodiment will not be repeated.

도 9를 참조하면, 다른 실시예에 따른 통합 분석 장치(900)는 GEO 데이터를 표현형 데이터와 유전자 발현형 데이터로 구분하고, TCGA 데이터를 표현형 데이터의 형태 및 유전자 발현형 데이터의 형태 중 적어도 하나의 형태로 변환할 수 있다. 9, the integrated analysis apparatus 900 according to another embodiment divides GEO data into expression data and gene expression type data, and classifies the TCGA data into at least one of the type of expression data and the type of gene expression data .

또한, 표현형 데이터를 표준화하고 유전자 발현형 데이터를 정규화하며, 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분할 수 있다. In addition, the expression data can be standardized, the gene expression type data can be normalized, and the standardized expression data and the normalized gene expression type data can be divided into a plurality of data groups.

이를 위해, GEO 데이터 처리부(910), TCGA 데이터 변환부(920), 표현형 데이터 변환부(930), 유전자 발현형 데이터 변환부(940), 데이터 그룹 생성부(950) 및 데이터 분석부(960)을 포함할 수 있다. To this end, a GEO data processing unit 910, a TCGA data conversion unit 920, a phenotype data conversion unit 930, a gene expression type data conversion unit 940, a data group generation unit 950 and a data analysis unit 960, . ≪ / RTI >

다른 실시예에 따른 GEO 데이터 처리부(910)는 GEO(Gene Expression Omnibus) 데이터를 수집하고, 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분할 수 있다.The GEO data processing unit 910 according to another embodiment collects GEO (Gene Expression Omnibus) data and converts the collected GEO data into gene expression data including expression data, gene expression value data, and GPL (GEO Platform) .

일측에 따르면, TCGA 데이터 변환부(920)은 TCGA(The Cancer Genome Atlas) 데이터를 수집하고, 수집된 TCGA 데이터에 가상의 GSE 번호(GEO Series Number)를 부여하여 TCGA 데이터를 표현형 데이터의 형태 및 유전자 발현형 데이터의 형태 중 적어도 하나의 형태로 변환할 수 있다. According to one aspect, the TCGA data converter 920 collects TCGA (Cancer Genome Atlas) data, and assigns a virtual GSE number (GEO Series Number) to the collected TCGA data, And can be converted into at least one of the types of the expression type data.

다른 실시예에 따른 표현형 데이터 변환부(930)는 표현형 데이터의 핵심어(Feature Word)에 기초하여 표현형 데이터를 표준화 할 수 있다.The phenotype data conversion unit 930 according to another embodiment may standardize expression type data based on the keyword of the expression type data.

일측에 따르면, 표현형 데이터 변환부(930)는 표현형 데이터 형태의 TCGA 데이터를 수신하고, 표현형 데이터 형태의 TCGA 데이터와 GEO 데이터 처리부(910)에서 수신한 표현형 데이터를 통합할 수 있다. 또한, 표현형 데이터 변환부(930)는 통합된 표현형 데이터를 표준화 할 수 있다.According to one aspect, the phenotype data conversion unit 930 receives the TCGA data of the phenotype data type, and can integrate the TCGA data of the phenotype data type and the phenotype data received by the GEO data processing unit 910. In addition, the phenotype data conversion unit 930 can standardize the integrated expression data.

다른 실시예에 따른 유전자 발현형 데이터 변환부(940)는 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화 할 수 있다.The gene expression type data converter 940 according to another embodiment may normalize the gene expression value data included in the gene expression type data.

일측에 따르면, 유전자 발현형 데이터 변환부(940)는 유전자 발현형 데이터 형태의 TCGA 데이터를 수신하고, 유전자 발현형 데이터 형태의 TCGA 데이터와 GEO 데이터 처리부에서 수신한 유전자 발현형 데이터를 통합할 수 있다. 또한, 유전자 발현형 데이터 변환부(940)는 통합된 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화 할 수 있다.According to one aspect, the gene expression type data conversion unit 940 receives TCGA data in the form of gene expression type data, and can integrate TCGA data in the form of gene expression type data and gene expression type data received in the GEO data processing unit . In addition, the gene expression type data converting unit 940 can normalize the gene expression value data included in the integrated gene expression type data.

다른 실시예에 따른 데이터 그룹 생성부(950)는 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분한다.The data group generation unit 950 according to another embodiment divides the standardized expression data and the normalized gene expression type data into a plurality of data groups.

다른 실시예에 따른 데이터 분석부(960)는 구분된 데이터 그룹을 분석하여 분석 결과를 출력한다. The data analysis unit 960 according to another embodiment analyzes the divided data group and outputs the analysis result.

즉, 본 발명을 이용하면, GEO 데이터와 TCGA 데이터를 통합 분석할 수 있게 되어 데이터 활용의 다양성을 향상시킬 수 있다. That is, by using the present invention, the GEO data and the TCGA data can be integrated and analyzed, thereby improving diversity of data utilization.

도 10은 본 발명의 일실시예에 따른 통합 분석 처리 방법을 도시하는 도면이다.FIG. 10 is a diagram showing a method of integrated analysis processing according to an embodiment of the present invention.

도 10에 도시된 일실시예에 따른 통합 분석 처리 방법은 일실시예에 따른 통합 분석 처리 장치에 의해 수행될 수 있다.The integrated analysis processing method according to the embodiment shown in FIG. 10 can be performed by the integrated analysis processing apparatus according to an embodiment.

따라서, 도 10을 통하여 설명하는 내용 중에서, 일실시예에 따른 통합 분석 처리 장치에서 도 1 내지 8b를 통하여 설명한 내용과 중복되는 설명은 생략 하기로 한다.Therefore, among the contents described with reference to FIG. 10, the description of the integrated analysis processing apparatus according to the embodiment will be omitted from the description overlapping with the contents described with reference to FIG. 1 through FIG. 8B.

도 10을 참조하면, 1010단계에서 일실시예에 따른 통합 분석 처리 방법은 GEO 데이터 처리부에서 GEO(Gene Expression Omnibus) 데이터를 수집하고, 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분할 수 있다.Referring to FIG. 10, in step 1010, the integrated analysis processing method according to an embodiment collects GEO (Gene Expression Omnibus) data from a GEO data processing unit and outputs the collected GEO data to the expression data, the gene expression value data, and the GPL GEO Platform).

일측에 따르면, 1010단계에서 일실시예에 따른 통합 분석 처리 방법은 GSE 번호(GEO Series Number)에 기초하여 GEO 데이터 수집할 수 있다. According to one aspect, in step 1010, the integrated analysis processing method according to an embodiment may collect GEO data based on a GSE number (GEO Series Number).

일측에 따르면, 수집된 GEO 데이터에서 표현형 데이터는 환자의 나이, 성별, 조직 위치 및 조직 상태 중에서 적어도 하나를 포함할 수 있다. 또한, 수집된 GEO 데이터에서 유전자 발현값 데이터는 mRNA의 발현량을 포함할 수 있으며, GPL(GEO Platform)은 유전자 발현값 데이터의 탐지자(Probe)를 생물학적 기호로 변환할 수 있다.According to one aspect, in the collected GEO data, the phenotype data may include at least one of the patient's age, sex, tissue location, and tissue status. Also, in the collected GEO data, the gene expression value data may include an expression amount of the mRNA, and the GPL (GEO Platform) can convert the probe of the gene expression value data into a biological symbol.

1020단계에서 일실시예에 따른 통합 분석 처리 방법은 표현형 데이터 변환부에서 표현형 데이터의 핵심어(Feature Word)에 기초하여 표현형 데이터를 표준화 할 수 있다. In step 1020, the integrated analysis processing method according to an exemplary embodiment may standardize the expression data based on the keyword of the expression data in the expression data conversion unit.

1030단계에서 일실시예에 따른 통합 분석 처리 방법은 유전자 발현형 데이터 변환부에서 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화 할 수 있다. In step 1030, the integrated analysis processing method according to an exemplary embodiment may normalize the gene expression value data included in the gene expression type data in the gene expression type data conversion unit.

1040단계에서 일실시예에 따른 통합 분석 처리 방법은 데이터 그룹 생성부에서 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분 할 수 있다.In step 1040, the integrated analysis processing method according to an exemplary embodiment may divide the normalized expression data and the normalized gene expression data into a plurality of data groups in the data group generation unit.

일측에 따르면, 1040단계에서 일실시예에 따른 통합 분석 처리 방법은 복수의 데이터 그룹으로 구분하기 위하여 P값(p-value)을 계산하는 통계 기법을 활용할 수 있다.According to one aspect, in step 1040, the integrated analysis processing method according to an exemplary embodiment may utilize a statistical method of calculating a P value (p-value) to divide into a plurality of data groups.

1050단계에서 일실시예에 따른 통합 분석 처리 방법은 데이터 분석부에서 구분된 데이터 그룹을 분석하여 분석 결과를 출력 할 수 있다. In step 1050, the integrated analysis processing method according to an embodiment can analyze the data group classified by the data analysis unit and output the analysis result.

도 11은 본 발명의 다른 실시예에 따른 통합 분석 처리 방법을 도시하는 도면이다.11 is a diagram showing an integrated analysis processing method according to another embodiment of the present invention.

도 11에 도시된 다른 실시예에 따른 통합 분석 처리 방법은 다른 실시예에 따른 통합 분석 처리 장치에 의해 수행될 수 있다.The integrated analysis processing method according to another embodiment shown in FIG. 11 can be performed by the integrated analysis processing apparatus according to another embodiment.

따라서, 도 11을 통하여 설명하는 내용 중에서, 앞서 설명한 내용과 중복되는 설명은 생략 하기로 한다.Therefore, among the contents described with reference to FIG. 11, the description overlapping with the above-described contents will be omitted.

도 11을 참조하면, 1110단계에서 일실시예에 따른 통합 분석 처리 방법은 GEO 데이터 처리부에서 GEO(Gene Expression Omnibus) 데이터를 수집하고, 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분 할 수 있다.11, in step 1110, the integrated analysis processing method according to an exemplary embodiment collects GEO (Gene Expression Omnibus) data from a GEO data processing unit, and compares the collected GEO data with expression data, gene expression value data, and GPL GEO Platform). The data can be classified into gene expression data.

일측에 따르면, 1120단계에서 일실시예에 따른 통합 분석 처리 방법은 TCGA 데이터 변환부에서 TCGA(The Cancer Genome Atlas) 데이터를 수집하고, 수집된 TCGA 데이터에 가상의 GSE 번호(GEO Series Number)를 부여하여 TCGA 데이터를 표현형 데이터의 형태 및 유전자 발현형 데이터의 형태 중 적어도 하나의 형태로 변환할 수 있다.According to one aspect, in the integrated analysis processing method according to an exemplary embodiment, the TCGA data conversion unit collects the Cancer Genome Atlas (TCGA) data and assigns a virtual GSE number (GEO Series Number) to the collected TCGA data TCGA data can be converted into at least one of the form of the phenotype data and the form of the gene expression type data.

1130단계에서 일실시예에 따른 통합 분석 처리 방법은 표현형 데이터 변환부에서 표현형 데이터의 핵심어(Feature Word)에 기초하여 표현형 데이터를 표준화 할 수 있다.In step 1130, the integrated analysis processing method according to an exemplary embodiment may standardize the expression data based on the keyword of the expression data in the expression data conversion unit.

일측에 따르면, 1130단계에서 일실시예에 따른 통합 분석 처리 방법은 표현형 데이터 형태의 TCGA 데이터를 수신하고, 표현형 데이터 형태의 TCGA 데이터와 GEO 데이터 처리부에서 수신한 표현형 데이터를 통합하며, 통합된 표현형 데이터를 표준화 할 수 있다.According to one aspect, in step 1130, the integrated analysis processing method according to an embodiment receives TCGA data of the phenotype data type, integrates the TCGA data of the phenotype data type and the phenotype data received by the GEO data processing unit, Can be standardized.

1140단계에서 일실시예에 따른 통합 분석 처리 방법은 유전자 발현형 데이터 변환부에서 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화 할 수 있다. In step 1140, the integrated analysis processing method according to an exemplary embodiment may normalize the gene expression value data included in the gene expression type data in the gene expression type data conversion unit.

일측에 따르면, 1140단계에서 일실시예에 따른 통합 분석 처리 방법은 유전자 발현형 데이터 형태의 TCGA 데이터를 수신하고, 유전자 발현형 데이터 형태의 TCGA 데이터와 GEO 데이터 처리부에서 수신한 유전자 발현형 데이터를 통합하며, 통합된 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화 할 수 있다. According to one aspect, in step 1140, the integrated analysis processing method according to an exemplary embodiment receives TCGA data in the form of gene expression data, integrates TCGA data in the form of gene expression data, and gene expression data received in the GEO data processing unit And gene expression value data included in the integrated gene expression data can be normalized.

1150단계에서 일실시예에 따른 통합 분석 처리 방법은 데이터 그룹 생성부에서 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분 할 수 있다.In step 1150, the integrated analysis processing method according to an exemplary embodiment may divide the normalized expression data and the normalized gene expression data into a plurality of data groups in the data group generation unit.

1160단계에서 일실시예에 따른 통합 분석 처리 방법은 데이터 분석부에서 구분된 데이터 그룹을 분석하여 분석 결과를 출력 할 수 있다.In step 1160, the integrated analysis processing method according to an embodiment can analyze the data group classified by the data analysis unit and output the analysis result.

결국, 본 발명을 이용하면 GEO의 목록만을 가지고 통합된 GEO 데이터를 생성하여 유전체 발현 데이터의 분석을 위한 결과 데이터를 용이하게 획득할 수 있다.As a result, using the present invention, integrated GEO data can be generated with only a list of GEOs to easily obtain the resultant data for analysis of genome expression data.

또한, TCGA 데이터와 GEO 데이터가 통합된 분석 데이터를 제공함으로써, 데이터 활용의 다양성을 향상시킬 수 있다.In addition, by providing analysis data in which TCGA data and GEO data are integrated, diversity of data utilization can be improved.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA) A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be permanently or temporarily embodied in a transmitted signal wave. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks, and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

100: 통합 분석 장치 110: GEO 데이터 처리부
120: 표현형 데이터 변환부 130: 유전자 발현형데이터 변환부
140: 데이터 그룹 생성부 150: 데이터 분석부
100: Integrated analysis apparatus 110: GEO data processing section
120: phenotype data conversion unit 130: gene expression type data conversion unit
140: Data group generation unit 150: Data analysis unit

Claims (13)

GEO(Gene Expression Omnibus) 데이터를 수집하고, 상기 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분하는 GEO 데이터 처리부;
상기 표현형 데이터의 핵심어(Feature Word)에 기초하여 상기 표현형 데이터를 표준화하는 표현형 데이터 변환부;
상기 유전자 발현형 데이터에 포함된 상기 유전자 발현값 데이터를 정규화하는 유전자 발현형 데이터 변환부;
상기 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분하는 데이터 그룹 생성부 및
상기 구분된 데이터 그룹을 분석하여 상기 분석 결과를 출력하는 데이터 분석부
를 포함하는 통합 분석 처리 장치.
A GEO data processing unit for collecting GEO (Gene Expression Omnibus) data and dividing the collected GEO data into expression data, gene expression value data, and gene expression type data including a GPL (GEO Platform);
A phenotype data conversion unit for standardizing the expression data based on a keyword of the expression data;
A gene expression type data conversion unit for normalizing the gene expression value data included in the gene expression type data;
A data group generation unit for classifying the normalized phenotype data and the normalized gene expression type data into a plurality of data groups,
A data analysis unit for analyzing the divided data group and outputting the analysis result,
And an integrated analysis processing unit.
제1항에 있어서,
상기 GEO 데이터 처리부는
GSE 번호(GEO Series Number)에 기초하여 상기 GEO 데이터 수집하고, 상기 수집된 GEO 데이터에서 상기 표현형 데이터는 환자의 나이, 성별, 조직 위치 및 조직 상태 중에서 적어도 하나를 포함하고, 상기 유전자 발현값 데이터는 mRNA의 발현량을 포함하며, 상기 GPL(GEO Platform)은 상기 유전자 발현값 데이터의 탐지자(Probe)를 생물학적 기호로 변환하는
통합 분석 처리 장치.
The method according to claim 1,
The GEO data processing unit
Wherein the GEO data is collected based on a GSE number (GEO Series Number), and the phenotype data in the collected GEO data includes at least one of an age, a sex, a tissue location and a tissue state of the patient, mRNA, and the GPL (GEO Platform) converts the probe of the gene expression value data into a biological symbol
Integrated analysis processing device.
제2항에 있어서,
상기 표현형 데이터 변환부는
상기 표현형 데이터에서 상기 핵심어(Feature Word)와 값(Value)을 분리하고, 상기 분리된 핵심어 및 값에 기초하여 상기 표현형 데이터를 정형화된 데이터 형태로 변환하는 상기 표준화를 수행하는
통합 분석 처리 장치.
3. The method of claim 2,
The expression data conversion unit
Separating the feature word and value from the expression data, and performing the standardization for converting the expression data to a form of a standardized data based on the separated key words and values
Integrated analysis processing device.
제3항에 있어서,
상기 표현형 데이터 변환부는
상기 표현형 데이터를 표준화하기 위하여 참고하는 데이터가 저장된 표현형 데이터베이스를 포함하고,
상기 표현형 데이터베이스는 대표핵심어-유사어 데이터베이스, 대표값-유사값 데이터베이스 및 변환 스크립트 데이터베이스 중에서 적어도 하나를 포함하는
통합 분석 처리 장치.
The method of claim 3,
The expression data conversion unit
And a phenotype database in which data to be referred to in normalizing the expression data is stored,
Wherein the phenotype database includes at least one of a representative key word-similarity database, a representative value-similarity value database, and a conversion script database
Integrated analysis processing device.
제1항에 있어서,
상기 유전자 발현형 데이터 변환부는
상기 유전자 발현형 데이터에 포함된 탐지자(Probe) 이름을 상기 탐지자 이름과 생물학적으로 공통적인 의미를 가진 유전자 이름들 중에서 기설정된 임계값 이상으로 활용되고 있는 유전자 이름을 기준으로 하여 변경하고, 상기 변경된 탐지자 이름에 대응되는 각 유전자 발현값 데이터를 정규화하는
통합 분석 처리 장치.
The method according to claim 1,
Wherein the gene expression type data conversion unit
Changing a name of a probe included in the gene expression type data based on a gene name that is used above a predetermined threshold value among gene names having a biologically common meaning with the detector name, Normalization of each gene expression value data corresponding to the changed detector name
Integrated analysis processing device.
제1항에 있어서,
TCGA(The Cancer Genome Atlas) 데이터를 수집하고, 상기 수집된 TCGA 데이터에 가상의 GSE 번호(GEO Series Number)를 부여하여 상기 TCGA 데이터를 상기 표현형 데이터의 형태 및 상기 유전자 발현형 데이터의 형태 중 적어도 하나의 형태로 변환하는 TCGA 데이터 변환부를 더 포함하는
통합 분석 처리 장치.
The method according to claim 1,
The TCGA data is collected by applying a virtual GSE number (GEO Series Number) to the collected TCGA data to generate at least one of the type of the phenotype data and the type of the gene expression data Into a form of a TCGA data converter
Integrated analysis processing device.
제6항에 있어서,
상기 표현형 데이터 변환부는
상기 표현형 데이터 형태의 TCGA 데이터를 수신하고, 상기 표현형 데이터 형태의 TCGA 데이터와 상기 GEO 데이터 처리부에서 수신한 표현형 데이터를 통합하며, 상기 통합된 표현형 데이터를 표준화하고,
상기 유전자 발현형 데이터 변환부는
상기 유전자 발현형 데이터 형태의 TCGA 데이터를 수신하고, 상기 유전자 발현형 데이터 형태의 TCGA 데이터와 상기 GEO 데이터 처리부에서 수신한 유전자 발현형 데이터를 통합하며, 상기 통합된 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화하는
통합 분석 처리 장치.
The method according to claim 6,
The expression data conversion unit
Receiving TCGA data of the phenotype data type, integrating the TCGA data of the phenotype data type and the phenotype data received by the GEO data processing unit, standardizing the integrated phenotype data,
Wherein the gene expression type data conversion unit
Wherein the TCGA data in the form of gene expression data is integrated with the TCGA data in the form of gene expression data and the gene expression data received in the GEO data processing unit, To normalize the value data
Integrated analysis processing device.
제1항에 있어서
상기 데이터 그룹 생성부는
상기 복수의 데이터 그룹으로 구분하기 위하여 P값(p-value)을 계산하는 통계 기법을 활용하는 것을 특징으로 하는
통합 분석 처리 장치.
The method of claim 1, wherein
The data group generation unit
And a statistical technique for calculating a P value (p-value) is used to divide the data group into the plurality of data groups
Integrated analysis processing device.
GEO 데이터 처리부에서 GEO(Gene Expression Omnibus) 데이터를 수집하고, 상기 수집된 GEO 데이터를 표현형 데이터와, 유전자 발현값 데이터 및 GPL(GEO Platform)을 포함하는 유전자 발현형 데이터로 구분하는 단계;
표현형 데이터 변환부에서 상기 표현형 데이터의 핵심어(Feature Word)에 기초하여 상기 표현형 데이터를 표준화하는 단계;
유전자 발현형 데이터 변환부에서 상기 유전자 발현형 데이터에 포함된 상기 유전자 발현값 데이터를 정규화하는 단계;
데이터 그룹 생성부에서 상기 표준화된 표현형 데이터 및 정규화된 유전자 발현형 데이터를 복수의 데이터 그룹으로 구분하는 단계 및
데이터 분석부에서 상기 구분된 데이터 그룹을 분석하여 상기 분석 결과를 출력하는 단계
를 포함하는 통합 분석 처리 방법.
Collecting GEO (Gene Expression Omnibus) data from the GEO data processor, and separating the collected GEO data into expression data, gene expression value data, and gene expression type data including a GPL (GEO Platform);
Standardizing the expression data based on a feature word of the expression data in the expression data conversion unit;
A step of normalizing the gene expression value data included in the gene expression type data in the gene expression type data conversion unit;
Dividing the normalized expression data and the normalized gene expression type data into a plurality of data groups in a data group generation unit
Analyzing the divided data group in the data analysis unit and outputting the analysis result
Wherein the integrated analysis processing method comprises:
제9항에 있어서,
상기 표현형 데이터와 유전자 발현형 데이터로 구분하는 단계는
GSE 번호(GEO Series Number)에 기초하여 상기 GEO 데이터 수집하고, 상기 수집된 GEO 데이터에서 상기 표현형 데이터는 환자의 나이, 성별, 조직 위치 및 조직 상태 중에서 적어도 하나를 포함하고, 상기 유전자 발현값 데이터는 mRNA의 발현량을 포함하며, 상기 GPL(GEO Platform)은 상기 유전자 발현값 데이터의 탐지자(Probe)를 생물학적 기호로 변환하는
통합 분석 처리 방법.
10. The method of claim 9,
The step of dividing the expression data into gene expression type data
Wherein the GEO data is collected based on a GSE number (GEO Series Number), and the phenotype data in the collected GEO data includes at least one of an age, a sex, a tissue location and a tissue state of the patient, mRNA, and the GPL (GEO Platform) converts the probe of the gene expression value data into a biological symbol
Integrated analysis processing method.
제10항에 있어서
TCGA 데이터 변환부에서 TCGA(The Cancer Genome Atlas) 데이터를 수집하고, 상기 수집된 TCGA 데이터에 가상의 GSE 번호(GEO Series Number)를 부여하여 상기 TCGA 데이터를 상기 표현형 데이터의 형태 및 상기 유전자 발현형 데이터의 형태 중 적어도 하나의 형태로 변환하는 단계를 더 포함하는
통합 분석 처리 방법.
The method of claim 10, wherein
The TCGA data conversion unit collects the Cancer Genome Atlas (TCGA) data, gives a virtual GSE number (GEO Series Number) to the collected TCGA data, and stores the TCGA data in the form of the phenotype data and the gene expression data Into a form of at least one of < RTI ID = 0.0 >
Integrated analysis processing method.
제11항에 있어서,
상기 표현형 데이터를 표준화하는 단계는
상기 표현형 데이터 형태의 TCGA 데이터를 수신하고, 상기 표현형 데이터 형태의 TCGA 데이터와 상기 GEO 데이터 처리부에서 수신한 표현형 데이터를 통합하며, 상기 통합된 표현형 데이터를 표준화하고,
상기 유전자 발현값 데이터를 정규화하는 단계는
상기 유전자 발현형 데이터 형태의 TCGA 데이터를 수신하고, 상기 유전자 발현형 데이터 형태의 TCGA 데이터와 상기 GEO 데이터 처리부에서 수신한 유전자 발현형 데이터를 통합하며, 상기 통합된 유전자 발현형 데이터에 포함된 유전자 발현값 데이터를 정규화하는
통합 분석 처리 방법.
12. The method of claim 11,
The step of standardizing the expression data
Receiving TCGA data of the phenotype data type, integrating the TCGA data of the phenotype data type and the phenotype data received by the GEO data processing unit, standardizing the integrated phenotype data,
The step of normalizing the gene expression value data
Wherein the TCGA data in the form of gene expression data is integrated with the TCGA data in the form of gene expression data and the gene expression data received in the GEO data processing unit, To normalize the value data
Integrated analysis processing method.
제9항에 있어서,
상기 복수의 데이터 그룹으로 구분하는 단계는
상기 복수의 데이터 그룹으로 구분하기 위하여 P값(p-value)을 계산하는 통계 기법을 활용하는 것을 특징으로 하는
통합 분석 처리 방법.
10. The method of claim 9,
The step of dividing into the plurality of data groups
And a statistical technique for calculating a P value (p-value) is used to divide the data group into the plurality of data groups
Integrated analysis processing method.
KR1020170127845A 2016-09-30 2017-09-29 Apparatus and method for integrated analysis of gene expression omnibus's gene expression data KR102099166B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160126728 2016-09-30
KR20160126728 2016-09-30

Publications (2)

Publication Number Publication Date
KR20180036622A true KR20180036622A (en) 2018-04-09
KR102099166B1 KR102099166B1 (en) 2020-04-09

Family

ID=61977818

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170127845A KR102099166B1 (en) 2016-09-30 2017-09-29 Apparatus and method for integrated analysis of gene expression omnibus's gene expression data

Country Status (1)

Country Link
KR (1) KR102099166B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021107232A1 (en) * 2019-11-29 2021-06-03 의료법인 성광의료재단 Method for forming biomarker panel for diagnosing ovarian cancer and biomarker panel for diagnosing ovarian cancer

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
D. Amar 외, "Integrated analysis of numerous heterogeneous gene expression profiles for detecting robust disease-specific biomarkers (후략)", Nucleic Acids Research, 43권, 16호, pp. 7779-7789, 2015.08.10.* *
M. H. van Vliet 외, "Integration of Clinical and Gene Expression Data Has Synergetic Effect on Predicting Breast Cancer Outcome", PLOS ONE, 7권, 7호, 2012.07.* *
R. Lacson 외, DSGeo: Software tools for cross-platform analysis of gene expression data in Geo", Journal of Biomedical Informatics, 43권, pp.709-715, 2010.05.07.* *
Z. Huang 외, "Identification of Gene Expression Pattern Related to Breast Cancer Survival Using Integrated TCCGA Datasets and Genomic Tools", BioMed Research International, 2015권, 2015.* *
한국공개특허 제10-2016-0045617호 "miRNA 및 mRNA 발현 데이터를 통합 분석하는 방법 및 장치"

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021107232A1 (en) * 2019-11-29 2021-06-03 의료법인 성광의료재단 Method for forming biomarker panel for diagnosing ovarian cancer and biomarker panel for diagnosing ovarian cancer

Also Published As

Publication number Publication date
KR102099166B1 (en) 2020-04-09

Similar Documents

Publication Publication Date Title
Xia et al. NetworkAnalyst for statistical, visual and network-based meta-analysis of gene expression data
CN106201757B (en) Exception handling method and device
WO2017181665A1 (en) Gene expression data classification method and classification system
CN105488539B (en) The predictor method and device of the generation method and device of disaggregated model, power system capacity
JP2017224283A (en) Big data analytical method and mass analytical system using the same
US20170147753A1 (en) Method for searching for similar case of multi-dimensional health data and apparatus for the same
JP6828807B2 (en) Data analysis device, data analysis method and data analysis program
Petereit et al. petal: Co-expression network modelling in R
Fernandes et al. Establishment of a integrative multi-omics expression database CKDdb in the context of chronic kidney disease (CKD)
CN110021344B (en) Method and system for identifying and classifying operational taxa in metagenomic samples
CN103493075A (en) Outlier detecting apparatus, outlier detecting method, and vehicle trouble diagnosis system
KR20180036622A (en) Apparatus and method for integrated analysis of gene expression omnibus's gene expression data
KR101839572B1 (en) Apparatus Analyzing Disease-related Genes and Method thereof
JP6356015B2 (en) Gene expression information analyzing apparatus, gene expression information analyzing method, and program
JP6623774B2 (en) Pathway analysis program, pathway analysis method, and information processing apparatus
CN111797396A (en) Malicious code visualization and variety detection method, device, equipment and storage medium
CN111797395A (en) Malicious code visualization and variety detection method, device, equipment and storage medium
Casey et al. A machine learning approach to prostate cancer risk classification through use of RNA sequencing data
US20190294523A1 (en) Anomaly identification system, method, and storage medium
Le Meur Computational methods for evaluation of cell-based data assessment—Bioconductor
US8090167B1 (en) Neuronal measurement tool
US20210012896A1 (en) System and method for converting clinical practice guideline to computer interpretable model
CN111709946A (en) Image data analysis method and device, terminal equipment and storage medium
US20200357484A1 (en) Method for simultaneous multivariate feature selection, feature generation, and sample clustering
Cristiano et al. Methods and techniques for miRNA data analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right