KR101624307B1 - 네트워크 조절 모티프 발굴 시스템 및 그 방법 - Google Patents

네트워크 조절 모티프 발굴 시스템 및 그 방법 Download PDF

Info

Publication number
KR101624307B1
KR101624307B1 KR1020140194344A KR20140194344A KR101624307B1 KR 101624307 B1 KR101624307 B1 KR 101624307B1 KR 1020140194344 A KR1020140194344 A KR 1020140194344A KR 20140194344 A KR20140194344 A KR 20140194344A KR 101624307 B1 KR101624307 B1 KR 101624307B1
Authority
KR
South Korea
Prior art keywords
disease
information
biological
gene
protein
Prior art date
Application number
KR1020140194344A
Other languages
English (en)
Other versions
KR20160010276A (ko
Inventor
이관수
오기민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20160010276A publication Critical patent/KR20160010276A/ko
Application granted granted Critical
Publication of KR101624307B1 publication Critical patent/KR101624307B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예에 따른 네트워크 조절 모티프 발굴 시스템은 생물학적 경로 데이터베이스에 저장된 다수의 생물학적 경로 정보 중에서 특정 질병과 관련된 질병 연관 생물학적 경로를 추출하는 질병 연관 생물학적 경로 추출부, 그리고 상기 질병 연관 생물학적 경로로부터 유전자 네트워크에서 반복적으로 발견되는 상호 연결 패턴인 네트워크 조절 모티프를 발굴하는 네트워크 조절 모티프 발굴부를 포함한다.

Description

네트워크 조절 모티프 발굴 시스템 및 그 방법{SYSTEM AND METHOD FOR DISCOVERING OF DESEASE RELATED CORE REGULATORY NETWROK MOTIF}
본 발명은 네트워크 조절 모티프 발굴 시스템 및 그 방법에 관한 것으로서, 질병 연관 세포 기능 조절 핵심 네트워크 조절 모티프를 발굴하는 기술에 관한 것이다.
네트워크 조절 모티프란, 다양한 신호 네트워크 상에서 반복적으로 나타나 진동, 순응, 안정 등의 특정한 조절 특성을 보이는 활성화 또는 억제의 패턴을 의미한다. 네트워크 조절 모티프들은 세포 신호 처리를 조절하는데 핵심적인 조절 메커니즘으로 여겨진다.
네트워크 조절 모티프는 세포 내 기능에 핵심적인 역할을 수행하며 이러한 조절 모티프의 오작동은 질병 유발 및 약물 저항성 등을 야기할 수 있다는 최근의 계산 모델링 연구 결과들이 있다.
종래에 유전자 발현 수준에 대한 군집 분석 및 상관 분석을 이용하여 특정 질환에 높은 정확도를 가지는 바이오 마커를 발굴하는 기술이 있다. 그러나 이 기술에는 네트워크 조절 모티프 발굴에 대한 내용은 없다.
또한, 종래에 암 관련 유전자 정보와 유전자 발현 데이터를 활용하여 조절 모티프를 발굴하는 기술이 있다. 그러나 이 기술은 암에만 제한되어 있다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 질병 연관 생물학적 경로 내 네트워크 조절 모티프를 발굴하고, 발굴된 네트워크 조절 모티프 중에서 질병에서 오작동하는 핵심 네트워크 조절 모티프를 선별하는 질병 연관 세포 기능 조절 핵심 네트워크 조절 모티프 발굴 시스템 및 그 방법을 제공하는 것이다.
본 발명의 하나의 특징에 따르면, 네트워크 조절 모티프 발굴 시스템은 생물학적 경로 데이터베이스에 저장된 다수의 생물학적 경로 정보 중에서 특정 질병과 관련된 질병 연관 생물학적 경로를 추출하는 질병 연관 생물학적 경로 추출부, 그리고 상기 질병 연관 생물학적 경로로부터 유전자 네트워크에서 반복적으로 발견되는 상호 연결 패턴인 네트워크 조절 모티프를 발굴하는 네트워크 조절 모티프 발굴부를 포함한다.
정상 샘플 군 및 질병 샘플 군에서 각각의 유전자 발현양을 측정한 데이터인 유전자 발현 데이터를 토대로 상기 네트워크 조절 모티프 중에서 유전자 발현 양상이 정상 조절되지 않아 오작동 가능성이 있는 핵심 질병 네트워크 조절 모티프를 발굴하는 핵심 질병 네트워크 조절 모티프 발굴부를 더 포함할 수 있다.
서로 다른 국가 및 기관에서 구축한 이미 알려진 서로 다른 복수의 질병 유전자 데이터베이스로부터 수집한 질병 유전자 정보 및 이미 알려진 서로 다른 복수의 약물 데이터베이스로부터 수집한 약물 표적 단백질 정보를 고유의 포맷으로 구성한 통합 질병 유전자 정보를 생성하는 통합 질병 유전자 데이터베이스 구축부, 그리고 상기 통합 질병 유전자 정보를 저장하는 통합 질병 유전자 데이터베이스를 더 포함하고,
상기 질병 연관 생물학적 경로 추출부는,
사용자 입력에 따른 특정 질병이 선정되면, 상기 특정 질병과 관련된 질병 유전자를 상기 통합 질병 유전자 데이터베이스로부터 추출하고, 추출한 질병 유전자와 관련된 상기 질병 연관 생물학적 경로를 추출할 수 있다.
상기 통합 질병 유전자 데이터베이스 구축부는,
상기 서로 다른 복수의 질병 유전자 데이터베이스로부터 각각의 질병 유전자를 수집하고, 상기 서로 다른 복수의 약물 데이터베이스로부터 각각의 약물 표적 단백질 정보를 수집하는 수집 모듈, 상기 각각의 질병 유전자와 상기 각각의 약물 표적 단백질 정보를 질병 별로 분류하여 질병 별로 서로 관련된 질병 유전자 및 약물 표적 단백질 정보를 추출하는 질병 연관 정보 추출 모듈, 그리고 상기 서로 관련된 질병 유전자 및 약물 표적 단백질 정보에 공통 식별자를 할당하여 질병 별로 통합 질병 유전자 정보를 생성하는 데이터 통합 모듈을 포함할 수 있다.
상기 데이터 통합 모듈은,
보편적단백질자원(Uniprot, The Universal Protein Resource)의 데이터베이스 식별자를 상기 공통 식별자로 할당할 수 있다.
서로 다른 국가 및 기관에서 구축한 이미 알려진 서로 다른 복수의 생물학적 경로 데이터베이스로부터 수집한 서로 다른 포맷을 가지는 생물학적 경로 정보를 고유의 포맷으로 구성한 통합 생물학적 경로 정보를 생성하는 통합 생물학적 경로 데이터베이스 구축부, 그리고 상기 통합 생물학적 경로 정보를 저장하는 통합 생물학적 경로 데이터베이스를 더 포함하고,
상기 질병 연관 생물학적 경로 추출부는,
상기 통합 생물학적 경로 데이터베이스로부터 상기 질병 유전자와 관련된 질병 연관 생물학적 경로를 추출할 수 있다.
상기 통합 생물학적 경로 데이터베이스 구축부는,
상기 서로 다른 복수의 생물학적 경로 데이터베이스로부터 각각의 생물학적 경로 정보를 수집하여 BioPAX(Biological Pathway Exchange) 형식과 XML(eXtensible markup language) 형식으로 구분하는 수집 모듈, 상기 수집 모듈로부터 구분된 BioPAX 형식의 생물학적 경로 정보를 해석하는 BioPAX 형식 구문 분석 모듈, 상기 수집 모듈로부터 구분된 XML 형식의 생물학적 경로 정보를 해석하는 XML 형식 구문 분석 모듈, 상기 BioPAX 형식 및 XML 형식의 생물학적 경로 정보로부터 단백질 정보와, 단백질과 단백질 간 관계 정보를 추출하는 생물학적 경로 정보 추출 모듈, 그리고 상기 단백질 정보와, 단백질과 단백질 간 관계 정보에 공통의 식별자를 할당하여 통합 생물학적 경로 정보를 생성하는 데이터 통합 모듈을 포함할 수 있다.
상기 데이터 통합 모듈은,
보편적단백질자원(Uniprot, The Universal Protein Resource)의 데이터베이스 식별자를 상기 공통 식별자로 할당할 수 있다.
상기 질병 연관 생물학적 경로 추출부는,
유전자 별로 생물학적 프로세스, 분자적 기능, 세포 내 위치 정보가 각각 계층적으로 저장된 유전자 온톨로지(Gene Ontology) 데이터베이스에 저장된 정보를 토대로 상기 질병 연관 유전자와 상기 생물학적 경로 각각의 연관된 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 추론하여 유사도를 측정하고, 상기 유사도에 따라 상기 질병 유전자와 관련된 질병 연관 생물학적 경로를 추출할 수 있다.
상기 네트워크 조절 모티프 발굴부는,
RMOD(Regulatory Motif Detection) 분석 툴에 상기 질병 연관 생물학적 경로 정보를 입력하여 상기 RMOD 분석 툴로부터 상기 특정 질병의 질병 유전자의 기능과 관련된 상기 단백질 정보와, 상기 단백질과 단백질 간 관계 정보로 구성된 상기 네트워크 조절 모티프를 출력할 수 있다.
본 발명의 다른 특징에 따르면, 네트워크 조절 모티프 발굴 방법은 사용자 입력에 따른 특정 질병이 선정되면, 생물학적 경로 데이터베이스에 저장된 다수의 생물학적 경로 정보 중에서 상기 특정 질병과 관련된 질병 연관 생물학적 경로를 추출하는 단계, 그리고 상기 질병 연관 생물학적 경로로부터 유전자 네트워크에서 반복적으로 발견되는 상호 연결 패턴인 네트워크 조절 모티프를 발굴하는 단계를 포함한다.
상기 네트워크 조절 모티프를 발굴하는 단계 이후,
정상 샘플 군 및 질병 샘플 군에서 각각의 유전자 발현양을 측정한 데이터인 유전자 발현 데이터를 토대로 상기 네트워크 조절 모티프 중에서 유전자 발현 양상이 정상 조절되지 않아 오작동 가능성이 있는 핵심 질병 네트워크 조절 모티프를 발굴하는 단계를 더 포함할 수 있다.
상기 네트워크 조절 모티프를 발굴하는 단계는,
RMOD(Regulatory Motif Detection) 분석 툴에 상기 질병 연관 생물학적 경로 정보를 입력하여 상기 RMOD 분석 툴로부터 상기 특정 질병의 질병 유전자의 기능과 관련된 상기 단백질 정보와, 상기 단백질과 단백질 간 관계 정보로 구성된 상기 네트워크 조절 모티프를 출력하는 단계를 포함할 수 있다.
상기 질병 연관 생물학적 경로를 추출하는 단계 이전에,
서로 다른 국가 및 기관에서 구축한 이미 알려진 서로 다른 복수의 생물학적 경로 데이터베이스로부터 수집한 서로 다른 포맷을 가지는 생물학적 경로 정보를 고유의 포맷으로 구성한 통합 생물학적 경로 정보를 생성하여 통합 생물학적 경로 데이터베이스를 생성하는 단계, 그리고 서로 다른 국가 및 기관에서 구축한 이미 알려진 서로 다른 복수의 질병 유전자 데이터베이스로부터 수집한 질병 유전자 정보 및 이미 알려진 서로 다른 복수의 약물 데이터베이스로부터 수집한 약물 표적 단백질 정보를 고유의 포맷으로 구성한 통합 질병 유전자 정보를 생성하여 통합 질병 유전자 데이터베이스를 생성하는 단계를 더 포함하고,
상기 질병 연관 생물학적 경로를 추출하는 단계는,
상기 특정 질병과 관련된 질병 유전자를 상기 통합 질병 유전자 데이터베이스로부터 추출하고, 추출한 질병 유전자와 관련된 상기 질병 연관 생물학적 경로를 상기 통합 생물학적 경로 데이터베이스로부터 추출할 수 있다.
상기 질병 연관 생물학적 경로를 추출하는 단계는,
유전자 별로 생물학적 프로세스, 분자적 기능, 세포 내 위치 정보가 각각 계층적으로 저장된 유전자 온톨로지(Gene Ontology) 데이터베이스에 저장된 정보와 상기 통합 질병 유전자 데이터베이스에 저장된 질병 별 유전자 집함에서 상기 질병 연관 유전자와 연관된 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 포함하는 제1 공통 연관 기능을 추론하는 단계, 상기 유전자 온톨로지 데이터베이스에 저장된 정보와 상기 통합 생물학적 경로 데이터베이스에 저장된 생물학적 경로에서 상기 생물학적 경로와 연관된 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 포함하는 제2 공통 연관 기능을 추론하는 단계, 자카드 인덱스를 이용하여 상기 제1 공통 연관 기능과 상기 제2 공통 연관 기능 간의 유사도를 측정하는 단계, 그리고 상기 유사도에 따라 상기 질병 유전자와 관련된 질병 연관 생물학적 경로를 추출하는 단계를 포함할 수 있다.
상기 통합 생물학적 경로 데이터베이스를 생성하는 단계는,
상기 서로 다른 복수의 생물학적 경로 데이터베이스로부터 각각의 생물학적 경로 정보를 수집하는 단계, 수집한 정보를 BioPAX(Biological Pathway Exchange) 형식과 XML(eXtensible markup language) 형식으로 구분하는 단계, 상기 BioPAX 형식 및 XML 형식의 생물학적 경로 정보로부터 단백질 정보와, 단백질과 단백질 간 관계 정보를 추출하는 단계, 그리고 상기 단백질 정보와, 단백질과 단백질 간 관계 정보에 보편적단백질자원(Uniprot, The Universal Protein Resource)의 데이터베이스 식별자를 공통의 식별자로 할당하여 통합 생물학적 경로 정보를 생성하는 단계를 포함할 수 있다.
상기 통합 질병 유전자 데이터베이스를 생성하는 단계는,
상기 서로 다른 복수의 질병 유전자 데이터베이스로부터 각각의 질병 유전자를 수집하는 단계, 상기 서로 다른 복수의 약물 데이터베이스로부터 각각의 약물 표적 단백질 정보를 수집하는 단계, 상기 각각의 질병 유전자와 상기 각각의 약물 표적 단백질 정보를 질병 별로 분류하여 질병 별로 서로 관련된 질병 유전자 및 약물 표적 단백질 정보를 추출하는 단계, 그리고 상기 서로 관련된 질병 유전자 및 약물 표적 단백질 정보에 보편적단백질자원(Uniprot, The Universal Protein Resource)의 데이터베이스 식별자를 공통 식별자로 할당하여 질병 별로 통합 질병 유전자 정보를 생성하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 신호 전달 경로들을 통합하고 암에만 국한되는 것이 아니라 질병 유전자 데이터베이스로부터 수집한 모든 질병에 대해 분석 가능한 플랫폼을 구축하여 대단위로 네트워크 조절 모티프를 발굴할 수 있다.
또한, 네트워크 조절 모티프를 통한 발병 기전 및 약리 기전을 이해하고 새로운 치료 전략으로 활용할 수 있다.
도 1은 본 발명의 실시예에 따른 네트워크 조절 모티프 발굴 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 네트워크 조절 모티프를 도시한 것이다.
도 3은 도 1의 통합 생물학적 경로 데이터베이스 구축부의 세부적인 구성을 나타낸 블록도이다.
도 4는 도 1의 통합 질병 유전자 데이터베이스 구축부의 세부적인 구성을 나타낸 블록도이다.
도 5는 본 발명의 실시예에 따른 네트워크 조절 모티프 발굴 방법을 나타낸 순서도이다.
도 6은 도 5의 S105 단계를 상세히 나타낸 순서도이다.
도 7은 본 발명의 실시예에 따른 통합 생물학적 경로 데이터베이스 구축 과정을 나타낸 순서도이다.
도 8은 본 발명의 실시예에 따른 통합 질병 유전자 데이터베이스 구축 과정을 나타낸 순서도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
또한, 명세서에 기재된 "…부", "…모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 도면을 참조로 하여 본 발명의 실시예에 따른 네트워크 조절 모티프 발굴 시스템 및 그 방법에 대하여 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 네트워크 조절 모티프 발굴 시스템의 구성을 나타낸 블록도이고, 도 2는 본 발명의 실시예에 따른 네트워크 조절 모티프를 도시한 것이다.
도 1을 참조하면, 네트워크 조절 모티프 발굴 시스템(100)은 통합 생물학적 경로 데이터베이스 구축부(110), 통합 생물학적 경로 데이터베이스(120), 통합 질병 유전자 데이터베이스 구축부(130), 통합 질병 유전자 데이터베이스(140), 질병 연관 생물학적 경로 추출부(150), 네트워크 조절 모티프 발굴부(160) 및 핵심 질병 네트워크 조절 모티프 발굴부(170)를 포함한다.
통합 생물학적 경로 데이터베이스 구축부(110)는 이미 알려진 서로 다른 복수의 생물학적 경로 데이터베이스로부터 수집한 서로 다른 포맷을 가지는 생물학적 경로 정보를 고유의 단일 포맷으로 구성한 통합 생물학적 경로 정보를 생성한다.
여기서, 생물학적 경로는 세포 내 신호 전달, 대사, 분해, 전사를 담당하는 복수의 기능을 조절하기 위한 복수의 단백질로 구성된 일련의 프로세스이다. 이러한 일련의 프로세스를 표현하기 위해 생물학적 경로 데이터베이스에는 기본적으로 엔티티(entity)(node)와 관계(relation)(edge)에 대한 정보를 포함한다. 즉, 특정 생물학적 경로에 포함된 단백질들 정보와 단백질??단백질 사이 관계 정보를 포함하고 있다.
세포 막에 있는 수용체나 이온채널 등이 외부 신호를 인지하여 일련의 순서를 따라 단백질에서 단백질로 신호를 전달한다. 이처럼, 세포 간 신호 전달이 이루어지면서, 세포의 대사, 이동, 증식, 생존 그리고 분화와 같은 세포의 활동이 조절된다. 세포 내 신호 전달 과정은 외부 신호 전달 물질을 세포 표면의 수용체 단백질이 인식하고 이를 세포 내에 전달함으로써 이루어진다. 호르몬이나 환경 변화 같은 외부의 자극이 올 경우, 세포는 이를 감지하여 세포 내로 전달하여 이에 대한 반응을 한다. 이때, 세포의 외부에서 오는 신호를 세포 내로 전달하는 과정을 신호 전달 경로라고 하며, 외부 자극이 세포에 가해지면 세포 내의 단백질들은 복잡한 단백질 상호 작용을 통해 그 신호를 전달하여 유전자 발현과 같은 현상으로 연결한다.
통합 생물학적 경로 데이터베이스(120)는 통합 생물학적 경로 데이터베이스 구축부(110)가 생성한 통합 생물학적 경로 정보를 저장한다.
통합 질병 유전자 데이터베이스 구축부(130)는 이미 알려진 서로 다른 복수의 질병 유전자 데이터베이스로부터 수집한 질병 유전자 정보 및 이미 알려진 서로 다른 복수의 약물 데이터베이스로부터 수집한 약물 표적 단백질 정보를 고유의 단일 포맷으로 구성한 통합 질병 유전자 정보를 생성한다.
여기서, 질병 유전자란 변이를 통하여 서열 자체가 바뀌거나, 세포 내 환경에 따라 발현 양이 변화될 경우 질병 상태를 유발할 수 있는 유전자를 의미한다. 실험적으로 검증되거나 정보 분석을 통하여 예측된 질병 유전자를 수집한 다양한 데이터베이스가 존재하며, 통합 질병 유전자 데이터베이스(140)는 이러한 기존의 다양한 형식의 질병 유전자를 하나의 포맷으로 생성하여 저장한다.
통합 질병 유전자 데이터베이스(140)는 통합 질병 유전자 데이터베이스 구축부(130)가 생성한 통합 질병 유전자 정보를 저장한다. 즉, 어떤 유전자가 어떤 질병과 연관이 있는지에 대한 정보를 저장한다.
질병 연관 생물학적 경로 추출부(150)는 생물학적 경로 데이터베이스에 저장된 다수의 생물학적 경로 정보 중에서 특정 질병과 관련된 질병 연관 생물학적 경로를 추출한다. 여기서, 생물학적 경로 데이터베이스는 통합 생물학적 경로 데이터베이스(120)를 말한다.
질병 연관 생물학적 경로 추출부(150)는 사용자 입력에 따른 특정 질병이 선정되면, 선정된 특정 질병과 관련된 질병 유전자를 통합 질병 유전자 데이터베이스(140)로부터 선택한다. 그리고 추출한 질병 유전자와 관련된 질병 연관 생물학적 경로를 통합 생물학적 경로 데이터베이스(120)로부터 추출한다.
이때, 질병 연관 생물학적 경로 추출부(150)는 유전자 온톨로지(Gene Ontology) 데이터베이스(미도시)에 저장된 정보를 토대로 질병 연관 유전자와 생물학적 경로 각각의 연관된 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 추론하여 유사도를 측정한다. 그리고 유사도에 따라 질병 유전자와 관련된 질병 연관 생물학적 경로를 추출한다. 예를들면, 유사도가 임계치 이상인 생물학적 경로를 질병 연관 생물학적 경로로 추출할 수 있다.
질병 연관 생물학적 경로는 크게 두 가지 경우가 있다. 즉, 특정 질병 상태를 유발하게 된 생물학적 경로 및 질병 상태의 결과로써 작동하는 생물학적 경로이다.
유전자 온톨로지 데이터베이스(미도시)는 이미 알려진 데이터베이스로서, 유전자 별로 생물학적 프로세스, 분자적 기능, 세포 내 위치 정보가 각각 계층적으로 저장되어 있다.
질병 연관 생물학적 경로 추출부(150)는 유전자 온톨로지 데이터베이스(미도시)에 저장된 유전자(단백질)에 대한 프로세스/기능/위치 정보를 기반으로 질병 유전자 집합과 생물학적 경로 각각의 연관된 프로세스/기능/위치 정보를 추론한다. 그리고 이렇게 추론된 프로세스/기능/위치 정보 기반 질병 유전자와 생물학적 경로 각각이 연관된 기능이 서로 얼마나 유사한지를 자카드 인덱스 기반으로 유사도를 측정한다. 질병 유전자가 연관된 생물학적 경로가 어떤 것인지 선별하는 과정에서 기존에 알려진 생물학적 경로외 질병 유전자들의 기능과 연관된 생물학적 경로를 추가로 선별할 수 있다는 점에서 신규 타깃 발굴 가능성이 확장된다.
네트워크 조절 모티프 발굴부(160)는 질병 연관 생물학적 경로로부터 네트워크 조절 모티프를 발굴한다. 여기서, 네트워크 조절 모티프는 세포 내 다양한 신호 네트워크 상에서 반복적으로 나타나 특정한 조절 특성을 보이는 네트워크 구조라 정의할 수 있다. 즉, 유전자 네트워크에서 반복적으로 발견되는 상호 연결 패턴인 것이다.
도 2와 같이, 네트워크 조절 모티프는 오른쪽 A, B, C의 노드(또는 단백질)가 서로 어떤 관계로 얽혀 있는지에 대해 이들로 인한 반응 양상이 왼쪽에 있는 그래프 형태처럼 생성된다.
네트워크 조절 모티프 발굴부(160)는 네트워크로부터 정해진 네트워크 조절 모티프를 탐색하는 웹기반 툴인 RMOD(Regulatory Motif Detection) 분석 툴에 질병 연관 생물학적 경로 정보를 입력하여 RMOD 분석 툴로부터 특정 질병의 질병 유전자의 기능과 관련된 단백질 정보와, 단백질과 단백질 간 관계 정보로 구성된 네트워크 조절 모티프를 출력한다. RMOD 분석 툴은 입력으로 주어진 생물학적 경로로부터 이와 같은 형태의 네트워크 조절 모티프를 탐색하여 결과를 제공한다. 이렇게 선별된 네트워크 조절 모티프에 대해 질병 상태에서 오작동할 것으로 기대되는 네트워크 조절 모티프를 유전자 발현 데이터 기반 선별하게 된다. 유전자 발현 데이터를 통해 정상 대비 질병 상태에서 과발현 혹은 저발현 된 유전자를 찾을 수 있다. 유전자의 발현 양상이 정상적으로 조절되지 않는 것이 질병 상태를 유발하는 원인이거나 혹은 질병 상태로 인한 결과로 추론된다. 핵심 질병 네트워크 조절 모티프 발굴부(170)는 이를 활용하여 네트워크 조절 모티프 가운데 유전자 발현 양상이 정상 조절되지 않음으로 인해 오작동할 것으로 기대되는 네트워크 조절 모티프를 선별하며, 이렇게 선별된 네트워크 조절 모티프를 핵심 질병 네트워크 조절 모티프로 발굴하게 된다.
여기서, 생물의 생화학적 기능은 매우 밀접하게 상호 연관을 갖는 세포 구성 요소들이 통합되어 하나의 기능을 수행하게 되는데 이러한 기능적 단위를 모듈(module)이란 부른다. 세포는 고밀도의 모듈화(modularity) 방법으로 각 세포의 기능을 수행한다. 일반적으로 모듈화란 구체적인 기능을 수행하기 위해 물리적으로 또는 기능적으로 연결된 분자(노드)의 집합이다. 상호 작용 패턴이 동일 크기의 램덤 네트워크에서 보다 확연히 양적으로 많이 발견되면 네트워크 조절 모티프(motif)라 칭하며 이 모티프는 기능적 모듈을 구성하는 가장 기본적인 단위이다.
핵심 질병 네트워크 조절 모티프 발굴부(170)는 네트워크 조절 모티프 발굴부(160)에 의해 선별된 네트워크 조절 모티프들 가운데 질병 연관 네트워크 조절 모티프 발굴을 위해 선정 질병의 유전자 발현 데이터를 기반으로 필터링한다. 즉, 핵심 질병 네트워크 조절 모티프 발굴부(170)는 정상 샘플 군 및 질병 샘플 군에서 각각의 유전자 발현양을 측정한 데이터인 유전자 발현 데이터를 토대로 네트워크 조절 모티프 중에서 유전자 발현 양상이 정상 조절되지 않아 오작동 가능성이 있는 핵심 질병 네트워크 조절 모티프를 발굴한다. 이때, 유전자 발현 데이터 기반 선별된 질병 연관 네트워크 조절 모티프에 대해 우선 순위를 측정함으로써 핵심 모티프를 선정할 수 있다.
도 3은 도 1의 통합 생물학적 경로 데이터베이스 구축부의 세부적인 구성을 나타낸 블록도이다.
도 3을 참조하면, 통합 생물학적 경로 데이터베이스 구축부(110)는 수집 모듈(111), BioPAX(Biological Pathway Exchange) 형식 구문 분석 모듈(112), XML(eXtensible markup language) 형식 구문 분석 모듈(113), 생물학적 경로 정보 추출 모듈(114) 및 데이터 통합 모듈(115)을 포함한다.
수집 모듈(111)은 서로 다른 n개의 생물학적 경로 데이터베이스(200)로부터 각각의 생물학적 경로 정보를 수집한다.
이때, 서로 다른 n개의 생물학적 경로 데이터베이스(200)는 서로 다른 국가 및 기관에서 구축한 이미 알려진 데이터베이스로서, NCI??Nature PID(Pathway Interaction Database), 바이오카타(BioCarta), Reactome, KEGG(Kyoto Encyclopedia of Genes and Genomes)를 포함할 수 있다. NCI??Nature PID(Pathway Interaction Database), 바이오카타(BioCarta), Reactome, KEGG(Kyoto Encyclopedia of Genes and Genomes)는 각기 다른 국가와 기관에서 알려진 생물학적 경로에 대해 수집 정리해 놓은 공개 데이터베이스이다. 이때, 서로 포함하고 있는 경로 정보나 경로네 entity, relation 정보가 차이가 있다.
각 데이터베이스에 대해 간단히 설명하면, NCI??Nature PID는 인간 셀룰러 시그널링 경로(human cellular signaling pathways)의 무료 바이오메디컬(free biomedical) 데이터베이스이다. 바이오카타(BioCarta)는 유전자의 상동성 검색을 통해 과발현 또는 저발현된 유전자의 정체를 밝혀내기 위한 것이다. Reactome은 바이오로지컬 경로(biological pathways)의 온라인 데이터베이스이다. KEGG(Kyoto Encyclopedia of Genes and Genomes)는 1995년 일본에서 만들어진 생화학 관련 데이터베이스이다.
수집 모듈(111)은 수집한 복수의 생물학적 경로 정보를 BioPAX 형식과 XML 형식으로 구분하여 각각 BioPAX 형식 구문 분석 모듈(112) 및 XML 형식 구문 분석 모듈(113)로 전달한다.
생물학적 데이터는 데이터베이스 마다 별개의 식별자를 가지고 있으며, 같은 대상에 대해서 다양한 이름이 부여되고, 컴퓨터는 이를 처리할 때 다른 대상으로 본다. 이로 인해 다양한 종류의 네트워크 데이터를 쉽게 교환하고 통합하는 것은 생물학 연구의 기반으로 중요한 일이기 때문에 세계적으로 많은 표준화 작업이 진행되고 있다. 특히, XML 기반의 PSI??MI, RDF 기반의 BioPAX 는 대표적인 표준안에 해당된다. 따라서, 본 발명의 실시예에서는 이러한 표준안의 생물학적 정보를 활용한다.
BioPAX 형식 구문 분석 모듈(112)은 BioPAX 형식의 생물학적 경로 정보를 해석하여 필요한 정보를 추출한다. 여기서, BioPAX 형식은 분자 및 세포 레벨(molecular and cellular level)에서 생물학적 경로를 표현하기 위한 RDF/OWL 기반의 표준 언어이다.
XML 형식 구문 분석 모듈(113)은 XML 형식의 생물학적 경로 정보를 해석하여 필요한 정보를 추출한다. 여기서, XML은 구조화된 문서를 웹 상에서 구현할 수 있는 인터넷 프로그래밍 언어이다.
이때, BioPAX 형식 구문 분석 모듈(112) 및 XML 형식 구문 분석 모듈(113)이 추출하는 필요한 정보라 함은 생물학적 경로 정보 구성에 필요한 정보라 정의할 수 있으며, entity와 relation에 해당되는 정보를 말한다.
하나의 실시예에 따르면, 생물학적 경로 데이터베이스 중에서 KEGG pathway의 경우 XML 형태로 정보가 저장되어 있는데 표 1과 같다.
<entry id="36" name="hsa:2885" type="gene"
link="">
<graphics name="GRB2, ASH, EGFRBP??GRB2, Grb3??3, MST084, MSTP084, NCKAP2" fgcolor="#000000" bgcolor="#BFFFBF"
type="rectangle" x="283" y="311" width="46" height="17"/>
</entry>
<entry id="40" name="hsa:4914 hsa:4915" type="gene"
link="">
<graphics name="NTRK1, MTC, TRK, TRK1, TRKA, Trk??A, p140??TrkA..." fgcolor="#000000" bgcolor="#BFFFBF"
type="rectangle" x="220" y="244" width="46" height="17"/>
</entry>
<relation entry1="36" entry2="40" type="PPrel">
<subtype name="binding/association" value="??????"/>
</relation>
표 1에 따르면, 볼드체한 정보를 뽑으면 entry 정보에 36 => hsa:2885, 40 => hsa:4914 정보가 저장되고, relation 정보에는 36 40 PPrel binding/association이 저장된다. 이 둘을 이용해서 hsa:2885 hsa:4914 PPrel binding/association이 저장되는 것이다. 여기서, 'hsa:2885 hsa:4914 PPrel binding/association'는 hsa:2885라는 단백질과 hsa:4914라는 단백질은 서로 binding/association 하는 관계다라는 것을 나타내는 정보이다. 이와 유사한 과정으로 위와 같이 각기 저장되어 있는 형태로부터 정보를 추출해 맨 마지막과 같은 단백질과 단백질이 어떤 관계에 있다는 것인지에 대한 정보를 추출한다. 그리고 이러한 정보를 합쳐서 만든 것이 네트워크가 되고 그 중에 특수한 형태의 작은 서브네트워크를 네트워크 조절 모티프라 한다.
또한, hsa:2885 처럼 각기 데이터베이스마다 사용하는 아이디가 다른데 이러한 아이디들을 하나의 동일한 아이디로 치환(매핑)해주는 과정을 데이터 통합 모듈(115)이 수행하는 것이다.
생물학적 경로 정보 추출 모듈(114)은 BioPAX 형식 구문 분석 모듈(112)이 추출한 필요한 정보와 XML 형식 구문 분석 모듈(113)이 추출한 필요한 정보로부터 단백질 정보와, 단백질과 단백질 간 관계 정보를 포함하는 생물학적 경로 정보를 추출한다.
데이터 통합 모듈(115)은 생물학적 경로 정보 추출 모듈(114)이 추출한 단백질 정보와, 단백질과 단백질 간 관계 정보에 공통의 식별자를 할당하여 통합 생물학적 경로 정보를 생성한다. 이때, 보편적단백질자원(Uniprot, The Universal Protein Resource)(300)의 데이터베이스 식별자를 공통 식별자로 할당한다. 그리고 이처럼 공통 식별자가 할당된 통합 생물학적 경로 정보를 저장한 통합 생물학적 경로 데이터베이스(120)를 생성한다.
도 4는 도 1의 통합 질병 유전자 데이터베이스 구축부의 세부적인 구성을 나타낸 블록도이다.
도 4를 참조하면, 통합 질병 유전자 데이터베이스 구축부(130)는 수집 모듈(131), 질병 연관 정보 추출 모듈(132) 및 데이터 통합 모듈(133)을 포함한다.
수집 모듈(131)은 서로 다른 n개의 질병 유전자 데이터베이스(400)로 질병 유전자를 수집하고, 서로 다른 n개의 약물 표적 데이터베이스(500)로부터 약물 표적 단백질을 수집한다. 약물 표적 단백질은 약물과 약물의 표적 정보를 담고 있어 약물의 표적이 되는 유전자를 질병 연관 유전자로 볼 수 있다.
이때, 서로 다른 n개의 질병 유전자 데이터베이스(400)는 실험적으로 검증되거나 알려진 질병 유전자 공개 데이터베이스로서, OMIM(Online Mendelian Inheritance in Man), Genetic Association Database, KEGG DISEASE, PharmGKB, Cancer Gene Census, HuGE Navigator 등이 있다. HuGE Navigator는 GWAS 분석 지식 통합 기반 질병 변이 및 질병 유전자 데이터베이스이다.
서로 다른 n개의 약물 표적 데이터베이스(500)는 DrugBank와 KEGG Drug을 포함할 수 있는데, 이들은 FDA 승인된 약물을 포함하는 약물들의 데이터베이스로 약물과 약물의 표적 정보를 저장한다.
질병 연관 정보 추출 모듈(132)은 수집 모듈(131)이 수집한 각각의 질병 유전자와 각각의 약물 표적 단백질 정보를 질병 별로 분류하여 질병 별로 서로 관련된 질병 유전자 및 약물 표적 단백질 정보를 추출한다.
데이터 통합 모듈(133)은 서로 관련된 질병 유전자 및 약물 표적 단백질 정보에 공통 식별자를 할당하여 질병 별로 통합 질병 유전자 정보를 생성한다. 이때, 공통 식별자는 보편적단백질자원(Uniprot)(300)의 데이터베이스 식별자가 활용된다.
지금까지 설명한 내용을 토대로 네트워크 조절 모티프를 발굴하는 일련의 과정에 대해 설명한다. 이때, 도 1 내지 도 4에 설명한 구성과 연계하여 동일한 도면 부호를 사용한다.
도 5는 본 발명의 실시예에 따른 네트워크 조절 모티프 발굴 방법을 나타낸 순서도이다.
도 5를 참조하면, 사용자 입력에 따른 질병이 선정(S101)되면, 질병 연관 생물학적 경로 추출부(150)는 통합 질병 유전자 데이터베이스(140)로부터 선정된 특정 질병과 연관된 질병 유전자들을 선택한다(S103). 이때, S101 단계는 네트워크 조절 모티프 대상이 되는 특정 질병이 실험자에 의해 선택되는 과정이라 할 수 있다.
질병 연관 생물학적 경로 추출부(150)는 S103 단계에서 선택된 질병 유전자들의 기능과 연관된 질병 연관 생물학적 경로를 통합 생물학적 경로 데이터베이스(120)로부터 추출한다(S105).
네트워크 조절 모티프 발굴부(160)는 S105 단계에서 추출된 질병 연관 생물학적 경로 내에 존재하는 네트워크 조절 모티프를 탐색함으로써 질병 연관 네트워크 조절 모티프를 발굴한다(S107). 즉, RMOD 분석 툴에 질병 연관 생물학적 경로를 입력하여 특정 질병의 질병 유전자의 기능과 관련된 단백질 정보와, 단백질과 단백질 간 관계 정보로 구성된 네트워크 조절 모티프를 발굴한다.
핵심 질병 네트워크 조절 모티프 발굴부(170)는 S107 단계에서 발굴된 네트워크 조절 모티프에 대해 유전자 발현 데이터를 토대로 필터링하여 유전자 발현 양상이 정상 조절되지 않아 오작동 가능성이 있는 핵심 질병 네트워크 조절 모티프를 발굴한다(S109).
도 6은 도 5의 S105 단계를 상세히 나타낸 순서도이다.
도 6을 참조하면, 질병 연관 생물학적 경로 추출부(150)는 유전자 온톨로지 데이터베이스(미도시)에 저장된 정보와 통합 질병 유전자 데이터베이스(140)에 저장된 질병 별 유전자 집함에서 질병 연관 유전자와 연관된 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 포함하는 제1 공통 연관 기능을 추론한다(S201).
질병 연관 생물학적 경로 추출부(150)는 유전자 온톨로지 데이터베이스(미도시)에 저장된 정보와 통합 생물학적 경로 데이터베이스(120)에 저장된 생물학적 경로에서 생물학적 경로와 연관된 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 포함하는 제2 공통 연관 기능을 추론한다(S203).
질병 연관 생물학적 경로 추출부(150)는 자카드 인덱스를 이용하여 제1 공통 연관 기능과 제2 공통 연관 기능 간의 유사도를 측정한다(S205). 그리고 유사도에 따라 질병 유전자와 관련된 질병 연관 생물학적 경로를 추출한다(S207).
여기서, 자카드 인덱스는 두 집합의 유사도를 비교하는 기본적인 측정 방법으로 두 집합의 교집합과 합집합의 비로써 표현된다. 즉, 공통 원소를 얼마나 포함하는지를 측정하는 것으로 두 집합이 유사하다면 교집합과 합집합이 유사하게 되어 비율이 1에 근접하게 된다. 반대로 두 집합의 공통 원소가 적다면 비율이 0에 근접하게 된다.
도 7은 본 발명의 실시예에 따른 통합 생물학적 경로 데이터베이스 구축 과정을 나타낸 순서도이다.
도 7을 참조하면, 수집 모듈(111)은 서로 다른 복수의 생물학적 경로 데이터베이스(200)로부터 각각의 생물학적 경로 정보를 수집한다(S301).
수집 모듈(111)은 S301 단계에서 수집한 각각의 생물학적 경로 정보를 BioPAX 형식과 XML 형식으로 분류한다(S303).
BioPAX 형식 구문 분석 모듈(112)은 S303 단계에서 분류된 BioPAX 형식의 생물학적 경로 정보를 해석하고, XML 형식 구문 분석 모듈(113)은 S303 단계에서 분류된 XML 형식의 생물학적 경로 정보를 해석하면, 이러한 해석 결과를 토대로 생물학적 경로 정보 추출 모듈(114)은 단백질 정보와, 단백질과 단백질 간 관계 정보를 추출한다(S305).
데이터 통합 모듈(115)은 S305 단계에서 추출된 정보에 보편적단백질자원(Uniprot) 데이터베이스 식별자를 공통 식별자로 할당(S307)하여 통합 생물학적 경로 데이터베이스를 생성한다(S309).
도 8은 본 발명의 실시예에 따른 통합 질병 유전자 데이터베이스 구축 과정을 나타낸 순서도이다.
도 8을 참조하면, 수집 모듈(131)는 서로 다른 복수의 질병 유전자 데이터베이스(400)로부터 각각의 질병 유전자와, 서로 다른 복수의 약물 데이터베이스(500)로부터 각각의 약물 표적 단백질을 수집한다(S401).
질병 연관 정보 추출 모듈(132)은 S401 단계에서 수집한 정보로부터 질병 별로 서로 연관된 질병 유전자 및 표적 단백질을 추출한다(S403).
데이터 통합 모듈(133)은 S403 단계에서 추출된 서로 관련된 질병 유전자 및 약물 표적 단백질 정보에 보편적단백질자원(Uniprot)의 데이터베이스 식별자를 공통 식별자로 할당(S405)하여 통합 질병 유전자 데이터베이스(140)를 생성한다(S407)
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (17)

  1. 특정 질병 유전자의 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 구성 요소로 포함하는 제1 공통 연관 기능과, 복수의 생물학적 경로 별로 각각의 생물학적 경로의 생물학적 프로세스, 분자적 기능 및 세포 위치 정보를 구성 요소로 포함하는 복수의 제2 공통 연관 기능을 비교하여 상기 복수의 제2 공통 연관 기능 중에서 상기 제1 공통 연관 기능의 구성 요소와 유사한 구성 요소를 포함하는 제2 공통 연관 기능을 추출하고, 추출한 제2 공통 연관 기능의 생물학적 경로를 특정 질병에 대한 질병 연관 생물학적 경로로 추출하는 질병 연관 생물학적 경로 추출부, 그리고
    상기 질병 연관 생물학적 경로에 포함된 단백질 정보 및 단백질과 단백질 사이 관계 정보를 통해 상기 특정 질병 유전자를 발현하는 단백질들 간의 상호 작용에 의한 연결 패턴을 포함하는 적어도 하나의 네트워크 조절 모티프를 출력하는 네트워크 조절 모티프 발굴부를 포함하고,
    상기 복수의 생물학적 경로는,
    상호 작용을 통해 유전자 발현으로 연결하는 단백질 정보 및 단백질과 단백질 사이 관계 정보를 각각 포함하는 네트워크 조절 모티프 발굴 시스템.
  2. 제1항에 있어서,
    정상 상태의 샘플군 및 질병 상태의 샘플군에서 각각의 유전자 발현양을 측정한 데이터인 유전자 발현 데이터를 이용하여 정상 상태 대비 질병 상태에서 상대적으로 과발현되거나 또는 저발현된 유전자를 찾고, 상기 적어도 하나의 네트워크 조절 모티프 중에서 상기 과발현되거나 또는 저발현된 유전자가 포함된 네트워크 조절 모티프를 유전자 발현 양상이 정상 조절되지 않는 핵심 네트워크 조절 모티프로 선별하는 핵심 질병 네트워크 조절 모티프 발굴부
    를 더 포함하는 네트워크 조절 모티프 발굴 시스템.
  3. 제2항에 있어서,
    적어도 하나의 질병 유전자 데이터베이스로부터 수집한 질병 유전자 정보 및 적어도 하나의 약물 데이터베이스로부터 수집한 약물 표적 단백질 정보를 포함하고 고유의 포맷을 가진 통합 질병 유전자 정보를 생성하는 통합 질병 유전자 데이터베이스 구축부, 그리고
    상기 통합 질병 유전자 정보를 저장하는 통합 질병 유전자 데이터베이스를 더 포함하고,
    상기 질병 연관 생물학적 경로 추출부는,
    사용자 입력에 따라 특정 질병이 선정되면, 선정된 특정 질병과 관련된 상기 특정 질병 유전자를 상기 통합 질병 유전자 데이터베이스로부터 추출하는 네트워크 조절 모티프 발굴 시스템.
  4. 제3항에 있어서,
    상기 통합 질병 유전자 데이터베이스 구축부는,
    상기 적어도 하나의 질병 유전자 데이터베이스로부터 각각의 질병 유전자를 수집하고, 상기 적어도 하나의 약물 데이터베이스로부터 각각의 약물 표적 단백질 정보를 수집하는 수집 모듈,
    상기 각각의 질병 유전자와 상기 각각의 약물 표적 단백질 정보를 질병 별로 분류하는 질병 연관 정보 추출 모듈, 그리고
    질병 별로 분류된 상기 질병 유전자 및 상기 약물 표적 단백질 정보를 포함하고 공통 식별자가 할당된 통합 질병 유전자 정보를 질병 별로 생성하는 데이터 통합 모듈
    을 포함하는 네트워크 조절 모티프 발굴 시스템.
  5. 제4항에 있어서,
    상기 데이터 통합 모듈은,
    보편적단백질자원(Uniprot, The Universal Protein Resource)의 데이터베이스 식별자를 상기 공통 식별자로 할당하는 네트워크 조절 모티프 발굴 시스템.
  6. 제3항에 있어서,
    적어도 하나의 생물학적 경로 데이터베이스로부터 수집한 서로 다른 포맷을 가지는 생물학적 경로 정보를 고유의 포맷으로 구성한 통합 생물학적 경로 정보를 생성하는 통합 생물학적 경로 데이터베이스 구축부, 그리고
    상기 통합 생물학적 경로 정보를 저장하는 통합 생물학적 경로 데이터베이스를 더 포함하고,
    상기 복수의 생물학적 경로는,
    상기 통합 생물학적 경로 데이터베이스에 저장된 네트워크 조절 모티프 발굴 시스템.
  7. 제6항에 있어서,
    상기 통합 생물학적 경로 데이터베이스 구축부는,
    상기 적어도 하나의 생물학적 경로 데이터베이스로부터 각각의 생물학적 경로 정보를 수집하여 BioPAX(Biological Pathway Exchange) 형식과 XML(eXtensible markup language) 형식으로 구분하는 수집 모듈,
    상기 수집 모듈로부터 구분된 BioPAX 형식의 생물학적 경로 정보를 해석하는 BioPAX 형식 구문 분석 모듈,
    상기 수집 모듈로부터 구분된 XML 형식의 생물학적 경로 정보를 해석하는 XML 형식 구문 분석 모듈,
    상기 BioPAX 형식 및 XML 형식의 생물학적 경로 정보로부터 단백질 정보와, 단백질과 단백질 간 관계 정보를 추출하는 생물학적 경로 정보 추출 모듈, 그리고
    상기 단백질 정보와, 단백질과 단백질 간 관계 정보를 포함하고 공통의 식별자가 할당된 통합 생물학적 경로 정보를 생성하는 데이터 통합 모듈
    을 포함하는 네트워크 조절 모티프 발굴 시스템.
  8. 제7항에 있어서,
    상기 데이터 통합 모듈은,
    보편적단백질자원(Uniprot, The Universal Protein Resource)의 데이터베이스 식별자를 상기 공통 식별자로 할당하는 네트워크 조절 모티프 발굴 시스템.
  9. 제7항에 있어서,
    상기 질병 연관 생물학적 경로 추출부는,
    복수의 유전자 또는 복수의 단백질 별로 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보가 각각 계층적으로 저장된 유전자 온톨로지로부터 상기 제1 공통 연관 기능의 구성 요소를 추출하고, 상기 유전자 온톨로지로부터 상기 각각의 생물학적 경로에 포함된 단백질 정보의 생물학적 프로세스, 분자적 기능 및 세포 위치 정보를 추출하여 상기 복수의 제2 공통 연관 기능을 생성하며, 자카드 인덱스를 이용하여 상기 제1 공통 연관 기능과 상기 복수의 제2 공통 연관 기능 간의 유사도를 측정하고, 측정된 유사도가 기 정의된 임계 조건을 충족하는 제2 공통 연관 기능에 해당하는 생물학적 경로를 상기 질병 연관 생물학적 경로로 추출하는 네트워크 조절 모티프 발굴 시스템.
  10. 제9항에 있어서,
    상기 네트워크 조절 모티프 발굴부는,
    RMOD(Regulatory Motif Detection) 분석 툴에 상기 질병 연관 생물학적 경로 정보를 입력하여 상기 RMOD 분석 툴로부터 상기 특정 질병의 질병 유전자의 기능과 관련된 상기 단백질 정보와, 상기 단백질과 단백질 간 관계 정보로 구성된 상기 네트워크 조절 모티프를 출력하는 네트워크 조절 모티프 발굴 시스템.
  11. 사용자 입력에 따른 특정 질병이 선정되면, 생물학적 경로 데이터베이스에 저장된 복수의 생물학적 경로 중에서 상기 특정 질병과 관련된 질병 연관 생물학적 경로를 추출하는 단계, 그리고
    상기 질병 연관 생물학적 경로에 포함된 단백질 정보 및 단백질과 단백질 사이 관계 정보를 통해 특정 질병 유전자를 발현하는 단백질들 간의 상호 작용에 의한 연결 패턴을 포함하는 적어도 하나의 네트워크 조절 모티프를 출력하는 단계를 포함하고,
    상기 질병 연관 생물학적 경로를 추출하는 단계는,
    상기 특정 질병에 대한 특정 질병 유전자의 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 구성 요소로 포함하는 제1 공통 연관 기능과, 상기 복수의 생물학적 경로 별로 각각의 생물학적 경로의 생물학적 프로세스, 분자적 기능 및 세포 위치 정보를 구성 요소로 포함하는 복수의 제2 공통 연관 기능을 비교하는 단계, 그리고
    상기 복수의 제2 공통 연관 기능 중에서 상기 제1 공통 연관 기능의 구성 요소와 유사한 구성 요소를 포함하는 제2 공통 연관 기능의 생물학적 경로를 상기 특정 질병에 대한 질병 연관 생물학적 경로로 추출하는 단계를 포함하며,
    상기 복수의 생물학적 경로는,
    상호 작용을 통해 유전자 발현으로 연결하는 단백질 정보 및 단백질과 단백질 사이 관계 정보를 각각 포함하는 네트워크 조절 모티프 발굴 방법.
  12. 제11항에 있어서,
    상기 네트워크 조절 모티프를 출력하는 단계 이후,
    정상 상태의 샘플군 및 질병 상태의 샘플군에서 각각의 유전자 발현양을 측정한 데이터인 유전자 발현 데이터를 이용하여 정상 상태 대비 질병 상태에서 상대적으로 과발현되거나 또는 저발현된 유전자를 찾고, 상기 적어도 하나의 네트워크 조절 모티프 중에서 상기 과발현되거나 또는 저발현된 유전자를 포함하는 네트워크 조절 모티프를 유전자 발현 양상이 정상 조절되지 않는 핵심 네트워크 조절 모티프로 선별하는 단계
    를 더 포함하는 네트워크 조절 모티프 발굴 방법.
  13. 제12항에 있어서,
    상기 네트워크 조절 모티프를 출력하는 단계는,
    RMOD(Regulatory Motif Detection) 분석 툴에 상기 질병 연관 생물학적 경로 정보를 입력하여 상기 RMOD 분석 툴로부터 상기 특정 질병의 질병 유전자의 기능과 관련된 상기 단백질 정보와, 상기 단백질과 단백질 간 관계 정보로 구성된 상기 네트워크 조절 모티프를 출력하는 네트워크 조절 모티프 발굴 방법.
  14. 제13항에 있어서,
    상기 질병 연관 생물학적 경로를 추출하는 단계 이전에,
    적어도 하나의 생물학적 경로 데이터베이스로부터 수집한 서로 다른 포맷을 가지는 생물학적 경로 정보를 포함하고 고유의 포맷을 가진 통합 생물학적 경로 정보를 생성하여 통합 생물학적 경로 데이터베이스를 생성하는 단계, 그리고
    적어도 하나의 질병 유전자 데이터베이스로부터 수집한 질병 유전자 정보 및 적어도 하나의 약물 데이터베이스로부터 수집한 약물 표적 단백질 정보를 포함하고 고유의 포맷을 가진 통합 질병 유전자 정보를 생성하여 통합 질병 유전자 데이터베이스를 생성하는 단계를 더 포함하고,
    상기 질병 연관 생물학적 경로를 추출하는 단계는,
    상기 특정 질병 유전자를 상기 통합 질병 유전자 데이터베이스로부터 추출하고,
    상기 복수의 생물학적 경로는 상기 통합 생물학적 경로 데이터베이스에 저장된 네트워크 조절 모티프 발굴 방법.
  15. 제14항에 있어서,
    상기 비교하는 단계는,
    복수의 유전자 또는 복수의 단백질 별로 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보가 각각 계층적으로 저장된 유전자 온톨로지로부터 상기 특정 질병 유전자의 생물학적 프로세스, 분자적 기능 및 세포 내 위치 정보를 추출하여 상기 제1 공통 연관 기능을 구성하는 단계,
    상기 유전자 온톨로지로부터 상기 각각의 생물학적 경로에 포함된 단백질 정보의 생물학적 프로세스, 분자적 기능 및 세포 위치 정보를 추출하여 상기 복수의 제2 공통 연관 기능을 구성하는 단계, 그리고
    자카드 인덱스를 이용하여 상기 제1 공통 연관 기능과 상기 복수의 제2 공통 연관 기능 간의 유사도를 각각 측정하는 단계를 포함하고,
    상기 비교하는 단계 이후의 상기 추출하는 단계는,
    측정된 유사도가 기 정의된 임계 조건을 충족하는 제2 공통 연관 기능에 해당하는 생물학적 경로를 상기 질병 연관 생물학적 경로로 추출하는 네트워크 조절 모티프 발굴 방법.
  16. 제14항에 있어서,
    상기 통합 생물학적 경로 데이터베이스를 생성하는 단계는,
    상기 적어도 하나의 생물학적 경로 데이터베이스로부터 각각의 생물학적 경로 정보를 수집하는 단계,
    수집한 정보를 BioPAX(Biological Pathway Exchange) 형식과 XML(eXtensible markup language) 형식으로 구분하는 단계,
    상기 BioPAX 형식 및 XML 형식의 생물학적 경로 정보로부터 단백질 정보와, 단백질과 단백질 간 관계 정보를 추출하는 단계, 그리고
    상기 단백질 정보와, 단백질과 단백질 간 관계 정보에 보편적 단백질 자원(Uniprot, The Universal Protein Resource)의 데이터베이스 식별자를 공통의 식별자로 할당하여 통합 생물학적 경로 정보를 생성하는 단계
    를 포함하는 네트워크 조절 모티프 발굴 방법.
  17. 제14항에 있어서,
    상기 통합 질병 유전자 데이터베이스를 생성하는 단계는,
    상기 적어도 하나의 질병 유전자 데이터베이스로부터 각각의 질병 유전자를 수집하는 단계,
    상기 적어도 하나의 약물 데이터베이스로부터 각각의 약물 표적 단백질 정보를 수집하는 단계,
    상기 각각의 질병 유전자와 상기 각각의 약물 표적 단백질 정보를 질병 별로 분류는 단계, 그리고
    질병 별로 분류된 질병 유전자 및 약물 표적 단백질 정보에 보편적 단백질 자원(Uniprot, The Universal Protein Resource)의 데이터베이스 식별자를 공통 식별자로 할당하여 질병 별로 통합 질병 유전자 정보를 생성하는 단계
    를 포함하는 네트워크 조절 모티프 발굴 방법.
KR1020140194344A 2014-07-17 2014-12-30 네트워크 조절 모티프 발굴 시스템 및 그 방법 KR101624307B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140090160 2014-07-17
KR20140090160 2014-07-17

Publications (2)

Publication Number Publication Date
KR20160010276A KR20160010276A (ko) 2016-01-27
KR101624307B1 true KR101624307B1 (ko) 2016-05-25

Family

ID=55309550

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140194344A KR101624307B1 (ko) 2014-07-17 2014-12-30 네트워크 조절 모티프 발굴 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101624307B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101881398B1 (ko) * 2016-04-07 2018-07-24 한국과학기술원 생물학적 시스템 정보 처리 장치 및 방법
KR101878924B1 (ko) * 2016-06-14 2018-07-17 재단법인 전통천연물기반 유전자동의보감 사업단 생물학적 네트워크를 이용한 신약 재창출 후보군 예측 방법 및 장치
KR101964694B1 (ko) * 2017-03-28 2019-08-07 가천대학교 산학협력단 약물의 유사도 판단장치, 방법, 및 컴퓨터-판독가능매체
KR101839572B1 (ko) * 2017-11-21 2018-03-16 연세대학교 산학협력단 질병 관련 유전자 관계 분석 장치 및 방법
KR102225278B1 (ko) * 2020-01-31 2021-03-10 주식회사 스탠다임 질의되는 개체와 관련되는 질병, 유전자 또는 단백질을 예측하는 방법 및 이를 이용하여 구축되는 예측 시스템
KR102452433B1 (ko) * 2022-03-07 2022-10-11 주식회사 스탠다임 시계열적 정보를 인코딩하는 모델을 사용하여 질의되는 개체-쌍 사이의 연관성 관련 정보를 예측하는 방법 및 이를 이용하여 구축되는 예측 시스템

Also Published As

Publication number Publication date
KR20160010276A (ko) 2016-01-27

Similar Documents

Publication Publication Date Title
KR101624307B1 (ko) 네트워크 조절 모티프 발굴 시스템 및 그 방법
Heumos et al. Best practices for single-cell analysis across modalities
Ma et al. Integrative methods and practical challenges for single-cell multi-omics
Chen et al. Single-cell trajectories reconstruction, exploration and mapping of omics data with STREAM
Tini et al. Multi-omics integration—a comparison of unsupervised clustering methodologies
Ames et al. Scalable metagenomic taxonomy classification using a reference genome database
Kirk et al. Bayesian correlated clustering to integrate multiple datasets
Cao et al. New directions for diffusion-based network prediction of protein function: incorporating pathways with confidence
Wang et al. Developing enhanced blood–brain barrier permeability models: integrating external bio-assay data in QSAR modeling
de Lichtenberg et al. Dynamic complex formation during the yeast cell cycle
Gligorijević et al. Fuse: multiple network alignment via data fusion
Stocks et al. The UEA sRNA Workbench (version 4.4): a comprehensive suite of tools for analyzing miRNAs and sRNAs
Wawer et al. Local structural changes, global data views: graphical substructure− activity relationship trailing
He et al. The prediction of protein-protein interaction networks in rice blast fungus
Tomkins et al. PINOT: an intuitive resource for integrating protein-protein interactions
Burggraaff et al. Quantitative prediction of selectivity between the A 1 and A 2A adenosine receptors
Castillo-Lara et al. PlanExp: intuitive integration of complex RNA-seq datasets with planarian omics resources
Cho et al. An integrative approach to inferring biologically meaningful gene modules
Sia et al. Inferring functional communities from partially observed biological networks exploiting geometric topology and side information
Santoni et al. An integrated approach (cluster analysis integration method) to combine expression data and protein–protein interaction networks in agrigenomics: application on arabidopsis thaliana
Irons et al. Identifying dynamical modules from genetic regulatory systems: applications to the segment polarity network
Jeitziner et al. Two-tier mapper: a user-independent clustering method for global gene expression analysis based on topology
Heravi et al. Evolutionary computation for disease gene association
Tao et al. Phylogenies derived from matched transcriptome reveal the evolution of cell populations and temporal order of perturbed pathways in breast cancer brain metastases
Johansen et al. Projecting clumped transcriptomes onto single cell atlases to achieve single cell resolution

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190429

Year of fee payment: 4