KR100491666B1 - 단백질 상호작용 네트웍의 분할 시각화 기법 - Google Patents

단백질 상호작용 네트웍의 분할 시각화 기법 Download PDF

Info

Publication number
KR100491666B1
KR100491666B1 KR10-2002-0057603A KR20020057603A KR100491666B1 KR 100491666 B1 KR100491666 B1 KR 100491666B1 KR 20020057603 A KR20020057603 A KR 20020057603A KR 100491666 B1 KR100491666 B1 KR 100491666B1
Authority
KR
South Korea
Prior art keywords
nodes
group
shortest path
protein interaction
node
Prior art date
Application number
KR10-2002-0057603A
Other languages
English (en)
Other versions
KR20040026226A (ko
Inventor
한경숙
변양아
Original Assignee
학교법인 인하학원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 인하학원 filed Critical 학교법인 인하학원
Priority to KR10-2002-0057603A priority Critical patent/KR100491666B1/ko
Priority to JP2002319817A priority patent/JP2004118818A/ja
Priority to US10/290,433 priority patent/US20040059522A1/en
Publication of KR20040026226A publication Critical patent/KR20040026226A/ko
Priority to JP2005098945A priority patent/JP2005285130A/ja
Application granted granted Critical
Publication of KR100491666B1 publication Critical patent/KR100491666B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 단백질 상호작용 네트웍을 3차원 그래프로 시각화하는 기법에 관한 것으로서, 차수가 1인 최종 노드들의 집합을 제 1 그룹으로 정의하고, 제 1 그룹의 노드를 제외한 후 절단꼭지점 (cutvertex)에 의해 분리되는 서브그래프 중에서 적은 개수의 노드를 포함하는 서브그래프에 속하는 노드들의 집합을 제 2 그룹으로 정의한 후, 제 1 그룹과 제 2 그룹에 속하는 노드들을 제외한 나머지 노드들의 집합을 제 3 그룹으로 정의하는 그룹화 단계; 각 그룹 내의 노드들간의 최단경로, 제 1 그룹 노드들과 제 2 그룹 노드들간의 최단경로, 제 1 그룹 노드들과 제 3 그룹 노드들간의 최단경로, 제 2 그룹 노드들과 제 3 그룹 노드들간의 최단경로를 계산하는 최단경로 계산 단계; 및 계산된 최단경로들을 사용하는 스프링-포스 (spring-force) 레이아웃 기법을 적용하여, 제 3 그룹의 노드들을 구체의 중앙에 배치하고, 제 2 그룹의 노드들을 제 3 그룹의 외곽 부분에 배치한 후, 제 1 그룹의 노드들을 제 2 그룹과 제 3 그룹의 외곽 부분에 배치하는 레이아웃 단계;를 포함하는 것을 특징으로 하는 단백질 상호작용 네트웍의 분할 시각화 기법을 제공하여, 단백질 상호작용 데이터를 명확하고 미적으로 우수한 그래프로 시각화하고 속도가 매우 빠르다는 장점이 있다.

Description

단백질 상호작용 네트웍의 분할 시각화 기법 {METHOD FOR PARTITIONED LAYOUT OF PROTEIN INTERACTION NETWORKS}
본 발명은 단백질 상호작용 데이터를 3차원 그래프로 시각화하는 새로운 기법에 관한 것으로서, 특히 단백질 노드들을 세 그룹으로 분류하여 대규모의 단백질 상호작용 데이터를 명확하고 미적으로 우수한 그래프로 시각화하는 기법에 관한 것이다.
단백질 상호작용 데이터는 예측할 수 없을 정도로 그 용량이 커지고 있으며, 텍스트 파일이나 데이터베이스 형태로 제공된다. 데이터의 용량이 대규모이므로 상호작용하는 단백질의 긴 리스트보다는 그래프로 표현하는 것이 이해하기 쉬우며, 결과적으로 단백질 상호작용 네트웍의 시각화에 대한 연구가 활발히 진행되고 있다.
그러나, 단백질 상호작용 데이터는 무방향 (undirected) 그래프로 시각화하였을 때 다음과 같은 특성을 갖는 경향이 있다. 첫째, 그래프로 시각화하면 에지의 교차 (edge crossing)가 많은 복잡한 비평면 그래프가 되는데, 2차원 그래프에서는 이 에지의 교차를 제거할 수 없다. 둘째, 각 단백질이 상호 작용하는 횟수가 매우 다양하므로, 차수 (degree)가 높은 노드와 차수가 낮은 노드를 동시에 포함하는 그래프가 된다. 세째, 여러 개의 연결 컴포넌트 (connected component)로 구성된 분리 그래프 (disconnected graph)가 된다. 예컨대, MIPS 유전적 상호작용 데이터 (http://mips.gsf.de/proj/yeast/tables/interaction/)는 113개의 연결 그래프를 갖게 된다. 네째, 소스 노드 (source node)와 타겟 노드 (target node)가 일치하는 에지인 셀프-루프 (self-loop)를 많이 포함한다.
상기 특성 때문에, 종래의 그래프 드로잉 도구들은, 속도가 너무 느려 많은 데이터로 인터랙티브 (interactive)한 작업을 하기 어렵고, 에지 교차가 지나치게 많아 혼란스러운 그래프를 그리거나, 데이터의 변경을 반영하여 수정하기 어려운 정적 그래프를 생성하므로, 단백질 상호작용의 시각화에 사용하기에 어려운 점이 있었다.
이완 (relaxation) 알고리즘에 근거하여 단백질 상호작용을 시각화하기 위해 자바 애플릿 프로그램이 개발되어 Y2H (Yeast two-hybrid) 데이터에서 테스트된 바 있다. 이 프로그램은 모든 단백질 상호작용 데이터가 HTML 소스의 애플릿 프로그램에 파라미터로 제공되어야 하고, 윈도우를 캡쳐하는 것 외에는 시각화된 그래프를 저장할 방법이 없고, 윈도우로부터 캡쳐된 이미지는 정적 이미지이고 일반적으로 질이 낮으며, 데이터 변경을 반영하여 개량 또는 수정할 수 없다. 또한, 사용자가 노드를 이동할 수는 있으나, 추후 사용을 위해 특정 단백질을 포함한 연결 컴포넌트를 선택 또는 저장할 수 없다.
한편, 많은 단백질 상호작용 시각화 작업에 고유의 알고리즘 또는 프로그램이 사용되지 않고, 일반 용도의 드로잉 도구가 사용되고 있다. 예를 들어, PSIMAP은 Y2H 데이터와 DIP 데이터를 비교함으로써 단백질 패밀리 간의 상호작용을 도시한다. 이는 톰소여 소프트웨어 (http://www.tomsawyer.com/)에 의해 그려진 후, 에지 교차를 제거하기 위한 많은 양의 수작업에 의해 수정된 것이다. 그래프 드로잉의 관점에서 보면, PSIMAP은 정적 이미지이며 개선되어야 할 점이 많다. 워싱턴 대학의 한 연구팀은 다른 일반 용도의 드로잉 도구인 AGD (http://www.mpisb.mpg.de/AGD/)를 사용하여 Y2H 데이터를 시각화한다. AGD가 강력한 도구이는 하나, 일반 용도의 드로잉 도구이므로 단백질 상호작용 연구에 필요한 기능을 제공하지는 못한다.
본 발명은 상기 문제점을 해결하기 위하여, 상술한 단백질 상호작용 데이터의 특성들을 감안하여 단백질 상호작용을 3차원 공간에 그리는 새로운 force-directed 레이아웃 알고리즘을 제안하는 것을 목적으로 하며, 보다 상세하게는 노드들을 상호작용 특성에 따라 세 그룹으로 분류하여 시각화함으로써, 종래의 알고리즘 보다 훨씬 빠르며 대규모의 단백질 상호작용 데이터를 명확하고 미적으로 우수한 그래프로 시각화하는 기법을 제공하는 것을 목적으로 한다.
본 발명은 상기 목적의 해결을 위해, 단백질 상호작용 데이터를 시각화하기 위하여 단백질을 노드로 하고 단백질 간 상호작용을 에지로 하는 그래프를 생성하는 단백질 상호작용 네트웍을 컴퓨터를 이용하여 표시부에 효율적으로 시각화하여 표시하는 방법으로서, 상기 컴퓨터의 입력수단을 통하여 상기 노드가 입력되면 제어수단에 의하여 상기 입력된 노드들 중에서 차수가 1인 최종 노드들의 집합을 제 1 그룹으로 정의하고, 상기 제 1 그룹의 노드를 제외한 노드가 절단꼭지점 (cutvertex)인지 여부를 검사하고 그에 의하여 분리되는 서브그래프 중에서 적은 개수의 노드를 포함하는 서브그래프에 속하는 노드들의 집합을 제 2 그룹으로 정의한 후, 상기 제 1 그룹과 상기 제 2 그룹에 속하는 노드들을 제외한 나머지 노드들의 집합을 제 3 그룹으로 정의하도록 노드를 그룹화하는 그룹화 단계; 상기 컴퓨터의 연산수단에 의하여 상기 각 그룹 내의 노드들간의 최단경로, 상기 제 1 그룹 노드들과 상기 제 2 그룹 노드들간의 최단경로, 상기 제 1 그룹 노드들과 상기 제 3 그룹 노드들간의 최단경로, 상기 제 2 그룹 노드들과 상기 제 3 그룹 노드들간의 최단경로를 계산하는 최단경로 계산 단계; 및 제어수단이 상기 연산수단에 의하여 계산된 최단경로들을 사용하는 스프링-포스 (spring-force) 레이아웃 기법을 적용하여, 상기 제 3 그룹의 노드들을 구체의 중앙에 배치하고, 상기 제 2 그룹의 노드들을 상기 제 3 그룹의 외곽 부분에 배치한 후, 상기 제 1 그룹의 노드들을 상기 제 2 그룹과 상기 제 3 그룹의 외곽 부분에 배치되도록 상기 표시부에 레이아웃 단계;를 포함하는 것을 특징으로 하는 단백질 상호작용 네트웍의 분할 시각화 기법을 제공한다.
상술한 바와 같이, 많은 force-directed 알고리즘들의 공통적인 문제는 큰 그래프를 처리할 때 너무 느리다는 것이므로, 본 발명에서는 노드들을 그들의 상호작용 특성을 기초로 세 그룹으로 나누는 알고리즘을 제안함으로써 실행 속도를 향상시키고자 한다. 본 발명에서 제안하는 레이아웃은 2차원 그래프를 그리는 Kamada & Kawai 알고리즘의 확장이다. 이 알고리즘은 3차원 그래프 드로잉을 위해서 뿐만 아니라, 알고리즘의 효율 및 결과를 개선하기 위하여 수정되었다.
노드들의 그룹화를 먼저 살펴보기로 한다. 이하에서는 제 1 그룹, 제 2 그룹, 제 3 그룹을 각각 V1, V2, V3로 표기한다.
단백질 상호작용 데이터는 무방향 (undirected) 그래프 G=(V,E)로 시각화되며, 여기서 V는 단백질을 E는 단백질간 상호작용을 나타낸다. 노드 vi의 차수 (degree)는 deg(vi)로 표시되는 에지의 수이다. vi=vj인 에지 e=(v i, vj)는 셀프 루프이고, 그래프 G의 절단꼭지점 (cutvertex)은 제거시 G를 분리 (disconnect)시키는 노드를 말한다. 그래프 G에서 패스 (path)는 G의 개별 노드들의 시퀀스 (v1, v2, v3,..., vn)이다. 여기서, (vi, vi+1) ∈ E, 1≤i≤n-1이다.
본 발명에서는 노드 V를 세가지의 배타적 (exclusive)이고 완전한 (exhaustive) 그룹으로 분리하며, 이들 세 그룹은 다음과 같이 정의된다. i) 그룹 V1은 최종 노드, 즉 차수가 1인 노드들의 집합이다. ii) 그룹 V2는 V1의 노드를 제외한 노드 중에서, 절단꼭지점 (cutvertex)에 의해 분리되는 서브그래프 중 적은 개수의 노드를 포함하는 서브그래프에 속하는 노드들의 집합이다. iii) 그룹 V3는 V1이나 V2의 멤버가 아닌 노드들로 구성된다.
도 1은 분할된 그래프의 일 예로서, 그래프 G=(V, E)의 노드들이 세 그룹으로 분리되어 있는 것을 볼 수 있다. V1에는 6개의 노드들이 속해 있으며, 이것들은 세개의 서브-그룹 (V1={{v1},{v5, v9, v10},{v 31, v32}})으로 분리되며, 각 서브-그룹은 하나의 이웃 노드를 공유한다.
도 1에서 두 서브-그룹 S1={v0, v7}과 S2={v29 , v30}는 절단꼭지점 v11을 공유하므로, V2의 하나의 서브-그룹으로 통합된다. 서브-그룹 S3={v24, v 26, v27}과 S4={v2, v20, v21, v22, v23, v 24, v26, v27}는 절단꼭지점을 공유하지 않는데, 이는 S3의 절단꼭지점은 v2이고 S4의 절단꼭지점은 v25이기 때문이다. 그러나, S 3의 절단꼭지점이 S4에 속하므로 S3도 절단꼭지점을 v25로 하는 V2의 서브-그룹으로 간주된다.
각 그룹의 노드들은 V1, V2, V3의 순으로 발견된다. 먼저, 하나의 이웃 노드를 가진 노드들이 V1으로 분류된 후, V1의 노드들은 공유하는 이웃 노드에 따라 서브-그룹으로 나누어 진다. 다음은, V-V1에서 V2의 노드들을 발견하고, 나머지 노드들은 모두 V3을 구성하게 된다.
V2에 속할 노드들은, V1을 찾고난 후 도 2에 간략히 기술된 FindCutvertex라는 발견 알고리즘에 의해 결정된다. 이 알고리즘의 초기 입력은 V-V1의 노드들이며, 각 입력 노드가 절단꼭지점인지 여부가 검사된다 (3행). P를 vi와 시작 노드 사이의 경로에 있는 노드들의 집합, P'를 상기 경로에 있지 않은 노드들의 집합이라 하자. P와 P' 중 어느 쪽도 비어 있지 않으면, 노드 vi가 절단꼭지점이며 루프는 나머지 노드들에 대해 반복 실행된다. P와 P' 중 더 작은 집합에 속하는 노드들이 V2에 포함된다 (도 3의 11-17행). 그런 다음, V2의 노드들은 그들의 절단꼭지점에 기초하여 서브-그룹으로 분리되며, 상기 서브-그룹들이 동일한 절단꼭지점을 가진 경우는 하나로 통합된다. V1과 V2를 결정하고 난 후 남은 모든 노드는 V 3를 구성하게 된다. 따라서, V3는 단백질 상호작용 데이터의 쌍방연결 (biconnected) 서브그래프 (절단꼭지점이 없는 연결 그래프)에 해당된다 (단, 모든 노드가 일렬로 연결되어 있는 특수한 그래프의 경우에는 V3은 쌍방연결 서브그래프가 아니다).
다음은 본 발명에서 제안하는 3차원 그래프의 forced-directed 레이아웃에 대해 설명한다.
본 발명이 기초로 하고 있는 Kamada & Kawai의 알고리즘은 에너지가 지역적으로 최소인 드로잉을 찾는다. 본 발명에 따른 알고리즘은 두 노드 간의 실제 거리가 그들 간의 바람직한 거리에 대략 비례하는 드로잉을 찾는데 촛점을 맞추고 있다. n개의 노드를 가진 스프링 시스템의 글로벌 에너지 E는 다음 수학식 1에 의해 정의된다.
여기서, kij는 스프링의 강성도 (stiffness) 파라미터, pi는 노드 vi의 위치, lij는 vi와 vj를 연결하는 스프링의 길이이다.
본 발명의 알고리즘은 스프링 시스템의 위치 에너지를 최소화하기 위하여 각 꼭지점 (vertex) vm에 대해 위치 pm=(xm, ym, zm )을 찾는다. 다음 수학식 2와 같이 E를 각 변수 xm, ym, zm으로 부분 미분한 값이 0일 때 위치 에너지가 최소가 된다. 여기서 3|V|= 3n 개의 방정식 집합이 생긴다.
Kamada & Kawai의 알고리즘에서는, 다른 모든 노드를 고정시킨채 에너지를 최소화하는 위치로 하나의 노드를 이동한다. 이동할 노드로는 가장 큰 포스 (force)가 가해지는 노드, 즉 모든 vm(∈V)에 대해 다음 수학식 3의 값이 최대인 것이 선택된다.
그러나, 이러한 접근 방식에 의하면 바람직하지 못한 그래프를 생성하거나 대규모의 단백질 상호작용에 대해서는 너무 많은 시간이 소요되는 경우가 자주 발생한다. 따라서, 본 발명에 따른 알고리즘에서는 현재 위치와 이전 위치 사이의 차이가 일정 임계값 아래로 떨어질 때까지 각 반복에서 모든 노드들을 일정 레벨로 이동한다. 초기 레이아웃을 위해, 본 발명에서는 노드들을 랜덤하게 배치하는 대신 구체 (sphere) 표면에 배치한다. 따라서, Kamada & Kawai의 알고리즘에 비해 더욱 바람직한 드로잉을 생성하며 균형을 이루는 그룹들을 가진 그래프를 생성하므로 속도가 빠르다.
다음은 도 4 및 도 5를 참조하여 각 그룹에서 최단경로를 찾는 방법에 대해 설명한다. 도 4 및 도 5는 최단 거리를 계산하는 알고리즘을 기술한 것으로, 각 그룹 Vi (i=1, 2, 3)에 대해 모든 노드 쌍 간의 최단경로가 계산된다. V2와 V 1에 대해서는 각 서브-그룹에서의 최단경로가 결정되어야 한다. 각 서브-그룹 내의 노드들 간의 최단경로가 계산된 후, V2의 각 서브-그룹의 공유 절단꼭지점을 사용하여 V2의 노드들과 V3의 노드들 간의 최단경로가 계산된다 (도 4의 9행). 이와 유사하게, V1의 각 서브-그룹의 공유 이웃 노드를 이용하여 V1의 노드들과 V2 및 V3의 노드들 간의 최단경로가 계산된다 (14행). V1의 서브-그룹에 대해, 모든 노드 쌍 간의 초기 최단경로는 2로 설정되는데, 이는 노드와 그 공유 이웃 노드 간의 거리가 1이기 때문이다 (도 5의 3행).
도 6은 본 발명에 따른 MIPS 물리적 상호작용 데이터 (MIPS-P)의 드로잉을 도시한 것이다. 도 6a는 초기 레이아웃을 도시한 것으로 1526개의 노드와 2372개의 에지를 가지며, 도 6b는 사각형 내의 V3 노드들을 드로잉한 후의 상태를, 도 6c는 사각형 내의 V3 및 V2의 노드들을 드로잉한 후의 상태를, 도 4d는 최종적인 드로잉을 나타낸다. 즉, V1, V2, V3의 순으로 그룹을 찾는 반면, 레이아웃의 순서는 이와 반대이다. 먼저 V3가 구체의 중앙에 배치되며, V2는 V3의 외곽 부분에, V1은 V2와 V3의 외곽 부분에 배치된다. 노드의 위치가 고정된 그룹은 사각형 안에 도시된 것들이다. 나머지 그룹에 속한 노드들을 고정 그룹들의 외곽 부분에 배치하기 위해, 수정된 극좌표로 이동시킨다. 도 6b 및 도 6c에서, 외곽 부분의 노드들 간의 에지는 드로잉의 명확성을 위해 도시하지 않았다. 각 그룹에 속하는 노드들을 배치하는데는 스프링-포스 (spring-force) 레이아웃 기법이 사용되며, 이를 위해 도 4 및 도 5의 알고리즘에 의한 최단경로가 계산된 것이다.
본 발명에 따른 시각화 기법을 위한 알고리즘의 계산 비용을 간략히 분석한 결과를 살펴본다. 세 그룹이 균형을 이룸을 고려하면, 본 발명의 알고리즘에 대한 총 시간은 이다. 이는 각 그룹에 스프링-임베더 (spring-embedder) 알고리즘을 적용했기 때문이다. 본 발명에 따른 알고리즘의 점근 (symptotic) 시간 복잡도는 Kamada & Kawai의 알고리즘의 시간 복잡도인 O (n3)와 동일하다. 그러나, Kamada & Kawai의 알고리즘보다는 본 발명의 알고리즘이 실질적으로 훨씬 빠르다. V1과 V2의 노드들이 나중에 서브-그룹으로 나누어지기 때문에, 실제 실행 시간은 균형있는 그룹들을 가진 그래프에 대해 더욱 감소된다. 균형을 이루고 있지 않은 그룹들을 가진 그래프 (예컨대 절단꼭지점이나 최종 노드들이 적어 V3 부분이 높은 그래프)에 대해서는, 세 그룹으로 나누는 효과에 한계가 있으나, 단백질 상호작용에 있어 이러한 경우는 매우 드물다. 이러한 사실은 후술하는 실험 결과가 뒷받침한다.
본 발명에서는 마이크로소프트 C#으로 알고리즘을 구현하였다. 본 발명에 의해 구현된 프로그램은 운영체제로 윈도우즈 2000/XP/Me/98/NT 4.0 등이 설치된 어떤 PC에서도 수행된며, 본 발명의 구현을 위한 PC의 기능불록들은 도시하지 않았지만, 입력수단, 표시부, 제어수단, 연산수단 등으로 구성될 수 있으며, 이러한 구성요소를 통하여 본 발명이 실시됨에 있어서 상기 입력수단을 통하여 단백질 상호작용 데이터를 시각화하기 위하여 필요한 정보인 노드 등의 정보가 입력되면, 상기 제어수단에 의하여 노드들을 그룹화하고 연산수단에 의하여 각각의 그룹 내의 노드들 간의 최단 경로들을 계산하며, 마지막으로 상기 제어수단이, 상기 연산수단에 의하여 계산된 최단경로를 이용하여 상기 표시부에 단백질 상호작용 네트웍을 그래프의 형태로 시각화하게 된다. 비록 이와 같은 내용이 도시되지 않았다고 하더라도 당업자라면 누구나 추론할 수 있을 것을 확언한다. 본 발명에서는 브레인 (http://www.infosun.fmi.uni-passau.de/GD2001/graphC/brain.gml), Gd29 (http://www.infosun.fmi.uni-passau.de/GD2001/graphA/GD29.gml), Y2H, MIS 데이터베이스 (http://mips.gsf.de/proj/yeast/tables/interaction)의 유전적 상호작용 및 물리적 상호작용을 포함하여 5가지 경우에 대해 프로그램을 테스트하였다. Y2H와 MIPS로부터의 단백질 상호작용 데이터에 있어서는, 가장 큰 연결 컴포넌트가 사용되었다.
다음 표 1은 노드들을 세 그룹으로 나누는 단계 (P), 각 그룹에서 최단경로를 찾는 단계 (SP), 레이아웃 및 드로잉 단계 (LD)의 실행시간을 나타낸 것이다. 브레인과 Gd29의 경우는 데이터 집합의 크기와 V3의 상대적인 크기에 있어서 단백질 상호작용 데이터인 다른 것들과 다르다. 브레인의 경우는 총 33개의 노드 중에서 28개의 노드 (84.8%)가 V3에 포함되고, Gd29의 경우는 총 178개의 노드 중 129개의 노드 (71.9%)가 V3에 포함되지만, Y2H, MIPS-G 및 MIPS-P의 경우에는 총수에 대한 V3 비율이 각각 24.9%, 43.5% 및 37.4%로서 50% 이하이다.
데이터 에지 노드 실행시간
V1 V2 V3 P SP LD 합계=(P+SP+LD)
브레인 135 4 1 28 0.08s 0.02s 0.15s 0.25s
Gd29 344 40 10 128 0.84s 0.90s 2.06s 3.80s
Y2H 542 255 100 118 1.41s 0.87s 3.49s 5.77s
MIPS-G 805 198 102 231 3.24s 5.16s 8.52s 16.92s
MIPS-P 2372 665 289 572 56.39s 1min18.82s 56.20s 3min11.41s
실험 결과에 따르면, 본 발명에 따른 시각화 기법은 대규모의 단백질 상호작용 네트웍에 대해 도 6에 도시된 바와 같이 명확하고 미적으로 뛰어난 드로잉을 생성하며, 속도면에서도 다른 forced-directed 레이아웃에 비해 매우 빠르다.
종래의 다른 알고리즘과의 실험적인 비교를 위해, Fruchter 및 Reingold의 알고리즘을 이용한 Pajek과 Kamada & Kawai의 알고리즘을 확장한 알고리즘을 함께 실행하였다. Kamada & Kawai의 알고리즘은 2차원 드로잉만을 생성하므로, 3차원 드로잉을 생성하도록 확장하여 비교한 것이다. 다음 표 2는 상기 5가지 테스트 케이스에 대해 펜티엄 II 299Mhz 프로세서에서 본 발명에 따른 알고리즘, Kamada & Kawai의 확장 알고리즘, 그리고 Fruchter 및 Reingold의 알고리즘 (Pajek(F-R))의 실행 시간을 나타낸 것이다. 표 2에 나타난 바와 같이, 본 발명에 따른 분할 방법에 의해 계산 시간이 최대 1/51까지 크게 감소되었다. 또한, 도 7은 상기 세 알고리즘의 실행 시간을 비교한 그래프이다. 본 발명에 따른 알고리즘은 크기가 큰 그래프와 V3의 비율이 지나치게 크지 않은 그래프에 대해 더욱 효율적임을 알 수 있다.
데이터 본원발명의알고리즘 K-K extended to 3D Pajek(F-R)
Brain 0.25s 0.19s 7.57s
Gd29 3.80s 4.77s 25.28s
Y2H 5.77s 1m 23.46s 2m 23.32s
MIPS-G 16.92s 1m 50.62s 3m 18.35s
MIPS-P 3m 11.41s 1h 24m 42.12s 21m 41.91s
도 1은 분할된 그래프의 예를 도시한 도면,
도 2는 V2의 노드들을 결정하는 발견 알고리즘인 FindCutvertex를 기술한 도면,
도 3은 도 2의 알고리즘에서 호출되는 것으로, 노드가 절단꼭지점인지 여부를 검사하는 IsCutvertex 알고리즘을 기술한 도면,
도 4는 각 그룹들의 모든 노드 쌍 사이의 최단경로를 찾는 알고리즘을 기술한 도면,
도 5는 도 4의 알고리즘에서 호출되는 것으로, 각 서브-그룹 내의 모든 노드 쌍 사이의 최단경로를 찾는 알고리즘을 기술한 도면,
도 6은 MIPS 물리적 상호작용 데이터의 드로잉 과정을 도시한 도면,
도 7은 세 그래프 드로잉 알고리즘의 실행 시간을 비교한 그래프.

Claims (1)

  1. 단백질 상호작용 데이터를 시각화하기 위하여 단백질을 노드로 하고 단백질 간 상호작용을 에지로 하는 그래프를 생성하는 단백질 상호작용 네트웍을 컴퓨터를 이용하여 표시부에 효율적으로 시각화하여 표시하는 방법에 있어서,
    상기 컴퓨터의 입력수단을 통하여 상기 노드가 입력되면 상기 컴퓨터의 제어수단에 의하여 상기 입력된 노드를 중에서 차수가 1인 최종 노드들의 집합을 제 1 그룹으로 정의하고, 상기 제 1 그룹의 노드를 제외한 노드가 절단꼭지점 (cutvertex)인지 검사하고 그에 의하여 분리되는 서브그래프 중에서 적은 개수의 노드를 포함하는 서브그래프에 속하는 노드들의 집합을 제 2 그룹으로 정의한 후, 상기 제 1 그룹과 상기 제 2 그룹에 속하는 노드들을 제외한 나머지 노드들의 집합을 제 3 그룹으로 정의되도록 노드를 그룹화하는 그룹화 단계;
    상기 컴퓨터의 연산수단에 의하여 상기 각 그룹 내의 노드들간의 최단경로, 상기 제 1 그룹 노드들과 상기 제 2 그룹 노드들간의 최단경로, 상기 제 1 그룹 노드들과 상기 제 3 그룹 노드들간의 최단경로, 및 상기 제 2 그룹 노드들과 상기 제 3 그룹 노드들간의 최단경로를 계산하는 최단경로 계산 단계; 및
    제어수단이 상기 연산수단에 의하여 계산된 최단경로들을 사용하는 스프링-포스 (spring-force) 레이아웃 기법을 적용하여, 상기 제 3 그룹의 노드들을 구체의 중앙에 배치하고, 상기 제 2 그룹의 노드들을 상기 제 3 그룹의 외곽 부분에 배치한 후, 상기 제 1 그룹의 노드들을 상기 제 2 그룹과 상기 제 3 그룹의 외곽 부분에 배치되도록 상기 표시부에 레이아웃하는 레이아웃 단계;
    를 포함하여 이루어지는 것을 특징으로 하는 단백질 상호작용 네트웍의 분할 시각화 기법.
KR10-2002-0057603A 2002-09-23 2002-09-23 단백질 상호작용 네트웍의 분할 시각화 기법 KR100491666B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR10-2002-0057603A KR100491666B1 (ko) 2002-09-23 2002-09-23 단백질 상호작용 네트웍의 분할 시각화 기법
JP2002319817A JP2004118818A (ja) 2002-09-23 2002-11-01 蛋白質相互作用ネットワークの分割視覚化技法
US10/290,433 US20040059522A1 (en) 2002-09-23 2002-11-07 Method for partitioned layout of protein interaction networks
JP2005098945A JP2005285130A (ja) 2002-09-23 2005-03-30 蛋白質相互作用ネットワークの分割視覚化技法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0057603A KR100491666B1 (ko) 2002-09-23 2002-09-23 단백질 상호작용 네트웍의 분할 시각화 기법

Publications (2)

Publication Number Publication Date
KR20040026226A KR20040026226A (ko) 2004-03-30
KR100491666B1 true KR100491666B1 (ko) 2005-05-27

Family

ID=31987512

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0057603A KR100491666B1 (ko) 2002-09-23 2002-09-23 단백질 상호작용 네트웍의 분할 시각화 기법

Country Status (3)

Country Link
US (1) US20040059522A1 (ko)
JP (2) JP2004118818A (ko)
KR (1) KR100491666B1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114398A1 (en) * 2003-10-10 2005-05-26 Jubilant Biosys Limited Computer-aided visualization and analysis system for signaling and metabolic pathways
US7869960B2 (en) 2005-12-08 2011-01-11 Electronics And Telecommunications Research Institute Method and apparatus for detecting bio-complexes using rule-based templates
KR101246101B1 (ko) * 2010-08-25 2013-03-20 서강대학교산학협력단 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
EP2738704A1 (en) * 2012-12-03 2014-06-04 Dassault Systèmes A computer-implemented method for simulating, in a three-dimensional scene, the evolution of biological data
CN105005628A (zh) * 2015-08-07 2015-10-28 上海交通大学 基于集中式平台的最短路径关键节点查询方法
CN107609341A (zh) * 2017-08-16 2018-01-19 天津师范大学 基于最短路径从全局蛋白互作网络提取子网络方法及系统
CN107568352A (zh) * 2017-10-27 2018-01-12 福建省霞浦晖强食品有限公司 一种大豆、海产植物混合食品及其制备方法
CN112513269A (zh) * 2018-07-12 2021-03-16 德克萨斯大学系统董事会 通过寡核苷酸进行分子邻域检测
JP7404648B2 (ja) * 2019-04-25 2023-12-26 富士通株式会社 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000057309A2 (en) * 1999-03-19 2000-09-28 Structural Bioinformatics, Inc. Database and interface for 3-dimensional molecular structure visualization and analysis
JP2002259395A (ja) * 2001-03-01 2002-09-13 Chugai Pharmaceut Co Ltd 蛋白質または核酸分子の相互作用部位の推定方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3350223B2 (ja) * 1994-07-13 2002-11-25 富士通株式会社 グラフ自動レイアウト方法及び装置
US5995114A (en) * 1997-09-10 1999-11-30 International Business Machines Corporation Applying numerical approximation to general graph drawing
AU2001278089A1 (en) * 2000-07-31 2002-02-13 Agilix Corporation Visualization and manipulation of biomolecular relationships using graph operators
KR100470977B1 (ko) * 2002-09-23 2005-03-10 학교법인 인하학원 대규모 단백질 상호작용 데이터의 효율적 시각화 기법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000057309A2 (en) * 1999-03-19 2000-09-28 Structural Bioinformatics, Inc. Database and interface for 3-dimensional molecular structure visualization and analysis
JP2002259395A (ja) * 2001-03-01 2002-09-13 Chugai Pharmaceut Co Ltd 蛋白質または核酸分子の相互作用部位の推定方法

Also Published As

Publication number Publication date
JP2005285130A (ja) 2005-10-13
KR20040026226A (ko) 2004-03-30
US20040059522A1 (en) 2004-03-25
JP2004118818A (ja) 2004-04-15

Similar Documents

Publication Publication Date Title
Van Mele et al. Algebraic graph statics
Saraiya et al. Visualization of graphs with associated timeseries data
Yi et al. Homotopy-aware RRT*: Toward human-robot topological path-planning
JP2005285130A (ja) 蛋白質相互作用ネットワークの分割視覚化技法
JP2005322216A (ja) 大規模蛋白質相互作用データの効率的視覚化技法
Fuhrimann et al. Data-driven design: Exploring new structural forms using machine learning and graphic statics
Bénabès et al. Interactive optimization strategies for layout problems
Meyerhenke et al. Drawing large graphs by multilevel maxent-stress optimization
Puri et al. Output-sensitive parallel algorithm for polygon clipping
Luo et al. Heuristic algorithms for the special knapsack packing problem with defects arising in aircraft arrangement
Kosicki et al. HYDRA distributed multi-objective optimization for designers
Stastný et al. Traveling Salesman Problem optimization by means of graph-based algorithm
Lee et al. Modelling with forces: grammar-based graphic statics for diverse architectural structures
US10424096B1 (en) Technique for orthogonal edge routing of directed layered graphs with edge crossings reduction
López-Ortiz et al. Online parallel heuristics and robot searching under the competitive framework
KR100471417B1 (ko) 단백질 상호작용 네트워크의 시각화방법
Byun et al. Visualization of protein-protein interaction networks using force-directed layout
Tollis et al. Algorithms for visualizing phylogenetic networks
Groza et al. Development of a faster shortest path search algorithm based on A* strategy integrated in an e-learning virtual environment
Fudos et al. Tree-decomposable and underconstrained geometric constraint problems
Sharma et al. Pathfinding Visualizer
Swat et al. A Heuristic Approach to the Treedepth Decomposition Problem for Large Graphs
Biallaten et al. Novel Method to Generate and Optimize Reticulated Structures of a Non Convex Conception Domain
JP2018005671A (ja) 情報処理装置、シミュレータ結果表示方法、及びシミュレータ結果表示プログラム
Gusukuma GPU Based Large Scale Multi-Agent Crowd Simulation and Path Planning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130215

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140421

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150506

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160401

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee