KR20040026227A - 대규모 단백질 상호작용 데이터의 효율적 시각화 기법 - Google Patents

대규모 단백질 상호작용 데이터의 효율적 시각화 기법 Download PDF

Info

Publication number
KR20040026227A
KR20040026227A KR1020020057604A KR20020057604A KR20040026227A KR 20040026227 A KR20040026227 A KR 20040026227A KR 1020020057604 A KR1020020057604 A KR 1020020057604A KR 20020057604 A KR20020057604 A KR 20020057604A KR 20040026227 A KR20040026227 A KR 20040026227A
Authority
KR
South Korea
Prior art keywords
nodes
protein interaction
interaction data
graph
protein
Prior art date
Application number
KR1020020057604A
Other languages
English (en)
Other versions
KR100470977B1 (ko
Inventor
한경숙
주병현
Original Assignee
학교법인 인하학원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 인하학원 filed Critical 학교법인 인하학원
Priority to KR10-2002-0057604A priority Critical patent/KR100470977B1/ko
Priority to JP2002319839A priority patent/JP2004118819A/ja
Priority to US10/290,432 priority patent/US7280921B2/en
Publication of KR20040026227A publication Critical patent/KR20040026227A/ko
Application granted granted Critical
Publication of KR100470977B1 publication Critical patent/KR100470977B1/ko
Priority to JP2005099514A priority patent/JP2005322216A/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B30/00Methods of screening libraries
    • C40B30/04Methods of screening libraries by measuring the ability to specifically bind a target molecule, e.g. antibody-antigen binding, receptor-ligand binding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6845Methods of identifying protein-protein interactions in protein mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Medical Informatics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Food Science & Technology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 대규모의 단백질 상호작용 데이터를 시각화한 3차원 그래프를 생성하는 기법에 관한 것으로서, 단백질 상호작용 데이터의 모든 노드들을 극 좌표의 수평 및 수직 각도 모두를 증가시킴으로써 구체 (sphere) 표면에 배치하여 초기 레이아웃을 생성하는 제 1 단계와; 초기 레이아웃의 각 노드를 인접 노드들과의 로컬 스프링 포스 (local spring force)와 비인접 노드들과의 글로벌 스프링 포스 (global spring force) 둘 다를 고려하여 평형 위치 (equilibrium position)로 이동시키는 과정을 미리 정해진 횟수만큼 반복하여 그래프를 생성하는 제 2 단계;를 포함하는 것을 특징으로 하는 대규모 단백질 상호작용 데이터의 효율적 시각화 기법을 제공하여, 종래의 알고리즘에 비해 속도가 빠르고 인터랙티브한 분석에 사용될 수 있으며 데이터베이스의 질의 결과를 직접 시각화할 수 있는 통합 시스템의 구현이 가능케 한다.

Description

대규모 단백질 상호작용 데이터의 효율적 시각화 기법 {A FAST ALGORITHM FOR VISUALIZING LARGE-SCALE PROTEIN-PROTEIN INTERACTIONS}
본 발명은 대규모의 단백질 상호작용 데이터를 3차원으로 시각화하는 기법에 관한 것이다.
최근 단백질체학 기술이 발달하면서 단백질 상호작용 데이터가 급격히 대규모화되고 있다. 이러한 대규모의 데이터는 상호작용하는 단백질을 길게 열거하는 것 보다 그래프의 형태로 보이는 것이 이해하는데 훨씬 도움이 되므로, 단백질 상호작용 네트웍의 시각화에 대한 연구가 진행되어 왔다. 그러나, 단백질 상호작용 데이터를 시각화하기란 쉽지 않은데, 이유는 다음과 같다. 첫째, 단백질 상호작용 데이터는 시각화되었을 때 에지의 교차 (edge crossing)가 많은 복잡한 비평면 그래프가 되기 때문이다. 둘째, 여러 개의 연결 컴포넌트 (connected components)로 구성된 분리 그래프 (disconnected graph)가 되는 경우가 많기 때문이다.
대부분의 일반 그래프 작성 도구들 (graph-drawing tools)은 변형된 force-directed 레이아웃 알고리즘을 사용하는데, 이 알고리즘이 융통성 (flexibility) 있고 구현하기 쉬우며 드로잉 결과도 양호하기 때문이다. 전통적인 force-directed 레이아웃 알고리즘은 노드들을 랜덤하게 배치하는 것으로 시작하며, 최적화 기법을 통해 그것들의 위치를 재조정하여 최소한의 에너지를 가진 레이아웃을 찾아낸다. 여러 force-directed 레이아웃 알고리즘들 간의 주된 차이는 에너지 함수 및 최소화 기법의 선택에 있다. force-directed 레이아웃 알고리즘의 예로는 Kamada 및 Kawai (1989)에 의한 것과, Fruchterman 및 Reingold (1991)에 의한 것이 있는데, 전자는 2차원 그래프를 생성하며 분리 그래프를 시각화하지는 못한다. 많은 force-directed 알고리즘들의 공통적인 문제는 대규모 그래프를 처리하기에 너무 느리다는 것인데, 이는 각 반복 스텝에서 모든 쌍의 노드들 간의 포스 (force)를 계산해야 하기 때문이다.
또한, relaxation 알고리즘을 기초로 하여 단백질 상호작용을 시각화하는 자바 애플릿 프로그램이 Mrowka (2001)에 의해 개발되어 Y2H (Yeast Two-Hybrid, Uetz et al., 2000) 데이터에서 테스트되었다. 이 프로그램은 모든 단백질 상호작용 데이터가 HTML 소스의 애플릿 프로그램의 파라미터로 제공될 것을 요구하며, 윈도우를 캡쳐링 (capturing)하는 것 외에는 시각화된 그래프를 저장할 방법이 없다. 윈도우에서 캡쳐링된 이미지는 정적인 (static) 이미지이며 일반적으로 질이 떨어진다. 또한, 이러한 이미지는 이후에 데이터 변경을 반영하여 수정될 수 없다. 노드를 이동시킬 수는 있으나, 나중에 사용하기 위해 특정 단백질을 포함하는 연결 컴포넌트를 선택하거나 저장하는 것도 불가능하다.
이밖에 단백질 상호작용 시각화 도구들은 고유한 알고리즘이나 프로그램을 사용하고 있지 않고, 일반 용도의 드로잉 도구를 사용한다. 예컨대, PSIMAP (Park et al., 2001; Lappe et al., 2001)은 단백질의 구조적 분류 (Murzin et al, 1995)를 사용하여 Y2H 데이터와 DIP 데이터 (Xerarios et al., 2001)를 비교함으로써 단백질 패밀리간의 상호작용을 나타낸 것인데, Tom Sawyer 소프트웨어 (http://www.tomsawyer.com/)에 의해 작성된 후 상당한 수작업에 의하여 맵의 에지 교차를 제거하였다.
워싱턴 대학교의 한 연구팀 (Schwikowski et al., 2000; Tucker et al., 2001)은 AGD (http://www.mpi-sb.mpg.de/AGD/)라는 일반 용도의 드로잉 도구를 사용하여 Y2H 데이터를 시각화하였다. AGD는 2차원 그래프를 생성하며 시각화 결과가 비교적 만족스럽기 때문에 강력한 도구이긴 하나, 일반 용도의 드로잉 도구이므로 단백질 상호작용 연구에 필요한 기능들은 제공하지 못한다. 예컨대, Y2H 데이터를 포함하여 대부분의 단백질 상호작용 데이터는 다수의 연결 컴포넌트로 구성된 분리 그래프를 생성하며, 이 그래프는 2차원 드로잉에서는 제거될 수 없는 많은 수의 에지 교차를 가진 비평면 그래프이기도 하다. 이러한 그래프를 분석하는 방법 중 하나는 특정 단백질을 포함하는 개별적인 연결 컴포넌트나 서브그래프들에 대해 작업하는 것이다. 또 다른 방법은 비평면 그래프를 에지 교차가 없는 3차원 그래프로 시각화하는 것이다. 그러나, AGD는 이 기능들을 제공하지 않으므로 분석이 어렵다.
한편, 상기 그래프 작성 프로그램들은 모두 데이터베이스를 조회하여 조회결과를 직접 시각화하지 못한다는 문제가 있다. 이들은 특정 형식의 입력 데이터를 요구하므로, 사용자가 데이터 형식을 변환해야 하는 불편함이 있다. 또한, 단백질 상호작용 데이터는 시간에 따라 변경되므로, 이러한 변경 사항을 시각화에 반영하는 것이 편리하나, 종래 프로그램들은 이러한 기능을 제공해주지 못한다.
요약하면, 종래의 그래프 드로잉 도구들은 1) 에지 교차가 많은 혼란스러운 그래프나 수정하기 어려운 정적 그래프를 그리고, 2) 많은 데이터로 인터랙티브 (interactive)한 작업을 하기에 너무 느리고, 3) 단백질 상호작용 데이터베이스로부터 직접 데이터를 읽지 않고 데이터가 특정 형식으로 입력되었을 때만 시각화가 가능하기 때문에 단백질 상호작용을 시각화하기에 적합치 않은 문제점이 있었다.
본 발명은 상기 문제점을 해결하기 위한 것으로서, 대규모의 단백질 상호작용 네트웍을 3차원으로 시각화하는 새로운 기법을 제공하기 위한 것이다. 보다 상세하게는 종래의 다른 시각화 알고리즘에 비해 속도가 빨라 단백질 상호작용의 시각화뿐만 아니라 인터렉티브한 분석에도 사용될 수 있고, 단백질 상호작용 데이터베이스에 대한 질의 결과를 직접 3차원 공간에 시각화하며, 시각화된 네트웍은 차후 수정 또는 네비게이트될 수 있는 시스템을 위한 새로운 force-directed 알고리즘을 제공하기 위한 것이다.
도 1은 본 발명에 따른 시각화 기법의 레이아웃 알고리즘,
도 2는 인접 노드들 간의 로컬 포스로 인한 노드 이동을 나타낸 도면,
도 3은 473 개의 노드를 가진 초기 레이아웃의 예를 도시한 도면,
도 4는 초기 레이아웃을 위한 알고리즘,
도 5는 서브그래프 목록을 도시한 도면,
도 6은 도 5의 서브그래프 0을 3차원으로 드로잉한 결과를 도시한 도면,
도 7은 단백질 상호작용 분석의 예를 도시한 도면,
도 8은 도 6의 그래프를 간략화한 도면,
도 9는 Y2H 데이터에 대한 시각화 결과로서, (a) InterViewer 시각화 결과, (b) Pajek (Fruchterman and Reingold 알고리즘) 시각화 결과, (c) Tulip (GEM 알고리즘) 시각화 결과, (d) Tulip (Speing-Electrical Force 알고리즘) 시각화 결과를 도시한 도면,
도 10은 MIPS 유전적 상호작용 시각화 결과로서, (a) InterViewer 시각화 결과, (b) Pajek (Fruchterman and Reingold 알고리즘) 시각화 결과, (c) Tulip (GEM 알고리즘) 시각화 결과, (d) Tulip (Speing-Electrical Force 알고리즘) 시각화 결과를 도시한 도면,
도 11은 MIPS 물리적 상호작용 시각화 결과로서, (a) InterViewer 시각화 결과, (b) Pajek(Fruchterman and Reingold 알고리즘) 시각화 결과, (c) Tulip (GEM 알고리즘) 시각화 결과, (d) Tulip (Speing-Electrical Force 알고리즘) 시각화 결과를 도시한 도면,
도 12는 연결 컴포넌트 (connected component)를 찾는 과정을 설명한 도면.
본 발명은 대규모의 단백질 상호작용 데이터의 효율적 시각화 기법에 관한 것으로, 단백질을 노드로 하고 단백질 간 상호작용을 에지로 하는 3차원 그래프를그린다. 본 발명은 단백질 상호작용 데이터의 모든 노드들을 극 좌표의 수평 및 수직 각도 모두를 증가시킴으로써 구체 (sphere) 표면에 배치하여 초기 레이아웃을 생성하는 제 1 단계와; 상기 초기 레이아웃의 각 노드를 인접 노드들과의 로컬 스프링 포스 (local spring force)와 비인접 노드들과의 글로벌 스프링 포스 (global spring force) 둘다를 고려하여 평형 위치 (equilibrium position)로 이동시키는 과정을 미리 정해진 횟수만큼 반복하여 그래프를 생성하는 제 2 단계;를 포함하는 것을 특징으로 하는 대규모 단백질 상호작용 데이터의 효율적 시각화 기법을 제공한다.
본 발명은 상기 제 2 단계의 반복 횟수가 사용자에 의해 변경 가능하고, 상기 단백질 상호작용 데이터가 저장되어 있는 데이터베이스와 연동하여 작동하는 것을 또 다른 특징으로 한다.
또한, 사용자가 선택한 노드에 대한 이웃 노드들의 거리 레벨을 일정 거리까지 제한함으로써 상기 그래프를 간략화하는 제 3 단계를 더 포함하는 것을 특징으로 한다.
먼저, 본 발명에서 사용되는 단백질 상호작용 데이터에 대한 용어와 특성에 대해 살펴본다. 단백질 상호작용 데이터는 노드가 단백질을 나타내고 에지가 단백질의 상호작용을 나타내는 그래프로 시각화될 수 있다. 노드의 차수 (degree)는 에지의 수이며, u=v일 때 에지 (u, v)는 셀프 루프이다. 또한, 단백질 상호작용 데이터는 다음과 같은 특성을 가지고 있다.
1) 그래프로 시각화될 때, 단백질 상호작용 데이터는 다수의 연결 컴포넌트를 가진 분리 그래프가 된다. 예컨대, MIPS 유전적 상호작용 데이터 (http://mips.gsf.de/proj/yeast/tables/interaction/)는 100개 이상의 연결 컴포넌트를 포함한다.
2) 단백질 상호작용 데이터는 2차원 그래프에서는 제거될 수 없는 많은 수의 에지 교차를 가진 비평면 그래프를 산출한다.
3) 하나의 데이터 집합에서 단백질마다 매우 다른 숫자의 상호작용하는 단백질을 가지므로, 이를 시각화한 그래프는 낮은 차수뿐만 아니라 매우 높은 차수의 노드도 포함하게 된다.
4) 단백질 상호작용 데이터는 간혹 셀프 루프에 해당하는 단백질 상호작용을 포함한다.
5) 단백질 상호작용 데이터는 동일 단백질 쌍에 대해 복수의 상호작용을 포함하고 있다.
본 발명에서는 셀프 루프에 해당하는 상호작용을 데이터베이스의 에지 테이블에 저장하나, 드로잉 과정을 간단하게 하고 깨끗한 그래프를 생성하기 위해 시각화에서는 이를 무시한다. 또한, 본래의 단백질 상호작용 데이터베이스가 동일 에지에 대한 복수의 항목을 포함하고 있다면, 로컬 데이터베이스에는 한번만 저장한다. 본 발명에 의해 시각화되는 단백질 상호작용 네트웍은 이미지 파일, 로컬 데이터베이스 또는 GML 형식 (Himsolt, 1997)의 텍스트 파일로 저장될 수 있다. GML (Graph Modeling Language)은 포터블 (portable)한 그래프 파일 형식이며, GML로그래프를 저장하면 전에 계산된 그래프를 다시 로드하여 다시 시각화할 수 있다는 장점이 있다.
종래의 force-directed 알고리즘들의 공통적인 문제는 대용량의 그래프 처리시 속도가 매우 느려진다는 것이므로, 본 발명에서는 속도와 시각적 선명도를 크게 향상시킬 수 있는 새로운 force-directed 알고리즘을 통한 시각화 기법을 제안한다. 본 발명에서 제안하는 시각화 기법은 Walshaw (2000)의 알고리즘을 기초로 하여, 문제점을 개선한 것이다.
본 발명에 따른 레이아웃 알고리즘은 도 1에 간략히 기술되어 있다. Walshaw의 알고리즘의 문제점 중 하나는 그래프가 밀집 서브그래프 (매우 높은 차수를 가진 노드들을 포함하는 서브그래프)를 포함하고 있을 때, 원하는 결과를 얻을 수 없었다. 이 알고리즘은 그래프 크기가 어떤 임계값 (threshold value) 이하로 떨어질 때까지 노드 위치를 반복적으로 계산하므로, 전체적인 레이아웃을 개선하지 못하면서도 알고리즘을 여러번 불필요하게 반복하게 되는 경우가 발생한다. 따라서, 본 발명에서는 Walshaw 알고리즘과는 다른 종료 조건을 채용하였는 바, 디폴트로 20번 반복하게 하였다. 20이라는 디폴트 값은 비교 실험을 근거로 경험적으로 선택한 것이며, 사용자 인터페이스를 통해 반복 횟수를 증가시킬 수 있다 (16행).
각 반복 루프에서, 인접 노드들 간의 로컬 스프링 포스 (local spring force)뿐만 아니라 (10행) 비인접 노드들 간의 글로벌 스프링 포스 (global springforce)까지 참조하여 (8행) 노드 위치가 갱신된다.
도 2는 인접 노드들 간의 로컬 포스로 인해 노드 v가 재배치되는 것을 도시한 도면이다. 도 2a를 살펴보면, 노드 v는 3개의 노드에 연결되어 있고, 3개의 인접 노드들 중 하나 (u)로부터의 v에 대한 포스 (force)는 v를 v와 u 사이의 라인을 따라 움직이게 한다. 결과적으로는 도 2b에 도시된 바와 같이, 모든 인접 노드들에 의해 부과된 결합 포스 (aggregate force)는 v를 평형 위치 (equilibrium position)로 이동시킨다.
다음은 본 발명에서 채용하고 있는 초기 레이아웃 방법에 대해 설명한다. 종래의 일반적인 force-directed 그래프 드로잉 알고리즘은 2차원의 평면이나 3차원 공간에 그래프의 모든 노드들을 랜덤하게 배치하는 것으로 시작하고, 최적화 기법을 사용해 이 초기 레이아웃을 계속적으로 수정하여 최소 에너지를 가진 레이아웃을 찾는다. 초기 레이아웃에 오버랩되는 노드들이나 동일 평면상의 노드들이 있는 경우, 그것들을 재배치하기 위해 계산 시간이 증가하기도 한다. 그러므로, 처리 시간을 단축하기 위해, 본 발명에서는 초기 레이아웃을 위해 노드들을 랜덤하게 배치하지 않는다. 본 발명에 따르면, 극(極)좌표의 수평 및 수직 각도 둘다를 증가시킴으로써 구체 (sphere) 표면에 노드들을 배치한다. 이 방법은 평면에 노드를 배치하는 횟수를 최소화한다. 도 3은 473개의 노드를 가진 그래프의 초기 레이아웃의 예를 도시한 것이며, 도 4는 초기 레이아웃을 위한 간략한 알고리즘이다.
이하에서는 본 발명에 따른 알고리즘의 계산 비용에 대해 살펴 본다. "n(노드의 수) = V"인 그래프에 있어, 초기 레이아웃에는 시간 O(n)만이 소요되며 알고리즘의 글로벌 시간에는 영향을 미치지 않는다. T를 바깥 루프의 총 반복 수라고 하자 (도 1의 2행). 노드 하나의 이동 D를 계산하는데는 시간 O(n)이 걸리므로, 바깥 루프의 각 스텝에서 모든 노드들의 이동 D를 계산하는데는 시간 O(n2)이 걸린다. 그러므로, 총 필요 시간은 O(Tㆍn2) = O(n2)이다 (T는 상수). spring-embedder 알고리즘 (Kamada 및 Kawai, 1989)의 시간 복잡도인 O(n3)에 비하면, 본 발명은 매우 빠르다.
본 발명에 따른 시각화 기법을 이용하여 구현된 드로잉 도구에서는 서브그래프를 찾아 작업하는 것이 가능하다. 단백질 상호작용 네트웍의 크기나 특성상, (분리 그래프의 연결 컴포넌트나 특정 단백질과 상호작용하는 단백질들의 서브그래프와 같은) 서브그래프를 찾아 각 서브그래프에 대해 작업하는 것이 가능해야 한다. 연결 컴포넌트를 찾는 절차는 모든 노드에 적용되어 연결 컴포넌트의 총 목록을 얻을 수 있다 (도 12 참조). 도 5에 도시된 예와 같이, 이 목록은 각 연결 컴포넌트의 크기, 노드들, 에지들뿐만 아니라 연결 컴포넌트의 총 수도 가지고 있다.
또한, 단백질 상호작용 데이터는 대용량이고 시간이 흐름에 따라 변경될 수 있으므로, 플랫 파일보다는 데이터베이스로 관리하는 것이 훨씬 효율적이다. 따라서, 본 발명에서는 단백질 상호작용 데이터의 로컬 데이터베이스를 구축하였다.
다음은 본 발명에 따른 대규모 단백질 상호작용 데이터의 효율적 시각화 기법을 구현한 프로그램인 InterViewer를 실험한 결과에 대해 설명한다. 도 5는 MIPS 유전인자 상호작용 데이터의 연결 컴포넌트를 열거한 것으로서, 이 예에서는 동일 단백질 쌍 간의 중복 상호작용을 제외하고 888 개의 단백질간의 1093 개의 상호작용이 포함되어 있다. 왼쪽 윈도우는 MIPS 유전인자 상호작용 데이터의 모든 연결 컴포넌트를 보여주고 있으며, 여기서 사용자가 연결 컴포넌트를 선택하면 상기 연결 컴포넌트의 모든 에지가 오른쪽 윈도우에 표시된다. 이 예의 연결 컴포넌트 중, 서브그래프 0은 2 개의 셀프 루프를 포함하여 531 개의 노드와 807 개의 에지를 가진 가장 큰 서브그래프이다. 도 6은 본 발명에 따라 서브그래프 0을 시각화한 것으로, 에지 교차가 있는 것으로 보이나, 비디오 모니터에 3차원 드로잉으로 시각화되었을 때는 실제로 에지 교차가 없다.
InterViewer를 사용하면 사용자는 단백질 상호작용을 분석하고, 회전이나 줌에 의해 3차원 드로잉을 탐색할 수 있다. 도 7은 단백질 상호작용의 분석 예를 도시한 것으로, 첫번째 윈도우에는 모든 기능 그룹 쌍에 공통되는 단백질의 수와 각 그룹 내의 내부 상호작용의 수가 나타나 있다. 사용자가 이 윈도우에서 한 행을 선택하면, 두번째 윈도우와 같이 단백질과 기능 그룹의 관계가 벤 다이어그램으로 표시된다. 이 다이어그램에 따르면 35 개의 단백질이 기능 'aa (Amino-acid metabolism)'를 가지고 있고 46 개의 단백질이 기능 'cc (Cell cycle control)'을 가지고 있으며, 3 개의 단백질은 두 기능을 모두 가지고 있다. 사용자가 기능 그룹을 클릭하면, 세번째와 네번째 윈도우에 도시된 것처럼 해당 기능 그룹의 모든 단백질이 열거된다.
InterViewer에 의해 시각화된 그래프는 이웃 노드들의 거리 레벨 (distance level of neighbors)을 제한함으로써 간단화될 수 있다. 예컨대, 도 6의 CIT2의 이웃들의 거리 레벨을 5로 설정하면, InterViewer는 도 8에 도시된 바와 같이 76 개의 노드를 가진 간략화된 그래프를 찾아낸다. 이 그래프에서, 사용자가 선택한 노드인 SEP2, PAN1 및 FIR1을 다른 색으로 표시하고 CIT2는 또 다른 색으로 표시함으로써 사용자의 편의를 도모할 수 있다. 사용자는 force-directed 레이아웃을 생성할 동안 하나 이상의 노드 위치를 고정하도록 선택할 수 있다. 초기 레이아웃 이후에, 서브 레이아웃의 중심을 고정시킴으로써 생성된 별 모양 서브그래프의 노드 위치는 대부분 만족스러운 그래프를 산출해 낸다.
먼저, 본 발명에 따르면 대규모의 단백질 상호작용 네트웍을 명확하고 미적으로 우수한 그래프로 시각화하며 종래의 force-directed 알고리즘에 비해 10배 이상 빠른 시스템을 구현할 수 있다. 실행 시간의 비교를 위해, 본 발명에서는 종래의 그래프 드로잉 프로그램인 Pajek (Batagelj & Mrvar, 2001)과 Tulip (David, 2001)을 같이 실행시켰다. Pajek의 경우 레이아웃을 위해 Kamada 및 Kawai의 알고리즘 (1989), Eigen value 방법 (Golub 및 van Loan, 1996), Fruchterman 및 Reingold의 알고리즘 (1991) 등 3 가지 알고리즘이 구현되어 있다. 첫번째 알고리즘은 분리 그래프를 그리지 못하고 2차원 그래프만을 그리며, 두번째 알고리즘은 그래프 드로잉 결과가 Fruchterman 및 Reingold의 알고리즘에 비해 좋지 않으므로, Fruchterman 및 Reingold의 알고리즘만을 비교 대상으로 하였다. 또한, Tulip의 두 알고리즘인 Spring-Electric 레이아웃과 GEM 알고리즘을 비교하였다. 다음 표 1은 본 발명에 따른 InterViewer와 상기 세 알고리즘을 펜티엄IV 1.7GHz프로세서에서 비교 실험한 결과이며, 이들 알고리즘에 의한 드로잉 결과는 도 9 내지 도 11에 도시되어 있다. 각 도면은 InterViewer, Pajek (Fruchterman-Reingold), Tulip (Spring-Electric) 및 Tulip (GEM)에 의한 결과 그래프를 순서대로 도시한 것이다.
프로그램(레이아웃 알고리즘) Y2H 데이터(1005 노드,905 에지) MIPS 유전인자상호작용 데이터(888 노드,1093 에지) MIPS Physical상호작용 데이터(2167 노드,2948 에지)
InterViewer 8 초 6 초 1 분 15 초
Pajek(Fruchterman-Reingold) 3 분 17 초 1 분 48 초 12 분 42 초
Tulip(GEM) 26 초 19 초 27 분 0 초
Tulip(Spring-Electric) 3 분 40 초 3 분 43 초 95 분 21 초
또한, 본 발명에 따른 시각화 기법은 단백질 상호작용의 시각화뿐만 아니라 개별적인 연결 컴포넌트들이나 서브그래프들의 인터랙티브한 검색 및 탐색을 위한 시스템에도 사용될 수 있다.
마지막으로, 본 발명은 단백질 상호작용 데이터베이스를 동적으로 조회하고 그 조회 결과를 직접 시각화하므로, 많은 양의 갱신 데이터의 시각화 및 분석 기능이 가능하다는 장점이 있다.

Claims (4)

  1. 대규모의 단백질 상호작용 데이터를 시각화하기 위하여 단백질을 노드로 하고 단백질 간 상호작용을 에지로 하는 3차원 그래프를 생성하는 대규모 단백질 상호작용 데이터의 효율적 시각화 기법에 있어서,
    상기 단백질 상호작용 데이터의 모든 노드들을 극 좌표의 수평 및 수직 각도를 증가시킴으로써 구체 (sphere) 표면에 배치하여 초기 레이아웃을 생성하는 제 1 단계; 및
    상기 초기 레이아웃의 각 노드를 인접 노드들과의 로컬 스프링 포스 (local spring force)와 비인접 노드들과의 글로벌 스프링 포스 (global spring force)를 고려하여 평형 위치 (equilibrium position)로 이동시키는 과정을 미리 정해진 횟수만큼 반복하여 그래프를 생성하는 제 2 단계;를 포함하는 것을 특징으로 하는 대규모 단백질 상호작용 데이터의 효율적 시각화 기법.
  2. 제 1 항에 있어서, 상기 제 2 단계의 반복 횟수는 사용자에 의해 변경 가능한 것을 특징으로 하는 대규모 단백질 상호작용 데이터의 효율적 시각화 기법.
  3. 제 1 항에 있어서, 상기 단백질 상호작용 데이터가 저장되어 있는 데이터베이스와 연동하는 것을 특징으로 하는 대규모 단백질 상호작용 데이터의 효율적 시각화 기법.
  4. 제 1 항에 있어서, 사용자가 선택한 노드에 대한 이웃 노드들의 거리 레벨을 일정 거리까지 제한함으로써 상기 그래프를 간략화하는 제 3 단계를 더 포함하는 것을 특징으로 하는 대규모 단백질 상호작용 데이터의 효율적 시각화 기법.
KR10-2002-0057604A 2002-09-23 2002-09-23 대규모 단백질 상호작용 데이터의 효율적 시각화 기법 KR100470977B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR10-2002-0057604A KR100470977B1 (ko) 2002-09-23 2002-09-23 대규모 단백질 상호작용 데이터의 효율적 시각화 기법
JP2002319839A JP2004118819A (ja) 2002-09-23 2002-11-01 大規模蛋白質相互作用データの効率的視覚化技法
US10/290,432 US7280921B2 (en) 2002-09-23 2002-11-07 Method for visualizing large-scale protein interaction data
JP2005099514A JP2005322216A (ja) 2002-09-23 2005-03-30 大規模蛋白質相互作用データの効率的視覚化技法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0057604A KR100470977B1 (ko) 2002-09-23 2002-09-23 대규모 단백질 상호작용 데이터의 효율적 시각화 기법

Publications (2)

Publication Number Publication Date
KR20040026227A true KR20040026227A (ko) 2004-03-30
KR100470977B1 KR100470977B1 (ko) 2005-03-10

Family

ID=31987513

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0057604A KR100470977B1 (ko) 2002-09-23 2002-09-23 대규모 단백질 상호작용 데이터의 효율적 시각화 기법

Country Status (3)

Country Link
US (1) US7280921B2 (ko)
JP (2) JP2004118819A (ko)
KR (1) KR100470977B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100833988B1 (ko) * 2006-10-12 2008-05-30 포항공과대학교 산학협력단 다극자 변형 표현을 이용한 단백질 분자 모양의 표현 방법
KR100970968B1 (ko) * 2008-10-21 2010-07-21 건국대학교 산학협력단 거대 분자의 렌더링 방법 및 장치

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004069417A (ja) * 2002-08-05 2004-03-04 Hitachi Ltd ノード座標の決定方法、ネットワーク表示方法及びスクリーニング方法
KR100491666B1 (ko) * 2002-09-23 2005-05-27 학교법인 인하학원 단백질 상호작용 네트웍의 분할 시각화 기법
EP1510940A1 (en) * 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
EP1510941A1 (en) * 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
EP1510939A1 (en) * 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
EP1510938B1 (en) * 2003-08-29 2014-06-18 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
US7523117B2 (en) * 2005-05-04 2009-04-21 West Virginia University Research Corporation Method for data clustering and classification by a graph theory model—network partition into high density subgraphs
US10289802B2 (en) 2010-12-27 2019-05-14 The Board Of Trustees Of The Leland Stanford Junior University Spanning-tree progression analysis of density-normalized events (SPADE)
CN102750460B (zh) * 2012-05-31 2014-12-10 常州工学院 分层简化大规模图数据的运算方法
CN103390087B (zh) * 2013-07-31 2016-03-09 浙江大学 一种针对大规模几何场景的交互绘制方法
US20160232279A1 (en) * 2013-09-23 2016-08-11 Northeastern University System and Methods for Disease Module Detection
JP7404648B2 (ja) * 2019-04-25 2023-12-26 富士通株式会社 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム
CN111061921B (zh) * 2019-12-04 2020-10-30 智器云南京信息科技有限公司 一种图像布局实现方法、系统、终端设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265030A (en) * 1990-04-24 1993-11-23 Scripps Clinic And Research Foundation System and method for determining three-dimensional structures of proteins
WO1993020525A1 (en) * 1992-03-27 1993-10-14 Akiko Itai Method of searching the structure of stable biopolymer-ligand molecule composite
JPH08263535A (ja) * 1995-03-23 1996-10-11 Fujitsu Ltd 立体構造データ管理方法
US20020107643A1 (en) * 1999-01-22 2002-08-08 Wayne A. Hendrickson Process for pan-genomic determination of macromolecular atomic structures

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100833988B1 (ko) * 2006-10-12 2008-05-30 포항공과대학교 산학협력단 다극자 변형 표현을 이용한 단백질 분자 모양의 표현 방법
KR100970968B1 (ko) * 2008-10-21 2010-07-21 건국대학교 산학협력단 거대 분자의 렌더링 방법 및 장치

Also Published As

Publication number Publication date
JP2004118819A (ja) 2004-04-15
US7280921B2 (en) 2007-10-09
JP2005322216A (ja) 2005-11-17
US20040059521A1 (en) 2004-03-25
KR100470977B1 (ko) 2005-03-10

Similar Documents

Publication Publication Date Title
JP2005322216A (ja) 大規模蛋白質相互作用データの効率的視覚化技法
Kreuseler et al. A flexible approach for visual data mining
Kreuseler et al. A history mechanism for visual data mining
Dwyer et al. Exploration of networks using overview+ detail with constraint-based cooperative layout
JP2006520948A (ja) 3次元オブジェクトについて検索を行なうための方法、システムおよびデータ構造
JPH10134069A (ja) 情報検索装置
Stober et al. Musicgalaxy: A multi-focus zoomable interface for multi-facet exploration of music collections
CN112368702A (zh) 可视化和浏览大规模生成设计数据集的技术
Tanin et al. Incremental data structures and algorithms for dynamic query interfaces
Ellis et al. Density control through random sampling: an architectural perspective
Krommyda et al. IVLG: Interactive visualization of large graphs
US20040059522A1 (en) Method for partitioned layout of protein interaction networks
CN113867850A (zh) 数据处理方法、装置、设备和存储介质
Auber et al. EVAT: Environment for visualization and analysis of trees
Spritzer et al. A physics-based approach for interactive manipulation of graph visualizations
Jianu et al. Visual integration of quantitative proteomic data, pathways, and protein interactions
JP2002245097A (ja) 連成解析方法、その解析条件設定方法、その記憶媒体及びそのプログラム
JPH10207907A (ja) 3次元空間を用いたオブジェクト配置・表示・操作方法および装置
Richardson et al. Computational processes for map generalization
KR100471417B1 (ko) 단백질 상호작용 네트워크의 시각화방법
Wu et al. Towards integrated and efficient scientific sensor data processing: a database approach
Finsterwalder et al. A ‘Parallel Coordinate’Editor as a Visual Decision aid in a Multi-Objective Concurrent Control Engineering Environment
CN113010631B (zh) 一种基于知识引擎的机器人与环境交互方法
Lee Recent generalization development and road ahead
Huang et al. Context visualization for visual data mining

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130123

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20131212

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150102

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20151215

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20161220

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20171205

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20181121

Year of fee payment: 15