KR100540594B1

KR100540594B1 - 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치

Info

Publication number: KR100540594B1
Application number: KR1020030095036A
Authority: KR
Inventors: 김대희; 최재훈; 정재영; 박선희
Original assignee: 한국전자통신연구원
Priority date: 2003-12-22
Filing date: 2003-12-22
Publication date: 2006-01-10
Also published as: KR20050063617A

Abstract

본 발명은 단백질 상호작용 데이터를 시각화 하기 위한 기술에 관한 것이다. 특히, 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치에 관한 것이다.

본 발명은 각 단백질을 정점으로 단백질간의 각 상호작용을 간선으로 할당하여 데이터를 형성하는 (a) 단계, 정점 및 정점 주변에 위치한 소정의 기능 또는 기능들을 가진 정점들을 클러스터로 그룹핑하고, 각 클러스터를 정점으로 클러스터간의 각 상호작용을 간선을 할당하여 새로운 데이터를 형성하는 (b) 단계, 및 상기 (b) 단계를 소정 횟수 수행하는 (c) 단계를 포함하는 단백질 상호작용 데이터의 기능기반 추상화 방법을 제공한며, 또한 이를 이용한 시각화 방법 및 장치를 제공한다.

본 발명에 의한 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치는 대용량 단백질의 상호작용을 쉽게 눈으로 시각화 할 수 있다는 장점이 있다.

단백질(protein), 상호작용(interaction), 시각화(visualization), 온톨로지(ontology), 추상화(abstraction).

Description

단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치 {The function-based abstraction method of protein-protein interaction data and visualization method and apparatus using the same}

도 1은 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 시각화 장치를 나타내는 계통도(block diagram)이다.

도 2는 본 발명의 제 1 실시예에 의한 단백질 상호작용 DB에 저장된 테이블을 나타내는 도면이다.

도 3은 일반적인 온톨로지에 대한 개념도이다.

도 4는 본 발명의 제 1 실시예에 의한 온톨로지 DB에 저장된 테이블을 나타내는 도면이다.

도 5는 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 추상화의 방법을 설명하기 위한 순서도이다.

도 6 내지 7은 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 추상화의 방법을 설명하기 위한 도면이다.

도 8은 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 시각화 장치에 사용되는 확장부분에 대한 예시도이다.

도 9는 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 시각화에 의하여 노드와 간선의 변화를 설명하기 위한 도면이다.

단백질 상호작용 데이터를 시각화하기 위한 종래 기술로써, 단백질을 노드로, 단백질 간 상호작용을 에지로 표현하여 단백질 상호작용 네트웍을 그래프로 구성하고 구성된 그래프를 레이아웃하는 방법으로 시각화하는 방법이 있다. 그러나, 이 방법에 의할 경우, 단백질의 수의 방대함으로 인해 전산적으로 수행하기 용이하지 아니하다는 문제점이 있다.

따라서, 본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은 기능에 기반한 추상화 방법을 사용함으로써, 대용량의 단백질 데이터를 시각화 할 수 있는 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치를 제공하는데 있다.

또한, 본 발명의 목적을 원하는 기능과 기능들 사이의 상호작용을 사용자가 손쉽게 파악할 수 있도록 단백질 데이터를 시각화 할 수 있는 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치를 제공하는데 있다.

상술한 목적을 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면은 각 단백질을 정점으로 단백질간의 각 상호작용을 간선으로 할당하여 데이터를 형성하는 (a) 단계, 정점 및 정점 주변에 위치한 소정의 기능 또는 기능들을 가진 정점들을 클러스터로 그룹핑하고, 각 클러스터를 정점으로 클러스터간의 각 상호작용을 간선으로 할당하여 새로운 데이터를 형성하는 (b) 단계, 및 단백질 상호 작용 데이터의 정점의 수가 소정의 임계값보다 적을 때까지 또는 소정 횟수 동안 상기 (b) 단계를 반복하는 (c) 단계를 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능 기반 추상화 방법을 제공한다.

본 발명의 제 2 측면은 제 1 측면에 의하여 추상화를 수행하는 추상화 단계, 상기 추상화 단계에서 얻어진 데이터에 좌표를 부여하는 제 1 위치화 단계, 클러스터로부터 형성된 정점을 클러스터에 포함된 정점 및 간선으로 변환하여 새로운 데이터를 형성하는 확장 단계, 및 상기 확장 단계에서 얻어진 데이터에 좌표를 부여하는 제 2 위치화 단계를 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 시각화 방법을 제공한다.

본 발명의 제 3 측면은 추상화부, 위치화부 및 확장부를 포함하는 단백질 상호작용 데이터의 기능기반 시각화 장치에 있어서, 상기 추상화부는 제 1 측면에 의한 추상화를 수행하며, 상기 위치화부는 상기 추상화부에서 얻어진 데이터 또는 상기 확장부에서 얻어진 데이터에 좌표를 부여하며, 상기 확장부는 상기 추상화부에서 얻어진 데이터에서 클러스터로부터 형성된 정점을 클러스터에 포함된 정점 및 간선으로 변환하여 새로운 데이터를 형성하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 시각화 장치를 제공한다.

본 발명의 제 4 측면은 동일 또는 유사한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계를 단수 또는 복수회 수행하는 단백질 상호작용 데이터의 기능기반 추상화 방법을 제공한다.

본 발명의 제 5 측면은 소정의 단백질 또는 클러스터화된 단백질 및 이와 상호작용 있는 동일 또는 유사한 기능을 가진 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계를 단수 또는 복수회 수행하는 단백질 상호작용 데이터의 기능기반 추상화 방법을 제공한다.

본 발명의 제 6 측면은 제 4 또는 5 측면에 의하여 추상화를 수행하는 추상화 단계, 및 상기 추상화 단계에서 얻어진 데이터에 좌표를 부여하는 위치화 단계를 포함하는 단백질 상호작용 데이터의 기능기반 시각화 방법을 제공한다.

이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명 한다. 그러나, 본 발명의 실시예들은 여러가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 상술하는 실시예들로 인하여 한정되는 식으로 해석되어 져서는 안된다. 본 발명의 실시예들은 당업계에서 평균적 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해 제공되는 것이다.

도 1은 본 발명의 실시예에 따른 단백질 상호작용 데이터의 기능기반 시각화 장치를 표시한 계통도(block diagram)이다.

도 1을 참조하면, 단백질 상호작용 데이터의 기능기반 시각화 장치는 입력 데이터 처리부(110), 추상화 작업부(120), 단백질 데이터 위치화부(130), 단백질 데이터 확장부(140), 추상화 조절부(150) 및 단백질 상호간의 관계를 담고 있는 상호작용 DB(data base)(160)와 단백질 기능별 온톨로지(ontology) DB(170)를 포함한다.

입력 데이터 처리부(110)는 시각화를 위한 단백질 네트워크가 입력 되었을때 그 네트워크에 대한 상호작용 데이터를 상호작용 DB(160)에서 로드하고, 또한 추상화 조절부(150)의 계수 값에 따라 관련된 단백질들의 기능을 파악하기 위해 온톨로지 DB(170)의 3개의 테이블 중 적절한 것을 골라 로드하는 기능을 가지고 있다.

추상화 작업부(120)는 로딩된 데이터들을 상호작용이 있는 단백질들 중에서 온톨로지 DB(170)의 기능에 비추어 같은 기능이라고 판단되는 단백질들끼리 하나의 클러스터로 추상화 하는 부분이다. 이때 추상화 조절부(150)의 계수값에 따라 적정 크기까지 계속 추상화를 수행한다.

단백질 데이터 위치화부(130)는 상기 추상화된 데이터로 부터 FDP(force-directed placement) 알고리즘를 사용하여 위치화시키는 부분이다. 즉 단백질 데이터 위치화부(130) 단백질의 화면 표시를 위한 좌표점을 설정해주는 기능을 수행한다.

단백질 데이터 확장부(140)는 단백질 데이터 위치화가 끝난 데이터를 확장한다. 단백질 데이터 위치화부(130) 및 단백질 데이터 확장부(140)는 추상화 조절부(150)에서 결정된 계수 값에 의해 위치화와 확장을 반복하다가 조건에 부합하면 최종 시각화를 위한 단백질 데이터들의 좌표값을 획득한다.

추상화 조절부(150)는 4가지 계수값을 갖는다. 4가지 계수값은 추상화에 있어서 계속 추상화를 수행하다가 최종 추상화의 크기를 결정하는 계수값, 트리 형태의 온톨로지에서 같은 기능으로 묶어주기 위한 온톨로지의 단계를 결정하는 계수, 추상화 이후 확장부를 통해서 실제 사용자가 원하는 추상화의 레벨을 보기 위해 입력받는 계수 및 온톨로지의 종류를 선택하는 계수값이다.

도 2는 본 발명의 단백질 상호작용 데이터의 기능기반 시각화 장치에 사용되는 상호작용 DB의 테이블 내용이다. 도 2에서, "Protein 1"과 "Protein 2"에는 상호작용이 있는 단백질들의 이름이 들어간다. 즉, "aceA"와 "arcA"는 상호작용이 있고, "aceA"와 "fruR"은 상호작용이 있다.

도 3은 본 발명에 따른 온톨로지에 대한 기본 개념이다. 온톨로지는 트리 형 태로 표현되고 상위로 갈수록 하위의 개념들을 포함하고 있다. 즉, 도 3에 표현된 바와 같이, "binding"이라는 개념으로 가장 윗부분이 차지하면 그 아래는 "binding"의 종류인 "dna binding" 및 "rna binding"로 구성된다는 의미이다. 도 1의 추상화 조절부(150)에서 같은 기능으로 묶어주기 위한 온톨로지의 단계를 결정하는 계수는 다음과 같은 의미를 갖는다. 도 3의 "rna binding" 이라는 기능을 예로 든다면, 1단계는 "rna binding" 그 자체이고, 2단계는 "rna binding" 및 그 아래 분포하고 있는 "a", "b" 및 "c"의 기능을 포함한다. 이처럼 포함될 기능의 범위를 도 1의 추상화 조절부(150)에서 결정한다.

도 4는 본 발명의 단백질 상호작용 데이터의 기능기반 시각화 장치에 사용되는 온톨로지 DB의 테이블 내용이다 온톨로지 DB는 각 기능 별로 "biological_process", "molecular_function", "cellular_component"의 3개의 테이블로 구성되어 있으며 각 단백질들 사이의 관계를 표현하고 있다. 단백질들 사이의 관계는 온톨로지에서 일반적으로 사용되는 "in a"와 "part of"로 구성된다. 즉 "biological_process" 표에서 "aceA is a iclR"이고, "aceE part of crp"의 일부분이다. 본 발명에서는 도 1의 추상화 조절부(150)에서 온톨로지의 종류를 선택할 수 있게 구성한다.

도 5는 도 1의 추상화 작업부(120)에 관한 구체적인 순서도이다. 본 발명에 이용된 표현식에 대해 알아보면 다음과 같다. 단백질 네트워크는 N=<P, R>로 나타 내며, P는 단백질(protein)들의 집합이고, R은 그들의 관계(relation)를 나타낸 집합이다. 이것은 그래프의 표현식인 G=<V, E> 의 형태와 유사한 것을 알 수 있다. V는 정점(vertex)들의 집합 , E는 간선(edge)들의 집합을 나타낸다. 또한 단백질은 이름과 기능으로 표현되어 질 수 있기 때문에 다음과 같이 나타낼 수 있다. P=<n, F>. 여기서 n은 단백질들의 이름이고, F는 단백질이 가지고 있는 기능들의 집합이다. 임의의 정점 v에 대해서 Γ(v)는 정점 v에 인접한 정점들의 집합을 나타낸다. 즉 Γ(v)={ u ∈ V : (u,v) ∈ E}이다. 또한 |Γ(v)|는 정점 v 에 인접한 정점들의 수로 표현한다. 단백질 네트워크를 그래프의 형태에 맞게 표현하기 위해서 네트워크 N을 그래프인 G로, 단백질 집합인 P를 V로, 상호작용의 집합인 R을 E로 대응시키면 N=<P, R> 의 관계를 G=<V, E>로 나타낼 수 있다. 이하의 설명에서는 단백질을 정점, 그 상호작용을 간선으로 서술하며 생성되는 중간 그래프 G_i=<V_i, E_i>로 나타낸다. 그러므로 Γ(v, F)를 다음과 같이 정의할 수 있다. 이것은 정점 v(여기서는 단백질이다)에 대해서 기능 F를 가지고 있는 정점 v에 인접한 정점들의 집합이고 |Γ(v, F)|는 그 수를 나타낸다. 여기서 |V|는 그래프가 가지고 있는 정점들의 수를 나타낸다.

도 5를 참조하면, 도 1의 입력데이터 처리부(110)를 거친 단백질 네트워크 데이터가 입력으로 들어오면(410), 도 1의 상호작용 DB(160)를 바탕으로 단백질을 정점으로 상호작용을 간선으로 할당한다(420). 여기에서, 단백질을 정점으로 상호작용을 간선으로 할당한다는 의미는 단백질 및 상호작용을 컴퓨터상의 데이터로 매 핑시킨다는 의미이다. 일례로, 제 1 프로틴 및 제 2 프로틴을 각각 컴퓨터상의 데이터 "protein[1]" 및 "protein[2]"에 매핑하고, 제 1 프로틴과 제 2 프로틴 사이의 상호작용을 "protein[1]"을 "left_protein[1]"에 할당하고, "protein[2]"를 "left_protein[2]"에 할당한다. 각 정점들에 대해서 주변 정점을 클러스터로 그룹핑을 한다(430). 즉, 먼저 각 정점들에 대해서 |Γ(v,F)|의 차례 목록을 만들고 각각의 정점들을 방문하면서 하나의 정점에 대해서 |Γ(v,F)|의 값이 큰 것부터 클러스터링을 한다. 이때 각각의 매칭은 단백질 기능을 참조하게 된다. 각각의 매칭된 정점들은 목록으로부터 사라진다. 클러스터를 새로운 정점으로 할당하고 클러스터들 사이의 새로운 간선을 생성한다(440), 정점과 간선을 가지는 새로운 그래프를 정의한다(450), 도 1의 추상화 조절부(150)에서 정의된 최종 추상화의 크기를 결정하는 계수값과 |V|를 비교하여 |V| 값이 더 크면 도면 부호 430에 해당하는 단계로 돌아가고 아니면 추상화를 종료(470)한다.

도 6은 추상화를 도 5와 다른 각도로 설명하기 위한 도면이다. 도 5에 표현된 추상화는 개념적이고, 수학적으로 표현된 단계이다. 따라서, 이를 좀 더 다른 각도로 생각하면, 추상화는 동일 또는 유사한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단개를 단수 또는 복수회 수행하는 것이다. 이는 도 6을 통하여 보다 자세히 설명될 수 있다.

도 6은 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계"를 나타내는 도면이다. 따라서, f1 기능을 가진 단백질 및 클러스터화된 단백질은 하나의 클러스터화된 단백질로 할당될 수 있으나, f1 기능을 가진 단백질 및 클러스터화된 단백질과 f2 기능을 가진 단백질 및 클러스터화된 단백질은 하나의 클러스터화된 단백질로 할당될 수 없다. 도 6에서, 검게 표시된 원은 클러스터화된 단백질을 의미한다.

도 6a에서, "동일한 기능을 가지고 상호작용 관계가 있는 단백질 및 클러스터화된 단백질"은 도면부호 310의 범위에 속하는 단백질을 의미한다. 즉 도면부호 270의 단백질은 기능이 다르므로, "동일한 기능을 가지고 상호작용 관계가 있는 단백질 및 클러스터화된 단백질"의 범위에 속하지 아니한다. 또한, 도면부호 280의 단백질은 기능은 같으나 상호작용 관계가 없으므로 즉, 왼쪽에 위치한 f1 기능의 단백질들(210 내지 260)과 상호작용을 가지지 못하므로 "동일한 기능을 가지고 상호작용 관계가 있는 단백질 및 클러스터화된 단백질"의 범위에 속하지 아니한다. "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"은 상기 도면부호 310의 범위에 있는 단백질 및 및 클러스터화된 단백질의 전부 또는 일부를 의미한다. 즉 도면부호 310의 범위가 될 수도 있고, 도 5에서 설명한 바와 유사하게 도면부호 320의 범위가 될 수도 있다. 도면부호 320의 범위는 "소정의 단백질 또는 클러스터화된 단백질 및 이와 상호작용 있는 동일 또는 유사한 기능을 가진 단백질 및 클러스터화된 단백질"로 표현할 수도 있다. 즉, 도면부호 320의 범위는 "소정의 단백질"인 도면부호 230의 단백질과 "이와 상호작용 있는 동일 또는 유사한 기능을 가진 단백질 및 클러스터화된 단백질"인 도면부호 210, 220, 240, 250을 포함하는 범위이다. 그러나 도면부호 310의 범위의 일부이더라도 그 일부의 단백질간의 상호작용 관계가 없으면 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"이 될 수 없다. 즉, 도면부호 220, 250 및 260으로 구성된 단백질들은 단백질간의 상호작용 관계가 없으으로 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"이 될 수 없다.

도 6b는 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"을 도면부호 320의 범위로 본 경우의 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계"를 1회 수행한 이후의 단백질 및 클러스터화된 단백질 및 이들의 상호작용을 나타내는 도면이다.

도 6c는 도 6b로부터 1회 더 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계"를 수행한 이후의 단백질 및 클러스터화된 단백질 및 이들의 상호작용을 나타내는 도면이다.

만일 도 6a에서 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"을 도면부호 310의 범위로 본 경우에는 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계"를 1회 수행하면 도 6c와 같이 된다.

도 7은 도 5에 표현된 추상화가 이루어지는 과정의 예를 나타내는 도면이다. 도 7에서, 원은 단백질을 나타내며 그 사이 간선은 단백질 사이의 상호작용, f1,f2 등은 단백질이 가지고 있는 기능이다. 먼저 추상화는 도 7a의 검게 표시된 정점으로부터 시작된다. 왜냐하면 추상화 시작점은 |Γ(v,F)|의 값이 가장 큰 정점이기 때문이다. 각각의 클러스터는 그림에서 점선으로 표시한 것처럼 좌측부분은 f1, 가운데는 f2, 우측은 f3의 기능으로 추상화되어 도 7b처럼 3개의 정점을 갖는 그래프로 다시 생성된다. 이렇게 구성된 새로운 그래프는 도 1의 추상화 조절부(150)에서 조절된 최종 추상화의 크기를 결정하는 계수값에 의해서 다시 추상화를 하게 될지 결정된다. 이 경우 계수값을 2로 주었다고 가정하면, 도 7b의 점선 부분과 같이 기능 f1을 중심으로 다시 추상화를 하게 되며 최종적으로 그림 7c와 같은 정점 2개만을 가지는 그래프 레이아웃을 생성하게 된다.

도 8은 본 발명의 도 1의 단백질 데이터 확장부(140)를 설명하기 위한 도면이다. 확장부에서는 최종 그래프로 추상화 되었다가 다시 각각의 중간 그래프로의 확장에 관한 내용을 담고 있다. 만일 우리가 새로 정의된 중간 그래프 G_i=<V_i, E_i>를 가지고 있다면 이 그래프는 그 부모 그래프인 G_i-1=<V_i-1, E_i-1>로 확장된다. 예를 들어 부모레벨의 매칭된 한쌍의 정점을 v1,v2라 하면 v1,v2 ∈ V_i-1 이다. 이때 두 정점이 클러스터링 된다고 하면 현 레벨에서는 v1,v2가 하나의 정점으로 표현되고 이것을 v 라하면 v∈V_i 로 표현된다. 추상화의 반대개념인 확장에서는 도 8에 표현된 것처럼, G_i가 G_i-1로 확장될때의 정점들의 위치를 나타내는 역 추상화에 대한 내용이다. 기능 f1과 f2를 가지고 있는 정점이 확장될 때 스프링 상수 k(반지름 값)를 이용하여 원 둘레로 확장된다. k는 위치화 부분에 나오는 계수이다. 원주상에 나타날 정점의 개수에 따라서 다음의 수학식 1을 이용한다. 이와 같은 방식으로 f1,f2의 기능을 가진 정점이 f1,f2와 f1의 기능을 가진 정점으로 확장된다. 즉 원주 상에 나타날 정점의 개수는 2개 이며 둘 사이의 각도는 180도의 위치로 확장된다.

상기한 확장도 역시 개념적이고, 수학적으로 표현되었으므로, 이를 도 6를 통하여 설명한 추상화에 상응되게 설명하면, 확장은 클러스터화된 단백질을 이에 포함된 단백질 및 클러스터화된 단백질로 할당하는 과정을 단수 또는 복수회 반복하는 것이다. 즉 확장은 도 6c에서 도 6b로 변환하거나, 도 6c에서 도6a로 변환하는 과정을 의미한다.

도 9는 본 발명의 실시예에 따른 단백질 상호작용 데이터의 기능기반 시각화 의 각 단계의 그래프를 나타내는 도면이다.

도 9에서, 도면부호 710은 초기의 노드 및 간선을 나타내는 도면이다. 도면부호 720 내지 740은 추상화가 수행된 이후의 노드 및 간선을 나타내는 도면이다. 도면부호 750은 위치화가 이루어진 이후의 노드 및 간선을 나타내는 도면이다. 도면부호 760 내지 780은 확장 및 위치화가 수행된 이후의 노드 및 간선을 나타내는 도면이다.

본 발명의 기술 사상은 상기 바람직한 실시예에 따라 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야한다. 또한, 본 발명의 기술 분야의 통상의 전문가라면 본 발명의 기술 사상의 범위 내에서 다양한 변형예가 가능함을 이해할 수 있을 것이다.

본 발명에 의한 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치는 대용량 단백질의 상호작용을 쉽게 눈으로 시각화 할 수 있으며 단백질의 기능을 고려해서 구성된 클러스터링 방법으로 추상화된 레벨 별 중간 그래프(G_i)를 볼 수 있다는 장점이 있다.

또한 본 발명에 의한 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치에 의하여 추상화된 중간 그래프는 생물학자들이 용이하게 단백질을 분석하고 상호작용을 파악할 수 있게 한다는 장점이 있다.

Claims

(a) 각 단백질을 정점으로 할당하고 단백질간의 각 상호작용을 간선으로 할당하여 데이터를 형성하는 단계;

(b) 정점 및 그 정점과 간선으로 연결되면서 같은 기능을 가지는 정점들을 클러스터로 그룹핑하고, 각 클러스터를 새로운 정점으로 할당하고 클러스터간의 각 상호작용을 새로운 간선으로 할당하여 새로운 데이터를 형성하는 단계; 및

(c) 단백질 상호작용 데이터의 모든 정점의 수가 소정의 임계값보다 작을 때까지 상기 (b) 단계를 반복하는 단계를 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능 기반 추상화 방법.
제 1 항에 있어서, 상기 그룹핑은 |Γ(v,F)|의 값이 큰 정점부터 수행하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능 기반 추상화 방법.
삭제
삭제
삭제
동일 또는 유사한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터를 새로운 또 하나의 클러스터로 할당하는 단계를 단수 또는 복수회 수행하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 추상화 방법.
삭제
제 6 항에 의하여 추상화를 수행하는 추상화 단계; 및

상기 추상화 단계에서 얻어진 각각의 클러스터에 좌표를 부여하는 위치화 단계를 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 시각화 방법.
제 8 항에 있어서,

상기 추상화 단계에 의해 얻어진 새로운 또 하나의 클러스터를 이에 포함된 단백질 및 클러스터로 변환하는 확장 단계; 및

상기 확장 단계에서 얻어진 단백질 및 클러스터에 좌표를 부여하는 위치화 단계를 추가적으로 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 시각화 방법.