KR100540594B1 - 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치 - Google Patents

단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치 Download PDF

Info

Publication number
KR100540594B1
KR100540594B1 KR1020030095036A KR20030095036A KR100540594B1 KR 100540594 B1 KR100540594 B1 KR 100540594B1 KR 1020030095036 A KR1020030095036 A KR 1020030095036A KR 20030095036 A KR20030095036 A KR 20030095036A KR 100540594 B1 KR100540594 B1 KR 100540594B1
Authority
KR
South Korea
Prior art keywords
protein
function
abstraction
proteins
interaction
Prior art date
Application number
KR1020030095036A
Other languages
English (en)
Other versions
KR20050063617A (ko
Inventor
김대희
최재훈
정재영
박선희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030095036A priority Critical patent/KR100540594B1/ko
Publication of KR20050063617A publication Critical patent/KR20050063617A/ko
Application granted granted Critical
Publication of KR100540594B1 publication Critical patent/KR100540594B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 단백질 상호작용 데이터를 시각화 하기 위한 기술에 관한 것이다. 특히, 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치에 관한 것이다.
본 발명은 각 단백질을 정점으로 단백질간의 각 상호작용을 간선으로 할당하여 데이터를 형성하는 (a) 단계, 정점 및 정점 주변에 위치한 소정의 기능 또는 기능들을 가진 정점들을 클러스터로 그룹핑하고, 각 클러스터를 정점으로 클러스터간의 각 상호작용을 간선을 할당하여 새로운 데이터를 형성하는 (b) 단계, 및 상기 (b) 단계를 소정 횟수 수행하는 (c) 단계를 포함하는 단백질 상호작용 데이터의 기능기반 추상화 방법을 제공한며, 또한 이를 이용한 시각화 방법 및 장치를 제공한다.
본 발명에 의한 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치는 대용량 단백질의 상호작용을 쉽게 눈으로 시각화 할 수 있다는 장점이 있다.
단백질(protein), 상호작용(interaction), 시각화(visualization), 온톨로지(ontology), 추상화(abstraction).

Description

단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치 {The function-based abstraction method of protein-protein interaction data and visualization method and apparatus using the same}
도 1은 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 시각화 장치를 나타내는 계통도(block diagram)이다.
도 2는 본 발명의 제 1 실시예에 의한 단백질 상호작용 DB에 저장된 테이블을 나타내는 도면이다.
도 3은 일반적인 온톨로지에 대한 개념도이다.
도 4는 본 발명의 제 1 실시예에 의한 온톨로지 DB에 저장된 테이블을 나타내는 도면이다.
도 5는 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 추상화의 방법을 설명하기 위한 순서도이다.
도 6 내지 7은 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 추상화의 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 시각화 장치에 사용되는 확장부분에 대한 예시도이다.
도 9는 본 발명의 제 1 실시예에 의한 단백질 상호작용 데이터의 기능기반 시각화에 의하여 노드와 간선의 변화를 설명하기 위한 도면이다.
본 발명은 단백질 상호작용 데이터를 시각화 하기 위한 기술에 관한 것이다. 특히, 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치에 관한 것이다.
단백질 상호작용 데이터를 시각화하기 위한 종래 기술로써, 단백질을 노드로, 단백질 간 상호작용을 에지로 표현하여 단백질 상호작용 네트웍을 그래프로 구성하고 구성된 그래프를 레이아웃하는 방법으로 시각화하는 방법이 있다. 그러나, 이 방법에 의할 경우, 단백질의 수의 방대함으로 인해 전산적으로 수행하기 용이하지 아니하다는 문제점이 있다.
따라서, 본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은 기능에 기반한 추상화 방법을 사용함으로써, 대용량의 단백질 데이터를 시각화 할 수 있는 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치를 제공하는데 있다.
또한, 본 발명의 목적을 원하는 기능과 기능들 사이의 상호작용을 사용자가 손쉽게 파악할 수 있도록 단백질 데이터를 시각화 할 수 있는 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치를 제공하는데 있다.
상술한 목적을 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면은 각 단백질을 정점으로 단백질간의 각 상호작용을 간선으로 할당하여 데이터를 형성하는 (a) 단계, 정점 및 정점 주변에 위치한 소정의 기능 또는 기능들을 가진 정점들을 클러스터로 그룹핑하고, 각 클러스터를 정점으로 클러스터간의 각 상호작용을 간선으로 할당하여 새로운 데이터를 형성하는 (b) 단계, 및 단백질 상호 작용 데이터의 정점의 수가 소정의 임계값보다 적을 때까지 또는 소정 횟수 동안 상기 (b) 단계를 반복하는 (c) 단계를 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능 기반 추상화 방법을 제공한다.
본 발명의 제 2 측면은 제 1 측면에 의하여 추상화를 수행하는 추상화 단계, 상기 추상화 단계에서 얻어진 데이터에 좌표를 부여하는 제 1 위치화 단계, 클러스터로부터 형성된 정점을 클러스터에 포함된 정점 및 간선으로 변환하여 새로운 데이터를 형성하는 확장 단계, 및 상기 확장 단계에서 얻어진 데이터에 좌표를 부여하는 제 2 위치화 단계를 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 시각화 방법을 제공한다.
본 발명의 제 3 측면은 추상화부, 위치화부 및 확장부를 포함하는 단백질 상호작용 데이터의 기능기반 시각화 장치에 있어서, 상기 추상화부는 제 1 측면에 의한 추상화를 수행하며, 상기 위치화부는 상기 추상화부에서 얻어진 데이터 또는 상기 확장부에서 얻어진 데이터에 좌표를 부여하며, 상기 확장부는 상기 추상화부에서 얻어진 데이터에서 클러스터로부터 형성된 정점을 클러스터에 포함된 정점 및 간선으로 변환하여 새로운 데이터를 형성하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 시각화 장치를 제공한다.
본 발명의 제 4 측면은 동일 또는 유사한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계를 단수 또는 복수회 수행하는 단백질 상호작용 데이터의 기능기반 추상화 방법을 제공한다.
본 발명의 제 5 측면은 소정의 단백질 또는 클러스터화된 단백질 및 이와 상호작용 있는 동일 또는 유사한 기능을 가진 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계를 단수 또는 복수회 수행하는 단백질 상호작용 데이터의 기능기반 추상화 방법을 제공한다.
본 발명의 제 6 측면은 제 4 또는 5 측면에 의하여 추상화를 수행하는 추상화 단계, 및 상기 추상화 단계에서 얻어진 데이터에 좌표를 부여하는 위치화 단계를 포함하는 단백질 상호작용 데이터의 기능기반 시각화 방법을 제공한다.
이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명 한다. 그러나, 본 발명의 실시예들은 여러가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 상술하는 실시예들로 인하여 한정되는 식으로 해석되어 져서는 안된다. 본 발명의 실시예들은 당업계에서 평균적 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해 제공되는 것이다.
도 1은 본 발명의 실시예에 따른 단백질 상호작용 데이터의 기능기반 시각화 장치를 표시한 계통도(block diagram)이다.
도 1을 참조하면, 단백질 상호작용 데이터의 기능기반 시각화 장치는 입력 데이터 처리부(110), 추상화 작업부(120), 단백질 데이터 위치화부(130), 단백질 데이터 확장부(140), 추상화 조절부(150) 및 단백질 상호간의 관계를 담고 있는 상호작용 DB(data base)(160)와 단백질 기능별 온톨로지(ontology) DB(170)를 포함한다.
입력 데이터 처리부(110)는 시각화를 위한 단백질 네트워크가 입력 되었을때 그 네트워크에 대한 상호작용 데이터를 상호작용 DB(160)에서 로드하고, 또한 추상화 조절부(150)의 계수 값에 따라 관련된 단백질들의 기능을 파악하기 위해 온톨로지 DB(170)의 3개의 테이블 중 적절한 것을 골라 로드하는 기능을 가지고 있다.
추상화 작업부(120)는 로딩된 데이터들을 상호작용이 있는 단백질들 중에서 온톨로지 DB(170)의 기능에 비추어 같은 기능이라고 판단되는 단백질들끼리 하나의 클러스터로 추상화 하는 부분이다. 이때 추상화 조절부(150)의 계수값에 따라 적정 크기까지 계속 추상화를 수행한다.
단백질 데이터 위치화부(130)는 상기 추상화된 데이터로 부터 FDP(force-directed placement) 알고리즘를 사용하여 위치화시키는 부분이다. 즉 단백질 데이터 위치화부(130) 단백질의 화면 표시를 위한 좌표점을 설정해주는 기능을 수행한다.
단백질 데이터 확장부(140)는 단백질 데이터 위치화가 끝난 데이터를 확장한다. 단백질 데이터 위치화부(130) 및 단백질 데이터 확장부(140)는 추상화 조절부(150)에서 결정된 계수 값에 의해 위치화와 확장을 반복하다가 조건에 부합하면 최종 시각화를 위한 단백질 데이터들의 좌표값을 획득한다.
추상화 조절부(150)는 4가지 계수값을 갖는다. 4가지 계수값은 추상화에 있어서 계속 추상화를 수행하다가 최종 추상화의 크기를 결정하는 계수값, 트리 형태의 온톨로지에서 같은 기능으로 묶어주기 위한 온톨로지의 단계를 결정하는 계수, 추상화 이후 확장부를 통해서 실제 사용자가 원하는 추상화의 레벨을 보기 위해 입력받는 계수 및 온톨로지의 종류를 선택하는 계수값이다.
도 2는 본 발명의 단백질 상호작용 데이터의 기능기반 시각화 장치에 사용되는 상호작용 DB의 테이블 내용이다. 도 2에서, "Protein 1"과 "Protein 2"에는 상호작용이 있는 단백질들의 이름이 들어간다. 즉, "aceA"와 "arcA"는 상호작용이 있고, "aceA"와 "fruR"은 상호작용이 있다.
도 3은 본 발명에 따른 온톨로지에 대한 기본 개념이다. 온톨로지는 트리 형 태로 표현되고 상위로 갈수록 하위의 개념들을 포함하고 있다. 즉, 도 3에 표현된 바와 같이, "binding"이라는 개념으로 가장 윗부분이 차지하면 그 아래는 "binding"의 종류인 "dna binding" 및 "rna binding"로 구성된다는 의미이다. 도 1의 추상화 조절부(150)에서 같은 기능으로 묶어주기 위한 온톨로지의 단계를 결정하는 계수는 다음과 같은 의미를 갖는다. 도 3의 "rna binding" 이라는 기능을 예로 든다면, 1단계는 "rna binding" 그 자체이고, 2단계는 "rna binding" 및 그 아래 분포하고 있는 "a", "b" 및 "c"의 기능을 포함한다. 이처럼 포함될 기능의 범위를 도 1의 추상화 조절부(150)에서 결정한다.
도 4는 본 발명의 단백질 상호작용 데이터의 기능기반 시각화 장치에 사용되는 온톨로지 DB의 테이블 내용이다 온톨로지 DB는 각 기능 별로 "biological_process", "molecular_function", "cellular_component"의 3개의 테이블로 구성되어 있으며 각 단백질들 사이의 관계를 표현하고 있다. 단백질들 사이의 관계는 온톨로지에서 일반적으로 사용되는 "in a"와 "part of"로 구성된다. 즉 "biological_process" 표에서 "aceA is a iclR"이고, "aceE part of crp"의 일부분이다. 본 발명에서는 도 1의 추상화 조절부(150)에서 온톨로지의 종류를 선택할 수 있게 구성한다.
도 5는 도 1의 추상화 작업부(120)에 관한 구체적인 순서도이다. 본 발명에 이용된 표현식에 대해 알아보면 다음과 같다. 단백질 네트워크는 N=<P, R>로 나타 내며, P는 단백질(protein)들의 집합이고, R은 그들의 관계(relation)를 나타낸 집합이다. 이것은 그래프의 표현식인 G=<V, E> 의 형태와 유사한 것을 알 수 있다. V는 정점(vertex)들의 집합 , E는 간선(edge)들의 집합을 나타낸다. 또한 단백질은 이름과 기능으로 표현되어 질 수 있기 때문에 다음과 같이 나타낼 수 있다. P=<n, F>. 여기서 n은 단백질들의 이름이고, F는 단백질이 가지고 있는 기능들의 집합이다. 임의의 정점 v에 대해서 Γ(v)는 정점 v에 인접한 정점들의 집합을 나타낸다. 즉 Γ(v)={ u ∈ V : (u,v) ∈ E}이다. 또한 |Γ(v)|는 정점 v 에 인접한 정점들의 수로 표현한다. 단백질 네트워크를 그래프의 형태에 맞게 표현하기 위해서 네트워크 N을 그래프인 G로, 단백질 집합인 P를 V로, 상호작용의 집합인 R을 E로 대응시키면 N=<P, R> 의 관계를 G=<V, E>로 나타낼 수 있다. 이하의 설명에서는 단백질을 정점, 그 상호작용을 간선으로 서술하며 생성되는 중간 그래프 Gi=<Vi, Ei >로 나타낸다. 그러므로 Γ(v, F)를 다음과 같이 정의할 수 있다. 이것은 정점 v(여기서는 단백질이다)에 대해서 기능 F를 가지고 있는 정점 v에 인접한 정점들의 집합이고 |Γ(v, F)|는 그 수를 나타낸다. 여기서 |V|는 그래프가 가지고 있는 정점들의 수를 나타낸다.
도 5를 참조하면, 도 1의 입력데이터 처리부(110)를 거친 단백질 네트워크 데이터가 입력으로 들어오면(410), 도 1의 상호작용 DB(160)를 바탕으로 단백질을 정점으로 상호작용을 간선으로 할당한다(420). 여기에서, 단백질을 정점으로 상호작용을 간선으로 할당한다는 의미는 단백질 및 상호작용을 컴퓨터상의 데이터로 매 핑시킨다는 의미이다. 일례로, 제 1 프로틴 및 제 2 프로틴을 각각 컴퓨터상의 데이터 "protein[1]" 및 "protein[2]"에 매핑하고, 제 1 프로틴과 제 2 프로틴 사이의 상호작용을 "protein[1]"을 "left_protein[1]"에 할당하고, "protein[2]"를 "left_protein[2]"에 할당한다. 각 정점들에 대해서 주변 정점을 클러스터로 그룹핑을 한다(430). 즉, 먼저 각 정점들에 대해서 |Γ(v,F)|의 차례 목록을 만들고 각각의 정점들을 방문하면서 하나의 정점에 대해서 |Γ(v,F)|의 값이 큰 것부터 클러스터링을 한다. 이때 각각의 매칭은 단백질 기능을 참조하게 된다. 각각의 매칭된 정점들은 목록으로부터 사라진다. 클러스터를 새로운 정점으로 할당하고 클러스터들 사이의 새로운 간선을 생성한다(440), 정점과 간선을 가지는 새로운 그래프를 정의한다(450), 도 1의 추상화 조절부(150)에서 정의된 최종 추상화의 크기를 결정하는 계수값과 |V|를 비교하여 |V| 값이 더 크면 도면 부호 430에 해당하는 단계로 돌아가고 아니면 추상화를 종료(470)한다.
도 6은 추상화를 도 5와 다른 각도로 설명하기 위한 도면이다. 도 5에 표현된 추상화는 개념적이고, 수학적으로 표현된 단계이다. 따라서, 이를 좀 더 다른 각도로 생각하면, 추상화는 동일 또는 유사한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단개를 단수 또는 복수회 수행하는 것이다. 이는 도 6을 통하여 보다 자세히 설명될 수 있다.
도 6은 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계"를 나타내는 도면이다. 따라서, f1 기능을 가진 단백질 및 클러스터화된 단백질은 하나의 클러스터화된 단백질로 할당될 수 있으나, f1 기능을 가진 단백질 및 클러스터화된 단백질과 f2 기능을 가진 단백질 및 클러스터화된 단백질은 하나의 클러스터화된 단백질로 할당될 수 없다. 도 6에서, 검게 표시된 원은 클러스터화된 단백질을 의미한다.
도 6a에서, "동일한 기능을 가지고 상호작용 관계가 있는 단백질 및 클러스터화된 단백질"은 도면부호 310의 범위에 속하는 단백질을 의미한다. 즉 도면부호 270의 단백질은 기능이 다르므로, "동일한 기능을 가지고 상호작용 관계가 있는 단백질 및 클러스터화된 단백질"의 범위에 속하지 아니한다. 또한, 도면부호 280의 단백질은 기능은 같으나 상호작용 관계가 없으므로 즉, 왼쪽에 위치한 f1 기능의 단백질들(210 내지 260)과 상호작용을 가지지 못하므로 "동일한 기능을 가지고 상호작용 관계가 있는 단백질 및 클러스터화된 단백질"의 범위에 속하지 아니한다. "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"은 상기 도면부호 310의 범위에 있는 단백질 및 및 클러스터화된 단백질의 전부 또는 일부를 의미한다. 즉 도면부호 310의 범위가 될 수도 있고, 도 5에서 설명한 바와 유사하게 도면부호 320의 범위가 될 수도 있다. 도면부호 320의 범위는 "소정의 단백질 또는 클러스터화된 단백질 및 이와 상호작용 있는 동일 또는 유사한 기능을 가진 단백질 및 클러스터화된 단백질"로 표현할 수도 있다. 즉, 도면부호 320의 범위는 "소정의 단백질"인 도면부호 230의 단백질과 "이와 상호작용 있는 동일 또는 유사한 기능을 가진 단백질 및 클러스터화된 단백질"인 도면부호 210, 220, 240, 250을 포함하는 범위이다. 그러나 도면부호 310의 범위의 일부이더라도 그 일부의 단백질간의 상호작용 관계가 없으면 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"이 될 수 없다. 즉, 도면부호 220, 250 및 260으로 구성된 단백질들은 단백질간의 상호작용 관계가 없으으로 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"이 될 수 없다.
도 6b는 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"을 도면부호 320의 범위로 본 경우의 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계"를 1회 수행한 이후의 단백질 및 클러스터화된 단백질 및 이들의 상호작용을 나타내는 도면이다.
도 6c는 도 6b로부터 1회 더 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계"를 수행한 이후의 단백질 및 클러스터화된 단백질 및 이들의 상호작용을 나타내는 도면이다.
만일 도 6a에서 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질"을 도면부호 310의 범위로 본 경우에는 "동일한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터화된 단백질을 하나의 클러스터화된 단백질로 할당하는 단계"를 1회 수행하면 도 6c와 같이 된다.
도 7은 도 5에 표현된 추상화가 이루어지는 과정의 예를 나타내는 도면이다. 도 7에서, 원은 단백질을 나타내며 그 사이 간선은 단백질 사이의 상호작용, f1,f2 등은 단백질이 가지고 있는 기능이다. 먼저 추상화는 도 7a의 검게 표시된 정점으로부터 시작된다. 왜냐하면 추상화 시작점은 |Γ(v,F)|의 값이 가장 큰 정점이기 때문이다. 각각의 클러스터는 그림에서 점선으로 표시한 것처럼 좌측부분은 f1, 가운데는 f2, 우측은 f3의 기능으로 추상화되어 도 7b처럼 3개의 정점을 갖는 그래프로 다시 생성된다. 이렇게 구성된 새로운 그래프는 도 1의 추상화 조절부(150)에서 조절된 최종 추상화의 크기를 결정하는 계수값에 의해서 다시 추상화를 하게 될지 결정된다. 이 경우 계수값을 2로 주었다고 가정하면, 도 7b의 점선 부분과 같이 기능 f1을 중심으로 다시 추상화를 하게 되며 최종적으로 그림 7c와 같은 정점 2개만을 가지는 그래프 레이아웃을 생성하게 된다.
도 8은 본 발명의 도 1의 단백질 데이터 확장부(140)를 설명하기 위한 도면이다. 확장부에서는 최종 그래프로 추상화 되었다가 다시 각각의 중간 그래프로의 확장에 관한 내용을 담고 있다. 만일 우리가 새로 정의된 중간 그래프 Gi=<Vi, Ei>를 가지고 있다면 이 그래프는 그 부모 그래프인 Gi-1=<Vi-1, Ei-1>로 확장된다. 예를 들어 부모레벨의 매칭된 한쌍의 정점을 v1,v2라 하면 v1,v2 ∈ Vi-1 이다. 이때 두 정점이 클러스터링 된다고 하면 현 레벨에서는 v1,v2가 하나의 정점으로 표현되고 이것을 v 라하면 v∈Vi 로 표현된다. 추상화의 반대개념인 확장에서는 도 8에 표현된 것처럼, Gi가 Gi-1로 확장될때의 정점들의 위치를 나타내는 역 추상화에 대한 내용이다. 기능 f1과 f2를 가지고 있는 정점이 확장될 때 스프링 상수 k(반지름 값)를 이용하여 원 둘레로 확장된다. k는 위치화 부분에 나오는 계수이다. 원주상에 나타날 정점의 개수에 따라서 다음의 수학식 1을 이용한다. 이와 같은 방식으로 f1,f2의 기능을 가진 정점이 f1,f2와 f1의 기능을 가진 정점으로 확장된다. 즉 원주 상에 나타날 정점의 개수는 2개 이며 둘 사이의 각도는 180도의 위치로 확장된다.
Figure 112003049015950-pat00001
상기한 확장도 역시 개념적이고, 수학적으로 표현되었으므로, 이를 도 6를 통하여 설명한 추상화에 상응되게 설명하면, 확장은 클러스터화된 단백질을 이에 포함된 단백질 및 클러스터화된 단백질로 할당하는 과정을 단수 또는 복수회 반복하는 것이다. 즉 확장은 도 6c에서 도 6b로 변환하거나, 도 6c에서 도6a로 변환하는 과정을 의미한다.
도 9는 본 발명의 실시예에 따른 단백질 상호작용 데이터의 기능기반 시각화 의 각 단계의 그래프를 나타내는 도면이다.
도 9에서, 도면부호 710은 초기의 노드 및 간선을 나타내는 도면이다. 도면부호 720 내지 740은 추상화가 수행된 이후의 노드 및 간선을 나타내는 도면이다. 도면부호 750은 위치화가 이루어진 이후의 노드 및 간선을 나타내는 도면이다. 도면부호 760 내지 780은 확장 및 위치화가 수행된 이후의 노드 및 간선을 나타내는 도면이다.
본 발명의 기술 사상은 상기 바람직한 실시예에 따라 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야한다. 또한, 본 발명의 기술 분야의 통상의 전문가라면 본 발명의 기술 사상의 범위 내에서 다양한 변형예가 가능함을 이해할 수 있을 것이다.
본 발명에 의한 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치는 대용량 단백질의 상호작용을 쉽게 눈으로 시각화 할 수 있으며 단백질의 기능을 고려해서 구성된 클러스터링 방법으로 추상화된 레벨 별 중간 그래프(Gi)를 볼 수 있다는 장점이 있다.
또한 본 발명에 의한 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를 이용한 시각화 방법 및 장치에 의하여 추상화된 중간 그래프는 생물학자들이 용이하게 단백질을 분석하고 상호작용을 파악할 수 있게 한다는 장점이 있다.

Claims (9)

  1. (a) 각 단백질을 정점으로 할당하고 단백질간의 각 상호작용을 간선으로 할당하여 데이터를 형성하는 단계;
    (b) 정점 및 그 정점과 간선으로 연결되면서 같은 기능을 가지는 정점들을 클러스터로 그룹핑하고, 각 클러스터를 새로운 정점으로 할당하고 클러스터간의 각 상호작용을 새로운 간선으로 할당하여 새로운 데이터를 형성하는 단계; 및
    (c) 단백질 상호작용 데이터의 모든 정점의 수가 소정의 임계값보다 작을 때까지 상기 (b) 단계를 반복하는 단계를 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능 기반 추상화 방법.
  2. 제 1 항에 있어서, 상기 그룹핑은 |Γ(v,F)|의 값이 큰 정점부터 수행하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능 기반 추상화 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 동일 또는 유사한 기능을 가지고 상호작용 관계가 있는 소정 범위의 단백질 및 클러스터를 새로운 또 하나의 클러스터로 할당하는 단계를 단수 또는 복수회 수행하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 추상화 방법.
  7. 삭제
  8. 제 6 항에 의하여 추상화를 수행하는 추상화 단계; 및
    상기 추상화 단계에서 얻어진 각각의 클러스터에 좌표를 부여하는 위치화 단계를 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 시각화 방법.
  9. 제 8 항에 있어서,
    상기 추상화 단계에 의해 얻어진 새로운 또 하나의 클러스터를 이에 포함된 단백질 및 클러스터로 변환하는 확장 단계; 및
    상기 확장 단계에서 얻어진 단백질 및 클러스터에 좌표를 부여하는 위치화 단계를 추가적으로 포함하는 것을 특징으로 하는 단백질 상호작용 데이터의 기능기반 시각화 방법.
KR1020030095036A 2003-12-22 2003-12-22 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치 KR100540594B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030095036A KR100540594B1 (ko) 2003-12-22 2003-12-22 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030095036A KR100540594B1 (ko) 2003-12-22 2003-12-22 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20050063617A KR20050063617A (ko) 2005-06-28
KR100540594B1 true KR100540594B1 (ko) 2006-01-10

Family

ID=37255447

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030095036A KR100540594B1 (ko) 2003-12-22 2003-12-22 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100540594B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100853786B1 (ko) * 2006-07-12 2008-08-22 한국기초과학지원연구원 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법
KR100898751B1 (ko) * 2006-12-04 2009-05-25 한국전자통신연구원 시드 단백질 기반 단백질 상호작용 네트워크의 시각화 방법
US9690844B2 (en) 2014-01-24 2017-06-27 Samsung Electronics Co., Ltd. Methods and systems for customizable clustering of sub-networks for bioinformatics and health care applications

Also Published As

Publication number Publication date
KR20050063617A (ko) 2005-06-28

Similar Documents

Publication Publication Date Title
CN110796154B (zh) 一种训练物体检测模型的方法、装置以及设备
Alvarez-Hamelin et al. k-core decomposition: A tool for the visualization of large scale networks
Kelner et al. An almost-linear-time algorithm for approximate max flow in undirected graphs, and its multicommodity generalizations
JP6199812B2 (ja) 明示的に表されたグラフで並列探索を行うシステムおよび方法
CN113449857A (zh) 一种数据处理方法和数据处理设备
CN110176280B (zh) 一种描述材料晶体结构的方法及其应用
CN109191424B (zh) 一种乳腺肿块检测与分类系统、计算机可读存储介质
CN109685204B (zh) 图像处理方法及装置、存储介质及电子设备
WO2017076296A1 (zh) 处理图数据的方法和装置
WO2016095068A1 (en) Pedestrian detection apparatus and method
JP2024511018A (ja) 空間関係の決定方法、装置、コンピュータ装置及び記憶媒体
CN110533179A (zh) 网络结构搜索方法和装置、可读存储介质、电子设备
Nigmetov et al. Local-global merge tree computation with local exchanges
KR100540594B1 (ko) 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치
US6438734B1 (en) Fast search method for enabling a computer to find elementary loops in a graph
US9465854B2 (en) In-database connectivity components analysis of data
KR101878213B1 (ko) 가중치 그래프를 요약하는 방법, 장치 및 컴퓨터 프로그램
US20020085004A1 (en) Blending method for accomplishing continuity at boundary of two b-spline curves / surfaces for use in a computing apparatus
WO2016178107A1 (en) System and method for identifying clones
Demaine et al. The bidimensional theory of bounded-genus graphs
CN111723247A (zh) 基于图的假设计算
KR101974069B1 (ko) 바이너리 구조 도식화 장치 및 방법
CN114490799A (zh) 单个图的频繁子图挖掘方法及装置
Yoshimura et al. Edge detection of texture image using genetic algorithms
JP7388566B2 (ja) データ生成プログラム、方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee