KR100963764B1 - 바이클러스터링 방법 및 장치 - Google Patents

바이클러스터링 방법 및 장치 Download PDF

Info

Publication number
KR100963764B1
KR100963764B1 KR1020080017979A KR20080017979A KR100963764B1 KR 100963764 B1 KR100963764 B1 KR 100963764B1 KR 1020080017979 A KR1020080017979 A KR 1020080017979A KR 20080017979 A KR20080017979 A KR 20080017979A KR 100963764 B1 KR100963764 B1 KR 100963764B1
Authority
KR
South Korea
Prior art keywords
level
cluster
biclustering
candidate
derived
Prior art date
Application number
KR1020080017979A
Other languages
English (en)
Other versions
KR20090092634A (ko
Inventor
박상현
안재균
윤영미
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020080017979A priority Critical patent/KR100963764B1/ko
Publication of KR20090092634A publication Critical patent/KR20090092634A/ko
Application granted granted Critical
Publication of KR100963764B1 publication Critical patent/KR100963764B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Genetics & Genomics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 명세서는, 바이클러스터링 방법 및 장치가 개시된다. 바이클러스터링 방법은 입력장치로부터 마이크로어레이 행렬 데이터를 입력받는 단계 및 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출하는 단계를 포함한다.
바이클러스터링, 바이클러스터, RN클러스터링, RN클러스터, 범위 계산, 우선 순위 큐

Description

바이클러스터링 방법 및 장치{METHOD AND APPARATUS OF BICLUSTERING}
본 발명은, 바이클러스터링 방법 및 장치에 관한 것으로 특히, RN클러스터를 생성하기 위한 바이클러스터링 방법 및 장치에 관한 것이다.
바이클러스터링은 마이크로어레이 행렬 데이터에서 서로 간에 밀접한 상관관계를 갖는 유전자의 집합과, 이 유전자 집합의 기능이 발현되는 샘플 집합으로써 구성되는 부분 행렬을 찾아내는 데이터 마이닝 기법을 통칭하며, 이러한 부분 행렬을 바이클러스터라 한다.
또한, 마이크로어레이 행렬 데이터를 구성하는 모든 유전자가 특정한 세포 프로세스에 참여하는 것은 아니며, 모든 샘플에서 이 특정한 세포 프로세스를 관찰할 수 있는 것도 아니다. 따라서 유전자의 부분 집합이 특정한 실험적 조건 집합 하에서 상관관계를 가진다고 기대할 수 있고, 상기 바이클러스터링은 상관관계를 갖는 유전자의 집합을 찾고, 나아가 유전자 제어 네트워크(gene regulatory network)를 밝히는 역할을 할 수 있다.
종래 바이클러스터링 방법은 NP-Hard(Non-deterministic Polynomial-time Hard)임이 증명되어 휴리스틱한 방법이나 확률 통계적 접근 방식에 의하여 수행되 어 왔다. 따라서, 각각의 바이클러스터링 방법의 장단점은 모두 다르고 각각의 바이클러스터링이 밝혀낼 수 있는 패턴 역시 다양할 수 있다. 다만, 종래의 바이클러스터링 방법은 대체적으로 의미 있는 패턴을 찾기에 충분하지 못한 노이즈 레벨을 허용하고, 큰 마이크로어레이 데이터에 대해서 지수적인 시간 복잡도를 가지고, 마이크로어레이 데이터에 숨겨진 바이클러스터 중 극히 일부분만을 찾아내거나, 중복의 정도가 매우 큰 다수의 바이클러스터를 찾아내는 단점을 가지게 된다.
따라서, 기능적으로 상관관계가 높은 유전자 집합으로 이루어진 바이클러스터를 도출할 수 있는 바이클러스터링 방법을 찾아야 할 것이다.
본 발명은 노이즈 레벨에 대해 견고한 특성을 가지는 바이클러스터링 방법을 제공한다.
본 발명은 다수의 오버래핑이 가능하고 다양성이 보장되는 유전자 집합을 찾아내는 바이클러스터링 방법을 제공한다.
본 발명은 양의 상관관계를 갖는 유전자 집합과 음의 상관관계를 갖는 유전자 집합을 동시에 찾아내는 바이클러스터링 방법을 제공한다.
본 발명은 기능적 상관관계의 정도가 매우 높은 바이클러스터를 찾아내는 바이클러스터링 방법을 제공한다.
본 발명의 일실시예에 따른 바이클러스터링 방법은 입력장치로부터 마이크로어레이 행렬 데이터를 입력받는 단계 및 상기 마이크로어레이 행렬 데이터로부터 상기 마이크로어레이 행렬 데이터의 부분 행렬 데이터인 적어도 하나의 RN클러스터를 도출하는 단계를 포함한다.
본 발명의 일측에 따르면, 마이크로어레이 행렬 데이터의 부분 행렬 데이터인 적어도 하나의 RN클러스터를 도출하는 상기 단계는 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출하는 단계를 포함한다.
또한, 본 발명의 일측에 따르면, p레벨-RN클러스터를 기반으로 p+1레벨-RN클 러스터를 도출하는 상기 단계는 p레벨-RN클러스터를 구성하는 상기 유전자 집합 내 모든 유전자에 대해서 발현값 차이 비율을 결정하는 단계 및 상기 발현값 차이 비율을 이용하여 p+1레벨-RN클러스터를 도출하는 단계를 포함한다.
또한, 본 발명의 일측에 따르면, 마이크로어레이 행렬 데이터의 부분 행렬 데이터인 적어도 하나의 RN클러스터를 도출하는 상기 단계는, 상기 도출된 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정하는 단계, 상기 도출된 p+1레벨-RN클러스터로부터 후보 p+1레벨-RN클러스터를 결정하는 단계 또는 상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 중복 검사를 수행하는 단계 중 적어도 하나를 더 포함한다.
또한, 본 발명의 일실시예에 따른 바이클러스터링 방법은 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 제1 p레벨-RN클러스터로부터 적어도 하나의 제1 p+1레벨-RN클러스터를 도출하는 단계, 상기 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 제2 p레벨-RN클러스터로부터 적어도 하나의 제2 p+1레벨-RN클러스터를 도출하는 단계 및 상기 도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정하는 단계를 포함한다.
본 발명의 일실시예에 따른 바이클러스터링 장치는 입력장치로부터 마이크로어레이 행렬 데이터를 입력받는 입력모듈 및 상기 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출하는 도출모듈을 포함한다.
본 발명은 노이즈 레벨에 대해 견고한 특성을 가질 수 있는 바이클러스터링 방법을 제공할 수 있다.
본 발명은 다수의 오버래핑이 가능하고 다양성이 보장될 수 있는 유전자 집합을 찾아내는 바이클러스터링 방법을 제공할 수 있다.
본 발명은 양의 상관관계를 갖는 유전자 집합과 음의 상관관계를 갖는 유전자 집합을 동시에 찾아낼 수 있는 바이클러스터링 방법을 제공할 수 있다.
본 발명은 기능적 상관관계의 정도가 매우 높은 바이클러스터를 찾아낼 수 있는 바이클러스터링 방법을 제공할 수 있다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다.
도 1은 본 발명의 일실시예에 따른 바이클러스터링 방법을 나타낸 동작 흐름도이다.
도 1에 도시된 바와 같이 바이클러스터링 방법은 단계(S101) 내지 단계(S102)로 수행될 수 있다. 또한, 바이클러스터링 방법은 바이클러스터링 장치에 의하여 수행될 수 있다.
단계(S101)에서 바이클러스터링 장치는 입력장치로부터 마이크로어레이 행렬 데이터를 입력받을 수 있다.
상기 마이크로어레이 행렬 데이터는 유전자 집합 및 샘플 집합으로 구성된 행렬 데이터일 수 있다. 이 때, 상기 샘플은 특정한 실험 조건을 의미할 수 있다. 예를 들어, 상기 샘플은 시간, 온도 또는 환경 조건일 수 있다.
또한, 상기 입력장치는 상기 마이크로어레이 행렬 데이터를 입력하기 위한 소정의 입출력 인터페이스일 수 있다. 또한, 상기 입력장치는 상기 마이크로어레이 행렬 데이터를 포함하는 소정의 저장장치일 수 있다.
단계(S102)에서 바이클러스터링 장치는 상기 마이크로어레이 행렬 데이터로부터 상기 마이크로어레이 행렬 데이터의 부분 행렬 데이터인 적어도 하나의 RN클러스터를 도출할 수 있다.
상기 RN클러스터는 마이크로어레이 행렬 데이터에서 서로 간에 밀접한 상관관계를 갖는 유전자의 집합과, 이 유전자 집합의 기능이 발현되는 샘플 집합으로써 구성되는 부분 행렬인 바이클러스터일 수 있다. 또한, RN클러스터링은 상기 RN클러스터를 생성하는 바이클러스터링을 의미할 수 있다. 또한, 상기 RN클러스터링은 RN클러스터를 노드로 갖는 넓이 우선 탐색 트리를 구축해 나가며 RN클러스터를 찾아나가는 방법일 수 있다. 따라서, 상기 바이클러스터링 장치는 상기 마이크로어레이 행렬 데이터에서 가능한 많은 수의 오버래핑된, 다양한 바이클러스터를 찾아낼 수 있다.
또한, 이러한 단계(S102)에 대해서는 추후 도 2를 통하여 더욱 상세하게 설명하도록 하겠다.
도 2는 본 발명의 일측에 따른 마이크로어레이 행렬 데이터로부터 RN클러스 터를 도출하는 단계를 도시한 동작 흐름도이다.
도 2에 도시된 바와 같이 도 1의 단계(S102)는 단계(S201) 내지 단계(S204)로 수행될 수 있다. 또한, 단계(S201) 내지 단계(S204)는 바이클러스터링 장치에 의해서 수행될 수 있다.
단계(S201)에서 상기 바이클러스터링 장치는 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출할 수 있다. 이 때, 상기 p레벨-RN클러스터 또는 p+1레벨-RN클러스터는 상기 RN클러스터에 포함될 수 있고, 상기 p는 상기 RN클러스터를 구성하는 샘플 집합 내 샘플 개수를 나타내는 자연수일 수 있다.
또한, O = {g0, g1, ..., gm -1}, T = {s0, s1, ..., sn -1}이고, C 를 (G,S)의 m x n 부분 행렬 (O,T)라고 하는 경우, C = (O,T) = {cij}, i
Figure 112008014527483-pat00001
[0, m-1], j
Figure 112008014527483-pat00002
[0, n-1]라고 할 수 있다. 이 때, G는 마이크로어레이 행렬 데이터의 유전자 집합이고, S는 샘플 집합이고, C는 O
Figure 112008014527483-pat00003
G, T
Figure 112008014527483-pat00004
S인 마이크로어레이 행렬 데이터의 부분 행렬일 수 있다.
또한, gi, gj, gk
Figure 112008014527483-pat00005
O 이고 T = {sa, sb,..., sc, sd,...}일 때, C = (O,T) 인 바이클러스터에 대해서, C 가 다음 수학식 1의 조건들을 만족하면 C 를 RN클러스터라고 할 수 있다.
Figure 112008014527483-pat00006
이 때, sign(x)는 x<0일 때 -1을, 아니면 1을 반환하는 함수이고, gh
Figure 112008014527483-pat00007
O에 대해서,
Figure 112008014527483-pat00008
는 최대
Figure 112008014527483-pat00009
값이고,
Figure 112008014527483-pat00010
는 최소
Figure 112008014527483-pat00011
값일 수 있다. 또한, di ab는 샘플 sa와 sb 사이에서의 유전자 gi의 발현값 차이이고, di cd는 샘플 sc와 sd 사이에서의 유전자 gi의 발현값 차이이다. 또한, dj ab는 샘플 sa와 sb 사이에서의 유전자 gj의 발현값 차이이고, dj cd는 샘플 sc와 sd 사이에서의 유전자 gj의 발현값 차이이다. 또한, ti cd는 di ab/di cd, 즉 유전자 gi의 발현값 차이 비율이고, tj cd는 dj ab/dj cd, 즉 유전자 gj의 발현값 차이 비율이고, tk cd는 dk ab/dk cd, 즉 유전자 gk의 발현값 차이 비율이다. 또한,
Figure 112008014527483-pat00012
는 입력장치로부터 입력된 허용 노이즈 값이다. 또한, mg는 최소 유전자 집합 크기이고, ms는 최소 샘플 집합 크기이다.
또한, RN클러스터 C=(O,T)의 |T| = p 일 때, C를 p레벨-RN클러스터라고 정의하고, p는 RN-클러스터의 샘플의 개수를 가리킬 수 있다. 예를 들어, |T| = 4 일 때, C 는 4레벨-RN클러스터이다. 또한, 수학식 1의 4번 조건에 따라, RN클러스터는 |T| ≥ 3 이므로, 1레벨-RN클러스터나 2레벨-RN클러스터는 존재할 수 없다. 그러나 예외적으로 수학식 1의 조건을 따르지 않는 2레벨-RN클러스터를 정의한다. m이 G 의 모든 유전자의 숫자를 지칭할 때, 2레벨-RN클러스터는 (G,S)의 m x 2 부분 행렬이라고 정의될 수 있다.
예를 들어, 표1의 10 x 6 마이크로어레이 행렬 데이터 (G,S)에서, 2레벨-RN클러스터의 샘플 집합을 {s0,s2}라고 하고, ms = 3, mg = 3, δ = 2 라고 하자. 여기에서 샘플 s3을 조사한다면 T = {s0,s2,s3}이 된다. 이때 유전자 gk 에 대한 dk 02와 dk 23의 값들이 표 2 에 나와있다. 이 때, dk 02는 유전자 gk 에 대한 샘플 s2의 발현값과 샘플 s0의 발현값의 차이이고, dk 23은 유전자 gk 에 대한 샘플 s3의 발현값과 샘플 s2의 발현값의 차이이다. 유전자 집합 O = {g0,g2,g4}와 샘플 집합 T = {s0,s2,s3}를 갖는 바이클러스터 B는 수학식 1의 RN-클러스터 조건을 모두 만족하는 것을 볼 수 있다. 먼저, k = 0, 2, 4일 때, dk 02와dk 23는 0이 아니다. 두 번째로, k = 0, 2, 4일 때, dk 02와 dk 23는 같은 부호를 가진다. 세 번째로, k = 4일 때, max(|tk 23|) = 9.14 이고, k = 2일 때, min(|tk 23|) = 7.75이며, k = 0일 때, |tk 23| = 8이다. 이 때, 9.14 / 2 < 8 < 7.75 x 2를 만족한다. 마지막으로, |O| = 3 ≥3이며, |T| = 3 ≥ 3을 만족한다. 그러므로 바이클러스터 B는 3레벨-RN클러스터라고 할 수 있다.
Figure 112008014527483-pat00013
Figure 112008014527483-pat00014
또한, 바이클러스터링 장치는 i < j이고, 샘플 쌍의 집합 {(si, sj)}과 유전자의 집합 {g0, g1, ..., gm -1}을 통하여 적어도 하나의 2레벨-RN클러스터를 형성할 수 있다. 이 때, 상기 바이클러스터링 장치가 형성 가능한 모든 2레벨-RN클러스터의 수는 상기 샘플 쌍의 가능한 가지 수와 같다. 예를 들어, 표 1에서 상기 바이클러스터링 장치가 형성 가능한 2레벨-RN클러스터의 샘플 쌍은 {s0, s1}, {s0, s2}, ...,{s0, s3}등이 될 수 있다. 만약 ms = 3이면, {s0, s5}, {s1, s5}, {s2, s5}, {s3, s5}, {s4, s5}는 3레벨-RN클러스터 이상으로 자랄 수 없기 때문에, 2레벨-RN클러스터가 될 수 없다. 마찬가지로, ms = 4라면, {s0, s4}, {s1, s4}, {s2, s4}, {s3, s4}도 2레벨-RN클러스터가 될 수 없다.
또한, 이와 같은 단계(S201)에 대해서는 추후 도 3을 통하여 더욱 상세하게 살펴보도록 하겠다.
단계(S202)에서 상기 바이클러스터링 장치는 상기 도출된 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정할 수 있다. 구체적으로, 상기 바이클러스터링 장치는 상기 도출된 p+1레벨-RN클러스터의 유전자 집합의 크기를 기준으로 우선 순위 큐를 유지하고, 그리고 상기 우선 순위 큐에 따라 결과 p+1레벨-RN클러스터를 결정할 수 있다.
상기 p레벨-RN클러스터의 개수가 r이고, 각 p레벨-RN클러스터에 대해서 최대한 n개의 샘플이 조사될 수 있고, 각 조사 프로세스는 최대 10개(OP와 ON에서 각각 다섯 개씩인 경우)의 p+1레벨-RN클러스터를 생성할 수 있는 경우, 상기 바이클러스터링 장치는 최대 10nr 개의 p+1레벨-RN클러스터를 도출할 수 있다.
이 때, 상기 바이클러스터링 장치는 저장공간의 한계 또는 시간상의 비효율성 등으로 인해 상기 도출한 p+1레벨-RN클러스터 중 가치가 높은 것들을 선별할 수 있다.
특히, 상기 바이클러스터링 장치는 유전자 집합의 크기에 따라 상기 도출한 p+1레벨-RN클러스터 중 결과 p+1레벨-RN클러스터를 결정할 수 있다. 또한, 상기 바이클러스터링 장치는 넓이 우선 트리의 각 레벨마다 유전자 집합의 크기를 우선 순위 측정 함수로 하는 우선 순위 큐를 유지함으로써 결과 p+1레벨-RN클러스터를 결정할 수 있다.
도 5는 다중 우선 순위 큐에 따라 결과 p+1레벨-RN클러스터 및 후보 p+1레벨-RN클러스터를 결정하는 일예를 도시한 도면이다. 도 5에 도시된 p레벨-RN클러스터의 집합(501) 및 p+1레벨-RN클러스터의 집합(502)은 넓이 우선 트리를 구성하고 있고, 상기 넓이 우선 트리의 각 노드는 p레벨 또는 p+1레벨-RN클러스터를 의미할 수 있다. 또한, 상기 각 노드 안의 숫자는 RN클러스터의 유전자 집합의 크기를 나타내고 있다. 또한, 상기 바이클러스터링 장치는 도출된 p+1레벨-RN클러스터 각각이 어떤 p레벨-RN클러스터에서 도출되었는지를 고려하여 다중 우선 순위 큐를 유지하고 있다. 즉, 상기 바이클러스터링 장치는 유전자 집합의 크기만을 비교하여 A1, A2, A3를 우선 순위 큐에 저장하는 것과 구별하여, 먼저 p레벨-RN클러스터 A, B, C 각각으로부터 도출된 p+1레벨-RN클러스터를 구분하여 우선 순위 큐에 저장하고, 저장된 A1, B2, C3에 대해서 다시 한번 우선 순위 큐를 유지할 수 있다. 상기 바이클러스터링 장치는 다수의 큐를 이용함으로써 다양성을 제공할 수 있다. 또한, 상기 바이클러스터링 장치는 상기 결과 p+1레벨-RN클러스터를 결과값으로 출력할 수 있다.
단계(S203)에서 상기 바이클러스터링 장치는 도출된 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정할 수 있다. 구체적으로 상기 바이클러스터링 장치는 상기 도출된 p+1레벨-RN클러스터의 유전자 집합의 크기 및 샘플 집합의 최종순번 샘플을 기준으로 우선 순위 큐를 유지하고, 그리고 상기 우선 순위 큐에 따라 후보 p+1레벨-RN클러스터를 결정할 수 있다.
상기 바이클러스터링 장치는 상기 유전자 집합의 크기와 상기 최종순번 샘플의 인덱스에 따라 결정된 수치의 곱에 의해 우선 순위 큐를 유지할 수 있다. 이 때, 상기 결정된 수치는 상기 마이크로어레이 행렬 데이터에 포함된 모든 샘플의 개수(또는 마이크로어레이 행렬 데이터의 최종순번 샘플의 인덱스)에서 상기 최종순번 샘플의 인덱스를 뺀 값일 수 있다. 예를 들어, p+1레벨-RN클러스터의 샘플 집합에 포함된 샘플이 s0, s2, s3이고, 상기 마이크로어레이 행렬 데이터의 모든 샘플의 개수가 100인 경우, 최종순번 샘플은 s3이고, 인덱스는 3, 상기 결정된 수치는 97이 되는 것이다. 상기 바이클러스터링 장치가 이러한 우선 순위 큐를 유지하는 첫 번째 이유는 보다 큰 유전자 집합을 가진 p레벨-RN클러스터가 보다 큰 유전자 집합을 가진 p+1레벨-RN클러스터로 성장할 수 있는 확률이 높기 때문이고, 두 번째 이유는 최종순번 샘플의 인덱스가 커질수록 p+1레벨-RN클러스터가 더 큰 레벨의 RN클러스터로 성장할 확률은 적어지기 때문이다.
예를 들어 S = {s0, s1, s2, s3, s4, s5}(S는 마이크로어레이 행렬 데이터의 샘플 집합)이고, 두 개의 3레벨-RN클러스터SB1과 SB2가 있고, SB1의 T = {s0, s1, s2}(SB1의 샘플 집합)이고, SB2의 T = {s0, s1, s3}(SB2의 샘플 집합)인 경우, SB1이 SB2보다 검사할 수 있는 샘플이 많다(SB1의 경우 s3, s4, s5이고, SB2는 s4, s5이다). 그 결과, SB1이 T = {s0, s1, s2, s3}, T = {s0, s1, s2, s4}, T = {s0, s1, s2, s5}인 3개의 4레벨-RN클러스터로 성장할 수 있음에 비해서, SB2는 T = {s0, s1, s3, s4}, T = {s0, s1, s3, s5}인 2개의 4레벨-RN클러스터로 밖에는 성장할 수 없다. 또한 SB1는 T = {s0, s1, s2, s3, s4, s5}인 6레벨-RN클러스터로 성장할 수 있음에 비해서 SB2는 6레벨-RN클러스터로 성장할 수 없다. 즉, 상기 최종순번 샘플의 인덱스가 커질 수록 p+1레벨-RN클러스터가 성장할 수 있는 확률은 줄어든다고 판단할 수 있다.
또한, 상기 바이클러스터링 장치는 후보 p+1레벨-RN클러스터를 결정하기 위한 우선 순위 큐를 다중으로 유지할 수 있다. 또한, 상기 바이클러스터링 장치는 상기 후보 p+1레벨-RN클러스터를 p+2레벨-RN클러스터의 도출에 이용할 수 있다.
또한, 결과 p+1레벨-RN클러스터 및 후보 p+1레벨-RN클러스터를 위한 우선 순위 큐의 크기를 qsize라고 하고, 우선 순위 큐의 개수를 qnum이라 하고, k = qnum x qsize라고 하는 경우, k는 중복 검사 전의 결과 p+1레벨RN클러스터 및 후보 p+1레벨RN클러스터의 총 개수가 될 수 있다. 또한, 상기 k가 클수록 상기 바이클러스터링 장치는 프루닝을 방지하므로 로컬 옵티마를 방지할 수 있다. 다만, qnum이 소정의 수치(예를 들어100)보다 큰 경우, 결과 p+1레벨RN클러스터 또는 후보 p+1레벨RN클러스터의 품질에 영향을 미치지 않기 때문에, 상기k는 최적 값으로 결정될 수 있다.
또한, 본 발명에서 제안한 바이클러스터링 방법은 효율적인 범위 계산, 트리 구조 및 큐 저장 구조를 설계함으로써 높은 기능적 상관관계 신뢰도를 갖는 바이클러스터 및 오버래핑된 다양한 바이클러스터를 도출할 수 있다. 또한 도출된 바이클러스터는 GO(Gene Ontology)검증을 통해서 높은 기능적 상관관계 신뢰도를 검증받을 수 있다. 또한, 상기 도출된 바이클러스터는 현재 가장 높은 기능적 상관관계 정도를 보이는 알고리즘 중 하나로 알려져 있는 OPSM(Order-Preserving Submatrix) 방법에서 도출한 바이클러스터 비교할 때, 모든 GO에 대해서 p값으로 표현되는 신뢰도가 높게 확인되었다. 즉, 상기 도출된 바이클러스터는 낮은 거짓 양성 오류를 보여준다는 것이다.
단계(S204)에서 상기 바이클러스터링 장치는 상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 중복 검사를 수행할 수 있다. 구체적으로, 상기 바이클러스터링 장치는 유사도 검사를 이용하여 상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각으로부터 중복 결과를 제거할 수 있다. 이 때, 상기 유사도 검사는 상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 유전자 집합을 이용하는 것일 수 있다.
상기 바이클러스터링 장치는 중복되지 않았다고 판단되는 결과 p+1레벨-RN클러스터의 집합을 E라고 하는 경우, 상기 E에 포함된 모든 결과 p+1레벨-RN클러스터에 대해서 상기 결정된 결과 p+1레벨-RN클러스터(우선 순위 큐에 저장된 결과 p+1레벨-RN클러스터)와 유사도 검사를 할 수 있다. 다만, 상기 바이클러스터링 장치는 N(E) = 0이라면, 상기 결정된 결과 p+1레벨-RN클러스터를 유사도 검사를 거치지 않고 바로 E에 넣을 수 있다.
또한, 상기 유사도 검사는 비교의 대상이 되는 두 개의 결과 p+1레벨-RN클러스터 상호 간의 유사도를 이용하여 수행될 수 있다. 구체적으로, 상기 바이클러스터링 장치는 상기 유사도가 입력장치로부터 입력된 유사도 허용값보다 크거나 같은 경우, 상기 두 개의 p레벨-RN클러스터가 유사하다고 판단할 수 있다. 두 개의 결과 p+1레벨-RN클러스터인 C1 = (O1,T1)와 C2 = (O2,T2)가 있는 경우, C1과 C2 상호간의 유사도는 수학식 2와 같이 나타낼 수 있다. 일반적으로 바이클러스터링 방법은 샘플의 다양성보다는 유전자의 다양성에 초점을 맞추고 있어, 두 개의 p레벨-RN클러스터의 유전자 집합을 통해 유사도를 측정하는 수학식 2의 방법은 타당하다.
Figure 112008014527483-pat00015
이 때, O = O1
Figure 112008014527483-pat00016
O2이고, max(a, b)는 a≥b 일 때 a를, 그렇지 않다면 b를 반환하는 함수이다. 예를 들어 p레벨-RN클러스터 C1의 O = {g0, g2, g3, g5}이고, C2 의 O = {g1, g2, g3, g4, g6}일 때, C1과 C2사이의 유사도는 0.5이다.
또한, 상기 바이클러스터링 장치는 상기 유사도 검사 결과, 두 개의 결과 p+1레벨-RN클러스터가 유사하다고 판단된 경우, 유전자 집합의 크기가 작은 쪽을 제거할 수 있다.
또한, 상기 바이클러스터링 장치는 후보 p+1레벨-RN클러스터에 대해서도 같은 방법으로 중복 검사를 수행할 수 있다. 도 5를 참조하면, 상기 바이클러스터링 장치는 우선 순위 큐(503)에 저장된 결과 p+1레벨-RN클러스터의 중복 검사를 수행하고, 최종 확정된 결과 p+1레벨-RN클러스터(504)를 결정할 수 있다. 또한, 상기 바이클러스터링 장치는 우선 순위 큐(505)에 저장된 후보 p+1레벨-RN클러스터의 중 복 검사를 수행하고, 최종 확정된 후보 p+1레벨-RN클러스터(506)를 결정할 수 있다.
또한, 도 2에 도시되지 않았으나, 상기 바이클러스터링 장치는 중복 검사가 수행된 결과 p+1레벨-RN클러스터를 출력하는 단계(도시되지 않음) 및 중복 검사가 수행된 후보 p+1레벨-RN클러스터를 이용하여 p+2레벨-RN클러스터를 도출하는 단계(도시되지 않음)를 더 포함할 수 있다.
도 3은 본 발명의 일측에 따른 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출하는 단계를 도시한 동작 흐름도이다.
도 3에 도시된 바와 같이 도 2의 단계(S201)는 단계(S301) 내지 단계(S302)로 수행될 수 있다. 또한, 단계(S301) 내지 단계(S302)는 바이클러스터링 장치에 의해서 수행될 수 있다.
단계(S301)에서 상기 바이클러스터링 장치는 p레벨-RN클러스터를 구성하는 상기 유전자 집합 내 모든 유전자에 대해서 발현값 차이 비율을 결정할 수 있다.
구체적으로, 상기 바이클러스터링 장치는 상기 샘플 집합에 포함된 샘플 각각에 대응하는 유전자 발현값 및 p+1레벨-RN클러스터에 추가로 포함 가능한 샘플에 대응하는 유전자 발현값 중 적어도 하나를 이용하여 상기 p레벨-RN클러스터를 구성하는 유전자 집합 내 모든 유전자 각각에 대한 발현값 차이를 계산하고, 그리고 상기 발현값 차이를 이용하여 상기 모든 유전자 각각의 발현값 차이 비율을 결정할 수 있다.
이 때, 상기 p+1레벨-RN클러스터에 추가로 포함 가능한 샘플은 p레벨-RN클러 스터에 대해서, 상기 p레벨-RN클러스터에 포함된 샘플 slast가 샘플 집합의 마지막 원소일 때, last < i 을 만족하는 si를 의미할 수 있다. 이 때, si는 상기 마이크로어레이 행렬 데이터에 포함된 샘플일 수 있다. 또한, 상기 바이클러스터링 장치는 상기 p+1레벨-RN클러스터에 추가로 포함 가능한 샘플을 검사함으로써, p+1레벨-RN클러스터를 얻어낼 수 있다. 예를 들어, 2레벨-RN클러스터 C = (O,T)에 대해서, slast이 T의 마지막 원소일 때, last < i 을 만족하는 si를 검사함으로써 3레벨-RN클러스터를 얻어낼 수 있다. 같은 방식으로 상기 바이클러스터링 장치는 3레벨-RN클러스터의 집합에서 4레벨-RN클러스터의 집합을, 4레벨-RN클러스터의 집합에서 5레벨-RN클러스터의 집합을 얻어낼 수 있다. 즉, 상기 바이클러스터링 장치는 p 레벨의 노드의 집합을 p레벨-RN클러스터의 집합이라고 볼 때, 넓이 우선 탐색을 수행할 수 있는 것이다. 이 때, 각 노드는 p레벨-RN클러스터나 p+1레벨-RN클러스터를 의미할 수 있다. 또한, 각 노드의 이름은 p레벨-RN클러스터나 p+1레벨-RN클러스터를 얻기 위해 조사해야 하는 샘플을 의미할 수 있다.
또한, 상기 바이클러스터링 장치는 p레벨-RN클러스터의 유전자 집합 내 모든 유전자 gk(단, k = 0, 1, ..., m-1)에 대해서, 샘플 집합에 포함된 제1 샘플(s1), 제2 샘플(s2) 및 최종순번 샘플(slast) 각각의 유전자 발현값을 추출할 수 있다. 또한, 상기 바이클러서터링 장치는 상기 p+1레벨-RN클러스터에 추가로 포함 가능한 샘플(si)의 유전자 발현값을 추출할 수 있다. 또한, 상기 바이클러스터링 장치는 수학식 3을 이용하여 상기 유전자 gk에 대한 발현값 차이 비율을 결정할 수 있다.
이 때, ck 1은 s1에서의 유전자 gk에 대한 유전자 발현값이고, ck 2은 s2에서의 유전자 gk에 대한 유전자 발현값이고, ck l은 sl에서의 유전자 gk에 대한 유전자 발현값이고, ck i은 si에서의 유전자 gk에 대한 유전자 발현값이다. 또한, dk 12 및 dk li 각각은 유전자 gk에 대한 발현값 차이이고, tk li는 유전자 gk에 대한 발현값 차이 비율이다.
또한, 상기 tk li의 부호에 의해서 유전자 집합 O는 양의 값을 갖는 집합인 OP와 음의 값을 갖는 집합인 ON으로 나뉠 수 있다. 또한, 상기 바이클러스터링 장치는 같은 부호를 갖는 tk li를 함께 유지함으로써, 음의 상관관계를 갖는 유전자를 찾 아낼 수 있다.
도 4는 발현값 차이 비율을 이용한 p+1레벨-RN클러스터의 도출의 일예를 도시한 도면이다. 도 4에 도시된 표(401)는 상기 OP에 포함된 유전자와 그 tk li값을 나타낸다. 또한, 도 4에 도시된 표(402)는 상기 OP에 포함된 유전자를 tk li 값에 따라 오름차순 정렬한 결과이다.
단계(S302)에서 상기 바이클러스터링 장치는 상기 발현값 차이 비율을 이용하여 p+1레벨-RN클러스터를 도출할 수 있다.
구체적으로 상기 바이클러스터링 장치는 입력장치로부터 허용 노이즈 값을 입력받고, 상기 발현값 차이 비율 및 상기 허용 노이즈 값을 이용하여 p+1레벨-RN클러스터를 도출할 수 있다.
이 때, 발현값 차이 비율 및 허용 노이즈 값을 이용하여 p+1레벨-RN클러스터를 도출하기 위해서 상기 바이클러스터링 장치는 상기 유전자 집합 내 모든 유전자 각각의 발현값 차이 비율을 비교하여 중앙 발현값 차이 비율을 결정하고, 상기 중앙 발현값 차이 비율 및 상기 허용 노이즈 값을 이용하여 적어도 하나의 범위 레인지를 결정하고, 그리고 상기 모든 유전자 각각의 발현값 차이 비율이 상기 범위 레인지에 속하는지 여부에 따라 p+1레벨-RN클러스터를 도출할 수 있다.
상기 바이클러스터링 장치는 상기 유전자 집합 내 모든 유전자 각각의 발현값 차이 비율을 비교하여 중앙 발현값 차이 비율을 갖는 유전자 gq를 결정할 수 있 다. 예를 들어, 상기 바이클러스터링 장치는 상기 유전자 집합 OP에 포함된 유전자를 발현값 차이 비율에 따라 오름차순으로 정리하고, 정리된 결과를 바탕으로 중앙에 위치한 유전자를 결정할 수 있다. 도 4의 표(402)를 참조하면, 상기 바이클러스터링 장치는 18개의 유전자 중 발현값 차이 비율 1을 갖는 g6를 중앙에 위치한 유전자로 결정하고, 상기 g6의 발현값 차이 비율을 중앙 발현값 차이 비율로 결정할 수 있다.
또한, 상기 바이클러스터링 장치는 상기 OP에서 수학식 1의 조건을 만족하는 유전자 부분 집합 OPi(i = 0, 1, ..., n-1, n)를 얻어낼 수 있다. 이 때, 각 유전자 부분 집합 OPi는 상기 발현값 차이 비율이 범위 레인지 rangei(i = 0, 1, ..., n-1, n) 안에 포함되는 유전자를 가질 수 있다. 이 때, 각 rangei는 상기 중앙 발현값 차이 비율 및 입력장치로부터 입력된 상기 허용 노이즈 값을 이용하여 결정될 수 있다.
또한, 상기 허용 노이즈 값을 높이더라도, 상기 바이클러스터링 방법의 실행 시간이 지수적으로 증가하지 않는 다는 것을 확인할 수 있다. 즉, 상기 바이클러스터링 방법은 마이크로어레이 행렬 데이터의 노이즈 레벨이 높은 경우에라도 숨어 있을 수 있는 높은 기능적 상관관계 신뢰도를 갖는 바이클러스터를 도출할 수 있다.
도 4를 참조하면, 본 발명의 일실시예에 따라 상기 OPi를 OP0, OP1, OP2, OP3, OP4로 결정할 수 있다. 도 4에 도시된 바와 같이, tq li = 1이고,
Figure 112008014527483-pat00018
=2일 경우, range0 = [1x2-3, 1x2-1] = [0.125, 0.5]로 결정될 수 있다. 또한, 같은 형식으로 range1, range2, range3, range4 를 결정할 수 있다. 다만, 상기 OPi의 개수는 다양한 실시예에 따라 달라질 수 있다.
또한, 상기 OP에 포함된 각각의 유전자 gk에 대해서, 만약
Figure 112008014527483-pat00019
Figure 112008014527483-pat00020
rangei라면 gk는 OPi에 소속될 수 있다. 또한, 상기 바이클러스터링 장치는 상기 OPi중 그 크기가 최소 유전자 집합 크기인 mg보다 큰 것을 (p+1)레벨-RN클러스터로 도출할 수 있다. 이 때, 상기 도출된 p+1레벨-RN클러스터의 샘플 집합은 p레벨-RN클러스터의 샘플 집합과 p+1레벨-RN클러스터에 추가 가능한 샘플(si)의 합집합일 수 있다.
또한, 상기 바이클러스터링 장치는 OPi를 결정하는 것과 같은 방법으로 ONi를 결정할 수 있다. 또한, 상기 바이클러스터링 장치는 상기 ONi중 그 크기가 최소 유전자 집합 크기인 mg보다 큰 것을 p+1레벨-RN클러스터로 도출할 수 있다.
또한, 상기 바이클러스터링 장치는 p+1레벨-RN클러스터를 도출하는 과정에서, 검사 가능한 모든 샘플에서 그 크기가 mg이상인 OPi 또는 ONi를 얻을 수 없는 경우, 더 이상 유효한 p+1레벨-RN클러스터를 얻을 수 없다고 판단하고, 전체 프로세스를 종료할 수 있다.
도 6은 본 발명의 일실시예에 따른 바이클러스터링 방법을 나타낸 동작 흐름도이다.
도 6에 도시된 바와 같이 바이클러스터링 방법은 단계(S601) 내지 단계(S605)로 수행될 수 있다. 또한, 바이클러스터링 방법은 바이클러스터링 장치에 의해서 수행될 수 있다.
단계(S601)에서 상기 바이클러스터링 장치는 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 제1 p레벨-RN클러스터로부터 적어도 하나의 제1 p+1레벨-RN클러스터를 도출할 수 있다.
단계(S602)에서 상기 바이클러스터링 장치는 상기 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 제2 p레벨-RN클러스터로부터 적어도 하나의 제2 p+1레벨-RN클러스터를 도출할 수 있다.
이 때, 상기 p는 상기 제1 p레벨-RN클러스터 또는 제2 p레벨-RN클러스터를 구성하는 샘플 집합 내 샘플 개수를 나타내는 자연수이고, 상기 제2 p레벨-RN클러스터는 상기 제1 p레벨-RN클러스터와 샘플 집합의 크기가 동일하고, 상기 샘플 집합 내 최종순번 샘플에 차이를 가질 수 있다.
예를 들어, 도 5에 도시된 바와 같이 상기 제1 p레벨-RN클러스터는 p레벨-RN클러스터의 집합(501)의 노드 A이고, 상기 제2 p레벨-RN클러스터는 노드 B일 수 있다. 또한, 상기 제1 p+1레벨-RN클러스터는 노드 A1, A2 또는 A3이고, 상기 제2 p+1레벨-RN클러스터는 노드 B1, B2 또는 B3일 수 있다.
또한, 이와 같은 단계(S601) 또는 단계(S602)에 대하여 설명하지 아니한 내용은 앞서 도 2의 단계(S201)를 통하여 설명한 내용과 동일하거나, 당업자에 의해 용이하게 유추할 수 있으므로 이하 설명을 생략하도록 하겠다. 이 때, 제1 p레벨-RN클러스터 또는 제2 p레벨-RN클러스터는 단계(S201)의 p레벨-RN클러스터의 하나이고, 제1 p+1레벨-RN클러스터 또는 제2 p+1레벨-RN클러스터는 단계(S201)의 p+1레벨-RN클러스터의 하나일 수 있다.
단계(S603)에서 상기 바이클러스터링 장치는 상기 도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정할 수 있다. 구체적으로, 상기 바이클러스터링 장치는 도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터 각각의 유전자 집합 크기를 기준으로 우선 순위 큐를 유지하고, 그리고 상기 우선 순위 큐에 따라 결과 p+1레벨-RN클러스터를 결정할 수 있다.
또한, 이와 같은 단계(S603)에 대하여 설명하지 아니한 내용은 앞서 도 2를 통하여 설명한 단계(S202)를 통하여 설명한 내용과 동일하거나 당업자에 의해 용이하게 유추할 수 있으므로 이하 설명을 생략하도록 하겠다. 이 때, 제1 p+1레벨-RN클러스터 또는 제2 p+1레벨-RN클러스터는 단계(S202)의 p+1레벨-RN클러스터에 포함될 수 있다.
단계(S604)에서 상기 바이클러스터링 장치는 상기 도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터로부터 후보 p+1레벨-RN클러스터를 결정할 수 있다. 구체적으로, 상기 바이클러스터링 장치는 도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터 각각의 유전자 집합의 크기 및 샘플 집합의 최종순번 샘플을 우선 순위 큐를 유지하고, 그리고 상기 우선 순위 큐에 따라 후보 p+1레벨-RN클러스터를 결정할 수 있다.
또한, 이와 같은 단계(S604)에 대하여 설명하지 아니한 내용은 앞서 도 2를 통하여 설명한 단계(S203)를 통하여 설명한 내용과 동일하거나 당업자에 의해 용이하게 유추할 수 있으므로 이하 설명을 생략하도록 하겠다. 이 때, 제1 p+1레벨-RN클러스터 또는 제2 p+1레벨-RN클러스터는 단계(S203)의 p+1레벨-RN클러스터에 포함될 수 있다.
단계(S605)에서 상기 바이클러스터링 장치는 상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 중복 검사를 수행할 수 있다.
이와 같은 단계(S605)에 대해서 설명하지 아니한 내용은 앞서 도 2의 단계(S204)를 통하여 설명한 내용과 동일하거나 당업자에 의해 용이하게 유추할 수 있으므로 이하 설명을 생략하도록 하겠다.
본 발명에 따른 바이클러스터링 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD- ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
도 7은 본 발명의 일실시예에 따른 바이클러스터링 장치를 도시한 블록도이다.
도 7에 도시된 바와 같이 바이클러스터링 장치(700)는 입력모듈(701), 도출모듈(702), 결과결정모듈(703), 후보결정모듈(704) 및 중복검사모듈(705)을 포함할 수 있다.
입력모듈(701)은 입력장치로부터 마이크로어레이 행렬 데이터를 입력받을 수 있다.
도출모듈(702)은 상기 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출할 수 있다.
결과결정모듈(703)은 상기 도출된 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정할 수 있다.
후보결정모듈(704)은 상기 도출된 p+1레벨-RN클러스터로부터 후보 p+1레벨-RN클러스터를 결정할 수 있다.
중복검사모듈(705)은 상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 중복 검사를 수행할 수 있다.
또한, 이와 같은 도 7에 대하여 설명하지 아니한 사항은 앞서 도 1 내지 도 6을 통하여 설명한 바이클러스터링 방치의 동작 내용과 실질적으로 동일하거나, 당업자라면 도 1 내지 도 6의 내용으로부터 용이하게 유추할 수 있는 것으로 이하 설명을 생략하도록 하겠다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 일실시예에 따른 바이클러스터링 방법을 나타낸 동작 흐름도이다.
도 2는 본 발명의 일측에 따른 마이크로어레이 행렬 데이터로부터 RN클러스터를 도출하는 단계를 도시한 동작 흐름도이다.
도 3은 본 발명의 일측에 따른 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출하는 단계를 도시한 동작 흐름도이다.
도 4는 발현값 차이 비율을 이용한 p+1레벨-RN클러스터의 도출의 일예를 도시한 도면이다.
도 5는 다중 우선 순위 큐에 따라 결과 p+1레벨-RN클러스터 및 후보 p+1레벨-RN클러스터를 결정하는 일예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 바이클러스터링 방법을 나타낸 동작 흐름도이다.
도 7은 본 발명의 일실시예에 따른 바이클러스터링 장치를 도시한 블록도이다.
<도면의 주요 부분에 대한 부호의 설명>
700: 바이클러스터링 장치
702: 도출모듈

Claims (25)

  1. 입력장치로부터 마이크로어레이 행렬 데이터를 입력받는 단계; 및
    상기 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출하는 단계
    를 포함하는 바이클러스터링 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 p레벨-RN클러스터 또는 p+1레벨-RN클러스터는,
    상기 RN클러스터에 포함되고,
    상기 p는,
    상기 RN클러스터를 구성하는 샘플 집합 내 샘플 개수를 나타내는 자연수인 것을 특징으로 하는 바이클러스터링 방법.
  4. 제1항에 있어서,
    p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출하는 상기 단계는,
    p레벨-RN클러스터를 구성하는 상기 유전자 집합 내 모든 유전자에 대해서 발현값 차이 비율을 결정하는 단계; 및
    상기 발현값 차이 비율을 이용하여 p+1레벨-RN클러스터를 도출하는 단계
    를 포함하는 바이클러스터링 방법.
  5. 제4항에 있어서,
    p레벨-RN클러스터를 구성하는 유전자 집합 내 모든 유전자에 대해서 발현값 차이 비율을 결정하는 상기 단계는,
    상기 샘플 집합에 포함된 샘플 각각에 대응하는 유전자 발현값 및 p+1레벨-RN클러스터에 추가로 포함 가능한 샘플에 대응하는 유전자 발현값 중 적어도 하나를 이용하여 상기 p레벨-RN클러스터를 구성하는 유전자 집합 내 모든 유전자 각각에 대한 발현값 차이를 계산하고, 그리고
    상기 발현값 차이를 이용하여 상기 모든 유전자 각각의 발현값 차이 비율을 결정하는 것을 특징으로 하는 바이클러스터링 방법.
  6. 제4항에 있어서,
    발현값 차이 비율을 이용하여 p+1레벨-RN클러스터를 도출하는 상기 단계는,
    입력장치로부터 허용 노이즈 값을 입력받는 단계; 및
    상기 발현값 차이 비율 및 상기 허용 노이즈 값을 이용하여 p+1레벨-RN클러스터를 도출하는 단계
    를 포함하는 바이클러스터링 방법.
  7. 제6항에 있어서,
    발현값 차이 비율 및 허용 노이즈 값을 이용하여 p+1레벨-RN클러스터를 도출하는 상기 단계는,
    상기 유전자 집합 내 모든 유전자 각각의 발현값 차이 비율을 비교하여 중앙 발현값 차이 비율을 결정하고,
    상기 중앙 발현값 차이 비율 및 상기 허용 노이즈 값을 이용하여 적어도 하나의 범위 레인지를 결정하고, 그리고
    상기 모든 유전자 각각의 발현값 차이 비율이 상기 범위 레인지에 속하는지 여부에 따라 p+1레벨-RN클러스터를 도출하는 것을 특징으로 하는 바이클러스터링 방법.
  8. 제1항에 있어서,
    마이크로어레이 행렬 데이터의 부분 행렬 데이터인 적어도 하나의 RN클러스터를 도출하는 상기 단계는,
    상기 도출된 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정하는 단계
    를 더 포함하는 바이클러스터링 방법.
  9. 제8항에 있어서,
    도출된 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정하는 상기 단계는,
    상기 도출된 p+1레벨-RN클러스터의 유전자 집합의 크기를 기준으로 우선 순위 큐를 유지하고, 그리고
    상기 우선 순위 큐에 따라 결과 p+1레벨-RN클러스터를 결정하는 것을 특징으로 하는 바이클러스터링 방법.
  10. 제8항에 있어서,
    마이크로어레이 행렬 데이터의 부분 행렬 데이터인 적어도 하나의 RN클러스터를 도출하는 상기 단계는,
    상기 도출된 p+1레벨-RN클러스터로부터 후보 p+1레벨-RN클러스터를 결정하는 단계
    를 더 포함하는 바이클러스터링 방법.
  11. 제10항에 있어서,
    도출된 p+1레벨-RN클러스터로부터 후보 p+1레벨-RN클러스터를 결정하는 상기 단계는,
    상기 도출된 p+1레벨-RN클러스터의 유전자 집합의 크기 및 샘플 집합의 최종순번 샘플을 기준으로 우선 순위 큐를 유지하고, 그리고
    상기 우선 순위 큐에 따라 후보 p+1레벨-RN클러스터를 결정하는 것을 특징으로 하는 바이클러스터링 방법.
  12. 제10항에 있어서,
    마이크로어레이 행렬 데이터의 부분 행렬 데이터인 적어도 하나의 RN클러스터를 도출하는 상기 단계는,
    상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 중복 검사를 수행하는 단계
    를 더 포함하는 바이클러스터링 방법.
  13. 제12항에 있어서,
    결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 중복 검사를 수행하는 상기 단계는,
    유사도 검사를 이용하여 상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각으로부터 중복 결과를 제거하는 것을 특징으로 하는 바이클러스터링 방법.
  14. 제13항에 있어서,
    상기 유사도 검사는,
    상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 유전자 집합을 이용하는 것을 특징으로 하는 바이클러스터링 방법.
  15. 제12항에 있어서,
    상기 바이클러스터링 방법은,
    중복 검사가 수행된 결과 p+1레벨-RN클러스터를 출력하는 단계; 및
    중복 검사가 수행된 후보 p+1레벨-RN클러스터를 이용하여 p+2레벨-RN클러스터를 도출하는 단계
    를 더 포함하는 바이클러스터링 방법.
  16. 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 제1 p레벨-RN클러스터로부터 적어도 하나의 제1 p+1레벨-RN클러스터를 도출하는 단계;
    상기 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 제2 p레벨-RN클러스터로부터 적어도 하나의 제2 p+1레벨-RN클러스터를 도출하는 단계; 및
    상기 도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정하는 단계
    를 포함하는 바이클러스터링 방법.
  17. 제16항에 있어서,
    상기 p는,
    상기 제1 p레벨-RN클러스터 또는 제2 p레벨-RN클러스터를 구성하는 샘플 집합 내 샘플 개수를 나타내는 자연수이고,
    상기 제2 p레벨-RN클러스터는,
    상기 제1 p레벨-RN클러스터와 샘플 집합의 크기가 동일하고, 상기 샘플 집합 내 최종순번 샘플에 차이가 있는 것을 특징으로 하는 바이클러스터링 방법.
  18. 제16항에 있어서,
    도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정하는 상기 단계는,
    도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터 각각의 유전자 집합 크기를 기준으로 우선 순위 큐를 유지하고, 그리고
    상기 우선 순위 큐에 따라 결과 p+1레벨-RN클러스터를 결정하는 것을 특징으로 하는 바이클러스터링 방법.
  19. 제16항에 있어서,
    상기 바이클러스터링 방법은,
    상기 도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터로부터 후보 p+1레벨-RN클러스터를 결정하는 단계
    를 더 포함하는 바이클러스터링 방법.
  20. 제19항에 있어서,
    도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터로부터 후보 p+1레벨-RN클러스터를 결정하는 상기 단계는,
    도출된 제1 p+1레벨-RN클러스터 및 제2 p+1레벨-RN클러스터 각각의 유전자 집합의 크기 및 샘플 집합의 최종순번 샘플을 우선 순위 큐를 유지하고, 그리고
    상기 우선 순위 큐에 따라 후보 p+1레벨-RN클러스터를 결정하는 것을 특징으로 하는 바이클러스터링 방법.
  21. 제19항에 있어서,
    상기 바이클러스터링 방법은,
    상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 중복 검사를 수행하는 단계
    를 더 포함하는 바이클러스터링 방법.
  22. 제1항 또는 제3항 내지 제21항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
  23. 입력장치로부터 마이크로어레이 행렬 데이터를 입력받는 입력모듈; 및
    상기 마이크로어레이 행렬 데이터에 포함된 적어도 하나의 유전자 집합 및 샘플 집합으로 구성된 p레벨-RN클러스터를 기반으로 p+1레벨-RN클러스터를 도출하는 도출모듈
    을 포함하는 바이클러스터링 장치.
  24. 제23항에 있어서,
    상기 바이클러스터링 장치는,
    상기 도출된 p+1레벨-RN클러스터로부터 결과 p+1레벨-RN클러스터를 결정하는 결과결정모듈; 및
    상기 도출된 p+1레벨-RN클러스터로부터 후보 p+1레벨-RN클러스터를 결정하는 후보결정모듈
    을 더 포함하는 바이클러스터링 장치.
  25. 제24항에 있어서,
    상기 바이클러스터링 장치는,
    상기 결정된 결과 p+1레벨-RN클러스터 또는 후보 p+1레벨-RN클러스터 각각의 중복 검사를 수행하는 중복검사모듈
    을 더 포함하는 바이클러스터링 장치.
KR1020080017979A 2008-02-27 2008-02-27 바이클러스터링 방법 및 장치 KR100963764B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080017979A KR100963764B1 (ko) 2008-02-27 2008-02-27 바이클러스터링 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080017979A KR100963764B1 (ko) 2008-02-27 2008-02-27 바이클러스터링 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090092634A KR20090092634A (ko) 2009-09-01
KR100963764B1 true KR100963764B1 (ko) 2010-06-14

Family

ID=41301176

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080017979A KR100963764B1 (ko) 2008-02-27 2008-02-27 바이클러스터링 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100963764B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101514762B1 (ko) * 2014-05-15 2015-05-20 연세대학교 산학협력단 mRNA 발현 값의 발현 차이를 이용하여 유전자 집합을 검출하기 위한 장치 및 그 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101704737B1 (ko) * 2016-02-05 2017-02-08 연세대학교 산학협력단 셀렉션 풀을 이용한 바이클러스터 생성 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175305A (ja) 2000-12-06 2002-06-21 Biomolecular Engineering Research Institute 遺伝子ネットワークを推測するためのグラフィカルモデリング法及びそのための装置
JP2005512557A (ja) 2001-11-07 2005-05-12 ザ ボード オブ トラスティーズ オブ ザ ユニヴァーシティー オブ アーカンソー 遺伝子発現プロファイリングに基づく多発性骨髄腫の診断、予後、および治療標的候補の同定
KR20050080565A (ko) * 2004-02-10 2005-08-17 주식회사 피앤아이 네트워크를 이용한 올리고뉴클레오티드 마이크로어레이데이터 표준화 시스템 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175305A (ja) 2000-12-06 2002-06-21 Biomolecular Engineering Research Institute 遺伝子ネットワークを推測するためのグラフィカルモデリング法及びそのための装置
JP2005512557A (ja) 2001-11-07 2005-05-12 ザ ボード オブ トラスティーズ オブ ザ ユニヴァーシティー オブ アーカンソー 遺伝子発現プロファイリングに基づく多発性骨髄腫の診断、予後、および治療標的候補の同定
KR20050080565A (ko) * 2004-02-10 2005-08-17 주식회사 피앤아이 네트워크를 이용한 올리고뉴클레오티드 마이크로어레이데이터 표준화 시스템 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101514762B1 (ko) * 2014-05-15 2015-05-20 연세대학교 산학협력단 mRNA 발현 값의 발현 차이를 이용하여 유전자 집합을 검출하기 위한 장치 및 그 방법

Also Published As

Publication number Publication date
KR20090092634A (ko) 2009-09-01

Similar Documents

Publication Publication Date Title
Valavi et al. Predictive performance of presence‐only species distribution models: a benchmark study with reproducible code
Au Random forests, decision trees, and categorical predictors: the" absent levels" problem
Galbrun et al. From black and white to full color: extending redescription mining outside the Boolean world
CN108228728B (zh) 一种参数化的论文网络节点表示学习方法
KR20200107774A (ko) 표적화 핵산 서열 분석 데이터를 정렬하는 방법
CN109088862B (zh) 一种基于分布式系统的节点性质识别方法
Duarte et al. Improved heuristics for the regenerator location problem
Cordero et al. Moran models and Wright–Fisher diffusions with selection and mutation in a one-sided random environment
Ali et al. Improved differential evolution algorithm with decentralisation of population
KR100963764B1 (ko) 바이클러스터링 방법 및 장치
Glavind et al. On a simple scheme for systems modeling and identification using big data techniques
US20190205763A1 (en) Information processing device, information processing method and information processing program
Mannel et al. Removing Implicit Places Using Regions for Process Discovery.
CN113158206A (zh) 一种基于决策树的文档安全等级划分方法
CN114201199B (zh) 基于信息安全大数据的防护升级方法及信息安全系统
Janusz et al. Random probes in computation and assessment of approximate reducts
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及系统
Yang et al. Large-scale metagenomic sequence clustering on map-reduce clusters
US8289884B1 (en) System and method for identification of unknown illicit networks
Garcia-Domingo et al. Degree correlations in growing networks with deletion of nodes
CN112749082B (zh) 一种基于de-th算法的测试用例生成方法及系统
KR102085599B1 (ko) 네트워크 기반의 유망 융합기술 발굴 장치 및 방법, 이를 기록한 기록매체
CN113642017A (zh) 一种基于自适应特征分类的加密流量识别方法、存储器和处理器
US9123008B2 (en) Buildable part pairs in an unconfigured product structure
JP2017091083A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130430

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140414

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150609

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160610

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee