KR20100107857A

KR20100107857A - Ｐｃ 클러스터 기반 ｂｌａｓｔ 고속 검색을 위한 파티셔닝방법

Info

Publication number: KR20100107857A
Application number: KR1020090026176A
Authority: KR
Inventors: 김태경; 정승현; 오상근; 조완섭
Original assignee: 충북대학교 산학협력단
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2010-10-06
Also published as: KR100989904B1

Abstract

개선된 시퀀스 데이터 분할 기법과 질의 처리 기법을 이용하여 다수의 PC를 이용하여 저비용으로 대용량 BLAST 데이터베이스 검색의 성능을 향상시키는 클러스터 시스템을 개발하기 위한 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법이 개시된다. 본 발명은 데이터베이스를 각 노드의 메모리 사양과 성능에 맞추어 배치하여 저가의 PC를 활용하여 생명공학 분야에서 가장 널리 사용되는 BLAST 처리용 고성능 클러스터 컴퓨터 구축할 수 있으며, 경영학 분야의 대용량 OLAP 분석 처리용 고성능 클러스터 컴퓨터 구축할 수 있는 효과가 있다.

Description

ＰＣ 클러스터 기반 ＢＬＡＳＴ 고속 검색을 위한 파티셔닝 방법{partitioning method for high-speed BLAST search on the PC cluster}

본 발명은 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법에 관한 것으로, 특히 개선된 시퀀스 데이터 분할 기법과 질의 처리 기법을 이용하여 다수의 PC를 이용하여 저비용으로 대용량 BLAST 데이터베이스 검색의 성능을 향상시키는 클러스터 시스템을 개발하기 위한 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법에 관한 것이다.

일반적으로, PC 클러스터는 개인용 컴퓨터(PC)를 여러 대를 연결하여 한 대의 고성능 컴퓨터처럼 사용하는 것이다. 슈퍼컴퓨터를 구입하는 것 보다 가격이 저렴하여 각광받고 있으며, 이학, 공학, 계산, 시뮬레이션, 렌더링 등 방대한 계산이 필요한 곳에 응용되고 있다. 즉, 클러스터링은 가변적인 업무부하를 처리하거나, 또는 그 중 한 대가 고장이 났을 경우에도 운영이 계속되도록 여러 대의 컴퓨터 시스템을 서로 연결하는 것을 지칭한다. 두 개 이상의 컴퓨터를 마치 하나의 컴퓨터처럼 행동하도록 서로 연결함으로써, 병렬 처리나, 부하 배분 및 고장 대비 등의 목적에 사용할 수 있다.

또한, BLAST(The Basic Local Alignment Search Tool)기술은 생명 정보학에서 사용되는 기술로써, DNA 혹은 단백질의 서열을 비교해 주는 프로그램이다. 유저가 원하는 서열을 입력하고 데이터 베이스를 선택해 주면 서열을 비교해서 가장 유사성이 높은 결과부터 출력하고, 비교된 서열에 대한 정보도 같이 링크(link)시킨다. 보통 DNA 서열의 경우 6개의 프레임(frame)으로 전환(translation)하여 각각의 아미노산 서열을 단백질 데이터 베이스와 비교하여 결과를 보여 주기도 한다. 종래의 PC 클러스터에서 BLAST 검색을 위한 데이터 파티셔닝 기법은 크게 전체 복사 기법(Full Replication), 논리적 복사 기법(Logical Replication) 및 물리적 시스템 분할 기법(Physical Partitioning)의 3가지로 구분된다.

전체 복사 기법(Full Replication)은 도 1a에서 보는 바와 같이, 데이터베이스를 여러 노드에 물리적으로 복제하고 나서 PBS, Condor와 같은 스케줄러로 각 질의를 노드에 분배하고 처리하는 방식이다. 이 방식은 구현이 간단하고 다수 질의를 동시에 처리하여 생산성을 극대화할 수 있으나, 단일 질의에 대한 응답시간을 줄일 수 없고, 대량의 여러 데이터베이스를 동시에 갱신하는 비용이 많이 든다. 또한, 각 데이터베이스 크기가 노드의 메모리보다 크면 스래싱(Thrashing) 현상이 발생하여 성능과 효율이 떨어지는 문제점이 있었다.

논리적 복사 기법(Logical Replication)은 도 1b에서 보는 바와 같이, 현재 대부분 생명 정보 분야에서 주로 활용하는 방식으로 각 노드가 NFS(Network File System) 서버의 서열 데이터베이스에 접근하여 BLAST 연산을 수행하도록 구성된다. 물리적인 데이터베이스가 한 개 있으므로 업데이트가 편리하고 관리가 쉽지만, 데 이터베이스가 대량인 경우 즉, 데이터 베이스가 각 PC의 캐쉬 메모리(Cache)보다 큰 경우 각 노드가 전체 데이터베이스를 저장하지 못하고 네트워크상에서 스래싱 현상이 발생하여 성능이 급격히 저하되는 문제점이 있었다.

물리적 시스템 분할 기법(Physical Partitioning)은 도 1c에서 보는 바와 같이, 각 노드에 분할된 데이터베이스를 저장하고 같은 질의를 수행하고서 그 결과를 병합하는 방식이다. 이 방식은 각 노드가 처리할 데이터베이스를 메모리에 완전히 캐쉬하여 입출력(I/O)을 줄일 수 있으므로 성능과 효율을 높일 수 있는 반면, 분산된 다수 노드에 데이터베이스를 물리적으로 같은 크기로 분할하고 갱신하는 비용이 많이 들고 한 노드에 장애가 발생하면 전체 결과의 일관성이 저해되는 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 발명된 것으로, 랜 리눅스 PCI 카드를 장착한 PC들을 서버에 연결하여 NFS(Network File System)방식으로 약 결합된 클러스터 시스템을 구축하고, 구축된 클러스터 시스템에서 서버 데이터를 각 PC에 논리적 분할(Logical Partitioning)기법으로 분할함과 동시에 히스토그램 기법을 활용하여 데이터를 균등하게 배치함으로써, 분할된 데이터베이스에 대하여 최적의 검색을 지원하는 질의 분할과 결과 결합방법을 제공하기 위한 PC 클러스터기반 BLAST 고속 검색을 위한 파티셔닝 방법을 제공하는 데 그 목적이 있다.

이와 같은 목적을 수행하기 위한 본 발명은 다수개의 PC(120a~120n)에 원격부팅을 위한 랜 리눅스 PCI 카드(122a~122n)를 장착시킨 다음 서버(100)에 커널, 시스템 영역, 사용자 영역 등의 PC노드를 위한 영역인 클러스터 미들웨어(110)를 구성하며, 상기 PC 부팅 시 원격부팅 모드를 선택하도록 하는 시스템 구성단계; 서버(100)에는 검색할 서열 데이터베이스를 배치하고, 각 PC(120a~120n)노드는 NFS(130)로 접근하여 데이터베이스의 파티션을 메모리에 상주시키며, 상기 클러스터 미들웨어는 사용자 질의를 PC 노드에 분배하고, 각 노드 PC 별로 검색을 실행한 후, 그 결과를 다시 통합하여 최종결과를 생성하는 결과 생성단계; 서버는 PC 노드의 검색 결과를 서버의 하드 디스크에 보관하고, 각 PC 노드는 검색 결과를 마스터 서버에 NFS를 이용하여 전송하고, 클러스터 미들웨어는 각 PC에서 전송된 결과를 통합하는 결과 통합단계로 구성된다.

본 발명에 따른 PC 클러스터기반 BLAST 고속 검색을 위한 파티셔닝 방법에서는 검색할 서열 데이터베이스를 Master Server에 저장하고 각 PC 노드는 NFS로 접근하여 데이터베이스의 파티션을 메모리에 로드시키며, 클러스터 미들웨어는 질의를 PC 노드에 분배하고, 데이터베이스를 각 노드의 메모리 사양과 성능에 맞추어 배치하여 저가의 PC를 활용하여 생명공학 분야에서 가장 널리 사용되는 BLAST 처리용 고성능 클러스터 컴퓨터 구축할 수 있으며, 경영학 분야의 대용량 OLAP 분석 처리용 고성능 클러스터 컴퓨터 구축할 수 있는 효과가 있다.

이하 첨부된 도면을 참조하여 본 발명에 따른 PC 클러스터기반 BLAST 고속 검색을 위한 파티셔닝 방법을 설명하면 다음과 같다.

본 발명에 따른 PC 클러스터기반 BLAST 고속 검색을 위한 파티셔닝 방법은 도 2에서 보는 바와 같이 다수개의 PC(120a~120n)에 서버(100)로부터 원격부팅을 위한 랜 리눅스 PCI 카드(122a~122n)를 장착시킨다. PC에 랜 리눅스 PCI 카드가 장착되면 서버에 커널, 시스템 영역, 사용자 영역 등의 PC노드를 위한 영역인 클러스터 미들웨어(110)를 구성한다. 서버(100)에서 NFS, DHCP, 미들웨어 데몬을 구동하고, PC 부팅 시 원격부팅 모드를 선택하도록 한다.

그런 다음 검색할 서열 데이터베이스는 서버(100)에 배치하고, 각 PC(120a~120n)노드는 NFS(130)로 접근하여 데이터베이스의 파티션을 메모리에 상주시킨다. 서열 데이터베이스를 노드의 개수로 나누어 분할된 데이터베이스를 각 PC 노드의 캐쉬 메모리에 배치한다. 이는 각 PC 노드에서 데이터베이스 검색 시 서버와의 스래싱을 제거하고 메모리를 적극 활용하므로 단일 고성능 시스템에 비해 성능을 급격히 향상시킬 수 있다. 단일 고성능 서버 또는 PC로 처리하는 경우 대용량 데이터베이스를 메모리에 캐쉬하지 못하므로 스래싱이 많이 발생한다.

클러스터 미들웨어는 사용자 질의를 PC 노드에 분배하고, 각 노드 PC 별로 검색을 실행한 후, 그 결과를 다시 통합하여 최종결과를 생성하는 과정을 반복한다.

PC 노드의 검색 결과를 서버의 하드 디스크에 보관하는 데, PC 노드에서 처리한 결과를 하나씩 직접 서버로 저장하는 경우 발생하는 I/O를 최소화하기 위해 PC 메모리의 일부를 램 디스크(RAM DISK)로 할당한 뒤 질의 결과를 버퍼링하고, 램 디스크(RAM DISK)의 용량이 90% 이상 차면 서버로 저장한다.

각 PC 노드는 검색 결과를 마스터 서버에 NFS를 이용하여 전송하고, 클러스터 미들웨어는 각 PC에서 전송된 결과를 통합하게 된다.

다음은 통합 알고리즘임.

for each node // 각 노드에 대해서 확인함

if completed number of jobs % 1000 == 0

count++; // 노드 개수 증가

if count == number of nodes

merge_results_from_nodes(); // 1000개 단위로 결과 통합

write_to_server_result(); // 통합한 결과를 서버로 저장

count=0; // 초기화

}

본 발명은 도 5에서 보는 바와 같이 미들웨어 영역에서 클러스터 초기화와 작업 명령을 내리고 PC 노드에서 할당된 작업을 수행한 뒤 결과를 수집하는 과정이 반복된다.

본 발명에서 PC 클러스터 초기화 작업은 핵심적인 기능을 하는 것으로 자원의 동적인 추가 및 삭제에 능동적으로 대응하여 자원을 적극적으로 활용할 수 있도록 지원한다. 다음은 PC 클러스터 초기화를 위한 알고리즘이다.

Initialize_Cluster()

int new_node_count, old_node_count, // 노드 개수

record ; // 노드에 분배할 데이터베이스

while(1) //지속적으로 노드의 개수를 확인하면서 데이터베이스 재분배

new_node_count = get_Number_Of_Nodes(); //참여한 PC 노드 개수 확인

if(new_node_count!=old_node_count)//노드 개수 변경;노드 수 증가 또는 감소 wait_until_sync(); //현재 PC에서 처리 중인 작업이 종료할 때 까지 대기

record = DB_SIZE/new_node_count; //DB를 노드 수로 나누어 분배 사이즈 결정

allocate_DB_to_Nodes(record);//각 노드에 할당된 DB를 PC메모리로 캐쉬

}

old_node_count = new_node_count;

sleep(1);

}

위의 알고리즘에서는 클러스터 PC 노드의 개수를 확인한 다음, 서열 데이터 베이스를 PC 노드 개수로 나누어, 각 서열 데이터 베이스를 PC 노드의 캐쉬 메모리에 배치한다. 초기화 작업은 데몬 형태로 운영이 되며 노드 수의 변경이 생기면 현재 처리 중인 작업이 종료된 다음 자원의 재배치를 수행한다. 이 전략은 기존 클러스터의 강결합(Tightly-Coupled)된 정적인 개수의 노드에서 동적인 자원의 추가가 불가능한 단점을 극복하였고, 물리적으로 데이터 베이스를 분할하여 클러스터 노드에서 처리할 경우 하나의 노드 장애 시 발생하는 처리 결과 값에 대한 불일치(inconsistency)문제를 해결하였다.

본 발명의 경우 PC 노드의 메모리의 총 사용량이 데이터베이스의 크기 보다 클 경우 서버와의 I/O가 없어지므로 성능이 급격히 증가하게 된다. 하지만 반대의 경우 스래싱이 발생하여 성능이 급격히 저하되는 현상이 발생하게 된다. 이러한 문제를 극복하기 위해 미들웨어 내부에서 각 PC 노드에 분할된 데이터베이스가 캐쉬 메모리보다 클 경우 도 6에서 보는 바와 같이 Escalation/Deescalation 이라는 재분배 과정을 거쳐 데이터 베이스를 완전히 캐쉬 메모리에 배치할 수 있는 상태로 변경하여 성능 향상을 유도하였다.

본 발명에 따른 PC 클러스터기반 BLAST 고속 검색을 위한 파티셔닝 방법은 도 7에서 보는 바와 같이 노드 수(X축)가 증가함에 따라 응답시간(Y축)이 급격히 빨라짐을 확인할 수 있다. 특히, 알고리즘의 특성상 입력 서열의 길이가 짧을수록 처리 시간이 빠르고, 성능 향상 정도가 높음을 확인할 수 있는 데 (a)짧은 서열일 경우 100bytes ~ 1000bytes 와 (b) 긴 서열일 경우에서 1000bytes~10000bytes 비교하면 이를 알 수 있다.

본 발명의 더 정확한 성능평가를 위해 도 8에서는 노드 투입 대비 성능향상 정도(Speedup)를 보여준다. 노드의 수에 비례하여 성능이 급격히 증가함을 확인할 수 있는 데 특히, 데이터베이스가 메모리에 모두 캐쉬 되는 2개의 노드에서 성능이 가장 급격히 향상된다.

2개의 노드에서 성능향상 정도는 100 Base Pair에서 13.6, 10000 Base Pair 에서 3.2이다. 타 실험에 의하면 SMP 컴퓨터와 클러스터에서의 성능향상은 각각 1.8~1.9, 1.9의 성능을 보여준다. 결과적으로 본 연구의 시스템 성능이 SMP 시스템보다 1.5~7배 정도 우수함을 확인할 수 있다.

도 9는 본 발명의 노드 투입 대비 효율(Efficiency)을 보여준다. 2개의 노드에서 최대의 효율을 보여주며 노드가 증가함에 따라 효율이 떨어지지만, 50개의 노드에서도 최소 100%의 효율을 보여준다. 최대 50개의 노드까지 모든 경우에서 모두 100%를 넘는 효율을 유지하는 데 본 실험에서 5개 노드에서의 효율은 서열의 크기에 따라 1~5.7이고, SMP 컴퓨터에서는 0.2~0.8, 클러스터에서는 0.6~0.7의 효율이다.

따라서, 본 발명에 따른 PC 클러스터기반 BLAST 고속 검색을 위한 파티셔닝 방법의 성능평가를 수행한 결과 성능향상, 효율 측면에서 모두 뛰어남을 확인할 수 있다.

이상에서 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명하였으나, 본 발명은 이에 한정되는 것이 아니며 본 발명의 기술적 사상의 범위 내에서 당업자에 의해 그 개량이나 변형이 가능하다.

도 1a는 종래의 PC 클러스터에서 BLAST 검색을 위한 데이터 파티셔닝 기법 중 전체 복사 기법(Full Replication)을 설명하기 위한 개념도이다.

도 1b는 종래의 PC 클러스터에서 BLAST 검색을 위한 데이터 파티셔닝 기법 중 논리적 복사 기법(Logical Replication)을 설명하기 위한 개념도이다.

도 1c는 종래의 PC 클러스터에서 BLAST 검색을 위한 데이터 파티셔닝 기법 중 물리적 시스템 분할 기법(Physical Partitioning)을 설명하기 위한 개념도이다.

도 2는 본 발명에 따른 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법의 시스템 구성도이다.

도 3은 본 발명에 따른 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법의 동작을 설명하기 위한 개념도이다.

도 4는 본 발명에 따른 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법에서 PC 노드와 서버와의 통신규칙을 설명하기 위한 개념도이다.

도 5는 본 발명에 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법에서 PC 노드와 서버와의 동작을 설명하기 위한 흐름도이다.

도 6은 본 발명에 따른 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법에서 클러스터 미들웨어에서의 데이터베이스 분배 동작을 설명하기 위한 개념도이다.

도 7a와 b는 본 발명에 따른 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법에서 짧은 서열(a)과 긴 서열(b)에 대한 BLAST 처리 응답 시간을 보여주 기 위한 그래프이다.

도 8a와 b는 본 발명에 따른 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법에서 짧은 서열(a)과 긴 서열(b)에 대한 BLAST 처리 향상 정도를 보여주기 위한 그래프이다.

도 9a와 b는 본 발명에 따른 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법에서 짧은 서열(a)과 긴 서열(b)에 대한 BLAST 처리 효율을 보여주기 위한 그래프이다.

Claims

다수개의 PC(120a~120n)에 원격부팅을 위한 랜 리눅스 PCI 카드(122a~122n)를 장착시킨 다음 서버(100)에 커널, 시스템 영역, 사용자 영역등의 PC노드를 위한 영역인 클러스터 미들웨어(110)를 구성하며, 상기 PC 부팅 시 원격부팅 모드를 선택하도록 하는 시스템 구성단계;

상기 서버(100)에는 검색할 서열 데이터베이스를 배치하고, PC(120a~120n)노드는 NFS(130)로 접근하여 상기 서열 데이터베이스를 상기 PC노드의 개수로 나누어 분할된 데이터베이스를 각 PC(120a~120n)노드의 캐쉬 메모리에 배치시키며, 상기 클러스터 미들웨어는 사용자 질의를 PC 노드에 분배하고, 각 노드 PC 별로 검색을 실행한 후, 그 결과를 다시 통합하여 최종결과를 생성하는 결과 생성단계;

상기 서버는 PC 노드의 검색 결과를 서버의 하드 디스크에 보관하고, 각 PC 노드는 검색 결과를 마스터 서버에 NFS를 이용하여 전송하고, 클러스터 미들웨어는 각 PC에서 전송된 결과를 통합하는 결과 통합단계로 구성된 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법.
제 1 항에 있어서, 상기 결과 생성단계에서 각 PC 노드에 분할된 데이터베이스가 캐쉬 메모리보다 클 경우 재분배 과정을 거쳐 데이터 베이스를 완전히 캐쉬 메모리에 배치할 수 있는 상태로 변경하는 과정이 추가되는 것을 특징으로 하는 PC 클러스터 기반 BLAST 고속 검색을 위한 파티셔닝 방법.