WO2012030027A1

WO2012030027A1 - 멀티 코어 프로세서를 기반으로 하는 문자열 매칭 장치 및 그것의 문자열 매칭 방법

Info

Publication number: WO2012030027A1
Application number: PCT/KR2010/009544
Authority: WO
Inventors: 노원우; 오두환
Original assignee: 연세대학교 산학협력단
Priority date: 2010-08-31
Filing date: 2010-12-30
Publication date: 2012-03-08
Also published as: KR101075439B1; US20130173647A1

Abstract

본 발명은 멀티 코어 프로세서를 기반으로 하는 문자열 매칭 장치 및 문자열 매칭 방법에 관한 것이다. 본 발명의 실시 예에 따른 문자열 매칭 방법은 서픽스 블록에 근거하여 패턴들을 정렬하는 단계; 상기 정렬된 패턴들을 각각의 코어에 대응하는 패턴 저장부에 분배하여 저장하는 단계; 및 상기 각각의 코어에 대응하는 패턴 저장부에 저장되어 있는 패턴들을 이용하여 대상 텍스트에 대한 문자열 매칭을 수행하는 단계를 포함한다. 본 발명의 실시 예에 따른 문자열 매칭 장치 및 문자열 매칭 방법에 의하면, 멀티 코어 프로세서를 기반으로 하여 하드웨어 자원에 대한 활용도를 높일 수 있다. 또한, 정렬된 패턴들에 대한 전처리 과정을 수행함으로써 문자열 매칭에 필요한 연산량을 줄일 수 있다. 따라서, 문자열 매칭 동작의 실행시간을 줄일 수 있다.

Description

멀티 코어 프로세서를 기반으로 하는 문자열 매칭 장치 및 그것의 문자열 매칭 방법

본 발명은 문자열 매칭 장치 및 방법에 관한 것으로, 좀 더 구체적으로 멀티 코어 프로세서를 기반으로 하는 문자열 매칭 장치 및 문자열 매칭 방법에 관한 것이다.

문자열 매칭 알고리즘(string matching algorithm)은 많은 정보를 포함하는 데이터 베이스에서 특정 패턴을 검색하는 효율적인 알고리즘으로 인식되고 있다. 예를 들어, 문자열 매칭 알고리즘은 인간 게놈 프로젝트, 바이러스 분석, 컴퓨터 네트워크의 방화시스템 등에서 특정 패턴을 검색하는 효율적인 방법을 제공한다.

문자열 매칭 알고리즘으로 Wu-Manber 알고리즘 등이 알려져 있다. Wu-Manber 알고리즘은 전처리 과정(pre-processing)에서 시프트 테이블(shift table), 해시 테이블(hash table) 및 프리픽스 테이블(prefix table)을 생성한다. Wu-Manber 알고리즘은 전처리 과정에서 생성된 테이블들을 이용하여 텍스트에 특정 패턴이 존재하는지 여부를 검색한다.

한편, 싱글 코어 프로세서(single-core processor) 성능의 한계로 인해, 멀티 코어 프로세서(multi-core processor)의 활용이 부각되고 있다. 특히, 컴퓨터 과학 또는 컴퓨터 공학의 분야에 있어서, 멀티 코어 프로세서의 중요성은 점점 증가하고 있다. 이에 따라, 멀티 코어 프로세서를 이용한 문자열 매칭 방법이 요구된다.

본 발명의 목적은 멀티 코어 프로세서 기반에서 연산량을 줄이기 위한 문자열 매칭 장치 및 문자열 매칭 방법을 제공하는 데 있다.

본 발명의 실시 예에 따른 문자열 매칭 방법은 멀티 코어 프로세서를 기반으로 한다. 상기 문자열 매칭 방법은 서픽스 블록에 근거하여 패턴들을 정렬하는 단계; 상기 정렬된 패턴들을 각각의 코어에 대응하는 패턴 저장부에 분배하여 저장하는 단계; 및 상기 각각의 코어에 대응하는 패턴 저장부에 저장되어 있는 패턴들을 이용하여 대상 텍스트에 대한 문자열 매칭을 수행하는 단계를 포함한다.

실시 예에 있어서, 상기 문자열 매칭을 수행하는 단계에서, 상기 문자열 매칭은 Wu-Manber 알고리즘에 의해 수행된다.

실시 예에 있어서, 상기 문자열 매칭을 수행하는 단계는, 상기 각각의 패턴 저장부에 저장되어 있는 패턴들에 대한 전처리 과정을 수행하는 단계; 및 상기 전처리 과정에서 생성된 테이블들을 참조하여, 상기 대상 텍스트에 대한 문자열 매칭을 수행하는 단계를 포함한다.

실시 예에 있어서, 상기 전처리 과정을 수행하는 단계는 시프트 테이블을 생성하는 단계를 포함한다. 그리고, 상기 시프트 테이블을 생성할 때, 상기 각각의 패턴 저장부에 저장되어 있는 패턴들의 서픽스 블록과 동일한 문자들의 조합에 대해서는 시프트 값을 0으로 설정한다.

실시 예에 있어서, 상기 전처리 과정을 수행하는 단계에서, 상기 전처리 과정은 상기 각각의 코어에 의해 병렬 처리된다.

실시 예에 있어서, 상기 문자열 매칭을 수행하는 단계에서, 상기 문자열 매칭은 상기 각각의 코어에 의해 병렬 처리된다.

실시 예에 있어서, 상기 패턴들을 정렬하는 단계에서, 상기 패턴들이 상기 서픽스 블록에 포함되는 문자들의 사전 편찬 순서에 따라 정렬된다.

본 발명의 다른 실시 예에 따라 멀티 코어 프로세서를 기반으로 하는 문자열 매칭 방법은, 서픽스 블록에 포함되는 문자들에 근거하여 사전 편찬 순서에 따라 패턴들을 정렬하는 단계; 상기 정렬된 패턴들을 각각의 코어에 대응하는 패턴 저장부에 분배하여 저장하는 단계; 상기 각각의 코어에 대응하는 패턴 저장부에 저장되어 있는 패턴들에 대한 전처리 과정을 수행하는 단계; 및 상기 전처리 과정에서 생성된 테이블들을 참조하여, 대상 텍스트에 대한 문자열 매칭을 수행하는 단계를 포함한다.

실시 예에 있어서, 상기 전처리 과정을 수행하는 단계 및 상기 문자열 매칭을 수행하는 단계에서, 상기 전처리 과정 및 문자열 매칭은 Wu-Manber 알고리즘에 의해 수행된다.

실시 예에 있어서, 상기 전처리 과정을 수행하는 단계 및 상기 문자열 매칭을 수행하는 단계에서, 상기 전처리 과정 및 문자열 매칭은 상기 각각의 코어에 의해 병렬 처리된다.

본 발명의 실시 예에 따른 문자열 매칭 장치는 서픽스 블록에 근거하여 패턴들을 정렬하는 패턴 정렬 모듈; 상기 정렬된 패턴들을 저장하는 제 1 및 제 2 패턴 저장부; 및 상기 제 1 및 제 2 패턴 저장부에 각각 대응하고, 상기 제 1 및 제 2 패턴 저장부에 저장되어 있는 패턴들을 이용하여 대상 텍스트에 대한 문자열 매칭을 각각 수행하는 제 1 및 제 2 패턴 매칭부를 포함한다.

실시 예에 있어서, 상기 문자열 매칭 장치는 상기 대상 텍스트를 저장하는 공유 데이터 저장 모듈을 더 포함한다. 그리고, 상기 제 1 및 제 2 패턴 매칭부는 상기 공유 데이터 저장 모듈에 접근하여 상기 대상 텍스트를 읽어낸다.

실시 예에 있어서, 상기 제 1 및 제 2 패턴 매칭부는 Wu-Manber 알고리즘에 의해 상기 문자열 매칭을 수행된다.

실시 예에 있어서, 상기 제 1 및 제 2 패턴 매칭부는 상기 제 1 및 제 2 패턴 저장부에 저장되어 있는 패턴들에 대한 전처리 과정을 각각 수행하여 시프트 테이블, 해시 테이블 및 프리픽스 테이블을 생성한다.

실시 예에 있어서, 상기 제 1 및 제 2 패턴 매칭부는, 상기 시프트 테이블을 생성할 때, 상기 제 1 및 제 2 패턴 저장부에 저장되어 있는 패턴들의 서픽스 블록과 동일한 문자들의 조합에 대해서는 시프트 값을 0으로 설정한다.

실시 예에 있어서, 상기 전처리 과정 및 상기 문자열 매칭은 상기 제 1 및 제 2 패턴 매칭부에 의해 병렬 처리된다.

실시 예에 있어서, 상기 제 1 및 제 2 패턴 매칭부는 멀티 코어 프로세서로 구현된다. 그리고, 상기 패턴 정렬 모듈은 상기 서픽스 블록에 포함되는 문자들의 사전 편찬 순서에 따라 상기 패턴들을 정렬한다.

실시 예에 있어서, 상기 대상 텍스트는 게놈 유전자 시퀀스인 것을 특징으로 한다. 그리고, 상기 서픽스 블록의 크기는 2인 것을 특징으로 한다.

본 발명의 실시 예에 따른 문자열 매칭 장치 및 문자열 매칭 방법에 의하면, 멀티 코어 프로세서를 기반으로 하여 하드웨어 자원에 대한 활용도를 높일 수 있다. 또한, 정렬된 패턴들에 대한 전처리 과정을 수행함으로써 문자열 매칭에 필요한 연산량을 줄일 수 있다. 따라서, 문자열 매칭 동작의 실행시간을 줄일 수 있다.

도 1은 본 발명의 실시 예에 따른 문자열 매칭 장치를 보여주는 블록도이다.

도 2는 서픽스 블록에 근거하여 정렬하기 전과 후의 패턴들을 보여주는 도면이다.

도 3은 정렬된 패턴들에 대한 문자열 매칭을 나타내는 도면이다.

도 4는 정렬되지 않은 패턴들에 대한 문자열 매칭을 나타내는 도면이다.

도 5는 본 발명의 실시 예에 따른 문자열 매칭 방법을 설명하기 위한 순서도이다.

도 6은 멀티 코어 프로세서의 제 1 실시 예를 보여주는 블록도이다.

도 7는 멀티 코어 프로세서의 제 2 실시 예를 보여주는 블록도이다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시 예를 첨부된 도면을 참조하여 설명한다.

도 1은 본 발명의 실시 예에 따른 문자열 매칭 장치를 보여주는 블록도이다. 도 1을 참조하면, 문자열 매칭 장치(100)는 멀티 코어 프로세서를 기반으로 한다. 문자열 매칭 장치(100)는 패턴 정렬 모듈(pattern sorting module, 110), 패턴 저장 모듈(pattern storage module, 120), 멀티 코어 프로세서(multi-core processor, 130) 및 공유 데이터 저장 모듈(shared data storage module, 140)을 포함한다.

패턴 정렬 모듈(110)은 패턴들의 서픽스(suffix) 블록에 근거하여 사전 편찬 순서에 따라 주어진 패턴들을 정렬한다. 여기서, 서픽스 블록은, 서픽스 블록의 크기가 n이라고 할 때, 패턴을 구성하는 문자들 중 뒤에서부터 n개의 문자들을 의미한다. 예를 들어, 주어진 패턴이 ‘ACAAAG’이고, 서픽스 블록의 크기가 2라고 할 때, 서픽스 블록은‘AG’일 것이다. 서픽스 블록에 근거하여 사전 편찬 순서에 따라 패턴들을 정렬하는 방법은 이하의 도 2를 참조하여 상세하게 설명된다.

패턴 저장 모듈(120)은 제 1 내지 제 n 패턴 저장부(120_1~120_n)를 포함한다. 패턴 정렬 모듈(110)에서 정렬된 패턴들은 제 1 내지 제 n 패턴 저장부(120_1~120_n)에 분배되어 저장된다. 이때, 멀티-코어 프로세서가 지원되는 하드웨어의 자원을 효율적으로 사용하기 위해, 패턴 저장부들의 수를 고려하여 패턴들이 균등하게 각각의 패턴 저장부(120_1~120_n)에 분배될 수 있다. 예를 들어, 패턴 저장 모듈(120)이 두 개의 패턴 저장부를 포함하고, 패턴들의 수가 8개라고 할 때, 하나의 패턴 저장부에 저장되는 패턴들의 수는 4개일 것이다.

한편, 패턴 저장 모듈(120)은 캐시 메모리(cache memroy) 등을 포함할 수 있다. 그리고, 캐시 메모리는 SRAM(Static RAM), DRAM(Dynamic RAM), SDRAM (Synchronous DRAM), 플래시 메모리(Flash memory), PRAM(Phase-change RAM), MRAM(Magnetic RAM), RRAM(Resistive RAM), FRAM(Ferroelectric RAM) 등으로 구현될 수 있다.

멀티 코어 프로세서(130)는 제 1 내지 제 n 코어(130_1~130_n)를 포함한다. 여기서, 제 1 내지 제 n 코어(130_1~130_n)는 제 1 내지 제 n 패턴 저장부(120_1~120_n)에 대응한다. 그리고, 제 1 내지 제 n 코어(130_1~130_n)는 제 1 내지 제 n 패턴 저장부(120_1~120_n)에 저장된 패턴들에 대한 전처리 과정을 각각 수행한다. 이후, 제 1 내지 제 n 코어(130_1~130_n)는 전처리 결과를 참조하여, 대상 텍스트(target text)에 대한 문자열 매칭을 각각 수행한다. 즉, 전처리 과정 및 문자열 매칭은 멀티 코어 프로세서(130)에 의해 병렬 처리된다. 이때, 제 1 내지 제 n 코어(130_1~130_n)는 대상 텍스트를 읽어내기 위해 공유 데이터 저장 모듈(140)에 접근한다.

공유 데이터 저장 모듈(140)은 데이터 베이스로부터 제공되는 대상 텍스트를 저장한다. 대상 텍스트는 매칭의 대상이 되는 문자열들을 포함한다. 예를 들면, 대상 텍스트는 인간 게놈 프로젝트에서의 유전자 시퀀스(sequence), 침입 탐지 시스템(Intrusion Detection System, IDS)에서의 트래픽(traffic) 데이터 등일 수 있다.

한편, 공유 데이터 저장 모듈(140)은 캐시 메모리 등을 포함할 수 있다. 그리고, 캐시 메모리는 SRAM, DRAM, SDRAM, 플래시 메모리, PRAM, MRAM, RRAM, FRAM 등으로 구현될 수 있다.

본 발명의 실시 예에 따른 문자열 매칭 장치(100)는 멀티 코어 프로세서(130)를 기반으로 하여 전처리 과정 및 문자열 매칭을 병렬 처리한다. 따라서, 싱글 코어 프로세서를 기반으로 하는 경우에 비해, 동작 속도가 향상된다.

또한, 본 발명의 실시 예에 따른 문자열 매칭 장치(100)는 문자열 매칭의 효율성을 높이기 위해, 주어진 패턴들을 서픽스 블록에 근거하여 사전 편찬 순서에 따라 패턴들을 정렬하고, 정렬된 패턴들을 각각의 패턴 저장부에 저장한다.

한편, 도 1에 도시되는 문자열 매칭 장치(100)의 구조는 예시적인 것으로서, 문자열 매칭 장치(100)는 다양한 형태로 구성될 수 있다. 예를 들어, 멀티 코어 프로세서는 복수의 코어들, 복수의 패턴 저장부들 및 공유 데이터 저장 모듈을 포함할 수 있다.

도 2는 서픽스 블록에 근거하여 정렬하기 전과 후의 패턴들을 보여주는 도면이다. 간결한 설명을 위해, 패턴을 이루는 문자들은 알파벳 문자이고, 패턴들의 서픽스 블록의 크기는 2라고 가정한다. 도 2를 참조하면, 예시적으로 8개의 패턴‘ACAAAG’, ‘ACCCCT’, ‘ACAATT’, ‘ACGGTT’, ‘AGAAAG’, ‘GAAATT’, ‘ACCCCT’, ‘GACCGT’이 도시된다. 여기서, 서픽스 블록의 크기가 2이므로, 패턴들 각각의 서픽스 블록은‘AG’, ‘CT’, ‘TT’, ‘TT’, ‘AG’, ‘TT’, ‘CT’, ‘GT’이다.

패턴 정렬 모듈(110)은 주어진 패턴들을 서픽스 블록에 근거하여 사전 편찬 순서에 따라 정렬한다. 즉, 패턴들은 서픽스 블록 내의 문자들의 사전 편찬 순서에 따라 정렬된다. 예를 들어, 서픽스 블록‘AG’를 갖는 패턴들‘ACAAAG’, ‘AGAAAG’은 서픽스 블록‘CG’를 갖는 패턴들‘ACCCCT’, ‘GACCCT’보다 높은 우선 순위를 갖는다.

이와 같이, 주어진 패턴들이 서픽스 블록에 근거하여 사전 편찬 순서에 따라 정렬되면, 패턴들‘ACAAAG’, ‘AGAAAG’은 1 순위로 정렬되고, 패턴들‘ACCCCT’, ‘GACCCT’은 2 순위로 정렬되며, 패턴‘GACCGT’은 3 순위로 정렬되고, 패턴들‘ACAATT’, ‘ACGGTT’, ‘GAAATT’은 4 순위로 정렬된다. 이때, 서픽스 블록에 근거하여 사전 편찬 순서에 따라 정렬될 때 동일 순위로 판정되는 패턴들끼리는 임의의 순서대로 정렬될 수 있다. 또는, 서픽스 블록에 근거하여 사전 편찬 순서에 따라 정렬될 때 동일 순위로 판정되는 패턴들끼리는 각각의 패턴을 구성하는 모든 문자들에 근거하여 사전 편찬 순서에 따라 정렬될 수 있다.

도 3은 정렬된 패턴들에 대한 문자열 매칭을 나타내는 도면이다. 도 4는 정렬되지 않은 패턴들에 대한 문자열 매칭을 나타내는 도면이다. 간결한 설명을 위해, 두 개의 패턴 저장부와 두 개의 코어를 가정한다.

도 3을 참조하면, 도 2에 도시된 패턴 정렬 모듈(110)에 의해 정렬된 패턴들이 제 1 및 제 2 패턴 저장부(120_1, 120_2)에 분배되어 저장된다. 즉, 패턴들‘ACAAAG’, ‘AGAAAG’, ‘ACCCCT’, ‘GACCCT’은 제 1 패턴 저장부(120_1)에 저장되고, 패턴들 ‘GACCGT’, ‘ACAATT’, ‘ACGGTT’, ‘GAAATT’은 제 2 패턴 저장부(120_2)에 저장된다.

도 4를 참조하면, 도 2에 도시된 패턴 정렬 모듈(110)에 의해 정렬되기 전의 패턴들이 제 1 및 제 2 패턴 저장부(120_1, 120_2)에 분배되어 저장된다. 즉, 패턴들 ‘ACAAAG’, ‘ACCCCT’, ‘ACAATT’, ‘ACGGTT’은 제 1 패턴 저장부(120_1),‘AGAAAG’, ‘GAAATT’, ‘GACCCT’, ‘GACCGT’은 제 2 패턴 저장부(120_2)에 저장된다.

도 3 및 도 4를 참조하면, 제 1 코어(130_1)는 제 1 패턴 저장부(120_1)에 저장되어 있는 패턴들에 대한 문자열 매칭을 수행한다. 제 2 코어(130_2)는 제 2 패턴 저장부(120_2)에 저장되어 있는 패턴들에 대한 문자열 매칭을 수행한다. 즉, 문자열 매칭은 제 1 및 제 2 코어(130_1, 130_2)에 의해 병렬 처리된다.

본 발명의 실시 예로서, 문자열 매칭은 Wu-Manber 알고리즘이 적용된다. Wu-Manber 알고리즘에 의하면, 시프트 테이블(shift table), 해시 테이블(hash table) 및 프리픽스 테이블(prefix table)을 생성하는 전처리 과정이 수행된 후에, 전처리 과정에서 생성된 테이블들을 참조하여 문자열 매칭이 수행된다.

시프트 테이블은 주어진 패턴들에서 나올 수 있는 문자들의 조합에 대한 시프트 값을 갖는다. 여기서, 시프트 값은 이전 매칭 위치에서 다음 매칭 위치까지 얼마나 많은 문자들에 대한 매칭을 건너뛸지를 나타내는 값이다. 즉, 시프트 값은 문자열 매칭이 생략되는 문자들의 수를 의미한다. 만약, 시프트 값이 0이면, 해시 테이블 및 프리픽스 테이블을 참조하여 문자열 매칭이 수행된다. 따라서, 시프트 테이블에서 시프트 값이 0인 항목들이 적을수록 문자열 매칭에 대한 연산량은 줄어든다.

한편, 각각의 코어는, 전처리 과정에서 시프트 테이블을 생성하는 데 있어서, 주어진 패턴들의 서픽스 블록과 동일한 문자들의 조합에 대해서는 시프트 값을 0으로 설정한다. 이는 다시 도 3 및 4를 참조하여 더욱 상세하게 설명된다.

도 3을 참조하면, 제 1 패턴 저장부(120_1)에 저장되어 있는 패턴들이 갖는 서픽스 블록의 종류는 2가지이다. 따라서, 제 1 코어(130_1)는 전처리 과정에서 시프트 값이 0인 항목들의 수가 2인 시프트 테이블을 생성한다. 그리고, 제 2 패턴 저장부(120_2)에 저장되어 있는 패턴들이 갖는 서픽스 블록의 종류는 2가지이다. 따라서, 제 2 코어(130_2)는 전처리 과정에서 시프트 값이 0인 항목들의 수가 2인 시프트 테이블을 생성한다. 결과적으로, 문자열 매칭 장치(100)는 전처리 과정에서 시프트 값이 0인 항목들의 수가 2+2=4인 시프트 테이블을 생성한다.

도 4를 참조하면, 제 1 패턴 저장부(120_1)에 저장되어 있는 패턴들이 갖는 서픽스 블록의 종류는 3가지이다. 따라서, 제 1 코어(130_1)는 전처리 과정에서 시프트 값이 0인 항목들의 수가 3인 시프트 테이블을 생성한다. 그리고, 제 2 패턴 저장부(120_2)에 저장되어 있는 패턴들이 갖는 서픽스 블록의 종류는 4가지이다. 따라서, 제 2 코어(130_2)는 전처리 과정에서 시프트 값이 0인 항목들의 수가 4인 시프트 테이블을 생성한다. 결과적으로, 문자열 매칭 장치(100)는 전처리 과정에서 시프트 값이 0인 항목들의 수가 3+4=7인 시프트 테이블을 생성한다.

도 3 및 4의 경우를 비교하면, 서픽스 블록에 근거하여 사전 편찬 순서에 따라 정렬된 패턴들에 대한 시프트 테이블이, 정렬되지 않은 패턴들에 대한 시프트 테이블보다 더 적은 수의 시프트 값이 0인 항목들을 갖는다. 이는 서픽스 블록에 근거하여 사전 편찬 순서에 따라 패턴들을 정렬함으로써, Wu-Manber 알고리즘에 의한 문자열 매칭에 대한 연산량이 줄어들 수 있음을 의미한다.

한편, 본 발명의 실시 예에 따른 Wu-Manber 알고리즘에 의한 문자열 매칭은 예시적인 것으로서, 문자열 매칭은 Aho-Corasick 알고리즘에 의해 수행될 수 있다.

도 5는 본 발명의 실시 예에 따른 문자열 매칭 방법을 설명하기 위한 순서도이다. 도 5를 참조하면, 우선, 주어진 패턴들이 서픽스 블록에 근거하여 사전 편찬 순서에 따라 정렬된다(단계 S110).

그리고, 정렬된 패턴들은 각각의 패턴 저장부에 분배되어 저장된다(단계 S120). 상술한 바와 같이, 서픽스 블록에 근거하여 정렬된 패턴들이 분배되기 때문에, 각각의 패턴 저장부에는 서로 같은 서픽스 블록을 갖는 패턴들이 저장될 가능성이 크다. 상술한 바와 같이, 이는 문자열 매칭을 병렬 처리하는데 있어서 연산량을 줄일 수 있음을 의미한다.

다음으로, 각각에 패턴 저장부에 저장되어 있는 패턴들에 대한 전처리 과정이 수행된다(단계 S130). 이때, 전처리 과정은 각각의 코어에서 병렬 처리된다. Wu-Manber 알고리즘이 적용되는 경우, 이러한 전처리 과정을 통해 시프트 테이블, 해시 테이블 및 프리픽스 테이블이 생성된다.

이후, 전처리 과정에서 생성된 테이블들을 참조하여, 대상 텍스트에 대한 문자열 매칭이 수행된다(단계 S140). 이때, 문자열 매칭은 각각의 코어에서 병렬 처리된다. 다만, 각각의 코어는 대상 텍스트를 읽어내기 위해 공유 데이터 모듈에 접근한다.

상술한 바와 같이, 본 발명의 실시 예에 따른 문자열 매칭 방법에 의해, 전처리 과정 및 문자열 매칭이 멀티 코어 프로세서를 기반으로 하여 병렬 처리된다. 따라서, 싱글 코어 프로세서를 기반으로 하는 경우에 비해, 동작 속도가 향상된다. 또한, 주어진 패턴들이 서픽스 블록에 근거하여 사전 편찬 순서에 따라 정렬되고, 정렬된 패턴들은 각각의 패턴 저장부에 분배되어 저장된다. 이로 인해, 문자열 매칭에 대한 연산량이 줄어든다.

도 6은 멀티 코어 프로세서의 제 1 실시 예를 보여주는 블록도이다. 도 7는 멀티 코어 프로세서의 제 2 실시 예를 보여주는 블록도이다.

도 6을 참조하면, 쿼드 코어 프로세서(quad core processor)가 도시된다. 도 6의 멀티 코어 프로세서는 싱글 다이(single die)에 두 개의 듀얼 코어 프로세서가 집적된 중앙 처리 장치이다. 즉, 도 6의 멀티 코어 프로세서는 두 개의 듀얼 코어 프로세서가 하나의 칩에 집적되어 있는 구조를 갖는다. 여기서, 듀얼 코어 프로세서(dual core processor)는 동일한 아키텍처(architecture)를 갖는 두 개의 코어로 구성된다 그리고, 각각의 코어는 L2 캐시 메모리(L2 cache memory)를 공유한다. 반면에, L1 캐시 메모리(L1 cache memory)들은 각각의 대응하는 코어에 할당된다.

도 6의 멀티 코어 프로세서가 문자열 매칭 장치로서 구현되는 경우, L1 캐시 메모리는 패턴 저장부로서 사용될 수 있다. 그리고, 대상 텍스트는 L2 캐시 메모리에 저장될 수 있다. 이 경우, L1 캐시 메모리에 저장된 패턴들에 대한 전처리 과정이 각각의 코어에 의해 병렬 처리될 수 있다. 그리고, 각각의 코어는 문자열 매칭을 수행하는 동안에 대상 텍스트를 읽어내기 위해 L2 캐시 메모리에 접근할 수 있다.

도 7을 참조하면, 도 6에 도시된 것과 다른 구조의 쿼드 코어 프로세서가 도시된다. 도 7의 멀티 코어 프로세서는 동일한 아키텍처를 갖는 네 개의 코어들을 포함한다. 그리고, 도 7의 멀티 코어 프로세서는 L3 캐시 메모리(L3 cache memory)를 포함한다.

도 7의 멀티 코어 프로세서가 문자열 매칭 장치로서 구현되는 경우, L2 캐시 메모리는 패턴 저장부로서 사용될 수 있다. 그리고, 대상 텍스트는 L3 캐시 메모리에 저장될 수 있다. 이 경우, L2 캐시 메모리에 저장된 패턴들에 대한 전처리 과정이 각각의 코어에 의해 병렬 처리될 수 있다. 그리고, 각각의 코어는 문자열 매칭을 수행하는 동안에 대상 텍스트를 읽어내기 위해 L3 캐시 메모리에 접근할 수 있다. 다만, 문자열 매칭을 수행하는 과정에서 발생하는 데이터는 L1 캐시 메모리에 임시 저장될 수 있다.

상술한 바와 같이, 본 발명의 실시 예에 따른 문자열 매칭 장치는 다양한 구조의 멀티 코어 프로세서로서 구현될 수 있다. 이때, 문자열 매칭은 각각의 코어에 의해 병렬 처리된다. 따라서, 문자열 매칭 장치의 성능은 멀티 코어 프로세서에 포함되는 코어들의 수가 증가할수록 향상될 것이다.

또한, 본 발명의 실시 예에 따른 문자열 매칭 장치는 컴퓨터 판독 가능 기록 매체를 포함할 수 있다. 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 기록 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD)ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 실행하도록 특별히 구성되는 하드웨어 장치를 포함할 수 있다.

컴퓨터 판독 가능 기록 매체의 프로그램 명령은 본 발명을 위해 특별히 설계된 것이거나, 컴퓨터 소프트웨어 관련 분야에서 공지된 것일 수 있다. 예를 들어, 프로그램 명령은 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 범위 또는 기술적 사상을 벗어나지 않고 본 발명의 구조가 다양하게 수정되거나 변경될 수 있음은 이 분야에 숙련된 자들에게 자명하다. 상술한 내용을 고려하여 볼 때, 만약 본 발명의 수정 및 변경이 아래의 청구항들 및 동등물의 범주 내에 속한다면, 본 발명이 이 발명의 변경 및 수정을 포함하는 것으로 여겨진다.

본 발명의 실시 예에 따른 문자열 매칭 알고리즘은 인간 게놈 프로젝트, 바이러스 분석, 컴퓨터 네트워크의 방화시스템 등에서 특정 패턴을 검색하는 효율적인 방법을 제공한다.

Claims

멀티 코어 프로세서를 기반으로 하는 문자열 매칭 방법에 있어서:

서픽스 블록에 근거하여 패턴들을 정렬하는 단계;

상기 정렬된 패턴들을 각각의 코어에 대응하는 패턴 저장부에 분배하여 저장하는 단계; 및

상기 각각의 코어에 대응하는 패턴 저장부에 저장되어 있는 패턴들을 이용하여 대상 텍스트에 대한 문자열 매칭을 수행하는 단계를 포함하는 문자열 매칭 방법.
제 1 항에 있어서,

상기 문자열 매칭을 수행하는 단계에서, 상기 문자열 매칭은 Wu-Manber 알고리즘에 의해 수행되는 문자열 매칭 방법.
제 2 항에 있어서,

상기 문자열 매칭을 수행하는 단계는,

상기 각각의 패턴 저장부에 저장되어 있는 패턴들에 대한 전처리 과정을 수행하는 단계; 및

상기 전처리 과정에서 생성된 테이블들을 참조하여, 상기 대상 텍스트에 대한 문자열 매칭을 수행하는 단계를 포함하는 문자열 매칭 방법.
제 3 항에 있어서,

상기 전처리 과정을 수행하는 단계는 시프트 테이블을 생성하는 단계를 포함하고,

상기 시프트 테이블을 생성할 때, 상기 각각의 패턴 저장부에 저장되어 있는 패턴들의 서픽스 블록과 동일한 문자들의 조합에 대해서는 시프트 값을 0으로 설정하는 문자열 매칭 방법.
제 3 항에 있어서,

상기 전처리 과정을 수행하는 단계에서, 상기 전처리 과정은 상기 각각의 코어에 의해 병렬 처리되는 문자열 매칭 방법.
제 3 항에 있어서,

상기 문자열 매칭을 수행하는 단계에서, 상기 문자열 매칭은 상기 각각의 코어에 의해 병렬 처리되는 문자열 매칭 방법.
제 1 항에 있어서,

상기 패턴들을 정렬하는 단계에서, 상기 패턴들이 상기 서픽스 블록에 포함되는 문자들의 사전 편찬 순서에 따라 정렬되는 문자열 매칭 방법.
멀티 코어 프로세서를 기반으로 하는 문자열 매칭 방법에 있어서:

서픽스 블록에 포함되는 문자들에 근거하여 사전 편찬 순서에 따라 패턴들을 정렬하는 단계;

상기 정렬된 패턴들을 각각의 코어에 대응하는 패턴 저장부에 분배하여 저장하는 단계;

상기 각각의 코어에 대응하는 패턴 저장부에 저장되어 있는 패턴들에 대한 전처리 과정을 수행하는 단계; 및

상기 전처리 과정에서 생성된 테이블들을 참조하여, 대상 텍스트에 대한 문자열 매칭을 수행하는 단계를 포함하는 문자열 매칭 방법.
제 8 항에 있어서,

상기 전처리 과정을 수행하는 단계 및 상기 문자열 매칭을 수행하는 단계에서, 상기 전처리 과정 및 문자열 매칭은 Wu-Manber 알고리즘에 의해 수행되는 문자열 매칭 방법.
제 8 항에 있어서,

상기 전처리 과정을 수행하는 단계 및 상기 문자열 매칭을 수행하는 단계에서, 상기 전처리 과정 및 문자열 매칭은 상기 각각의 코어에 의해 병렬 처리되는 문자열 매칭 방법.
서픽스 블록에 근거하여 패턴들을 정렬하는 패턴 정렬 모듈;

상기 정렬된 패턴들을 저장하는 제 1 및 제 2 패턴 저장부; 및

상기 제 1 및 제 2 패턴 저장부에 각각 대응하고, 상기 제 1 및 제 2 패턴 저장부에 저장되어 있는 패턴들을 이용하여 대상 텍스트에 대한 문자열 매칭을 각각 수행하는 제 1 및 제 2 패턴 매칭부를 포함하는 문자열 매칭 장치.
제 11 항에 있어서,

상기 대상 텍스트를 저장하는 공유 데이터 저장 모듈을 더 포함하고,

상기 제 1 및 제 2 패턴 매칭부는 상기 공유 데이터 저장 모듈에 접근하여 상기 대상 텍스트를 읽어내는 문자열 매칭 장치.
제 12 항에 있어서,

상기 제 1 및 제 2 패턴 매칭부는 Wu-Manber 알고리즘에 의해 상기 문자열 매칭을 수행되는 문자열 매칭 장치.
제 13 항에 있어서,

상기 제 1 및 제 2 패턴 매칭부는 상기 제 1 및 제 2 패턴 저장부에 저장되어 있는 패턴들에 대한 전처리 과정을 각각 수행하여 시프트 테이블, 해시 테이블 및 프리픽스 테이블을 생성하는 문자열 매칭 장치.
제 14 항에 있어서,

상기 제 1 및 제 2 패턴 매칭부는, 상기 시프트 테이블을 생성할 때, 상기 제 1 및 제 2 패턴 저장부에 저장되어 있는 패턴들의 서픽스 블록과 동일한 문자들의 조합에 대해서는 시프트 값을 0으로 설정하는 문자열 매칭 장치.
제 13 항에 있어서,

상기 전처리 과정 및 상기 문자열 매칭은 상기 제 1 및 제 2 패턴 매칭부에 의해 병렬 처리되는 문자열 매칭 장치.
제 16 항에 있어서,

상기 제 1 및 제 2 패턴 매칭부는 멀티 코어 프로세서로 구현되는 문자열 매칭 장치.
제 11 항에 있어서,

상기 패턴 정렬 모듈은 상기 서픽스 블록에 포함되는 문자들의 사전 편찬 순서에 따라 상기 패턴들을 정렬하는 문자열 매칭 장치.
제 11 항에 있어서,

상기 대상 텍스트는 게놈 유전자 시퀀스인 것을 특징으로 하는 문자열 매칭 장치.
제 11 항에 있어서,

상기 서픽스 블록의 크기는 2인 것을 특징으로 하는 문자열 매칭 장치.