KR102089348B1

KR102089348B1 - 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법

Info

Publication number: KR102089348B1
Application number: KR1020190010514A
Authority: KR
Inventors: 양재석; 장정훈
Original assignee: 주식회사 와이즈넛
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-03-16

Abstract

본 발명은 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법에 관한 것으로, 본 발명의 일 실시예에 따르는 분산 데이터 저장 장치 기반 검색 엔진 시스템은, 네트워크에 연결가능하고 검색 요청을 입력하는 유저 단말과, 색인 생성의 대상이 되는 대상 문서가 수집되면 상기 대상 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 색인 모듈을 포함하는 검색 엔진 서버와, 상기 색인 모듈에 의해 생성된 원문 파일을 전달받아 저장하는 분산 저장 장치를 포함한다. 여기서, 상기 검색 엔진 서버는 상기 유저 단말로부터 검색 요청이 입력되면, 상기 검색 요청에 상응하는 검색 질의문을 구문 분석한 후에 상기 검색 질의문에 포함된 단어를 포함하는 역 색인 파일을 이용하여 상기 검색 요청에 대한 검색 결과를 연산하고 이를 반환하는 것을 특징으로 한다. 본 발명의 일 실시예에 따르면, 역 색인 파일과 원문 파일을 포함한 색인 결과 파일 중에서 역 색인 파일만 모든 검색 엔진 노드가 공유하고, 원문 파일은 분산 데이터 저장 장치에 저장함으로써 불필요한 데이터를 전송하기 위한 비용을 줄이며, 검색 질의 요청 수행 시에 역 색인 파일만을 통해 검색이 이뤄지도록 함으로써 검색 속도를 향상시킬 수 있다.

Description

분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법{SEARCH ENGINE SYSTEM AND METHOD BASED ON DISTRIBUTED DATA STORING APPARATUS SEARCH METHOD THEREOF}

본 발명은 분산 데이터 저장 장치 기반의 검색 엔진 시스템에 관한 것으로, 더욱 상세하게는 검색 프로세싱에 사용되는 색인 데이터를 분산 데이터 저장 장치에 효율적으로 저장하여 검색 엔진 시스템에 부하가 가중되는 것을 방지하고 더욱 효과적으로 검색을 처리할 수 있는 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법에 관한 것이다.

본 발명은 산업통상자원부 및 한국산업기술평가관리원의 우수기술연구센터(ATC)사업의 일환으로 수행한 연구로부터 도출된 것이다[과제명: 자율 능동형 지식 확장을 위한 클라우드 기반 검색 플랫폼 개발].

최근 컴퓨터 저장 기술과 네트워크 기술의 발전으로 대용량의 정보를 저장하고 빠른 속도로 데이터 이동이 가능하게 되어 다량의 데이터를 다수의 시스템에 분산 저장하는 시스템의 구현이 가능해졌다.

그런데, 이러한 다수의 시스템에 분산된 다량의 데이터로부터 정보를 검색하기 위해서는 데이터 및 노드를 분산화 시켜 빠른 속도로 검색 결과를 획득할 수 있는 검색 엔진을 이용한다.

일반적으로 검색 엔진은 그 검색 대상이 되는 문서들을 사전에 색인화(인덱싱, indexing) 한 후, 외부에서 입력되는 입력 조건에 의해 해당 문서를 검색하여 사용자에게 제공하는 일련의 과정을 수행한다.

구체적으로, 검색 엔진은 문서의 색인 과정을 통해 색인이 되어야 할 단어(이하 색인어)의 위치 정보, 색인어가 들어가 있는 문서 번호를 데이터 구조에 저장하고 이를 파일화 하며, 검색 질의 요청이 왔을 때 질의에 대한 결과 정보를 문서 전체를 하나씩 검색하지 않고 색인 과정을 통해 생성된 색인 파일만 조회하여 사용자에게 검색 쿼리 및 키워드에 가장 적합한 결과물을 제공하는 일련의 과정을 수행함으로써 문서 검색 품질 및 속도를 향상 시키는 역할을 수행할 수 있다.

한편, 종래 검색 엔진에서는 검색에 사용되며 문서의 색인 정보를 가지고 있는 역 색인(inverted index) 파일과, 검색 이후에 추가적인 작업에 활용되는 원문 파일을 같은 저장 장치에 저장하고 있다. 여기서, 상기 역 색인 파일과 상기 원문 파일을 포함하여 색일 결과 파일로 통칭하며, 상기 색일 결과 파일은 분산 구조에 따라 모든 노드가 같은 데이터를 가지고 있거나, 또는 전체 노드들이 하나의 데이터를 균등하게 나눠 가지고 있는 구조로 이뤄져 있다.

이에 따라, 종래 검색 엔진에서는 색인이 되어야 할 단어인 색인 데이터의 양이 큰 경우 노드들 간의 주고받는 데이터 동기화 과정에서 소요되는 시간 소모비용이 크게 발생하게 된다.

뿐만 아니라, 종래 검색 엔진에서 새로운 신규 문서의 색인 요청이 입력되면 신규 문서의 색인 과정이 수행되고 이후 신규 데이터의 검색이 이뤄지기 위해 노드 간의 데이터 동기화를 진행한다. 이때, 모든 데이터는 각각의 노드를 동일하게 가지고 있어야 하므로 데이터 동기화 과정에서 불필요한 네트워크 자원을 소모하게 되며, 상기 데이터 동기화 과정에서 소요되는 시간 소모비용이 발생하게 된다는 문제점이 있다.

본 발명은 상기한 문제점을 해결하기 위해 창안된 것으로서, 역 색인 파일과 원문 파일을 포함한 색인 결과 파일 중에서 역 색인 파일만 모든 검색 엔진 노드가 공유하고, 원문 파일은 분산 데이터 저장 장치에 저장함으로써 불필요한 데이터를 전송하기 위한 비용을 줄이며, 검색 질의 요청 수행 시에 역 색인 파일만을 통해 검색이 이뤄지도록 함으로써 검색 속도를 향상시킬 수 있도록 하는 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법을 제공하는데 그 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템은, 네트워크에 연결가능하고 검색 요청을 입력하는 유저 단말; 색인 생성의 대상이 되는 대상 문서가 수집되면 상기 대상 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 색인 모듈을 포함하는 검색 엔진 서버; 및 상기 색인 모듈에 의해 생성된 원문 파일을 전달받아 저장하는 분산 저장 장치를 포함하고, 상기 검색 엔진 서버는 상기 유저 단말로부터 검색 요청이 입력되면, 상기 검색 요청에 상응하는 검색 질의문을 구문 분석한 후에 상기 검색 질의문에 포함된 단어를 포함하는 역 색인 파일을 이용하여 상기 검색 요청에 대한 검색 결과를 연산하고 이를 반환하는 것을 특징으로 한다.

또한, 상기 검색 엔진 서버는, n개의 검색 엔진 노드들을 포함하고, 상기 n개의 검색 엔진 노드들 각각은 원문 파일을 제외하고 개별적으로 상기 대상 문서의 색인 정보를 가지고 있는 역 색일 파일만 갖는 것을 특징으로 한다.

또한, 상기 검색 엔진 서버는 신규 문서가 입력되면, 제1 검색 엔진 노드에 속한 제1 색인 모듈이 상기 신규 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하고, 상기 제1 색인 모듈에 의해 생성된 역 색인 파일은 데이터 동기화를 위해 제2 검색 엔진 노드에 속한 제2 색인 모듈로 전달되는 것을 특징으로 한다.

또한, 상기 제2 색인 모듈은 기존의 색인 데이터와 상기 제1 검색 엔진 노드에 의해 생성된 역 색인 파일을 병합하고, 상기 제1 색인 모듈은 상기 신규 문서에 대하여 생성된 원문 파일을 상기 분산 저장 장치에 저장하는 것을 특징으로 한다.

또한, 상기 유저 단말로부터 상기 검색 요청 이후 하나 이상의 추가적인 작업 요청이 입력되면, 상기 검색 요청을 입력받은 검색 엔진 노드는 색인 데이터를 통한 상기 검색 요청에 따른 연산 결과에 대한 고유 식별자 리스트와 상기 원문 파일의 고유 식별자의 매칭을 통해 상기 분산 저장 장치로부터 상기 추가적인 작업 요청에 상응하는 원문 파일을 읽어와 상기 하나 이상의 추가적인 작업을 수행하는 것을 특징으로 한다.

또한, 상기 하나 이상의 추가적인 작업은 검색 결과에 대한 하이라이팅 표시 작업 또는 문서의 요약 정보 생성 작업을 포함하는 것을 특징으로 한다.

한편, 본 발명의 일 실시예에 따른 분산 데이터 저장 장치 기반 검색 방법은, 검색 엔진 서버는 색인 생성의 대상이 되는 대상 문서를 수집하는 단계; 상기 검색 엔진 서버는 상기 대상 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 단계; 및 상기 검색 엔진 서버는 상기 원문 파일을 분산 저장 장치로 전송하는 단계를 포함하며, 상기 검색 엔진 서버는 유저 단말로부터 검색 요청이 입력되면, 상기 검색 요청에 상응하는 검색 질의문을 구문 분석한 후에 상기 검색 질의문에 포함된 단어를 포함하는 역 색인 파일을 이용하여 상기 검색 요청에 대한 검색 결과를 연산하고 이를 반환하는 것을 특징으로 한다.

또한, 상기 검색 엔진 서버는 신규 문서가 입력되면, 제1 검색 엔진 노드에 속한 제1 색인 모듈이 상기 신규 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 단계를 포함하고, 상기 제1 색인 모듈에 의해 생성된 역 색인 파일은 데이터 동기화를 위해 제2 검색 엔진 노드에 속한 제2 색인 모듈로 전달되는 것을 특징으로 한다.

또한, 상기 제2 색인 모듈은 기존의 색인 데이터와 상기 제1 검색 엔진 노드에 의해 생성된 역 색인 파일을 병합하는 단계; 및 상기 제1 색인 모듈은 상기 신규 문서에 대하여 생성된 원문 파일을 상기 분산 저장 장치에 저장하는 단계를 더 포함할 수 있다.

또한, 상기 유저 단말로부터 상기 검색 요청 이후 하나 이상의 추가적인 작업 요청이 입력되면, 상기 검색 요청을 입력받은 검색 엔진 노드는 색인 데이터를 통한 상기 검색 요청에 따른 연산 결과에 대한 고유 식별자 리스트와 상기 원문 파일의 고유 식별자의 매칭을 통해 상기 분산 저장 장치로부터 상기 추가적인 작업 요청에 상응하는 원문 파일을 읽어와 상기 하나 이상의 추가적인 작업을 수행하는 단계를 포함할 수 있다.

개시된 기술의 실시 예들은 다음의 장점들을 포함하는 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법은, 역 색인 파일과 원문 파일을 포함한 색인 결과 파일 중에서 역 색인 파일만 모든 노드가 공유하고, 원문 파일은 분산 데이터 저장 장치에 저장함으로써 불필요한 데이터를 전송하기 위한 비용을 줄이며, 검색 질의 요청 수행 시에 역 색인 파일만을 통해 검색이 이뤄지도록 함으로써 검색 속도를 향상시킬 수 있도록 하는 효과가 있다.

또한, 본 발명에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법은, 검색 엔진에서 문서의 색인 과정을 통해 발생되는 결과물인 색인 데이터를 검색 질의 수행 구간에 따라 사용될 데이터의 역할에 따라 분할하고 이를 각각 다른 저장 시스템에 분산시켜 저장함으로써 분산 노드 간 데이터의 동기화 및 질의 수행 속도를 향상시킬 수 있도록 하는 효과도 있다.

또한, 본 발명에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법은, 원문 파일을 분산 저장 장치에 저장해두므로 샤드(shard)/레플리카(replica) 기능을 사용해서 분산 데이터를 관리할 수 있다. 이를 통해 데이터의 장애 복원력(fault tolerance)을 확보 할 수 있다.

뿐만 아니라, 본 발명에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법은, 검색 엔진에서 신규 문서에 대한 색인 작업 요청이 입력되면, 신규 문서에 대한 색인 작업을 수행하며 신규 문서의 역 색인 파일만 신규 문서에 대한 색인 요청이 들어온 노드와 상기 색인 요청이 들어온 노드와는 다른 노드에게 전달한 후 상기 역 색인 파일을 기존 색인 데이터와 병합시킨다. 이에 따라, 데이터 동기화 속도를 빠르게 향상시키면서 동시에 불필요한 네트워크 리소스를 사용하지 않도록 하여 데이터 동기화에 소용되는 시간 소모비용을 줄일 수 있는 효과도 있다.

도 1은 본 발명의 실시예에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템의 개략적인 구성도이다.
도 2는 본 발명의 실시예에 따른 분산 데이터 저장 장치의 색인 생성의 대상이 되는 대상 문서에 대한 색인 과정을 설명하기 위한 순서도이다.
도 3은 도 2의 색인 생성의 대상이 되는 대상 문서에 대한 색인 과정 후 생성되는 파일 구조를 설명하기 위한 도면이다.
도 4는 도 2의 단계 S206에 의해 생성되는 역 색인 파일과 원문 파일의 저장 위치 및 구조를 설명하기 위한 도면이다.
도 5는 도 2에서의 신규 문서의 색인 요청을 수신하는 경우에 신규 문서에 대한 색인 과정 및 데이터 저장 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 분산 데이터 저장 장치 기반 검색 과정을 설명하기 위한 순서도이다.
도 7은 도 6에서 유저 단말로부터 검색 요청 및 검색 요청 이후 하나 이상의 추가적인 작업 요청이 입력되는 경우에 검색 과정 및 데이터 사용 과정을 설명하기 위한 도면이다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.

몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사 관련어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.

이하의 설명에서 사용되는 특정 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.

일반적으로 검색 엔진은 웹 페이지들을 크롤링(Crawling)하여 미리 색인화(Indexing)하여 두었다가 검색어(Query)를 입력함으로써 이루어지는 검색요청에 대하여 해당 키워드를 포함하는 웹 페이지를 결과값으로 리턴한다. 그런데, 웹 페이지는 폭발적인 속도로 증가하고 있으며 일반적인 검색 엔진은 대용량의 모든 웹 페이지를 색인화하고 색인 결과 데이터인 역 색인 파일과 원문 파일을 같은 저장 장치에 저장하며 사용하고 있다.

이에 따라, 일반적인 검색 엔진은 새로운 신규 문서의 색인 요청이 입력되면 신규 문서의 색인 과정을 수행하고 이후 신규 데이터의 검색이 이뤄지기 위해 노드 간의 데이터 동기화를 진행한다. 이때, 모든 데이터는 각각의 노드를 동일하게 가지고 있어야 하므로 데이터 동기화 과정에서 불필요한 네트워크 자원을 소모하게 되며, 상기 데이터 동기화 과정에서 소요되는 시간 소모비용이 발생하게 된다는 문제점이 있다.

이러한 종래 검색 엔진의 문제점을 해소하기 위해 색인 결과 데이터 중에서 역 색인 파일만 모든 노드가 공유하고, 원문 파일은 분산 저장 장치에 저장함으로써 불필요한 데이터를 전송하기 위한 코스트(cost)를 줄이고 질의 수행 시 색인 파일만을 통해 검색이 이뤄지게 함으로써 검색 속도가 향상되도록 하는 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법을 제안하고자 한다. 이하, 본 발명의 바람직한 실시예를 첨부 도면에 의거하여 상세하게 설명하면 다음과 같다.

도 1은 본 발명의 실시예에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템의 개략적인 구성도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템은 네트워크(400)에 연결가능하고 검색 요청을 입력하는 유저 단말(100)과, 네트워크(400) 상의 웹 문서를 수집하고 색인 생성의 대상이 되는 대상 문서가 수집되면 상기 대상 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 색인 모듈을 포함하는 검색 엔진 서버(200)와, 검색 엔진 서버(200)에 포함되는 색인 모듈에 의해 생성된 원문 파일을 전달받아 저장하는 분산 저장 장치(300)를 포함하여 구성된다. 여기서, 검색 엔진 서버(200)는 유저 단말(100)로부터 검색 요청이 입력되면, 검색 요청에 상응하는 검색 질의문을 구문 분석한 후에 검색 질의문에 포함된 단어를 포함하는 역 색인 파일을 이용하여 검색 요청에 대한 검색 결과를 연산하고 이를 반환할 수 있다.

이와 같이, 본 발명의 실시예에 따른 검색 엔진 서버(200)는 유저 단말(100)로부터 검색 요청이 입력되면 요청에 상응하는 검색 질의문을 구문 분석한 후에 검색 질의문에 포함된 단어를 포함하는 역 색인 파일을 이용하여 검색 요청에 대한 연산 결과를 제공할 뿐, 원문 파일은 검색 요청에 직접적으로 이용되지 않고 분산 저장 장치(300)에 저장된다.

본 발명의 실시예에 따르면, 분산 데이터 저장 장치 기반 검색 엔진 시스템은 크게 분산 데이터 저장 장치의 색인 생성의 대상이 되는 대상 문서에 대한 색인 과정과, 분산 데이터 저장 장치 기반 검색 과정으로 구성된다. 여기서, 상기 대상 문서에 대한 색인 과정은 신규 문서에 대한 색인 요청을 수신하는 경우와 상기 신규 문서에 대한 색인 요청을 수신하지 않는 경우로 나누어 고려되어진다.

이하에서는 상술된 분산 데이터 저장 장치 기반 검색 엔진 시스템을 이용한 분산 데이터 저장 장치 기반 색인 생성의 대상이 되는 대상 문서에 대한 색인 과정에 대하여 설명한다.

도 2는 본 발명의 실시예에 따른 분산 데이터 저장 장치의 색인 생성의 대상이 되는 대상 문서에 대한 색인 과정을 설명하기 위한 순서도이며, 도 3은 도 2의 색인 생성의 대상이 되는 대상 문서에 대한 색인 과정 후 생성되는 파일 구조를 설명하기 위한 도면이고, 도 4는 도 2의 단계 S206에 의해 생성되는 역 색인 파일과 원문 파일의 저장 위치 및 구조를 설명하기 위한 도면이며, 도 5는 도 2에서의 신규 문서의 색인 요청을 수신하는 경우에 신규 문서에 대한 색인 과정 및 데이터 저장 과정을 설명하기 위한 도면이다.

먼저, 검색 엔진 서버(200)는 네트워크(400)를 통해 색인 생성의 대상이 되는 신규 문서에 대한 색인 요청을 수신되었는지 여부를 판단한다(S202). 여기서, 단계 S202에서의 판단 결과, 네트워크(400)를 통해 색인 생성의 대상이 되는 신규 문서에 대한 색인 요청을 수신되지 않았다고 판단되면 검색 엔진 서버(200)는 단계 S204를 진행한다.

단계 204에서, 검색 엔진 서버(200)는 네트워크(400) 상의 웹 문서들 중에서 대상 문서를 수집한다(S204). 여기서, 대상 문서는 색인 생성의 대상이 되는 문서를 의미하는 것으로서, 텍스트 기반으로 생성되거나 변환될 수 있다면 웹상에서 게재되는 웹문서, 웹페이지, 블로그, 게시판, 사전, 도서, 뉴스 등 그 명칭에 한정되지 않는 다양한 형식 또는 형태상의 모든 웹 문서를 포괄하는 개념을 의미한다.

이후, 검색 엔진 서버(200)는 첨부된 도 3의 색인 모듈(210)을 이용하여 단계 S204에서 수집된 대상 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 색인 과정을 수행한다(S206). 즉, 색인 데이터는 문서의 색인 정보를 가지고 있는 역 색인 파일과, 문서의 데이터 정보를 가진 원문 파일을 하나의 세트로 묶어서 통칭하는 단어로서, 해당 파일은 유저 단말(100)로부터의 질의 요청 수행시 사용되게 된다.

상술한 바에 따라 검색 엔진 서버(200)에 의해 대상 문서에 대한 색인 과정이 수행되면 검색 엔진 서버(200)는 대상 문서 각각에 상응하는 역 색인 파일과 원문 파일이 생성하여 도 3에 도시된 바와 같은 파일 구조를 갖는다. 여기서, 상기 역 색인 파일은 대상 문서의 색인 필드에서 색인어의 위치, 색인어의 문서 번호, 대상 문서의 고유 식별자(UID, Unique Identifier) 등이 구조화되어 저장된 파일을 의미하며, 상기 원문 파일은 각각의 문서가 가지고 있는 필드 데이터 및 색인 데이터와 쌍을 이루는 고유 식별자(UID)를 가지고 있는 파일로 문서의 컨텐츠, 생성 일자, 생성자 등을 포함한다.

이후, 검색 엔진 서버(200)는 단계 S206에서 생성된 원문 파일을 분산 저장 장치(200)로 전송하고, 분산 저장 장치(300)는 원문 파일을 저장한다(S208). 구체적으로, 검색 엔진 서버(200)는 도 4에 도시된 바와 같이 n개의 검색 엔진 노드(202)들을 포함하고 상기 n개의 검색 엔진 노드(202)들 모두는 각각에 상응하는 n개의 색인 모듈(210), n개의 검색 모듈(204), 및 동일한 역 색인 파일을 포함할 수 있으며, 단계 S206에서 색인 모듈(210)에 의해 생성된 색인 데이터 중에서 원문 파일만을 분산 저장 장치(200)로 전달하여 분산 저장 장치(200)로 하여금 저장토록 한다. 여기서, 원문 파일은 역 색인 파일보다 용량이 크며, 검색 요청에 직접적으로 사용되지 않는다.

반대로, 단계 S202에서의 판단 결과, 네트워크(400)를 통해 색인 생성의 대상이 되는 신규 문서에 대한 색인 요청이 수신되었다고 판단되면 검색 엔진 서버(200)는 단계 S203을 진행한다.

단계 S203에서 검색 엔진 서버(220)는 신규 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 결과 데이터를 생성하는 색인 과정을 수행한다(S203). 구체적으로, 도 5에 도시된 바와 같이 ① 제1 검색 엔진 노드에 속한 제1 색인 모듈이 상기 신규 문서에 대한 색인 요청을 수신하고 ② 제1 색인 모듈은 색인 작업을 수행하여 신규 문서에 대한 역 색인 파일과 원문 파일을 포함하는 색인 결과 데이터를 생성할 수 있다.

단계 S203 이후, 제1 색인 모듈에 의해 생성된 역 색인 파일을 제2 검색 엔진 노드에 속한 제2 색인 모듈로 전달하고 전달된 역 색인 파일을 기존의 색인 데이터와 병합시킴으로써 빠르게 역 색인 파일에 대한 데이터 동기화 작업을 수행할 수 있다(S205). 단계 S205에서는 도 5에 도시된 바와 같이 ③ 제1 색인 모듈에 의해 생성된 역 색인 파일을 역 색인 파일 동기화를 위해 제2 검색 엔진 노드에게 전달하며, ④ 역 색인 파일의 동기화 요청을 수신한 제2 검색 엔진 노드의 제2 색인 모듈은 제1 색인 모듈에 의해 생성된 역 색인 파일을 기존의 색인 데이터와 병합시킨다. 이러한 과정을 통해, 신규 문서에 대한 색인 작업이 이루어지면 불필요한 네트워크 리소스를 사용하지 않아도 되며, 데이터 동기화에 시간 비용(cost)를 줄일 수 있는 효과가 있다.

단계 S205 이후, 상술한 단계 S203에서 제1 색인 모듈에 의해 생성된 원문 파일을 분산 저장 장치(300)에 전달하여 분산 저장 장치(200)로 하여금 저장토록 한다(S207). 상술한 바에 따르면, 원문 파일은 검색 과정 후에 추가적으로 진행되어야 하는 작업에 사용되도록 분산 저장 장치(200)에 저장된다. 이에 따라, 샤드(shard)/레플리카(replica) 기능을 사용해서 분산 데이터를 관리할 수 있어 데이터의 장애 복원력(fault tolerance)을 확보 할 수 있는 유리한 효과가 있다.

한편, 이하에서는 상술된 분산 데이터 저장 장치 기반 검색 엔진 시스템을 이용한 분산 데이터 저장 장치 기반 검색 과정에 대하여 설명한다.

도 6은 본 발명의 실시예에 따른 분산 데이터 저장 장치 기반 검색 과정을 설명하기 위한 순서도이며, 도 7은 도 6에서 유저 단말로부터 검색 요청 및 검색 요청 이후 하나 이상의 추가적인 작업 요청이 입력되는 경우에 검색 과정 및 데이터 사용 과정을 설명하기 위한 도면이다.

도 6을 참조하면, 먼저 검색 엔진 서버(220)는 유저 단말(100)로부터 검색 요청이 수신되었는지와, 색인 생성의 대상이 되는 대상 문서에 대한 색인 작업이 이미 완료되었는지를 판단하고(S702), 판단 결과 유저 단말(100)로부터 검색 요청이 수신되었고 색인 생성의 대상이 되는 대상 문서에 대한 색인 작업이 완료되어 있다고 판단되면, 검색 엔진 서버(200)는 단계 S704를 진행한다.

구체적으로, 검색 엔진 서버(220)는 색인 생성의 대상이 되는 대상 문서에 대한 색인 작업이 이미 되어있는 상태에서 유저 단말(100)로부터 검색 요청을 입력받으면, 도 7에 도시된 바와 같이 ① 검색 엔진 서버(220)의 제1 검색 엔진 노드가 유저 단말(100)로부터 검색 요청을 수신하고, ② 검색 엔진 서버(220)의 제1 검색 모듈은 검색 요청에 상응하는 검색 질의문을 구문 분석한 후에 검색 질의문에 포함된 단어를 포함하는 역 색인 파일을 이용하여 검색 요청에 대한 검색 결과를 연산하고, 검색 결과 연산 결과값을 반환한다(S704). 이로써 검색 엔진 서버(220)는 검색 질의문에 포함된 단어를 포함하는 문서 번호 및 상기 문서 내 단어 위치를 확인하여 검색 질의문에 포함된 해당 단어를 포함하는 웹 페이지를 결과값으로 유저 단말(100)로 제공할 수 있다. 이처럼, 본 발명의 실시예에 따르면 검색 엔진 서버(220)는 유저 단말(100)로부터 검색 요청을 수신하면 역 색인 파일만을 이용하여 질의 요청에 대한 결과를 만들어 낼 수 있다.

단계 S704 이후, 검색 엔진 서버(220)는 유저 단말(100)로부터 단계 S704에서 도출된 검색 결과에 대한 추가적인 작업 요청이 수신되었는지를 판단한다(S706). 여기서, 상기 검색 결과에 대한 추가적인 작업은 검색 결과에 대한 하이라이팅 표시 작업 또는 문서의 요약 정보 생성 작업을 포함한다.

단계 S706에서의 판단 결과, 유저 단말(100)로부터 단계 S704에서 도출된 검색 결과에 대한 추가적인 작업 요청이 수신되었다고 판단되면, 도 7에 도시된 바와 같이 ③ 검색 엔진 서버(220)의 제1 검색 모듈은 색인 데이터를 통한 검색 요청에 따른 연산 결과에 대한 고유 식별자(UID) 리스트(list)와 원문 파일의 고유 식별자(UID)의 매칭을 통해 분산 저장 장치(300)로부터 상기 추가적인 작업 요청에 상응하는 원문 파일을 읽어와 추가적인 작업을 수행하고, ④ 추가적인 작업 수행 결과를 유저 단말(100)로 반환한다. 여기서, 검색 엔진 노드(202)는 시스템의 요구사항에 따라 n개의 개수로 업/다운 스케일(up/down scale)이 가능하며, 검색 엔진 노드(202) 앞 단에 로드 밸런서(load balancer)를 둠으로써 부하 분산이 진행 되도록 할 수 있다.

앞서 상술한 바에 따르면, 본 발명에 따른 분산 데이터 저장 장치 기반 검색 엔진 시스템은 역 색인 파일과 원문 파일을 포함한 색인 결과 파일 중에서 역 색인 파일만 모든 검색 엔진 노드가 공유하고, 원문 파일은 분산 데이터 저장 장치에 저장함으로써 불필요한 데이터를 전송하기 위한 비용을 줄이며, 검색 질의 요청 수행 시에 역 색인 파일만을 통해 검색이 이뤄지도록 할 수 있다. 이에 따라, 불필요한 데이터를 전송하기 위한 비용을 줄이며, 검색 질의 요청 수행 시에 역 색인 파일만을 통해 검색이 이뤄지도록 함으로써 검색 속도를 향상시킬 수 있도록 하는 현저하고도 유리한 효과가 있다.

참고로, 본 발명의 바람직한 여러 가지 실시 예에 따른 고분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 첨부된 도면을 참조하여 본 발명의 실시 예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 명세서의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 명세서의 범위에 포함되는 것으로 해석되어야 한다.

한편, 본 명세서와 도면에는 본 명세서의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 명세서의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 명세서의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 명세서의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

100 : 유저 단말 200 : 검색 엔진 서버
202 : 검색 엔진 노드 204 : 검색 모듈
210 : 색인 모듈 300 : 분산 저장 장치

Claims

네트워크에 연결가능하고 검색 요청을 입력하는 유저 단말;
색인 생성의 대상이 되는 대상 문서가 수집되면 상기 대상 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 색인 모듈을 포함하는 검색 엔진 서버; 및
상기 색인 모듈에 의해 생성된 원문 파일을 전달받아 저장하는 분산 저장 장치를 포함하고,
상기 검색 엔진 서버는 상기 유저 단말로부터 검색 요청이 입력되면, 상기 검색 요청에 상응하는 검색 질의문을 구문 분석한 후에 상기 검색 질의문에 포함된 단어를 포함하는 역 색인 파일만을 이용하여 상기 검색 요청에 대한 검색 결과를 연산하고 이를 반환하며,
상기 검색 엔진 서버는 상기 색인 모듈에 의해 생성된 색인 데이터 중에서 상기 원문 파일만을 따로 상기 분산 저장 장치에 저장하고,
상기 검색 엔진 서버는 유저 단말로부터 상기 검색 요청 이후 하나 이상의 추가적인 작업 요청이 입력되면, 상기 검색 요청에 따른 연산 결과에 대한 고유 식별자 리스트와 원문 파일의 고유 식별자의 매칭을 통해 상기 분산 저장 장치로부터 상기 추가적인 작업 요청에 상응하는 원문 파일을 읽어와 상기 하나 이상의 추가적인 작업을 수행하고 수행 결과를 상기 유저 단말로 반환하는 것
을 특징으로 하는 분산 데이터 저장 장치 기반 검색 엔진 시스템.
제1항에 있어서,
상기 검색 엔진 서버는,
n개의 검색 엔진 노드들을 포함하고, 상기 n개의 검색 엔진 노드들 각각은 원문 파일을 제외하고 개별적으로 상기 대상 문서의 색인 정보를 가지고 있는 역 색일 파일만 갖는 것을 특징으로 하는 분산 데이터 저장 장치 기반 검색 엔진 시스템.
제2항에 있어서,
상기 검색 엔진 서버는,
상기 n개의 검색 엔진 노드들 각각에 상응하는 색인 모듈, 검색 모듈, 및 역 색인 파일을 포함하고, 상기 역 색인 파일은 데이터 동기화를 통해 동일한 것을 특징으로 하는 분산 데이터 저장 장치 기반 검색 엔진 시스템.
제1항에 있어서,
상기 검색 엔진 서버는 신규 문서가 입력되면, 제1 검색 엔진 노드에 속한 제1 색인 모듈이 상기 신규 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하고, 상기 제1 색인 모듈에 의해 생성된 역 색인 파일은 데이터 동기화를 위해 제2 검색 엔진 노드에 속한 제2 색인 모듈로 전달되는 것을 특징으로 하는 분산 데이터 저장 장치 기반 검색 엔진 시스템.
제4항에 있어서,
상기 제2 색인 모듈은 기존의 색인 데이터와 상기 제1 검색 엔진 노드에 의해 생성된 역 색인 파일을 병합하고, 상기 제1 색인 모듈은 상기 신규 문서에 대하여 생성된 원문 파일을 상기 분산 저장 장치에 저장하는 것을 특징으로 하는 분산 데이터 저장 장치 기반 검색 엔진 시스템.
삭제
제1항에 있어서,
상기 하나 이상의 추가적인 작업은 검색 결과에 대한 하이라이팅 표시 작업 또는 문서의 요약 정보 생성 작업을 포함하는 것을 특징으로 하는 분산 데이터 저장 장치 기반 검색 엔진 시스템.
검색 엔진 서버는 색인 생성의 대상이 되는 대상 문서를 수집하는 단계;
상기 검색 엔진 서버는 상기 대상 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 단계; 및
상기 검색 엔진 서버는 상기 원문 파일을 분산 저장 장치로 전송하는 단계를 포함하며,
상기 검색 엔진 서버는 유저 단말로부터 검색 요청이 입력되면, 상기 검색 요청에 상응하는 검색 질의문을 구문 분석한 후에 상기 검색 질의문에 포함된 단어를 포함하는 역 색인 파일을 이용하여 상기 검색 요청에 대한 검색 결과를 연산하고 이를 반환하며,
상기 검색 엔진 서버는 상기 색인 모듈에 의해 생성된 색인 데이터 중에서 상기 원문 파일만을 따로 상기 분산 저장 장치에 저장하는 단계; 및
상기 검색 엔진 서버는 유저 단말로부터 상기 검색 요청 이후 하나 이상의 추가적인 작업 요청이 입력되면, 상기 검색 요청에 따른 연산 결과에 대한 고유 식별자 리스트와 원문 파일의 고유 식별자의 매칭을 통해 상기 분산 저장 장치로부터 상기 추가적인 작업 요청에 상응하는 원문 파일을 읽어와 상기 하나 이상의 추가적인 작업을 수행하고 수행 결과를 상기 유저 단말로 반환하는 단계;를 더 포함하는 것을 특징으로 하는 분산 데이터 저장 장치 기반 검색 방법.
제8항에 있어서,
상기 검색 엔진 서버는 신규 문서가 입력되면, 제1 검색 엔진 노드에 속한 제1 색인 모듈이 상기 신규 문서에 대하여 역 색인 파일과 원문 파일을 포함하는 색인 데이터를 생성하는 단계를 포함하고,
상기 제1 색인 모듈에 의해 생성된 역 색인 파일은 데이터 동기화를 위해 제2 검색 엔진 노드에 속한 제2 색인 모듈로 전달되는 것을 특징으로 하는 분산 데이터 저장 장치 기반 검색 방법.
제9항에 있어서,
상기 제2 색인 모듈은 기존의 색인 데이터와 상기 제1 검색 엔진 노드에 의해 생성된 역 색인 파일을 병합하는 단계; 및
상기 제1 색인 모듈은 상기 신규 문서에 대하여 생성된 원문 파일을 상기 분산 저장 장치에 저장하는 단계를 더 포함하는 분산 데이터 저장 장치 기반 검색 방법.
삭제