KR101425816B1 - 실시간 검색 구현 방법 및 그 시스템 - Google Patents

실시간 검색 구현 방법 및 그 시스템 Download PDF

Info

Publication number
KR101425816B1
KR101425816B1 KR1020130129196A KR20130129196A KR101425816B1 KR 101425816 B1 KR101425816 B1 KR 101425816B1 KR 1020130129196 A KR1020130129196 A KR 1020130129196A KR 20130129196 A KR20130129196 A KR 20130129196A KR 101425816 B1 KR101425816 B1 KR 101425816B1
Authority
KR
South Korea
Prior art keywords
time
document
index
search
indexing
Prior art date
Application number
KR1020130129196A
Other languages
English (en)
Inventor
강태기
강우신
박호민
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020130129196A priority Critical patent/KR101425816B1/ko
Application granted granted Critical
Publication of KR101425816B1 publication Critical patent/KR101425816B1/ko
Priority to JP2014219919A priority patent/JP5951729B2/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

실시간 검색 구현 방법 및 그 시스템이 개시된다. 실시간 검색 방법은, 복수의 문서로 이루어진 문서 컬렉션을 문서가 등록된 시간을 기준으로 시간 구간 별로 나누어 복수의 문서 그룹으로 분할하는 단계; 상기 문서 그룹 각각에 대하여 해당 그룹의 시간 구간을 주기로 색인을 수행하는 단계; 및 상기 색인을 통한 색인 데이터를 이용하여 상기 문서 컬렉션에 대한 검색을 수행하는 단계를 포함할 수 있다.

Description

실시간 검색 구현 방법 및 그 시스템{REAL-TIME SEARCH METHOD AND REAL-TIME SEARCH SYSTEM}
본 발명의 실시예들은 실시간 검색을 위한 서비스 구현 방법 및 그 시스템에 관한 것이다.
검색 서비스를 제공하는 가장 일반적인 형태인 키워드 검색 서비스에서는 사용자로부터 검색용 질의가 입력되면 해당 질의를 포함하는 정보, 예컨대 질의를 포함하는 웹 사이트에 관한 정보, 질의를 포함하는 기사 정보, 질의를 포함하는 파일명의 자료 정보 등을 사용자에게 검색 결과로서 제공하고 있다.
이러한 검색 결과를 노출하기 위해서는 검색을 하고 싶은 문서들에 대해 미리 색인을 하여 검색 가능한 데이터로 바꾸는 과정이 필요하다. 예컨대, 한국등록특허 제10-0835706호에서는 대용량의 데이터에 대해 형태소 분석을 통해 자동 색인을 수행하는 기술이 개시되어 있다.
그러나, 일반적인 검색 방법에서는 특정 주기에 한 번씩 색인을 하기 때문에 업데이트가 빈번한 데이터의 경우 업데이트 상황에 대응하여 색인을 하기 어려운 문제가 있다.
특히, SNS(social network service) 관련 데이터, 뉴스 기사, 뉴스 댓글 등은 최신 데이터일수록 큰 의미가 있는 반면에 시간이 지나갈수록 중요도가 급격히 떨어지는 특성이 있기 때문에 이러한 최신 데이터가 보다 빠르게 검색 결과에 반영될 수 있도록 새로운 방식의 검색 기술이 필요하다.
그리고, SNS 관련 데이터, 뉴스 기사, 뉴스 댓글 등은 시간적 이슈에 대응하는 데이터인 경우가 많으므로 종종 데이터가 폭증하는 경우가 생길 수 있는데, 이에 대응하여 데이터를 충분히 빠르면서 안정적인 속도로 색인을 할 수 있는 기술 또한 필요하다.
최신 데이터를 빠르게 검색할 수 있는 실시간 검색 환경을 구현하기 위한 방법 및 시스템을 제공한다.
실시간 검색을 위해 검색 대상의 데이터들을 더욱 빠르고 안정적인 속도로 색인할 수 있는 방법 및 시스템을 제공한다.
본 발명의 일 실시예에 따르면, 실시간 검색 방법은, 복수의 문서로 이루어진 문서 컬렉션을 문서가 등록된 시간을 기준으로 시간 구간 별로 나누어 복수의 문서 그룹으로 분할하는 단계; 상기 문서 그룹 각각에 대하여 해당 그룹의 시간 구간을 주기로 색인을 수행하는 단계; 및 상기 색인을 통한 색인 데이터를 이용하여 상기 문서 컬렉션에 대한 검색을 수행하는 단계를 포함할 수 있다.
일 측면에 따르면, 상기 복수의 문서 그룹으로 분할하는 단계는, 인접한 시간 구간 간에 중첩되는 시간이 존재하도록 상기 시간 구간을 나눌 수 있다.
다른 측면에 따르면, 상기 복수의 문서 그룹으로 분할하는 단계는, 상기 시간 구간 중 가장 최근의 시간 구간인 최근 구간을 가장 짧은 시간 주기로 설정하고 상기 최근 구간을 기준으로 이후 시간 구간의 경우 시간의 경과에 따라 점차적으로 긴 시간 주기로 설정할 수 있다.
또 다른 측면에 따르면, 상기 색인을 수행하는 단계는, 상기 문서 그룹 중 가장 최근의 시간 구간인 최근 구간에 해당되는 문서 그룹의 경우 무한 루프(infinite loop)로 색인을 수행하여 상기 최근 구간에 해당되는 문서 그룹의 색인 결과를 지속적으로 업데이트 할 수 있다.
또 다른 측면에 따르면, 상기 색인을 수행하는 단계는, 어절 단위 색인 기법, 형태소 단위 색인 기법, 및 엔그램(N-Gram) 기반 색인 기법 중 어느 하나를 이용하여 색인을 수행할 수 있다.
또 다른 측면에 따르면, 상기 복수의 문서 그룹으로 분할하는 단계는, 상기 문서 그룹 중 가장 최근의 시간 구간인 최근 구간에 해당되는 문서 그룹에 포함된 문서의 개수가 기준치를 초과할 경우 해당 문서 그룹을 복수의 소그룹으로 분할할 수 있다.
또 다른 측면에 따르면, 상기 색인을 수행하는 단계는, 상기 최근 구간에 해당되는 문서 그룹에 대하여 상기 복수의 소그룹을 병렬로 동시 색인할 수 있다.
또 다른 측면에 따르면, 상기 문서 컬렉션에 대한 검색을 수행하는 단계는, 상기 색인 데이터를 이용한 검색 결과에서 상기 문서 그룹 간에 상기 중첩되는 시간으로 인해 중복되는 검색 결과를 제거한 후 최종적인 검색 결과를 제공할 수 있다.
본 발명의 일 실시예에 따르면, 실시간 검색 시스템은, 복수의 문서로 이루어진 문서 컬렉션을 문서가 등록된 시간을 기준으로 시간 구간 별로 나누어 복수의 문서 그룹으로 분할하는 분할부; 상기 문서 그룹 각각에 대하여 해당 그룹의 시간 구간을 주기로 색인을 수행하는 색인부; 및 상기 색인을 통한 색인 데이터를 이용하여 상기 문서 컬렉션에 대한 검색을 수행하는 검색부를 포함할 수 있다.
본 발명의 실시예에 따르면, 전체 문서 컬렉션을 시간 구간 별로 나누어 색인을 하되 최근 데이터의 경우 최대한 짧은 주기로 설정하여 색인함으로써 최근 데이터에 대한 색인 업데이트 속도를 획기적으로 줄일 수 있으며 이를 통해 실시간에 가까운 검색 결과를 제공할 수 있다.
본 발명의 실시예에 따르면, 실시간 검색을 위한 색인을 할 때 최근 시간 구간의 데이터들을 여러 개의 데이터로 나누어 색인을 병렬로 동시에 처리함으로써 특정 이슈로 인해 최근 데이터들이 폭증하더라도 빠르고 안정적인 속도로 색인할 수 있어 실시간 검색에 최적인 색인 기술을 구현할 수 있다.
도 1은 본 발명의 일 실시예에 있어서, 실시간의 검색 환경을 제공하기 위한 실시간 검색 방법을 도시한 순서도이다.
도 2는 본 발명의 일 실시예에 있어서, 실시간 검색을 위한 색인 과정을 설명하기 위한 예시 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 있어서, 최근 시간 구간의 문서를 복수의 그룹으로 분할하여 병렬 색인하는 과정을 설명하기 위한 예시 도면이다.
도 5는 본 발명의 일 실시예에 있어서, 실시간의 검색 환경을 제공하기 위한 실시간 검색 시스템의 내부 구성을 도시한 블록도이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 실시예들은 검색 환경을 제공하는 검색 엔진 시스템에 적용될 수 있으며, 특히 최신 업데이트 문서들을 실시간으로 검색할 수 있는 실시간 검색 환경을 제공할 수 있다.
본 명세서에서, '문서'는 검색 엔진에서 검색 대상이 되는 데이터들을 의미하며, SNS(social network service)를 통해 사용자가 작성한 글이나 실시간으로 업데이트 되는 뉴스 기사나 댓글 등 글 단위의 모든 데이터를 의미할 수 있다. 그리고, '문서 컬렉션'은 문서들을 모은 파일을 의미한다.
또한, '색인'이라는 것은 문서 컬렉션에 포함된 문서에서 유의미한 키워드를 뽑아서 색인어로 정한 후 출현 빈도나 출현 위치, 출현 문서 등에 대한 정보를 색인어에 담고 색인어 별로 소팅하여 색인 데이터 셋(index data set)를 만드는 작업이고, '색인 볼륨'은 색인 과정을 통해 나온 최종 결과물인 색인 데이터 셋을 의미할 수 있다.
도 1은 본 발명의 일 실시예에 있어서, 실시간의 검색 환경을 제공하기 위한 실시간 검색 방법을 도시한 순서도이다. 일 실시예에 따른 실시간 검색 방법은 도 5를 통해 설명하게 될 실시간 검색 시스템에 의해 각각의 단계가 수행될 수 있다.
도 1에서, 단계(S110)에서 실시간 검색 시스템은 실시간 검색에 적합한 색인을 위하여 문서가 등록된 시간을 기준으로 전체 문서 컬렉션을 시간 구간 별로 나누어 전체 문서 컬렉션을 복수의 그룹으로 분할할 수 있다.
본 실시예에서 실시간 검색 시스템은 각 시간 구간에서 문서가 누락되는 것을 방지하기 위해 구간과 구간 사이에 소정의 중복 시간이 생기도록 구간의 주기를 설정할 수 있다. 구간 간에 중첩되는 시간은 시스템 환경에 따라 결정될 수 있으며 다양한 요소들을 고려하여 얼마든지 변경 가능하다.
특히, 실시간 검색 시스템은 시간 구간을 나눌 때 현 시점에 가까울수록 구간의 시간 주기를 짧게 설정할 수 있으며 가장 최근 문서가 속하는 구간(이하, '최근 구간'이라 칭함)의 경우 색인 완료까지 최대한 짧은 시간 이내에 들어오도록 충분히 짧은 주기로 설정할 수 있다. 최근 구간의 주기는 색인을 수행하는 색인 서버의 대수, 색인 및 업데이트 성능 등에 따라 결정될 수 있다.
예컨대, 도 2를 참조하면 문서 컬렉션을 4개의 시간 구간으로 나누게 되는데, 문서 컬렉션에 포함된 문서 중 현 시점에서 5분 전(0분~5분)에 등록된 문서를 D 구간(즉, 최근 구간)으로, 3분에서 40분 전(3분~40분)에 등록된 문서를 C 구간으로, 30분에서 6시간 전(30분~6시)에 등록된 문서를 B 구간으로, 5시간에서 24시간 전(5시~24시)에 등록된 문서를 A 구간으로 나눌 수 있다. 즉, 전체 문서 컬렉션은 색인을 위하여 각 시간 구간에 대응되는 4개의 색인 그룹(색인1~색인4)(201~204)으로 분할될 수 있다.
더욱이, 본 실시예에서 실시간 검색 시스템은 가장 짧은 주기의 최근 구간에 등록된 문서들을 다시 복수의 그룹으로 분할할 수 있다.
도 3을 참조하면, 실시간 검색 시스템은 최근 구간의 문서가 폭증한 것으로 판단되는 경우(S111) 이에 대응하여 원활하고 안정적인 색인을 위해 최근 구간의 주기에 해당되는 일정 시간 이내에 등록된 문서들을 복수의 소그룹으로 분할할 수 있다(S112).
일 예로, 실시간 검색 시스템은 최근 구간의 주기 이내에 등록된 문서의 개수가 기준치를 초과할 경우 문서 폭증으로 판단하고 해당 문서들을 소그룹으로 분할할 수 있다. 또한, 실시간 검색 시스템은 색인을 수행하는 색인 서버의 대수 및 색인 서버 각각이 일정 시간 이내에 처리 가능한 문서의 개수에 따라 최근 구간에 대한 소그룹의 개수를 결정한 후 해당 문서들을 소그룹으로 분할할 수 있다.
예컨대, 특정 이슈로 인하여 최근 등록되는 문서들이 폭증하는 경우, 도 4에 도시한 바와 같이 D 구간(즉, 최근 구간)에 대하여 문서 컬렉션을 3개의 색인 그룹(색인4~색인6)(404~406)으로 분할될 수 있다. 이때, 색인 서버의 대수를 고려하여 최근 1분 이내의 문서에 대하여 30초 이내에 색인 및 업데이트 가능한 수준의 문서 수를 계산한 후 이때 계산된 문서 수가 5000건이라면 5000건을 기준으로 D 구간의 문서 컬렉션을 분할할 수 있다.
다시 도 1에서, 단계(S120)에서 실시간 검색 시스템은 전체 문서 컬렉션에서 분할된 색인 그룹 각각에 대하여 해당 시간 구간의 주기에 따라 색인을 수행할 수 있다.
이때, 실시간 검색 시스템은 문서 내의 어절에서 비색인 분절을 절단하는 방식으로 색인어를 추출하여 색인하는 어절 단위 색인 기법, 형태소 해석이나 구문 해석을 통해 중요한 의미를 갖는 명사나 명사구를 추출하는 방식으로 단일 명사를 추출하여 색인하는 형태소 단위 색인 기법, 문장 내의 각 어절에 대하여 색인어의 부분으로서 부절절한 비색인 분절을 제거하는 어절 단위 색인 기법을 적용하고 그 결과로 생성된 색인 분절에서 인접해 있는 n개의 음절들을 추출하여 색인하는 N-Gram 기반 색인 기법 등의 색인법 중 어느 하나를 이용할 수 있다.
본 실시예에서 색인 그룹 중 최근 구간의 색인 그룹에 대해서는 무한 루프를 돌려 계속 색인이 되도록 할 수 있다. 다시 말해, 실시간 검색 시스템은 최근 문서들에 대한 빠른 색인을 위하여 최근 구간의 색인 그룹에 대해 무한 루프를 수행하여 해당 그룹의 색인 결과를 지속적으로 업데이트 할 수 있다.
특히, 실시간 검색 시스템은 도 3에 도시한 바와 같이 최근 문서의 폭증으로 최근 구간의 문서 컬렉션이 복수의 색인 그룹으로 분할된 경우 분할된 색인 그룹을 병렬로 동시 색인할 수 있다(S121). 도 4를 참조하면, 최근 구간(D 구간)에 대하여 무한 루프를 돌려 색인을 하되 최근 구간의 분할된 색인 그룹인 색인4~색인6(404~406)을 병렬로 동시에 처리할 수 있다.
따라서, 최근 구간에 대해서는 최대한 짧은 주기를 적용하고 무한 루프를 돌려 계속 색인이 되도록 함으로써 색인 업데이트 속도를 획기적으로 줄여 실시간에 가까운 색인을 구현할 수 있으며, 더욱이 문서가 폭증하더라도 최근 구간의 문서 컬렉션을 분할하여 이를 병렬로 동시 색인함으로써 색인에 소요되는 시간을 매번 일정한 수준으로 유지할 수 있다.
다시 도 1에서, 단계(S130)에서 실시간 검색 시스템은 단계(S110)와 단계(S120)를 통해 처리된 색인 볼륨을 이용하여 사용자 요구에 대한 검색을 수행할 수 있다.
이때, 실시간 검색 시스템은 시간 구간 별 문서 컬렉션에서 구간 간에 중복이 존재하도록 설정하므로 색인 볼륨으로부터 검색 결과를 가져와서 먼저 중복을 제거한 후 최종적인 검색 결과를 제공할 수 있다.
또한, 본 실시예에서는 전체 문서 컬렉션에서 분할된 그룹만큼 색인의 종류가 추가되므로 상기한 색인 볼륨을 통한 문서 검색 시 그룹의 개수에 대응되는 검색 환경 설정으로 검색을 수행할 수 있다. 다시 말해, 실시간 검색 시스템은 검색 환경 설정으로 자동으로 문서 분할 개수에 맞게 가변적으로 검색을 수행할 수 있다.
상기한 실시간 검색 방법은 전체 문서 컬렉션을 시간 구간 별로 분할하고 더욱이 최근 구간의 문서를 다시 한번 여러 개의 데이터로 나누어 색인함으로써 충분히 빠른 시간에 색인 업데이트가 이루어져 사용자들이 검색할 때는 실시간에 가까운 검색 결과를 확인할 수 있다.
본 발명의 실시예에 따른 방법들은 다양한 컴퓨터 시스템을 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 특히, 본 실시예에서는 복수의 문서로 이루어진 문서 컬렉션을 복수의 그룹으로 분할하는 단계; 및 문서 컬렉션에 대하여 복수의 그룹을 병렬로 동시 색인하는 단계를 포함하는 프로그램이 기록되는 컴퓨터 판독 가능 매체를 포함할 수 있다.
도 5는 본 발명의 일 실시예에 있어서, 실시간의 검색 환경을 제공하기 위한 실시간 검색 시스템의 내부 구성을 도시한 블록도이다. 도 5에 도시한 바와 같이, 실시간 검색 시스템은 분할부(510), 색인부(520), 및 검색부(530)로 이루어진 프로세서(500)와, 메모리(501)와, 데이터베이스(502)를 포함하여 구성될 수 있다.
메모리(501)는 검색 대상의 문서에 대하여 실시간 검색을 수행하기 위한 명령어를 포함하는 프로그램이 저장될 수 있다. 도 1 내지 도 7를 통해 설명한 실시간 검색 시스템에서 수행되는 단계들은 메모리(501)에 저장된 프로그램에 의해 실행될 수 있다. 예를 들어, 메모리(501)는 하드디스크, SSD, SD 카드 및 기타 저장매체일 수 있다.
데이터베이스(502)는 검색 대상이 되는 문서와 이에 대한 색인 볼륨 등 검색 서비스를 위해 필요한 모든 정보들을 저장 및 유지할 수 있는 저장소 역할을 할 수 있다.
프로세서(500)는 메모리(501)에 저장된 프로그램의 명령어에 따라 처리하는 장치로서, CPU 등의 마이크로프로세서가 포함될 수 있다. 프로세서(500)의 세부 구성은 다음과 같다.
분할부(510)는 실시간 검색에 적합한 색인을 위하여 문서가 등록된 시간을 기준으로 전체 문서 컬렉션을 시간 구간 별로 나누어 전체 문서 컬렉션을 복수의 그룹으로 분할할 수 있다. 이때, 분할부(510)는 각 시간 구간에서 문서가 누락되는 것을 방지하기 위해 구간과 구간 사이에 소정의 중복 시간이 생기도록 구간의 주기를 설정할 수 있다. 특히, 분할부(510)는 시간 구간을 나눌 때 현 시점에 가까울수록 구간의 시간 주기를 짧게 설정할 수 있으며 가장 최근 구간의 경우 색인 완료까지 최대한 짧은 시간 이내에 들어오도록 충분히 짧은 주기로 설정할 수 있다. 더욱이, 분할부(510)는 가장 짧은 주기의 최근 구간에 등록된 문서들을 다시 복수의 그룹으로 분할할 수 있다. 일 예로, 분할부(510)는 최근 구간의 문서가 폭증하는 경우 이에 대응하여 원활하고 안정적인 색인을 위해 최근 구간의 주기에 해당되는 일정 시간 이내에 등록된 문서들을 복수의 그룹으로 분할할 수 있다. 이때, 분할부(510)는 최근 구간의 주기 이내에 등록된 문서의 개수가 기준치를 초과할 경우 문서 폭증으로 판단하고 해당 문서들을 소그룹으로 분할할 수 있다. 또한, 분할부(510)는 색인을 수행하는 색인 서버의 대수 및 색인 서버 각각이 일정 시간 이내에 처리 가능한 문서의 개수에 따라 최근 구간에 대한 소그룹의 개수를 결정한 후 해당 문서들을 소그룹으로 분할할 수 있다.
색인부(520)는 전체 문서 컬렉션에서 분할된 색인 그룹 각각에 대하여 해당 시간 구간의 주기에 따라 색인을 수행할 수 있다. 이때, 색인부(520)는 어절 단위 색인 기법, 형태소 단위 색인 기법, N-Gram 기반 색인 기법 중 어느 하나를 이용할 수 있다. 특히, 색인부(520)는 색인 그룹 중 최근 구간의 색인 그룹에 대해서는 무한 루프를 돌려 계속 색인이 되도록 할 수 있다. 다시 말해, 색인부(520)는 최근 문서들에 대한 빠른 색인을 위하여 최근 구간의 색인 그룹에 대해 무한 루프를 수행하여 해당 그룹의 색인 결과를 지속적으로 업데이트 할 수 있다. 더욱이, 색인부(520)는 최근 문서의 폭증으로 최근 구간의 문서 컬렉션이 복수의 색인 그룹으로 분할된 경우 분할된 색인 그룹을 병렬로 동시 색인할 수 있다.
검색부(530)는 색인부(520)를 통해 처리된 색인 볼륨을 이용하여 사용자 요구에 대한 검색을 수행할 수 있다. 이때, 검색부(530)는 시간 구간 별 문서 컬렉션에서 구간 간에 중복이 존재하도록 설정하므로 색인 볼륨으로부터 검색 결과를 가져와서 먼저 중복을 제거한 후 최종적인 검색 결과를 제공할 수 있다. 또한, 검색부(530)는 전체 문서 컬렉션에서 분할된 그룹만큼 색인의 종류가 추가되므로 상기한 색인 볼륨을 통한 문서 검색 시 그룹의 개수에 대응되는 검색 환경 설정으로 검색을 수행할 수 있다. 다시 말해, 검색부(530)는 검색 환경 설정으로 자동으로 문서 분할 개수에 맞게 가변적으로 검색을 수행할 수 있다.
상기한 실시간 검색 시스템은 도 1 내지 도 4를 통해 설명한 실시간 검색 방법의 상세 내용을 바탕으로 구성 요소 일부가 생략되거나 추가의 구성요소들이 더 포함될 수 있다. 또한, 둘 이상의 구성요소가 조합될 수 있고 구성요소 간의 동작 순서나 연계 방식이 변경될 수 있다.
이와 같이, 본 발명의 실시예에 따르면, 전체 문서 컬렉션을 시간 구간 별로 나누어 색인을 하되 최근 데이터의 경우 최대한 짧은 주기로 설정하여 색인함으로써 최근 데이터에 대한 색인 업데이트 속도를 획기적으로 줄일 수 있으며 이를 통해 실시간에 가까운 검색 결과를 제공할 수 있다. 또한, 본 발명의 실시예에 따르면, 실시간 검색을 위한 색인을 할 때 최근 시간 구간의 데이터들을 여러 개의 데이터로 나누어 색인을 병렬로 동시에 처리함으로써 특정 이슈로 인해 최근 데이터들이 폭증하더라도 빠르고 안정적인 속도로 색인할 수 있어 실시간 검색에 최적인 색인 기술을 구현할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
510: 분할부
520: 색인부
530: 검색부

Claims (17)

  1. 복수의 문서로 이루어진 문서 컬렉션을 문서가 등록된 시간을 기준으로 시간 구간 별로 나누어 복수의 문서 그룹으로 분할하는 단계;
    상기 문서 그룹 각각에 대하여 해당 그룹의 시간 구간을 주기로 색인을 수행하는 단계; 및
    상기 색인을 통한 색인 데이터를 이용하여 상기 문서 컬렉션에 대한 검색을 수행하는 단계
    를 포함하는 실시간 검색 방법.
  2. 제1항에 있어서,
    상기 복수의 문서 그룹으로 분할하는 단계는,
    인접한 시간 구간 간에 중첩되는 시간이 존재하도록 상기 시간 구간을 나누는 것
    을 특징으로 하는 실시간 검색 방법.
  3. 제1항에 있어서,
    상기 복수의 문서 그룹으로 분할하는 단계는,
    상기 시간 구간 중 가장 최근의 시간 구간인 최근 구간을 가장 짧은 시간 주기로 설정하고 상기 최근 구간을 기준으로 이후 시간 구간의 경우 시간의 경과에 따라 점차적으로 긴 시간 주기로 설정하는 것
    을 특징으로 하는 실시간 검색 방법.
  4. 제1항에 있어서,
    상기 색인을 수행하는 단계는,
    상기 문서 그룹 중 가장 최근의 시간 구간인 최근 구간에 해당되는 문서 그룹의 경우 무한 루프(infinite loop)로 색인을 수행하여 상기 최근 구간에 해당되는 문서 그룹의 색인 결과를 지속적으로 업데이트 하는 것
    을 특징으로 하는 실시간 검색 방법.
  5. 제1항에 있어서,
    상기 색인을 수행하는 단계는,
    어절 단위 색인 기법, 형태소 단위 색인 기법, 및 엔그램(N-Gram) 기반 색인 기법 중 어느 하나를 이용하여 색인을 수행하는 것
    을 특징으로 하는 실시간 검색 방법.
  6. 제1항에 있어서,
    상기 복수의 문서 그룹으로 분할하는 단계는,
    상기 문서 그룹 중 가장 최근의 시간 구간인 최근 구간에 해당되는 문서 그룹에 포함된 문서의 개수가 기준치를 초과할 경우 해당 문서 그룹을 복수의 소그룹으로 분할하는 것
    을 특징으로 하는 실시간 검색 방법.
  7. 제6항에 있어서,
    상기 색인을 수행하는 단계는,
    상기 최근 구간에 해당되는 문서 그룹에 대하여 상기 복수의 소그룹을 병렬로 동시 색인하는 것
    을 특징으로 하는 실시간 검색 방법.
  8. 제2항에 있어서,
    상기 문서 컬렉션에 대한 검색을 수행하는 단계는,
    상기 색인 데이터를 이용한 검색 결과에서 상기 문서 그룹 간에 상기 중첩되는 시간으로 인해 중복되는 검색 결과를 제거한 후 최종적인 검색 결과를 제공하는 것
    을 특징으로 하는 실시간 검색 방법.
  9. 컴퓨터 시스템이 검색 대상인 문서에 대한 실시간 검색을 수행하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 매체로서,
    상기 명령은,
    복수의 문서로 이루어진 문서 컬렉션을 문서가 등록된 시간을 기준으로 시간 구간 별로 나누어 복수의 문서 그룹으로 분할하는 단계;
    상기 문서 그룹 각각에 대하여 해당 그룹의 시간 구간을 주기로 색인을 수행하는 단계; 및
    상기 색인을 통한 색인 데이터를 이용하여 상기 문서 컬렉션에 대한 검색을 수행하는 단계
    를 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어하는, 컴퓨터 판독가능 저장 매체.
  10. 복수의 문서로 이루어진 문서 컬렉션을 문서가 등록된 시간을 기준으로 시간 구간 별로 나누어 복수의 문서 그룹으로 분할하는 분할부;
    상기 문서 그룹 각각에 대하여 해당 그룹의 시간 구간을 주기로 색인을 수행하는 색인부; 및
    상기 색인을 통한 색인 데이터를 이용하여 상기 문서 컬렉션에 대한 검색을 수행하는 검색부
    를 포함하는 실시간 검색 시스템.
  11. 제10항에 있어서,
    상기 분할부는,
    인접한 시간 구간 간에 중첩되는 시간이 존재하도록 상기 시간 구간을 나누는 것
    을 특징으로 하는 실시간 검색 시스템.
  12. 제10항에 있어서,
    상기 분할부는,
    상기 시간 구간 중 가장 최근의 시간 구간인 최근 구간을 가장 짧은 시간 주기로 설정하고 상기 최근 구간을 기준으로 이후 시간 구간의 경우 시간의 경과에 따라 점차적으로 긴 시간 주기로 설정하는 것
    을 특징으로 하는 실시간 검색 시스템.
  13. 제10항에 있어서,
    상기 색인부는,
    상기 문서 그룹 중 가장 최근의 시간 구간인 최근 구간에 해당되는 문서 그룹의 경우 무한 루프(infinite loop)로 색인을 수행하여 상기 최근 구간에 해당되는 문서 그룹의 색인 결과를 지속적으로 업데이트 하는 것
    을 특징으로 하는 실시간 검색 시스템.
  14. 제10항에 있어서,
    상기 색인부는,
    어절 단위 색인 기법, 형태소 단위 색인 기법, 및 엔그램(N-Gram) 기반 색인 기법 중 어느 하나를 이용하여 색인을 수행하는 것
    을 특징으로 하는 실시간 검색 시스템.
  15. 제10항에 있어서,
    상기 분할부는,
    상기 문서 그룹 중 가장 최근의 시간 구간인 최근 구간에 해당되는 문서 그룹에 포함된 문서의 개수가 기준치를 초과할 경우 해당 문서 그룹을 복수의 소그룹으로 분할하는 것
    을 특징으로 하는 실시간 검색 시스템.
  16. 제15항에 있어서,
    상기 색인부는,
    상기 최근 구간에 해당되는 문서 그룹에 대하여 상기 복수의 소그룹을 병렬로 동시 색인하는 것
    을 특징으로 하는 실시간 검색 시스템.
  17. 제11항에 있어서,
    상기 검색부는,
    상기 색인 데이터를 이용한 검색 결과에서 상기 문서 그룹 간에 상기 중첩되는 시간으로 인해 중복되는 검색 결과를 제거한 후 최종적인 검색 결과를 제공하는 것
    을 특징으로 하는 실시간 검색 시스템.
KR1020130129196A 2013-10-29 2013-10-29 실시간 검색 구현 방법 및 그 시스템 KR101425816B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130129196A KR101425816B1 (ko) 2013-10-29 2013-10-29 실시간 검색 구현 방법 및 그 시스템
JP2014219919A JP5951729B2 (ja) 2013-10-29 2014-10-29 リアルタイム検索実現方法およびそのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130129196A KR101425816B1 (ko) 2013-10-29 2013-10-29 실시간 검색 구현 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR101425816B1 true KR101425816B1 (ko) 2014-08-05

Family

ID=51749323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130129196A KR101425816B1 (ko) 2013-10-29 2013-10-29 실시간 검색 구현 방법 및 그 시스템

Country Status (2)

Country Link
JP (1) JP5951729B2 (ko)
KR (1) KR101425816B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101744017B1 (ko) * 2016-03-11 2017-06-07 주식회사 지앤클라우드 실시간 검색을 위한 데이터 인덱싱 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020014026A (ko) * 2000-08-14 2002-02-25 (주) 인포마스터 웹 개인화에 바탕한 뉴스 추적 및 분석 서비스
KR20080092506A (ko) * 2007-04-12 2008-10-16 주식회사 케이티프리텔 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법
US20090077073A1 (en) 2005-04-21 2009-03-19 Hiroaki Masuyama Index term extraction device for document-to-be-surveyed
KR20090108952A (ko) * 2008-04-14 2009-10-19 제주대학교 산학협력단 궤적 데이터의 인덱싱 방법 및 그 방법을 이용하는 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172363A (ja) * 2004-12-20 2006-06-29 Hitachi Ltd 文書検索装置、インデクス再構成方法及びプログラム
JP4795258B2 (ja) * 2007-01-29 2011-10-19 三菱電機株式会社 Webページ再収集方式
JP4948361B2 (ja) * 2007-10-29 2012-06-06 三菱電機株式会社 Webサーバアクセススケジューリングシステム
JP5046873B2 (ja) * 2007-11-14 2012-10-10 エヌ・ティ・ティ レゾナント株式会社 情報検索装置およびその方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020014026A (ko) * 2000-08-14 2002-02-25 (주) 인포마스터 웹 개인화에 바탕한 뉴스 추적 및 분석 서비스
US20090077073A1 (en) 2005-04-21 2009-03-19 Hiroaki Masuyama Index term extraction device for document-to-be-surveyed
KR20080092506A (ko) * 2007-04-12 2008-10-16 주식회사 케이티프리텔 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법
KR20090108952A (ko) * 2008-04-14 2009-10-19 제주대학교 산학협력단 궤적 데이터의 인덱싱 방법 및 그 방법을 이용하는 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101744017B1 (ko) * 2016-03-11 2017-06-07 주식회사 지앤클라우드 실시간 검색을 위한 데이터 인덱싱 방법 및 장치

Also Published As

Publication number Publication date
JP5951729B2 (ja) 2016-07-13
JP2015088190A (ja) 2015-05-07

Similar Documents

Publication Publication Date Title
CA2934808C (en) Generating a domain ontology using word embeddings
EP3371714B1 (en) Techniques for digital entity correlation
US10025819B2 (en) Generating a query statement based on unstructured input
US9201931B2 (en) Method for obtaining search suggestions from fuzzy score matching and population frequencies
US10180989B2 (en) Generating and executing query language statements from natural language
US8468146B2 (en) System and method for creating search index on cloud database
US9355152B2 (en) Non-exclusionary search within in-memory databases
US20160196342A1 (en) Plagiarism Document Detection System Based on Synonym Dictionary and Automatic Reference Citation Mark Attaching System
US11232267B2 (en) Proximity information retrieval boost method for medical knowledge question answering systems
US9864776B2 (en) Intelligently utilizing non-matching weighted indexes
KR20160124742A (ko) 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
US10970324B2 (en) System for generation of automated response follow-up
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
US20190005120A1 (en) System for determination of automated response follow-up
WO2017087694A1 (en) Dynamic attributes for searching
KR101425816B1 (ko) 실시간 검색 구현 방법 및 그 시스템
KR101772333B1 (ko) 이종 NoSQL 데이터베이스들간의 지능적 조인 전략 제공 방법 및 시스템
CN110555108A (zh) 事件脉络生成方法、装置、设备及存储介质
KR101508939B1 (ko) 실시간 검색을 위한 병렬 색인 방법 및 그 시스템
KR101656077B1 (ko) 암시적 타임 칼럼값을 이용한 시간 기반 파티셔닝 시스템 및 방법
KR20160126148A (ko) 읽기 성능 개선을 위한 티-트리 인덱스를 이용한 데이터베이스 읽기 방법 및 그 장치
Bommannavar et al. Estimating topical volume in social media streams
US11727059B2 (en) Retrieval sentence utilization device and retrieval sentence utilization method
KR102588238B1 (ko) 컨텐츠 제작 어플리케이션 및 상기 컨텐츠 제작 어플리케이션 구동 방법
KR20190119275A (ko) 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170704

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 6