KR102326121B1 - 텍스트 컨텐츠 인덱싱 방법 및 그 장치 - Google Patents

텍스트 컨텐츠 인덱싱 방법 및 그 장치 Download PDF

Info

Publication number
KR102326121B1
KR102326121B1 KR1020170121414A KR20170121414A KR102326121B1 KR 102326121 B1 KR102326121 B1 KR 102326121B1 KR 1020170121414 A KR1020170121414 A KR 1020170121414A KR 20170121414 A KR20170121414 A KR 20170121414A KR 102326121 B1 KR102326121 B1 KR 102326121B1
Authority
KR
South Korea
Prior art keywords
indexing
text content
matching
text
matching keyword
Prior art date
Application number
KR1020170121414A
Other languages
English (en)
Other versions
KR20190032943A (ko
Inventor
백승민
전민주
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020170121414A priority Critical patent/KR102326121B1/ko
Publication of KR20190032943A publication Critical patent/KR20190032943A/ko
Application granted granted Critical
Publication of KR102326121B1 publication Critical patent/KR102326121B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Abstract

텍스트 컨텐츠를 인덱싱 하는 방법이 제공된다. 본 발명의 일 실시예에 따른 텍스트 컨텐츠의 인덱싱 방법은, 제1 텍스트 컨텐츠에 대한 신규의 매칭 키워드가 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 마지막으로 추가된 시점으로부터 리인덱싱 타이밍 규칙에 따른 시간이 도과 되면, 상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계와, 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터를 상기 리인덱싱 수행 결과 생성된 리인덱싱 데이터로 갱신하는 단계를 포함한다.

Description

텍스트 컨텐츠 인덱싱 방법 및 그 장치{METHOD AND APPARATUS FOR TEXT CONTENTS INDEXING}
본 발명은 텍스트 컨텐츠를 인덱싱하는 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 검색 등의 용도로 텍스트 컨텐츠를 인덱싱 함에 있어서, 인덱싱 대상 텍스트 컨텐츠의 수가 늘어남에 따라 인덱싱 데이터의 사이즈가 지속적으로 증가하는 문제점을 해결하는 텍스트 컨텐츠의 인덱싱 방법 및 그 장치에 관한 것이다.
복수의 텍스트 컨텐츠로 구성된 텍스트 컨텐츠 풀(POOL)에서 특정 키워드를 포함하는 텍스트 컨텐츠를 검색하기 위하여, 각각의 텍스트 컨텐츠의 인덱싱 데이터를 운영할 필요가 있다. 따라서, 텍스트 컨텐츠 풀에 포함되는 텍스트 컨텐츠의 수가 늘어남에 따라 인덱싱 데이터가 차지하는 저장 용량도 늘어나게 된다. 이는, 텍스트 컨텐츠에 대한 검색 기능을 지원하는데 소요되는 비용의 증가 원인이 된다.
인덱싱 데이터의 사이즈가 증가하는 것을 억제하기 위하여, 텍스트 컨텐츠에 대한 정교한 분석을 통하여, 유의미한 코퍼스(corpus) 만을 인덱싱 데이터에 포함시키는 방법이 제시된다. 그러나, 이러한 방법 역시 텍스트 컨텐츠의 개수가 증가함에 따라 인덱싱 데이터의 전체 사이즈가 증가하는 것을 근본적으로 막을 수 없다.
또한, 텍스트 컨텐츠의 등록일자를 기준으로, 기 지정된 기간 이상으로 오래된 텍스트 컨텐츠에 대한 인덱싱 데이터를 일괄 삭제하는 등의 방법도 제시된다. 그런데, 이러한 방법은 텍스트 컨텐츠 풀에 포함 된지 오래 된 텍스트 컨텐츠라 하여 더 이상 검색 되지 않으리라는 보장이 없는 점에서, 심각한 검색 품질의 저하를 야기한다.
미국등록특허 7,072,889 B2
본 발명이 해결하고자 하는 기술적 과제는, 검색 품질의 저하를 최소화 하면서도 텍스트 컨텐츠의 개수 증가에 따른 인덱싱 데이터의 증가를 최대한 억제할 수 있는 텍스트 인덱싱 방법 및 그 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 텍스트 컨텐츠의 검색에 이용되는 키워드의 사용 동향에 기반하여 검색 품질의 저하를 최소화 할 수 있는 시점에 인덱싱 데이터를 갱신하는 리인덱싱(re-indexing)을 수행하는 텍스트 인덱싱 방법 및 그 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
상기 언급된 문제점들을 해결하기 위한 본 발명의 일 실시예에 따른 텍스트 컨텐츠의 인덱싱 방법은, 제1 텍스트 컨텐츠에 대한 매칭 키워드가 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 추가된 시점을 기준으로 리인덱싱 타이밍 규칙에 따른 기준 조건이 만족되면, 상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계와, 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터를 상기 리인덱싱 수행 결과 생성된 리인덱싱 데이터로 갱신하는 단계를 포함한다.
일 실시예에서, 상기 제1 텍스트 컨텐츠에 대한 리인덱싱을 수행하는 단계는, 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 포함된 적어도 일부의 매칭 키워드들로 구성된 상기 리인덱싱 데이터를 생성하는 단계를 포함할 수 있다. 이 때, 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 포함된 적어도 일부의 매칭 키워드들로 구성된 상기 리인덱싱 데이터를 생성하는 단계는, 상기 매칭 키워드 리스트에 포함된 매칭 키워드들 중, 최근 매칭 시점으로부터 얼마만큼의 시간이 도과되었는지를 가리키는 에이징(aging)을 기준으로 선별된 일부의 매칭 키워드들로 구성된 상기 리인덱싱 데이터를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 리인덱싱 타이밍 규칙에 따른 기준 조건은 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 매칭 키워드가 추가 된 후, 기준 시간이 도과하는 동안 매칭 키워드의 추가가 발행하지 않는 것일 수 있다. 상기 기준 시간은, 상기 매칭 키워드 리스트에 포함된 매칭 키워드가 많을 수록 길어지도록 세팅되는 시간이거나, 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터의 사이즈가 클수록 길어지도록 세팅되는 시간이거나, 기 지정된 전체 인덱싱 데이터 한계 사이즈에서, 상기 텍스트 인덱싱 장치에 의하여 인덱싱 되는 전체 텍스트 컨텐츠의 인덱싱 데이터의 사이즈 합산치를 뺀 값이 클수록 길어지도록 세팅되는 시간이거나, 상기 제1 텍스트 컨텐츠에 대한 검색 매칭 빈도가 높을 수록 길어지도록 세팅되는 시간이거나, 상기 4개의 기준 시간 세팅 방식에 중 둘 이상의 세팅 방식이 그대로 조합되거나, 가중치 반영 조합된 것일 수 있다.
일 실시예에서, 상기 리인덱싱 타이밍 규칙에 따른 기준 조건은 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 매칭 키워드가 추가 된 후, 기준 조회 건수에 도달하는 동안 매칭 키워드의 추가가 발생하지 않는 것일 수도 있다.
상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계는, 상기 매칭 키워드 리스트에 포함된 전체 매칭 키워드의 데이터 사이즈의 상기 제1 텍스트 컨텐츠의 인덱싱 데이터의 데이터 사이즈에 대한 비율이 기준치 이하인 경우에 한하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계를 포함할 수 있다. 이 때, 상기 텍스트 컨텐츠의 인덱싱 방법은 상기 리인덱싱을 수행하는 단계 이전에, 상기 매칭 키워드 리스트에 포함된 각각의 매칭 키워드에 대하여, 최근 매칭 시점으로부터 도과된 시간이 기준치를 초과하는 올드 매칭 키워드를 상기 매칭 키워드 리스트에서 삭제하는 단계를 더 포함할 수 있다.
본 발명의 다른 실시예에 따른 텍스트 컨텐츠의 인덱싱 방법은 단위 시간당 제1 텍스트 컨텐츠에 대한 매칭 키워드가 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 추가되는 개수가 리인덱싱 타이밍 규칙에 따른 기준 조건을 만족이 만족되는 동안 기준치에 미달하면, 상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계와, 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터를 상기 리인덱싱 수행 결과 생성된 리인덱싱 데이터로 갱신하는 단계를 포함한다.
도 1은 본 발명의 일 실시예에 따른 텍스트 컨텐츠 인덱싱 시스템의 구성도이다.
도 2는 본 발명의 몇몇 실시예들에서 참조되는 검색 매칭 이력 데이터의 구성예이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 컨텐츠 인덱싱 방법에 따른 리인덱싱 수행 시점을 설명하기 위한 도면이다.
도 4는 도 3과는 다른 실시예에 따른 텍스트 컨텐츠 인덱싱 방법에 따른 리인덱싱 수행 시점을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 텍스트 컨텐츠 인덱싱 방법의 순서도이다.
도 6은 도 5와 다른 실시예에 따른 텍스트 컨텐츠 인덱싱 방법의 순서도이다.
도 7은 본 발명의 일 실시예에 따른 텍스트 컨텐츠 인덱싱 장치의 블록 구성도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
이하, 도면들을 참조하여 본 발명의 몇몇 실시예들을 설명한다.
도 1을 참조하여, 본 발명의 일 실시예에 따른 텍스트 컨텐츠 인덱싱 시스템의 구성 및 동작을 설명한다. 본 실시예에 따른 텍스트 컨텐츠 인덱싱 시스템은 텍스트 인덱싱 장치(100), 검색 서버(200) 및 텍스트 컨텐츠 스토리지(300)를 포함할 수 있다.
검색 서버(200)는 인터넷, 기업용 폐쇄형 내부망 등의 네트워크(400)를 통하여 사용자 단말(500)과 연결된다. 검색 서버(200)는 웹 문서에 대한 사용자 입력, 사용자 어플리케이션의 사용자 인터페이스 등 다양한 채널을 통하여 사용자 단말(500)로부터 검색 키워드를 수신한다. 상기 검색 키워드는 텍스트 컨텐츠 스토리지(300)에 저장된 텍스트 컨텐츠 중 어느 하나 이상을 검색하기 위한 것이다.
텍스트 컨텐츠 스토리지(300)는 데이터를 저장하는 저장 수단을 하나 이상 구비한 장치로서, 텍스트 컨텐츠를 저장한다. 텍스트 컨텐츠 스토리지(300)는 스토리지 클라우드 서버 상의 가상 스토리지 팜(farm)의 형태로 구현되거나, 분산 스토리지 시스템의 형태로 구현되거나, 레이드(RAID) 형태로 복수의 하드 디스크를 연결하여 구현된 것일 수 있다. 텍스트 컨텐츠 스토리지(300)는 데이터를 저장하고, 검색 서버(200) 및 텍스트 인덱싱 장치(100)와 연결 될 수 있는 컴퓨팅 장치이면 족하고, 상기 예시적으로 제시한 형태의 장치로 한정되지는 아니한다.
텍스트 인덱싱 장치(100)는 텍스트 컨텐츠 스토리지(300) 및 검색 서버(200)와 연결되기 위한 네트워크 인터페이스 및 인덱싱을 수행하기 위한 데이터를 저장하기 위한 저장 수단이 구비된 컴퓨팅 장치이다. 텍스트 인덱싱 장치(100)는 검색 서버(200)가 상기 검색 키워드와 상기 텍스트 컨텐츠 사이의 매칭에 참고하기 위한 인덱싱 데이터를 생성하고, 업데이트 한다. 상기 인덱싱 데이터는 상기 텍스트 컨텐츠와 일대일 매칭된다.
텍스트 컨텐츠 스토리지(300)에 새로운 텍스트 컨텐츠가 등록되면, 텍스트 인덱싱 장치(100)는 상기 등록을 감지하거나, 상기 등록에 대한 통지를 수신한다. 텍스트 인덱싱 장치(100)는 상기 등록의 감지 또는 상기 등록에 대한 통지의 수신에 응답하여, 상기 새로운 텍스트 컨텐츠에 대한 인덱싱 데이터를 생성한다. 이 때, 텍스트 인덱싱 장치(100)는 상기 새로운 텍스트 컨텐츠의 내용 데이터인 텍스트에서 하나 이상의 인덱스 아이템을 추출한다. 예를 들어, 상기 새로운 텍스트 컨텐츠에 대한 형태소 분석을 수행하거나 사전 등에 미리 저장된 코퍼스(corpus)를 추출하는 등의 방식으로 상기 인덱스 아이템들을 추출할 수 있다. 상기 인덱스 아이템은 상기 새로운 텍스트 컨텐츠에 대한 검색 키워드로 입력될 만한 후보 검색 키워드로 이해될 수 있다. 또한, 상기 인덱스 아이템들의 집합이 상기 인덱싱 데이터이다.
이하, 텍스트 인덱싱 장치(100)가 생성하고 업데이트 하는 다양한 데이터에 대하여 도 2를 참조하여 설명한다. 도 2에는 텍스트 인덱싱 장치(100)가 생성하고 업데이트 하는 다양한 데이터를 포함하는 검색 매칭 이력 데이터(1080)가 도시되어 있다. 이해의 편의를 위하여 텍스트 컨텐츠 A에 대하여 어떤 데이터가 생성되는지 설명한다.
텍스트 인덱싱 장치(100)는 텍스트 컨텐츠 A에 대하여 인덱싱 데이터(110)를 생성한다. 검색 서버(200)는 사용자 단말에서 수신된 검색 키워드가 텍스트 컨텐츠 A의 인덱싱 데이터(110)에 포함되어 있다면, 상기 검색 키워드에 대한 검색 결과로서 상기 텍스트 컨텐츠 A를 출력할 것이다. 이 때, 상기 사용자 단말에서 수신된 검색 키워드로서 텍스트 컨텐츠 A에 매칭된 것은 매칭 키워드 리스트(120)에 추가된다. 이 때, 상기 검색 키워드가 기존에 매칭 키워드 리스트(120)에 포함되지 않았던 경우에 한하여 매칭 키워드 리스트(120)에 새롭게 추가될 것이다. 또한, 상기 검색 키워드가 기존에 매칭 키워드 리스트(120)에 포함되지 않았던 새로운 것이라면, 텍스트 컨텐츠 A의 최근 매칭 키워드 추가 일자 필드에 상기 검색 키워드의 수신 시점에 대한 정보가 갱신되어 기록될 것이다. 도 2에는 최근 매칭 키워드 추가 일자(date)가 기록되어 있으나, 최근 매칭 키워드의 추가 일자 뿐만 아니라 추가 시간에 대한 정보까지 기록 될 수 있다.
텍스트 인덱싱 장치(100)는 검색 서버(200)로부터 검색 이력과 관련된 데이터를 제공 받고, 텍스트 컨텐츠 스토리지(300)로부터 텍스트 컨텐츠의 신규 업로드 이력과 관련된 데이터를 제공 받아, 텍스트 컨텐츠 A의 텍스트 컨텐츠 등록일(130) 및 최근 매칭 일자(140)에 대한 데이터를 관리한다.
몇몇 실시예들에서, 검색 매칭 이력 데이터(1080)에 포함된 정보 중 일부 필드의 데이터는 텍스트 인덱싱 장치(100)가 아니라 검색 서버(200) 또는 텍스트 컨텐츠 스토리지(300)가 생성한 것일 수 있다. 이 경우, 텍스트 인덱싱 장치(100)는 검색 서버(200) 또는 텍스트 컨텐츠 스토리지(300)에 의하여 생성된 정보를 제공 받아 검색 매칭 이력 데이터(1080)를 구성한다. 한편, 텍스트 인덱싱 장치(100)는 검색 매칭 이력 데이터(1080)를 지속적으로 업데이트 한다. 이를 위해, 텍스트 인덱싱 장치(100)는 검색 서버(200)로부터 주기적으로, 또는 비주기적으로 검색 키워드, 검색 키워드 입력 시간 정보 및 그에 따라 매치된 텍스트 컨텐츠의 식별 정보를 제공 받는다.
텍스트 컨텐츠 스토리지(300)가 새로운 텍스트 컨텐츠의 업로드 시점에 상기 새로운 텍스트 컨텐츠의 분석을 통하여 각각의 텍스트 컨텐츠의 인덱싱 데이터(110)를 생성할 수 있다. 또한, 검색 서버(200)가 자체적으로 주기적/비주기적인 인덱싱 스케줄에 따라 텍스트 컨텐츠 스토리지(300)에 인덱싱 되지 않은 텍스트 컨텐츠가 존재함을 발견하고, 상기 새로운 텍스트 컨텐츠에 대한 인덱싱 데이터를 생성할 수 있다. 텍스트 컨텐츠 등록일(130)은 텍스트 컨텐츠 스토리지(300)가 생성한 것일 수 있다. 최근 매칭 일자(140)의 정보는 검색 서버(200)에 의하여 생성된 것일 수 있다.
이미 설명한 바와 같이, 텍스트 컨텐츠 스토리지(300)에 저장되는 텍스트 컨텐츠의 개수가 증가할수록 상기 인덱싱 데이터 전체의 사이즈도 증가하는 문제가 있다. 텍스트 인덱싱 장치(100)는 검색 서버(200)에 대한 검색 키워드의 유입 및 그에 따른 텍스트 컨텐츠와의 매칭 이력을 분석하고, 분석 결과에 따라 각각의 텍스트 컨텐츠의 인덱싱 데이터에 대하여 리인덱싱을 수행할지 여부를 결정한다.
일 실시예에서, 텍스트 인덱싱 장치(100)는 제1 텍스트 컨텐츠의 매칭 키워드 리스트에 신규 매칭 키워드가 더 이상 추가되지 않은 시점으로부터 리인덱싱 타이밍 규칙에 따른 시간이 지나면 리인덱싱을 수행한다. 텍스트 인덱싱 장치(100)는 제1 텍스트 컨텐츠의 매칭 키워드 리스트에 신규 매칭 키워드가 더 이상 추가되지 않은 시점으로부터 리인덱싱 타이밍 규칙에 따른 시간이 도과 된 시점에 바로 상기 리인덱싱을 수행하거나, 제1 텍스트 컨텐츠의 매칭 키워드 리스트에 신규 매칭 키워드가 더 이상 추가되지 않은 시점으로부터 리인덱싱 타이밍 규칙에 따른 시간이 도과된 이후의 어느 시점에 상기 리인덱싱을 수행할 수 있다.
도 3을 참조하면, 본 실시예에 따를 때, 리인덱싱의 수행 시점을 보다 명확하게 이해할 수 있다. 본 실시예에 따를 때, 제1 텍스트 컨텐츠에 대한 리인덱싱의 수행 시기를 결정하기 위한 기준 시점은 상기 제1 텍스트 컨텐츠에 대한 신규의 매칭 키워드가 더 이상 발생하지 않는 시점(10)이다. 보다 정확하게는, 상기 제1 텍스트 컨텐츠가 매칭 된 신규 매칭 키워드가 마지막으로 사용자 단말로부터 수신되어, 상기 제1 텍스트 컨텐츠의 매칭 키워드 리스트에 추가된 시점이다. 시점(10)을 기준으로 리인덱싱 타이밍 규칙에 따른 기준 조건이 만족되면 상기 제1 텍스트 컨텐츠에 대한 리인덱싱이 수행된다.
일 실시예에서, 상기 리인덱싱 타이밍 규칙에 따른 기준 조건은 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 신규의 매칭 키워드가 추가 된 후, 기준 시간이 도과하는 동안 매칭 키워드의 추가가 발행하지 않는 것이다. 기준 시간(30) 동안 상기 제1 텍스트 컨텐츠가 매칭 된 신규의 매칭 키워드가 더 이상 사용자 단말로부터 입력되지 않았다면, 시점(10)으로부터 기준 시간(30)이 도과 한 시점(20)에 상기 제1 텍스트 컨텐츠에 대하여 리인덱싱을 수행하는 것으로 결정하게 된다. 이미 설명한 바와 같이, 시점(20)에 즉시 리인덱싱이 수행될 수도 있고, 시점(20) 이후의 어느 시점에 리인덱싱이 수행될 수도 있다.
일 실시예에서, 본 명세서에 기재된 상기 리인덱싱은 텍스트 컨텐츠에 대한 기존의 인덱싱 데이터를 리인덱싱 데이터로 갱신하는 것이다. 상기 리인덱싱 데이터는 상기 텍스트 컨텐츠의 매칭 키워드 리스트에 포함된 적어도 일부의 매칭 키워드들로 구성된 것이다.
상기 리인덱싱의 의미를 가상의 예시를 들어 설명한다. 제1 텍스트 컨텐츠의 매칭 키워드 리스트에 총 10개의 매칭 키워드가 순차적으로 추가된 후, 마지막 매칭 키워드가 상기 매칭 키워드 리스트에 추가된 시점(10) 이후 1년 동안은 새로운 매칭 키워드가 상기 매칭 키워드 리스트에 추가되지 않았으며, 상기 리인덱싱 타이밍 규칙이 리인덱싱 타이밍(30)을 1년의 고정 기간으로 잡는 것이라면, 텍스트 인덱싱 장치(100)는 상기 제1 텍스트 컨텐츠의 인덱싱 데이터를 상기 총 10개의 매칭 키워드를 포함하는 리인덱싱 데이터로 갱신할 것이다. 상기 리인덱싱 타이밍 규칙에 따른 기준 조건의 다양한 예시는 추후 자세히 설명한다.
마지막으로 신규 매칭 키워드가 추가된 시점으로부터 더 이상 신규 매칭 키워드가 추가되지 않는 상태가 리인덱싱 타이밍 규칙에 따른 기준 조건의 기준 기간 동안 유지된다는 것은, 기존의 매칭 키워드 리스트에 포함된 매칭 키워드들 이외의 새로운 검색 키워드가 사용자 단말로부터 수신될 가능성이 낮다는 것을 의미한다. 따라서, 기존의 매칭 키워드 리스트에 포함된 매칭 키워드들을 그대로 인덱싱 데이터로 사용하더라도, 검색 품질에 심각한 문제가 발생되지 않을 것이다. 반면에, 인덱싱 데이터 사이즈는 의미 있는 수준으로 감소하게 된다. 리인덱싱 전의 인덱싱 데이터는 텍스트 컨텐츠에 포함된 코퍼스 등 예비 검색 키워드를 모두 추출하여 모아 놓은 것이고, 상기 매칭 키워드 리스트는 상기 인덱싱 데이터에 포함된 인덱스 아이템들 중, 실제로 사용자 단말로부터 검색 키워드로서 수신되어 해당 텍스트 컨텐츠가 매칭된 이력이 있는 것들만 모아 놓은 것이기 때문이다. 이하, 본 실시예에 따른 효과가 이해될 수 있도록 도 2에 도시된 예시를 인용하여 보다 자세하게 설명한다.
인덱싱 데이터(110)는 상기 리인덱싱에 의하여 갱신 될 수 있다. 상기 인덱싱 데이터(110)는 상기 리인덱싱에 의하여 매칭 키워드 리스트(120)에 포함된 매칭 키워드들로 갱신 될 수 있다. 예를 들어, 도 2에 도시된 텍스트 컨텐츠 A는, 그 텍스트 내용의 분석 결과로 "올해 국내 주식 시장 힘 넘친다 어지간 악재 끄떡 없이 돌아간다 코스피 …"와 같은 인덱싱 데이터를 가지고 있다가, 상기 리인덱싱 후, 인덱싱 데이터가 "코스피, 주식시장, 악재"로 바뀐다. 따라서, 리인덱싱 전에는 "힘"이라는 검색 키워드가 사용자 단말로부터 수신되면, 검색 서버는 텍스트 컨텐츠 A도 매칭해 주었을 것이지만, 리인덱싱 후에는 "힘"이라는 인덱싱 아이템이 인덱싱 데이터에 존재하지 않으므로, 검색 서버는 텍스트 컨텐츠 A를 매칭하지 않게 된다. 텍스트 컨텐츠 A의 경우, 최근(2017. 6. 29.)까지도 검색 요청에 매칭되고 있으나, 매칭 키워드가 추가 된 일자(140)는 2016. 3. 12. 로, 더 이상 추가적인 텍스트 컨텐츠 A의 매칭 키워드는 사용자 단말로부터 입력되지 않고 있다. 따라서, 앞으로도 더 이상의 추가 매칭 키워드는 사용자 단말로부터 입력되지 않을 가능성이 높다. 이런 점을 고려하면, 텍스트 컨텐츠 A의 인덱싱 데이터(110)로 텍스트 컨텐츠 A의 그 동안의 모든 매칭 키워드의 집합인 매칭 키워드 리스트(120)를 사용하더라도, 텍스트 컨텐츠 A의 검색을 원하는 사용자가 입력하는 대부분의 매칭 키워드를 커버할 수 있을 것이다.
일 실시예에서, 리인덱싱 이후의 인덱싱 데이터 사이즈를 더 감소시키기 위하여, 매칭 키워드 리스트에 포함된 매칭 키워드들 중 일부만 리인덱싱 이후의 인덱싱 데이터에 포함시킬 수도 있다. 예를 들어, 상기 매칭 키워드 리스트에 포함된 매칭 키워드들 중, 최근 매칭 시점으로부터 얼마만큼의 시간이 도과 되었는지를 가리키는 에이징(aging)을 기준으로 선별된 일부의 매칭 키워드 만 리인덱싱 이후의 인덱싱 데이터에 포함될 수도 있다. 아래의 표 1은 매칭 키워드 리스트에 포함된 각각의 매칭 키워드 별 최근 매칭 시점을 표시한다.
매칭 키워드 최근 매칭 시점
코스피 2017.06.03 15:22:03
주식 시장 2017.04.03 12:24:30
악재 2016.06.03 17:22:50
나스닥 2017.06.20 15:22:28
표 1의 예시에서, 현 시점이 2017.08.30. 이고, 에이징 아웃(aging out) 기준 시점이 1년이라고 가정하면, 매칭 키워드 중 "악재"는 에이징 아웃되고, 리인덱싱 이후에 인덱싱 데이터에 포함되지 않는다. 이렇게 인덱싱 데이터의 사이즈를 감소시키더라도, 근래 들어 더 이상 사용자 단말로부터 수신되고 있지 않은 매칭 키워드는 앞으로도 사용되지 않을 가능성이 높으므로, 검색 품질에 악영향이 크지 않을 것이다.
다른 실시예에서, 텍스트 인덱싱 장치(100)는 제1 텍스트 컨텐츠의 매칭 키워드 리스트의 신규 매칭 키워드 추가 속도가 리인덱싱 타이밍 규칙에 따른 시간 이상 동안 기준치에 미달한 상태를 계속 유지하면 리인덱싱을 수행할 수 있다. 본 실시예에 대하여 도 4를 참조하여 설명한다.
도 4에 도시된 바와 같이, 본 실시예에 따를 때, 제1 텍스트 컨텐츠에 대한 리인덱싱의 수행 시기를 결정하기 위한 기준 시점은 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 개수 증가 속도가 기 지정된 기준치(예를 들어, 1주일당 1개 증가)에 미달하는 시점(40)이다. 시점(40)으로부터 리인덱싱 타이밍 규칙에 따른 기준 조건의 기준 시간(50) 동안 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 개수 증가 속도가 기 지정된 기준치에 지속적으로 미달했다면, 시점(40)으로부터 리인덱싱 타이밍 규칙에 따른 기준 조건의 기준 시간(50)이 도과 한 시점(60)에 상기 제1 텍스트 컨텐츠에 대하여 리인덱싱을 수행하는 것으로 결정하게 된다. 이미 설명한 바와 같이, 시점(60)에 즉시 리인덱싱이 수행될 수도 있고, 시점(60) 이후의 어느 시점에 리인덱싱이 수행될 수도 있다. 본 실시예에 따르면, 리인덱싱 이후 인덱싱 데이터 사이즈를 도 3을 참조하여 설명한 실시예 대비 더 감소시킬 수 있는 효과가 있다.
지금까지, 본 실시예에 따른 텍스트 컨텐츠 인덱싱 시스템의 구성 및 동작에 대하여 도 1 내지 도 4를 참조하여 설명하였다. 본 실시예에 따른 텍스트 컨텐츠 인덱싱 시스템의 구성은 도 1에 도시된 것과 달라질 수 있음을 유의한다. 예를 들어, 몇몇 실시예들에서 텍스트 인덱싱 장치(100)의 기능이 검색 서버(200) 상에서 구현되어 텍스트 인덱싱 장치(100)가 독립적으로 존재하지 않거나, 텍스트 인덱싱 장치(100)의 기능이 텍스트 컨텐츠 스토리지(300) 상에서 구현되어 텍스트 인덱싱 장치(100)가 독립적으로 존재하지 않거나, 텍스트 인덱싱 장치(100)의 기능이 검색 서버(200) 및 텍스트 컨텐츠 스토리지(300) 상에서 나뉘어 구현되어 텍스트 인덱싱 장치(100)가 독립적으로 존재하지 않을 수도 있다.
이하, 본 발명의 다른 실시예에 따른 텍스트 컨텐츠 인덱싱 방법에 대하여 설명한다. 본 실시예에 따른 방법은 컴퓨팅 장치에 의하여 수행될 수 있다. 상기 컴퓨팅 장치는, 예를 들어 도 1을 참조하여 설명된 텍스트 인덱싱 장치일 수 있다. 이하, 본 명세서에 명시되어 있지 않더라도, 도 1 내지 도 4를 참조하여 설명한 상기 텍스트 컨텐츠 인덱싱 시스템의 동작이 본 실시예에 따른 방법의 일부 동작에 반영될 수 있음을 유의한다.
본 실시예를 도 5를 참조하여 설명한다.
단계 S100에서, 검색 매칭 이력 데이터가 구성되고 업데이트 된다. 이하, 인덱싱 대상인 텍스트 컨텐츠 풀에 포함된 각각의 텍스트 컨텐츠에 대하여 단계 S102, S104, S106, S108, S110 및 S112를 수행한다. 이하, 현재 리인덱싱 진행 여부의 판단 대상인 텍스트 컨텐츠를 "현재 텍스트 컨텐츠"로 지칭한다.
단계 S102에서, 현재 텍스트 컨텐츠에 대하여 신규의 매칭 키워드가 추가된 마지막 시점을 확인한다.
단계 S104에서, 단계 S102에 따라 확인 된 시점으로부터 리인덱싱 타이밍 규칙에 따른 기준 조건의 기준 시간이 도과 되었는지 여부를 확인한다. 도과 되지 않았다면, 단계 S112에서 기 지정된 텍스트 컨텐츠 순회 규칙에 따른 다음의 텍스트 컨텐츠로 이동한다. 도과 되었다면, 단계 S108에서 현재 텍스트 컨텐츠의 인덱싱 데이터를 매칭 키워드 리스트에 포함된 적어도 일부의 매칭 키워드로 갱신하는 리인덱싱을 수행한다.
한편, 매칭 키워드 리스트에 포함된 매칭 키워드의 개수가 너무 많은 이유로 리인덱싱 이후에 기존 인덱싱 데이터의 사이즈가 감소되는 비율이 크지 않은 경우, 굳이 리인덱싱을 수행할 필요가 없을 수 있다. 따라서, 일 실시예에서, 상기 매칭 키워드 리스트에 포함된 전체 매칭 키워드의 데이터 사이즈의 상기 제1 텍스트 컨텐츠의 인덱싱 데이터의 데이터 사이즈에 대한 비율이 기준치 이하인 경우에 한하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱이 수행될 수 있다. 이 때, 매칭 키워드 리스트에 추가된 매칭 키워드가 지속적으로 유지된다면, 각각의 텍스트 컨텐츠에 대한 매칭 키워드가 지속적으로 증가함에 따라 리인덱싱 수행의 효율성이 떨어지게 되는 텍스트 컨텐츠의 개수가 지속적으로 증가할 것이다. 이러한 경우를 방지하기 위하여, 매칭 키워드 리스트에 추가된 매칭 키워드들 중 더 이상 활용되지 않는 매칭 키워드는 상기 매칭 키워드 리스트에서 제거할 수 있다. 즉, 상기 매칭 키워드 리스트에 포함된 각각의 매칭 키워드에 대하여, 최근 매칭 시점으로부터 도과된 시간이 기준치를 초과하는 올드(old) 매칭 키워드를 상기 매칭 키워드 리스트에서 삭제할 수 있다. 이러한 올드 매칭 키워드의 삭제 동작은 주기적으로 또는 비주기적으로 반복하여 수행될 수 있다.
이하, 상기 리인덱싱 타이밍 규칙에 대한 몇몇 실시예들을 설명한다. 아래 설명되는 리인덱싱 타이밍 규칙의 예시들은 본 실시예에 따른 텍스트 컨텐츠의 인덱싱 방법에 적용되는 것은 물론이고, 도 1 내지 도 4를 참조하여 설명된 텍스트 컨텐츠 인덱싱 시스템의 동작에 적용될 수도 있다.
일 실시예에서, 상기 리인덱싱 타이밍 규칙은 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 매칭 키워드가 추가 된 후, 기준 시간이 도과하는 동안 매칭 키워드의 추가가 발행하지 않는 경우, 리인덱싱 타이밍이 성립된 것으로 판단한다.
일 실시예에서, 상기 기준 시간은 상기 매칭 키워드 리스트에 포함된 매칭 키워드가 많을 수록 길어지도록 세팅된다. 상기 매칭 키워드 리스트에 다양한 매칭 키워드가 존재할 수록, 상기 매칭 키워드 리스트에 대응되는 컨텐츠 텍스트는 다양한 키워드에 의하여 조회될 수 있음을 의미하고, 그렇다면 시간의 흐름에 따라 새로운 매칭 키워드가 추가될 가능성이 높다고 볼 수 있다. 이러한 관점에서, 본 실시예에 따르면, 매칭 키워드 리스트에 포함된 매칭 키워드의 개수가 증가할 수록 리인덱싱 타이밍 규칙에 따른 출력 시간이 선형으로 증가하거나, 지수 함수에 따라 증가한다.
다른 실시예에서, 상기 기준 시간은 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터의 사이즈가 클수록 길어지도록 세팅된다. 기존의 인덱싱 데이터가 길수록, 신규의 매칭 키워드가 발생될 가능성이 높다. 이러한 관점에서, 본 실시예에 따르면 현재 텍스트 컨텐츠의 인덱싱 데이터의 사이즈가 증가할 수록 리인덱싱 타이밍 규칙에 따른 출력 시간이 선형으로 증가하거나, 지수 함수에 따라 증가한다.
또 다른 실시예에서, 상기 기준 시간은 기 지정된 전체 인덱싱 데이터 한계 사이즈에서, 상기 텍스트 인덱싱 장치에 의하여 인덱싱 되는 전체 텍스트 컨텐츠의 인덱싱 데이터의 사이즈 합산치를 뺀 값이 클수록 길어지도록 세팅된다. 이미 언급한 바와 같이, 본 발명의 몇몇 실시예에 따른 리인덱싱은 인덱싱 데이터의 사이즈를 감소시킨다. 따라서, 전체 인덱싱 데이터의 한계 사이즈에 아직 여유가 있는 경우라면, 리인덱싱을 늦게 진행해도 될 것이다. 반대로, 전체 인덱싱 데이터의 한계 사이즈에 여유가 없는 경우, 즉 텍스트 인덱싱 장치에 의하여 인덱싱 되는 전체 텍스트 컨텐츠의 인덱싱 데이터의 사이즈 합산치를 뺀 값이 작은 경우, 리인덱싱을 빠르게 진행하여 인덱싱 데이터 사이즈를 줄여줄 필요가 있다. 본 실시예에 따르면, 텍스트 컨텐츠 인덱싱 시스템의 관리자가, 전체 인덱싱 데이터의 저장 용량을 일정 범위 이내에서 관리하고자 할 때, 적절한 타이밍의 리인덱싱 전략을 제공한다.
또 다른 실시예에서, 상기 기준 시간은 상기 제1 텍스트 컨텐츠에 대한 검색 매칭 빈도가 높을 수록 길어지도록 세팅된다. 상기 제1 텍스트 컨텐츠의 검색 매칭이 빈번할 수록, 그 텍스트 컨텐츠에 대한 신규 매칭 키워드가 발생될 가능성이 높다. 따라서, 텍스트 컨텐츠에 대한 검색 매칭 빈도가 높을 수록 긴시간 동안 기다린 후, 리인덱싱을 수행할 필요가 있다. 이러한 관점에서, 본 실시예는 상기 제1 텍스트 컨텐츠의 검색 매칭 빈도를 기준으로 한 리인덱싱 전략을 제공한다.
다른 실시예에서, 상기 리인덱싱 타이밍 규칙에 따른 기준 조건은 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 신규의 매칭 키워드가 추가 된 후, 기준 조회 건수에 도달하는 동안 매칭 키워드의 추가가 발생하지 않는 것이다. 예를 들어, 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 신규의 매칭 키워드가 추가 된 후 10만 건의 조회 요청이 입력 되는 동안 신규의 매칭 키워드가 추가되지 않았다면, 상기 제1 텍스트 컨텐츠에 대한 리인덱싱이 수행될 수 있다.
상기 기준 조회 건수는, 상기 매칭 키워드 리스트에 포함된 매칭 키워드가 많을 수록 많아지도록 세팅되는 조회 건수이거나, 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터의 사이즈가 클수록 많아지도록 세팅되는 조회 건수이거나, 기 지정된 전체 인덱싱 데이터 한계 사이즈에서, 상기 텍스트 인덱싱 장치에 의하여 인덱싱 되는 전체 텍스트 컨텐츠의 인덱싱 데이터의 사이즈 합산치를 뺀 값이 클수록 많아지도록 세팅되는 조회 건수이거나, 상기 제1 텍스트 컨텐츠에 대한 검색 매칭 빈도가 높을 수록 많아지도록 세팅되는 조회 건수이거나, 상기 4개의 기준 조회 건수 세팅 방식에 중 둘 이상의 세팅 방식이 그대로 조합되거나, 가중치 반영 조합된 것일 수 있다.
다음으로, 단계 S110에서 아직 더 리인덱싱 여부를 검토할 남은 텍스트 컨텐츠가 존재하는지 확인한다. 남은 텍스트 컨텐츠가 존재한다면, 단계 S112에서, 다음 텍스트 컨텐츠로 이동한다. 리인덱싱 대상인 모든 텍스트 컨텐츠에 대하여 확인이 마무리 되었다면, 이번 주기의 리인덱싱 작업은 마무리 된 것이다. 상기 설명된 리인덱싱 작업은 주기적으로 반복하여 진행된다(S114, S116).
이하, 본 발명의 또 다른 실시예에 따른 텍스트 컨텐츠 인덱싱 방법에 대하여 도 6을 참조하여 설명한다. 본 실시예는 도 4에 도시된 리인덱싱 수행 시점 결정 전략을 반영한 텍스트 컨텐츠 인덱싱 방법인 것으로 이해될 수 있다. 본 실시예에 따른 방법은 컴퓨팅 장치에 의하여 수행될 수 있다. 상기 컴퓨팅 장치는, 예를 들어 도 1을 참조하여 설명된 텍스트 인덱싱 장치일 수 있다. 이하, 본 명세서에 명시되어 있지 않더라도, 도 1 내지 도 4를 참조하여 설명한 상기 텍스트 컨텐츠 인덱싱 시스템의 동작과, 도 5를 참조하여 설명한 상기 텍스트 컨텐츠 인덱싱 방법에 포함되는 적어도 일부가 본 실시예에 따른 방법의 일부 동작에 반영될 수 있음을 유의한다.
단계 S101에서, 검색 매칭 이력 데이터가 구성되고 업데이트 된다. 이하, 인덱싱 대상인 텍스트 컨텐츠 풀에 포함된 각각의 텍스트 컨텐츠에 대하여 단계 S103, S105, S107, S109, S111, S113 및 S115를 수행한다. 이하, 현재 리인덱싱 진행 여부의 판단 대상인 텍스트 컨텐츠를 "현재 텍스트 컨텐츠"로 지칭한다.
단계 S103에서, 현재 텍스트 컨텐츠에 대하여 신규의 매칭 키워드가 추가되는 속도를 확인한다.
단계 S105에서, 단계 S103에 따라 확인 된 신규 매칭 키워드 추가 속도가 기준치 이하인지 여부를 확인한다. 신규 매칭 키워드 추가 속도가 기준치 이상인 경우, 그 텍스트 컨텐츠는 리인덱싱 대상이 아니므로, 다음 텍스트 컨텐츠로 이동한다(S111). 신규 매칭 키워드 추가 속도가 기준치 미만인 경우, 단계 S107에서 신규 매칭 키워드 추가 속도가 기준치 이하로 유지된 지속 시간이, 리인덱싱 타이밍 규칙에 따른 시간을 도과 했는지 여부를 확인한다. 도과 되지 않았다면(S109), 단계 S111에서 기 지정된 텍스트 컨텐츠 순회 규칙에 따른 다음의 텍스트 컨텐츠로 이동한다. 도과 되었다면(S109), 단계 S113에서 현재 텍스트 컨텐츠의 인덱싱 데이터를 매칭 키워드 리스트에 포함된 적어도 일부의 매칭 키워드로 갱신하는 리인덱싱을 수행한다.
단계 S115에서 아직 더 리인덱싱 여부를 검토할 남은 텍스트 컨텐츠가 존재하는지 확인한다. 남은 텍스트 컨텐츠가 존재한다면, 단계 S112에서, 다음 텍스트 텐츠로 이동한다. 리인덱싱 대상인 모든 텍스트 컨텐츠에 대하여 확인이 마무리 되었다면, 이번 주기의 리인덱싱 작업은 마무리 된 것이다. 상기 설명된 리인덱싱 작업은 주기적으로 반복하여 진행된다(S114, S116).
이하, 본 발명의 또 다른 실시예에 따른 텍스트 컨텐츠 인덱싱 장치의 구성 및 동작을 도 7을 참조하여 설명한다. 이하, 본 명세서에 명시되어 있지 않더라도, 도 1 내지 도 4를 참조하여 설명한 상기 텍스트 컨텐츠 인덱싱 시스템의 동작과, 도 5 및 도 6을 참조하여 설명한 상기 텍스트 컨텐츠 인덱싱 방법에 포함되는 적어도 일부가 본 실시예에 따른 텍스트 컨텐츠 인덱싱 장치의 일부 동작에 반영될 수 있음을 유의한다.
본 실시예에 따른 텍스트 컨텐츠 인덱싱 장치(100)는 프로세서(1002), 텍스트 컨텐츠 스토리지(300)와 검색 서버(200) 간에 데이터 송수신을 중개하는 네트워크 인터페이스(1004), 검색 매칭 이력 데이터(1080)를 저장하는 스토리지(1008), RAM(1006) 및 시스템 버스(1000)를 포함한다.
RAM(1006)에는 초기 인덱싱 오퍼레이션(1062), 리인덱싱 관리 오퍼레이션(1064), 검색 매칭 이력 업데이트 오퍼레이션(1066) 및 검색 엔진 연동 오퍼레이션(1068)이 로드 되고, 상기 로드 된 오퍼레이션은 프로세서(1002)에서 실행된다.
초기 인덱싱 오퍼레이션(1062)은 신규로 등록된 텍스트 컨텐츠에 대하여 인덱싱 데이터를 생성한다. 리인덱싱 관리 오퍼레이션(1064)은 도 5 또는 도 6을 참조하여 설명된 리인덱싱의 주기적/비주기적 반복 실행을 담당한다. 검색 매칭 이력 업데이트 오퍼레이션(1066)은 도 2 등을 참조하여 설명된 검색 매칭 이력 데이터(1080)의 업데이트를 담당한다. 검색 엔진 연동 오퍼레이션(1068)은 네트워크 인터페이스(1004)를 통하여 연동되는 검색 서버(200)와의 데이터 송수신을 통해, 검색 서버(200)로부터 검색 이력과 관련 된 데이터를 제공 받고, 검색 서버(200)에 각각의 텍스트 컨텐츠의 인덱싱 데이터를 제공함으로써, 검색 서버(200)가 신속하게 텍스트 컨텐츠의 검색을 수행할 수 있도록 돕는다.
지금까지 설명된 본 발명의 실시예에 따른 방법들은 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 클라우드 서비스를 위한 서버 풀에 속한 물리 서버, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치를 모두 포함한다.
상기 컴퓨터프로그램은 DVD-ROM, 플래시 메모리 장치 등의 기록매체에 저장된 것일 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.

Claims (11)

  1. 텍스트 인덱싱 장치가, 제1 텍스트 컨텐츠에 대한 매칭 키워드가 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 추가된 시점을 기준으로 리인덱싱 타이밍 규칙에 따른 기준 조건이 만족되면, 상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계; 및
    상기 텍스트 인덱싱 장치가, 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터를 상기 리인덱싱 수행 결과 생성된 리인덱싱 데이터로 갱신하는 단계를 포함하고,
    상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계는,
    상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 매칭 키워드가 추가 된 후, 기준 시간이 도과하는 동안 매칭 키워드의 추가가 발행하지 않으면, 상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱을 수행하는 단계를 포함하는,
    텍스트 컨텐츠의 인덱싱 방법.
  2. 제1 항에 있어서,
    상기 제1 텍스트 컨텐츠에 대한 리인덱싱을 수행하는 단계는,
    상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 포함된 적어도 일부의 매칭 키워드들로 구성된 상기 리인덱싱 데이터를 생성하는 단계를 포함하는,
    텍스트 컨텐츠의 인덱싱 방법.
  3. 제2 항에 있어서,
    상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 포함된 적어도 일부의 매칭 키워드들로 구성된 상기 리인덱싱 데이터를 생성하는 단계는,
    상기 매칭 키워드 리스트에 포함된 매칭 키워드들 중, 최근 매칭 시점으로부터 얼마만큼의 시간이 도과되었는지를 가리키는 에이징(aging)을 기준으로 선별된 일부의 매칭 키워드들로 구성된 상기 리인덱싱 데이터를 생성하는 단계를 포함하는,
    텍스트 컨텐츠의 인덱싱 방법.
  4. 제1 항에 있어서,
    상기 기준 시간은, 상기 매칭 키워드 리스트에 포함된 매칭 키워드가 많을 수록 길어지도록 세팅되는 시간인,
    텍스트 컨텐츠의 인덱싱 방법.
  5. 제1 항에 있어서,
    상기 기준 시간은, 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터의 사이즈가 클수록 길어지도록 세팅되는 시간인,
    텍스트 컨텐츠의 인덱싱 방법.
  6. 제1 항에 있어서,
    상기 기준 시간은, 기 지정된 전체 인덱싱 데이터 한계 사이즈에서, 상기 텍스트 인덱싱 장치에 의하여 인덱싱 되는 전체 텍스트 컨텐츠의 인덱싱 데이터의 사이즈 합산치를 뺀 값이 클수록 길어지도록 세팅되는 시간인,
    텍스트 컨텐츠의 인덱싱 방법.
  7. 제1 항에 있어서,
    상기 기준 시간은, 상기 제1 텍스트 컨텐츠에 대한 검색 매칭 빈도가 높을 수록 길어지도록 세팅되는 시간인,
    텍스트 컨텐츠의 인덱싱 방법.
  8. 제1 항에 있어서,
    상기 리인덱싱 타이밍 규칙에 따른 기준 조건은,
    상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 매칭 키워드가 추가 된 후, 기준 조회 건수에 도달하는 동안 매칭 키워드의 추가가 발생하지 않는 것인,
    텍스트 컨텐츠의 인덱싱 방법.
  9. 제1 항에 있어서,
    상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계는,
    상기 매칭 키워드 리스트에 포함된 전체 매칭 키워드의 데이터 사이즈의 상기 제1 텍스트 컨텐츠의 인덱싱 데이터의 데이터 사이즈에 대한 비율이 기준치 이하인 경우에 한하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계를 포함하는,
    텍스트 컨텐츠의 인덱싱 방법.
  10. 제9 항에 있어서,
    상기 텍스트 인덱싱 장치가, 상기 리인덱싱을 수행하는 단계 이전에, 상기 매칭 키워드 리스트에 포함된 각각의 매칭 키워드에 대하여, 최근 매칭 시점으로부터 도과된 시간이 기준치를 초과하는 올드 매칭 키워드를 상기 매칭 키워드 리스트에서 삭제하는 단계를 더 포함하는,
    텍스트 컨텐츠의 인덱싱 방법.
  11. 텍스트 인덱싱 장치가, 단위 시간당 제1 텍스트 컨텐츠에 대한 매칭 키워드가 상기 제1 텍스트 컨텐츠에 대한 매칭 키워드 리스트에 추가되는 개수가 리인덱싱 타이밍 규칙에 따른 기준 조건이 만족되는 동안 기준치에 미달하면, 상기 매칭 키워드 리스트를 이용하여 상기 제1 텍스트 컨텐츠에 대한 리인덱싱(re-indexing)을 수행하는 단계; 및
    상기 텍스트 인덱싱 장치가, 상기 제1 텍스트 컨텐츠에 대한 인덱싱 데이터를 상기 리인덱싱 수행 결과 생성된 리인덱싱 데이터로 갱신하는 단계를 포함하는,
    텍스트 컨텐츠의 인덱싱 방법.
KR1020170121414A 2017-09-20 2017-09-20 텍스트 컨텐츠 인덱싱 방법 및 그 장치 KR102326121B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170121414A KR102326121B1 (ko) 2017-09-20 2017-09-20 텍스트 컨텐츠 인덱싱 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170121414A KR102326121B1 (ko) 2017-09-20 2017-09-20 텍스트 컨텐츠 인덱싱 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20190032943A KR20190032943A (ko) 2019-03-28
KR102326121B1 true KR102326121B1 (ko) 2021-11-12

Family

ID=65908253

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170121414A KR102326121B1 (ko) 2017-09-20 2017-09-20 텍스트 컨텐츠 인덱싱 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102326121B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184956A1 (en) 2010-01-27 2011-07-28 Aurumis, Inc. Accessing digitally published content using re-indexing of search results
JP2013145448A (ja) 2012-01-13 2013-07-25 Toshiba Corp 文書検索システム、文書検索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4342753B2 (ja) 2001-08-10 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
CN102316127B (zh) * 2010-06-29 2014-04-23 阿尔卡特朗讯 无线通信系统中基于分布式存储的文件传输方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184956A1 (en) 2010-01-27 2011-07-28 Aurumis, Inc. Accessing digitally published content using re-indexing of search results
JP2013145448A (ja) 2012-01-13 2013-07-25 Toshiba Corp 文書検索システム、文書検索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Boon Thau Loo et al., Enhancing P2P File-Sharing with an Internet-Scale Query Processor. in Proceedings of the 30th International Conference on Very Large Databases, 2004.09. pages 432-443. 1부.*
김영자, 배종민. GDIT를 기반으로 한 구조적 문서의 효율적 검색과 갱신을 위한 인덱스 설계. 한국정보처리학회 논문지 제7권 제2호. 2000.02. 411-425페이지. 1부.*

Also Published As

Publication number Publication date
KR20190032943A (ko) 2019-03-28

Similar Documents

Publication Publication Date Title
US10230668B2 (en) Information replying method and apparatus
US20200264923A1 (en) Information Processing Method and Apparatus
US7721288B2 (en) Organizing transmission of repository data
US20190311009A1 (en) Method and system for providing context based query suggestions
US20100318538A1 (en) Predictive searching and associated cache management
US10929397B2 (en) Forecasting query access plan obsolescence
US20080126311A1 (en) Automatic index creation based on unindexed search evaluation
CA2829735A1 (en) Method and system for information modeling and applications thereof
US20110040762A1 (en) Segmenting postings list reader
EP3385864A1 (en) Method and device for establishing index
US11386131B2 (en) System and method for multi-language search
CN110637292B (zh) 用于查询资源高速缓存的系统和方法
RU2595523C2 (ru) Способ обработки изображения, способ создания индекса изображения, способ обнаружения соответствия изображению из хранилища изображений и сервер (варианты)
JP2008198237A (ja) 構造化文書管理システム
CN110674387B (zh) 用于数据搜索的方法、装置和计算机存储介质
CN113849499A (zh) 数据的查询方法、装置、存储介质及电子装置
US11394748B2 (en) Authentication method for anonymous account and server
US20210042302A1 (en) Cost-based optimization for document-oriented database queries
KR102326121B1 (ko) 텍스트 컨텐츠 인덱싱 방법 및 그 장치
CN106844406B (zh) 检索方法和检索装置
CN111767282A (zh) 基于MongoDB的存储系统及数据插入方法和存储介质
EP3076308B1 (en) Telecommunication method for handling a database query in a telecommunication system
US20210097049A1 (en) Method, device and computer program product for managing index tables
CN113868533A (zh) 应用搜索方法、装置、电子设备及存储介质
US9928274B2 (en) Dynamically adjust duplicate skipping method for increased performance

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant