KR20190038310A - 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법 - Google Patents
검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20190038310A KR20190038310A KR1020180098495A KR20180098495A KR20190038310A KR 20190038310 A KR20190038310 A KR 20190038310A KR 1020180098495 A KR1020180098495 A KR 1020180098495A KR 20180098495 A KR20180098495 A KR 20180098495A KR 20190038310 A KR20190038310 A KR 20190038310A
- Authority
- KR
- South Korea
- Prior art keywords
- document
- node
- documents
- order
- nodes
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법에 관한 것이다. 본 발명에 따르면, 다양성 인덱스 기반의 검색 장치를 이용한 검색 방법에 있어서, 복수의 키워드가 조합된 질의어에 대응하여 도출된 문서 검색 리스트 내 문서들 각각을 대상으로, 상기 복수의 키워드 중 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 단계와, 전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계와, 상기 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 단계와, 상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 문서 검색 리스트 내 문서들의 표출 순서를 재정렬하는 단계, 및 상기 재정렬된 표출 순서대로 상기 문서 검색 리스트를 제공하는 단계를 포함하는 문서 검색 방법을 제공한다.
본 발명에 따르면, 검색 리스트 내 문서들에 대해 생성한 인덱스 트리를 이용하여 검색 결과를 재정렬하여 제공함으로써 검사자의 검색 노력 및 검토 비용을 최소화할 수 있는 이점이 있다.
본 발명에 따르면, 검색 리스트 내 문서들에 대해 생성한 인덱스 트리를 이용하여 검색 결과를 재정렬하여 제공함으로써 검사자의 검색 노력 및 검토 비용을 최소화할 수 있는 이점이 있다.
Description
본 발명은, 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 주어진 검색 결과 내에서 검사자의 검토 비용(Review Efforts)을 최소화할 수 있는 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법에 관한 것이다.
웹 사이트, 각종 DB, 포털 사이트 등에서 수행되는 문서 검색의 경우 키워드 입력에 기초하여 이루어진다.
원하는 모든 문서를 찾는데 주안점을 두는 검색 방식을 재현율 기반(Recall-Oriented)의 검색 방식이라 한다. 재현율을 최대화하는 동시에 검토해야할 문서의 수를 최소화하는 것은 경제적, 사회적, 기술적으로 중요한 문제이다. 또한, 사용자(reviewr)는 정확도(Precision)와 재현율(Recall)의 균형을 이루는 검색 결과가 도출되기를 원하며, 이러한 검색 결과는 관련성이 높은 문서가 상위 결과 목록에 노출된다는 것을 보장한다.
따라서, 재현율이 우수한 검색 시스템이라 하더라도, 검토 시간(검토 비용) 및 정확도를 고려해야 한다. 만일, 관련도 높은 문서가 검색 목록 상의 하위에 위치할 경우 사용자는 검색 결과를 목록 끝까지 모두 확인해야 하므로, 사용자의 문서 검색(검토) 시간이 증가하는 문제가 있으며 이는 매우 비효율적이다. 하지만, 관련도 높은 문서가 검색 목록의 상위에 노출된다면, 검색 시간과 노력을 상당히 줄일 수 있다.
따라서 검색 엔진 등에서 특정 질의어에 대응하는 검색 결과를 제공하는데 있어, 실제 검색을 수행하는 인적 요소인 검사자의 노력(Review Efforts)을 최소화할 수 있는 기법이 요구된다.
본 발명의 배경이 되는 기술은 한국공개특허 제2007-0041068호(2007.04.18 공개)에 개시되어 있다.
본 발명은, 주어진 검색 결과 리스트 내에서 검사자의 검토 비용을 최소화할 수 있는 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법을 제공하는데 목적이 있다.
본 발명은, 다양성 인덱스 기반의 검색 장치를 이용한 검색 방법에 있어서, 복수의 키워드가 조합된 질의어에 대응하여 도출된 문서 검색 리스트 내 문서들 각각을 대상으로, 상기 복수의 키워드 중 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 단계와, 전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계와, 상기 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 단계와, 상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 문서 검색 리스트 내 문서들의 표출 순서를 재정렬하는 단계, 및 상기 재정렬된 표출 순서대로 상기 문서 검색 리스트를 제공하는 단계를 포함하는 문서 검색 방법을 제공한다.
또한, 상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계는, 임계치 이하의 빈도로 분석된 키워드를 상기 키워드 집합에서 제거할 수 있다.
또한, 인덱스 트리를 생성하는 단계는, 상기 문서 별로 구축된 상기 키워드 집합에 대한 상기 원소의 나열 순서를 기초로 뿌리 노드로부터 분기되는 트리 구조를 생성하되, 상기 키워드 집합 내 최우선 순위의 원소에 대응하여 상기 뿌리 노드에 직접 연결되는 최상위 노드를 생성한 후, 차순위의 원소에 대응하여 상기 최상위 노드에 대한 하위 노드를 차례로 생성하며, 상기 생성 과정에서 상기 최우선 순위의 원소가 동종인 문서들 간에는 상기 최상위 노드를 하나의 공통 노드로 통합하여 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 후에 다음의 하위 노드를 개별 분기시킬 수 있다.
또한, 상기 인덱스 트리를 생성하는 단계는, 상기 최상위 노드 및 하위 노드 각각에 대해 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보를 매핑하며, 상기 라벨링값은 노드의 초기 생성 시에 제1 값을 가지며 상기 통합이 발생할 때마다 제1 값 씩 증가될 수 있다.
또한, 상기 인덱스 트리를 생성하는 단계는, 상기 최상위 노드에 각각 매핑된 라벨링값을 기초로 상기 뿌리 노드로부터 분기된 최상위 노드들의 배열 순서를 정렬하고, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한 다음, 상기 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 상기 키워드 집합 내 소속 원소로 하는 해당 문서의 고유 넘버를 상기 해당 하위 노드에 최종 매핑할 수 있다.
또한, 상기 표출 순서를 재정렬하는 단계는, 상기 하위 노드 각각에 매핑된 문서의 고유 넘버, 상기 최상위 노드들의 좌우 배열 순서, 그리고 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여 상기 문서들의 표출 순서를 재정렬하되, 트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 문서를 상위로 정렬시킬 수 있다.
또한, 상기 문서 검색 방법은, 상기 제공된 문서 검색 리스트 내에서 노이즈 문서로 분석된 제1 문서가 사용자로부터 선택되면, 상기 제1 문서에 대응된 제1 하위 노드로부터 다른 그룹 내의 대표 하위 노드까지의 거리를 각각 연산하여, 상기 거리 및 상기 대표 하위 노드에 기 매핑된 상기 라벨링값을 조합하여 다양성 지수를 연산하는 단계, 및 상기 문서들 중 상기 다양성 지수가 가장 높은 그룹에 속한 문서들이 문서 검색 리스트 상의 상위에 노출되도록, 상기 문서들의 표출 순서를 수정하는 단계를 더 포함할 수 있다.
또한, 상기 다양성 지수(Ok)는 아래 수학식에 의해 연산될 수 있다.
여기서, λ는 0과 1 사이에서 결정되는 가중치, D는 상기 제1 하위 노드와 상기 다른 그룹 내의 대표 하위 노드 사이의 노드 간 거리, R은 상기 대표 하위 노드 상에 매핑된 라벨링값을 나타낸다.
또한. 상기 그룹 내 대표 하위 노드는, 상기 그룹 내에서 상기 문서가 매핑된 하위 노드 중 가장 낮은 트리 깊이를 갖는 하위 노드를 나타내며, 상기 표출 순서를 수정하는 단계는, 상기 제1 하위 노드가 소속된 제1 그룹의 문서를 문서 검색 리스트 상의 최하위로 이동시킬 수 있다.
그리고, 본 발명은, 검색 결과 다양성 인덱스 기반의 효율적 검색 장치에 있어서, 복수의 키워드가 조합된 질의어에 대응하여 도출된 문서 검색 리스트 내 문서들 각각을 대상으로, 상기 복수의 키워드 중 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 키워드 집합 생성부와, 전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 키워드 정렬부와, 상기 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 인덱스 트리 생성부와, 상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 문서 검색 리스트 내 문서들의 표출 순서를 재정렬하는 제어부, 및 상기 재정렬된 표출 순서대로 상기 문서 검색 리스트를 제공하는 출력부를 포함하는 문서 검색 장치를 제공한다.
또한, 상기 키워드 정렬부는, 임계치 이하의 빈도로 분석된 키워드를 상기 키워드 집합에서 제거할 수 있다.
또한, 상기 인덱스 트리 생성부는, 상기 문서 별로 구축된 상기 키워드 집합에 대한 상기 원소의 나열 순서를 기초로 뿌리 노드로부터 분기되는 트리 구조를 생성하되, 상기 키워드 집합 내 최우선 순위의 원소에 대응하여 상기 뿌리 노드에 직접 연결되는 최상위 노드를 생성한 후, 차순위의 원소에 대응하여 상기 최상위 노드에 대한 하위 노드를 차례로 생성하며, 상기 생성 과정에서 상기 최우선 순위의 원소가 동종인 문서들 간에는 상기 최상위 노드를 하나의 공통 노드로 통합하여 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 후에 다음의 하위 노드를 개별 분기시킬 수 있다.
또한, 상기 인덱스 트리 생성부는, 상기 최상위 노드 및 하위 노드 각각에 대해 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보를 매핑하며, 상기 라벨링값은 노드의 초기 생성 시에 제1 값을 가지며 상기 통합이 발생할 때마다 제1 값 씩 증가될 수 있다.
또한, 상기 인덱스 트리 생성부는, 상기 최상위 노드에 각각 매핑된 라벨링값을 기초로 상기 뿌리 노드로부터 분기된 최상위 노드들의 배열 순서를 정렬하고, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한 다음, 상기 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 상기 키워드 집합 내 소속 원소로 하는 해당 문서의 고유 넘버를 상기 해당 하위 노드에 최종 매핑할 수 있다.
또한, 상기 제어부는, 상기 하위 노드 각각에 매핑된 문서의 고유 넘버, 상기 최상위 노드들의 좌우 배열 순서, 그리고 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여 상기 문서들의 표출 순서를 재정렬하되, 트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 문서를 상위로 정렬시킬 수 있다.
또한, 상기 제어부는, 상기 제공된 문서 검색 리스트 내에서 노이즈 문서로 분석된 제1 문서가 사용자로부터 선택되면, 상기 제1 문서에 대응된 제1 하위 노드로부터 다른 그룹 내의 대표 하위 노드까지의 거리를 각각 연산하여, 상기 거리 및 상기 대표 하위 노드에 기 매핑된 상기 라벨링값을 조합하여 다양성 지수를 연산하고, 상기 문서들 중 상기 다양성 지수가 가장 높은 그룹에 속한 문서들이 문서 검색 리스트 상의 상위에 노출되도록, 상기 문서들의 표출 순서를 수정할 수 있다.
또한, 상기 제어부는, 상기 표출 순서의 수정 시, 상기 제1 하위 노드가 소속된 제1 그룹의 문서를 문서 검색 리스트 상의 최하위로 이동시킬 수 있다.
본 발명에 따르면, 검색 엔진에서 문서 검색 결과를 제공함에 있어 검색 리스트 내 문서들에 대해 구축한 인덱스 트리를 활용하여 검색 리스트 내 문서들의 표출 순서를 재정렬하여 제공함으로써 검사자의 검색 노력 및 검토 비용을 최소화할 수 있는 이점이 있다.
도 1은 본 발명의 실시예에 따른 검색 결과 다양성 인덱스 기반의 효율적 검색 장치의 구성을 나타낸 도면이다.
도 2는 도 1의 장치를 이용한 효율적 문서 검색 방법을 설명하는 도면이다.
도 3은 도 2의 220 단계를 설명하기 위한 도면이다.
도 4는 도 3에서 각 키워드를 빈도 순으로 정렬한 모습을 나타낸 도면이다.
도 5는 도 3의 결과를 이용하여 생성한 인덱스 트리를 나타낸 도면이다.
도 6은 본 발명의 실시예에서 문서별 생성한 키워드 집합 내 원소의 종류와 배열 순서를 기초로 트리를 점차 확장하는 과정을 설명하는 도면이다.
도 7은 도 6의 과정을 통해 생성된 트리 구조를 나타낸 도면이다.
도 8은 도 7을 재정렬한 결과를 나타낸 도면이다.
도 9는 도 8에 도시된 트리 내의 노드에 대해 그에 대응되는 문서의 고유 넘버를 매핑하는 방법을 설명하는 도면이다.
도 10은 도 5의 결과로부터 각 문서를 복수의 그룹으로 구분한 모습을 나타낸 도면이다.
도 11은 도 10의 결과에 대응되는 문서 검색 결과의 다양성 개념을 도시한 도면이다.
도 12는 도 11에서의 다양성 검색 과정을 예시한 도면이다.
도 2는 도 1의 장치를 이용한 효율적 문서 검색 방법을 설명하는 도면이다.
도 3은 도 2의 220 단계를 설명하기 위한 도면이다.
도 4는 도 3에서 각 키워드를 빈도 순으로 정렬한 모습을 나타낸 도면이다.
도 5는 도 3의 결과를 이용하여 생성한 인덱스 트리를 나타낸 도면이다.
도 6은 본 발명의 실시예에서 문서별 생성한 키워드 집합 내 원소의 종류와 배열 순서를 기초로 트리를 점차 확장하는 과정을 설명하는 도면이다.
도 7은 도 6의 과정을 통해 생성된 트리 구조를 나타낸 도면이다.
도 8은 도 7을 재정렬한 결과를 나타낸 도면이다.
도 9는 도 8에 도시된 트리 내의 노드에 대해 그에 대응되는 문서의 고유 넘버를 매핑하는 방법을 설명하는 도면이다.
도 10은 도 5의 결과로부터 각 문서를 복수의 그룹으로 구분한 모습을 나타낸 도면이다.
도 11은 도 10의 결과에 대응되는 문서 검색 결과의 다양성 개념을 도시한 도면이다.
도 12는 도 11에서의 다양성 검색 과정을 예시한 도면이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
본 발명은 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법으로, 문서 검색 엔진에서 문서 검색 결과를 제공하는데 있어, 관련도 높은 문서가 검색 결과 리스트 상의 상위에 보여지도록 리스트 내 문서 표출 순서를 조절함으로써, 문헌 검색을 수행하는 인적 요소인 검사자(이하, 사용자)의 노력(Review Efforts)을 최소화할 수 있는 기법을 제공한다.
본 발명의 실시예의 경우 소정 질의어에 대응하여 검색된 문서 검색 리스트 내 문서들에 대한 연관 관계를 인덱스 트리 구조로 도식화하고, 도식화한 인덱스 트리 내 각 노드의 위치 및 연결 관계를 기초로 문서들의 표출 순서를 재정렬하여 출력할 수 있다.
일반적으로 검색 리스트 상의 상위에 원하는 문서가 노출되는 경우 검색 시간과 노력을 상당히 줄일 수 있게 된다. 따라서, 사용자의 질의 의도와 관련도 높은 문서, 즉 찾고자 하는 타겟 문서들을 리스트 상의 상위 부분에 재배열하여 제공한다면 리스트 상의 하위에 존재하는 관련성 낮은 문서들까지 모두 검토해야 하는 상황을 배제할 수 있어 사용자의 검토 시간과 노력을 최소화할 수 있다.
간단한 예로, 본 발명의 기법에 의하면, 소정 검색 엔진에서 도출한 문서 검색 리스트 내의 1번 부터 10번까지의 문서들 중에, 5번 및 7번 문서를 리스트 상의 1번과 2번 자리로 이동시켜 수정 제공함으로써, 원하는 타겟 문서를 탐색하는데 소요되는 문서 검토 시간과 노력을 최소화할 수 있다.
이하의 본 발명의 실시예에서 검색 엔진이란, 웹 사이트, 포털, 논문 검색 사이트, 뉴스 사이트, 중매 사이트, 각종 DB 등에서 문서 검색을 위해 내장된 다양한 검색 엔진에 해당할 수 있다. 또한, 후술하는 문서 검색 장치는 해당 검색 엔진에 포함되어 구현되거나 검색 엔진과 연동하여 구동될 수 있다. 물론, 문서 검색 장치는 소프트웨어 등과 같은 응용 프로그램으로 구현될 수 있다.
도 1은 본 발명의 실시예에 따른 검색 결과 다양성 인덱스 기반의 효율적 검색 장치의 구성을 나타낸 도면이다.
도 1에 나타낸 것과 같이, 본 발명의 실시예에 따른 다양성 인덱스 기반의 효율적 검색 장치(100)는 키워드 집합 생성부(110), 키워드 정렬부(120), 인덱스 트리 생성부(130), 제어부(140) 및 출력부(150)를 포함한다.
키워드 집합 생성부(110)는 복수의 키워드가 조합된 질의어에 대응하여 도출된 문서 검색 리스트 내 문서들 각각을 대상으로, 복수의 키워드 중 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성한다.
키워드 정렬부(120)는 전체 키워드 집합에 대해 원소로 소속된 빈도가 높은 키워드를 분석한 다음, 분석된 빈도 순으로 키워드 집합 내 원소의 나열 순서를 변경한ㄷ.
인덱스 트리 생성부(130)는 문서들 각각에 대해 구축된 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리(Index Tree)를 생성한다.
제어부(140)는 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 문서 검색 리스트 내 문서들의 표출 순서를 재정렬한다.
그러면, 출력부(150)는 재정렬된 표출 순서대로 사용자에게 문서 검색 리스트를 출력하여 제공한다.
다음은 도 1을 이용한 문서 검색 방법을 더욱 상세히 설명한다.
도 2는 도 1의 장치를 이용한 효율적 문서 검색 방법을 설명하는 도면이다.
먼저, 키워드 집합 생성부(110)는 복수의 키워드가 조합된 질의어에 대응하여 도출된 문서 검색 리스트 내 문서들 각각을 대상으로, 복수의 키워드 중 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성한다(S210).
여기서, 질의어는 찾고자 하는 문서를 검색하기 위한 통상의 검색어를 의미하며 복수의 키워드를 포함할 수 있다. 예를 들어, 전기차 배터리 시장 동향과 관련한 문서 검색이 필요한 경우, "전기차", "배터리", "시장" 등과 같은 여러 키워드를 조합하여 질의어를 구성할 수 있다.
일반적으로 검색 엔진의 검색 창에는 여러 키워드를 한번에 입력하며, 필요한 경우에 특정 검색 범주나 연산자를 이용하여 질의어 조건을 구성하기도 한다. 검색 엔진은 해당 질의어 조건과 관련된 문서들을 탐색한 후에 문서 검색 리스트를 화면에 출력 제공한다.
검색 엔진은 내부적인 규칙 등에 의해 결정된 표출 순번에 따라, 검색된 문서들을 화면 상에 위에서 아래로 정렬하여 제공한다. 예를 들어, "전기차 배터리 시장과 관련하여 총 10건의 문서가 검색된 경우에, 1번부터 10번까지 총 10개의 문서들이 검색 리스트 상에 상하 배열되어 제공되며 별도의 칸으로 구획되어 제공될 수 있다. 물론, 각 문서에 대한 대표 정보들(제목, 요약 정보, 게시일 등)이 해당 문서 란에 함께 제공될 수 있다.
다만, 검색 엔진에서 도출한 리스트 내 10개의 문서 중에는 질의어 구성에 사용된 모든 키워드들이 문서 내 존재하는 경우도 있고 일부 키워드만 존재하는 경우도 있다.
이에 따라, 키워드 집합 생성부(110)는 문서 검색 리스트 상의 N개(예를 들어, N=10)의 문서 각각을 대상으로, 검색에 사용된 P개의 키워드 단어 중에서 해당 문서 내 실제 존재하는 키워드 단어를 분석하며, 이를 각각 원소로 하는 키워드 집합을 생성한다. 그 결과, N개의 문서에 대응하는 N개의 키워드 집합이 생성된다. 또한, 각각의 키워드 집합은 1개 내지 P개의 원소로 구성될 수 있다.
여기서 물론, 문서 내에 키워드의 존재 여부 판단 시에는 문서 내의 선택된 적어도 하나의 영역(ex, 제목, 본문, 등)만을 조사할 수도 있고 문서 전체 영역을 모두 조사할 수도 있다.
이후, 키워드 정렬부(120)는 전체 N개의 키워드 집합을 이용하여 집합 내 원소로 소속된 빈도가 높은 키워드를 분석하고, 빈도가 높은 순으로 키워드 집합 내 원소의 나열 순서를 변경한다(S220). 이에 따라, 각각의 키워드 집합은 집합 내 소속된 원소들의 배열이 변경될 수 있다.
도 3은 도 2의 220 단계를 설명하기 위한 도면이고, 도 4는 도 3에서 각 키워드를 빈도 순으로 정렬한 모습을 나타낸 도면이다.
이하에서는 설명의 편의상 8개의 키워드(a, b, c, d, e, f, g, i)를 조합하여 질의어를 구성한 경우를 가정하여 설명한다. 물론 질의어 구성 시에는 연산자 등의 조건이 포함될 수도 있다.
먼저, 도 3에서 첫 번째 열(DID)은 상술한 키워드들이 조합된 질의어에 대응하여 검색 엔진에서 검색한 문서 검색 리스트 내 10개 문서에 대한 고유 번호(d1~d10)를 차례로 나열한 것이다.
두 번째 열(Original Keywords)은 S210 단계를 수행한 결과로서, 각 문서마다 도출된 키워드 집합을 나타낸다. d1 문서의 경우 8개 키워드 중에서 c,f,g,i를 포함한 4개의 키워드가 문서 내 존재하므로, 키워드 집합은 {c,f,g,i}가 된다. d10 문서의 경우 8개 키워드 중에서 d,e를 포함한 2개의 키워드가 문서 내 존재하므로, 키워드 집합은 {d,e}가 된다.
키워드 정렬부(120)는 생성된 총 10개의 키워드 집합을 이용하여, 집합 내 소속된 빈도(frequency)가 높은 키워드 원소를 분석한다. 각 키워드 원소의 빈도를 분석하여 내림차순으로 정렬한 결과는 도 4와 같다.
도 3 및 도 4를 참조하면, 키워드 d는 총 6개 문서(d4,d6~d10)에 대한 키워드 집합 내 각각 소속되어 있으므로 빈도는 6이 된다. 그러나, 키워드 i와 j의 경우 각각 1개 문서에만 소속된 경우로서 빈도는 1이다.
여기서, 키워드 정렬부(120)는 임계치(ex, 2) 미만의 빈도로 분석된 키워드 i와 j를 키워드 집합에서 제거하며, 그 결과는 도 3의 세 번째 열(Fre. keywords)과 같다. 이처럼 빈번하게 발생하지 않은 키워드는 분석 대상에서 제외한다. 즉, 임계치는 집합 내 소속된 키워드 원소의 빈도가 도달해야 하는 유의미한 달성 조건치에 해당하는 것으로, 본 발명의 실시예에서 임계치 미만의 키워드 원소는 버리고 진행한다.
이후, 키워드 정렬부(120)는 각 키워드 집합 내 원소의 나열 순서를 빈도 순으로 정렬한다. 정렬 결과는 도 3의 네 번째 열(Ordered Freq)과 같다. 예를 들어 f들어, d1의 경우, 키워드 i를 제거한 키워드 집합은 {c,f,g}이고, 이를 도 4에 도시된 빈도 순으로 정렬하면 {c,g,f}가 된다.
이러한 방법으로 각각의 문서 별로 그에 대응하는 키워드 집합을 도 3의 마지막 열과 같이 최종 생성한다.
다음, 인덱스 트리 생성부(130)는 문서들 각각에 대해 구축된 키워드 집합 내 원소의 종류 및 나열 순서를 기초로, 문서들 간의 연관 관계를 하나의 트리 구조로 정의한 인덱스 트리를 생성한다(S230).
도 5는 도 3의 결과를 이용하여 생성한 인덱스 트리를 나타낸 도면이다. 이러한 도 5에서 맨 위에 위치한 노드(null)는 통상의 뿌리노드(root node)를 의미한다.
도 5에 도시된 것과 같이, 인덱스 트리 내 노드에는 그에 대응된 문서의 고유 번호가 인덱싱되어 있다. 본 발명의 경우 트리 내 노드의 위치와 연결 관계를 기초로 문서들 간의 연관 관계를 파악할 수 있다.
이하에서는 도 5의 트리 구조를 도출하는 과정을 더욱 구체적으로 설명한다.
도 6은 본 발명의 실시예에서 문서별 생성한 키워드 집합 내 원소의 종류와 배열 순서를 기초로 트리를 점차 확장하는 과정을 설명하는 도면이다.
본 발명의 실시예에서 인덱스 트리 생성부(130)는 문서 별로 구축된 키워드 집합에 대한 원소의 나열 순서를 기초로 뿌리 노드(Root)로부터 분기되는 트리 구조를 생성한다.
이하에서, 뿌리 노드의 바로 밑에 분기되어 연결된 노드는 최상위 노드로 명명하고, 최상위 노드보다 하위에 있는 노드는 모두 하위 노드로 명명한다. 하위 노드의 경우 다단으로 여러 깊이(레벨)에 존재할 수 있다.
본 발명의 실시예에서, 인덱스 트리 생성부(130)는 키워드 집합 내 첫 번째 위치한 최우선 순위의 원소에 대응하여 뿌리 노드(root)의 하부에 직접 연결되는 최상위 노드를 생성한 다음, 차순위의 원소에 대응하여 최상위 노드에 대한 하위 노드를 차례로 생성하는 방법으로 트리를 생성한다.
또한, 생성 과정에서 최우선 순위의 원소가 동종인 문서들 간에는 최상위 노드를 하나의 공통 노드로 통합한 상태에서 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 상태에서 다음의 하위 노드를 개별 분기시킨다.
이러한 과정은 도 6과 같이, d1 문서부터 d10 문서 까지 순서 대로 수행함으로써 점차 노드 및 가지가 확장된 것을 알 수 있다.
먼저, d1 문서를 보면, d1에 대한 키워드 집합 {c,g,f}을 이용하여, 최우선 순위의 원소 c에 대응하는 최상위 노드('c,1')를 뿌리 노드의 하부에 직접 연결하며, 그 아래에는 차순위의 원소 g, f에 대응한 하위 노드들('g,1', 'f,1')을 차례로 연결한다.
신규 생성된 노드에는 노드에 대응한 원소의 종류 및 숫자 1이 라벨링(ex, 'c,1')된다. 추후 다른 문서에서 동일 원소의 노드를 공유할 경우에는 공유한 만큼 누적되어 라벨링값이 갱신된다.
즉, d2 문서를 보면, d2의 키워드 집합은 {c,g}이며, 최우선 순위의 원소 c는 d1 문서의 경우와 동일하므로, 원소 c에 대해서는 기존 최상위 노드('c,1')에 통합되어 해당 노드를 공유하며 해당 노드의 정보는 'c,2'로 갱신된다. 그런 다음, 노드('c,2')로부터 자신의 하위 노드를 분기시키도록 하는데, 이때 차순위 원소 g 역시 d1 문서에서의 경우와 동일하므로 원소 g에 대해서는 기존 생성된 노드(g,1)에 통합되어 해당 노드를 공유하며, 해당 노드의 정보는 'g,2'로 갱신된다.
다음, d3 문서를 보면, 키워드 집합은 {c,g,b}이며, 원소 c와 g가 앞서와 동일하므로, 노드 공유(통합)과 갱신 과정을 거쳐, 해당 노드들이 각각 'c,3'와 'g,3'로 갱신된다. 다만, 마지막 원소 b는 새롭게 등장한 것이므로 노드(c,3)의 하위에 새로운 노드(b,1)로 분기 생성된다. 생성된 노드(b,1)는 원소 f에 대한 노드(f,1)와 동일 레벨(트리 깊이)에 위치하는 것을 알 수 있다.
이후, d4 문서의 경우, 키워드 집합은 {d,a,f}이며, 최우선 순위의 원소 d는 새롭게 등장한 원소이므로 이에 대응하는 최상위 노드('d,1)를 뿌리 노드로부터 분기시켜 새로 생성한다. 이후의 과정은 앞서 상술한 원리를 이용하면 된다.
즉, 이와 같은 과정을 반복하면, 마지막의 d10 문서에 대응되는 트리 도출 결과를 얻을 수 있다.
도 7은 도 6의 과정을 통해 생성된 트리 구조를 나타낸 도면이다. 이러한 도 7은 도 6의 마지막 d10 문서의 결과와 대응되는 것이며, 이를 한번 더 정리한 것이다.
도 7에 나타낸 것과 같이, 뿌리 노드 이하의 각각의 최상위 노드 및 그 하위 노드 각각에 대해, 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보가 매핑된 것을 알 수 있다.
물론, 라벨링값은 앞서 설명한대로 노드의 초기 생성 시에 제1 값(ex, 1)을 가지되 통합이 발생할 때마다 제1 값(ex, 1) 씩 증가된다. 본 발명의 실시예에서 제1 값은 '1'을 사용하였다. 다만, 본 발명이 반드시 이에 한정되지 않으며, 정수, 소수 등의 형태를 가지는 다양한 상수 값이 사용될 수 있다.
이러한 노드에 부여된 라벨링값은 키워드의 빈도와도 밀접하게 관련 있으며, 빈도가 높은 키워드 원소가 매칭된 노드의 경우 라벨링값도 높은 것을 알 수 있다.
본 발명의 실시예의 경우, 인덱스 트리 생성부(130)는 최상위 노드(도 7의 경우 c,d,a 노드)에 각각 매핑된 라벨링값(3,6,1)에 기초하여, 뿌리 노드(null)로부터 분기된 최상위 노드들(c,d,a 노드)의 배열 순서를 정렬한다. 이에 더하여, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한다. 이때, 하위 노드가 위치한 트리 깊이에 따라서, 해당 하위 노드에 대한 직전 노드는 최상위 노드가 될 수도 있고 그 위에 연결된 다른 하위 노드가 될 수도 있다.
도 8은 도 7을 재정렬한 결과를 나타낸 도면이다.
예를 들어, 도 7에서 최상위 노드 c, d, a에는 각각 3, 6, 1의 라벨링값이 매핑되어 있어, 이를 높은 순으로 좌우 정렬하면, 도 8과 같이, d, c, a 노드 순서로 변경된다.
그리고, 도 7에서, 최상위 노드 d에 대한 하위 노드 e, g, a에는 각각 2, 1, 3,의 라벨링값이 매핑되어 있으므로 이를 높은 순서대로 정렬하면, 도 8과 같이 a, e, g 노드 순서로 변경된다. 도 7에서 하위 노드 a에 대한 그 다음의 하위 노드 b, f 노드에 대한 라벨링값을 모두 1로 동일하기 때문에 순서 변경이 필요 없다.
도 8과 같이 정렬한 이후, 인덱스 트리 생성부(130)는 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 키워드 집합 내 소속 원소로 하는 문서의 고유 넘버를 해당 하위 노드에 최종 매핑한다.
도 9는 도 8에 도시된 트리 내의 노드에 대해 그에 대응되는 문서의 고유 넘버를 매핑하는 방법을 설명하는 도면이다.
예를 들어, 도 9에 도시된 하위 노드들 중, 왼쪽 하단의 원소 b의 노드로부터 그 상위의 모든 노드까지 경로에 대응하는 원소를 역순으로 나타내면 {d,a,b}가 되며, 이와 대응되는 집합을 가지는 문서는 도 7에서 문서 d8에 해당한다. 따라서, 원소 b의 노드에 대응하여 문서 d8을 매핑한다.
그리고, 그 위에 위치한 원소 a의 노드로부터 그 상위의 노드의 경로 대응하는 원소를 역순으로 나타내면, {d,a}가 되며 이는 도 7에서 문서 d7에 해당한다. 따라서 원소 a의 노드에 대응하여 문서 d7을 매핑한다.
또 다른 예로, 도 9의 트리에서 가장 하위 레벨에 위치한 원소 h의 노드의 경우, 그로부터 상위의 노드의 경로에 대응하는 원소를 역순으로 나타내면 {d,g,f,h}가 되며, 이는 도 7에서 문서 d6에 해당한다. 따라서, 원소 h의 노드에 대응하여 문서 d6을 매핑한다.
다만, 원소 h의 윗부분에 위치한 원소 f에 대응하는 경로의 경우 해당 집합은 {d,g,f}가 되는데, 이와 동일한 집합을 가지는 문서는 도 7에 존재하지 않기 때문에, 해당 노드에는 문서 정보가 매핑되지 않는다. 즉, 경우에 따라 문서 번호가 비어 있는 노드들도 존재한다.
이러한 과정을 반복하면 도 5의 인덱스 트리를 최종적으로 도출할 수 있다.
이후, 제어부(140)는 도 5와 같이 최종 도출된 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 문서 검색 리스트 내 문서들의 표출 순서를 재정렬한다(S240).
이때, 제어부(140)는 도 5의 인덱스 트리 내의 하위 노드 각각에 매핑된 문서의 고유 넘버, 최상위 노드들의 좌우 배열 순서, 그리고 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여, 문서들의 표출 순서를 재정렬한다. 구체적으로, 트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 문서를 상위로 정렬시킨다.
도 10은 도 5의 결과로부터 각 문서를 복수의 그룹으로 구분한 모습을 나타낸 도면이다. 이때 동일 그룹 내에는 키워드가 유사한 비슷한 속성의 문서들이 포함된다.
각각의 문서는 최상위 노드들에 따라 3개의 그룹으로 구분된다. 여기서, 맨 좌측에 위치한 그룹일수록, 그리고 그룹 내에서 상위에 위치한 노드의 문서일수록 상위에 정렬될 수 있다.
또한, 도 8 및 도 9을 참조하면, 복수의 그룹 중에는 맨 좌측에 위치한 그룹일수록 최상위 노드에 부여된 라벨링값이 높고, 동일 그룹 내에서는 상위(낮은 깊이)에 위치한 노드가 하위에 위치한 노드보다 높은 라벨링 값을 가지고 있는 것을 알 수 있다.
여기서, 동일 그룹 내의 문서들 중에서는 위치적으로 가장 상위에 있으면서 가장 좌측에 위치한 문서는 해당 그룹 내에서 대표성을 가진 문서로 볼 수 있다. 도 10에서 그룹1의 경우는 d7, 그룹2에서는 d2, 그룹3에서는 d5가 각각 이에 해당한다.
d7, d2, d5는 해당 그룹 내의 대표 하위 노드에 해당하며, 이들 대표 하위 노드는 그룹 내에서 문서가 매핑된 하위 노드들 중에서도 가장 낮은 트리 깊이를 갖는 하위 노드에 해당한다.
도 11은 도 10의 결과에 대응되는 문서 검색 결과의 다양성 개념을 도시한 도면이다. 이러한 도 11의 결과는 뿌리 노드를 기준으로 하는 각 노드의 위치 및 노드 간 거리, 각 그룹에 부여되는 가중치 등을 이용하여 등가적으로 얻을 수 있다.
또한 도 11의 결과에서 3개의 그룹 내 중심부에 각각 대표 문서 d7, d2, d5가 존재하는 것을 알 수 있다.
제어부(140)는 d1~d10 문서 중에서, 그룹1의 대표 문서인 d7을 가장 상위에 정렬하고 그룹1 내의 d10, d8, d4, d9, d6를 그 다음에 위치시킬 수 있다. 이는 각 노드에 기 매핑된 라벨링값 순서에 따른 것이다. 그룹1 다음으로는 그룹2의 대표 문서인 d2 및 나머지 d3,d1을 정렬하고, 이후에 그룹3의 대표 문서인 d5를 마지막에 배치한다. 이와 같이, 제어부(140)는 초기에 도출된 문서 순서인 d1~d10 순서와는 상이한 순서로 문서를 재정렬할 수 있다.
출력부(150)는 재정렬된 표출 순서대로 문서 검색 리스트를 사용자 단말로 출력 제공한다(S260). 사용자는 제공된 문서 검색 리스트 내에서 맨 위의 문서부터 검토하게 된다.
도 12는 도 11에서의 다양성 검색 과정을 예시한 도면이다. 도 12를 참조하면, 사용자는 가장 먼저 d7 문서를 검토하게 된다. 만일 d7 문서가 사용자가 찾고자 하는 관련 문서인 경우, 해당 문서 범위에 있는 동일 그룹 내의 다른 문서도 찾아 검토하면 된다.
만일, d7 문서가 사용자가 찾고자 하는 관련 문서가 아닌 경우에는 본 발명의 실시예에 따른 다양성 검색 결과를 기반으로 다른 그룹의 문서를 찾도록 하는데, 도 12에서와 같이, 대표성과 다양성을 고려하여 다음 번 문서 즉, 다른 그룹 내 대표 문서인 d2 또는 d5를 선택한다. 여기서, 다양성은 이하의 수학식 1에서 노드의 거리에 대응하는 개념이며, 대표성은 노드에 매핑된 라벨링값에 대응하는 개념일 수 있다.
물론, 그룹1 내 문서를 모두 검토한 후에 다음 순서의 그룹2 내 대표 문서인 d2 문서를 검토하는 중에 d2 문서가 사용자가 찾는 관련 문서가 아닌 경우가 발생할 수 있다.
이상과 같이, 리스트 상에서 표출된 순서대로 문서를 검토한 결과 그룹 내 대표 문서가 노이즈 문서로 판단될 경우에는 해당 그룹과 거리가 먼 그룹의 문서를 검토할 수 있도록 리스트 내 문서 순서를 다시 재정렬하여 제공할 수 있다.
이를 위해, 본 발명의 실시예는 문서 검색 리스트 내에서 각 문서에 대응하여 노이즈 문서의 여부를 입력받기 위한 선택 버튼 등을 제공할 수 있다.
즉, S260 단계를 통해 제공된 문서 검색 리스트 내에서, 노이즈 문서로 분석된 제1 문서(ex, d7)가 사용자로부터 선택되면, 제어부(140)는 해당되는 제1 문서에 대응된 제1 하위 노드(d7 노드)로부터 다른 그룹 내의 대표 하위 노드(d2, d5) 까지의 거리를 각각 연산한 다음, 연산한 거리 및 대표 하위 노드에 기 매핑된 라벨링값을 조합하여 다양성 지수를 각각 연산한다(S270).
즉, 제어부(140)는 d7 및 d2 노드 간의 거리(제1 거리)와, d7 및 d5 노드 간의 거리(제2 거리)를 각각 구한다. 도 8에 따르면, d2 노드에 대해 기 매핑된 라벨링값은 3이고 d5 노드에 대해 기 매핑된 라벨링값은 1이다. 여기서, 다양성 지수가 높은 문서의 경우 d7와는 거리가 멀면서 높은 빈도의 키워드가 존재하는 문서를 의미할 수 있다.
다양성 지수(Ok)는 아래 수학식에 의해 연산될 수 있다.
여기서, λ는 0과 1 사이에서 결정되는 가중치 값에 해당한다. D는 노드 간 거리로서 제1 하위 노드(d7)와 다른 그룹(그룹 2,3) 내의 대표 하위 노드(d2, d5) 사이의 거리이고, R은 대표 하위 노드 상에 매핑된 라벨링값을 나타낸다.
만일 R값 보다 D값(거리 값)에 더욱 가중치를 부여하고자 한다면, λ 값을 0.5보다 작은 값으로 사용하면 된다. 여기서 물론, 필요한 경우에 수학식 1에 적용되는 R과 D 값은 0과 1 사이의 값으로 정규화된 값을 사용할 수도 있다.
노드 간 거리(D)는 다음의 수학식 2를 이용하여 구할 수 있으며, 이는 기 공지된 것에 해당한다.
이와 같이, 다양성 트리 인덱스를 구성하면 문서 별로 거리를 계산할 필요가 없이 문서의 트리상의 깊이와 공통 노드의 위치정보 만으로 거리를 측정할 수 있는 장점이 있다.
예를 들어, 도 11에서 d7에서 가장 거리가 먼 문서는 수학식 2을 이용하면 d5이며 가장 거리가 가까운 문서는 d8 또는 d4 이다.
또한, 거리 및 라벨링값을 기초로 수학식 1을 통해 다양성 지수를 구한 결과, d7에서 d5 간의 거리(제2 거리)가 d7에서 d2 간의 거리(제1 거리) 보다 높은 값을 가질 경우, d5가 속한 그룹 3의 문서를 가장 상위에 노출하도록 문서의 표출 순서를 다시 수정 정렬할 수 있다. 물론, 이때, 앞서 노이즈 문서로 분석된 d7이 속한 그룹 1의 문서는 최하위로 이동시킬 수 있다.
즉, 제어부(140)는 문서들 중 다양성 지수가 가장 높은 그룹에 속한 문서들이 문서 검색 리스트 상의 상위에 노출되도록, 문서들의 표출 순서를 수정한다. 이에 따라, 그룹3의 d5가 가장 상위에 노출되고, 그 다음으로 그룹2, 그리고 그룹1의 문서 순으로 노출될 수 있다.
이와 같이, 검색 엔진에서 초기 도출한 문서 검색 리스트 내 문서들의 정렬 순서를 최적 상태로 변경하여 출력할 경우에 사용자의 검토 노력을 줄일 수 있다.
이상과 같은 본 발명에 의하면, 소정 검색 엔진에서 검색 결과를 제공함에 있어, 검색 리스트 내 문서들에 대해 구축한 인덱스 트리를 기초로 검색 리스트 내 문서들의 표출 순서를 재정렬하여 제공함에 따라 검사자의 검색 노력 및 검토 비용을 최소화할 수 있는 이점이 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100: 문서 검색 장치
110: 키워드 집합 생성부 120: 키워드 정렬부
130: 인덱스 트리 생성부 140: 제어부
150: 출력부
110: 키워드 집합 생성부 120: 키워드 정렬부
130: 인덱스 트리 생성부 140: 제어부
150: 출력부
Claims (18)
- 다양성 인덱스 기반의 검색 장치를 이용한 검색 방법에 있어서,
복수의 키워드가 조합된 질의어에 대응하여 도출된 문서 검색 리스트 내 문서들 각각을 대상으로, 상기 복수의 키워드 중 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 단계:
전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계;
상기 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 단계;
상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 문서 검색 리스트 내 문서들의 표출 순서를 재정렬하는 단계; 및
상기 재정렬된 표출 순서대로 상기 문서 검색 리스트를 제공하는 단계를 포함하는 문서 검색 방법. - 청구항 1에 있어서,
상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계는,
임계치 이하의 빈도로 분석된 키워드를 상기 키워드 집합에서 제거하는 문서 검색 방법. - 청구항 1에 있어서,
상기 인덱스 트리를 생성하는 단계는,
상기 문서 별로 구축된 상기 키워드 집합에 대한 상기 원소의 나열 순서를 기초로 뿌리 노드로부터 분기되는 트리 구조를 생성하되, 상기 키워드 집합 내 최우선 순위의 원소에 대응하여 상기 뿌리 노드에 직접 연결되는 최상위 노드를 생성한 후, 차순위의 원소에 대응하여 상기 최상위 노드에 대한 하위 노드를 차례로 생성하며,
상기 생성 과정에서 상기 최우선 순위의 원소가 동종인 문서들 간에는 상기 최상위 노드를 하나의 공통 노드로 통합하여 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 후에 다음의 하위 노드를 개별 분기시키는 문서 검색 방법. - 청구항 3에 있어서,
상기 인덱스 트리를 생성하는 단계는,
상기 최상위 노드 및 하위 노드 각각에 대해 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보를 매핑하며, 상기 라벨링값은 노드의 초기 생성 시에 제1 값을 가지며 상기 통합이 발생할 때마다 제1 값 씩 증가되는 문서 검색 방법. - 청구항 4에 있어서,
상기 인덱스 트리를 생성하는 단계는,
상기 최상위 노드에 각각 매핑된 라벨링값을 기초로 상기 뿌리 노드로부터 분기된 최상위 노드들의 배열 순서를 정렬하고, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한 다음,
상기 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 상기 키워드 집합 내 소속 원소로 하는 해당 문서의 고유 넘버를 상기 해당 하위 노드에 최종 매핑하는 문서 검색 방법. - 청구항 5에 있어서,
상기 표출 순서를 재정렬하는 단계는,
상기 하위 노드 각각에 매핑된 문서의 고유 넘버, 상기 최상위 노드들의 좌우 배열 순서, 그리고 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여 상기 문서들의 표출 순서를 재정렬하되,
트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 문서를 상위로 정렬시키는 문서 검색 방법. - 청구항 6에 있어서,
상기 제공된 문서 검색 리스트 내에서 노이즈 문서로 분석된 제1 문서가 사용자로부터 선택되면, 상기 제1 문서에 대응된 제1 하위 노드로부터 다른 그룹 내의 대표 하위 노드까지의 거리를 각각 연산하여, 상기 거리 및 상기 대표 하위 노드에 기 매핑된 상기 라벨링값을 조합하여 다양성 지수를 연산하는 단계; 및
상기 문서들 중 상기 다양성 지수가 가장 높은 그룹에 속한 문서들이 문서 검색 리스트 상의 상위에 노출되도록, 상기 문서들의 표출 순서를 수정하는 단계를 더 포함하는 문서 검색 방법. - 청구항 7에 있어서,
상기 그룹 내 대표 하위 노드는,
상기 그룹 내에서 상기 문서가 매핑된 하위 노드 중 가장 낮은 트리 깊이를 갖는 하위 노드를 나타내며,
상기 표출 순서를 수정하는 단계는,
상기 제1 하위 노드가 소속된 제1 그룹의 문서를 문서 검색 리스트 상의 최하위로 이동시키는 문서 검색 방법. - 검색 결과 다양성 인덱스 기반의 효율적 검색 장치에 있어서,
복수의 키워드가 조합된 질의어에 대응하여 도출된 문서 검색 리스트 내 문서들 각각을 대상으로, 상기 복수의 키워드 중 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 키워드 집합 생성부:
전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 키워드 정렬부;
상기 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 인덱스 트리 생성부;
상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 문서 검색 리스트 내 문서들의 표출 순서를 재정렬하는 제어부; 및
상기 재정렬된 표출 순서대로 상기 문서 검색 리스트를 제공하는 출력부를 포함하는 문서 검색 장치. - 청구항 10에 있어서,
상기 키워드 정렬부는,
임계치 이하의 빈도로 분석된 키워드를 상기 키워드 집합에서 제거하는 문서 검색 장치. - 청구항 10에 있어서,
상기 인덱스 트리 생성부는,
상기 문서 별로 구축된 상기 키워드 집합에 대한 상기 원소의 나열 순서를 기초로 뿌리 노드로부터 분기되는 트리 구조를 생성하되, 상기 키워드 집합 내 최우선 순위의 원소에 대응하여 상기 뿌리 노드에 직접 연결되는 최상위 노드를 생성한 후, 차순위의 원소에 대응하여 상기 최상위 노드에 대한 하위 노드를 차례로 생성하며,
상기 생성 과정에서 상기 최우선 순위의 원소가 동종인 문서들 간에는 상기 최상위 노드를 하나의 공통 노드로 통합하여 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 후에 다음의 하위 노드를 개별 분기시키는 문서 검색 장치. - 청구항 12에 있어서,
상기 인덱스 트리 생성부는,
상기 최상위 노드 및 하위 노드 각각에 대해 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보를 매핑하며,
상기 라벨링값은 노드의 초기 생성 시에 제1 값을 가지며 상기 통합이 발생할 때마다 제1 값 씩 증가되는 문서 검색 장치. - 청구항 13에 있어서,
상기 인덱스 트리 생성부는,
상기 최상위 노드에 각각 매핑된 라벨링값을 기초로 상기 뿌리 노드로부터 분기된 최상위 노드들의 배열 순서를 정렬하고, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한 다음,
상기 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 상기 키워드 집합 내 소속 원소로 하는 해당 문서의 고유 넘버를 상기 해당 하위 노드에 최종 매핑하는 문서 검색 장치. - 청구항 14에 있어서,
상기 제어부는,
상기 하위 노드 각각에 매핑된 문서의 고유 넘버, 상기 최상위 노드들의 좌우 배열 순서, 그리고 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여 상기 문서들의 표출 순서를 재정렬하되,
트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 문서를 상위로 정렬시키는 문서 검색 장치. - 청구항 15에 있어서,
상기 제어부는,
상기 제공된 문서 검색 리스트 내에서 노이즈 문서로 분석된 제1 문서가 사용자로부터 선택되면, 상기 제1 문서에 대응된 제1 하위 노드로부터 다른 그룹 내의 대표 하위 노드까지의 거리를 각각 연산하여, 상기 거리 및 상기 대표 하위 노드에 기 매핑된 상기 라벨링값을 조합하여 다양성 지수를 연산하고,
상기 문서들 중 상기 다양성 지수가 가장 높은 그룹에 속한 문서들이 문서 검색 리스트 상의 상위에 노출되도록, 상기 문서들의 표출 순서를 수정하는 문서 검색 장치. - 청구항 17에 있어서,
상기 그룹 내 대표 하위 노드는,
상기 그룹 내에서 상기 문서가 매핑된 하위 노드 중 가장 낮은 트리 깊이를 갖는 하위 노드를 나타내며,
상기 제어부는,
상기 표출 순서의 수정 시, 상기 제1 하위 노드가 소속된 제1 그룹의 문서를 문서 검색 리스트 상의 최하위로 이동시키는 문서 검색 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20170127427 | 2017-09-29 | ||
KR1020170127427 | 2017-09-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190038310A true KR20190038310A (ko) | 2019-04-08 |
KR102088435B1 KR102088435B1 (ko) | 2020-03-12 |
Family
ID=66164392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180098495A KR102088435B1 (ko) | 2017-09-29 | 2018-08-23 | 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102088435B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200119029A (ko) * | 2019-04-09 | 2020-10-19 | 주식회사 모키 | 가변적인 답변이 필요한 질문에 대한 답변 세트의 제공 방법 및 이를 이용하는 장치 |
CN112733527A (zh) * | 2020-12-15 | 2021-04-30 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及系统 |
KR20220073850A (ko) * | 2019-11-28 | 2022-06-03 | 미쓰비시덴키 가부시키가이샤 | 정보 처리 장치, 정보 처리 방법, 및 기록 매체 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220076969A (ko) * | 2020-12-01 | 2022-06-08 | 삼성전자주식회사 | 무결성 검사를 수행하는 방법 및 이를 이용하는 전자 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009301221A (ja) * | 2008-06-11 | 2009-12-24 | Yahoo Japan Corp | 文書検索システム、文書検索方法、及びプログラム |
KR20100070774A (ko) * | 2008-12-18 | 2010-06-28 | 주식회사 케이티 | 시맨틱 검색결과 처리 장치 및 그 방법 |
KR20110059292A (ko) * | 2009-11-27 | 2011-06-02 | 동국대학교 산학협력단 | 온톨로지를 이용한 문서의 군집화 방법 및 장치 |
KR20110067337A (ko) * | 2009-12-14 | 2011-06-22 | 동국대학교 산학협력단 | 온톨로지를 이용한 문서의 다단계 군집화 방법 및 장치 |
KR101575802B1 (ko) * | 2008-06-26 | 2015-12-08 | (주)윕스 | 특허문서의 작업로그 시스템 및 그 방법 |
-
2018
- 2018-08-23 KR KR1020180098495A patent/KR102088435B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009301221A (ja) * | 2008-06-11 | 2009-12-24 | Yahoo Japan Corp | 文書検索システム、文書検索方法、及びプログラム |
KR101575802B1 (ko) * | 2008-06-26 | 2015-12-08 | (주)윕스 | 특허문서의 작업로그 시스템 및 그 방법 |
KR20100070774A (ko) * | 2008-12-18 | 2010-06-28 | 주식회사 케이티 | 시맨틱 검색결과 처리 장치 및 그 방법 |
KR20110059292A (ko) * | 2009-11-27 | 2011-06-02 | 동국대학교 산학협력단 | 온톨로지를 이용한 문서의 군집화 방법 및 장치 |
KR20110067337A (ko) * | 2009-12-14 | 2011-06-22 | 동국대학교 산학협력단 | 온톨로지를 이용한 문서의 다단계 군집화 방법 및 장치 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200119029A (ko) * | 2019-04-09 | 2020-10-19 | 주식회사 모키 | 가변적인 답변이 필요한 질문에 대한 답변 세트의 제공 방법 및 이를 이용하는 장치 |
KR20220073850A (ko) * | 2019-11-28 | 2022-06-03 | 미쓰비시덴키 가부시키가이샤 | 정보 처리 장치, 정보 처리 방법, 및 기록 매체 |
CN112733527A (zh) * | 2020-12-15 | 2021-04-30 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及系统 |
CN112733527B (zh) * | 2020-12-15 | 2024-05-10 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR102088435B1 (ko) | 2020-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20190038310A (ko) | 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법 | |
US10963471B2 (en) | Progressive spatial searching using augmented structures | |
US20190228024A1 (en) | Efficient spatial queries in large data tables | |
US8688723B2 (en) | Methods and apparatus using range queries for multi-dimensional data in a database | |
US20080228783A1 (en) | Data Partitioning Systems | |
US7668817B2 (en) | Method and system for data processing with spatial search | |
CN108932347B (zh) | 一种分布式环境下基于社会感知的空间关键字查询方法 | |
KR100996443B1 (ko) | 고집적인덱스 데이터베이스 및 쿼리 데이터의 검색과 연산기능 분할에 의한 그래픽 프로세서 기반 병렬분산 처리 시스템 및 방법 | |
Lu et al. | Flexible and efficient resolution of skyline query size constraints | |
RU2007114029A (ru) | Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети | |
Zou et al. | Dominant graph: An efficient indexing structure to answer top-k queries | |
US20150370838A1 (en) | Index structure to accelerate graph traversal | |
Koh et al. | Finding k most favorite products based on reverse top-t queries | |
CN105975617A (zh) | 一种多分区表查询处理的方法和装置 | |
Gulzar et al. | SCSA: Evaluating skyline queries in incomplete data | |
WO2019233463A1 (en) | Quality-aware keyword query suggestion and evaluation | |
KR102067728B1 (ko) | 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법 | |
CN110134683A (zh) | 关系数据库中海量要素存储的分区优化研究方法及系统 | |
Belesiotis et al. | Spatio-textual user matching and clustering based on set similarity joins | |
Wen et al. | Interactive summarization and exploration of top aggregate query answers | |
JP5470082B2 (ja) | 情報蓄積検索方法及び情報蓄積検索プログラム | |
CN107562872B (zh) | 基于sql的度量空间数据相似度查询方法及装置 | |
Behr et al. | Learn What Really Matters: A Learning-to-Rank Approach for ML-based Query Optimization | |
Goncalves et al. | Making recommendations using location-based skyline queries | |
Brando et al. | Evaluating top-k skyline queries over relational databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |