KR20190038309A - 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법 - Google Patents

효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법 Download PDF

Info

Publication number
KR20190038309A
KR20190038309A KR1020180098494A KR20180098494A KR20190038309A KR 20190038309 A KR20190038309 A KR 20190038309A KR 1020180098494 A KR1020180098494 A KR 1020180098494A KR 20180098494 A KR20180098494 A KR 20180098494A KR 20190038309 A KR20190038309 A KR 20190038309A
Authority
KR
South Korea
Prior art keywords
node
patent documents
nodes
order
tree
Prior art date
Application number
KR1020180098494A
Other languages
English (en)
Other versions
KR102067728B1 (ko
Inventor
송종수
이우기
권헌도
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Publication of KR20190038309A publication Critical patent/KR20190038309A/ko
Application granted granted Critical
Publication of KR102067728B1 publication Critical patent/KR102067728B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법에 관한 것이다. 본 발명에 따르면, 복수의 키워드가 조합된 질의어에 대응하여 도출된 특허 검색 리스트 내 특허 문서들 각각을 대상으로, 상기 복수의 키워드 중 특허 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 단계와, 전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계와, 상기 특허 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 특허 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 단계와, 상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 특허 검색 리스트 내 특허 문서들의 표출 순서를 재정렬하는 단계, 및 상기 재정렬된 표출 순서대로 상기 특허 검색 리스트를 제공하는 단계를 포함하는 다양성 인덱스 생성 방법을 제공한다.
본 발명에 따르면, 특허 검색 리스트 내 특허 문서들에 대해 생성한 인덱스 트리를 이용하여 검색 결과를 재정렬하여 제공함으로써 검사자의 검색 노력 및 검토 비용을 최소화할 수 있는 이점이 있다.

Description

효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법{Diversity index generation apparatus of retrieval result for effective patent retrieval and method thereof}
본 발명은, 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 주어진 검색 결과 내에서 검사자의 검토 비용(Review Efforts)을 최소화할 수 있는 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법에 관한 것이다.
특허 검색은 기존의 웹 검색과 검색 목적이 상이하며 문서 내외의 독특한 성질을 가지고 있다. 특허 검색은 특허 출원 당사자, 변리사, 사내 기술사업팀을 비롯한 사용자 혹은 특허 심사관이 특정 특허의 출원, 특허성 판단, 등록 무효를 실시함에 있어서, 관련된 선행 특허를 놓치지 않기 위하여 수행되며, 매우 신중한 검토가 요구된다. 더불어, 검색 과정에서 높은 상호작용 요구와 복잡한 절차를 필히 거치도록 한다.
이와 같이, 관련된 모든 문서를 찾는데 주안점을 두는 검색 방식을 재현율 기반(Recall-Oriented)의 검색 방식이라 하며, 목표로 하는 특허 행정 절차를 실시하기 위해 관련 선행 특허를 모두 찾아야 하는 독특한 특성 때문에 '사막에서 바늘 찾기'라 일컬어진다.
사용자는 특허 검색을 하는 동안, '모든 관련 문서를 찾아야 한다.'는 명시적 요구 사항과 더불어 '관련 문서만 찾아야 한다.' 또는 '합리적인 시간 안에 찾아야 한다.'등의 암시적 요구 사항을 가지고 있다.
그러나, 해당 분야의 소수 전문가인 검사자 또는 심사관들에게 막대한 분량의 문서 검토를 할당하는 것은 과중한 업무량을 부가하는 것이고 고용주에게 매우 높은 인건비를 부담하게 한다.
따라서, 재현율을 최대화하는 동시에 검토해야할 문서의 수를 최소화하는 것은 경제적, 사회적, 기술적으로 중요한 문제이다. 또한, 사용자(reviewr)는 정확도(Precision)와 재현율(Recall)의 균형을 이루는 검색 결과가 도출되기를 원하며, 이러한 검색 결과는 관련성이 높은 문서가 상위 결과 목록에 노출된다는 것을 보장한다.
따라서, 재현율이 우수한 검색 시스템이라 하더라도, 검토 시간(검토 비용) 및 정확도를 고려해야 한다. 만일, 관련도 높은 문서가 검색 목록 상의 하위에 위치할 경우 사용자는 검색 결과를 목록 끝까지 모두 확인해야 하므로, 사용자의 문서 검색(검토) 시간이 증가하는 문제가 있으며 이는 매우 비효율적이다. 하지만, 관련도 높은 문서가 검색 목록의 상위에 노출된다면, 검색 시간과 노력을 상당히 줄일 수 있다.
따라서, 특허 검색 엔진 등에서 특정 질의어에 대응하는 특허 검색 결과를 제공하는데 있어, 실제 검색을 수행하는 인적 요소인 검사자의 노력(Review Efforts)을 최소화할 수 있는 기법이 요구된다.
본 발명의 배경이 되는 기술은 한국공개특허 제2007-0041068호(2007.04.18 공개)에 개시되어 있다.
본 발명은, 주어진 특허 검색 결과 리스트 내에서 검사자의 검토 비용을 최소화할 수 있는 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법을 제공하는데 목적이 있다.
본 발명은, 다양성 인덱스 생성 장치를 이용한 다양성 인덱스 생성 방법에 있어서, 복수의 키워드가 조합된 질의어에 대응하여 도출된 특허 검색 리스트 내 특허 문서들 각각을 대상으로, 상기 복수의 키워드 중 특허 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 단계와, 전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계와, 상기 특허 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 특허 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 단계와, 상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 특허 검색 리스트 내 특허 문서들의 표출 순서를 재정렬하는 단계, 및 상기 재정렬된 표출 순서대로 상기 특허 검색 리스트를 제공하는 단계를 포함하는 다양성 인덱스 생성 방법을 제공한다.
또한, 상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계는, 임계치 미만의 빈도로 분석된 키워드를 상기 키워드 집합에서 제거할 수 있다.
또한, 상기 인덱스 트리를 생성하는 단계는, 상기 특허 문서 별로 구축된 상기 키워드 집합에 대한 상기 원소의 나열 순서를 기초로 뿌리 노드로부터 분기되는 트리 구조를 생성하되, 상기 키워드 집합 내 최우선 순위의 원소에 대응하여 상기 뿌리 노드에 직접 연결되는 최상위 노드를 생성한 후, 차순위의 원소에 대응하여 상기 최상위 노드에 대한 하위 노드를 차례로 생성하며, 상기 생성 과정에서 상기 최우선 순위의 원소가 동종인 특허 문서들 간에는 상기 최상위 노드를 하나의 공통 노드로 통합하여 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 후에 다음의 하위 노드를 개별 분기시킬 수 있다.
또한, 상기 인덱스 트리를 생성하는 단계는, 상기 최상위 노드 및 하위 노드 각각에 대해 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보를 매핑하며, 상기 라벨링 값은 노드의 초기 생성 시에 제1 값을 가지며 상기 통합이 발생할 때마다 제1 값 씩 증가될 수 있다.
또한, 상기 인덱스 트리를 생성하는 단계는, 상기 최상위 노드에 각각 매핑된 라벨링값을 기초로 상기 뿌리 노드로부터 분기된 최상위 노드들의 배열 순서를 정렬하고, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한 다음, 상기 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 상기 키워드 집합 내 소속 원소로 하는 특허 문서의 고유 넘버를 상기 해당 하위 노드에 최종 매핑할 수 있다.
또한, 상기 표출 순서를 재정렬하는 단계는, 상기 하위 노드 각각에 매핑된 특허 문서의 고유 넘버, 상기 최상위 노드들의 좌우 배열 순서, 그리고 특허 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여 상기 특허 문서들의 표출 순서를 재정렬하되, 트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 특허 문서를 상위로 정렬시킬 수 있다.
또한, 상기 다양성 인덱스 생성 방법은, 상기 제공된 특허 검색 리스트 내에서 노이즈 문서로 분석된 제1 특허 문서가 사용자로부터 선택되면, 상기 제1 특허 문서에 대응된 제1 하위 노드로부터 다른 그룹 내의 대표 하위 노드까지의 거리를 각각 연산하여, 상기 거리 및 상기 대표 하위 노드에 기 매핑된 상기 라벨링값을 조합하여 다양성 지수를 연산하는 단계, 및 상기 특허 문서들 중 상기 다양성 지수가 가장 높은 그룹에 속한 특허 문서들이 특허 검색 리스트 상의 상위에 노출되도록, 상기 특허 문서들의 표출 순서를 수정하는 단계를 더 포함할 수 있다.
또한, 상기 다양성 지수(Ok)는 아래 수학식에 의해 연산될 수 있다.
Figure pat00001
여기서, λ는 0과 1 사이에서 결정되는 가중치, D는 상기 제1 하위 노드와 상기 다른 그룹 내의 대표 하위 노드 사이의 노드 간 거리, R은 상기 대표 하위 노드 상에 매핑된 라벨링값을 나타낸다.
또한, 상기 그룹 내 대표 하위 노드는, 상기 그룹 내에서 상기 특허 문서가 매핑된 하위 노드 중 가장 낮은 트리 깊이를 갖는 하위 노드를 나타내며, 상기 표출 순서를 수정하는 단계는, 상기 제1 하위 노드가 소속된 제1 그룹의 특허 문서를 특허 검색 리스트 상의 최하위로 이동시킬 수 있다.
그리고, 본 발명은, 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치에 있어서, 복수의 키워드가 조합된 질의어에 대응하여 도출된 특허 검색 리스트 내 특허 문서들 각각을 대상으로, 상기 복수의 키워드 중 특허 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 키워드 집합 생성부와, 전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 키워드 정렬부와, 상기 특허 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 특허 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 인덱스 트리 생성부와, 상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 특허 검색 리스트 내 특허 문서들의 표출 순서를 재정렬하는 제어부, 및 상기 재정렬된 표출 순서대로 상기 특허 검색 리스트를 제공하는 출력부를 포함하는 다양성 인덱스 생성 장치를 제공한다.
또한, 상기 키워드 정렬부는, 임계치 미만의 빈도로 분석된 키워드를 상기 키워드 집합에서 제거할 수 있다.
또한, 상기 인덱스 트리 생성부는, 상기 특허 문서 별로 구축된 상기 키워드 집합에 대한 상기 원소의 나열 순서를 기초로 뿌리 노드로부터 분기되는 트리 구조를 생성하되, 상기 키워드 집합 내 최우선 순위의 원소에 대응하여 상기 뿌리 노드에 직접 연결되는 최상위 노드를 생성한 후, 차순위의 원소에 대응하여 상기 최상위 노드에 대한 하위 노드를 차례로 생성하며, 상기 생성 과정에서 상기 최우선 순위의 원소가 동종 특허 문서들 간에는 상기 최상위 노드를 하나의 공통 노드로 통합하여 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 후에 다음의 하위 노드를 개별 분기시킬 수 있다.
또한, 상기 인덱스 트리 생성부는, 상기 최상위 노드 및 하위 노드 각각에 대해 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보를 매핑하며, 상기 라벨링 값은 노드의 초기 생성 시에 제1 값을 가지며 상기 통합이 발생할 때마다 제1 값 씩 증가될 수 있다.
또한, 상기 인덱스 트리 생성부는, 상기 최상위 노드에 각각 매핑된 라벨링값을 기초로 상기 뿌리 노드로부터 분기된 최상위 노드들의 배열 순서를 정렬하고, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한 다음, 상기 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 상기 키워드 집합 내 소속 원소로 하는 특허 문서의 고유 넘버를 상기 해당 하위 노드에 최종 매핑할 수 있다.
또한, 상기 제어부는, 상기 하위 노드 각각에 매핑된 특허 문서의 고유 넘버, 상기 최상위 노드들의 좌우 배열 순서, 그리고 특허 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여 상기 특허 문서들의 표출 순서를 재정렬하되, 트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 특허 문서를 상위로 정렬시킬 수 있다.
또한, 상기 제어부는, 상기 제공된 특허 검색 리스트 내에서 노이즈 문서로 분석된 제1 특허 문서가 사용자로부터 선택되면, 상기 제1 특허 문서에 대응된 제1 하위 노드로부터 다른 그룹 내의 대표 하위 노드까지의 거리를 각각 연산하여, 상기 거리 및 상기 대표 하위 노드에 기 매핑된 상기 라벨링값을 조합하여 다양성 지수를 연산하고, 상기 특허 문서들 중 상기 다양성 지수가 가장 높은 그룹에 속한 특허 문서들이 특허 검색 리스트 상의 상위에 노출되도록, 상기 특허 문서들의 표출 순서를 수정할 수 있다.
또한, 상기 제어부는, 상기 표출 순서의 수정 시, 상기 제1 하위 노드가 소속된 제1 그룹의 특허 문서를 특허 검색 리스트 상의 최하위로 이동시킬 수 있다.
본 발명에 따르면, 특허 검색 엔진에서 특허 검색 결과를 제공함에 있어 검색 리스트 내 특허 문서들에 대해 구축한 인덱스 트리를 활용하여 검색 리스트 내 특허 문서들의 표출 순서를 재정렬하여 제공함으로써 검사자의 검색 노력 및 검토 비용을 최소화할 수 있는 이점이 있다.
도 1은 본 발명의 실시예에 따른 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치의 구성을 나타낸 도면이다.
도 2는 도 1의 장치를 이용한 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 방법을 설명하는 도면이다.
도 3은 도 2의 220 단계를 설명하기 위한 도면이다.
도 4는 도 3에서 각 키워드를 빈도 순으로 정렬한 모습을 나타낸 도면이다.
도 5는 도 3의 결과를 이용하여 생성한 인덱스 트리를 나타낸 도면이다.
도 6은 본 발명의 실시예에서 특허 문서별 생성한 키워드 집합 내 원소의 종류와 배열 순서를 기초로 트리를 점차 확장하는 과정을 설명하는 도면이다.
도 7은 도 6의 과정을 통해 생성된 트리 구조를 나타낸 도면이다.
도 8은 도 7을 재정렬한 결과를 나타낸 도면이다.
도 9는 도 8에 도시된 트리 내의 노드에 대해 그에 대응되는 특허 문서의 고유 넘버를 매핑하는 방법을 설명하는 도면이다.
도 10은 도 5의 결과로부터 각 문서를 복수의 그룹으로 구분한 모습을 나타낸 도면이다.
도 11은 도 10의 결과에 대응되는 문서 검색 결과의 다양성 개념을 도시한 도면이다.
도 12는 도 11에서의 다양성 검색 과정을 예시한 도면이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
본 발명은 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법으로, 특허 검색 엔진에서 특허 검색 결과를 제공하는데 있어, 관련도 높은 특허 문서가 검색 결과 리스트 상의 상위에 보여지도록 리스트 내 문서 표출 순서를 조절함으로써, 특허 문헌 검색을 수행하는 인적 요소인 검사자(이하, 사용자)의 노력(Review Efforts)을 최소화할 수 있는 기법을 제공한다.
본 발명의 실시예의 경우 소정 질의어에 대응하여 검색된 특허 검색 리스트 내 문서들에 대한 연관 관계를 인덱스 트리 구조로 도식화하고, 도식화한 인덱스 트리 내 각 노드의 위치 및 연결 관계를 기초로 특허 문서들의 표출 순서를 재정렬하여 출력할 수 있다.
일반적으로 검색 리스트 상의 상위에 원하는 문서가 노출되는 경우 검색 시간과 노력을 상당히 줄일 수 있게 된다. 따라서, 사용자의 질의 의도와 관련도 높은 문서, 즉 찾고자 하는 타겟 문서들을 리스트 상의 상위 부분에 재배열하여 제공한다면 리스트 상의 하위에 존재하는 관련성 낮은 특허 문서들까지 모두 검토해야 하는 상황을 배제할 수 있어 사용자의 검토 시간과 노력을 최소화할 수 있다.
간단한 예로, 본 발명의 기법에 의하면, 특허 검색 엔진에서 도출한 특허 검색 리스트 내의 1번 부터 10번까지의 특허 문서들 중에, 5번 및 7번 특허 문서를 리스트 상의 1번과 2번 자리로 이동시켜 수정 제공함으로써, 원하는 타겟 문서를 탐색하는데 소요되는 문서 검토 시간과 노력을 최소화할 수 있다.
이하의 본 발명의 실시예에서 특허 검색 엔진이란, 키프리스, 윕스, 윈텔립스 등 기 공지된 다양한 특허 검색 시스템에 해당할 수 있다. 또한, 후술하는 다양성 인덱스 생성 장치는 특허 검색 엔진에 포함되어 구현되거나 특허 검색 엔진과 연동하여 구동될 수 있다. 물론, 인덱스 생성 장치는 소프트웨어 등과 같은 응용 프로그램으로 구현될 수 있다.
도 1은 본 발명의 실시예에 따른 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치의 구성을 나타낸 도면이다.
도 1에 나타낸 것과 같이, 본 발명의 실시예에 따른 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치(100)는 키워드 집합 생성부(110), 키워드 정렬부(120), 인덱스 트리 생성부(130), 제어부(140) 및 출력부(150)를 포함한다.
키워드 집합 생성부(110)는 복수의 키워드가 조합된 질의어에 대응하여 도출된 특허 검색 리스트 내 특허 문서들 각각을 대상으로, 복수의 키워드 중 특허 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성한다.
키워드 정렬부(120)는 전체 키워드 집합에 대해 원소로 소속된 빈도가 높은 키워드를 분석한 다음, 분석된 빈도 순으로 키워드 집합 내 원소의 나열 순서를 변경한ㄷ.
인덱스 트리 생성부(130)는 특허 문서들 각각에 대해 구축된 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 특허 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리(Index Tree)를 생성한다.
제어부(140)는 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 특허 검색 리스트 내 특허 문서들의 표출 순서를 재정렬한다.
그러면, 출력부(150)는 재정렬된 표출 순서대로 사용자에게 특허 검색 리스트를 출력하여 제공한다.
다음은 도 1을 이용한 다양성 인덱스 생성 방법을 더욱 상세히 설명한다.
도 2는 도 1의 장치를 이용한 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 방법을 설명하는 도면이다.
먼저, 키워드 집합 생성부(110)는 복수의 키워드가 조합된 질의어에 대응하여 도출된 특허 검색 리스트 내 특허 문서들 각각을 대상으로, 복수의 키워드 중 특허 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성한다(S210).
여기서, 질의어는 찾고자 하는 문서를 검색하기 위한 통상의 검색어를 의미하며 복수의 키워드를 포함할 수 있다. 예를 들어, 자동차 핸들의 버튼 조작 기능과 관련한 특허 검색이 필요한 경우, "자동차", "핸들", "버튼", "조작" 등과 같은 여러 키워드를 조합하여 질의어를 구성할 수 있다.
일반적으로 특허 검색 엔진의 검색 창에는 여러 키워드, 연산자, 검색 범주(발명 명칭, 청구항, 대표항, 출원인, 국가, 요약서 등) 등에 의해 구성된 질의어 조건이 입력 가능하며, 해당 질의어 조건과 관련된 특허 문서들을 탐색한 후에 검색된 특허 검색 리스트를 화면에 출력 제공한다.
특허 검색 리스트는 주로 테이블 형태로 제공되며, 검색 리스트 상의 특허 문서들에 대한 정보가 표출 순번(랭킹)에 따라 나열되어 제공된다. 예를 들어, "자동차 핸들의 버튼 조작" 기술과 관련하여 총 10건의 특허 문서가 검색된 경우에, 1번부터 10번까지 총 10개의 특허 문서들이 검색 리스트 상에 상하 배열되어 제공된다. 물론, 각 문서에 대한 대표 정보들(발명명칭, 출원번호, 출원인, 발명자 등)이 해당 열에 함께 제공될 수 있다.
다만, 특허 검색 엔진에서 도출한 리스트 내 10개의 특허 문서 중에는 질의어 구성에 사용된 모든 키워드들이 문서 내 존재하는 경우도 있고 일부 키워드만 존재하는 경우도 있다.
이에 따라, 키워드 집합 생성부(110)는 특허 검색 리스트 상의 N개(예를 들어, N=10)의 특허 문서 각각을 대상으로, 검색에 사용된 P개의 키워드 단어 중에서 해당 특허 문서 내 실제 존재하는 키워드 단어를 분석하며, 이를 각각 원소로 하는 키워드 집합을 생성한다. 그 결과, N개의 특허 문서에 대응하는 N개의 키워드 집합이 생성된다. 또한, 각각의 키워드 집합은 1개 내지 P개의 원소로 구성될 수 있다.
여기서 물론, 특허 문서 내에 키워드의 존재 여부 판단 시에는 특허 문서 내의 선택된 적어도 하나의 영역(ex, 요약서 영역, 청구항 영역 등)만을 조사할 수도 있고 특허 문서 내 전체 영역을 모두 조사할 수도 있다.
이후, 키워드 정렬부(120)는 전체 N개의 키워드 집합을 이용하여 집합 내 원소로 소속된 빈도가 높은 키워드를 분석하고, 빈도가 높은 순으로 키워드 집합 내 원소의 나열 순서를 변경한다(S220). 이에 따라, 각각의 키워드 집합은 집합 내 소속된 원소들의 배열이 변경될 수 있다.
도 3은 도 2의 220 단계를 설명하기 위한 도면이고, 도 4는 도 3에서 각 키워드를 빈도 순으로 정렬한 모습을 나타낸 도면이다.
이하에서는 설명의 편의상 8개의 키워드(a, b, c, d, e, f, g, i)를 조합하여 질의어를 구성한 경우를 가정하여 설명한다. 물론 질의어 구성 시에는 연산자 등의 조건이 포함될 수도 있다.
먼저, 도 3에서 첫 번째 열(DID)은 상술한 키워드들이 조합된 질의어에 대응하여 특허 검색 엔진에서 검색한 특허 검색 리스트 내 10개 문서에 대한 고유 번호(d1~d10)를 차례로 나열한 것이다.
두 번째 열(Original Keywords)은 S210 단계를 수행한 결과로서, 각 특허 문서마다 도출된 키워드 집합을 나타낸다. d1 문서의 경우 8개 키워드 중에서 c,f,g,i를 포함한 4개의 키워드가 문서 내 존재하므로, 키워드 집합은 {c,f,g,i}가 된다. d10 문서의 경우 8개 키워드 중에서 d,e를 포함한 2개의 키워드가 문서 내 존재하므로, 키워드 집합은 {d,e}가 된다.
키워드 정렬부(120)는 생성된 총 10개의 키워드 집합을 이용하여, 집합 내 소속된 빈도(frequency)가 높은 키워드 원소를 분석한다. 각 키워드 원소의 빈도를 분석하여 내림차순으로 정렬한 결과는 도 4와 같다.
도 3 및 도 4를 참조하면, 키워드 d는 총 6개 문서(d4,d6~d10)에 대한 키워드 집합 내 각각 소속되어 있으므로 빈도는 6이 된다. 그러나, 키워드 i와 j의 경우 각각 1개 문서에만 소속된 경우로서 빈도는 1이다.
여기서, 키워드 정렬부(120)는 임계치(ex, 2) 미만의 빈도로 분석된 키워드 i와 j를 키워드 집합에서 제거하며, 그 결과는 도 3의 세 번째 열(Fre. keywords)과 같다. 이처럼 빈번하게 발생하지 않은 키워드는 분석 대상에서 제외한다. 즉, 임계치는 집합 내 소속된 키워드 원소의 빈도가 도달해야 하는 유의미한 달성 조건치에 해당하는 것으로, 본 발명의 실시예에서 임계치 미만의 키워드 원소는 버리고 진행한다.
이후, 키워드 정렬부(120)는 각 키워드 집합 내 원소의 나열 순서를 빈도 순으로 정렬한다. 정렬 결과는 도 3의 네 번째 열(Ordered Freq)과 같다. 예를 들어 f들어, d1의 경우, 키워드 i를 제거한 키워드 집합은 {c,f,g}이고, 이를 도 4에 도시된 빈도 순으로 정렬하면 {c,g,f}가 된다.
이러한 방법으로 각각의 특허 문서 별로 그에 대응하는 키워드 집합을 도 3의 마지막 열과 같이 최종 생성한다.
다음, 인덱스 트리 생성부(130)는 특허 문서들 각각에 대해 구축된 키워드 집합 내 원소의 종류 및 나열 순서를 기초로, 특허 문서들 간의 연관 관계를 하나의 트리 구조로 정의한 인덱스 트리를 생성한다(S230).
도 5는 도 3의 결과를 이용하여 생성한 인덱스 트리를 나타낸 도면이다. 이러한 도 5에서 맨 위에 위치한 노드(null)는 통상의 뿌리노드(root node)를 의미한다.
도 5에 도시된 것과 같이, 인덱스 트리 내 노드에는 그에 대응된 특허 문서의 고유 번호가 인덱싱되어 있다. 본 발명의 경우 트리 내 노드의 위치와 연결 관계를 기초로 특허 문서들 간의 연관 관계를 파악할 수 있다.
이하에서는 도 5의 트리 구조를 도출하는 과정을 더욱 구체적으로 설명한다.
도 6은 본 발명의 실시예에서 특허 문서별 생성한 키워드 집합 내 원소의 종류와 배열 순서를 기초로 트리를 점차 확장하는 과정을 설명하는 도면이다.
본 발명의 실시예에서 인덱스 트리 생성부(130)는 특허 문서 별로 구축된 키워드 집합에 대한 원소의 나열 순서를 기초로 뿌리 노드(Root)로부터 분기되는 트리 구조를 생성한다.
이하에서, 뿌리 노드의 바로 밑에 분기되어 연결된 노드는 최상위 노드로 명명하고, 최상위 노드보다 하위에 있는 노드는 모두 하위 노드로 명명한다. 하위 노드의 경우 다단으로 여러 깊이(레벨)에 존재할 수 있다.
본 발명의 실시예에서, 인덱스 트리 생성부(130)는 키워드 집합 내 첫 번째 위치한 최우선 순위의 원소에 대응하여 뿌리 노드(root)의 하부에 직접 연결되는 최상위 노드를 생성한 다음, 차순위의 원소에 대응하여 최상위 노드에 대한 하위 노드를 차례로 생성하는 방법으로 트리를 생성한다.
또한, 생성 과정에서 최우선 순위의 원소가 동종인 특허 문서들 간에는 최상위 노드를 하나의 공통 노드로 통합한 상태에서 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 상태에서 다음의 하위 노드를 개별 분기시킨다.
이러한 과정은 도 6과 같이, d1 문서부터 d10 문서 까지 순서 대로 수행함으로써 점차 노드 및 가지가 확장된 것을 알 수 있다.
먼저, d1 문서를 보면, d1에 대한 키워드 집합 {c,g,f}을 이용하여, 최우선 순위의 원소 c에 대응하는 최상위 노드('c,1')를 뿌리 노드의 하부에 직접 연결하며, 그 아래에는 차순위의 원소 g, f에 대응한 하위 노드들('g,1', 'f,1')을 차례로 연결한다.
신규 생성된 노드에는 노드에 대응한 원소의 종류 및 숫자 1이 라벨링(ex, 'c,1')된다. 추후 다른 문서에서 동일 원소의 노드를 공유할 경우에는 공유한 만큼 누적되어 라벨링값이 갱신된다.
즉, d2 문서를 보면, d2의 키워드 집합은 {c,g}이며, 최우선 순위의 원소 c는 d1 문서의 경우와 동일하므로, 원소 c에 대해서는 기존 최상위 노드('c,1')에 통합되어 해당 노드를 공유하며 해당 노드의 정보는 'c,2'로 갱신된다. 그런 다음, 노드('c,2')로부터 자신의 하위 노드를 분기시키도록 하는데, 이때 차순위 원소 g 역시 d1 문서에서의 경우와 동일하므로 원소 g에 대해서는 기존 생성된 노드(g,1)에 통합되어 해당 노드를 공유하며, 해당 노드의 정보는 'g,2'로 갱신된다.
다음, d3 문서를 보면, 키워드 집합은 {c,g,b}이며, 원소 c와 g가 앞서와 동일하므로, 노드 공유(통합)과 갱신 과정을 거쳐, 해당 노드들이 각각 'c,3'와 'g,3'로 갱신된다. 다만, 마지막 원소 b는 새롭게 등장한 것이므로 노드(c,3)의 하위에 새로운 노드(b,1)로 분기 생성된다. 생성된 노드(b,1)는 원소 f에 대한 노드(f,1)와 동일 레벨(트리 깊이)에 위치하는 것을 알 수 있다.
이후, d4 문서의 경우, 키워드 집합은 {d,a,f}이며, 최우선 순위의 원소 d는 새롭게 등장한 원소이므로 이에 대응하는 최상위 노드('d,1)를 뿌리 노드로부터 분기시켜 새로 생성한다. 이후의 과정은 앞서 상술한 원리를 이용하면 된다.
즉, 이와 같은 과정을 반복하면, 마지막의 d10 문서에 대응되는 트리 도출 결과를 얻을 수 있다.
도 7은 도 6의 과정을 통해 생성된 트리 구조를 나타낸 도면이다. 이러한 도 7은 도 6의 마지막 d10 문서의 결과와 대응되는 것이며, 이를 한번 더 정리한 것이다.
도 7에 나타낸 것과 같이, 뿌리 노드 이하의 각각의 최상위 노드 및 그 하위 노드 각각에 대해, 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보가 매핑된 것을 알 수 있다.
물론, 라벨링값은 앞서 설명한대로 노드의 초기 생성 시에 제1 값(ex, 1)을 가지되 통합이 발생할 때마다 제1 값(ex, 1) 씩 증가된다. 본 발명의 실시예에서 제1 값은 '1'을 사용하였다. 다만, 본 발명이 반드시 이에 한정되지 않으며, 정수, 소수 등의 형태를 가지는 다양한 상수 값이 사용될 수 있다.
이러한 노드에 부여된 라벨링값은 키워드의 빈도와도 밀접하게 관련 있으며, 빈도가 높은 키워드 원소가 매칭된 노드의 경우 라벨링값도 높은 것을 알 수 있다.
본 발명의 실시예의 경우, 인덱스 트리 생성부(130)는 최상위 노드(도 7의 경우 c,d,a 노드)에 각각 매핑된 라벨링값(3,6,1)에 기초하여, 뿌리 노드(null)로부터 분기된 최상위 노드들(c,d,a 노드)의 배열 순서를 정렬한다. 이에 더하여, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한다. 이때, 하위 노드가 위치한 트리 깊이에 따라서, 해당 하위 노드에 대한 직전 노드는 최상위 노드가 될 수도 있고 그 위에 연결된 다른 하위 노드가 될 수도 있다.
도 8은 도 7을 재정렬한 결과를 나타낸 도면이다.
예를 들어, 도 7에서 최상위 노드 c, d, a에는 각각 3, 6, 1의 라벨링값이 매핑되어 있어, 이를 높은 순으로 좌우 정렬하면, 도 8과 같이, d, c, a 노드 순서로 변경된다.
그리고, 도 7에서, 최상위 노드 d에 대한 하위 노드 e, g, a에는 각각 2, 1, 3,의 라벨링값이 매핑되어 있으므로 이를 높은 순서대로 정렬하면, 도 8과 같이 a, e, g 노드 순서로 변경된다. 도 7에서 하위 노드 a에 대한 그 다음의 하위 노드 b, f 노드에 대한 라벨링값을 모두 1로 동일하기 때문에 순서 변경이 필요 없다.
도 8과 같이 정렬한 이후, 인덱스 트리 생성부(130)는 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 키워드 집합 내 소속 원소로 하는 특허 문서의 고유 넘버를 해당 하위 노드에 최종 매핑한다.
도 9는 도 8에 도시된 트리 내의 노드에 대해 그에 대응되는 특허 문서의 고유 넘버를 매핑하는 방법을 설명하는 도면이다.
예를 들어, 도 9에 도시된 하위 노드들 중, 왼쪽 하단의 원소 b의 노드로부터 그 상위의 모든 노드까지 경로에 대응하는 원소를 역순으로 나타내면 {d,a,b}가 되며, 이와 대응되는 집합을 가지는 특허 문서는 도 7에서 문서 d8에 해당한다. 따라서, 원소 b의 노드에 대응하여 문서 d8을 매핑한다.
그리고, 그 위에 위치한 원소 a의 노드로부터 그 상위의 노드의 경로 대응하는 원소를 역순으로 나타내면, {d,a}가 되며 이는 도 7에서 문서 d7에 해당한다. 따라서 원소 a의 노드에 대응하여 문서 d7을 매핑한다.
또 다른 예로, 도 9의 트리에서 가장 하위 레벨에 위치한 원소 h의 노드의 경우, 그로부터 상위의 노드의 경로에 대응하는 원소를 역순으로 나타내면 {d,g,f,h}가 되며, 이는 도 7에서 문서 d6에 해당한다. 따라서, 원소 h의 노드에 대응하여 문서 d6을 매핑한다.
다만, 원소 h의 윗부분에 위치한 원소 f에 대응하는 경로의 경우 해당 집합은 {d,g,f}가 되는데, 이와 동일한 집합을 가지는 문서는 도 7에 존재하지 않기 때문에, 해당 노드에는 문서 정보가 매핑되지 않는다. 즉, 경우에 따라 문서 번호가 비어 있는 노드들도 존재한다.
이러한 과정을 반복하면 도 5의 인덱스 트리를 최종적으로 도출할 수 있다.
이후, 제어부(140)는 도 5와 같이 최종 도출된 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 특허 검색 리스트 내 특허 문서들의 표출 순서를 재정렬한다(S240).
이때, 제어부(140)는 도 5의 인덱스 트리 내의 하위 노드 각각에 매핑된 특허 문서의 고유 넘버, 최상위 노드들의 좌우 배열 순서, 그리고 특허 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여, 특허 문서들의 표출 순서를 재정렬한다. 구체적으로, 트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 특허 문서를 상위로 정렬시킨다.
도 10은 도 5의 결과로부터 각 문서를 복수의 그룹으로 구분한 모습을 나타낸 도면이다. 이때 동일 그룹 내에는 키워드가 유사한 비슷한 속성의 특허 문서들이 포함된다.
각각의 문서는 최상위 노드들에 따라 3개의 그룹으로 구분된다. 여기서, 맨좌측에 위치한 그룹일수록, 그리고 그룹 내에서 상위에 위치한 노드의 문서일수록 상위에 정렬될 수 있다.
또한, 도 8 및 도 9을 참조하면, 복수의 그룹 중에는 맨 좌측에 위치한 그룹일수록 최상위 노드에 부여된 라벨링값이 높고, 동일 그룹 내에서는 상위(낮은 깊이)에 위치한 노드가 하위에 위치한 노드보다 높은 라벨링 값을 가지고 있는 것을 알 수 있다.
여기서, 동일 그룹 내의 문서들 중에서는 위치적으로 가장 상위에 있으면서 가장 좌측에 위치한 문서는 해당 그룹 내에서 대표성을 가진 문서로 볼 수 있다. 도 10에서 그룹1의 경우는 d7, 그룹2에서는 d2, 그룹3에서는 d5가 각각 이에 해당한다.
d7, d2, d5는 해당 그룹 내의 대표 하위 노드에 해당하며, 이들 대표 하위 노드는 그룹 내에서 특허 문서가 매핑된 하위 노드들 중에서도 가장 낮은 트리 깊이를 갖는 하위 노드에 해당한다.
도 11은 도 10의 결과에 대응되는 문서 검색 결과의 다양성 개념을 도시한 도면이다. 이러한 도 11의 결과는 뿌리 노드를 기준으로 하는 각 노드의 위치 및 노드 간 거리, 각 그룹에 부여되는 가중치 등을 이용하여 등가적으로 얻을 수 있다.
또한 도 11의 결과에서 3개의 그룹 내 중심부에 각각 대표 문서 d7, d2, d5가 존재하는 것을 알 수 있다.
제어부(140)는 d1~d10 문서 중에서, 그룹1의 대표 문서인 d7을 가장 상위에 정렬하고 그룹1 내의 d10, d8, d4, d9, d6를 그 다음에 위치시킬 수 있다. 이는 각 노드에 기 매핑된 라벨링값 순서에 따른 것이다. 그룹1 다음으로는 그룹2의 대표 문서인 d2 및 나머지 d3,d1을 정렬하고, 이후에 그룹3의 대표 문서인 d5를 마지막에 배치한다. 이와 같이, 제어부(140)는 초기에 도출된 문서 순서인 d1~d10 순서와는 상이한 순서로 문서를 재정렬할 수 있다.
출력부(150)는 재정렬된 표출 순서대로 특허 검색 리스트를 사용자 단말로 출력 제공한다(S260). 사용자는 제공된 특허 검색 리스트 내에서 맨 위의 문서부터 검토하게 된다.
도 12는 도 11에서의 다양성 검색 과정을 예시한 도면이다. 도 12를 참조하면, 사용자는 가장 먼저 d7 문서를 검토하게 된다. 만일 d7 문서가 사용자가 찾고자 하는 관련 문서인 경우, 해당 문서 범위에 있는 동일 그룹 내의 다른 문서도 찾아 검토하면 된다.
만일, d7 문서가 사용자가 찾고자 하는 관련 문서가 아닌 경우에는 본 발명의 실시예에 따른 다양성 검색 결과를 기반으로 다른 그룹의 문서를 찾도록 하는데, 도 12에서와 같이, 대표성과 다양성을 고려하여 다음 번 문서 즉, 다른 그룹 내 대표 문서인 d2 또는 d5를 선택한다. 여기서, 다양성은 이하의 수학식 1에서 노드의 거리에 대응하는 개념이며, 대표성은 노드에 매핑된 라벨링값에 대응하는 개념일 수 있다.
물론, 그룹1 내 문서를 모두 검토한 후에 다음 순서의 그룹2 내 대표 문서인 d2 문서를 검토하는 중에 d2 문서가 사용자가 찾는 관련 문서가 아닌 경우가 발생할 수 있다.
이상과 같이, 리스트 상에서 표출된 순서대로 문서를 검토한 결과 그룹 내 대표 문서가 노이즈 문서로 판단될 경우에는 해당 그룹과 거리가 먼 그룹의 문서를 검토할 수 있도록 리스트 내 문서 순서를 다시 재정렬하여 제공할 수 있다.
이를 위해, 본 발명의 실시예는 특허 검색 리스트 내에서 각 문서에 대응하여 노이즈 문서의 여부를 입력받기 위한 선택 버튼 등을 제공할 수 있다.
즉, S260 단계를 통해 제공된 특허 검색 리스트 내에서, 노이즈 문서로 분석된 제1 특허 문서(ex, d7)가 사용자로부터 선택되면, 제어부(140)는 해당되는 제1 특허 문서에 대응된 제1 하위 노드(d7 노드)로부터 다른 그룹 내의 대표 하위 노드(d2, d5) 까지의 거리를 각각 연산한 다음, 연산한 거리 및 대표 하위 노드에 기 매핑된 라벨링값을 조합하여 다양성 지수를 각각 연산한다(S270).
즉, 제어부(140)는 d7 및 d2 노드 간의 거리(제1 거리)와, d7 및 d5 노드 간의 거리(제2 거리)를 각각 구한다. 도 8에 따르면, d2 노드에 대해 기 매핑된 라벨링값은 3이고 d5 노드에 대해 기 매핑된 라벨링값은 1이다. 여기서, 다양성 지수가 높은 문서의 경우 d7와는 거리가 멀면서 높은 빈도의 키워드가 존재하는 문서를 의미할 수 있다.
다양성 지수(Ok)는 아래 수학식에 의해 연산될 수 있다.
Figure pat00002
여기서, λ는 0과 1 사이에서 결정되는 가중치 값에 해당한다. D는 노드 간 거리로서 제1 하위 노드(d7)와 다른 그룹(그룹 2,3) 내의 대표 하위 노드(d2, d5) 사이의 거리이고, R은 대표 하위 노드 상에 매핑된 라벨링값을 나타낸다.
만일 R값 보다 D값(거리 값)에 더욱 가중치를 부여하고자 한다면, λ 값을 0.5보다 작은 값으로 사용하면 된다. 여기서 물론, 필요한 경우에 수학식 1에 적용되는 R과 D 값은 0과 1 사이의 값으로 정규화된 값을 사용할 수도 있다.
노드 간 거리(D)는 다음의 수학식 2를 이용하여 구할 수 있으며, 이는 기 공지된 것에 해당한다.
Figure pat00003
여기서, d(i,j)는 노드 i와 j 간 거리, R은 트리 내 뿌리 노드(root),
Figure pat00004
는 최소 공통 노드(Lowest Common Ancestor)를 의미한다.
이와 같이, 다양성 트리 인덱스를 구성하면 문서 별로 거리를 계산할 필요가 없이 문서의 트리상의 깊이와 공통 노드의 위치정보 만으로 거리를 측정할 수 있는 장점이 있다.
예를 들어, 도 11에서 d7에서 가장 거리가 먼 문서는 수학식 2을 이용하면 d5이며 가장 거리가 가까운 문서는 d8 또는 d4 이다.
또한, 거리 및 라벨링값을 기초로 수학식 1을 통해 다양성 지수를 구한 결과, d7에서 d5 간의 거리(제2 거리)가 d7에서 d2 간의 거리(제1 거리) 보다 높은 값을 가질 경우, d5가 속한 그룹 3의 문서를 가장 상위에 노출하도록 문서의 표출 순서를 다시 수정 정렬할 수 있다. 물론, 이때, 앞서 노이즈 문서로 분석된 d7이 속한 그룹 1의 문서는 최하위로 이동시킬 수 있다.
즉, 제어부(140)는 특허 문서들 중 다양성 지수가 가장 높은 그룹에 속한 특허 문서들이 특허 검색 리스트 상의 상위에 노출되도록, 특허 문서들의 표출 순서를 수정한다. 이에 따라, 그룹3의 d5가 가장 상위에 노출되고, 그 다음으로 그룹2, 그리고 그룹1의 문서 순으로 노출될 수 있다.
이와 같이, 특허 검색 엔진에서 초기 도출한 특허 검색 리스트 내 특허 문서들의 정렬 순서를 최적 상태로 변경하여 출력할 경우에 사용자의 검토 노력을 줄일 수 있다.
이상과 같은 본 발명에 의하면, 특허 검색 엔진에서 특허 검색 결과를 제공함에 있어, 검색 리스트 내 특허 문서들에 대해 구축한 인덱스 트리를 기초로 검색 리스트 내 특허 문서들의 표출 순서를 재정렬하여 제공함에 따라 검사자의 검색 노력 및 검토 비용을 최소화할 수 있는 이점이 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100: 다양성 인덱스 생성 장치
110: 키워드 집합 생성부 120: 키워드 정렬부
130: 인덱스 트리 생성부 140: 제어부
150: 출력부

Claims (18)

  1. 다양성 인덱스 생성 장치를 이용한 다양성 인덱스 생성 방법에 있어서,
    복수의 키워드가 조합된 질의어에 대응하여 도출된 특허 검색 리스트 내 특허 문서들 각각을 대상으로, 상기 복수의 키워드 중 특허 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 단계;
    전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계;
    상기 특허 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 특허 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 단계;
    상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 특허 검색 리스트 내 특허 문서들의 표출 순서를 재정렬하는 단계; 및
    상기 재정렬된 표출 순서대로 상기 특허 검색 리스트를 제공하는 단계를 포함하는 다양성 인덱스 생성 방법.
  2. 청구항 1에 있어서,
    상기 키워드 집합 내 원소의 나열 순서를 변경하는 단계는,
    임계치 미만의 빈도로 분석된 키워드를 상기 키워드 집합에서 제거하는 다양성 인덱스 생성 방법.
  3. 청구항 1에 있어서,
    상기 인덱스 트리를 생성하는 단계는,
    상기 특허 문서 별로 구축된 상기 키워드 집합에 대한 상기 원소의 나열 순서를 기초로 뿌리 노드로부터 분기되는 트리 구조를 생성하되, 상기 키워드 집합 내 최우선 순위의 원소에 대응하여 상기 뿌리 노드에 직접 연결되는 최상위 노드를 생성한 후, 차순위의 원소에 대응하여 상기 최상위 노드에 대한 하위 노드를 차례로 생성하며,
    상기 생성 과정에서 상기 최우선 순위의 원소가 동종인 특허 문서들 간에는 상기 최상위 노드를 하나의 공통 노드로 통합하여 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 후에 다음의 하위 노드를 개별 분기시키는 다양성 인덱스 생성 방법.
  4. 청구항 3에 있어서,
    상기 인덱스 트리를 생성하는 단계는,
    상기 최상위 노드 및 하위 노드 각각에 대해 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보를 매핑하며,
    상기 라벨링값은 노드의 초기 생성 시에 제1 값을 가지며 상기 통합이 발생할 때마다 제1 값 씩 증가되는 다양성 인덱스 생성 방법.
  5. 청구항 4에 있어서,
    상기 인덱스 트리를 생성하는 단계는,
    상기 최상위 노드에 각각 매핑된 라벨링값을 기초로 상기 뿌리 노드로부터 분기된 최상위 노드들의 배열 순서를 정렬하고, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한 다음,
    상기 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 상기 키워드 집합 내 소속 원소로 하는 특허 문서의 고유 넘버를 상기 해당 하위 노드에 최종 매핑하는 다양성 인덱스 생성 방법.
  6. 청구항 5에 있어서,
    상기 표출 순서를 재정렬하는 단계는,
    상기 하위 노드 각각에 매핑된 특허 문서의 고유 넘버, 상기 최상위 노드들의 좌우 배열 순서, 그리고 특허 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여 상기 특허 문서들의 표출 순서를 재정렬하되,
    트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 특허 문서를 상위로 정렬시키는 다양성 인덱스 생성 방법.
  7. 청구항 6에 있어서,
    상기 제공된 특허 검색 리스트 내에서 노이즈 문서로 분석된 제1 특허 문서가 사용자로부터 선택되면, 상기 제1 특허 문서에 대응된 제1 하위 노드로부터 다른 그룹 내의 대표 하위 노드까지의 거리를 각각 연산하여, 상기 거리 및 상기 대표 하위 노드에 기 매핑된 상기 라벨링값을 조합하여 다양성 지수를 연산하는 단계; 및
    상기 특허 문서들 중 상기 다양성 지수가 가장 높은 그룹에 속한 특허 문서들이 특허 검색 리스트 상의 상위에 노출되도록, 상기 특허 문서들의 표출 순서를 수정하는 단계를 더 포함하는 다양성 인덱스 생성 방법.
  8. 청구항 7에 있어서,
    상기 다양성 지수(Ok)는 아래 수학식에 의해 연산되는 다양성 인덱스 생성 방법:
    Figure pat00005

    여기서, λ는 0과 1 사이에서 결정되는 가중치, D는 상기 제1 하위 노드와 상기 다른 그룹 내의 대표 하위 노드 사이의 노드 간 거리, R은 상기 대표 하위 노드 상에 매핑된 라벨링값을 나타낸다.
  9. 청구항 7에 있어서,
    상기 그룹 내 대표 하위 노드는,
    상기 그룹 내에서 상기 특허 문서가 매핑된 하위 노드 중 가장 낮은 트리 깊이를 갖는 하위 노드를 나타내며,
    상기 표출 순서를 수정하는 단계는,
    상기 제1 하위 노드가 소속된 제1 그룹의 특허 문서를 특허 검색 리스트 상의 최하위로 이동시키는 다양성 인덱스 생성 방법.
  10. 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치에 있어서,
    복수의 키워드가 조합된 질의어에 대응하여 도출된 특허 검색 리스트 내 특허 문서들 각각을 대상으로, 상기 복수의 키워드 중 특허 문서 내 존재하는 키워드를 각각 원소로 하는 키워드 집합을 생성하는 키워드 집합 생성부:
    전체 키워드 집합에 대해 상기 원소로 소속된 빈도가 높은 키워드를 분석하고 상기 빈도 순으로 상기 키워드 집합 내 원소의 나열 순서를 변경하는 키워드 정렬부;
    상기 특허 문서들 각각에 대해 구축된 상기 키워드 집합 내 원소의 종류 및 나열 순서를 기초로 상기 특허 문서들 간의 연관 관계를 계층 구조로 정의한 인덱스 트리를 생성하는 인덱스 트리 생성부;
    상기 인덱스 트리 내의 각 노드의 위치 및 연결 관계를 기초로 상기 특허 검색 리스트 내 특허 문서들의 표출 순서를 재정렬하는 제어부; 및
    상기 재정렬된 표출 순서대로 상기 특허 검색 리스트를 제공하는 출력부를 포함하는 다양성 인덱스 생성 장치.
  11. 청구항 10에 있어서,
    상기 키워드 정렬부는,
    임계치 미만의 빈도로 분석된 키워드를 상기 키워드 집합에서 제거하는 다양성 인덱스 생성 장치.
  12. 청구항 10에 있어서,
    상기 인덱스 트리 생성부는,
    상기 특허 문서 별로 구축된 상기 키워드 집합에 대한 상기 원소의 나열 순서를 기초로 뿌리 노드로부터 분기되는 트리 구조를 생성하되, 상기 키워드 집합 내 최우선 순위의 원소에 대응하여 상기 뿌리 노드에 직접 연결되는 최상위 노드를 생성한 후, 차순위의 원소에 대응하여 상기 최상위 노드에 대한 하위 노드를 차례로 생성하며,
    상기 생성 과정에서 상기 최우선 순위의 원소가 동종인 특허 문서들 간에는 상기 최상위 노드를 하나의 공통 노드로 통합하여 하위 노드를 개별 분기시키고, 분기 과정에서 차순위의 원소도 동종이면 해당하는 하위 노드를 하나의 공통 노드로 통합한 후에 다음의 하위 노드를 개별 분기시키는 다양성 인덱스 생성 장치.
  13. 청구항 12에 있어서,
    상기 인덱스 트리 생성부는,
    상기 최상위 노드 및 하위 노드 각각에 대해 대응 원소의 종류 및 라벨링값을 포함한 인덱싱 정보를 매핑하며,
    상기 라벨링값은 노드의 초기 생성 시에 제1 값을 가지며 상기 통합이 발생할 때마다 제1 값 씩 증가되는 다양성 인덱스 생성 장치.
  14. 청구항 13에 있어서,
    상기 인덱스 트리 생성부는,
    상기 최상위 노드에 각각 매핑된 라벨링값을 기초로 상기 뿌리 노드로부터 분기된 최상위 노드들의 배열 순서를 정렬하고, 하위 노드들에 각각 매핑된 라벨링값을 기초로 직전 노드에서 분기된 하위 노드들의 배열 순서를 정렬한 다음,
    상기 인덱스 트리 상의 하위 노드를 대상으로, 해당 하위 노드로부터 상위의 모든 노드까지의 경로에 대응하는 원소들을 상기 키워드 집합 내 소속 원소로 하는 특허 문서의 고유 넘버를 상기 해당 하위 노드에 최종 매핑하는 다양성 인덱스 생성 장치.
  15. 청구항 14에 있어서,
    상기 제어부는,
    상기 하위 노드 각각에 매핑된 특허 문서의 고유 넘버, 상기 최상위 노드들의 좌우 배열 순서, 그리고 특허 문서의 고유 넘버가 매핑된 각 하위 노드의 트리 깊이를 이용하여 상기 특허 문서들의 표출 순서를 재정렬하되,
    트리 좌측에 위치한 최상위 노드에 대한 하위의 노드 그룹일수록, 그리고 동일한 그룹 내에서 낮은 트리 깊이를 갖는 하위 노드일수록, 해당 노드의 특허 문서를 상위로 정렬시키는 다양성 인덱스 생성 장치.
  16. 청구항 15에 있어서,
    상기 제어부는,
    상기 제공된 특허 검색 리스트 내에서 노이즈 문서로 분석된 제1 특허 문서가 사용자로부터 선택되면, 상기 제1 특허 문서에 대응된 제1 하위 노드로부터 다른 그룹 내의 대표 하위 노드까지의 거리를 각각 연산하여, 상기 거리 및 상기 대표 하위 노드에 기 매핑된 상기 라벨링값을 조합하여 다양성 지수를 연산하고,
    상기 특허 문서들 중 상기 다양성 지수가 가장 높은 그룹에 속한 특허 문서들이 특허 검색 리스트 상의 상위에 노출되도록, 상기 특허 문서들의 표출 순서를 수정하는 다양성 인덱스 생성 장치.
  17. 청구항 16에 있어서,
    상기 다양성 지수(Ok)는 아래 수학식에 의해 연산되는 다양성 인덱스 생성 장치:
    Figure pat00006

    여기서, λ는 0과 1 사이에서 결정되는 가중치, D는 상기 제1 하위 노드와 상기 다른 그룹 내의 대표 하위 노드 사이의 노드 간 거리, R은 상기 대표 하위 노드 상에 매핑된 라벨링값을 나타낸다.
  18. 청구항 17에 있어서,
    상기 그룹 내 대표 하위 노드는,
    상기 그룹 내에서 상기 특허 문서가 매핑된 하위 노드 중 가장 낮은 트리 깊이를 갖는 하위 노드를 나타내며,
    상기 제어부는,
    상기 표출 순서의 수정 시, 상기 제1 하위 노드가 소속된 제1 그룹의 특허 문서를 특허 검색 리스트 상의 최하위로 이동시키는 다양성 인덱스 생성 장치.
KR1020180098494A 2017-09-29 2018-08-23 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법 KR102067728B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170127426 2017-09-29
KR1020170127426 2017-09-29

Publications (2)

Publication Number Publication Date
KR20190038309A true KR20190038309A (ko) 2019-04-08
KR102067728B1 KR102067728B1 (ko) 2020-01-17

Family

ID=66164388

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180098494A KR102067728B1 (ko) 2017-09-29 2018-08-23 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102067728B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102198271B1 (ko) * 2020-05-04 2021-01-05 호서대학교 산학협력단 문서 내에 분산된 사항에 관한 쿼리에 대해 검색결과를 제공하는 방법
CN116431799A (zh) * 2023-06-14 2023-07-14 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301221A (ja) * 2008-06-11 2009-12-24 Yahoo Japan Corp 文書検索システム、文書検索方法、及びプログラム
KR20100070774A (ko) * 2008-12-18 2010-06-28 주식회사 케이티 시맨틱 검색결과 처리 장치 및 그 방법
KR20110059292A (ko) * 2009-11-27 2011-06-02 동국대학교 산학협력단 온톨로지를 이용한 문서의 군집화 방법 및 장치
KR20110067337A (ko) * 2009-12-14 2011-06-22 동국대학교 산학협력단 온톨로지를 이용한 문서의 다단계 군집화 방법 및 장치
KR101575802B1 (ko) * 2008-06-26 2015-12-08 (주)윕스 특허문서의 작업로그 시스템 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301221A (ja) * 2008-06-11 2009-12-24 Yahoo Japan Corp 文書検索システム、文書検索方法、及びプログラム
KR101575802B1 (ko) * 2008-06-26 2015-12-08 (주)윕스 특허문서의 작업로그 시스템 및 그 방법
KR20100070774A (ko) * 2008-12-18 2010-06-28 주식회사 케이티 시맨틱 검색결과 처리 장치 및 그 방법
KR20110059292A (ko) * 2009-11-27 2011-06-02 동국대학교 산학협력단 온톨로지를 이용한 문서의 군집화 방법 및 장치
KR20110067337A (ko) * 2009-12-14 2011-06-22 동국대학교 산학협력단 온톨로지를 이용한 문서의 다단계 군집화 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102198271B1 (ko) * 2020-05-04 2021-01-05 호서대학교 산학협력단 문서 내에 분산된 사항에 관한 쿼리에 대해 검색결과를 제공하는 방법
CN116431799A (zh) * 2023-06-14 2023-07-14 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统
CN116431799B (zh) * 2023-06-14 2023-08-18 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统

Also Published As

Publication number Publication date
KR102067728B1 (ko) 2020-01-17

Similar Documents

Publication Publication Date Title
US10963471B2 (en) Progressive spatial searching using augmented structures
KR102088435B1 (ko) 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법
Park et al. G-CARE: A framework for performance benchmarking of cardinality estimation techniques for subgraph matching
EP1349081A1 (en) Method and apparatus for querying relational databases
JP5208001B2 (ja) ベクトルデータ検索装置
CN108932347B (zh) 一种分布式环境下基于社会感知的空间关键字查询方法
US20100082654A1 (en) Methods And Apparatus Using Range Queries For Multi-dimensional Data In A Database
KR100996443B1 (ko) 고집적인덱스 데이터베이스 및 쿼리 데이터의 검색과 연산기능 분할에 의한 그래픽 프로세서 기반 병렬분산 처리 시스템 및 방법
Eberius et al. Top-k entity augmentation using consistent set covering
US20040093329A1 (en) Database system and query optimiser
CN105975617A (zh) 一种多分区表查询处理的方法和装置
US20120078940A1 (en) Analysis of object structures such as benefits and provider contracts
CN109582849A (zh) 一种基于知识图谱的网络资源智能检索方法
CN109086376B (zh) 基于sparql查询语言的多查询方法和装置
KR20190038309A (ko) 효율적 특허 검색을 위한 검색 결과 다양성 인덱스 생성 장치 및 그 방법
CN104484392A (zh) 数据库查询语句生成方法及装置
Cho et al. ALPS: an efficient algorithm for top-k spatial preference search in road networks
EP1349082A1 (en) Method and apparatus for querying relational databases
JPH10116290A (ja) 文書分類管理方法及び文書検索方法
Belesiotis et al. Spatio-textual user matching and clustering based on set similarity joins
Maroulis et al. Resource-aware adaptive indexing for in situ visual exploration and analytics
Jiang et al. Vizcs: Online searching and visualizing communities in dynamic graphs
Diao et al. Spade: A modular framework for analytical exploration of RDF graphs
US7010539B1 (en) System and method for schema method
GB2566931A (en) System for detecting data relationships based on sample data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant