KR100685023B1

KR100685023B1 - 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템

Info

Publication number: KR100685023B1
Application number: KR1020010070541A
Authority: KR
Inventors: 박종수; 피용진; 김진상; 송남곤; 이종혁; 권오욱
Original assignee: 주식회사 포스코; 학교법인 포항공과대학교
Priority date: 2001-11-13
Filing date: 2001-11-13
Publication date: 2007-02-20
Also published as: JP3735335B2; KR20030039576A; JP2003281186A

Abstract

본 발명은 문서를 자동으로 검색하는 예제기반 문서검색방법 및 검색시스템에 관한 것으로서, 관련기술들과 관련하여 기술의 유사성을 보다 신속하고 보다 정확하게 판단할 수 있도록 동일 또는 유사한 관련기술들을 그 유사도와 함께 보여주는 유사성 판단을 위한 예제기반 검색방법 및 검색시스템을 제공하고자 하는데, 그 목적이 있다.

본 발명은 관련기술문서를 입력하는 단계, 문서의 특정구조분석에 의해 상기 관련기술문서를 단어벡터로 표현하는 단계, 및 상기와 같이 표현된 단어벡터를 저장하는 단계를 포함하는 색인과정; 과

예제문서를 입력하는 단계, 문서의 특정구조분석에 의해 상기 예제문서를 단어벡터로 표현하는 단계, 및 상기 색인과정에서 저장된 관련기술문서에 대한 단어벡터와 예제문서에 대한 유사도를 구하는 단계를 포함하는 검색과정을 포함하여 구성되는 예제기반 검색방법 및 그 검색시스템을 그 요지로 하고 있다.

문서, 유사성, 색인, 검색, 특허구조, 예제기반 검색

Description

유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템 {Example-base retrieval method and system for similarity examination}

도 1은 본 발명에 부합되는 유사성 판단을 위한 예제기반 검색 시스템의 전체 구성도

도 2는 통상적인 예제기반 검색 시스템의 전체 구성도

도 3는 본 발명의 바람직한 예제기반 검색 시스템의 일례를 나타내는 구성도

도 4는 본 발명을 따르는 문서의 특정 구조 파악에 의해 문서를 표현하는 방법의 일례를 나타내는 흐름도

도 5는 본 발명에 따라 문서의 특정 구조파악에 의해 단락제목을 추출하는 단락제목추출시스템의 일례를 나타내는 구성도

도 6은 본 발명에 따라 문서의 특정 구조파악에 의해 단락제목을 추출하는 방법의 일례를 나타내는 흐름도

* 도면의 주요부분에 대한 부호의 설명 *

100. 300 . . 검색시스템 110, 310 . . 색인부 111, 311 . . 관련기술문서입력부 112 . . 관련기술문서표현부 113 . . 관련기술문서저장부 120, 320 . . 검색부 121, 321 . . 예제문서입력부 122 . . 예제문서표현부 123, 324 . . 유사도연산부 312 . . 제1키워드 추출부 313 . . 제1 단어벡 터표현부 314 . . 단어벡터저장부 322 . . 제2 키워드추출부 323 . . 제2 단어벡터표현부 325 . . 표현부 400 . . 단락제목추출시스템 410 . . 문장추출부 420 . . 어절추출부 430 . . 단락제목표시부 440 . . 선택부 450 . . 단락제목여부판단부 460 . . 단락제목추출부

본 발명은 문서를 자동으로 검색하는 예제기반 문서검색방법 및 검색시스템에 관한 것으로서, 보다 상세하게는 문서의 특정구조를 이용하여 동일 또는 유사한 관련기술들을 검색하는 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템에 관한 것이다.

오늘날, 기술은 새로운 사상에 근거하거나 동일 기술분야 또는 관련 기술분야의 기술들을 이용하여 이루어지고 있으며, 그 내용도 더욱 복잡, 다양화되고, 그 가치도 증가되고 있다.

따라서, 산업분야에서는 기술들간의 동일 또는/그리고 유사성을 판단하여야 하는 경우가 빈번히 발생되고 있다.

예를 들면, 기업이나 연구소등에서 새로운 기술을 개발하려고 하는 경우 또는 새로운 기술을 개발하는 도중 또는 새로운 기술을 완성한 후에 이 기술과 동일 또는 유사한 관련기술들이 존재하는지여부를 검색하고, 이 기술이 검색된 관련기술과 동 일성 및 유사성을 갖는지여부를 판단하는 일이 행해지고 있다.

상기와 같이 기술들간의 동일성 및 유사성을 판단하기 위하여 기존의 키워드(keyword)검색시스템을 사용할 경우, 사용자는 예제기술(예를 들면, 새로운 기술)을 구체적으로 파악하여 예제기술과 관련되는 관련기술들을 검색한 후에 예제기술과 검색된 관련 기술들과의 동일성 및/또는 유사성(차이점)등을 직접 판단해야 한다.

이와 같이, 종래의 키워드(keyword)검색시스템을 사용할 경우에는 사용자가 새로운 지식을 이해하고 또한 문서 내용을 확실히 인지해야 하므로 예제기술과 검색된 관련기술들간의 동일성 및/또는 유사성(차이점)등을 판단하는데 많은 시간이 요구되고, 그리고 몇몇 키워드에 의해 검색이 행해져 관련 기술들이 누락될 가능성이 있으므로, 검색의 정확도가 떨어지는 문제점이 있다.

본 발명자는 상기한 종래 기술의 제반 문제점을 해결하기 위하여 연구를 행하고, 그 결과에 근거하여 본 발명을 제안하게 된 것으로서, 본 발명은 기술의 동일 및 유사성을 보다 신속하고 보다 정확하게 판단할 수 있도록 동일 또는 유사한 관련기술들을 그 유사도와 함께 보여주는 유사성 판단을 위한 예제기반 검색방법 및 검색시스템을 제공하고자 하는데, 그 목적이 있다.

이하, 본 발명에 대하여 설명한다.

본 발명은 관련기술문서를 입력하는 단계, 문서의 특정구조분석에 의해 상기 관련 기술문서를 단어벡터로 표현하는 단계, 및 상기와 같이 표현된 단어벡터를 저장하는 단계를 포함하는 색인과정; 과

예제문서를 입력하는 단계, 문서의 특정구조분석에 의해 상기 예제문서를 단어벡터로 표현하는 단계, 및 상기 색인과정에서 저장된 관련기술문서에 대한 단어벡터와 예제문서에 대한 유사도를 구하는 단계를 포함하는 검색과정을 포함하여 구성되는 예제기반 검색방법에 관한 것이다.

또한, 본 발명의 바람직한 유사성 판단을 위한 예제기반검색방법은

예제기반 색인과정 및 예제기반 검색과정을 포함하고,

상기 예제기반 색인과정은 관련기술문서를 입력하는 단계;

입력된 관련기술문서에서 문서의 구조적 특성에 의해 단락을 구분하고 구분된 단락별로 키워드를 추출하는 단계;

상기와 같이 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 단어벡터로 표현하는 단계;

상기와 같이 단어벡터로 표현된 키워드와 그 가중치를 저장하는 단계를 포함하고, 그리고

상기 예제기반검색과정은 예제기술이 기재된 예제문서를 입력하는 단계;

입력된 예제문서에서 문서의 구조적 특성에 따라 단락을 구분하고 구분된 단락별로 키워드를 추출하는 단계;

상기와 같이 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 단어벡터로 표현하는 단계; 및

상기와 같이 표현되는 예제문서에 대한 단락별 단어벡터와 상기 색인과정에서 저장된 관련기술문서에 대한 단락별 단어벡터를 이용하여 예제문서와 관련기술문서와의 대응단락간의 유사도를 구하고, 문서에 있어서 단락의 중요도에 근거하여 단락간의 유사도에 가중치를 부여하여 예제문서와 관련기술문서와의 유사도를 구하는 단계; 및

상기와 같이 구한 유사도의 오림차순으로 관련기술문서들을 정렬하여 사용자에게 제공하는 단계를 포함하여 구성된다.

또한, 본 발명은 관련기술문서를 입력하는 관련기술입력부, 문서의 구조분석에 의해 상기 관련기술입력부에서 입력된 관련기술문서를 단어벡터로 표현하는 관련기술문서표현부, 및 상기 관련기술문서표현부에서 표현된 단어벡터를 저장하는 관련기술문서저장부를 포함하는 색인부; 와

예제기술이 기재되어 있는 예제문서를 입력하는 예제문서입력부, 문서의 구조분석에 의해 예제문서입력부에서 입력된 예제문서를 단어벡터로 표현하는 예제문서표현부, 상기 관련기술문서저장부에 저장된 관련기술문서에 대한 단어벡터와 예제문서표현부에서 표현된 예제문서에 대한 단어벡터를 이용하여 예제문서에 대한 유사도를 구하는 유사도연산부, 및 유사도연산부에 의해 구한 유사도의 오림차순으로 관련기술문서들을 정렬하여 사용자에게 제공하는 표시부를 포함하여 구성되는 유사성 판단을 위한 예제기반 검색시스템에 관한 것이다.

또한, 본 발명의 바람직한 유사성 판단을 위한 예제기반 검색시스템은

예제기반 색인부 및 예제기반 검색부를 포함하고,

상기 예제기반 색인부는 관련기술문서를 입력하는 관련기술문서입력부;

상기 입력부에서 입력된 관련기술문서에서 문서의 구조적 특성에 의해 단락을 구분하고 구분된 단락별로 키워드를 추출하는 제1 키워드 추출부;

상기 제1 키워드 추출부에서 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 단어벡터로 표현하는 제1 단어벡터표현부;

상기 제1 단어벡터표현부에서 단어벡터로 표현된 키워드와 그 가중치를 저장하는 단어벡터저장부를 포함하고, 그리고

상기 예제기반 검색부는 예제기술이 기재된 예제문서를 입력하는 예제문서 입력부;

상기 예제문서 입력부에서 입력된 예제문서에서 문서의 구조적 특성에 따라 단락을 구분하고 구분된 단락별로 키워드를 추출하는 제2 키워드 추출부;

상기 제2 키워드 추출부에서 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 단어벡터로 표현하는 제2 단어벡터 표현부; 및

상기 제2 단어벡터 표현부에서 표현되는 예제문서에 대한 단락별 단어벡터와 상기 단어벡터저장부에 저장된 관련기술문서에 대한 단락별 단어벡터를 이용하여 예제문서와 관련기술문서와의 대응단락간의 유사도를 구하고, 문서에 있어서 단락의 중요도에 근거하여 단락간의 유사도에 가중치를 부여하여 예제문서와 관련기술문서와의 유사도를 구하는 유사도연산부; 및 유사도연산부에 의해 구한 유사도의 오림차순으로 관련기술문서들을 정렬하여 사용자에게 제공하는 표시부를 포함하여 구성된다.

이하, 본 발명에 대하여 상세히 설명한다.

여기서 사용되는 용어 "예제기술"이란 유사한 기술들이 있는지여부를 판단받고자하는 기술을 의미하고, 그리고 "관련기술"이란 상기 예제기술이외의 모든 기술을 의미하는 것으로서, 관련기술에는 예제기술 보다 먼저 공지된 것은 물론 그 후에 공지된 것도 포함된다.

여기서 사용되는 "유사성 판단"은 예제기술이 관련기술과 동일 및/또는 유사한지 여부를 판단하는 것을 의미한다.

예를 들면, 예제기술이 특허와 관련되는 발명인 경우라면, 상기 "유사성 판단"은 그 발명의 완성시점 및/또는 출원시점등보다 먼저 또는 후에 출원된 특허문서 또는 먼저 또는 후에 반포된 간행물등에 기재되어 있는 발명(고안, 기술등)등과 동일 및/또는 유사한지 여부를 판단하는 것을 의미하는 것으로서, 동일 또는 유사성(진보성)을 전제로 하는 특허요건(신규성, 진보성, 선원관계)판단, 출원여부판단, 특허침해여부판단등에 적용된다.

여기서 사용되는 용어 "예제문서"는 기술(발명, 고안등을 포함)등이 기재된 문서들간의 동일성 및/또는 유사성을 판단함에 있어서 다른 관련기술등과 동일성 및/또는 유사성이 있는지여부를 판단받고자하는 기술이 기재되어 있는 문서를 의미하고, 용어 "관련기술문서"는 동일성 및/또는 유사성이 있는지여부를 판단받고자하는 기술 이외의 관련기술이 기재되어 있는 문서를 의미한다.

상기 예제문서 및 관련기술문서의 대표적인 예로서는 일반적인 기술문헌 및 기술자료, 각국 특허청에서 요구하는 기재요건에 따라 발명등이 기재된 특허문서(특허 명세서등)와 기재내용이 상기 기재요건을 일부 충족하고 있거나(발명신고서, 제안서등) 전혀 그 요건을 충족하고 있지 않은 신청문서(발명신고서, 제안서등)들을 들 수 있다.

상기 특허문서등으로는 발명 또는 고안이 기재되어 있는, 출원중인 비공개 명세서, 특허 또는 실용신안 공개공보, 특허 또는 실용신안 공고공보 및 특허 또는 실용신안 등록공보등을 들수 있다.

또한, 상기 신청문서에는 연구과제를 정리한 문서, 연구결과를 정리한 문서, 완성된 기술 내용을 정리한 문서등(직무발명신고서, 제안서등)이 포함된다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 설명한다.

도 1에는 본 발명에 부합되는 유사성 판단을 위한 예제기반 검색 시스템의 전체 구성도가 나타나 있다.

도 1에 나타난 바와 같이, 본 발명에 부합되는 예제기반검색 시스템(100)은 일반적인 정보검색시스템과 같이 크게 색인부(110)와 검색부(120)로 이루어져 있다.

상기 색인부(110)는 관련기술문서들이 입력되는 관련기술문서입력부(111), 문서의 구조분석에 의해 관련기술문서를 표현하는 관련기술문서표현부(112) 및 표현된 문서를 저장하는 관련기술문서저장부(113)를 포함하고, 그리고 검색부(120)는 예제문서들이 입력되는 예제문서입력부(121), 문서의 특정구조분석에 의해 예제문서를 표현하는 예제문서표현부(122) 및 유사도연산부(123)를 포함한다.

본 발명에 있어서 "색인"이라함은 본 발명의 예제기반시스템에서 관련기술문서을 검색하기 위해서 이들 문서들을 미리 검색이 용이한 구조로 시스템에 기록하는 과 정을 말하며, 본 발명에 있어서 "검색"이라함은 관련기술문서들과 관련한 유사성 판단등을 위하여 사용자가 제시한 예제문서(예제 기술)를 분석하여 색인된 관련기술문서들에서 기술적 유사성을 구하여 검색하는 과정을 말한다.

일반적으로 문서검색 및 정보검색은 벡터공간모델(vector space model)이라는 이론에 기반하고 있다. 본 발명에서도 색인과 검색을 벡터공간모델에 기반하여 구성한다.

본 발명을 설명하기 위해서, 먼저 벡터공간모델에 기반한 예제기반 검색 시스템에 대하여 도 2를 통해 설명한다.

도 2에 나타난 바와 같이, 일반적인 예제기반 검색 시스템(200)에서는 색인부(210)와 검색부(220)에서 모두 주어진 예제문서와 관련 문서들을 표현하는 공통적인 과정인 문서 표현과정을 거친다.

벡터공간모델에 기반한 예제기반 검색 시스템에서는 모든 문서들을 단어들로 구성된 벡터로 표현한다. 저장할 문서들의 집합에 나타나는 단어의 수를 n이라고 하면, 문서 Di는 n차원의 단어벡터 (Wi,1, Wi,2, .... , Wi,n)으로 표현된다.

이때, Wi,j는 문서 Di에 대한 단어 Tj의 가중치를 의미한다. 일반적인 문서검색에서 문서 Di에 대한 단어 Tj의 가중치 Wi,j는 단어 빈도수(term frequency)와 문서 역빈도(inverse document frequency)를 이용하여 구한다.

문서 Di에서 단어 Tj의 단어 빈도수 tf_i,j는 단어 Tj가 문서 Di에 나타나는 출현 횟수로써 단어 Tj가 문서의 내용을 얼마나 대표하는가에 대한 척도이다.

한편, 단어 Tj의 문서 역빈도는 문서집합에서 단어 Tj가 출현하는 문서 수의 비율 인 문서빈도(document frequency)의 역(reverse)을 의미한다.

단어 Tj가 적은 문서에서 나타날수록 단어 Tj는 단어 Tj가 나타나는 문서를 다른 문서들과 구별할 수 있는 능력이 크다.

단어 Tj의 문서 역빈도는 문서의 차별성을 나타내는 척도의 역할을 한다.

단어의 빈도수와 문서 역빈도를 이용한 다양한 단어 가중치 계산법이 연구되어 왔다.

본 발명에서는 널리 알려진 인큐어리(INQUERY) 시스템의 단어 가중치 계산법을 이용한다.

문서 Di에 대한 단어 Tj의 가중치 Wi,j는 하기 식 (1)와 같이 구한다.

(여기서, f_i,j는 문서 Di에 대한 단어 Tj의 빈도수, max_tf: 문서 Di에서 가장 많이 나타나는 단어의 빈도수, N: 전체문서의 수, n: 단어 Tj가 나타나는 문서의 수)

상기 식 (1)에 의해서 문서에 나타나는 각 단어의 가중치를 구하면 문서를 단어와 단어 가중치로 표현할 수 있다.

도 2에 나타난 바와 같이, 색인부(210)를 구성하는 관련기술문서입력부(211)에 입력된 관련기술문서를 제1 문서표현부(212)에서 단어와 단어 가중치로 표현하는 과정을 거친 후, 이러한 문서 표현을 시스템에 빠르고 용이한 검색에 적합하게 기록하기 위해서, 문서저장부(213)에서 역색인파일(inverted indexing file) 저장구조 로 저장하는 역색인파일 저장 과정을 거치게 된다.

상기 역색인파일 저장 과정은 정보검색에서 전통적으로 사용되고 있다.

한편, 예제기반 검색 시스템의 검색부(220)에서는 도 2에 나타난 바와 같이 상기 식 (1)에 의해서 예제문서입력부(221)에 입력된 예제문서를 제2 문서표현부(222)에서 단어와 그 가중치로 구성된 벡터로 표현한 후, 문서-문서유사도연산부(223)에서 상기 문서저장부(213)에 이미 저장된 관련 문서들의 벡터 표현과 비교하여 유사도를 구하는 문서-문서 유사도 계산 과정을 거친 다음, 표시부에서 유사도가 0보다 큰 관련 문서들을 유사도 순으로 정렬하여 사용자에게 제공하게 된다.

색인 과정에서 주어진 예제문서 Di와 저장된 각 관련 문서 Dx간의 유사도[sim(Dx,Di)]는 전통적으로 하기 식 (2)의 코사인 유사도(cosine similarity)식 및 하기 식 (3)의 내적 유사도(inner product similarity)식을 이용하여 구한다.

(여기서, Wx,j: 문서 Dx에 대한 단어 Tj의 가중치, Wi,j: 문서 Di에 대한 단어 Tj의 가중치)

(여기서, Wx,j: 문서 Dx에 대한 단어 Tj의 가중치, Wi,j: 문서 Di에 대한 단어 Tj 의 가중치)

본 발명은 도 1 및 도 2에서 알 수 있는 바와 같이 예제기반 검색방법에 있어서 색인 과정과 검색과정에서의 문서표현단계와 검색과정에서의 유사도를 구하는 단계를 개선한 것이다.

즉, 본 발명에서의 개선점은 도 1에 나타난 바와 같이 예제기반 색인 과정과 예제기반 검색과정에 있어서 문서표현을 예제문서의 특징적인 구조 파악에 근거하여 행하고, 그리고 예제기반 검색과정에 있어서 유사도를 예제문서의 특징적인 구조 파악에 근거한 문서표현을 이용하여 구하는데 있다.

본 발명에 따라 예제기반 검색을 위한 검색시스템의 일례가 도 3에 나타나 있다.

도 3에 나타난 바와 같이, 본 발명의 검색시스템은 예제기반 색인부(310) 및 예제기반 검색부(320)를 포함하고, 상기 예제기반 색인부(310)는 관련기술문서를 입력하는 관련기술문서입력부(311), 제1 키워드 추출부(312), 제1 단어벡터표현부(313) 및 단어벡터저장부(314)를 포함한다.

상기 제1 키워드 추출부(312)는 상기 입력부에서 입력된 관련기술문서에서 문서의 구조적 특성에 의해 단락을 구분하고 구분된 단락별로 키워드를 추출하도록 구성되고, 상기 제1 단어벡터표현부(313)는 상기 제1 키워드 추출부(312)에서 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 단어벡터로 표현하도록 구성된다.

또한, 상기 단어벡터저장부(314)는 상기 제1 단어벡터표현부(313)에서 단어벡터로 표현된 키워드와 그 가중치를 저장하도록 구성된다.

한편, 상기 예제기반 검색부(320)는 예제기술이 기재된 예제문서를 입력하는 예제문서 입력부(321), 제2 키워드 추출부(322), 제2 단어벡터 표현부(323), 유사도연산부(324), 및 표시부(325)를 포함한다.

상기 제2 키워드 추출부(322)는 상기 예제문서 입력부(321)에서 입력된 예제문서(예를 들면, 새로운 기술등)에서 문서의 구조적 특성에 따라 단락을 구분하고 구분된 단락별로 키워드를 추출하도록 구성되고, 상기 제2 단어벡터 표현부(323)는 상기 제2 키워드 추출부(322)에서 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 단어벡터로 표현하도록 구성된다.

또한, 상기 유사도연산부(324)는 상기 제2 단어벡터 표현부(324)에서 표현되는 예제문서에 대한 단락별 단어벡터와 상기 단어벡터저장부(314)에 저장된 관련기술문서에 대한 단락별 단어벡터를 이용하여 예제문서와 관련기술문서와의 대응단락간의 유사도를 구하고, 문서에 있어서 단락의 중요도에 근거하여 단락간의 유사도에 가중치를 부여하여 예제문서와 관련기술문서와의 유사도를 구하도록 구성되고, 그리고 상기 표시부(325)는 유사도연산부(324)에 의해 구한 유사도의 오림차순으로 관련기술문서들을 정렬하여 사용자에게 제공하도록 구성된다.

이하, 도 3의 검색시스템을 사용하여 본 발명에 따라 검색하는 방법에 대하여 설명한다.

본 발명에 따라 예제기반검색을 행하기 위해서는 우선 색인부(310)의 관련기술문서입력부(310)에 관련기술문서를 입력한다.

다음에, 입력된 관련기술문서에서 문서의 구조적 특성에 의해 단락을 구분하고 구분된 단락별로 키워드를 제1 키워드 추출부(312)에서 추출한다.

다음에, 상기와 같이 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 제1 단어벡터표현부(313)에서 단어벡터로 표현한다.

다음에, 상기와 같이 단어벡터로 표현된 키워드와 그 가중치를 단어벡터저장부(314)에 저장한다.

다음에, 예제기술이 기재된 예제문서를 예제문서입력부(321)에 입력한다.

다음에, 입력된 예제문서에서 문서의 구조적 특성에 따라 단락을 구분하고 구분된 단락별로 키워드를 제2 키워드 추출부(322)에서 추출한다.

다음에, 상기와 같이 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 제2 단어벡터표현부(323)에서 단어벡터로 표현한다.

다음에, 유사도연산부(324)에서 상기와 같이 표현되는 예제문서에 대한 단락별 단어벡터와 상기 색인과정에서 저장된 관련기술문서에 대한 단락별 단어벡터를 이용하여 예제문서와 관련기술문서와의 대응단락간의 유사도를 구하고, 문서에 있어서 단락의 중요도에 근거하여 단락간의 유사도에 가중치를 부여하여 예제문서와 관련기술문서간의 유사도를 구한다.

다음에, 표시부(325)에서 상기와 같이 구한 유사도의 오림차순으로 관련기술문서들을 정렬하여 사용자에게 제공하게 된다.

도 4에는 입력된 예제문서입력부(121)에 입력된 예제문서에 대하여 문서의 구조분 석에 의하여 단락을 구분하는 단락구분부(1221) 및 구분된 단락별로 문서를 표현(단어가중치 설정)하는 단락별문서표현부(1222)를 포함하여 구성되는 본 발명의 예제문서표현부(122)의 일례가 나타나 있다.

도 4에 나타난 바와 같이, 본 발명의 유사성 판단을 위한 예제기반 검색 방법에서 색인과정과 검색 과정에서 공통적으로 포함되는 문서의 특징적인 구조 파악에 의한 문서 표현 방법은 도 4와 같이 크게 2단계 과정으로 구성된다.

즉, 도 4에 나타난 바와 같이, 본 발명에 부합되는 특허구조분석에 의한 문서표현방법은 예제문서입력부(121)에 입력된 예제문서에 대하여 예제문서표현부(122)의 단락구분부(1221)에서 문서의 특징적인 구조분석에 의하여 단락을 구분하는 단계 및 단락별문서표현부(1222)에서 단락별로 문서를 표현(단어가중치 설정)하는 단계로 이루어진다.

예를 들면, 상기 예제기술이 특허와 관련되는 발명(이하, "예제발명"이라고도 칭함)인 경우에는 다음과 같이 행할 수 있다.

즉, 상기 예제발명이 기재된 예제문서를 본 발명에 따라 표현하기 위해서는 우선 입력된 각 예제문서를 특허구조파악에 의해 단락으로 구분하는데, 그 예로서 다음과 같은 제목에 의해 단락으로 구분(단락화)하는 것을 들수 있다.

① 발명의 명칭

②요약서

③색인어: 발명의 명칭 이외의 중요한 키워드를 문서 작성자가 기입한 경우

④도면의 상세한 설명

⑤본 발명의 상세한 설명: 아래와 같이 " 관련 기술, 발명의 목적, 구성, 작용, 효과, 이용분야 "의 구분이 구체적으로 기술하지 않은 형태로 기술한 경우에 적용

⑥관련 기술 및 발명의 기술 분야

⑦본 발명이 이루고자 하는 기술적 과제 (또는 발명의 목적): 일부 특허 문서에서 " 발명목적 및 구성 " 또는 " 발명의 목적, 작용 및 효과 "와 같은 형태로 아래에 기술할 구조들과 같이 나타나는 경우가 있는데, 이러한 경우들에서는 가장 앞의 기술인 " 발명의 목적"으로 구분한다.

⑧발명의 구성: " 발명의 목적 "에서 설명한 바와 비슷하게, " 발명의 구성 및 작용 "등과 같은 형태로 작성되는 경우에는 "발명의 구성"으로 구분한다.

⑨발명의 작용: 위와 같이 " 발명의 작용 및 효과 "등과 같은 경우, " 발명의 작용 "으로 구분한다.

⑩발명의 효과: 역시 " 발명의 효과 및 이용분야 "인 경우에는 " 발명의 효과"로 구분

⑪발명의 이용분야

⑫구조 파악이 안된 내용들: 구체적으로 어느 특허 구조에 소속되는지가 명확하게 파악이 되지 않는 모든 내용을 이 구조로 분류한다. 비구조적인 특허 문서인 경우에는 모든 내용이 이 구조로 구분된다.

⑬특허 청구범위의 각 청구항

입력된 예제문서에서 위와 같은 단락들은 특허청에서 요구하는 기재요건을 충족하고 있는 출원 형식의 특허 문서(특허명세서등)인 경우에는 각 단락의 제목으로 쉽 게 구분가능하다.

특히, 특허청에서 요구하는 SGML(Standard Generalized Markup Language)로 구성된 특허문서나 XML(Extensible Markup Language)등에 의해 작성된 특허문서들에서는 단락제목 및 단락을 쉽게 구분할 수 있으므로, 상기 단락들을 쉽게 구별할 수 있다.

이와 같이 단락이 쉽게 구별가능한 Markup Language로 작성된 특허문서들인 경우에는 본 발명에서 단락구분부(1221)를 수행하지 않고 바로 단락문서표현부(1222)에서 단락별로 단어벡터로 표현하여 전체문서를 표현한다.

상기와 같이 단락들을 쉽게 구분할 수 없는 경우에는 문서에서 특정 단락을 찾기 위해서 각 단락의 제목을 찾는 방법이 필요하다.

예를 들면, 예제발명의 경우에는 특허청에서 요구하는 기재요건을 충족하는 문서 및 특히, 기재요건을 일부 따르는 또는 전혀 따르지 않은 문서에서 특정 단락을 찾기 위해서 각 단락의 제목을 찾는 방법이 필요하다.

본 발명에 따라 기술문서의 단락제목을 찾는 바람직한 시스템 및 방법의 일례가 도 5 및 도 6에 각각 제시되어 있다.

도 5에는 본 발명에 부합되는 바람직한 단락제목추출시스템의 일례가 도시되어 있다.

도 5에 나타난 바와 같이, 본 발명에 부합되는 바람직한 단락제목추출시스템은 문장추출부(410), 어절추출부(420), 단락제목표시부(430), 선택부(440), 단락제목여부판단부(450), 및 단락제목추출부(460)를 포함한다.

상기 문장추출부(410)는 각각 입력된 관련기술문서 또는 예제문서에서 문장을 추출하도록 구성되고, 상기 어절추출부(420)는 상기 문장추출부(410)에서 추출된 문장에서 어절을 추출하도록 구성되고, 그리고 단락제목표시부(430)는 상기 어절추출부(420)에서 추출된 어절이 구조판단규칙에 해당되는 단락제목을 표시하도록 구성된다.

상기 선택부(440)는 상기 단락제목표시부에서 단락제목표시과정이 완료된 문장중에서 가장 많은 어절과 일치한 단락제목을 선택하도록 구성되고, 상기 단락제목여부판단부(450)는 상기 선택부(440)에서 선택된 어절에 대하여 일치된 어절수/전체어절수의 비가 일정한 값 이상, 바람직하게는 0.8이상인가를 판단하고 일정한 값(0.8)이상인 경우에는 새로운 단락제목으로 판단하고, 그 비가 일정한 값(0.8)미만인 경우에는 관련 단락에 포함시키도록 구성되고, 상기 단락제목추출부(460)은 단락제목여부판단부(450)에서 단락제목으로 판단된 것을 단락제목으로 추출하도록 구성된다.

상기한 단락제목추출시스템은 상기 제1 키워드 추출부(312) 및 제2 키워드 추출부(322)에 각각 구비시키는 것이 바람직하다.

도 5에 제시되어 있는 단락제목추출시스템을 사용하여 예제문서 및 관련기술문서의 단락제목을 추출하는 과정을 도 6을 통해 설명한다.

도 6에 나타난 바와 같이, 본 발명에 따라 예제문서 또는 관련기술문서의 단락제목을 찾기 위해서는 우선 문장추출부(410)에서 입력 예제문서 또는 관련기술문서에서 문장을 추출한 다음(단계 510), 어절추출부(420)에서 추출된 문장에서 어절을 추출한다(단계 520).

본 발명에서는 추출되는 문장 단위로는 리턴(return) 문자로 구분되는 단위를 사용하는 것이 바람직하다.

다음에, 단락제목표시부(430)에서 상기와 같이 추출된 어절이 단락판단규칙에 해당되는 단락제목을 표시하여 축적시킨다(단계 530).

상기한 어절추출 및 단락제목표시과정을 추출된 문장이 끝날 때까지 반복하여 수행한다(단계 540).

다음에, 추출된 문장에 대하여 단락제목표시과정이 완료되면, 선택부(440)에서 문장중에서 가장 많은 어절과 일치한 단락제목을 선택한다(단계 550).

다음에, 단락제목여부판단부(450)에서 상기와 같이 선택된 어절에 대하여 일치된 어절수/전체어절수의 비가 일정한 값 이상(도 6에서는 0.8이상으로 표현되어 있음)인 가를 판단하고 0.8이상인 경우에는 새로운 단락제목으로 판단하고, 그 비가 0.8미만인 경우에는 관련 단락에 포함시킨다(단계 560).

다음에, 단락제목여부판단부(450)에서 단락제목으로 판단된 것은 단락제목추출부(460)에서 단락제목으로 추출(생성)한다(단계 570).

상기한 과정들을 문서의 끝 문장까지 반복하여 수행하므로써 예제문서에 대한 단락제목을 검사할 수 있다(단계 580).

이하, 본 발명에 따라 추출된 문장이 새로운 단락의 시작을 알리는 단락제목인가를 검사하는 과정즉, 추출된 문장으로부터 단락제목을 추출하는 과정의 일례를 설명한다.

상기 단락제목인가를 검사하기 위한 단락 판단 규칙의 바람직한 예로서 다음과 같이 구성된 것을 들수 있다.

[단락 이름] [실마리 단어 집합 (상호간의 OR 관계)] [일치 정도] [필요 정도] $

ㆍ[단어 이름]: 다음 규칙이 일치할 경우의 특정 단락을 지칭

ㆍ[실마리 단어 집합]: 단서가 되는 단어들의 나열로써, 같이 나열된 경우는 이것들 중에서 어느 것이 일치되어도 된다는 의미이다. 즉 OR의 관계이다.

ㆍ[일치 정도]: 3 가지 일치 정도가 있는데, " + "로 표시된 경우는 실마리 단어 집합의 단어들과 정확하게 입력 어절이 완전일치해야 하며, " - "로 표시된 경우는 실마리 단어들과 부분일치해야 하고, " = "인 경우는 실마리 단어가 나타나기만 하면 그 단락이 확실히 맞다는 의미이다. 즉 다른 규칙을 적용할 필요가 없이 그 구조의 시작 문장임을 명확히 알 수 있다는 의미이다.

ㆍ[필요 정도]: 2 가지 타입(type)이 있다. " y" 타입은 그 구조로 인식되기 위해서 꼭 현재 규칙이 만족해야 한다는 의미이고, " n "타입은 현재 구조로 인식되기 위해서 꼭 필요한 것은 아니고, 있을 수도 있다는 의미이다.

ㆍ$: 한 규칙의 끝을 구분하는 인식자이다.

추출된 문장이 단락제목인가를 검사하기 위해서는 우선 추출된 문장중에서 어절을 추출하여 추출된 각 어절이 상기 각 규칙과 비교하여 일치하는지를 파악한다.

예를 들어, " 발명의 상세한 설명"의 구조를 파악하기 위한 규칙들을 살펴보자.

6 { 도면 도안 도명 면의 도면의간단한 그림 } - y $

6 { 첨부 내용 설명 명칭 성명 간단화 설명도 서명 구성 } - y $

6 { 간단한 상세한 } + n $

6 { 고안 발명 } + n $

6 { 각 본 } - n $

6 { 주요 } - n $

6 { 대한 } + n $

6 { 부호 } - n $

6 { 부분 } - n $

위의 예에서 "6" 은 "도면의 상세한 설명"을 지칭하는 " 단어이름"필드(field)이다. 그리고, 첫번째 규칙은 " 도면, 도안, 도명, 면의, 도면의간단한, 그림"과 같이 6개의 실마리 단어들을 언급하면서, 이들이 입력 어절과 "부분일치" 해도 된다는 의미다. 여기에서 "부분일치"란 주어진 문장이 "도면의 상세한 설명"일 경우, "도면"이라는 실마리 단어가 "도면의" 이라는 어절과 한 부분이 일치하는 경우를 말한다.

세 번째 규칙에서는 " + " 이어서 완전 일치이므로, 위의 입력 문장의 "상세한"이라는 어절에 적용된다. 만약 이 경우, 주어진 문장이 " 도면이 상세한다면 설명이 좀 더... " 와 같을 경우, 첫번째 규칙이 "도면이"에서 일치된다. 하지만, 세번째 규칙이 비록 "상세한다면"에서 부분일치되지만, 어느 단어와도 완전일치가 되지 않으므로 적용되지 않는다.

위의 "도면의 상세한 설명"에 대한 규칙들 중에서 꼭 적용되어야 하는 규칙은 " y"로 표시된 첫번째와 두번째 규칙들이다. 즉, 입력 문장이 "도면의 상세한 설명 " 에 대한 단락의 시작 즉 단락제목임을 알리기 위해서는, 입력 문장 중에서 이 두 가지 규칙을 만족시킬 어절들이 꼭 존재해야 한다.

문서의 특징적 구조 분석 과정에서 가장 중요한 규칙은 입력 문장의 전체 어절 중에서 80% 이상의 어절이 한 단락을 나타내는 규칙에 의하여 맞게 검사되어야만 새로운 단락제목임을 나타낸다. 예를 들어, " 도면의 설명에서 언급한 바와 같이, 도면 (1)은... "과 같은 문장이 입력 문장일 경우, " 도면과 "설명"이 위의 첫번째와 두번째 규칙에 적용되어 "발명의 상세한 설명" 에 해당되는 단락제목일 가능성이 있지만, 전체 문장에서 나머지 단어들이 기타 규칙들에 의해 적용되지 않아서 그 구조즉, 단락제목으로 분석되지 않는다.

다음에, 상기와 같이 문서의 특징적 구조파악에 의해 구분된 단락별로 단어를 추출하여 그 가중치를 구하고 단어 및 가중치를 단어백터로 표현한다.

본 발명에서는 관련 예제기반 검색에서 문서를 하나의 벡터로 표시하는 것과 달리, 문서를 여러 단락의 벡터로 표현한다.

예를 들면, 예제기술이 특허와 관련되는 발명인 경우에는 상기와 같이 예제문서(특허문서)를 13개의 단락으로 정의할 수 있으며, 단락중 ⑬ 단락인 특허 청구 범위의 각 청구항은 특허 문서에 따라 다르다. 그러므로, 본 발명에서는 각 특허 문서 당 적어도 13개 이상의 벡터가 존재하게 되어, 문서를 13 개 이상의 벡터들로 표현할 수 있다.

그러므로, 특허 문서 Di는 단락 집합인 (Fi1, Fi2, ..., Fim)으로 표기되면 m은 13이상의 값이다.

그리고, 각 단락 Fij는 n차원의 단어벡터 (Wij,1, Wij,2, ..., Wij,n)으로 표현된다. 이때, Wij,q는 문서 Di의 단락 Fij에서 단어 Tq의 가중치를 나타낸다. 그러므로, 관련 가중치 계산법인 상기 식 (1)을 하기 식 (4)와 같이 변경해야 한다.

(여기서, tf_ij,q: 문서 Di의 단락 F_ij에서 단어 Tq의 빈도수, maxtf: 문서 Di의 단락 F_ij에서 가장 많이 나타나는 단어의 빈도수, N: 전체문서의 수, n: 단어 T_q 가 나타나는 문서의 수)

상기한 문서의 특징적인 구조 분석(파악)에 의한 문서 표현 방법은 본 발명의 예제기반 색인부 및 검색부에서 공동으로 사용된다. 이와 같은 표현 방법을 예제기반 색인에서는 상기 색인부의 관련기술문서저장부에 종래 방법과 같이 역색인파일 저장구조로 저장하여 검색시에 빠른 검색이 가능하게 하는 것이 바람직하다.

본 발명에 부합되는 예제기반 검색과정은 도 1에 나타난 바와 같이 검색부의 유사도연산부에서 후술하는 기술적 유사도를 판단하는 단계를 포함한다.

예를 들면, 새로운 발명의 특허성을 판단하는 경우에는 기술적 유사도 즉, 특허적 유사도 판단과정은 다음과 같다.

본 발명의 예제기반 검색 과정에서는 특허성 판단에 도움을 주는 특허적 유사도 계산이 가능하도록 하기 위해서, 특허 전담자가 특허성 판단을 하는 논리적 행동을 따른다.

통상, 특허 전담자는 새로운 발명의 특허성을 판단하기 위해서, 각 청구항이 관련 특허들에서 같은 형태로 나타나는 경우에 가장 먼저 두 특허간의 특허성이 일치한다고 본다. 그리고, 두 특허의 목적 및 효과와 제목이 유사할 경우에 그 특허성이 유사하다고 보며, 그 다음으로 각 청구항, 발명의 구성과 작용이 유사한가를 검사한다. 나머지 내용은 그 다음으로 살펴본다.

그러므로, 본 발명에 있어서도 두 특허 문서의 특허적 유사성 판단은 제일 먼저 두 특허의 청구항들 중에서 하나라도 100% 일치하게 되면, 본 발명에서는 두 특허의 특허적 유사성을 무조건 100%로 보고. 그렇지 않은 경우에는 중요한 단락이 유사할수록 두 특허간에는 높은 특허적 유사성이 있다고 보는 방식으로 행해지는 것이 바람직하다.

한편, 본 발명에 있어서 각 단락간 유사성 판단은 상기 식 (2)와 상기 식 (3)에서 문서 벡터를 단락 벡터로 변경한 유사도 식을 이용하여 행할 수 있다.

본 발명에서는 상기 식 (2)의 코사인 유사도 식을 이용하여 단락간의 유사도를 구하는 것이 바람직하다.

예제문서 Di의 j번째 단락 Fij와 관련기술문서 Dp의 q번째 단락 Fpq 간의 유사도 sim_F(Fij, Fpq)는 하기 식 (5)와 같이 정의할 수 있다.

(여기서, W_ij,l : 단어 T1이 문서 Di의 j번째 단락 Fij에서의 가중치, W_pq,l: 단어 T1이 문서 Dp의 j번째 단락 Fpq에서의 가중치)

상기 식 (5)는 코사인 유사도 식을 이용하기 때문에, 단락간 유사도 sim_F(Fij, Fpq)는 항상 0과 1사이의 값을 가진다. 두 단락간의 유사도 sim_F(Fij, Fpq)가 1인 경우에는 100% 서로 일치하는 벡터라는 것을 의미한다.

단락 표기법 Fij에서 j는 앞에서 설명한 단락 파악에서 얻어지는 단락 순서와 일치한다.

그러므로, 예를 들면, Fi1은 특허 문서 Di의 "발명의 명칭 " 단락을 의미하고, Fi2는 특허 문서 Di의 " 요약서 " 단락을 의미한다.

다음에, 상기와 같이 구한 단락 간의 유사도를 구한 다음, 이 단락간의 유사도를 이용하여 하기 식(6)에 의해 주어진 예제문서(예제기술) Di와 관련기술문서(관련기술) Dp간의 기술적 유사도 sim_P (Di, Dp)를 구하는 것이 바람직하다.

예를 들어, 상기 예제문서와 관련기술문서가 특허문서인 경우, 상기 식 (6)의 첫번째 항은 두 특허의 청구항 중에 어느 하나라도 일치하게 되면, 두 특허간의 특허적 유사도 sim_P (Di, Dp)가 1로써 완전히 특허성이 같다고 보는 것을 수식으로 표현한 것이다. 그리고, 두번째 항은 그렇지않을 경우에 앞에서 설명한 단락의 중요도에 따라 구하는 것을 의미한다. 이때, α와 β, μ는 각 단락 그룹의 중요도를 의미한다. 그러므로, α와 β, μ의 합은 항상 1이 되어야 한다. 본 발명에서는 실험에 의하여 α의 값을 0.5, β의 값을 0.3, β의 값을 0.2로 정한다.

그러므로, 두번째 항은 예를 들면, "발명의 목적 "과 "발명의 효과", "발명의 제목" 유사도 중에서 가장 큰 값에 가중치 0.5를 곱한 값과 "요약서"와, "발명의 구성", " 발명의 목적", "청구항"의 합 중에서 가장 큰 값에 가중치를 0.3을 곱한 값, 그리고 마지막으로 나머지 단락들의 유사도 평균에 0.2를 곱한 값을 모두 더한 값으로 두 특허간의 특허적 유사도를 구하는 수식이 되는 것이다.

상기 수식(6)은 하나의 예시에 불과하며, 예를 들면, 각 단락그룹의 중요도를 3개로 하지 않고 2개 또는 4개이상으로 할수 있으며, 그 중요도의 값도 변화될 수 있슴은 물론이다.

상기 식 (6)에 의하여 예제문서 Di에 대한 모든 관련기술문서들의 기술적 유사도가 구해지면, 이를 오림차순으로 정렬하여 사용자에게 제공한다. 그러면, 사용자들은 예제기술과 기술적으로 유사한 순으로 관련기술들을 검색할 수 있게 된다.

상술한 바와 같이, 본 발명은 기술적으로 유사한 관련 문서들을 그 유사 정도와 함께 보여줌으로써 유사성을 쉽고 빠르게 판단할 수 있는 효과가 있는 것이다.

또한, 본 발명은 새로운 발명이 신고 또는 출원되거나 할 때에 사용하는 경우에는특허 판단 전담자나 발명자가 유사한 관련 문서들을 그 유사 정도와 함께 볼수 있으므로 발명의 특허성등을 쉽고 빠르게 판단할 수 있는 효과가 있는 것이다.

또한, 본 발명은 기술이 기재된 문서를 직접 본 발명 시스템에 제공할 수 있으므 로, 사용자들이 기술에 대한 지식을 습득 및 이해할 필요가 없어서 검색 시간을 대폭 축소할 수 있는 효과가 있는 것이다.

아울러 본 발명의 바람직한 실시예들은 예시의 목적을 위해 개시된 것이며, 당업자라면 본 발명의 사상과 범위안에서 다양한 수정, 변경, 부가등이 가능할 것이며, 이러한 수정 변경 등은 이하의 특허 청구의 범위에 속하는 것으로 보아야 할 것이다.

Claims

예제기반 색인과정 및 예제기반 검색과정을 포함하고,

상기 예제기반 색인과정은 관련기술문서를 관련기술문서입력부에 입력하는 단계;

관련기술문서입력부에 입력된 관련기술문서에서 문서의 구조적 특성에 의해 단락을 구분하고 구분된 단락별로 키워드를 제1 키워드 추출부에서 추출하는 단계;

상기와 같이 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 제1 단어벡터표현부에서 단어벡터로 표현하는 단계;

상기와 같이 단어벡터로 표현된 키워드와 그 가중치를 단어벡터저장부에 저장하는 단계를 포함하고, 그리고

상기 예제기반검색과정은 예제기술이 기재된 예제문서를 예제문서 입력부에 입력하는 단계;

예제문서 입력부에 입력된 예제문서에서 문서의 구조적 특성에 따라 단락을 구분하고 구분된 단락별로 키워드를 제2 키워드 추출부에서 추출하는 단계;

상기와 같이 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 제2 단어벡터표현부에서 단어벡터로 표현하는 단계; 및

상기와 같이 표현되는 예제문서에 대한 단락별 단어벡터와 상기 색인과정에서 저장된 관련기술문서에 대한 단락별 단어벡터를 이용하여 유사도연산부에서 예제문서와 관련기술문서와의 대응단락간의 유사도를 구하고, 문서에 있어서 단락의 중요도에 근거하여 단락간의 유사도에 가중치를 부여하여 예제문서와 관련기술문서간의 유사도를 구하는 단계; 및

표시부에서 상기와 같이 구한 유사도의 오림차순으로 관련기술문서들을 정렬하여 사용자에게 제공하는 단계를 포함하여 구성되는 유사성판단을 위한 예제기반 검색방법
제1항에 있어서, 단락별로 구성된 단어벡터들로 표현된 관련기술문서의 키워드와 그 가중치가 역색인파일저장방식에 의해 저장되는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제1항에 있어서, 관련기술문서는 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서들 또는 기재내용이 상기 기재요건을 일부 충족하고 있거나 전혀 그 요건을 충족하고 있지 않은 신청문서들로 이루어지거나 또는 특허문서들과 신청문서들로 이루어지고, 그리고 예제문서가 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서 또는 기재내용이 상기 기재요건을 일부 충족하고 있거나 전혀 그 요건을 충족하고 있지 않은 신청문서인 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제1항에 있어서, 상기 색인과정 및 검색과정에 있어서 관련기술문서와 예제문서의 단락구분이 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서에 기재되어 있는 단락제목에 근거하여 이루어지는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제3항에 있어서, 상기 색인과정 및 검색과정에 있어서 관련기술문서와 예제문서의 단락구분이 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서에 기재되어 있는 단락제목에 근거하여 이루어지는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제4항에 있어서, 단락제목이 하기와 같이 구성되어 있는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

① 발명의 명칭

②요약서

③색인어

④도면의 상세한 설명

⑤본 발명의 상세한 설명

⑥관련 기술 및 발명의 기술 분야

⑦본 발명이 이루고자 하는 기술적 과제 (또는 발명의 목적)

⑧발명의 구성

⑨발명의 작용

⑩발명의 효과

⑪발명의 이용분야

⑫구조 파악이 안된 내용들

⑬특허 청구범위의 각 청구항
제5항에 있어서, 단락제목이 하기와 같이 구성되어 있는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

① 발명의 명칭

②요약서

③색인어

④도면의 상세한 설명

⑤본 발명의 상세한 설명

⑥관련 기술 및 발명의 기술 분야

⑦본 발명이 이루고자 하는 기술적 과제 (또는 발명의 목적)

⑧발명의 구성

⑨발명의 작용

⑩발명의 효과

⑪발명의 이용분야

⑫구조 파악이 안된 내용들

⑬특허 청구범위의 각 청구항
제4항에서 제7항 중의 어느 한 항에 있어서, 문서의 단락제목이 하기 단계들,

입력 예제문서에서 문장을 추출한 다음, 추출된 문장에서 어절을 추출하는 단계;

상기와 같이 추출된 어절이 구조판단규칙에 해당되는 단락제목을 표시하는 단계;

상기한 어절추출 및 단락제목표시과정을 추출된 문장이 끝날 때까지 반복하여 수행하는 단계;

추출된 문장에 대하여 단락제목표시과정이 완료되면, 문장중에서 가장 많은 어절과 일치한 단락제목을 선택하는 단계;

상기와 같이 선택된 어절에 대하여 일치된 어절수/전체어절수의 비가 0.8이상인 가를 판단하고 0.8이상인 경우에는 새로운 단락제목으로 판단하고, 그 비가 0.8미만인 경우에는 관련 단락에 포함시키는 단계; 및

상기한 과정들을 문서의 끝 문장까지 반복하여 수행하여 예제문서에 대한 단락제목을 추출하는 단계를 포함하는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
삭제
제8항에 있어서, 추출되는 문장 단위가 리턴(return) 문자로 구분되는 단위인 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
삭제
제8항에 있어서, 상기 구조판단규칙이 하기와 같이 구성됨을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

[단락 이름] [실마리 단어 집합 (상호간의 OR 관계)] [일치 정도] [필요 정도] $

{여기서, [단어 이름]: 다음 규칙이 일치할 경우의 특정 단락을 지칭,

[실마리 단어 집합]: 단서가 되는 단어들의 나열로써, 같이 나열된 경우는 이것들 중에서 어느 것이 일치되어도 된다는 의미, 즉 OR의 관계임,

[일치 정도]: 3 가지 일치 정도가 있는데, " + "로 표시된 경우는 실마리 단어 집합의 단어들과 정확하게 입력 어절이 완전일치해야 하며, " - "로 표시된 경우는 실마리 단어들과 부분일치해야 하고, " = "인 경우는 실마리 단어가 나타나기만 하면 그 단락이 확실히 맞다는 의미임, 즉 다른 규칙을 적용할 필요가 없이 그 구조 의 시작 문장임을 명확히 알 수 있다는 의미임,

[필요 정도]: 2 가지 타입(type)이 있으며, " y" 타입은 그 구조로 인식되기 위해서 꼭 현재 규칙이 만족해야 한다는 의미이고, " n "타입은 현재 구조로 인식되기 위해서 꼭 필요한 것은 아니고, 있을 수도 있다는 의미임,

$: 한 규칙의 끝을 구분하는 인식자}
삭제
제10항에 있어서, 상기 구조판단규칙이 하기와 같이 구성됨을 특징으로 하는 유사성성판단을 위한 예제기반 검색방법

[단락 이름] [실마리 단어 집합 (상호간의 OR 관계)] [일치 정도] [필요 정도] $

{여기서, [단어 이름]: 다음 규칙이 일치할 경우의 특정 단락을 지칭,

[실마리 단어 집합]: 단서가 되는 단어들의 나열로써, 같이 나열된 경우는 이것들 중에서 어느 것이 일치되어도 된다는 의미, 즉 OR의 관계임,

[일치 정도]: 3 가지 일치 정도가 있는데, " + "로 표시된 경우는 실마리 단어 집합의 단어들과 정확하게 입력 어절이 완전일치해야 하며, " - "로 표시된 경우는 실마리 단어들과 부분일치해야 하고, " = "인 경우는 실마리 단어가 나타나기만 하면 그 단락이 확실히 맞다는 의미임, 즉 다른 규칙을 적용할 필요가 없이 그 구조의 시작 문장임을 명확히 알 수 있다는 의미임,

[필요 정도]: 2 가지 타입(type)이 있으며, " y" 타입은 그 구조로 인식되기 위해서 꼭 현재 규칙이 만족해야 한다는 의미이고, " n "타입은 현재 구조로 인식되기 위해서 꼭 필요한 것은 아니고, 있을 수도 있다는 의미임,

$: 한 규칙의 끝을 구분하는 인식자}
제1항 내지 제5항 중 어느 한 항에 있어서, 단락간의 유사도가 하기 식(5)에 의해 구해지는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

(수학식 5)
삭제
삭제
제15항에 있어서, 문서간의 유사도가 식(5)에 의해 구한 단락간 유사도를 이용하여 하기 식(6)에 의해 구해지는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

(수학식 6)
삭제
예제기반 색인부 및 예제기반 검색부를 포함하고,

상기 예제기반 색인부는 관련기술문서를 입력하는 관련기술문서입력부;

상기 입력부에서 입력된 관련기술문서에서 문서의 구조적 특성에 의해 단락을 구분하고 구분된 단락별로 키워드를 추출하는 제1 키워드 추출부;

상기 제1 키워드 추출부에서 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 단어벡터로 표현하는 제1 단어벡터표현부;

상기 제1 단어벡터표현부에서 단어벡터로 표현된 키워드와 그 가중치를 저장하는 단어벡터저장부를 포함하고, 그리고

상기 예제기반 검색부는 예제기술이 기재된 예제문서를 입력하는 예제문서 입력부;

상기 예제문서 입력부에서 입력된 예제문서에서 문서의 구조적 특성에 따라 단락을 구분하고 구분된 단락별로 키워드를 추출하는 제2 키워드 추출부;

상기 제2 키워드 추출부에서 각각의 단락내에서 추출된 키워드에 대한 각각의 단락내에서의 가중치를 구하여 단락별로 키워드 및 그 가중치를 단어벡터로 표현하는 제2 단어벡터 표현부; 및

상기 제2 단어벡터 표현부에서 표현되는 예제문서에 대한 단락별 단어벡터와 상기 단어벡터저장부에 저장된 관련기술문서에 대한 단락별 단어벡터를 이용하여 예제문서와 관련기술문서와의 대응단락간의 유사도를 구하고, 문서에 있어서 단락의 중요도에 근거하여 단락간의 유사도에 가중치를 부여하여 예제문서와 관련기술문서와의 유사도를 구하는 유사도연산부; 및 유사도연산부에 의해 구한 유사도의 오림차순으로 관련기술문서들을 정렬하여 사용자에게 제공하는 표시부를 포함하여 구성되는 유사성판단을 위한 예제기반 검색시스템
제20항에 있어서, 단어벡터저장부가 관련기술문서들을 역색인파일저장방식에 의해 저장하도록 구성되는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색시스템
제20항 또는 제21항에 있어서, 관련기술문서는 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서들 또는 기재내용이 상기 기재요건을 일부 충족하고 있거나 전혀 그 요건을 충족하고 있지 않은 신청문서들로 이루어지거나 또는 특허문 서들과 신청문서들로 이루어지고, 그리고 예제문서가 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서 또는 기재내용이 상기 기재요건을 일부 충족하고 있거나 전혀 그 요건을 충족하고 있지 않은 신청문서인 것을 특징으로 하는 유사성판단을 위한 예제기반 검색시스템
제20항 또는 제21항에 있어서, 상기 제1 키워드 추출부 및 제2 키워드 추출부는 각각 관련기술문서와 예제문서의 단락구분을 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서에 기재되어 있는 단락제목에 근거하여 행하도록 구성되는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색시스템
제22항에 있어서, 상기 제1 키워드 추출부 및 제2 키워드 추출부는 각각 관련기술문서와 예제문서의 단락구분을 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서에 기재되어 있는 단락제목에 근거하여 행하도록 구성되는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색시스템
제23항에 있어서, 상기 제1 키워드 추출부 및 제2 키워드 추출부는

각각 입력된 관련기술문서 또는 예제문서에서 문장을 추출하는 문장추출부;

상기 문장추출부에서 추출된 문장에서 어절을 추출하는 어절추출부;

상기 어절추출부에서 추출된 어절이 구조판단규칙에 해당되는 단락제목을 표시하는 단락제목표시부;

상기 단락제목표시부에서 단락제목표시과정이 완료된 문장중에서 가장 많은 어절과 일치한 단락제목을 선택하는 선택부;

상기 선택부에서 선택된 어절에 대하여 일치된 어절수/전체어절수의 비가 0.8이상인가를 판단하고 0.8이상인 경우에는 새로운 단락제목으로 판단하고, 그 비가 0.8미만인 경우에는 관련 단락에 포함시키는 단락제목여부판단부; 및

단락제목여부판단부에서 단락제목으로 판단된 것을 단락제목으로 추출하는 단락제목추출부를 포함하여 구성되는 단락제목추출시스템을 포함하는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색시스템
제24항에 있어서, 상기 제1 키워드 추출부 및 제2 키워드 추출부는

각각 입력된 관련기술문서 또는 예제문서에서 문장을 추출하는 문장추출부;

상기 문장추출부에서 추출된 문장에서 어절을 추출하는 어절추출부;

상기 어절추출부에서 추출된 어절이 구조판단규칙에 해당되는 단락제목을 표시하는 단락제목표시부;

상기 단락제목표시부에서 단락제목표시과정이 완료된 문장중에서 가장 많은 어절과 일치한 단락제목을 선택하는 선택부;

상기 선택부에서 선택된 어절에 대하여 일치된 어절수/전체어절수의 비가 0.8이상인가를 판단하고 0.8이상인 경우에는 새로운 단락제목으로 판단하고, 그 비가 0.8미만인 경우에는 관련 단락에 포함시키는 단락제목여부판단부; 및

단락제목여부판단부에서 단락제목으로 판단된 것을 단락제목으로 추출하는 단락제 목추출부를 포함하여 구성되는 단락제목추출시스템을 포함하는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색시스템
제25항에 있어서, 상기 문장추출부는 리턴(return) 문자로 구분되는 단위에 의해 문장을 추출하도록 구성되는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색시스템
제26항에 있어서, 상기 문장추출부는 리턴(return) 문자로 구분되는 단위에 의해

문장을 추출하도록 구성되는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색시스템
제2항에 있어서, 관련기술문서는 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서들 또는 기재내용이 상기 기재요건을 일부 충족하고 있거나 전혀 그 요건을 충족하고 있지 않은 신청문서들로 이루어지거나 또는 특허문서들과 신청문서들로 이루어지고, 그리고 예제문서가 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서 또는 기재내용이 상기 기재요건을 일부 충족하고 있거나 전혀 그 요건을 충족하고 있지 않은 신청문서인 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제2항에 있어서, 상기 색인과정 및 검색과정에 있어서 관련기술문서와 예제문서의 단락구분이 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서에 기재되어 있는 단락제목에 근거하여 이루어지는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제29항에 있어서, 상기 색인과정 및 검색과정에 있어서 관련기술문서와 예제문서의 단락구분이 각국특허청에서 요구하는 기재요건을 충족하고 있는 특허문서에 기재되어 있는 단락제목에 근거하여 이루어지는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제30항에 있어서, 단락제목이 하기와 같이 구성되어 있는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

① 발명의 명칭

②요약서

③색인어

④도면의 상세한 설명

⑤본 발명의 상세한 설명

⑥관련 기술 및 발명의 기술 분야

⑦본 발명이 이루고자 하는 기술적 과제 (또는 발명의 목적)

⑧발명의 구성

⑨발명의 작용

⑩발명의 효과

⑪발명의 이용분야

⑫구조 파악이 안된 내용들

⑬특허 청구범위의 각 청구항
제31항에 있어서, 단락제목이 하기와 같이 구성되어 있는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

① 발명의 명칭

②요약서

③색인어

④도면의 상세한 설명

⑤본 발명의 상세한 설명

⑥관련 기술 및 발명의 기술 분야

⑦본 발명이 이루고자 하는 기술적 과제 (또는 발명의 목적)

⑧발명의 구성

⑨발명의 작용

⑩발명의 효과

⑪발명의 이용분야

⑫구조 파악이 안된 내용들

⑬특허 청구범위의 각 청구항
제30항에서 제33항 중의 어느 한 항에 있어서, 문서의 단락제목이 하기 단계들,

입력 예제문서에서 문장을 추출한 다음, 추출된 문장에서 어절을 추출하는 단계;

상기와 같이 추출된 어절이 구조판단규칙에 해당되는 단락제목을 표시하는 단계;

상기한 어절추출 및 단락제목표시과정을 추출된 문장이 끝날 때까지 반복하여 수행하는 단계;

추출된 문장에 대하여 단락제목표시과정이 완료되면, 문장중에서 가장 많은 어절과 일치한 단락제목을 선택하는 단계;

상기와 같이 선택된 어절에 대하여 일치된 어절수/전체어절수의 비가 0.8이상인 가를 판단하고 0.8이상인 경우에는 새로운 단락제목으로 판단하고, 그 비가 0.8미만인 경우에는 관련 단락에 포함시키는 단계; 및

상기한 과정들을 문서의 끝 문장까지 반복하여 수행하여 예제문서에 대한 단락제목을 추출하는 단계를 포함하는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제34항에 있어서, 추출되는 문장 단위가 리턴(return) 문자로 구분되는 단위인 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법
제34항에 있어서, 상기 구조판단규칙이 하기와 같이 구성됨을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

[단락 이름] [실마리 단어 집합 (상호간의 OR 관계)] [일치 정도] [필요 정도] $

{여기서, [단어 이름]: 다음 규칙이 일치할 경우의 특정 단락을 지칭,

[실마리 단어 집합]: 단서가 되는 단어들의 나열로써, 같이 나열된 경우는 이것들 중에서 어느 것이 일치되어도 된다는 의미, 즉 OR의 관계임,

[일치 정도]: 3 가지 일치 정도가 있는데, " + "로 표시된 경우는 실마리 단어 집합의 단어들과 정확하게 입력 어절이 완전일치해야 하며, " - "로 표시된 경우는 실마리 단어들과 부분일치해야 하고, " = "인 경우는 실마리 단어가 나타나기만 하면 그 단락이 확실히 맞다는 의미임, 즉 다른 규칙을 적용할 필요가 없이 그 구조의 시작 문장임을 명확히 알 수 있다는 의미임,

[필요 정도]: 2 가지 타입(type)이 있으며, " y" 타입은 그 구조로 인식되기 위해서 꼭 현재 규칙이 만족해야 한다는 의미이고, " n "타입은 현재 구조로 인식되기 위해서 꼭 필요한 것은 아니고, 있을 수도 있다는 의미임,

$: 한 규칙의 끝을 구분하는 인식자}
제35항에 있어서, 상기 구조판단규칙이 하기와 같이 구성됨을 특징으로 하는 유사성성판단을 위한 예제기반 검색방법

[단락 이름] [실마리 단어 집합 (상호간의 OR 관계)] [일치 정도] [필요 정도] $

{여기서, [단어 이름]: 다음 규칙이 일치할 경우의 특정 단락을 지칭,

[실마리 단어 집합]: 단서가 되는 단어들의 나열로써, 같이 나열된 경우는 이것들 중에서 어느 것이 일치되어도 된다는 의미, 즉 OR의 관계임,

[일치 정도]: 3 가지 일치 정도가 있는데, " + "로 표시된 경우는 실마리 단어 집합의 단어들과 정확하게 입력 어절이 완전일치해야 하며, " - "로 표시된 경우는 실마리 단어들과 부분일치해야 하고, " = "인 경우는 실마리 단어가 나타나기만 하면 그 단락이 확실히 맞다는 의미임, 즉 다른 규칙을 적용할 필요가 없이 그 구조의 시작 문장임을 명확히 알 수 있다는 의미임,

[필요 정도]: 2 가지 타입(type)이 있으며, " y" 타입은 그 구조로 인식되기 위해서 꼭 현재 규칙이 만족해야 한다는 의미이고, " n "타입은 현재 구조로 인식되기 위해서 꼭 필요한 것은 아니고, 있을 수도 있다는 의미임,

$: 한 규칙의 끝을 구분하는 인식자}
제29항 내지 제31항 중 어느 한 항에 있어서, 단락간의 유사도가 하기 식(5)에 의해 구해지는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

(수학식 5)
제38항에 있어서, 문서간의 유사도가 식(5)에 의해 구한 단락간 유사도를 이용하여 하기 식(6)에 의해 구해지는 것을 특징으로 하는 유사성판단을 위한 예제기반 검색방법

(수학식 6)