KR101078978B1 - System for grouping documents - Google Patents

System for grouping documents Download PDF

Info

Publication number
KR101078978B1
KR101078978B1 KR1020090008031A KR20090008031A KR101078978B1 KR 101078978 B1 KR101078978 B1 KR 101078978B1 KR 1020090008031 A KR1020090008031 A KR 1020090008031A KR 20090008031 A KR20090008031 A KR 20090008031A KR 101078978 B1 KR101078978 B1 KR 101078978B1
Authority
KR
South Korea
Prior art keywords
document
classification
patent documents
patent document
documents
Prior art date
Application number
KR1020090008031A
Other languages
Korean (ko)
Other versions
KR20100088892A (en
Inventor
차완규
김정중
최성호
안한준
정미경
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020090008031A priority Critical patent/KR101078978B1/en
Priority to JP2011547755A priority patent/JP5551187B2/en
Priority to EP09839326A priority patent/EP2391955A4/en
Priority to US13/142,553 priority patent/US20110270826A1/en
Priority to PCT/KR2009/006235 priority patent/WO2010087566A1/en
Publication of KR20100088892A publication Critical patent/KR20100088892A/en
Application granted granted Critical
Publication of KR101078978B1 publication Critical patent/KR101078978B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general

Abstract

본 실시예에 따른 문서 분류 시스템은 특허문서들이 저장되는 데이터베이스; 상기 특허문서들 간의 간접인용 관계를 독출하고, 독출된 간접인용 관계를 이용하여 제 1 그룹의 특허문서들에 대해서 군집화를 수행하는 문서분류 모듈; 및 상기 문서분류 모듈에 의해 군집화된 결과의 정보를 사용자에게 제공하는 UI출력 수단;을 포함한다. A document classification system according to the present embodiment includes a database in which patent documents are stored; A document classification module that reads the indirect citation relationship between the patent documents and performs clustering on the first group of patent documents using the read indirect citation relationship; And UI output means for providing a user with information of the results clustered by the document classification module.

문서 분류 Document classification

Description

문서 분류 시스템{System for grouping documents}System for grouping documents

본 실시예는 복수의 특허문서 상호간의 관계 또는 특허문서들 간의 간접 인용관계를 사용자에게 제공할 수 있는 시스템에 대한 것이다. This embodiment relates to a system capable of providing a user with a relationship between a plurality of patent documents or an indirect citation relationship between patent documents.

특허출원인이 특허를 받으려고 하는 경우에는, 소정의 요건을 충족시키는 서류를 작성하고, 특허청에 제출할 필요가 있다. 특허청에 제출된 특허출원 서류는 소정의 시간경과 또는 요건이 충족된 이후에 공개되는데, 이러한 문서들을 특허문서라고 할 수 있다. When a patent applicant intends to obtain a patent, it is necessary to prepare a document that satisfies predetermined requirements and submit it to the JPO. The patent application documents submitted to the KIPO are published after a predetermined time or requirement is met. Such documents can be referred to as patent documents.

일반적으로, 특허를 출원하려고 하는 자등은 선행기술의 존재여부를 확인하기 위하여 이러한 특허문서들을 검색/서치하는 과정을 거치게되는데, 대부분의 특허문서 검색은 키워드를 입력한 형태로 이루어지고 있다. In general, a person who intends to apply for a patent goes through a process of searching / searching these patent documents in order to confirm the existence of the prior art, and most patent document searches are made by inputting keywords.

즉, 근래의 기술 발달에 수반하여 특허출원의 건수가 방대해지고 있으며, 이에 수반하여 특허문서의 양도 방대해지고 있다. 이에 따라, 중복 연구를 방지하거나 권리침해의 여부를 확인하거나 특허출원 전의 선행기술 조사를 하거나 타사의 기술 개발 동향을 파악하거나 연구 개발 향상 등을 위하여 특허문서를 조사하는 작업이 용이하지 않은 실정이다. That is, with the recent development of technology, the number of patent applications is enormous, and with this the amount of patent documents is also enormous. Accordingly, it is not easy to investigate patent documents to prevent duplicate studies, to check for infringement of rights, to investigate prior art prior to patent application, to identify trends of technology development of other companies, or to improve research and development.

이러한 특허문서를 서치하거나 조사하기 위한 종래의 검색 시스템에서는, 키워드를 잘못 선택하면, 불필요한 정보가 방대히 포함되는 경우가 발생하곤 한다. 그리고, 이와 같은 경우에는 조사 그 자체의 시간도 방대해지는 문제점이 있다. In a conventional retrieval system for searching or searching such a patent document, if a keyword is incorrectly selected, unnecessary information is often included. In this case, there is a problem that the time of irradiation itself is enormous.

본 발명의 실시예는 복수의 특허문서 간의 참조 또는 인용 관계를 도출하거나 직접 인용 관계가 아니더라도 간접 인용 관계를 독출함으로써, 특허문서 간의 보다 효율적인 분류를 수행할 수 있는 문서 분류 시스템을 제안하고자 한다. An embodiment of the present invention is to propose a document classification system capable of performing more efficient classification between patent documents by deriving a reference or citation relationship between a plurality of patent documents or by reading an indirect citation relationship even if not a direct citation relationship.

본 실시예에 따른 문서 분류 시스템은 특허문서들이 저장되는 데이터베이스; 상기 특허문서들 간의 간접인용 관계를 독출하고, 독출된 간접인용 관계를 이용하여 제 1 그룹의 특허문서들에 대해서 군집화를 수행하는 문서분류 모듈; 및 상기 문서분류 모듈에 의해 군집화된 결과의 정보를 사용자에게 제공하는 UI출력 수단;을 포함한다. A document classification system according to the present embodiment includes a database in which patent documents are stored; A document classification module that reads the indirect citation relationship between the patent documents and performs clustering on the first group of patent documents using the read indirect citation relationship; And UI output means for providing a user with information of the results clustered by the document classification module.

그리고, 상기 문서분류 모듈은 제 1 특허문서가 제 2 특허문서에 인용되고, 상기 제 2 특허문서가 제 3 특허문서가 인용되는 경우에, 상기 제 1 내지 제 3 특허문서를 동일의 군집으로 분류한다. The document classification module classifies the first to third patent documents into the same cluster when the first patent document is cited in the second patent document and the second patent document is cited in the third patent document. do.

그리고, 상기 문서분류 모듈은 상기 제 1 그룹의 특허문서들에 대해서 독출된 간접인용 관계를 이용하여 군집화를 수행하는 문서군집 수단과, 상기 문서군집 수단에 의한 군집화된 결과의 정보를 이용하여 제 2 그룹의 특허문서들에 대해서 분류를 수행하는 문서분류 수단을 포함한다. The document classification module may further include a document clustering means for performing clustering using an indirect citation relationship read to the patent documents of the first group, and a second document using the information of the clustering result by the document clustering means. And document classification means for performing classification on the group's patent documents.

그리고, 상기 문서군집 수단은 상기 군집화의 결과로서 군집화된 특허문서들중에서 특정의 특허문서를 대표문서로 생성하고, 상기 문서분류 수단은 상기 제 2 그룹의 특허문서들에 대해서 상기 대표 문서와 소정 범위 이내의 유사도를 갖는 특허문서를 상기 대표 문서가 포함된 군집으로 분류한다. The document clustering means generates a specific patent document as a representative document among the patent documents clustered as a result of the clustering, and the document classification means is a predetermined range with the representative document for the second group of patent documents. Patent documents having similarity within are classified into a cluster containing the representative document.

그리고, 상기 문서군집 수단은 상기 군집화의 결과로서 분류명을 생성하고, 상기 UI출력 수단은 상기 분류명을 사용자가 입력할 수 있는 UI를 제공한다. The document clustering means generates a classification name as a result of the clustering, and the UI output means provides a UI through which the user can input the classification name.

제안되는 바와 같은 실시예에 의해서, 복수의 특허문서 간의 참조 또는 인용 관계를 도출하거나 직접 인용 관계가 아니더라도 간접 인용 관계를 독출함으로써, 특허문서 간의 보다 효율적인 분류를 수행할 수 있는 장점이 있다. According to the embodiment as proposed, by deriving a reference or citation relationship between a plurality of patent documents or by reading an indirect citation relationship even if not a direct citation relationship, there is an advantage that more efficient classification between patent documents can be performed.

그리고, 효율적인 문서의 분류가 수행됨에 따라, 특허문서를 통한 특허개발을 효과적으로 수행할 수 있는 장점이 있다. In addition, as the efficient document classification is performed, there is an advantage that the patent development through the patent document can be effectively performed.

이하에서는, 본 실시예에 대하여 첨부되는 도면을 참조하여 상세하게 살펴보도록 한다. 다만, 본 실시예가 개시하는 사항으로부터 본 실시예가 갖는 발명의 사상의 범위가 정해질 수 있을 것이며, 본 실시예가 갖는 발명의 사상은 제안되는 실시예에 대하여 구성요소의 추가, 삭제, 변경등의 실시변형을 포함한다고 할 것이다. Hereinafter, with reference to the accompanying drawings for the present embodiment will be described in detail. However, the scope of the idea of the present invention may be determined from the matters disclosed by the present embodiment, and the idea of the invention of the present embodiment may be performed by adding, deleting, or modifying components to the proposed embodiment. It will be said to include variations.

그리고, 이하의 설명에서, 단어 '포함하는'은 열거된 것과 다른 구성요소들 또는 단계들의 존재를 배제하지 않는다. In the following description, the word 'comprising' does not exclude the presence of other elements or steps than those listed.

도 1은 본 실시예에 따른 문서 분류 시스템의 구성을 보여주는 일례이다. 1 is an example showing the configuration of a document classification system according to the present embodiment.

도 1에 도시된 바와 예와 같은 시스템은 특허문서가 저장되는 데이터베이 스(130)와, 상기 데이터베이스(130)에 저장된 특허문서 또는 네트워크를 통하여 접속가능한 다른 특허문서들에 대해서 기설정된 평가팩터(사용자에 의해 변경가능함)를 이용해서 평가치를 부여하는 문서평가 모듈(140)과, 사용자에 의해 지정된 또는 데이터베이스에 격납된 특허문서들에 대한 직접 및 간접 인용관계를 도출하여 특허문서들의 분류 및 군집화가 이루어지도록 하는 문서분류 모듈(150)을 포함한다. The system as shown in FIG. 1 has a predetermined evaluation factor for a database 130 in which patent documents are stored, and patent documents stored in the database 130 or other patent documents accessible through a network. Document evaluation module 140 which assigns an evaluation value by using a user, and derives direct and indirect citation relations of patent documents designated by a user or stored in a database, thereby classifying and clustering patent documents. Document classification module 150 to be made.

또한, 이러한 문서 분류 시스템은 특허문서들 간의 간접 인용관계를 이용하여 특허문서들에 분류를 수행하고, 수행된 분류의 결과(분류된 특허문서들내에서 대표화 문서)를 이용해서 미분류의 특허문서들에 대해서 군집화를 수행할 수 있는 것으로서, 서버 장치나 컴퓨터 등에 의하여 실현될 수 있으며, 입출력 모듈(110), 문서검색 모듈(120), 문서특징 작성모듈(160) 및 문서특징 DB(170)를 더 포함할 수 있다. In addition, this document classification system performs classification on patent documents using indirect citations between patent documents, and unclassified patent documents by using the result of classification (representation document in classified patent documents). As a clustering can be performed with respect to the fields, it can be realized by a server device or a computer. The input / output module 110, the document retrieval module 120, the document feature creation module 160 and the document feature DB 170 can be implemented. It may further include.

입출력 모듈(110)의 질의어 수신수단(111)는 사용자가 문서 검색 또는 분석등의 행위를 수행하기 위하여 키보드나 마우스등을 이용해서 입력한 질의어를 수신하는 것으로서, 사용자가 입력하는 질의어는 상기 데이터베이스(130)에 저장되어 있는(또는 네트워크 연결이 가능한) 특허문서에 기록된 키워드가 될 수 있다. 그리고, 상기 키워드는 문자 이외에 상기 특허문서를 구성하는 출원번호, 공개번호등의 숫자도 포함한다. The query receiving means 111 of the input / output module 110 receives a query input by a user using a keyboard or a mouse to perform an action such as searching or analyzing a document. The query input by the user includes the database ( 130 may be a keyword recorded in the patent document stored in (or network-connected). In addition to the characters, the keyword also includes numbers such as an application number and a publication number constituting the patent document.

그리고, 입출력 모듈(110)의 UI(User Interface) 출력수단(112)은, 상기 문서검색 모듈(120) 또는 문서분류 모듈(150) 또는 문서평가 모듈(140)에 의하여 연산 내지는 추출되는 정보를 사용자측에 제공하는 역할을 수행하며, 후술되는 다양 한 UI를 제공하는 장치로 기술되어 있지만, 실시예에 따라 당연히 평가 시스템의 다른 구성요소 내에 마련되는 것도 가능하다. In addition, the UI (User Interface) output unit 112 of the input / output module 110, the user information is calculated or extracted by the document search module 120, document classification module 150 or document evaluation module 140 to the user side Although it is described as a device for providing a variety of UI to be described later, which serves to provide, depending on the embodiment may be provided in other components of the evaluation system, of course.

또한, 실시예의 데이터베이스(130)에는 특허문서 데이터들이 저장되며, 특허문서 데이터군은 전자화되는 특허출원 또는 특허에 관계되는 명세서의 문서 데이터를 격납하도록 구성되어 있는 데이터베이스이다. 이 특허문서 데이터는, 문자 코드에 의하여 명세서의 내용을 기술한 텍스트 데이터를 포함하는 데이터이다. 플레인 텍스트 데이터의 다른 곳, 예를 들면, SGML(Standard Generalized Markup Language), HTML(HyperText Markup Language), XML(eXtensible Markup Language)등의 범용 태그 언어에 의한 기술을 포함하는 문서 데이터도 가능하다. 그리고, 텍스트 데이터의 추출이 가능하다면, PDF(Portable Document Format)이나 범용의 워드 프로세서(word processor)의 문서 포맷(format), RTF(Rich TextFormat) 포맷등의 다른 포맷도 가능하다. Further, the patent document data is stored in the database 130 of the embodiment, and the patent document data group is a database configured to store document data of a specification related to a patent application or a patent to be digitized. This patent document data is data containing text data which describes the content of the specification by the character code. Document data containing descriptions by other general tag languages such as Standard Generalized Markup Language (SGML), HyperText Markup Language (HTML), and eXtensible Markup Language (XML) are also possible. If text data can be extracted, other formats such as PDF (Portable Document Format), a general word processor document format, and RTF (Rich TextFormat) format can be used.

특허문서 데이터베이스(130)는, 특허문서 평가 시스템의 외부에 마련되어 있는 것도 가능하며, 그 경우에는, 네트워크를 이용하여 특허문서 평가 시스템이 데이터베이스에 접속하고, 특허문서의 문서 데이터를 취득할 것이다. The patent document database 130 may be provided outside the patent document evaluation system. In that case, the patent document evaluation system connects to the database and acquires the document data of the patent document using the network.

문서검색 모듈(120)은 사용자가 입력한 질의어를 바탕으로 상기 데이터베이스(130)에 저장되어 있는 특허문서들중에서 호출대상의 특허문서들을 검색한다. 상기 문서검색 모듈(120)에 의한 특허문서의 검색에 있어서는, 상기 문서특징 작성모듈(160) 및 문서특징 DB(170)가 이용될 수 있다. The document search module 120 searches for patent documents to be called from among patent documents stored in the database 130 based on a query input by a user. In the search of the patent document by the document search module 120, the document feature creation module 160 and the document feature DB 170 may be used.

문서특징 작성모듈(160)은 상기 데이터베이스(130)에 저장되어 있는 문서들 로부터 텍스트를 취득하여 각 키워드별 빈도수에 대한 인덱스 정보를 문서특징 DB(170)에 제공할 수 있다. 그리고, 상기 문서검색 모듈(120)은 질의어 수신수단(111)에 의하여 소정의 질의어가 수신되는 경우에 상기 문서특징 DB(170)에 저장된 각 문서의 인덱스 파일을 이용하여 질의어가 포함된 문서들을 검색할 수 있다. The document feature creation module 160 may obtain text from the documents stored in the database 130 and provide the document feature DB 170 with index information on the frequency of each keyword. The document search module 120 searches for documents including a query by using an index file of each document stored in the document feature DB 170 when a query is received by the query receiving unit 111. can do.

상기 문서검색 모듈(120)에 의해 검색된 결과의 문서는 UI 출력수단(112)을 통하여 도 3에 도시된 바와 같은 UI가 사용자측에 제공될 수 있다. In the document of the result searched by the document search module 120, a UI as shown in FIG. 3 may be provided to the user through the UI output unit 112.

상기 문서특징 작성모듈(160)은 질의어 수신수단(111)을 통하여 소정의 질의어가 수신되는 경우 또는 웹 로봇에 의하여 상기 데이터베이스(130)에 신규의 문서가 격납되는 경우에 해당 문서들에 대한 인덱스 파일을 작성하고, 이를 이용하여 각 문서에 대한 특징 벡터를 결정할 수 있다. 이에 대한 설명을 위하여 도 8을 참조하여 본다. The document feature creation module 160 is an index file for the documents when a predetermined query is received through the query receiving means 111 or when a new document is stored in the database 130 by a web robot. We can then write and use it to determine the feature vector for each document. See FIG. 8 for a description thereof.

도 8은 각 문서의 속성 정보를 나타낸 도면이고, 도 8에 도시된 문서들의 속성정보는 문서특징 작성모듈(160)에 의해 인덱스 파일의 형태로 작성될 수 있으며, 작성된 인덱스 파일은 상기 문서특징 DB(170)에 저장된다. FIG. 8 is a diagram illustrating attribute information of each document, and the attribute information of the documents illustrated in FIG. 8 may be created in the form of an index file by the document feature creation module 160, and the created index file is the document feature DB. Stored at 170.

그리고, 문서특징 DB(170)에 저장된 인덱스 파일을 이용하여 상기 문서특징 작성모듈(160)은 각 문서의 특징 벡터를 결정할 수 있으며, 상기 특징 벡터 역시 문서특징 DB(170)에 저장될 수 있다. The document feature creation module 160 may determine a feature vector of each document using the index file stored in the document feature DB 170, and the feature vector may also be stored in the document feature DB 170.

도 8에는 각 문서마다 키워드(A,B,C,D,M,I,K,O,P,Q,Z)별 발생빈도에 대한 정보가 도시되어 있으며, 예를 들면, 제 1 문서에는 키워드 A(여기서, A는 명사, 고유명사, 복합명사등의 단어를 의미하는 것이며, 알파벳 A를 의미하는 것이 아님)가 35번, 키워드 B가 19번, 키워드 C가 15번, 키워드 D가 13번이 포함되어 있음을 나타낸다.In FIG. 8, information on the frequency of occurrence of each keyword (A, B, C, D, M, I, K, O, P, Q, Z) is shown for each document. A (where A means nouns, proper nouns, compound nouns, etc., does not mean alphabet A) is 35 times, keyword B is 19, keyword C is 15, keyword D is 13 It is included.

그리고, 각 문서에 포함되어 있는 키워드별 발생빈도 테이블은 도 8에 도시된 바와 같이 가장 높은 빈도수를 갖는 키워드로부터 낮은 빈도수를 갖는 키워드로 순차적으로 배열되도록 작성될 수 있다.In addition, the frequency table for each keyword included in each document may be prepared to be sequentially arranged from the keyword having the highest frequency to the keyword having the low frequency as shown in FIG. 8.

예컨대, 문서 1에서는 키워드 A가 4.5%, 키워드 B가 2.4%, 키워드 C가 1.9%, 키워드 D가 1.7%가 포함되어 있음을 나타내기 위하여, 상기 문서 1에 대한 인덱스 파일은 (A,B,C,D) → (4.5%,2.4%,1.9%,1.7%)의 의미를 포함하도록 작성될 수 있다.For example, in Document 1, in order to indicate that keyword A includes 4.5%, keyword B 2.4%, keyword C 1.9%, and keyword D 1.7%, the index file for Document 1 is (A, B, C, D) → (4.5%, 2.4%, 1.9%, 1.7%).

이렇게 다양한 방법에 의하여 각 문서들의 인덱스 파일이 작성되고, 작성된 인덱스 파일을 이용해서는 각 문서의 특징 벡터를 추출하는 것이 가능해진다.The index files of the respective documents are created by various methods as described above, and the feature vector of each document can be extracted using the created index file.

상세히, 상기 문서특징 작성모듈(160)은 각 문서에서 키워드별 발생빈도수에 근거한 테이블을 작성하고, 이를 이용하여 각 문서의 특징 벡터를 함께 작성한다.In detail, the document feature creation module 160 creates a table based on the frequency of occurrence of each keyword in each document, and creates a feature vector of each document using the document.

여기서, 상기 문서특징 작성모듈(160)에 의해 결정되는 특징 벡터는 각 문서에 대하여 키워드의 평가치를 요소로 하며, 예를 들어 각 문서에 포함된 키워드의 총 수가 n개인 경우, 각 문서의 특징 벡터는 n차원 공간의 벡터로서 다음 식(1)과 같이 표현될 수 있다.Here, the feature vector determined by the document feature creation module 160 is an evaluation value of a keyword for each document, for example, when the total number of keywords included in each document is n, the feature vector of each document Is a vector of n-dimensional space and can be expressed as Equation (1) below.

특징 벡터 = (키워드 A의 평가치 w1, 키워드 B의 평가치 w2, ······· 단어 n의 평가치 wn) --- (1)Feature vector = (evaluation value w1 of keyword A, evaluation value w2 of keyword B, ... wn evaluation value of word n) wn) --- (1)

평가치의 연산에는, 예를 들어 문헌(Salton, G:Automatic Text Processing : The transformation, Analysis, and Retrieval of Information by Computer, Addison-Wesley)에 개시되어 있는 tf·idf법을 이용할 수 있다. tf·idf법에 따르면, 제 1 문서에 대응하는 n차원의 특징 벡터 중, 제 1 문서에 포함되는 키워드에 대응하는 요소에 대해서는, 평가치로서 0이외의 값이 산출되고, 제 1 문서에 포함되지 않은 키워드(빈도가 0인 단어)에 대응하는 요소에 대해서는 평가치로서 0이 산출된다.For the calculation of the evaluation value, for example, the tf-idf method disclosed in Document (Salton, G: Automatic Text Processing: The transformation, Analysis, and Retrieval of Information by Computer, Addison-Wesley) can be used. According to the tf-idf method, among the n-dimensional feature vectors corresponding to the first document, for the element corresponding to the keyword included in the first document, a value other than 0 is calculated as the evaluation value and is included in the first document. 0 is calculated as an evaluation value for the element corresponding to the keyword (word with a frequency of 0) which is not.

이와 같은 견지에서, 특징 벡터의 한 요소로서 키워드의 평가치는 각각의 문서에 나타나는 각 키워드의 빈도율이 될 수 있다. 예컨대, 상기 문서검색 모듈(120)에 의해서, 제 1 문서로부터 키워드 A, 키워드 B 및 키워드 C는 유사어로 군집화될 수 있으며, 군집된 유사어는 별도의 유사어 DB에 저장될 수 있다. In this respect, the evaluation value of the keyword as an element of the feature vector may be the frequency rate of each keyword appearing in each document. For example, by the document retrieval module 120, keywords A, keywords B, and keywords C may be grouped into similar words from the first document, and the grouped similar words may be stored in a separate similar word DB.

즉, 상기 문서검색 모듈(120)에 의해서 소정의 키워드 A와 키워드 B가 군집화되고, 군집화된 키워드 A와 키워드 B는 유사어 DB에 저장된다.That is, the predetermined keyword A and the keyword B are clustered by the document search module 120, and the grouped keyword A and the keyword B are stored in the similar word DB.

그리고, 상기 문서검색 모듈(120)은 추출되는 키워드에 키워드 A와 키워드 B중 어느 하나가 포함되어 있는 경우에는, 나머지 키워드가 포함된 유사문서에 대해서도 검색을 수행한다. When the extracted keyword includes any one of the keyword A and the keyword B, the document search module 120 searches for similar documents including the remaining keywords.

추출된 키워드에 한정된 검색이 수행되는 것이 아니라 특허문서들의 속성에 근거하여 유사한 문서들의 검색이 수행될 수 있는 것이다. The search that is limited to the extracted keywords is not performed, but similar documents may be searched based on the attributes of the patent documents.

상기 질의어 수신수단(111)을 통해 수신되는 질의어 중에 키워드A가 포함되어 있는 경우에는, 유사문서 검색시에 키워드 A와 함께 키워드 B 및 키워드 C가 포함되어 있는 문서의 검색이 수행될 수 있다. When keyword A is included in the query received through the query receiving means 111, a document including keyword B and keyword C may be searched together with keyword A when searching for similar documents.

이러한 유사문서의 검색은 본 실시예에서는 문서를 군집화하는 것과 관련되 므로, 인용관계 분석을 통한 특허문서들의 분류 후에 문서들을 군집화하는 동작에 관한 설명에서 더 자세히 살펴보기로 하며, 본 실시예에 따라 특허문서를 평가하는 동작과, 사용자에 의해 선택된 특허문서들에 대해서 간접 인용관계를 이용하여 분류하는 동작과, 문서의 분류 후에 다른 문서들을 군집화하는 동작들에 대해서 살펴보기로 한다. Since retrieval of such similar documents is related to clustering the documents in this embodiment, the description of the operation of grouping the documents after classification of patent documents through citation relationship analysis will be described in more detail. An operation of evaluating patent documents, classifying the patent documents selected by a user using indirect citations, and grouping other documents after the classification of the documents will be described.

먼저, 상기 데이터베이스(130)에 격납되어 있는 또는 네트워크를 통하여 접속이 가능한 특허문서들에 대해서 기 설정된 평가 팩터에 따라 평가치를 부여하는 문서평가 모듈(140)에 대해서 살펴보기로 한다. First, a document evaluation module 140 for assigning an evaluation value according to a predetermined evaluation factor for patent documents stored in the database 130 or accessible through a network will be described.

본 실시예의 문서평가 모듈(140)은 상기 데이터베이스(130)에 격납된 특허문서 또는 네트워크 연결가능한 특허문서들에 대해서 상기 특허문서가 갖는 속성정보를 이용해서 특허문서를 평가하며, 또한 그 평가의 결과가 사용자에게 보여지도록 그 결과를 상기 UI 출력수단(112)으로 제공한다. 그리고, UI 출력수단(112)은 특허문서의 검색결과 리스트와 함께 검색된 대상의 특허문서들에 대한 평가치에 대한 정보를 사용자측에 제공할 수 있으며, 상기 검새결과 리스트와는 별도의 팝업 또는 OSD로 특허문서들에 대한 평가치 정보를 제공할 수도 있다. The document evaluation module 140 of this embodiment evaluates a patent document with respect to the patent document stored in the database 130 or the network-connectable patent documents using the attribute information of the patent document, and also results of the evaluation. Provides the result to the UI output means 112 so that is shown to the user. In addition, the UI output unit 112 may provide the user with information on the evaluation value of the patent documents of the searched object together with the search result list of the patent document, and as a pop-up or OSD separate from the inspection result list. Evaluation information for patent documents can also be provided.

상기 문서평가 모듈(140)은 상기 데이터베이스(130)에 격납된 특허문서들 또는 네트워크 연결이 가능한 특허문서들에 대해서 설정된 평가항목을 이용해서 평가항목 테이블을 작성하며, 이러한 특허문서의 평가 작업은 상기 데이터베이스(130)에 신규의 특허문서가 저장되는 경우마다 수행될 수 있다. The document evaluation module 140 creates an evaluation item table using evaluation items set for patent documents stored in the database 130 or patent documents capable of network connection. It may be performed whenever a new patent document is stored in the database 130.

다만, 상기 문서평가 모듈(140)에 의한 특허문서의 평가 작업은 사용자의 문 서검색 요청이 있고 검색되는 문서가 존재하는 경우에 수행되는 것도 가능하며, 이하의 설명에서는 이러한 평가 작업이 수행되는 시간의 제약에 상관없이 서술하여 보기로 하니, 이 점 유의하여야 한다. However, the evaluation of the patent document by the document evaluation module 140 may be performed when there is a user's document search request and the document to be searched exists. It should be noted that it will be described regardless of the constraint of.

상기 문서평가 모듈(140)에는 특허문서가 갖는 특성을 평가팩터로서 관리하는 평가팩터 관리수단(141)과, 상기 평가팩터를 이용하여 상기 데이터베이스(130)에 저장된 특허문서에 대해서 평가를 수행하는 문서평가 수단(142)과, 상기 문서평가 수단(142)에 의한 문서 평가결과인 평가치가 특허문서 각각에 대응되도록 하는 DB문서 관리수단(143)이 포함될 수 있다. The document evaluation module 140 includes an evaluation factor management means 141 for managing the characteristics of the patent document as an evaluation factor and a document for performing evaluation on the patent document stored in the database 130 using the evaluation factor. The evaluation means 142 and the DB document management means 143 may be included so that the evaluation value which is the result of document evaluation by the document evaluation means 142 corresponds to each patent document.

상기 평가팩터 관리수단(141)은 상기 데이터베이스(130)에 격납된 특허문서의 대내적 특성과 대외적 특성에 대한 항목을 관리하며, 이러한 특성들은 사용자에 의하여 편집될 수 있다. The evaluation factor management means 141 manages items for internal and external characteristics of the patent document stored in the database 130, and these characteristics can be edited by a user.

즉, 상기 평가팩터 관리수단(141)에 의하여 특허문서의 대내적 특성 및 대외적 특성에 대한 평가팩터들의 구조는 도 2에 도시된다. 도 2는 특허문서의 평가팩터의 구조를 나타내는 도면이다. That is, the structure of the evaluation factors for the internal and external characteristics of the patent document by the evaluation factor management means 141 is shown in FIG. 2 is a diagram showing the structure of an evaluation factor of a patent document.

도 2에 나타나 있듯이, 상기 평가팩터 관리수단(141)에 의하여 기술되는 특허에 관한 속성의 테이블이 국가별로 복수개 연결될 수 있으며, 하나하나의 테이블에는 특허문서 내에 기록되어 있는 사항으로부터 도출되는 대내적 특성과, 특허문서가 인용하고 있는 피인용 문서의 특성을 고려함으로써 도출될 수 있는 대외적 특성을 포함한다. As shown in FIG. 2, a plurality of tables of attributes related to patents described by the evaluation factor management unit 141 may be linked for each country, and each table includes internal characteristics derived from matters recorded in a patent document. It also includes external characteristics that can be derived by considering the characteristics of the cited document cited by the patent document.

특허문서에 기록되어 있는 사항으로부터 도출될 수 있는 대내적 특성이라 함 은, 특허문서의 기재사항에 대한 텍스트마이닝 작업을 통하여 추출될 수 있는 키워드 또는 해당 특허문서의 정보를 가리킨다. Internal characteristics that can be derived from the matter recorded in the patent document refer to keywords or information of the patent document that can be extracted through text mining of the description of the patent document.

예를 들어, 특허문서에 기록되어 있는 등록일자로부터 현재일자까지의 기간이 연산된 유지기간은 해당 특허문서 내에 기재된 사항으로부터 도출가능한 것이므로, 특허문서의 대내적 특성이 될 수 있다. For example, the maintenance period in which the period from the registration date recorded in the patent document to the current date is calculated can be derived from the matters described in the patent document, and thus can be an internal characteristic of the patent document.

그리고, 특허문서에 기재된 출원일자로부터 현재일자까지의 기간이 연산된 경과정보, 특허문서의 독립항의 수, 특정 독립항에 대한 텍스트 마이닝결과 독출되는 키워드의 개수에 따라 결정될 수 있는 청구항 길이, '제 1 항에 있어서' 또는 'according to claim 1'과 같이 특정의 문구가 들어가기 때문에 종속항으로 식별가능한 종속항들의 개수 역시 특허문서의 대내적 특성이 될 수 있다. In addition, the claim length which may be determined according to the historical information, the number of independent terms of the patent document, the number of keywords to be read as a result of text mining for a specific independent term, and the period from the filing date to the current date described in the patent document, Because a particular phrase is entered, such as in a term 'or' according to claim 1 ', the number of subordinate terms that can be identified as subordinate terms may also be an internal characteristic of a patent document.

또한, 특허문서에 기재되어 있는 발명자들의 수 역시 특허문서의 대내적 특성이 될 수 있다. In addition, the number of inventors described in the patent document may also be an internal characteristic of the patent document.

다만, 제 1 특허문서에서 발명자로 기록된 A가 출원한 특허의 개수에 대해서는, 해당 발명자 A가 발명자로 기록되어 있는 다른 특허문서들을 검색하여야 하기 때문에, 특허문서의 대외적 특성이라 할 수 있다. However, with respect to the number of patents filed by A as an inventor in the first patent document, it is an external characteristic of the patent document because the inventor A must search other patent documents recorded as the inventor.

그리고, 해당 특허문서에서 인용하고 있는 다른 특허문서가 있을 경우에는, 인용하고 있는 특허문헌의 개수, 인용/피인용의 기간등은 특허문서의 대외적 특성이 된다. When there is another patent document cited in the patent document, the number of patent documents cited and the period of citation / citation become external characteristics of the patent document.

특허문서를 점수화하기 위한 평가치 연산을 위해서는, 특허문서에 대한 평가팩터가 정의되어야 하고, 정의된 평가팩터들에 대한 각각의 가중치(weighting value)를 연산함으로써, 종국적으로 해당 특허에 대한 평가치가 연산될 수 있다. In order to calculate an evaluation value for scoring a patent document, an evaluation factor for the patent document must be defined, and the evaluation value for the corresponding patent is ultimately calculated by calculating respective weighting values for the defined evaluation factors. Can be.

이러한 견지에서, 도 2에 도시된 바와 같은 일례의 테이블을 이용하여, 상기 평가팩터 관리수단(141)은 상기 데이터베이스(130)에 격납된 특허문서들 각각에 대한 평가팩터 항목들을 작성한다. 도 2에는 대내적 특성과 대외적 특성들이 랜덤하게 배열되어 있으나, 특허문서 내에서 추출되는 정보로부터 획득가능한 대내적 특성에 대한 평가치와, 해당 특허문서와 다른 특허문서(검색결과내에서의 다른 특허문서와 데이터베이스에 저장된 동일 기술분야의 다른 특허문서도 가능)간의 관계에서 산출되는 평가치를 별도의 항목으로서 구별하여 둘 수도 있다. In view of this, using the example table as shown in FIG. 2, the evaluation factor managing means 141 prepares evaluation factor items for each of the patent documents stored in the database 130. In Fig. 2, internal and external characteristics are randomly arranged, but evaluation values for internal characteristics that can be obtained from information extracted from a patent document, and corresponding patent documents and other patent documents (with other patent documents in search results) Evaluation values calculated from the relationship between the other patent documents of the same technical field stored in the database may be distinguished as separate items.

각각의 특허문서들로부터 독출되는 특성들의 값을 도 2에 도시된 바와 같은 테이블에 기록한 다음에는, 상기 문서평가 수단(142)에 의하여 특허문서의 평가치가 연산된다. After the values of the characteristics read out from the respective patent documents are recorded in a table as shown in Fig. 2, the evaluation value of the patent document is calculated by the document evaluating means 142.

예를 들면, 각각의 평가팩터들에 대해서는 미리 결정된 가중치가 부여될 수 있으며, 이 경우 특허문서로부터 추출되는 대내적 특성 및 대외적 특성의 값에 상기 가중치가 연산됨으로써, 평가팩터 각각의 점수의 합이 해당 특허문서의 평가치가 될 수 있다. For example, a predetermined weight may be given to each of the evaluation factors, and in this case, the weights are calculated on the values of the internal and external characteristics extracted from the patent document, so that the sum of the scores of each of the evaluation factors is corresponding. It can be an evaluation of a patent document.

이렇게 연산된 특허문서에 대한 평가치들은 DB문서 관리수단(143)에 의하여 별도로 관리될 수 있으며, 특허문서 검색결과의 정보가 사용자에게 보여질 때 검색된 결과에 포함되는 특허문서마다 연산된 평가치가 함께 보여지도록 한다. The evaluation values for the patent documents calculated in this way can be managed separately by the DB document management means 143, and the evaluation values calculated for each patent document included in the searched results together when the information of the patent document search results is shown to the user. Make it visible.

따라서, 상기 입출력 모듈(110)의 UI 출력수단(112)은 상기 평가팩터 관리수단(141)에 의해 관리되는 평가팩터의 항목 내지는 테이블을 사용자측에 제공하고, 사용자가 추가, 편집 및 삭제하는 평가팩터의 내용은 상기 평가팩터 관리수단(141)에 의해 저장관리된다. Accordingly, the UI output unit 112 of the input / output module 110 provides the user with an item or table of evaluation factors managed by the evaluation factor managing unit 141, and the user adds, edits, and deletes the evaluation factor. The content of is stored and managed by the evaluation factor management means (141).

상기와 같은 문서평가 모듈(140)에 의해 각각의 특허문서들은 평가치를 부여받을 수 있으며, 이렇게 부여된 평가치는 해당 특허문서가 검색의 결과로서 사용자측에 보여질 때 그 결과 리스트와 함께, 도 3과 도 10과 같이, 보여질 수 있다. Each of the patent documents may be given an evaluation value by the document evaluation module 140 as described above. When the patent document is displayed to the user as a result of the search, the patent document is evaluated. As can be seen in FIG. 10.

참고로, 도 3에는 사용자의 컴퓨터 또는 서버에 제공되는 문서검색 결과의 일 리스트가 예시되어 있다. 예를 들어, 사용자가 입력한 질의어에 대해서 상기 문서검색 모듈(120)이 상기 데이터베이스(130)에 저장된 특허문서의 검색결과가 7건이 독출된 경우에는, 검색대상의 특허문서들에 대한 서지적인 정보(예를 들면, 특허번호, 상태, 출원일, 특허일, 발명의 명칭, IPC)의 표시와 함께 각각의 특허문서들에 대한 평가치가 함께 표시된다. For reference, FIG. 3 illustrates a list of document search results provided to a user's computer or server. For example, when seven search results of a patent document stored in the database 130 are read by a query input by a user, bibliographic information on patent documents to be searched is read. (E.g., patent number, status, filing date, patent date, name of invention, IPC) together with an evaluation value for each patent document.

또한, 상기 문서평가 수단(142)은 검색된 결과의 특허문서들중에서 사용자가 가장 가치가 높은 특허와 그렇지 않은 특허를 빨리 구별할 수 있도록 특허문서에 대한 평가치를 상기 UI 출력수단(112)으로 제공한다. 그리고, 특허문서 각각에 대한 평가치와 함께, 검색된 결과의 특허문서들의 평균 평가치를 연산하여, 이러한 평균 평가치 역시 상기 UI 출력수단(112)으로 제공할 수 있다. In addition, the document evaluating means 142 provides an evaluation value for the patent document to the UI output means 112 so that a user can quickly distinguish between a patent having the highest value and a patent which is not of the searched patent documents. . The average evaluation value of the retrieved patent documents together with the evaluation value for each patent document may be calculated to provide the average evaluation value to the UI output unit 112 as well.

검색된 결과의 특허문서들에 대한 평균 평가치가 함께 보여질 경우에는, 사용자는 검색결과의 특허문서 각각에 대한 우열을 용이하게 결정할 수 있을 것이며, 본 실시예에 따라 사용자는 그 평가 가치가 높은 특허문서들을 먼저 확인하여 봄으로써, 검색 효율을 향상시킬 수 있다. When the average evaluation values of the patent documents of the searched results are shown together, the user can easily determine the superiority of each patent document of the search results, and according to this embodiment, the user can easily determine the patent documents having high evaluation value. By checking them first, the search efficiency can be improved.

이러한 견지에서, 상기 문서평가 수단(142)은 검색결과의 특허문서들이 포함되는 기술분야에서의 평균 평가치를 연산할 수 있으며, 상기 UI 출력수단(112)은 검색결과의 특허문서 각각의 평가치와 함께 해당 특허문서들이 속하는 기술분야에서의 평균 평가치를 함께 제공할 수 있다. In this regard, the document evaluating means 142 may calculate an average evaluation value in the technical field in which the patent documents of the search results are included, and the UI output means 112 is associated with the evaluation value of each patent document of the search results. Together, the average estimates in the technical field to which the patent documents belong can be provided together.

이 경우, 검색된 결과의 특허문서들이 속하는 기술분야의 공통 여부는 국제분류인 IPC분류에 의하여 수행되거나, 일본 특허청에서 분류하고 있는 F-term에 의하여 판단될 수 있다. 그리고, 서로 다른 기술분야로 분류되는 특허문서들이 검색결과로서 출력되어야 할 경우에는, 검색결과에서 다수 비율을 차지하는 특허문서들이 속하는 기술분야에 대한 평가치의 평균값이 제공될 수 있다. In this case, whether or not the common technical field to which the searched documents belong is determined by the IPC classification, which is an international classification, or determined by an F-term classified by the Japan Patent Office. When patent documents classified in different technical fields are to be output as search results, an average value of evaluation values for the technical fields to which the patent documents which occupy a large proportion in the search results belong may be provided.

이러한 경우에, 사용자는 검색된 결과의 특허문서들 각각에 부여된 평가치를 해당 기술분야의 특허문서들의 평균 평가치와 비교함으로써, 검색된 결과의 특허문서들이 어느 정도 중요도를 갖는 특허문서들인지를 쉽게 파악할 수 있게 된다. In this case, the user can easily grasp how important the patent documents of the searched results are by patent documents by comparing the evaluation value assigned to each of the patent documents of the searched result with the average evaluation value of patent documents of the technical field. Will be.

한편, 검색결과의 리스트를 사용자가 선택적으로 다운로드할 수 있는 기능이 제공될 수 있으며, 검색결과 리스트의 다운로드시에는 상기 문서평가 모듈(140)에 의하여 수행되는 평가치에 대한 정보도 함께 사용자측 컴퓨터 또는 서버에 제공될 수 있도록 한다. Meanwhile, a function of selectively downloading a list of search results may be provided by a user, and when downloading a list of search results, information on evaluation values performed by the document evaluation module 140 may also be provided. To be provided to the server.

또한, 도 3에 도시된 바와 같은 검색결과의 UI에서, 사용자가 각각의 특허문서에 부여된 평가치의 세부 항목을 확인하기 위하여 특정의 평가치(Weighting Value)를 클릭하는 경우에는, 상기 평가치를 구성하는 평가팩터들과 각 평가팩터에 대해 해당 특허문서에 부여된 점수를 상세하게 확인할 수 있도록 하는 별도의 UI를 제공할 수 있다. In addition, in the UI of the search result as shown in FIG. 3, when the user clicks on a specific weighting value in order to confirm the detailed item of the evaluation value assigned to each patent document, the evaluation value is configured. The evaluation factors to provide a separate UI that can be confirmed in detail for each evaluation factor and the score given to the corresponding patent document.

또한, 검색결과의 리스트를 포함하는 도 3에 도시된 바와 같은 UI에서, 사용자가 특정의 특허문서를 선택하는 경우에는, 해당 특허문서에 대한 요약내용을 보여주는 별도의 창(UI)이 생성될 수 있다. 즉, 도 4에 도시된 바와 같이 특허문서 분석 UI가 사용자측에 제공될 수 있으며, 이러한 UI에도 해당 특허문서에 대한 평가치 정보가 제공된다. In addition, in the UI as shown in FIG. 3 including a list of search results, when a user selects a specific patent document, a separate window (UI) showing a summary of the patent document may be generated. have. That is, as shown in FIG. 4, the patent document analysis UI may be provided to the user side, and evaluation value information on the patent document is also provided to the UI.

예를 들면, 선택된 특허문서에 대한 발명의 명칭, 대표도면 및 요약등에 대한 사항과 함께 해당 특허문서에 적용된 평가팩터의 항목과, 해당 항목마다의 점수의 정보가 제공될 수 있다. 그리고, 앞서 설명한 바와 같이, 검색된 결과의 특허문서들 또는 해당 특허와 동일한 기술분야의 특허문서들의 평균 평가팩터값들이 함께 제공될 수 있다. For example, the item of the evaluation factor applied to the patent document and the score of each item may be provided along with the name, representative drawing and summary of the invention for the selected patent document. As described above, the average evaluation factor values of the patent documents of the searched result or patent documents of the same technical field as the corresponding patent may be provided together.

그리고, 사용자는 자신의 서버 또는 컴퓨터등을 조작하여, 표시된 평가팩터 항목에 대해서 수정 및 편집할 수 있으며, 또한 부여된 점수에 대해서도 별도로 편집할 수 있다. 이를 위해서, 상기 문서평가 모듈(140)의 평가팩터 관리수단(141)과 DB문서 관리수단(143)들은 사용자에 의해 변경된 평가팩터의 항목 및 점수에 대응되도록 해당 특허문서의 정보를 변경한다. Then, the user can operate his or her own server or computer to modify and edit the displayed evaluation factor item, and also edit the assigned score separately. To this end, the evaluation factor management means 141 and the DB document management means 143 of the document evaluation module 140 change the information of the patent document so as to correspond to the items and scores of the evaluation factor changed by the user.

한편, 본 실시예에 따른 문서분류 모듈(150)에 의해서 분류된 결과의 그래픽이 사용자측에 보여질 때에는 군집화된 결과의 특허문서 리스트가 도 3 또는 도 10과 같은 형태로 사용자측에 보여질 수도 있겠으나, 도 11 또는 도 12와 같이 그래프 또는 매트릭스 맵의 형태로 보여질 때에는 부여받은 평가치가 가장 높은 특허문 서(대표화 문서)를 대표적으로 보여줄 수 있다. On the other hand, when the graphic of the results classified by the document classification module 150 according to the present embodiment is shown on the user side, the list of patent documents of the clustered results may be shown to the user side in the form as shown in FIG. 11 or 12, the patent document (representative document) having the highest evaluation value given in the form of a graph or a matrix map can be representatively shown.

여기서, 본 실시예의 문서검색 모듈(120), 문서평가 모듈(140) 및 문서분류 모듈(150)은 별개로서 동작하기 보다는, 문서의 검색, 분류 및 군집이 보다 효과적으로 이루어지도록 하기 위하여 이들이 함께 기설정된 알고리즘에 따라 복합적으로 동작하는 것임을 알 수 있다. Here, the document retrieval module 120, the document evaluation module 140, and the document classification module 150 of the present embodiment are preset together with each other so that the retrieval, classification, and clustering of documents can be performed more effectively than the separate operations. It can be seen that the algorithm operates in a complex manner.

이하에서는, 사용자가 입력한 질의어에 대해서 상기 문서검색 모듈(120) 및 문서특징 작성모듈(160)에 의하여 소정의 특허문서들이 검색되고, 그 검색의 결과가 도 3과 같은 리스트로 나타나는 경우에, 문서검색 결과의 특허문서들에 대해서 그 기술적 해결과제(종래기술의 문제점) 또는 해결방법(과제 해결 수단)이 유사한 문서들끼리 분류하는 동작에 대해서 설명하여 보기로 한다. Hereinafter, when predetermined patent documents are searched by the document search module 120 and the document feature creation module 160 with respect to a query input by a user, and the result of the search is displayed as a list as shown in FIG. 3, With regard to the patent documents of the document search results, the operation of classifying documents having similar technical problems (problems of the prior art) or solutions (task solutions) will be described.

즉, 본 실시예에 따라 특허문서들 간의 간접 인용관계를 이용함으로써 문서들을 분류할 수 있고, 이러한 인용관계를 갖는 특허문서들은 그 기술적 해결과제 또는 해결방법을 공통으로 하는 경향이 있으므로, 데이터베이스(130)에 격납된 특허문서들 모두를 대상으로 분류를 수행하기 보다는 사용자가 입력한 질의어에 대한 문서검색(유사검색 포함) 결과의 특허문서들에 대해서 분류를 수행하는 것이 더욱 유리하다. That is, according to the present exemplary embodiment, documents may be classified by using indirect citations between patent documents, and patent documents having such citations tend to have common technical problems or solutions, and thus, the database 130 It is more advantageous to classify the patent documents of the results of document search (including similar search) for the query input by the user, rather than classifying all of the patent documents stored in c).

이러한 점에서, 상기 문서분류 모듈(150)의 동작은, 문서검색의 결과로서 소정의 유사범위에 속하는 특허문서들을 예로 들어 설명하여 보기로 한다. 다만, 문서평가 모듈(140)은 특허문서들의 분류 후 문서의 군집화에서도 동작하지만, 이러한 문서 분류와 문서 군집화 이전의 문서 검색 단계에서도 도 3 및 도 10과 같이 부여받은 평가치 정보가 제공될 수 있는 것이다. In this regard, the operation of the document classification module 150 will be described with reference to patent documents belonging to a predetermined similar range as an example of document search. However, the document evaluation module 140 operates in clustering of documents after classification of patent documents, but the evaluation value information given as shown in FIGS. 3 and 10 may be provided even in the document searching step before document classification and document clustering. will be.

한편, 상기 UI 출력수단(112)은 사용자가 검색결과의 특허문서 리스트중에서 일부 특허문서 또는 검색결과의 전부의 특허문서에 대해서 분류 및 군집화를 수행하는 것을 안내하기 위한 태그(34, 도 3 참조)를 제공할 수 있다. On the other hand, the UI output means 112 is a tag (34, FIG. 3) for guiding a user to perform classification and clustering for some patent documents or all patent documents in the search results from the patent document list of the search results. Can be provided.

이러한 문서 분류 및 군집화를 요청하는 키가 입력되면, 상기 문서 분류 모듈(150)은 선택된 특허들에 대한 간접 인용관계 도출 및 이를 이용한 문서 분류를 수행하는 것이다. 예를 들어, 제 1 특허문서가 제 2 특허문서에 인용되고, 상기 제 2 특허문서가 제 3 특허문서에서 인용되는 경우에 상기 제 1 특허문서와 제 3 특허문서는 간접 인용관계에 있는 것이므로, 상기 문서 분류 모듈(150)은 제 2 특허문서와 함께 제 1 및 제 3 특허문서도 동일한 카테고리 내로 분류한다. When a key for requesting such document classification and clustering is input, the document classification module 150 performs derivation of an indirect citation relationship for selected patents and document classification using the same. For example, when the first patent document is cited in the second patent document and the second patent document is cited in the third patent document, the first patent document and the third patent document are in an indirect citation relationship. The document classification module 150 classifies the first and third patent documents together with the second patent document in the same category.

여기서, 본 실시예에 따른 인용관계 즉, 간접 인용관계에 대해서 살펴보기로 한다. 인용관계라고 함은, 특허문서 내에서 종래기술의 문제점을 서술하기 위하여 기재되어 있는 다른 특허문서의 참조 문서 번호(특허출원번호, 특허공개번호, 등록번호등)가 기재되어 있다면, 인용되는 특허문서와 인용하는 특허문서의 관계가 형성될 수 있다. Here, the citation relationship according to the present embodiment, that is, the indirect citation relationship will be described. A citation relationship refers to a patent document cited if a reference document number (patent application number, patent publication number, registration number, etc.) of another patent document is described in the patent document to describe a problem of the prior art. The relationship between and the cited patent document can be formed.

또한, 특허문서 내에서 언급 내지는 기재하고 있는 특허문서만이 인용되는 문서라고 한정될 필요는 없으며, 해당 특허문서에 대한 심사 또는 이의신청 또는 무효심판등에서 있어서 선행기술/인용발명등으로 참조되는 문서 역시 인용관계에 있다고 할 수 있다. 따라서, 해당 특허문서 내에 다른 특허문서의 서지적 정보등에 대해에 기재되어 있는 경우 뿐만 아니라, 간접적으로 심사관 또는 다른 제 3 자등 에 의하여 심사도중에 이용될 수 있는 다른 특허문서 역시 인용 관계에 있다고 할 수 있다. In addition, only the patent documents mentioned or described in the patent documents need not be limited to the documents cited, and documents referred to in the prior art / cited inventions in the examination, objection or invalidation trial of the patent documents are also referred to. It can be said to be in a citation relationship. Therefore, it can be said that not only the bibliographic information of other patent documents is described in the patent document, but also other patent documents that can be used indirectly by the examiner or another third party during the examination. .

이러한 인용관계를 확대시키기 위하여, 상기 데이터베이스(130)에는 특허문서들 각각의 인용여부에 정보가 격납되는 인용 및 참조문서 저장부가 구비될 수 있으며, 이 경우 특허문서에 기재된 사항으로부터 인용관계 여부를 도출하기 위한 독출수단 이외에 특허청 등이 제공하는 자료들로부터 심사중 또는 등록후의 절차에서 사용된 문헌들로부터 인용관계를 도출하기 위한 독출수단이 구비될 수 있다. In order to expand such a citation relationship, the database 130 may be provided with a citation and reference document storage unit in which information is stored in each citation of the patent documents, and in this case, the citation relationship is derived from the matters described in the patent document. In addition to reading means for reading, reading means for deriving citation relations from documents used in the examination or post-registration procedure may be provided from materials provided by the KIPO.

예를 들면, A 특허문서 내에서 다른 B 특허문서의 공개번호등이 기재되어 있다면, A특허문서와 B특허문서간의 직접 인용관계를 독출할 수 있는 것이다. 그리고, A특허문서에 대한 심사중에 그 인용발명으로서 C특허문서가 심사관에 의하여 제시되었다면, C특허문서 역시 A특허문서와 인용관계에 있다고 할 수 있다. For example, if a publication number of another B patent document is described in the A patent document, a direct citation relationship between the A patent document and the B patent document can be read. If the C patent document is presented by the examiner as the citation invention during the examination of the A patent document, it can be said that the C patent document also has a citation relationship with the A patent document.

또한, 청구항에 기재된 사항중에는 제 1 그룹의 특허문서와 제 2 그룹의 특허문서가 있으나, 제 1 그룹은 사용자가 문서를 검색한 다음 검새결과의 특허문서들에 대해서 간접인용관계를 이용한 문서분류를 수행함으로써 형성되는 문서그룹이라 할 수 있다. 그리고, 제 2 그룹은 사용자에 의하여 지정된 특허문서들 또는 데이터베이스(130)에 격납된 다른 특허문서들을 가리키는 것으로서, 실시예의 문서 분류 모듈(150)에 의한 문서의 분류가 수행되지 않은 특허문서들의 집단을 나타낸다고 볼 수 있다. In addition, among the matters set forth in the claims, there is a patent document of the first group and a patent document of the second group. It is a document group formed by performing. The second group refers to patent documents designated by the user or other patent documents stored in the database 130, and refers to a group of patent documents for which document classification is not performed by the document classification module 150 of the embodiment. It can be seen that.

따라서, 사용자가 검색결과의 특허문서들에 대해서 문서 분류를 수행할 것을 요청하는 경우에, 상기 문서 분류 모듈(150)에 의하여 문서 분류가 수행된 이후에 는 상기의 제 1 그룹과 같이 적어도 하나 이상의 그룹이 생성될 수 있다. 그리고, 사용자가 문서 분류 이후에 다른 특허문서들(제 2 그룹)에 대해서도 문서 분류 내지는 군집화를 수행하고자 하는 경우에는, 미분류 또는 미군집화된 제 2 그룹에 속하는 문서들은 제 1 그룹의 특성(대표문서 또는 대표벡터)을 이용해서 상기 제 1 그룹에 속하는 분류들로 분류 및 군집화될 수 있다. Therefore, when the user requests to perform document classification on the patent documents of the search result, after document classification is performed by the document classification module 150, at least one or more like the first group described above. A group can be created. If the user wants to perform document classification or clustering on other patent documents (second group) after document classification, the documents belonging to the unclassified or US grouped second group are the characteristics of the first group (representative document). Or a representative vector) to be classified and clustered into classifications belonging to the first group.

다만, 이해를 돕기 위하여, 제 1 그룹에 속하는 문서들을 간접 인용관계를 이용한 문서 분류가 수행된 것으로 정의하고, 제 2 그룹에 속하는 문서들을 아직 분류 내지는 군집화가 수행되지 않은 것으로 설명하였으나, 제 2 그룹에 속하는 문서들 역시 분류 내지는 군집화가 이미 수행된 것이여도 제 1 그룹의 분류 기준에 따라 다시 분류 및 군집화를 수행하면 되는 것으므로, 반드시 이러한 정의에 한정될 필요는 없다. However, for the sake of understanding, the documents belonging to the first group were defined as document classification using indirect citation, and the documents belonging to the second group were not described as being classified or clustered yet. Documents belonging to are also classified or clustered according to the classification criteria of the first group even if classification or clustering has already been performed, and thus, it is not necessarily limited to this definition.

그리고, 본 발명의 상세한 설명에 있어서, 분류와 군집이라는 용어에 대해서도 혼용될 수 있으나, 이는 상기 문서분류 모듈(150) 또는 문서검색 모듈(120)등의 동작과 관련하여서 해석하면 충분하니, 이 점 유의할 필요가 있다. In addition, in the detailed description of the present invention, the terms classification and cluster may be used interchangeably, which is sufficient to be interpreted in connection with the operation of the document classification module 150 or the document retrieval module 120. It should be noted.

한편, 이러한 인용관계의 독출 이외에 본 실시예에서는 간접 인용관계를 이용하여 특허문서들을 분류할 수 있으며, 이에 대해서는 첨부되는 도 5 내지 7을 참조하여 보기로 한다. Meanwhile, in addition to the reading of the citation relationship, the present exemplary embodiment may classify the patent documents using the indirect citation relationship, which will be described with reference to FIGS. 5 to 7.

도 5는 본 실시예에 따른 문서분류 모듈의 문서군집 수단에 대한 일례를 보여주는 도면이고, 도 6은 본 실시예에 따른 문서분류 모듈에 의한 간접 인용관계를 도출하는 구성을 설명하기 위한 도면이고, 도 7은 본 실시예에 따른 문서분류 모듈 에 의하여 유사문서를 분류된 그룹 내로 군집화시키는 구성을 설명하기 위한 도면이다. 5 is a view showing an example of a document grouping means of a document classification module according to the present embodiment, and FIG. 6 is a view for explaining a configuration for deriving an indirect citation relationship by the document classification module according to the present embodiment. 7 is a view for explaining a configuration of grouping similar documents into classified groups by the document classification module according to the present embodiment.

먼저, 도 6을 참조하여, 본 실시예의 문서 분류 모듈(150)에 의해서 간접 인용관계를 도출하는 구성에 대해서 살펴보기로 한다. First, referring to FIG. 6, a configuration of deriving an indirect citation relationship by the document classification module 150 of the present embodiment will be described.

사용자는 검색된 결과의 문서 또는 직접 지정한 문서들에 대해서 상기 문서 분류 모듈(150)에 의한 간접 인용관계에 대한 정보를 획득하는 것이 가능하다. 도 6에 도시되어 있는 바와 같이, 사용자는 분류하고자 하는 문서들에 대해서 기간(기간 A ~ 기간 B) 설정이 가능하며, 이 경우 분류대상의 특허문서들중에서도 설정된 기간 내의 문서들에 대한 분류가 수행된다. The user can obtain the information on the indirect citation relationship by the document classification module 150 for the document of the searched result or directly designated documents. As shown in FIG. 6, a user can set a period (period A to period B) for documents to be classified, in which case classification is performed for documents within the set period among patent documents to be classified. do.

즉, 설정된 기간 내에 속하는 특허문서들 간에 직접인용관계(문서 내에 서지적 정보를 기록함으로써 형성되는 인용관계 또는 심사관등에 의하여 참조됨으로써 형성되는 인용관계)가 성립되지 않는 경우라도, 인용하는 특허문서 또는 인용되는 특허문서 간의 연관관계가 존재한다면 이러한 특허문서들에 대해서는 간접 인용관계로서 동일한 카테고리 내에 분류될 수 있다. That is, even if a direct citation relationship (a citation relationship formed by recording bibliographic information or a citation relationship formed by referencing by an examiner, etc.) does not hold between patent documents belonging to a set period, the cited patent document or citation If there is an association between patent documents, the patent documents may be classified in the same category as indirect citations.

예를 들면, 문서 분석 및 분류를 위하여 사용자에 의하여 설정된 기간이 기간A ~ 기간B이고, 이러한 기간 내에 속하는 특허문서들(Base Patent, Patent 5, Patent 6, Patent 7, Patent 8, Patent9)간에 서로 직접인용관계에 있지 않고, 설정된 기간 외의 제 1 특허문서(Patent 1)가 제 5 특허문서(Patent 5) 및 Base Patent에 인용된다면, 제 5 특허문서(Patent 5)와 베이스 특허문서(Base Patent)는 상호 간에 간접 인용관계가 성립한다. For example, the period set by the user for document analysis and classification is period A to period B, and the patent documents belonging to the period (Base Patent, Patent 5, Patent 6, Patent 7, Patent 8, Patent 9) If the first patent document (Patent 1) outside the set period is cited in the fifth patent document (Patent 5) and the base patent, and is not in a direct citation relationship, the fifth patent document (Patent 5) and the base patent document (Base Patent) Is an indirect citation relationship with each other.

또 다른 예를 들면, 제 3 특허문서(Patent 3)가 기간 내의 제 7 특허문서(Patent 7)과 베이스 특허문서(Base Patent)를 직접 인용하고 있다면, 상기 제 3 특허문서(Patent 3)과 제 7 특허문서(Patent 7)은 상호간에 간접 인용관계가 성립되므로, 본 실시예에 따라 동일한 카테코리로 분류된다. As another example, if the third patent document (Patent 3) directly refers to the seventh patent document (Patent 7) and the base patent document (Base Patent) within the period, the third patent document (Patent 3) and the third patent Patent Document (Patent 7) is classified into the same category according to the present embodiment, because indirect citation relationship between each other is established.

이러한 방법을 통해서, 도 6의 경우에서는, 베이스 특허문서(Base Patent)가제 5 특허문서 내지 제 9 특허문서(Patent 5 ~ 9)에 모두 간접 인용관계를 형성하므로, 대표화 문서 내지는 베이스 특허문서가 될 수 있는 것이다. Through this method, in the case of FIG. 6, since the base patent document forms an indirect citation relationship in all of the fifth to ninth patent documents Patents 5 to 9, the representative document or the base patent document is It can be.

그리고, 사용자는 이러한 방법에 의하여 분류되는 특허문서들의 카테고리 단위들에 대해서, 그 내용을 쉽게 파악하기 위하여 분류명을 직접 작성할 수 있다. 예를 들면, 도 11과 같이, 분류된 카테고리의 특허문서들이 '소음저감'이라는 해결과제(또는 해당과제)를 공통으로 하고 있는 경우에, 그 카테고리명을 '소음저감(ex.해당과제1)'로 기입할 수 있다. Then, the user can directly create a classification name for the category units of the patent documents classified by this method in order to easily grasp the contents. For example, as shown in FIG. 11, when the patent documents of the categorized category have a common problem (or a corresponding task) of 'noise reduction', the category name is referred to as' noise reduction (ex. Can be written as'.

이러한 방법들에 의하여 분류되는 카테고리들은 도 11 또는 그래프 또는 도표의 형태로 사용자에게 제공될 수 있으며, 이외에 버블 형태의 그래픽등으로 보여지는 것도 물론가능하다. The categories categorized by these methods may be provided to the user in the form of FIG. 11 or a graph or a diagram, and of course, it is also possible to be shown as a bubble graphic or the like.

그리고, 도 12를 참조하면, 사용자가 분류된 카테고리들에 대해서 그 이름을 해결과제1,2,3과 해결수단 1,2,3등으로 명칭한 경우에, 각각의 해결과제와 해결수단에 대응되는 카테고리들에 대한 표시로서 이미지(410,420)가 표시될 수 있다. 이 경우, 그래프 내에 표시된 이미지는 각 카테고리 내에 포함되는 특허문서들의 개수에 따라 다른 색상 또는 크기로 표현될 수 있으며, 또한 각 카테고리 내에 포함된 특허문서들의 평가치의 합(또는 평균 평가치)의 고저에 따라 다른 색상 또는 다른 크기로 표현될 수도 있다. Referring to FIG. 12, when the user names the categories classified as the tasks 1, 2, 3, and the solutions 1, 2, 3, and the like, the user corresponds to each task and the solution. Images 410 and 420 may be displayed as indications of the categories. In this case, the image displayed in the graph may be expressed in a different color or size depending on the number of patent documents included in each category, and also the sum of the evaluation values (or average evaluation values) of the patent documents included in each category is displayed. It may be expressed in different colors or in different sizes.

사용자에게 제공되는 문서 분류의 결과 또는 문서 군집의 결과로서, 도 11 또는 도 12와 같은 형태의 데이터를 제공하는 경우에, 사용자가 특정의 카테고리(해결수단1,해결수단2, 해결수단3, 해당과제1, 해당과제2, 해당과제3)를 선택하는 경우에는, 앞서 설명한 대표 특허문서(베이스 특허문서) 또는 문서평가 모듈에 의하여 부여된 평가치가 가장 높은 특허문서에 대한 정보를 사용자에게 제공한다. As a result of document classification or document clustering provided to the user, when providing data in the form as shown in FIG. 11 or 12, the user may select a specific category (solution 1, solution 2, solution 3, corresponding In the case of selecting the task 1, the subject 2, and the subject 3), the user is provided with information on the patent document with the highest evaluation value given by the representative patent document (base patent document) described above or the document evaluation module.

이러한 과정에 의하여, 사용자는 검색된 결과의 문서들에 대해서 문서 분류를 수행할 수 있다. 나아가, 간접 인용관계를 이용한 문서 분류를 수행한 다음에는, 분류되지 않았거나 다른 간접 인용관계로 분류되어 있는 특허문서들 - 제 2 그룹에 속하는 것이라 할 수 있음 -을 분류 및 군집화할 수 있다. By this process, the user can perform document classification on the documents of the searched result. Furthermore, after performing document classification using indirect citations, patent documents that are not classified or classified as other indirect citations, which may belong to the second group, may be classified and clustered.

여기서의 문서 군집화 과정은 상기 문서특징 작성모듈(160)에 의한 문서간의 유사도 판단이 이용될 수 있으며, 상기 문서 분류 모듈(150)은 이미 분류된 제 1 그룹의 특허문서들을 중심으로 제 2 그룹의 특허문서들을 분류 및 군집화한다. 그리고, 상기 문서분류 모듈(150)의 문서군집 수단(152)은 제 1 그룹의 제 1 카테고리에 속하는 특허문서(제 1 카테고리의 대표문서가 될 수 있음)와 제 2 그룹의 특허문서간의 유사도를 판단함으로써, 상기 제 2 그룹에 속하는 특허문서를 제 1 그룹의 어느 카테고리로 분류할 지 여부를 결정한다. In the document clustering process, the similarity between documents by the document feature creation module 160 may be used, and the document classification module 150 may include a second group based on patent documents of a first group that are already classified. Classify and cluster patent documents. In addition, the document grouping means 152 of the document classification module 150 may determine the degree of similarity between the patent document belonging to the first category of the first group (which may be a representative document of the first category) and the patent document of the second group. By judging, it is determined to which category of the first group the patent document belonging to the second group is to be classified.

상기 문서군집 수단(152)은 분류된 카테고리 내의 대표 문서를 이용하거나 해당 카테고리에 속하는 복수의 문서들을 이용해서 군집화에 필요한 대표 벡터를 산출하는 대표벡터 산출부(1521)를 포함할 수 있다. The document grouping means 152 may include a representative vector calculator 1521 that calculates a representative vector required for clustering by using a representative document in a classified category or by using a plurality of documents belonging to the category.

그리고, 상기 문서군집 수단(152)은 특허문서를 구성하는 필드별(또는 식별항목별)로 유사한 문서들을 군집하기 위한 필드별 군집화부(1522)를 포함할 수 있다. The document grouping means 152 may include a field-by-field clustering unit 1522 for clustering similar documents by field (or by identification item) constituting the patent document.

상기 대표벡터 산출부(1521)는 이미 형성된 카테고리 내에서의 대표 문서(베이스 특허문서 또는 평가치를 이용함으로써 선출되는 특허문서) 또는 동일 카테고리 내에 속하는 문서들로부터 키워드별 발생빈도에 근거하여 상기 문서특징 작성모듈(160)에 의해 작성된 인덱스 파일을 이용한다. 예를 들어, 상기 대표벡터 산출부(1521)는 각 문서에서 나타나는 키워드들 중에서 높은 빈도수를 갖는 대표 키워드들을 추출할 수 잇으며, 각 문서의 인덱스 파일로부터 발생빈도가 높은 순서로 상위 몇개의 키워드들을 선정할 수 있다. The representative vector calculating unit 1521 creates the document feature based on the occurrence frequency for each keyword from a representative document (a patent document selected by using a base patent document or an evaluation value) in a previously formed category or documents belonging to the same category. Use the index file created by module 160. For example, the representative vector calculator 1521 may extract representative keywords having a high frequency among keywords appearing in each document, and select the top several keywords in the order of high frequency from the index file of each document. Can be selected.

도 8에 도시된 바와 같은 키워드 분포도에 대한 이러한 선정작업에 의하여, 도 9에 도시된 바와 같은 각 문서의 특징 벡터들이 형성될 수 있다. By this selection operation on the keyword distribution chart as shown in FIG. 8, feature vectors of each document as shown in FIG. 9 can be formed.

그리고, 대표벡터 산출부(1521)는 발생빈도가 높은 순서로 선택된 키워드들에 대하여 각 문서에서 차지하는 백분율을 계산할 수 있으며, 예컨대 Documents 1에서 키워드 A는 4.5%, 키워드 B가 2.4%, 키워드 E가 1.9%, 키워드 D가 1.7%로 각 키워드별 발생빈도의 백분율을 계산할 수 있다.In addition, the representative vector calculator 1521 may calculate a percentage of each document with respect to the keywords selected in the order of high frequency. For example, in Documents 1, keyword A is 4.5%, keyword B is 2.4%, and keyword E is The percentage of occurrences for each keyword can be calculated with 1.9% and 1.7% for keyword D.

이러한 과정으로, 해당 카테고리 내의 문서들 또는 대표 문서(이하에서는, '카테고리 문서'라고 함)에 대하여 키워드별 발생빈도의 백분율을 계산한다.In this process, the percentage of occurrence frequency for each keyword is calculated for documents in the corresponding category or representative documents (hereinafter referred to as 'category documents').

도 8 및 도 9를 참조하면, 카테고리 문서들에 대하여 이러한 과정이 수행된 다음에는, 카테고리 문서 전체에 대하여 각 키워드가 차지하는 백분율을 합산하고, 합산된 키워드의 백분율이 높은 순서로 소정 개수의 특정 키워드를 대표 키워드로 선출할 수 있다.8 and 9, after this process is performed on the category documents, a percentage of each keyword is added to the entire category document, and a predetermined number of specific keywords are added in order of increasing percentage of the combined keywords. Can be elected as a representative keyword.

예를 들어, 도 8에 도시된 각각의 키워드들 중에서 10개의 카테고리 문서 전체에서 각 키워드가 차지하는 백분율을 합산한 값이 키워드 B, 키워드 A, 키워드 E, 키워드 D, 키워드 O, 키워드 C, 키워드 K 순서로 높은 값을 갖는 경우에는, 선택된 문서들을 군집화하기 위한 대표 키워드로 키워드 B, 키워드 A, 키워드 E 및 키워드 D를 선택할 수 있다. 그리고, 선택된 대표 키워드를 대표 벡터의 성분으로 하여, 각각의 문서들에 대한 특징 벡터를 산정한다. 즉, 선택된 대표 키워드를 높은 확률분포 순서로 배열하여 이들을 대표 벡터의 성분으로 선정한다. 선택된 키워드 B, 키워드 A, 키워드 E 및 키워드 D를 기준으로 각 문서의 특징 벡터를 작성하는 과정이 수행되는데, 각 문서의 인덱스 파일중에서 상위 4개의 키워드들에 대하여 이러한 과정이 수행된다. 다만, 대표 벡터의 성분을 구성하는 대표 키워드로 4개가 선택되고, 각 문서에서 빈도수가 높은 4개의 키워드를 비교하여 각 문서의 특징벡터를 작성하는 것으로 설명하고 있으나, 이는 예시적인 사항일뿐 시스템의 관리자에 의하여 얼마든지 변경될 수 있다.For example, among the keywords shown in FIG. 8, the sum of the percentages occupied by each keyword in all ten category documents is keyword B, keyword A, keyword E, keyword D, keyword O, keyword C, keyword K. In the case of having a high value in order, keywords B, keywords A, keywords E and keywords D can be selected as representative keywords for clustering the selected documents. Then, a feature vector for each document is calculated using the selected representative keyword as a component of the representative vector. That is, the selected representative keywords are arranged in a high probability distribution order, and these are selected as components of the representative vector. A process of creating a feature vector of each document is performed based on the selected keyword B, keyword A, keyword E, and keyword D. This process is performed for the top four keywords in the index file of each document. However, four keywords are selected as representative keywords constituting the components of the representative vector, and four document keywords with high frequency in each document are compared to create a feature vector of each document. However, this is merely an example. Can be modified by any number.

선택된 대표 키워드가 각 문서에 포함되어 있을 경우에는, 벡터 성분을 '1'로 설정하고, 포함되어 있지 않을 경우에는 '0'으로 설정할 수 있다. When the selected representative keyword is included in each document, the vector component can be set to '1', and when not included, it can be set to '0'.

다만, 이 역시 벡터 성분으로 1과 0 대신에 각 키워드에 대한 가중치를 부여한 값으로 벡터 성분을 작성할 수도 있다.However, this may also be a vector component, and instead of 1 and 0, a vector component may be created with a weighted value for each keyword.

이렇게 작성된 각 문서의 특징 벡터는, 도 9에 도시된 바와 같이, 대표 키워드가 포함된 경우에는 '1', 포함되어 있지 않을 경우에는 '0'으로 하여 각 문서의 특징 벡터가 완성된다.As shown in FIG. 9, the feature vector of each document thus prepared is '1' when the representative keyword is included, and '0' when it is not included, thereby completing the feature vector of each document.

이러한 과정에 의하여, Document 1의 특징 벡터는 (1,1,1,1)이 되고, Document 2의 특징 벡터는 (1,1,0,1)이 된다. 각 특징 벡터의 성분이 1 또는 0으로 작성하였으나, 각 대표 키워드가 차지하는 발생빈도수에 따라 각 벡터 성분을 다른 값으로도 부여할 수 있다.By this process, the feature vector of Document 1 becomes (1,1,1,1) and the feature vector of Document 2 becomes (1,1,0,1). Although the component of each feature vector is set to 1 or 0, each vector component may be given a different value according to the frequency of occurrence of each representative keyword.

복수의 카테고리 문서를 이용하는 경우에, 이러한 각 문서의 특징벡터들을 이용하여 대표 벡터(또는 중심 벡터)를 선정하는 과정이 수행되는데, 여기서는 각 특징 벡터들 중에서 크기가 가장 큰 벡터를 군집화하기 위한 대표 벡터로 선정될 수 있다. In the case of using a plurality of category documents, a process of selecting a representative vector (or a center vector) using the feature vectors of each document is performed. Here, the representative vector for clustering the largest vector among the feature vectors is performed. Can be selected as.

이러한 경우에, 도 9에 도시된 각각의 특징 벡터 중에서 Document 1의 특징 벡터(1,1,1,1)가 대표 벡터로 될 수 있으며, 선정된 대표 벡터를 이용함으로써 미분류된 제 2 그룹의 특허문서들을 군집화시킬 수 있다. In this case, among the respective feature vectors shown in FIG. 9, the feature vector (1,1,1,1) of Document 1 may be a representative vector, and the second group of patents unclassified by using the selected representative vector Documents can be clustered.

카테고리 문서로부터 도출되는 대표 벡터를 이용함으로써, 특정 카테고리와 소정의 유사도를 갖는 특허문서가 제 2 그룹에 포함되어 있는지 여부를 확인할 수 있으며, 이러한 유사도는 전술한 바와 같은 특징 벡터 또는 대표 벡터를 제 2 그룹의 특허문서들에 대해서도 수행함으로써 판단될 수 있다. By using the representative vector derived from the category document, it is possible to check whether the patent document having a predetermined degree of similarity with the specific category is included in the second group, and the similarity is determined by using the feature vector or the representative vector as described above in the second group. It can also be determined by performing the group patent documents.

즉, 제 1 그룹의 소정 카테고리에 속하는 카테고리 문서와 제 2 그룹에 미분류된 문서와의 유사도는 각각의 특징 벡터 또는 대표 벡터에 의한 내적을 이용하여 산출될 수 있으며, 예컨대 카테고리 문서의 대표 벡터와 제 2 그룹의 특허문서에 대한 특징 벡터와의 내적을 통해서 내적된 연산의 값이 기 설정된 범위내에 속하는 경우에는 상기 대표 벡터와 함께 군집화될 수 있다. 즉, 상기 대표 벡터가 속하는 카테고리 내로 분류 및 군집화될 수 있다. That is, the similarity between the category document belonging to the predetermined category of the first group and the document unclassified in the second group may be calculated using the dot product by the respective feature vector or the representative vector. When the value of the operation that is internalized through the dot product with the feature vector for the two groups of patent documents falls within the preset range, the group may be clustered together with the representative vector. That is, they may be classified and clustered within the category to which the representative vector belongs.

그리고, 상기 문서군집 수단(152)은 대표 벡터를 A라 하고, 유사도의 비교대상이 되는 문서의 특징 벡터를 B라고 하였을 때, 벡터A와 벡터B의 내적값을 |A|2으로 나눈 값이 '1'로부터 얼마나 떨어져있는지에 따라 벡터 A에 해당하는 문서와 벡터 B에 해당하는 문서간의 유사도를 판단한다. The document grouping means 152 sets the dot product of the vector A and the vector B when the representative vector is A and the feature vector of the document to be compared with similarity is B. The degree of similarity between the document corresponding to the vector A and the document corresponding to the vector B is determined according to how far the value divided by 2 is from '1'.

그러나, 상기 대표 벡터와의 제 2 그룹 문서의 특징 벡터간의 내적된 연산의 값이 기준값을 벗어나는 경우에는, 상기 대표 벡터와 함께 군집화되지 아니하며, 다른 군집을 위한 문서로 사용된다.However, when the value of the internalized operation between the feature vectors of the second group document with the representative vector deviates from the reference value, it is not clustered together with the representative vector, and is used as a document for another cluster.

카테고리를 대표하는 대표 벡터와 제 2 그룹 문서의 특징 벡터간의 이러한 유사도 산출 및 판정에 따라, 도 7과 같이, 제 2 그룹에 속하는 제 20문서(P20)는 제 1 그룹의 A분류로 군집화될 수 있으며, 제 2 그룹의 제 21문서(P21)는 제 1 그룹의 B분류로 군집화될 수 있다. According to this similarity calculation and determination between the representative vector representing the category and the feature vector of the second group document, as shown in FIG. 7, the 20th document P20 belonging to the second group can be clustered into the A group of the first group. The twenty-first document P21 of the second group may be grouped into the B category of the first group.

다만, 전술한 실시예 외에 문서분류 모듈(150)에 의하여 문서 분류가 수행되면, 그 결과로서 상기 문서분류 모듈(150)은 카테고리를 대표하는 기술분류 코드(IPC 또는 F-term)를 선정할 수 있다. 이 경우, 상기 문서군집 수단(152)에 의한 제 2 그룹 문서들의 분류 및 군집은 전술한 유사도 판단 이외에 기술분류 코드를 이용한다. However, when document classification is performed by the document classification module 150 in addition to the above-described embodiment, as a result, the document classification module 150 may select a technical classification code (IPC or F-term) representing a category. have. In this case, the classification and grouping of the second group documents by the document grouping means 152 use the technical classification code in addition to the above similarity determination.

예를 들면, 상기 문서군집 수단(152)은 간접 인용관계를 이용해서 문서를 분류한 결과인 각각의 카테고리들에 대하여 높은 빈도수를 기록하는 F-term들을 이용해서, 제 2 그룹 문서들이 갖는 F-term과의 유사도를 판단할 수 있다. For example, the document grouping means 152 uses F-terms that record high frequency for each category that is a result of classifying documents using indirect citation, so that the second group documents have F-terms. The similarity with the term can be determined.

F-term의 경우, 해결과제 또는 해결수단에 따라 분류된 것이기에, 문서의 벡터화를 이용한 유사도 판단과 함께 사용된다면, 보다 효과적인 문서 군집화를 수행할 수 있을 것이다. In the case of F-terms, they are classified according to a task or a solution, and if used together with similarity determination using vectorization of documents, more efficient document clustering can be performed.

전술한 바와 같은 본 실시예의 문서 분류 시스템에 의하여 제공되는 문서 분류 결과 또는 문서 군집화의 결과는 시스템의 설정에 따라 내용 저장 및 다른 사용자와의 공유도 가능한 것이며, 이러한 경우에 특히 특허개발을 유도하는 기업 또는 팀에서는 매우 유용할 것이다. As described above, the result of document classification or document clustering provided by the document classification system of the present embodiment can be stored and shared with other users according to the setting of the system. Or it will be very useful to the team.

도 1은 본 실시예에 따른 문서 분류 시스템을 설명하기 위한 도면. 1 is a diagram for explaining a document classification system according to the present embodiment.

도 2는 본 실시예에 따른 문서평가 모듈의 평가팩터 테이블의 일례.2 is an example of an evaluation factor table of the document evaluation module according to the present embodiment.

도 3 및 도 10은 본 실시예에 따른 문서의 검색 및 평가 결과를 도시한 일례. 3 and 10 are examples showing the search and evaluation results of the document according to the present embodiment.

도 4는 본 실시예에 따라 문서의 정보가 보여지는 UI의 일례. 4 is an example of a UI in which information of a document is shown according to the present embodiment.

도 5는 본 실시에에 따른 문서군집 수단의 구성을 보여주는 도면. 5 is a diagram showing the configuration of a document grouping means according to the present embodiment;

도 6은 본 실시예에 따른 간접인용 관계를 설명하기 위한 도면. 6 is a view for explaining the indirect citation relationship according to the present embodiment.

도 7은 본 실시예에 따라 제 2 그룹 문서가 제 1 그룹의 카테고리로 분류 및 군집화되는 것을 설명하기 위한 도면. 7 is a view for explaining that a second group document is classified and grouped into categories of a first group according to the present embodiment;

도 8은 본 실시예에 따른 카테고리 문서 또는 제 2 그룹 문서의 속성 정보를 나타내는 일례. 8 is an example showing attribute information of a category document or a second group document according to the present embodiment.

도 9는 본 실시예에 따른 카테고리 문서 또는 제 2 그룹 문서로부터 산출되는 특징 벡터를 나타내는 일례. 9 is an example showing a feature vector calculated from a category document or a second group document according to the present embodiment.

도 11 및 도 12는 본 실시예에 따른 문서 분류 또는 군집의 결과로서 사용자에게 제공되는 UI의 일례. 11 and 12 are examples of a UI provided to a user as a result of document classification or clustering according to the present embodiment.

Claims (12)

특허문서들이 저장되는 데이터베이스;A database in which patent documents are stored; 상기 특허문서들 간의 간접인용 관계를 독출하고, 독출된 간접인용 관계를 이용하여 제 1 그룹의 특허문서들에 대해서 군집화를 수행하는 문서분류 모듈; 및A document classification module that reads the indirect citation relationship between the patent documents and performs clustering on the first group of patent documents using the read indirect citation relationship; And 상기 문서분류 모듈에 의해 군집화된 결과의 정보를 사용자에게 제공하는 UI출력 수단을 포함하고, A UI output means for providing a user with information of the results clustered by the document classification module, 상기 문서분류 모듈은 상기 제 1 그룹의 특허문서들에 대해서 독출된 간접인용 관계를 이용하여 군집화를 수행하는 문서군집 수단과, 상기 문서군집 수단에 의한 군집화된 결과의 정보를 이용하여 제 2 그룹의 특허문서들에 대해서 분류를 수행하는 문서분류 수단을 포함하는 문서 분류 시스템. The document classification module includes a document grouping means for performing clustering by using the indirect citation relationship read out for the first group of patent documents, and information of the grouping result by the document grouping means. A document classification system comprising document classification means for performing classification on patent documents. 제 1 항에 있어서, The method of claim 1, 상기 문서분류 모듈은 제 1 특허문서가 제 2 특허문서에 인용되고, 상기 제 2 특허문서가 제 3 특허문서에 인용되는 경우에, 상기 제 1 내지 제 3 특허문서를 동일의 군집으로 분류하는 것을 특징으로 하는 문서 분류 시스템. The document classification module classifies the first to third patent documents into the same cluster when the first patent document is cited in the second patent document and the second patent document is cited in the third patent document. Document classification system characterized by. 삭제delete 제 1 항에 있어서, The method of claim 1, 상기 문서군집 수단은 상기 군집화의 결과로서 군집화된 특허문서들중에서 특정의 특허문서를 대표문서로 생성하고, The document clustering means generates a specific patent document as a representative document among the patent documents clustered as a result of the clustering, 상기 문서분류 수단은 상기 제 2 그룹의 특허문서들에 대해서 상기 대표 문서와 소정 범위 이내의 유사도를 갖는 특허문서를 상기 대표 문서가 포함된 군집으로 분류하는 것을 특징으로 하는 문서 분류 시스템. And said document classification means classifies a patent document having similarity within a predetermined range with respect to said representative document with respect to said second group of patent documents into a cluster containing said representative document. 제 1 항에 있어서, The method of claim 1, 상기 문서군집 수단은 상기 군집화의 결과로서 분류명을 생성하고, The document clustering means generates a classification name as a result of the clustering, 상기 UI출력 수단은 상기 분류명을 사용자가 입력할 수 있는 UI를 제공하는 것을 특징으로 하는 문서 분류 시스템. And the UI output means provides a UI through which the user can input the classification name. 제 1 항에 있어서, The method of claim 1, 상기 문서군집 수단은 상기 군집화의 결과로서 F-텀 코드에 대응하는 분류명을 생성하고, The document clustering means generates a classification name corresponding to an F-term code as a result of the clustering, 상기 문서분류 수단은 상기 제 2 그룹에 속하는 특허문서를 상기 F-텀 코드를 공통으로 하는 군집내로 분류하는 것을 특징으로 하는 문서 분류 시스템. And the document classification means classifies a patent document belonging to the second group into a cluster having the F-term code in common. 제 1 항에 있어서, The method of claim 1, 상기 문서군집 수단에 의한 군집화된 결과의 정보는 상기 특허문서를 구성하는 해결과제 또는 해결수단에 대한 내용이 되며, The information of the clustered result by the document clustering means becomes the content of the problem or the solution constituting the patent document, 상기 UI출력 수단은 상기의 해결과제 또는 해결수단에 따라 분류된 특허문서의 정보를 사용자에게 제공하는 것을 특징으로 하는 문서 분류 시스템. The UI output means is a document classification system, characterized in that for providing the user with the information of the patent document classified according to the above-mentioned problem or solution. 제 1 항에 있어서, The method of claim 1, 상기 UI출력 수단은 상기 특허문서의 정보로서, 상기의 해결과제 또는 해결수단을 기준으로 분류된 특허문서의 수를 매트릭스 맵으로 표시하는 것을 특징으로 하는 문서 분류 시스템. And the UI output means displays the number of patent documents classified based on the above-mentioned problem or solution means as information of the patent document in a matrix map. 제 1 항에 있어서, The method of claim 1, 상기 특허문서가 갖는 특성을 이용하여 상기 특허문서에 대한 평가를 수행함으로써, 상기 특허문서에 대한 평가치를 연산하는 문서평가 모듈이 더 포함되고, Further comprising a document evaluation module for calculating the evaluation value for the patent document by performing an evaluation of the patent document using the characteristics of the patent document, 상기 UI출력 수단은 상기 문서분류 모듈에 의한 특허문서의 분류 기준과, 상기 분류 기준에 따라 군집 또는 분류된 특허문서의 정보가 기록된 맵을 사용자에게 제공하는 것을 특징으로 하는 문서 분류 시스템. And the UI output means provides the user with a map in which the classification criteria of the patent document by the document classification module and the information of the patent documents grouped or classified according to the classification criteria are recorded. 제 9 항에 있어서, The method of claim 9, 상기 UI출력 수단은 분류된 특허문서의 정보로서 동일한 군집으로 분류된 특허문서의 수 또는 군집된 특허문서들의 평가치를 제공하는 것을 특징으로 하는 문서 분류 시스템. And the UI output means provides information on the number of patent documents classified in the same cluster or evaluation values of the grouped patent documents as information on the classified patent documents. 제 9 항에 있어서, The method of claim 9, 상기 맵의 특정 분류영역이 사용자에 의하여 선택되는 경우에, When a specific classification area of the map is selected by the user, 상기 UI출력 수단은 선택된 분류영역에 포함되는 군집화된 특허문서의 정보 또는 군집화된 특허문서들의 평가치 또는 군집화된 특허문서중에서 가장 높은 평가치를 갖는 특허문서의 내용을 사용자에게 제공하는 것을 특징으로 하는 문서 분류 시스템. The UI output means may provide the user with the information of the clustered patent document included in the selected classification area, the evaluation value of the clustered patent documents, or the content of the patent document having the highest evaluation value among the clustered patent documents. Classification system. 제 9 항에 있어서, The method of claim 9, 상기 UI출력 수단은 상기 문서평가 모듈의 평가항목에 대한 정보를 사용자에게 제공하고, 사용자에 의하여 상기 평가항목에 대한 정보가 변경되는 경우에 상기 문서분류 모듈은 특허문서의 군집 또는 분류를 재수행하는 것을 특징으로 하는 문서 분류 시스템. The UI output means provides the user with information on the evaluation item of the document evaluation module, and when the information on the evaluation item is changed by the user, the document classification module re-executes the grouping or classification of the patent document. Document classification system characterized by.
KR1020090008031A 2009-02-02 2009-02-02 System for grouping documents KR101078978B1 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020090008031A KR101078978B1 (en) 2009-02-02 2009-02-02 System for grouping documents
JP2011547755A JP5551187B2 (en) 2009-02-02 2009-10-27 Literature analysis system
EP09839326A EP2391955A4 (en) 2009-02-02 2009-10-27 Document analysis system
US13/142,553 US20110270826A1 (en) 2009-02-02 2009-10-27 Document analysis system
PCT/KR2009/006235 WO2010087566A1 (en) 2009-02-02 2009-10-27 Document analysis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090008031A KR101078978B1 (en) 2009-02-02 2009-02-02 System for grouping documents

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020110003290A Division KR101372613B1 (en) 2011-01-12 2011-01-12 System for grouping documents

Publications (2)

Publication Number Publication Date
KR20100088892A KR20100088892A (en) 2010-08-11
KR101078978B1 true KR101078978B1 (en) 2011-11-01

Family

ID=42754920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090008031A KR101078978B1 (en) 2009-02-02 2009-02-02 System for grouping documents

Country Status (1)

Country Link
KR (1) KR101078978B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101362092B1 (en) * 2012-10-25 2014-02-13 한국과학기술정보연구원 Apparatus and methods of classfying documents
KR101598076B1 (en) * 2014-04-15 2016-03-07 (주)광개토연구소 Method of data process for patent evaluation and apparatus of providing data for patent evaluation
KR102268570B1 (en) * 2020-01-15 2021-06-24 현대엔지비 주식회사 Apparatus and method for generating document cluster

Also Published As

Publication number Publication date
KR20100088892A (en) 2010-08-11

Similar Documents

Publication Publication Date Title
JP5551187B2 (en) Literature analysis system
US10565234B1 (en) Ticket classification systems and methods
Chuang et al. Termite: Visualization techniques for assessing textual topic models
US8356045B2 (en) Method to identify common structures in formatted text documents
TWI536181B (en) Language identification in multilingual text
US20150032645A1 (en) Computer-implemented systems and methods of performing contract review
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
CN111373392A (en) Document sorting device
CN105975547B (en) Based on content web document detection method approximate with position feature
JP5349699B1 (en) Document analysis apparatus and program
JP5827206B2 (en) Document management system, document management method, and document management program
JP6025487B2 (en) Forensic analysis system, forensic analysis method, and forensic analysis program
JP7065718B2 (en) Judgment support device and judgment support method
KR101401225B1 (en) System for analyzing documents
KR101078978B1 (en) System for grouping documents
JP6409071B2 (en) Sentence sorting method and calculator
CN113591476A (en) Data label recommendation method based on machine learning
JP2014102625A (en) Information retrieval system, program, and method
JP5269399B2 (en) Structured document retrieval apparatus, method and program
KR101078945B1 (en) System for analyzing documents
JP2006099753A (en) Grouping method of names and keywords, and program, storage medium and device therefor
KR101078966B1 (en) System for analyzing documents
KR101078907B1 (en) System for valuation a document
KR101372613B1 (en) System for grouping documents
KR20110010662A (en) System for analyzing documents

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140924

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150924

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160923

Year of fee payment: 6