KR100809751B1 - 문서분석 시스템 및 그 방법 - Google Patents

문서분석 시스템 및 그 방법 Download PDF

Info

Publication number
KR100809751B1
KR100809751B1 KR1020060033661A KR20060033661A KR100809751B1 KR 100809751 B1 KR100809751 B1 KR 100809751B1 KR 1020060033661 A KR1020060033661 A KR 1020060033661A KR 20060033661 A KR20060033661 A KR 20060033661A KR 100809751 B1 KR100809751 B1 KR 100809751B1
Authority
KR
South Korea
Prior art keywords
document
documents
specific field
similarity
database
Prior art date
Application number
KR1020060033661A
Other languages
English (en)
Other versions
KR20070102036A (ko
Inventor
차완규
안한준
김정중
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020060033661A priority Critical patent/KR100809751B1/ko
Priority to US11/621,817 priority patent/US8046363B2/en
Priority to CN2007100854581A priority patent/CN101055585B/zh
Publication of KR20070102036A publication Critical patent/KR20070102036A/ko
Application granted granted Critical
Publication of KR100809751B1 publication Critical patent/KR100809751B1/ko

Links

Images

Abstract

본 발명의 실시예에 따른 문서분석 시스템은 사용자가 검색어를 입력하기 위한 입력수단이 포함되는 클라이언트; 문서가 저장된 데이터베이스에 접속하여 입력된 검색어가 포함되는 문서를 검색하기 위한 검색수단; 상기 검색된 문서의 유사도를 도출하기 위한 분석수단; 상기 검색된 문서의 유사도를 기반으로 문서들간의 가상의 중심을 연산하기 위한 연산수단; 상기 가상의 중심을 참조하여 소정의 유사범위 이내에 속하는 문서를 군집화하기 위한 군집수단; 및 상기 군집수단에 의해 군집화된 문서들이 특정필드에 따라 분류되도록 하기 위한 분류수단;이 포함된다.
제안되는 바와 같은 문서분석 시스템에 의해서, 문서에 포함된 특정의 필드 단위로 문서들이 군집/분류되어 문서분석이 용이해지는 장점이 있다.
또한, 특정필드 별로 유사한 문서들이 분류되어 군집되도록 함으로써, 데이터베이스에 저장된 문서의 저장 및 관리 효율이 증가될 수 있는 장점이 있다.
문서분석 시스템, 특정필드

Description

문서분석 시스템 및 그 방법{System and method for making analysis of document}
도 1은 본 발명의 실시예에 따른 문서분석 시스템을 설명하기 위한 블록도.
도 2는 본 발명의 실시예에 따라 문서의 특성이 벡터화되는 모습을 설명하기 위한 도면.
도 3 및 도 4는 본 발명의 실시예에 따라 문서의 군집 및 분석이 수행되는 과정을 설명하기 위한 도면.
도 5는 본 발명의 실시에에 따른 문서분석 방법을 설명하기 위한 흐름도.
본 발명은 데이터베이스에 저장된 특허문서를 분석하기 위한 방법에 대한 것으로서, 상세하게는, 상기 데이터베이스에 저장된 특허문서들을 종래기술의 문제점과 해결수단을 각각 분리하여 데이터베이스화 하고, 유사한 문제점들을 구성하는 특허문서들끼리 또는 유사한 해결수단을 구성하는 특허문서들끼리 군집화하여 문서를 분석하기 위한 방법 및 그 시스템에 대한 것이다.
인터넷을 통한 정보 교류가 보편화되면서 정보의 급격한 증가를 가져왔으나, 상대적으로 사용자가 원하는 가장 적절한 정보의 검색이 어려워짐은 물론이고, 필요한 문서의 저장/관리에 많은 수고가 따르게 되었다.
그리고, 소정의 웹 서버를 이용하여 검색되는 문서를 저장하고, 이를 군집화하기 위한 다양한 방법들이 제시되고 있으나, 이들의 군집에 있어서는 소정의 분류수단에 의해 분류된 문서들을 구분하여 저장하는 것으로 그 작업이 완료되는 것이 일반적이다.
따라서, 구조화된 군집들을 사용자가 편집하는 것을 어려운 작업이며, 군집 조건에 해당되는 문서가 새롭게 발생된 경우에는 상기 군집에 이를 업데이트하는 것이 불가능하였다.
본 발명은 상기되는 문제점을 해결하기 위하여 제안되는 것으로서, 문서에 포함된 특정의 필드 단위로 문서들이 군집/분류되도록 하는 문서분석 시스템 및 그 방법을 제안하는 것을 목적으로 한다.
또한, 특정필드 별로 유사한 문서들이 분류되어 군집되도록 함으로써, 데이터베이스에 저장된 문서의 저장 및 관리 효율이 증가될 수 있는 문서분석 시스템 및 그 방법을 제안하는 것을 목적으로 한다.
상기되는 목적을 달성하기 위한 본 발명의 실시예에 따른 문서분석 시스템은 사용자가 검색어를 입력하기 위한 입력수단이 포함되는 클라이언트; 문서가 저장된 데이터베이스에 접속하여 입력된 검색어가 포함되는 문서를 검색하기 위한 검색수 단; 상기 검색된 문서의 유사도를 도출하기 위한 분석수단; 상기 검색된 문서의 유사도를 기반으로 문서들간의 가상의 중심을 연산하기 위한 연산수단; 상기 가상의 중심을 참조하여 소정의 유사범위 이내에 속하는 문서를 군집화하기 위한 군집수단; 및 상기 군집수단에 의해 군집화된 문서들이 특정필드에 따라 분류되도록 하기 위한 분류수단;이 포함된다.
다른 측면에 따른 본 발명의 문서분석 방법은 데이터베이스에 저장된 문서로부터 특성이 추출되는 단계; 상기의 추출된 특성을 기반으로 하여 문서간의 유사도가 도출되는 단계; 상기 문서의 유사도를 기반으로 문서들간의 가상의 중심이 연산되는 단계; 및 상기의 가상을 중심으로 기준으로 소정의 유사범위 이내에 속하는 문서를 상기 데이터베이스의 군집저장수단에 군집화시키는 단계; 및 상기 군집화된 문서들이 특정필드 단위별로 분류체계화되는 단계;가 포함된다.
제안되는 바와 같은 문서분석 시스템 및 그 방법에 의해서, 문서에 포함된 특정의 필드 단위로 문서들이 군집/분류되어 문서분석이 용이해지는 장점이 있다.
또한, 특정필드 별로 유사한 문서들이 분류되어 군집되도록 함으로써, 데이터베이스에 저장된 문서의 저장 및 관리 효율이 증가될 수 있는 장점이 있다.
이하에서는 본 발명의 바람직한 실시예를 첨부되는 도면을 참조하여 상세하게 설명한다. 다만, 본 발명의 사상이 제시되는 실시예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성 요소의 부가, 변경, 삭제, 추가등에 의해서 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상의 범위 내에 든다고 할 것이다.
도 1은 본 발명의 실시예에 따른 문서분석 시스템을 설명하기 위한 블록도이고, 도 2는 본 발명의 실시예에 따라 문서의 특성이 벡터화되는 모습을 설명하기 위한 도면이고, 도 3 및 도 4는 본 발명의 실시예에 따라 문서의 군집 및 분석이 수행되는 과정을 설명하기 위한 도면이다.
도 1 내지 도 4를 참조하면, 본 발명에 따른 문서분석 시스템에는 요청된 검색어가 포함된 문서를 검색하여 표시하거나 문서를 구성하는 필드별로 유사한 문서들이 군집화되어 소정 필드단위로 분류되도록 하는 문서분석 서버(20)와, 상기 문서분석 서버(20)와 네트워크 연결되는 다수의 클라이언트(10)로 이루어진다.
상세히, 상기 클라이언트(10)에는 사용자가 상기 문서분석 서버(20)로 소정의 검색어를 전송하기 위한 입력수단과, 상기 문서분석 서버(20)로부터 전송되는 문서의 정보 및 군집화된 결과가 표시되는 출력수단이 포함된다.
그리고, 상기 클라이언트(10)의 입력수단은 사용자가 소정의 검색어를 입력하기 위한 사용자 인터페이스가 될 수 있으며, 검색어는 키워드가 될 수 있는 단어나 문장 단위 단위로 입력되는 것이 가능하다. 문장 단위로 검색어가 입력되는 경우에는 상기 문서분석 서버(20)에 구비된 검색 수단에 의해 입력된 문장으로부터 키워드가 추출될 수 있다.
그리고, 상기 입력수단을 통해 사용자가 입력할 수 있는 검색어는 키워드가 될 수 있는 단어이거나 문장이 될 수 있으며, 사용자는 상기 입력수단을 통해 텍스트 형태의 파일을 첨부하는 것이 가능하고, 이 경우 상기 문서분석 서버(20)는 상기 입력수단에 의해 첨부된 문서의 컨텐츠 정보로부터 텍스트 정보들을 추출할 수 있다.
그리고, 상기 입력수단을 통해 특정필드(후술함)의 명칭 또는 특정필드의 문장을 입력하는 것이 가능하고, 이 경우 상기 문서분석 서버(20)는 데이터베이스에 저장된 문서들 각각에 대하여 특정필드를 중심으로 검색하여 분석하는 역할을 수행한다.
그리고, 상기 문서분석 서버(20)와 연결되는 상기 클라이언트(10)는 IP 네트워크를 통하여 다수가 연결될 수 있으며, 도시된 도면에는 상기 문서분석 서버(20)와 클라이언트(10)가 별도로 구성된 것으로 도시되어 있으나, 상기 클라이인터(10)의 입력수단 및 출력수단이 상기 문서분석 서버(20) 내부에 형성되는 구성도 가능하다.
또한, 상기 문서분석 서버(20)에는 다수의 문서가 저장되는 데이터베이스(210)와, 상기 클라이언트(10)로부터 요청되는 검색어에 대응되는 문서를 상기 데이터베이스(210) 또는 다른 웹 서버로부터 검색하기 위한 검색수단(220)과, 검색된 문서간의 유사도를 도출하기 위한 분석수단(230)과, 상기 분석수단(230)에 의해 도출된 문서간의 유사도를 기반으로 문서들간의 가상의 중심을 연산하는 연산수단(240)과, 상기 문서들간의 가상의 중심을 기준으로 소정의 유사범위 이내에 속하는 문서를 군집화하는 군집수단(250)과, 상기 군집수단(250)과 연결되어 군집화된 문서를 특정의 필드별로 분류하기 위한 분류수단(260)이 포함된다.
보다 상세히, 상기 데이터베이스(210)에는 다수의 문서가 저장되고, 상기 문서는 특허문서, 실용신안등록문서 또는 논문등이 될 수 있으며, 상기 데이터베이 스(210)는 소정의 네트워크 인터페이스를 통해 다수의 문서를 제공할 수 있는 웹 서버(미도시)에 접속될 수 있으며, 접속된 웹 서버로부터 제공되는 문서가 상기 데이터베이스(210)에 저장될 수 있다.
예컨대, 상기 검색수단(220)은 한국 특허청, 미국 특허청 또는 세계지적재산기구(WIPO)의 데이터베이스에 접속하여 하이퍼텍스트 전송프로토콜 형태의 특허문서들을 다운로드 받을 수 있으며, 이들 문서는 상기 데이터베이스(210)에 저장될 수 있다.
그리고, 상기 검색수단(220)은 상기 클라이언트(10)의 입력수단을 통해 입력되는 검색어를 이용하여, 상기 데이터베이스(210) 또는 네트워크 접속된 소정의 웹 서버로부터 문서를 검색하기 위한 역할을 수행하며, 상기 입력된 검색어가 포함된 문서를 검색하거나 상기 입력된 검색어와 관련되는 키워드가 포함된 문서를 검색할 수 있다.
그리고, 상기 검색수단(220)에 의해 검색되는 문서는 소정의 서지정보로 상기 클라이언트(10)에 제공되고, 이를 통해 사용자가 검색된 문서의 정보를 확인하거나 특정필드를 중심으로 문서들을 군집화하여 분류시키기 위한 요청을 수행할 수 있다.
상기 분석수단(230)은 상기 클라이언트(10)의 출력수단으로 제공되는 문서검색의 결과 즉, 상기 검색수단(220)에 의해 검색된 문서들로부터 문서의 특성을 도출하여 이를 벡터화한다. 그리고, 도출된 특성을 기반으로 하여 문서간의 유사도를 판단한다.
상기 분석수단(230)에 의해 도출된 문서의 특징으로 이루어진 벡터는 문서의 특징을 나타내는 단어와 상기 단어의 가중치를 그룹의 구성요소로 하고, 상기 벡터를 구성하는 요소의 개수는 문서에 따라 다르게 형성될 수 있다.
도 2에 도시된 바와 같이, 상기 클라이언트(10)에 입력된 검색어가 포함되는 문서들에 대하여, 문서 1에서는 첫번째 특성이 19번, 두번째 특성이 35번, 마지막 특성이 15번의 빈도로 포함된다.
같은 방법은 분석대상이 되는 문서들에 대해 특성으로 구성되는 벡터가 형성될 수 있다. 그리고, 상기 분석수단(230)은 도출된 벡터를 바탕으로 문서간의 유사도를 판단할 수 있다.
상기 분석수단(230)에 의한 문서 특징의 벡터화는 벡터공간 모델에서 수행되어, 텍스트와 카테고리를 색인어의 가중치 벡터로 표현하고, 그 사이의 유사도를 양쪽 벡터의 코사인등에 의해 계산될 수 있다. 문서로부터 도출된 특성 예컨대, 가중치가 부여된 키워드에 대해서는 상기 키워드를 식별하기 위한 번호가 부여될 수 있으며, 이 경우 상기 키워드에 부여된 번호를 이용하여 상기 연산수단(240)은 문서들간의 가상의 중심을 연산할 수 있다.
그리고, 상기 분석수단(230)은 상기 데이터베이스(210)에 저장된 텍스트 형태의 문서는 구조화되어 있지 않은 경우가 일반적이므로, 소정의 텍스트 마이닝 엔진에 의한 구조화된 자료로 변환하기 위한 역할도 수행한다.
그리고, 상기 분석수단(230)은 상기 데이터베이스(210)로 제공되는 신규의 문서에 대해서도 추출되는 키워드를 중심으로 한 벡터를 형성할 수 있으며, 형성된 벡터를 기반으로 상기 데이터베이스(210)에 저장된 문서와의 유사도를 판단할 수 있따. 그리고, 상기 분석수단(230)은 상기 특정필드를 검색식으로 하여 신규의 문서에 대한 유사도를 도출할 수 있다.
또한, 상기 연산수단(240)은 상기 분석수단(230)에 의해 형성되는 문서들 각각의 벡터로부터 가상의 중심을 연산하는 역할을 수행하여, 상기 연산수단(240)에 의해 형성되는 가상의 중심은 소정의 유사범위 이내에 속하게 되는 벡터들을 이용하여 추론되며, 문서들간의 유사도가 다소 낮은 경우에는 가상의 중심이 넓은 영역에 걸쳐서 형성될 수도 있다.
그리고, 상기 연산수단(240)에 의해 형성되는 가상의 중심은 각각의 문서로부터 도출된 특성 및 상기 특성에 부여된 번호를 참조할 수 있다.
또한, 상기 분석수단(230)에 의한 문서간의 유사도 판단과 상기 연산수단(240)에 의한 문서들간의 연산되는 가상의 중심은 상기 문서를 구성하는 특정필드를 중심으로 수행될 수 있다.
그리고, 상기의 특정필드는 사용자가 정보 소스인 데이터베이스(210) 내의 데이터를 분류하고자 하는 필드를 의하는 것으로서, 예컨대, 상기 문서가 특허문서인 경우에 요약서, 발명이 속하는 기술분야 및 그 분야의 종래기술, 발명이 이루고자 하는 기술적 과제, 발명의 구성, 발명의 효과 또는 특허청구범위가 될 수 있다.
이 경우, 상기 분석수단(230) 및 연산수단(240)은 상기 데이터베이스(210)에 저장된 문서들 중에서 '발명이 속하는 기술분야 및 그 분야의 종래기술'로부터 추출되는 특성이 유사한 문서들을 검색하거나 문서간의 유사도를 도출할 수 있다.
상기 군집수단(250)은 상기 가상의 중심을 기준으로 소정의 유사범위 이내에 속하는 문서들을 군집화하는 역할을 수행하고, 상기 데이터베이스(210)에는 상기 군집수단(250)에 의해 군집화된 문서들이 별도로 저장되기 위한 군집저장수단이 구비될 수 있다.
그리고, 상기 군집수단(250)은 사용자가 입력된 검색어가 포함된 문서 또는 상기의 군집저장수단에 저장된 문서들을 문서간의 유사도를 기준으로 군집화시키거나 기 설정된 분류코드에 따라 군집화할 수 있다.
이 경우, 기술분야별로 대표화된 키워드들이 테이블 형태로 저장된 분류코드가 기설정되며, 상기 군집수단(250)은 상기 분류코드를 참조하여 소정의 유사도를 갖는 문서들끼리 군집화시킬 수 있다.
그리고, 사용자는 상기 군집수단(250)에 의해 형성되는 군집의 조건을 설정할 수 있으며, 사용자가 군집의 개수를 3개로 설정한 경우에 상기 연산수단(240)은 문서들의 벡터들로부터 추출되는 가상의 중심이 3개가 생성되도록 벡터들간의 유사도를 조절할 수 있다. 그리고, 상기 연산수단(240)에 의해 생성된 가상의 중심을 기반으로 상기 군집수단(250)은 문서들을 군집시킬 수 있다.
상기 분류수단(260)은 상기 군집수단(250)에 의해 군집화된 문서들을 특정필드를 기준으로 분류하는 역할을 수행하며, 상기 군집수단(250)에 의해 군집화된 문서들이 특정필드가 유사한 문서들끼리 재분류될 수 있는 것이다.
그리고, 상기 분류수단(260)은 특정필드별 소정의 유사도를 가지는 문서들을 분류하며, 문서가 특허문서인 경우에 식별항목 중 '발명이 이루고자 하는 기술적 과제'로부터 추출되는 특성을 기준으로 유사한 문서들로 분류할 수 있다.
그리고, 각각의 문서에 대하여 특허문서의 식별항목 중 '발명이 속하는 기술분야 및 그 분야의 종래기술'로부터 추출되는 특성이 유사한 문서들끼리 군집화되도록 분류할 수도 있다.
그리고, 상기 분류수단(260)에 의해 분류된 문서들은 사용자의 요청에 따라 분류의 기준이 된 특정필드 단위가 검색의 결과로 표시될 수 있다.
즉, 사용자는 특정필드에 대한 검색을 요청할 수 있으며, 사용자가 '발명이 이루고자 하는 기술적 과제'에 대한 키워드로서 검색어를 입력한 경우에 상기 키워드가 '발명이 이루고자 하는 기술적 과제'에 포함된 문서들이 검색되어 표시된다.
그리고, 입력된 검색어가 '발명이 이루고자 하는 기술적 과제'의 식별항목에 포함된 문서들이 출력되는 경우에 있어서도, 상기의 '발명이 이루고자 하는 기술적 과제'에 대응될 수 있는 '발명이 속하는 기술분야 및 그 분야의 종래기술'에 기재된 내용이 문서마다 표시될 수 있다.
따라서, 사용자가 검색된 문서들을 각각 검토하여 본 후에 유사한 기술적 과제들을 갖는 특허문서들을 개별적으로 분류해야 하는 수고가 덜게 된다.
한편 상기와 같은 실시예 외에, 상기 문서의 특정필드만을 추출하고, 추출된 특정필드를 중심으로 문서를 분석하기 위한 시스템도 가능하다.
그리고, 특정필드는, 앞서 설명한 바와 같이, 특허문서를 구성하는 식별항목 즉, 요약서, 발명이 속하는 기술분야 및 그 분야의 종래기술, 발명이 이루고자 하 는 기술적 과제, 발명의 구성, 발명의 효과 및 특허청구범위등이 될 수 있다.
이 경우, 상기 분류수단(260)은 상기 데이터베이스(210)에 저장된 문서들로부터 각각의 특정필드를 도출하여 상기 데이터베이스(210)의 소정 공간에 특정필드들만을 저장할 수 있다.
즉, 상기 문서가 특허문서인 경우에, 상기 분류수단(260)은 특허문서에서의 '발명이 이루고자 하는 기술적 과제'에 기재된 텍스트 정보들을 추출하여 상기 데이터베이스(210)에 구분저장시킬 수 있다. 그리고, 도출된 특정필드들에 대한 구분표시로서, 특정필드의 저장과 함께 해당 특허출원번호를 함께 저장할 수 있다.
그리고, 상기 클라이언트(10)로부터 요청되는 검색어에 대해서, 상기 검색수단(220)은 저장된 특정필드들중에서 요청된 검색어가 포함되는 특정필드를 검색할 수 있다. 이때, 상기 클라이언트(10)로 제공되는 검색결과는 입력된 검색어가 포함되는 특정필드들이 될 수 있다.
검색어가 포함된 특정필드들이 검색결과로 상기 클라이언트(10)에 제공된 경우에 사용자는 검색결과를 특정필드별로 군집화시킬 수 있으며, 이를 위해 상기 분석수단(230)은 검색된 특정필드의 특성을 추출하여 특정필드별로 유사도를 도출할 수 있다.
상기 분석수단(230)에 의해 추출되는 특정필드의 특성은 앞선 실시예에서 설명한 바와 같이 문서의 유사도를 판단하기 위해 사용되는 키워드가 될 수 있다. 그리고, 특정필드에 포함된 키워드들이 추출된 다음에는 키워드를 구성요소로 하여 특정필드의 벡터화 모델작업이 수행될 수 있다.
문서의 벡터화는 소정의 수학식에 의해서 수행될 수 있으며, 일반적으로 알려진 벡터 모델링에 의하는 것도 가능하다.
그리고, 상기 군집수단(250)은 상기 분석수단(230)에 의해 도출된 특정필드별 유사도에 따라 상기 검색된 특정필드들을 군집화하기 위한 역할을 수행하며, 소정의 유사범위 이내에 속하는 특정필드들이 군집화될 수 있다.
상기 군집수단(250)에 의한 특정필드들의 군집화는 상기 연산수단(240)에 의해 연산된 문서들간의 가상의 중심을 참조하여 수행될 수도 있다. 그리고, 상기 연산수단(240)은 특정필드별 유사도를 기반으로 상기 특정필드간의 가상의 중심을 연산할 수 있으며, 이 경우 상기 군집수단(250)에 의한 특정필드들의 군집화는 상기 특정필드간의 가상의 중심을 참조하여 수행된다.
도 3에 도시된 바와 같이, 사용자는 소정의 검색어에 대하여 검색된 결과 리스트(320)의 문서들을 특정필드별로 유사한 문서들을 군집화 및 분류화 시킬 수 있으며, 상기 클라이언트(10)에는 군집의 종류를 선택하기 위한 군집 구분부(310)가 제공된다.
그리고, 상기 군집 구분부(310)에는 검색된 특허문서들을 '발명이 속하는 기술분야 및 그 분야의 종래기술'에 기재된 사항이 유사한 문서들끼리 군집화시키기 위한 S-P군집(311)과, '발명이 이루고자 하는 기술적 과제'가 유사한 문서들끼리 군집화시키기 위한 P-S군집(312)이 포함된다.
그리고, 상기와 같은 군집 외에, 상기 데이터베이스(210)로부터 검색된 문서 들을 '발명의 효과'가 유사한 문서들끼리 군집화되도록 하거나 '특허청구범위'에 기재된 사항이 유사한 문서들끼리 군집화되도록 구성하는 것 역시 가능하다.
상기 데이터베이스(210)에 저장된 문서들이 소정의 유사도를 갖는 문서들끼리 군집화되고, 군집화된 문서들이 특정필드를 기준으로 분류된 결과 역시 사용자가 확인가능하며, 도 4에 도시된 바와 같이 상기 클라이언트(10)에 표시될 수 있다.
상기 클라이언트(10)에는 사용자가 입력한 검색어에 대한 검색결과의 문서들이 표시되고, 사용자는 군집 설정부(340)를 통하여 검색된 결과의 문서들을 군집화하기 위한 조건을 설정할 수 있다.
그리고, 사용자는 상기 군집 설정부(340)의 입력을 통해 군집의 개수와 군집당 문서의 개수를 선택할 수 있으며, 군집실행시 군집의 결과(330)가 상위 폴더와 하위 폴더로 구분되어 표시될 수 있다.
도 5는 본 발명의 실시에에 따른 문서분석 방법을 설명하기 위한 흐름도이다.
먼저, 사용자는 상기 클라이언트(10)의 입력수단을 통해 소정의 검색어를 입력하고, 입력된 검색어가 포함되거나 상기 검색어와 유사한 키워드가 포함되는 문서들이 상기 데이터베이스(210)로부터 검색되어 사용자에게 제공된다.
그리고, 사용자는 검색된 결과의 문서들을 선택할 수 있으며, 사용자에 의해 선택된 문서에 대하여 특정필드를 기준으로 한 군집화 요청이 상기 문서분석 서버(20)로 전송된다(S101).
그리고, 특정필드를 기준으로 한 군집화 요청시 상기 분석수단(230)에 의해 사용자에 의해 선택된 문서들로부터 특성이 추출되고, 추출된 특성을 기반으로 하여 해당 문서를 대표하기 위한 벡터가 형성된다. 그리고, 형성된 벡터를 기준으로 하여 문서간의 유사도가 판단된다(S103).
그리고, 상기 연산수단(240)에 의해 검색된 문서들간의 가상의 중심이 추출되고(S105), 문서들간의 유사도를 참조하여 소정의 유사범위를 갖는 문서들이 군집화된다(S107).
그 다음, 사용자에 의해 선택된 특정필드를 기준으로 상기 군집화된 문서들의 분류체계화가 수행되고(S109), 이 경우 문서들을 특정필드별로 분류하기 위한 분류수단(260)은 검색결과의 문서가 특허문서인 경우에 식별항목중에서 '발명이 속하는 기술분야 및 그 분야의 종래기술'에 기재된 텍스트가 유사한 문서들끼리 분류되도록 하거나 '발명이 이루고자 하는 기술적 과제'에 기재된 텍스타가 유사한 문서들끼리 분류되도록 한다.
전술한 바와 같은 본 발명의 실시예에 의해서, 사용자에 의해 검색된 결과의 문서들이 특정필드가 유사한 문서들끼리 군집/분류되도록 함으로써, 사용자가 각각의 문서를 검토하여 분류하여야 하는 불편함이 제거될 수 있다.
제안되는 바와 같은 문서분석 시스템 및 그 방법에 의해서, 문서에 포함된 특정의 필드 단위로 문서들이 군집/분류되어 문서분석이 용이해지는 장점이 있다.
또한, 특정필드 별로 유사한 문서들이 분류되어 군집되도록 함으로써, 데이 터베이스에 저장된 문서의 저장 및 관리 효율이 증가될 수 있는 장점이 있다.

Claims (15)

  1. 사용자가 검색어를 입력하기 위한 입력수단이 포함되는 클라이언트;
    복수의 필드들로 구성된 문서가 저장되는 데이터베이스에 접속하여 입력된 검색어가 포함되는 문서를 검색하기 위한 검색수단;
    상기 검색된 문서들의 텍스트와 카테고리를 색인어의 가중치 벡터로 표현하여, 벡터공간 모델에서 상기 검색된 문서들간의 유사도를 도출하기 위한 분석수단;
    상기 검색된 문서들을 표현하는 벡터들을 이용하여, 기설정된 유사범위 이내에 속하는 되는 벡터들로부터 추론되는 가상의 중심을 연산하기 위한 연산수단;
    상기 가상의 중심을 참조하여 소정의 유사범위 이내에 속하는 문서를 군집화하기 위한 군집수단; 및
    상기 군집수단에 의해 군집화된 문서들이 특정필드별로 분류되도록 하기 위한 분류수단;이 포함되고,
    상기 분석수단에 의한 문서들간의 유사도 판단은 상기 문서를 구성하는 특정 필드에 대하여 수행되고, 상기 연산수단에 의한 기설정된 유사범위 이내에 속하는 벡터들의 판단은 상기 문서를 구성하는 특정 필드에 대해서 수행되는 것을 특징으로 하는 문서분석 시스템.
  2. 제 1 항에 있어서,
    상기 문서는 특허문서이고,
    상기 특정필드는 상기 특허문서의 데이터 필드를 구성하는 발명이 속하는 기술분야 및 그 분야의 종래기술이거나 발명이 이루고자 하는 기술적 과제인 것을 특징으로 하는 문서분석 시스템.
  3. 제 1 항에 있어서,
    상기 군집수단은 상기 문서를 유사도 및/또는 기설정된 분류코드에 따라 분류하여 군집화시키는 것을 특징으로 하는 문서분석 시스템.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 클라이언트로 제공되는 문서의 내용은 상기 특정필드 별로 구분되어 표시되는 것을 특징으로 하는 문서분석 시스템.
  5. 제 1 항에 있어서,
    상기 데이터베이스에는 소정의 웹 서버 또는 기록매체로부터 제공되는 문서의 저장이 가능하고,
    상기 데이터베이스로 신규의 문서가 제공되는 경우에, 상기 분석수단은 상기 특정필드를 검색식으로 하여 새로운 특허문서의 유사도가 도출되는 것을 특징으로 하는 특허분석을 위한 문서분석 시스템.
  6. 제 1 항에 있어서,
    상기 입력수단에 의해 입력되는 검색어는 키워드, 특정필드의 명칭, 특정필드의 문장 및 문서 중 어느 하나인 것을 특징으로 하는 문서분석 시스템.
  7. 제 6 항에 있어서,
    사용자에 의해 상기 특정필드에 대한 검색어가 입력되는 경우에, 상기 검색 수단은 상기 군집저장수단에 저장된 특허문서를 검색하는 것을 특징으로 하는 특허분석을 위한 문서분석 시스템.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 데이터베이스에 저장된 문서로부터 특성이 추출되는 단계;
    상기의 추출된 특성을 벡터화하여, 벡터공간 모델에서 상기의 벡터화된 특성들을 연산하여 문서간의 유사도가 도출되는 단계;
    상기 문서들을 표현하는 벡터들을 이용하여, 기설정된 유사범위 이내에 속하는 되는 벡터들로부터 추론되는 가상의 중심이 연산되는 단계;
    상기 가상의 중심을 참조하여 소정의 유사범위 이내에 속하는 문서를 상기 데이터베이스의 군집저장수단에 군집화시키는 단계; 및
    상기 군집화된 문서들이 특정필드 단위별로 분류체계화되는 단계;가 포함되고,
    상기 문서는 복수의 필드들로 이루어진 텍스트 기반의 문서이고, 상기의 각 단계는 상기 문서를 구성하는 필드들중에서 특정필드에 대해서 수행가능한 것을 특징으로 하는 문서분석 방법.
  13. 제 12 항에 있어서,
    상기 군집화시키는 단계는 상기 군집저장수단에 저장된 문서를 유사도 또는 기설정된 분류코드에 따라 분류체계화하는 것을 특징으로 하는 문서분석 방법.
  14. 제 12 항에 있어서,
    상기 특정필드는 상기 문서의 식별항목이 될 수 있는 발명이 속하는 기술분야 및 그 분야의 종래기술이거나 발명이 이루고자 하는 과제인 것을 특징으로 하는 문서분석 방법.
  15. 제 12 항에 있어서,
    사용자에 의해 상기 특정필드에 대한 검색어가 입력되는 경우에, 상기 검색어에 대한 문서의 검색결과는 상기 특정필드 별로 구분하여 사용자에게 제공되는 것을 특징으로 하는 문서분석 방법.
KR1020060033661A 2006-04-13 2006-04-13 문서분석 시스템 및 그 방법 KR100809751B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020060033661A KR100809751B1 (ko) 2006-04-13 2006-04-13 문서분석 시스템 및 그 방법
US11/621,817 US8046363B2 (en) 2006-04-13 2007-01-10 System and method for clustering documents
CN2007100854581A CN101055585B (zh) 2006-04-13 2007-03-05 文档聚类系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060033661A KR100809751B1 (ko) 2006-04-13 2006-04-13 문서분석 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20070102036A KR20070102036A (ko) 2007-10-18
KR100809751B1 true KR100809751B1 (ko) 2008-03-04

Family

ID=38817109

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060033661A KR100809751B1 (ko) 2006-04-13 2006-04-13 문서분석 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100809751B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101118057B1 (ko) * 2009-12-15 2012-02-24 한국발명진흥회 특허 자동 평가 시스템 및 상기 시스템에서의 평가 요소 정보 처리 방법
KR101053968B1 (ko) * 2009-12-15 2011-08-04 한국발명진흥회 특허 자동 평가 시스템의 특허 자동 평가 방법
KR101985961B1 (ko) * 2018-03-23 2019-06-05 대한민국 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221429A (ja) * 1995-02-16 1996-08-30 Canon Inc 文書自動分類装置
JPH09128402A (ja) * 1995-10-30 1997-05-16 Fuji Xerox Co Ltd 文書類似度計算装置および文書分類装置
JPH1185796A (ja) * 1997-09-01 1999-03-30 Canon Inc 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
KR19990048712A (ko) * 1997-12-10 1999-07-05 윤종용 인터넷 정보검색시 지도형 분류 검색방법
KR20000054268A (ko) * 2000-05-30 2000-09-05 전상훈 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
JP2003248690A (ja) * 2003-02-13 2003-09-05 Fuji Xerox Co Ltd 文書処理装置および方法
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR20060016933A (ko) * 2004-08-19 2006-02-23 함정우 문서분류장치 및 문서분류방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221429A (ja) * 1995-02-16 1996-08-30 Canon Inc 文書自動分類装置
JPH09128402A (ja) * 1995-10-30 1997-05-16 Fuji Xerox Co Ltd 文書類似度計算装置および文書分類装置
JPH1185796A (ja) * 1997-09-01 1999-03-30 Canon Inc 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
KR19990048712A (ko) * 1997-12-10 1999-07-05 윤종용 인터넷 정보검색시 지도형 분류 검색방법
KR20000054268A (ko) * 2000-05-30 2000-09-05 전상훈 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
JP2003248690A (ja) * 2003-02-13 2003-09-05 Fuji Xerox Co Ltd 文書処理装置および方法
KR20060016933A (ko) * 2004-08-19 2006-02-23 함정우 문서분류장치 및 문서분류방법

Also Published As

Publication number Publication date
KR20070102036A (ko) 2007-10-18

Similar Documents

Publication Publication Date Title
KR100816934B1 (ko) 문서검색 결과를 이용한 군집화 시스템 및 그 방법
Inzalkar et al. A survey on text mining-techniques and application
Kaushik et al. A comprehensive study of text mining approach
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN109992645A (zh) 一种基于文本数据的资料管理系统及方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
Prata et al. Social data analysis of Brazilian's mood from Twitter
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
Das et al. A CV parser model using entity extraction process and big data tools
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
Sharaff et al. Analysing fuzzy based approach for extractive text summarization
KR100809751B1 (ko) 문서분석 시스템 및 그 방법
Dzieciątko Application of text analytics to analyze emotions in the speeches
Sundari et al. A study of various text mining techniques
Abramowicz et al. Supporting topic map creation using data mining techniques
JP2004287670A (ja) 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
Guadie et al. Amharic text summarization for news items posted on social media
KR101078978B1 (ko) 문서 분류 시스템
JP2000305950A (ja) 文書分類装置および文書分類方法
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
Ceravolo et al. Bottom-up extraction and maintenance of ontology-based metadata
CN112948544B (zh) 一种基于深度学习与质量影响的图书检索方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]
FPAY Annual fee payment

Payment date: 20111221

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130128

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee