KR100849631B1 - 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 - Google Patents

문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 Download PDF

Info

Publication number
KR100849631B1
KR100849631B1 KR1020060072730A KR20060072730A KR100849631B1 KR 100849631 B1 KR100849631 B1 KR 100849631B1 KR 1020060072730 A KR1020060072730 A KR 1020060072730A KR 20060072730 A KR20060072730 A KR 20060072730A KR 100849631 B1 KR100849631 B1 KR 100849631B1
Authority
KR
South Korea
Prior art keywords
document
documents
information
cluster
similarity
Prior art date
Application number
KR1020060072730A
Other languages
English (en)
Other versions
KR20080011949A (ko
Inventor
이일병
지태창
김세현
Original Assignee
(주)윕스
이일병
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)윕스, 이일병 filed Critical (주)윕스
Priority to KR1020060072730A priority Critical patent/KR100849631B1/ko
Publication of KR20080011949A publication Critical patent/KR20080011949A/ko
Application granted granted Critical
Publication of KR100849631B1 publication Critical patent/KR100849631B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

다수의 특허문서를 클러스터링하여 2차원 화면에 시각화하는 기술에 관한 것으로, 그룹화할 문서를 요청하여 다수의 문서를 전송받는 요청수단, 전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 벡터수단, 생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 다수의 문서정보를 이용하여 상기 다수의 문서를 클러스터링하는 클러스터링수단, 클러스터링된 다수의 클러스터와 상기 클러스터에 속한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 시각화수단, 산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 출력하는 출력수단으로 이루어지는 구성을 마련한다.
상기와 같은 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한 기록매체를 이용하는 것에 의해, 문서가 보유하고 있는 자체 정보를 클러스터링에 이용하여 양질의 클러스터링 결과를 제공할 수 있다.
문서, 특허문서, 클러스터링, 군집화, 시각화

Description

문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한 기록매체{Grouping System of Documents and Method Thereof and Recording Medium Thereof}
도 1은 본 발명의 일실시예에 따른 문서 그룹화 시스템을 도시한 블록도,
도 2는 본 발명의 일실시예에 따른 특허문서 그룹화 방법을 설명하는 흐름도,
도 3은 병합식 계층 클러스터링의 유사도 연산방법의 예들을 도시한 도면,
도 4는 본 발명의 일실시예에 따른 클러스터 내에 문서가 위치한 것을 도시한 도면,
도 5는 본 발명의 일실시예에 따른 문서벡터의 방향 결정을 도시하는 도면,
도 6은 본 발명의 일실시예에 따라 시각화된 특허문서를 도시한 도면.
* 도면의 주요 부분에 대한 부호의 설명 *
10: 문서 그룹화 시스템 20: 서버
30: 데이터베이스 101: 요청수단
102: 벡터수단 103: 클러스터링수단
104: 시각화수단 105: 출력수단
106: 제어수단
본 발명은 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한 기록매체에 관한 것으로, 특히 다수의 서지정보를 포함하는 특허 또는 실용신안의 공개공보 또는 등록공보(이하 특허문서라 함)를 클러스터링(Clustering)하여 2차원 화면에 시각화하는 시스템과 그 방법 및 이를 기록한 기록매체에 관한 것이다.
클러스터링이란 데이터마이닝의 한 기법으로서, 다수의 항목이 갖는 속성을 기준으로 하여 그 유사성을 연산한 후 군집화하는 기법이다. 클러스터링은 주어진 데이터 집합을 서로 유사성을 가지는 몇 개의 군집(Cluster)으로 분할해 나가는 과정으로, 하나의 군집에 속하는 데이터 간에는 서로 다른 군집 내의 데이터와는 구분되는 유사성을 갖게 된다. 다시 말해서, 데이터 내에 존재하는 상이한 그룹을 구분해 내는 기법이므로 분류와도 관련이 있으나, 그룹에 대해 사전에 정의되지 않는다는 점에서 분류와는 다르다. 클러스터링 기법은 크게 분할(Partitioning) 접근과 계층적(Hierarchical) 접근으로 나눌 수 있다. 분할 접근은 범주 함수를 최적화시키는 K개의 분할 영역을 결정해 나가는 방법으로, 유클리드 거리(Euclidean Distance) 측정법에 기반한다. 반면, 계층적 접근은 처음에 각각의 데이터 점을 하나의 클러스터로 설정한 후 이들 쌍간의 거리를 기반으로 하여 분할·합병해 나가는 상향식(Bottom-up) 방식으로 모든 점들이 하나의 대형 클러스터에 속하게 될 때까지 그 히스토리 정보를 유지해 나간다. 이것은 병합식 계층 클러스터링(Agglomerative Hierarchical Clustering)이라고도 하며 가까운 객체끼리 군집화 시키는 방법이다.
일반적으로 기존의 문서 클러스터링 시스템은 각각의 문서를 클러스터링한 후 2차원 화면에 시각화한다. 클러스터링 결과의 시각화는 다차원의 벡터를 2차원 화면에 사상(Mapping)하는 방법으로 이루어지는데, 대표적으로 다차원척도법(Multidimensional Scaling, 이하 'MDS'라 한다)을 이용한다.
이와 같이 클러스터링 기술의 일례가 대한민국 특허 등록공보 제0601578호(2006.07.07 등록, 문서를 개념적으로 분류하기 위한 요약 및 클러스터링)에 개시되어 있다.
상기 대한민국 특허 등록공보 제0601578호에 개시된 기술은 이전에 카테고리화된 데이터 리소스(Data Resource)에 따라 링크(Link)를 분류하는 개선된 인덱스(Index)를 통해 정보를 제공하는 방법 및 시스템에 관한 것으로, 소스 콘텐츠를 요약하고 텍스트 클러스터링을 수행하여 분류를 생성한 후, 사용자 인터페이스를 통해 쿼리 엔트리(Query Entry)와 해당 분류가 사용자에게 제공되어 해당 분류를 검색되게 하여 사용자가 해당 분류 및 문서에 대한 하이퍼링크로 접근하게 하는 문서를 개념적으로 분류하기 위한 요약 및 클러스터링에 대해 기재되어 있다. 상기 공보 제0601578호에 따르면 컨설턴트가 정보를 조직화하고 사용자에게 제시하기 위해서 양질의 정보를 연구하는데 소요되는 시간을 극적으로 감소시킬 수 있다고 기재되어 있다.
또, 시각화 기술의 일례가 미국 특허 등록공보 제6298174호(2001.10.02 등 록, 문서의 3차원 디스플레이)에 개시되어 있다.
상기 미국 특허 등록공보 제6298174호에 개시된 기술은 비주얼 검색과 분석을 강화시키기 위해 텍스트 콘텐츠를 공간화하는 방법에 관한 것으로, 언어 처리를 생략하고 문서들의 정보 특성을 3차원으로 시각화함으로써 시각적으로 검색과 분석이 이루어지게 하여 분석가의 노력을 감소킬 수 있는 문서의 3차원 디스플레이에 대해 기재되어 있다. 시각화에 관한 IEEE TCVG 심포지엄(2003)에 개재된 J. Yang, M. O. Ward, E. A. Rundensteiner 및 S. Huang의 '고차원 데이터세트의 연구를 위한 시각적 계층 차원 감소'에는 상기 공보 제6298174호에서 문서의 2차원 좌표 계산에 MDS와 주성분분석(Principal Component Analysis, 이하 'PCA'라 한다)를 결합하여 사용한다고 기재되어 있다. 여기서 PCA는 다차원 데이터를 더 적은 차원으로 사상(Mapping 또는 Projection)하는 방법으로서, 관찰된 여러 변수들 중에서 서로 연관성이 있는 변수들끼리 선형 결합 형태로 묶어 몇 개의 잠재 변수로 변수를 축약하는 방법이다.
종래의 문서 클러스터링 시스템에서는 문서의 명칭이나 요약 등을 구문 분석하여 벡터를 생성한 후 이 벡터들을 바탕으로 클러스터링 알고리즘을 적용하여 클러스터를 생성하고 2차원 화면에 시각화한다. 그러나 이때 클러스터링 알고리즘에서 두 문서의 유사도 비교에 사용되는 벡터에는 각 문서의 명칭이나 요약 등에 존재하는 단어들의 통계적인 정보만이 존재하므로, 문서에 존재하는 많은 정보들이 클러스터링에 전혀 이용되지 못하는 문제가 있었다.
또, 문서가 갖고 있는 독특한 정보들을 이용하지 않고, 단순히 명칭, 요약 등의 구문만을 이용하여 클러스터링을 적용하기 때문에 클러스터링의 다양화 및 정확도가 떨어지는 문제가 있었다.
또, 사용자가 2차원으로 시각화된 클러스터링 결과화면에서 양질의 클러스터링 결과를 얻었는지 판단할 수 있는 근거가 미약하여, 각각의 클러스터에 속한 문서들을 일일이 검토하여 판단해야 하는 문제가 있었다.
또, 상기 미국 특허 등록공보 제6298174호에 개시된 2차원 좌표 구하는 기술 중 MDS는 계산량이 매우 많아 다수의 문서에 대해 적용하기에 무리가 있으며, PCA는 선형적인 방법이므로 변환 후의 결과가 변환 전의 결과를 충분히 반영하지 못하는 한계가 있었다.
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로서, 문서가 갖고 있는 다수의 특성을 클러스터링에 도입하여 양질의 클러스터링 결과를 제공하는 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한 기록매체를 제공하는 것이다.
본 발명의 다른 목적은 클러스터링 결과의 2차원 시각화 화면에 문서의 특성을 표시함으로써 사용자가 각각의 클러스터에 소속된 문서들의 관계를 파악하여 클러스터링 결과의 적절성을 시각적으로 판단할 수 있도록 하는 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한 기록매체를 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명에 따른 문서 그룹화 시스템은 다수의 문 서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템에 있어서, 상기 서버에 그룹화할 문서를 요청하여 다수의 문서를 전송받는 요청수단, 전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 벡터수단, 생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 다수의 문서정보를 이용하여 상기 다수의 문서를 클러스터링하는 클러스터링수단, 클러스터링된 다수의 클러스터와 상기 클러스터에 속한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 시각화수단, 산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 출력하는 출력수단을 포함한다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 문서는 특허문서이다. 특허문서라 함은 서지정보를 포함하는 특허 또는 실용신안의 공개공보 또는 등록공보를 말한다. 그러나 상기 특허문서는 대한민국 특허 또는 실용신안만 한정하는 것은 아니고, 다른 나라의 특허 또는 실용신안도 포함된다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 클러스터링수단은 두 클러스터(cluster)간 유사도가 가장 큰 클러스터들을 묶어 나가는 방식으로 클러스터링을 한다. 그리고 상기 두 클러스터(cluster)간 유사도는 각 클러스터에 속하는 임의의 두 문서간 유사도에 의해 연산되고, 상기 두 문서의 유사도는 상기 두 문서의 다차원 벡터와 상기 각 두 문서의 서지사항의 항목간의 유사도에 의해 연산되고, 상기 두 항목간 유사도는 두 항목의 값에 의하여 산출할 수 있다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 두 문서의 유사도에서 연산되는 상기 서지사항의 항목간 유사도가 차지하는 비중은 조절가능하다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 두 문서의 유사도는 식 sim(A, B) = α0simcos(A, B) + α1sima(1)(A, B) + α2sima(2)(A, B) + ... + αmsima(m)(A, B)의 실행에 의해 연산되며, 여기서, A와 B는 각각 문서 A와 문서 B이며, sim(A, B)는 두 문서의 유사도이고, simcos(A, B)는 상기 다차원 벡터를 이용한 코사인 상관도이고, sima(k)(A, B)는 문서 A와 문서 B간의 서지정보의 항목인 a(k)에 대한 항목간 유사도이고(1≤k≤m), α0, α1, α2, ..., αm 은 조절이 가능한 가중치로서, 총합이 1인 상수이고, 상기 m은 문서의 서지정보의 항목 수를 말한다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 simcos(A, B)는 식 simcos(A, B)=cos(VA, VB)=
Figure 112006055492702-pat00001
의 실행에 의해 연산되며, VA와 VB는 각각 상기 A와 상기 B의 단어의 통계정보를 갖는 벡터이다.
삭제
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 특허 서지정보는 인적 정보, 국가 정보, 날짜 정보, 번호 정보, 내용 정보, 분류 정보, 참조 정보 중 어느 하나를 포함한다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 시각화수단은 상기 다수의 클러스터의 각 대표값에 MDS(Multidimensional Scaling)를 적용하여 각각의 클러스터 중심값을 산출한 후, 상기 클러스터에 속한 상기 문서와 상기 클러스터 중심값과의 상대적인 유사도를 이용하여 상기 문서가 좌표로 표현될 시각화 정보인 문서벡터를 산출한다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 문서벡터의 크기값은 상기 문서와 상기 클러스터 중심값간의 코사인 상관도, 클러스터의 크기, 클러스터에 속한 다수의 문서와 클러스터 중심값간의 코사인 상관도가 갖는 최대값과 최소값을 이용하여 산출한다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 문서벡터의 방향값은 식
Figure 112006055492702-pat00002
의 실행에 의해 연산되며, i, j 및 k는 상수이며, Ci는 i번째 클러스터 중심값이고, dj는 상기 Ci에 속한 j번째 문서이며,
Figure 112006055492702-pat00003
는 k번째 클러스터 중심값인 Ck와 상기 dj간의 코사인 상관도이며,
Figure 112006055492702-pat00004
는 상기 Ci와 상기 Ck간의 벡터방향값이다.
또, 본 발명에 따른 문서 그룹화 시스템에 있어서, 상기 출력수단은 상기 다수의 문서간의 우선권관계 정보 또는 참조관계 정보를 출력한다.
또, 상기 목적을 달성하기 위해 본 발명에 따른 문서 그룹화 방법은 다수의 문서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템으로 문서를 그룹화하는 방법에 있어서, (a) 상기 컴퓨터 시스템이 상기 서버로 그룹화할 문서를 요청하여 다수의 문서를 전송받는 단계, (b) 전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 단계, (c) 생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 다수의 문서정보를 이용하여 상기 컴퓨터 시스템이 상기 다수의 문서를 클러스터링하는 단계, (d) 상기 컴퓨터 시스템이 클러스터링된 다수의 클러스터와 상기 클러스터에 속한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 단계, (e) 산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 상기 컴퓨터 시스템의 출력수단을 통해 출력하는 단계를 포함한다.
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 문서는 특허문서이다. 특허문서라 함은 서지정보를 포함하는 특허 또는 실용신안의 공개공보 또는 등록공보를 말한다. 그러나 상기 특허문서는 대한민국 특허 또는 실용신안만 한정하는 것은 아니고, 다른 나라의 특허 또는 실용신안도 포함된다.
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 (c) 단계는 두 클러스터(cluster)간 유사도가 가장 큰 클러스터들을 묶어 나가는 방식으로 클러스터링을 한다. 그리고 상기 두 클러스터(cluster)간 유사도는 각 클러스터에 속하는 임의의 두 문서간 유사도에 의해 연산되고, 상기 두 문서의 유사도는 상기 두 문서의 다차원 벡터와 상기 각 두 문서의 서지사항의 항목간의 유사도에 의해 연산되고, 상기 두 항목간 유사도는 두 항목의 값에 의하여 산출할 수 있다..
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 두 문서의 유사도에서 연산되는 상기 서지사항의 항목간 유사도가 차지하는 비중은 조절가능하다.
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 두 문서의 유사도는 식 sim(A, B) = α0simcos(A, B) + α1sima(1)(A, B) + α2sima(2)(A, B) + ... + αmsima(m)(A, B)의 실행에 의해 연산되며, 여기서, A와 B는 각각 문서 A와 문서 B이며, sim(A, B)는 두 문서의 유사도이고, simcos(A, B)는 상기 다차원 벡터를 이용한 코사인 상관도이고, sima(k)(A, B)는 문서 A와 문서 B간의 서지정보의 항목인 a(k)에 대한 항목간 유사도이고(1≤k≤m), α0, α1, α2, ..., αm 은 조절이 가능한 가중치로서, 총합이 1인 상수이고, 상기 m은 문서의 서지정보의 항목 수를 말한다.
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 simcos(A, B)는 식 simcos(A, B)=cos(VA, VB)=
Figure 112006055492702-pat00005
의 실행에 의해 연산되며, VA와 VB는 각각 상기 A와 상기 B의 단어의 통계정보를 갖는 벡터이다.
삭제
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 특허 서지정보는 인적 정보, 국가 정보, 날짜 정보, 번호 정보, 내용 정보, 분류 정보, 참조 정보 중 어느 하나를 포함한다.
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 (d) 단계는 (d1) 상기 다수의 클러스터의 각 대표값에 MDS를 적용하여 각각의 클러스터 중심값을 산출하는 단계, (d2) 상기 클러스터에 속한 상기 문서와 상기 클러스터 중심값과의 상대적인 유사도를 이용하여 상기 문서가 좌표로 표현될 시각화 정보인 문서벡터를 산출하는 단계를 포함한다.
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 문서벡터의 크기값은 상기 문서와 상기 클러스터 중심값간의 코사인 상관도, 클러스터의 크기, 클러스터에 속한 다수의 문서와 클러스터 중심값간의 코사인 상관도가 갖는 최대값과 최소값을 이용하여 산출한다.
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 문서벡터의 방향값은 식
Figure 112006055492702-pat00006
의 실행에 의해 연산되며, i, j 및 k는 상수이며, Ci는 i번째 클러스터 중심값이고, dj는 상기 Ci에 속한 j번째 문서이며,
Figure 112006055492702-pat00007
는 k번째 클러스터 중심값인 Ck와 상기 dj간의 코사인 상관도이며,
Figure 112006055492702-pat00008
는 상기 Ci와 상기 Ck간의 벡터방향값이다.
또, 본 발명에 따른 문서 그룹화 방법에 있어서, 상기 (e) 단계는 상기 다수의 문서간의 우선권관계 정보 또는 참조관계 정보를 더 출력하는 단계를 포함한다.
또, 상기 목적을 달성하기 위해 본 발명에 따른 컴퓨터로 기록한 기록매체는 다수의 문서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템으로 문서를 그룹화하는 방법을 컴퓨터로 기록한 기록매체에 있어서, 상기 컴퓨터 시스템이 상기 서버로 그룹화할 문서를 요청하여 다수의 문서를 전송받는 단계, 전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 단계, 생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 문서정보를 이용하여 상기 컴퓨터 시스템이 상기 다수의 문서를 클러스터링하는 단계, 상기 컴퓨터 시스템이 클러스터링된 다수의 클러스터와 상기 클러스터에 속한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 단계, 산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 상기 컴퓨터 시스템의 출력수단을 통해 출력하는 단계를 실행시키기 위한 프로그램을 기록한다.
이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직 한 실시 예를 첨부한 도면을 참조하여 상세하게 설명한다. 또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
도 1은 본 발명의 일실시예에 따른 문서 그룹화 시스템을 도시한 블록도이다.
도 1에서 도시한 바와 같이, 본 발명의 일실시예에 따른 문서 그룹화 시스템(10)은 데이터베이스(30)를 구비한 서버(20)와 네트워크를 통하여 연결되어 있다. 서버(20)에 구비된 데이터베이스(30)에는 다수의 문서들이 저장되어 있으며, 이는 문서 그룹화 시스템(10)을 통한 사용자의 요청에 의해 그룹화되기 위해 문서 그룹화 시스템(10)으로 전송되어 사용된다. 문서 그룹화 시스템(10)은 통상의 컴퓨터 시스템에 구비된 장치를 포함하며, 본 발명에 따른 문서 그룹화 방법을 수행하기 위해 서버(20)에 그룹화할 문서를 요청하여 다수의 문서를 전송받는 요청수단(101), 전송받은 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 벡터수단(102), 생성된 다차원 벡터와 문서가 갖고 있는 문서정보를 이용하여 다수의 문서를 클러스터링하는 클러스터링수단(103), 클러스터링된 다수의 클러스터와 클러스터에 속한 각각의 다수의 문서를 시각화하기 위한 정보를 산출하는 시각화수단(104), 산출된 시각화 정보를 이용하여 클러스터와 해당 문서들을 출력하는 출력수단(105), 그리고 요청수단(101), 벡터수단(102), 클러스터링수단(103), 시각화수단(104) 및 출력수단(105)를 비롯하여 문서 그룹화 시스템(10)의 내부를 제어하는 제어수단(106)을 더 구비한다.
다음에 본 발명에 따른 문서 그룹화 방법에 대해 도 2 내지 도 6에 따라 설명한다.
도 2는 본 발명의 일실시예에 따른 특허문서 그룹화 방법을 설명하는 흐름도이다.
도 2에서 도시한 바와 같이, 컴퓨터 시스템(10)의 요청수단(101)이 서버(20)로 그룹화할 특허문서를 요청하여 데이터베이스(30)에 저장된 다수의 특허문서를 전송받는다(ST2010). 다수의 특허문서를 전송받으면 벡터수단(102)이 전송받은 특허문서들을 구문분석하여 얻어진 단어를 바탕으로 다차원 벡터를 생성한다(ST2020). 클러스터링수단(103)은 생성된 다차원 벡터와 특허문서가 갖고 있는 문서정보를 이용하여 다수의 특허문서를 클러스터링한다(ST2030). ST2030 단계에서 클러스터링은 비교할 다수의 특허문서가 갖는 다차원 벡터와 문서정보의 유사도를 연산하여 병합식 계층 클러스터링으로 수행한다. 본 발명에서의 유사도 계산 방법은 다차원 벡터 연산뿐만 아니라 특허문서가 갖고 있는 문서정보를 포함하므로, 군집의 대표값을 구하기 어려워 K-Means와 같이 대표값을 사용하는 클러스터링 방법은 사용하기 어렵다. 따라서, 대표값을 사용하지 않는 방법을 이용하는 것이 바람직하며, 그 예로 병합식 계층 클러스터링을 들 수 있다.
먼저, 병합식 계층 클러스터링에 대해 도 3에 따라 설명한다.
도 3은 병합식 계층 클러스터링의 유사도 연산방법의 예들을 도시한 도면이 다.
병합식 계층 클러스터링은 우선 모든 n개의 데이터가 n개의 서로 다른 그룹이라 가정한 후에 그룹간의 유사성을 보고 가장 유사한 2개의 그룹을 합병하여 그룹 수를 줄여가는 과정을 전제 그룹 수가 1개가 될 때까지 반복함으로써 1개의 그룹을 찾아내는 방식이다. 이때, 군집의 병합 또는 분리 과정은 2차원 도면의 덴드로그램(Dendrogram)을 사용하여 간략히 표현되며 클러스터링 과정에서 어떤 개체가 일단 다른 클러스터에 속하면 다시는 다른 클러스터에 속하지 못하게 한다. 병합식 계층 클러스터링은 다음의 과정을 통해 진행된다. 우선, 특허문서의 개수만큼 클러스터를 생성하고, 각각의 특허문서를 생성된 클러스터에 할당한다. 다음으로, 모든 특허문서가 하나의 클러스터가 될 때까지 모든 클러스터간의 유사도를 연산한 후 가장 유사한 2개의 클러스터를 병합하는 과정을 반복한다.
병합식 계층 클러스터링에서 클러스터간의 유사도를 연산하기 위해서는 도 3에 도시된 다음과 같은 방법 등이 이용된다.
- 최단 연결법(Single Linkage Method): 클러스터 C1과 클러스터 C2 사이의 유사도 sC1C2를 각 클러스터에 속하는 임의의 두 개체들 사이의 유사도 중 최대값으로 정의하여 가장 유사성이 큰 클러스터를 묶어 나가는 방법
- 최장 연결법(Complete Linkage Method): 클러스터 C1와 클러스터 C2 사이의 유사도 sC1C2를 각 클러스터에 속하는 임의의 두 개체들 사이의 유사도 중 최소값으로 정의하여 가장 유사성이 큰 클러스터를 묶어 나가는 방법
- 평균 연결법(Average Linkage Method): 클러스터 C1와 클러스터 C2 사이의 유사도 sC1C2를 각 클러스터에 속하는 모든 개체들의 평균유사도로 정의하여 가장 유사성이 큰 클러스터를 묶어 나가는 방법
- 중심 연결법(Centroid Linkage Method): 클러스터 C1와 클러스터 C2의 중심점 사이의 유사도를 두 클러스터 사이의 유사도로 정의하여 가장 유사성이 큰 클러스터를 묶어 나가는 방법
이와 같은 방법들을 통해 다차원 벡터와 서지정보의 항목간의 유사도를 이용하여 두 문서간의 유사도(sim(A, B))를 연산하는데, 이는 식1을 통해 산출된다.
sim(A, B) = α0simcos(A, B) + α1sima(1)(A, B) + α2sima(2)(A, B) + ... + αmsima(m)(A, B)
여기서, A와 B는 각각 문서 A와 문서 B이며, sim(A, B)는 두 문서의 유사도이고, simcos(A, B)는 상기 다차원 벡터를 이용한 코사인 상관도이고, sima(k)(A, B)는 문서 A와 문서 B간의 서지정보의 항목인 a(k)에 대한 항목간 유사도이고(1≤k≤m), α0, α1, α2, ..., αm 은 조절이 가능한 가중치로서, 총합이 1인 상수이고, 상기 m은 문서의 서지정보의 항목 수를 말한다. 식1에서 서지정보의 항목과 가중치의 개수는 변환이 가능하다. 즉, 유사도 연산에 포함하고자 하는 문서정보의 종류 및 수는 사용자가 원하는 대로 조정이 가능하며, 이러한 조정을 통해 문서정보 각각이 차지하는 비중을 조정할 수 있다.
식1에서 simcos(A, B)는 다차원 벡터를 이용한 코사인 상관도로서, 식2를 통 해 산출된다.
Figure 112006055492702-pat00009
simcos(A, B)=cos(VA, VB)=
VA와 VB는 각각 특허문서 A와 B의 단어의 통계정보를 갖는 다차원 벡터이다.
또, 식1의 sima(1), sima(2), sima(3)에서 서지정보의 항목 a(1), a(2), a(3)은 특허문서가 갖고 있는 특허 서지정보로서, 출원일 또는 특허일(날짜 또는 연도 정보), 국제특허분류(International Patent Classification, 이하 'IPC'라 한다), 미국특허분류(U.S Patent Classification, 이하 'UPC'라 한다) 등과 같은 분류코드, 출원인 또는 발명자 정보, 우선권 정보, 미국 또는 일본 특허의 인용정보 등의 특허 요소이다. 이러한 특허 서지정보는 각각의 정보가 갖고 있는 특성에 따라 유사도를 연산하는데, 예를 들어 날짜 정보인 경우에는 연도부분을 자르거나, 값 그대로의 차이를 유사도 연산에 사용한다. 또, 우선권(패밀리), 인용여부 정보는 두 특허문서의 유사도를 연산할 때 해당 여부에 따라 0 또는 1의 값을 적용한다. 출원인이나 발명자의 경우에는 두 특허문서의 유사도 연산시 공통적인 값이 차지하는 비율을 사용하며, IPC의 경우에는 섹션(Section), 클래스(Class), 서브클래스(Subclass) 부분을 취하거나 값 그대로를 사용하여 출원인이나 발명자에 적용한 방법과 같은 방법을 사용하여 유사도를 산출한다.
특허 서지정보는 크게 인적 정보, 국가 정보, 날짜 정보, 번호 정보, 내용 정보, 분류 정보, 참조 정보 등으로 나눌 수 있으며, 그 자세한 예로는 표 1에 기재한 바와 같다.
특허 서지정보 내용
인적 정보 출원인/특허(실용)권자(Assignee), 출원인 국적(Assignee Country), 발명자/고안자(Inventor), 대리인(Attorney, Agent or Firm), 심사관(Primary/Assitent Examiner) 등
국가 정보 지정국(Designated Country), 우선권주장국(Priority Country), 출원인국적(Assignee Country), 발명자국적(Inventor Country), 국가 및 지역코드(National or Regional Code), 국가코드(Country Code) 등
날짜 정보 우선권주장일(Priority Date), 출원일(Application Date), 공개일(Published Date), 공고일(Firm Date), 등록일(Issue Date), 국제출원일(PCT Pub./Field Date), 국제공개일(PCT Pub. Date), 정정일(Correction Date) 등
번호 정보 우선권번호(Priority No.) 등
내용 정보 발명의 명칭(Title), 요약(Abstract), 대표 청구항(Exemplary Claim), 모든 청구항(All Claims), 청구항수(No. of Claims), 색인어, 상세설명(Description) 등
분류 정보 주IPC(Main IPC), IPC(All IPC), 주미국분류(UPC - Main), 미국분류(UPC - All), FI(File Index), 테마코드(Theme Code), 중국분류기호(Category Class), ECLA 코드(European Classification Code) 등
참조 정보 패밀리(Family), 관련출원수(Related Application No.), 관련특허수(Related Patent No.), 미국참조특허(U.S. Reference Patent), 참조문헌수(Backward Reference Count), 다른참조(Other References), 해외참조특허(Foreign Reference Patent), 해외참조국가(Foreign Reference Country) 등
특허 서지정보의 각 항목의 예를 통해 유사도를 산출하는 방법을 설명한다.
우선, 패밀리나 참조문헌 등과 같이 여부관계에 따라 0 또는 1의 값을 적용하여 유사도를 구하는 방법이 있다.
- 패밀리 유사도:
Figure 112006055492702-pat00010
- 참조문헌:
Figure 112006055492702-pat00011
- 주IPC:
Figure 112006055492702-pat00012
- 대리인:
Figure 112006055492702-pat00013
- 국가코드:
Figure 112006055492702-pat00014
- 관련특허여부:
Figure 112006055492702-pat00015
또, 출원인이나 IPC 분류 등과 같이 동일개수의 비율로 유사도를 구하는 방법이 있다.
- 출원인:
Figure 112006055492702-pat00016
- 발명자:
Figure 112006055492702-pat00017
- 지정국:
Figure 112006055492702-pat00018
- 심사관:
Figure 112006055492702-pat00019
- IPC:
Figure 112006055492702-pat00020
Figure 112006055492702-pat00021
- 미국분류:
Figure 112006055492702-pat00022
- ECLA 코드:
Figure 112006055492702-pat00023
Figure 112006055492702-pat00024
- 테마코드:
Figure 112006055492702-pat00025
- FI(File Index):
Figure 112006055492702-pat00026
Figure 112006055492702-pat00027
- 다른참조(Other References):
Figure 112006055492702-pat00028
- 해외참조(Foreign References):
Figure 112006055492702-pat00029
또, 출원일이나 공개일과 같이 날짜의 차이로 유사도를 구하는 방법이 있다.
- 출원일:
Figure 112006055492702-pat00030
- 공개일:
Figure 112006055492702-pat00031
- 공고일:
Figure 112006055492702-pat00032
- 등록일:
Figure 112006055492702-pat00033
- 국제출원일:
Figure 112006055492702-pat00034
- 국제공개일:
Figure 112006055492702-pat00035
- 정정일:
Figure 112006055492702-pat00036
- 참조문헌수(Backward Reference Count):
Figure 112006055492702-pat00037
- 청구항수:
Figure 112006055492702-pat00038
단, ω는 0<ω<1인 상수이다
상기와 같은 유사도 산출 방법은 설명을 위해 일례를 기재한 것이므로 이에 한정되지 않고 다른 방법으로도 유사도를 산출할 수 있음은 물론이다.
ST2030 단계가 완료되면 시각화수단(104)이 클러스터링된 다수의 클러스터와 클러스터에 속한 다수의 특허문서를 시각화하기 위한 정보를 산출한다(ST2040). ST2040 단계에서는 개별문서와 클러스터 중심과의 관계를 인력의 관계로 보고 2차원 평면에 개별문서를 배치한다. 문서집합을 2차원 평면에 표시하는 것을 원자의 구조로 보고, 원자는 하나의 원자핵과 전자들로 이루어져 있듯이 원자핵을 클러스터의 중심으로, 전자들을 개별문서들로 정한다. 원자의 움직임을 살펴보면, 원자핵은 고정되어 움직이지 않고, 전자는 원자핵의 주위를 원운동하며 움직인다. 마찬가지로 본 발명의 일실시예에서도 클러스터의 중심은 고정되어 있고, 개별문서들은 소속된 클러스터의 중심 주위를 원운동한다. 그러나 2차원 평면에 개별문서들을 표시할 경우 개별문서들의 위치를 지정하기 어려우므로, 원자핵 하나만 고려하지 않고 다른 원자핵들도 고려하여 개별문서들의 위치를 고정한다. ST2040 단계는 크게 두 단계로 나뉘는데, 다수의 클러스터의 각 대표값에 MDS를 적용하여 각각의 클러스터 중심값을 산출한 후, 클러스터에 속한 특허문서와 클러스터 중심값과의 상대적인 유사도 크기를 이용하여 특허문서가 좌표로 표현될 시각화 정보인 문서벡터를 산출한다. 이러한 본 발명에 따른 시각화 방법은 종래의 MDS만을 사용하는 방법이나 PCA를 이용하는 방법에 비해 속도가 빠르다.
다음으로, 본 발명의 일실시예에 따른 ST2040 단계에 대해 설명한다.
먼저, MDS를 이용하여 클러스터 중심값을 산출하는 방법에 대해 설명하면 다음과 같다.
클러스터의 수가 n인 경우, 클러스터 중심값간의 거리를 연산하여 n*n 행렬 D에 저장한다. 행렬 D의 각 원소 dij는 식3과 같이 클러스터 i의 중심값과 클러스터 j의 중심 사이의 거리 D를 이용하여 행렬 A를 연산한다.
Figure 112006055492702-pat00039
식3에서 aij는 행렬 A의 원소이다.
다음으로, 행렬 A를 식4에 적용하여 행렬 B를 연산한다.
Figure 112006055492702-pat00040
식4에서 a는 행렬 A의 원소이고, b는 행렬 B의 원소이다.
행렬 B가 완성되면 행렬 B의 고유치(Eigenvalue) λ와 고유벡터(Eigenvector) x는 식5를 이용하여 산출한다.
Bx=λx
고유치와 고유벡터가 산출되면 가장 큰 값을 갖는 고유치와 그에 해당하는 고유벡터 2개를 선택하고, 고유치의 제곱근과 고유벡터를 곱한 결과 벡터의 원소순서대로 개체들의 x, y 좌표를 정한다. 식 5를 이용하여 개체들의 x, y 좌표를 산출하는 기술은 본 분야에서 통상으로 사용되는 기술이므로 구체적 설시는 생략한다.
클러스터의 중심 좌표값이 산출되었으므로, 이를 이용하여 개별특허문서들의 위치를 표시할 문서벡터를 산출한다. 벡터는 크기값과 방향값을 가지고 있는 양으로서, 개별특허문서들의 벡터는 다음의 단계를 통해 산출한다.
우선, 특허문서와 클러스터 중심값간의 거리를 산출한다.
특허문서와 클러스터 중심값간의 거리는 우선 클러스터의 크기(반지름)를 구한 후, 클러스터에 속한 모든 특허문서를 ST2030 단계에서 사용된 식2의 코사인 상관도에 적용하여 산출한다. 산출된 값 중에서 최대값 simmax와 최소값 simmin, 좌표를 구하려는 특허문서와 클러스터 중심값간의 유사도 simd를 구하여 식6에 적용한다.
Figure 112006055492702-pat00041
식 6에서 클러스터의 크기는
Figure 112006055492702-pat00042
를 연산하여 구할 수 있는데, 이는 클러스터의 형태를 원형으로 가정하고 그 크기를 거리의 절반으로 정한 것이다. 즉, MDS로 구해진 좌표들이 가깝다면 실제로도 클러스터의 중심값이 가깝다는 의미로서, 클러스터의 중심값은 클러스터의 중심의 위치이며, 클러스터간에는 영역이 서로 겹치지 않는다.
도 4는 본 발명의 일실시예에 따른 클러스터 내에 문서가 위치한 것을 도시한 도면이다.
도 4에 도시된 (a1)은 특허문서이고, (a2)는 클러스터의 크기이고, (a3)는 특허문서와 클러스터 중심 사이의 거리이다. 도 4에서 도시한 바와 같이 클러스터 중심값과 클러스터에 속하는 문서들의 위치를 연산할 때, 유사도가 최대인 특허문 서(a4)는 클러스터 중심값과의 거리차가 0으로서 클러스터의 중심에 위치시키며, 유사도가 최소인 특허문서(a5)는 클러스터의 중심값과의 거리가 클러스터의 크기와 같으므로 멀리 떨어뜨려 위치시키는 것이 본 발명의 기본 사상이다. 그러나, 코사인 유사도는 특허문서가 클러스터의 중심값과 유사할수록 그 값이 커지게 되므로, 코사인 유사도값을 그대로 사용하지 않고 식6과 같이 역수를 취해 사용한다.
다음으로, 문서벡터의 방향값을 산출한다.
문서벡터의 방향값은 소속되지 않은 클러스터들의 중심값과 문서와의 관계를 의미한다. 즉, 클러스터 C1에 소속된 문서 d1과 d2가 있을 때, 문서 d1과 d2가 클러스터 C1과 동일한 코사인 상관도(거리)를 갖더라도, 문서 d1이 클러스터 C2 중심값과의 상관도가 크고 클러스터 C3 중심값과의 상관도가 작은반면, 문서 d2가 클러스터 C2 중심값과의 상관도가 작고 클러스터 C3 중심값과의 상관도가 크다고 하자. 이 경우 문서 d1은 클러스터 C2와 가까운 방향으로 향하게 되고, 문서 d2는 클러스터 C3와 가까운 방향으로 향하게 된다. 이와 같이 문서벡터는 개별문서가 소속된 클러스터 중심값뿐만 아니라 다른 클러스터들의 중심값과의 유사도에 의해 방향이 결정된다. 문서벡터의 방향을 결정하기 위해서는 먼저 클러스터 중심값간의 벡터방향을 결정한 후, 문서벡터의 방향을 결정한다.
클러스터 중심값간의 벡터방향(
Figure 112006055492702-pat00043
)은 MDS를 통해 산출된 클러스터 중심의 2차원 평면상의 x, y 좌표를 이용하여 산출하며, 이는 식7과 같다.
Figure 112006055492702-pat00044
= (Xk-Xj, Yk-Yj)
식7에서 Cj의 x, y 좌표는 각각 Xj와 Yj이고, Ck의 x, y 좌표는 각각 Xk와 Yk이다.
식7을 통해 산출된 클러스터 중심값간의 벡터방향(
Figure 112006055492702-pat00045
)과 문서가 속하지 않은 다른 클러스터와의 상관도(
Figure 112006055492702-pat00046
)를 이용하여 식8과 같이 문서의 벡터 방향(
Figure 112006055492702-pat00047
)을 결정한다.
Figure 112006055492702-pat00048
i, j 및 k는 상수이며, Ci는 i번째 클러스터 중심값이고, dj는 상기 Ci에 속한 j번째 문서이며,
Figure 112006055492702-pat00049
는 k번째 클러스터 중심값인 Ck와 상기 dj간의 코 사인 상관도이며,
Figure 112006055492702-pat00050
는 상기 Ci와 상기 Ck간의 벡터방향값이다.
문서와 다른 클러스터와의 상관도(
Figure 112006055492702-pat00051
)는 ST2030 단계에서 사용된 식2의 코사인 상관도를 사용하여 산출한다.
이렇게 산출된 문서벡터의 방향값은 도 5에서 도시한 바와 같다. 도 5는 본 발명의 일실시예에 따른 문서벡터의 방향 결정을 도시하는 도면으로서, 도 5에 도시된 붉은 화살표는 벡터합에 의해 결정된 문서의 방향벡터이다.
ST2040 단계를 통해 각 클러스터의 중심 좌표와 클러스터에 속하는 특허문서들의 좌표가 산출되었으므로, 출력수단(105)은 이렇게 산출된 시각화 정보를 이용하여 클러스터와 다수의 특허문서를 출력한다(ST2050).
도 6은 본 발명의 일실시예에 따라 시각화된 특허문서를 도시한 도면으로, 도 6a에서 도시한 바와 같이, 우선 MDS를 통해 클러스터의 중심을 먼저 2차원 좌표 상에 출력한 후, 클러스터의 중심값을 기준으로 소속된 특허문서들의 위치를 산출하여 출력한다. 또한, 출력수단(105)은 도 6b에서 도시한 바와 같이 우선권관계 정보 또는 참조관계 정보를 좌표상에 표시함으로써 사용자가 각 클러스터에 소속된 특허문서들의 패밀리나 인용관계 등을 파악하여 클러스터링 결과의 적절성을 시각적으로 판단할 수 있게 한다. 예를 들어, 도 6b의 b1과 같이 연결선이 색상을 달리 표시함으로써 패밀리나 인용관계 등을 구분한다. 또, 도 6b의 b2와 같이 클러스터 내부에 연결선이 많이 존재하므로 사용자는 클러스터링이 잘 되었다고 판단할 수 있게 된다. 또, 도 6b의 b3와 같이 연결선이 다수의 클러스터에 걸쳐있으므로, 사용자로 하여금 원안에 위치한 4개의 클러스터가 서로 유사하다고 판단할 수 있게 한다.
이상, 본 발명자에 의해서 이루어진 발명은 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
즉, 상기 실시예에 있어서는 특허문서를 그룹화하는 실시예에 대해 설명하였지만, 이에 한정되는 것은 아니며 문서정보를 이용한 클러스터링 및 시각화 작업이 가능한 모든 문서에 대해 실현할 수 있음은 물론이다.
상술한 바와 같이, 본 발명에 따른 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한 기록매체에 의하면, 문서가 보유하고 있는 자체 정보를 클러스터링에 이용하여 양질의 클러스터링 결과를 제공할 수 있다는 효과가 얻어진다.
또, 본 발명에 따른 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한 기록매체에 의하면, 클러스터링 결과의 적절성을 시각적으로 판단할 수 있어 클러스터들을 일일이 검토할 필요가 없다는 효과도 얻어진다.

Claims (25)

  1. 다수의 문서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템에 있어서,
    상기 서버에 그룹화할 문서를 요청하여 다수의 문서를 전송받는 요청수단,
    전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 벡터수단,
    생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 다수의 문서정보를 이용하여 상기 다수의 문서를 클러스터링하는 클러스터링수단,
    클러스터링된 다수의 클러스터와 상기 클러스터에 속한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 시각화수단,
    산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 출력하는 출력수단을 포함하는 것을 특징으로 하는 문서 그룹화 시스템.
  2. 제 1항에 있어서,
    상기 문서는 서지정보를 포함하는 특허 또는 실용신안의 공개공보 또는 등록공보인 것을 특징으로 하는 문서 그룹화 시스템.
  3. 제 2항에 있어서,
    상기 클러스터링수단은 두 클러스터(cluster)간 유사도가 가장 큰 클러스터들을 묶어 나가는 방식으로 클러스터링을 하고;
    상기 두 클러스터(cluster)간 유사도는 각 클러스터에 속하는 임의의 두 문서간 유사도에 의해 연산되고;
    상기 두 문서의 유사도는 상기 두 문서의 다차원 벡터와 상기 각 두 문서의 서지사항의 항목간의 유사도에 의해 연산되고;
    상기 두 항목간 유사도는 두 항목의 값에 의하여 산출할 수 있는 것;
    을 특징으로 하는 문서 그룹화 시스템.
  4. 제 3항에 있어서,
    상기 두 문서의 유사도에서 연산되는 상기 서지사항의 항목간 유사도가 차지하는 비중은 조절가능한 것을 특징으로 하는 문서 그룹화 시스템.
  5. 제 3항에 있어서,
    상기 두 문서의 유사도는 식
    sim(A, B) = α0simcos(A, B) + α1sima(1)(A, B) + α2sima(2)(A, B) + ... + αnsima(m)(A, B)
    의 실행에 의해 연산되며,
    여기서, A와 B는 각각 문서 A와 문서 B이며, sim(A, B)는 두 문서의 유사도이고, simcos(A, B)는 상기 다차원 벡터를 이용한 코사인 상관도이고, sima(k)(A, B)는 문서 A와 문서 B간의 서지정보의 항목인 a(k)에 대한 항목간 유사도이고(1≤k≤m), α0, α1, α2 및 αm 은 조절이 가능한 가중치로서, 총합이 1인 상수이고, 상기 m은 문서의 서지정보의 항목 수인 것을 특징으로 하는 문서 그룹화 시스템.
  6. 제 5항에 있어서,
    상기 simcos(A, B)는 식
    simcos(A, B)=cos(VA, VB)=
    Figure 112006055492702-pat00052
    의 실행에 의해 연산되며,
    VA와 VB는 각각 상기 A와 상기 B의 단어의 통계정보를 갖는 벡터인 것을 특징으로 하는 문서 그룹화 시스템.
  7. 삭제
  8. 제 5항에 있어서,
    상기 서지정보의 항목은 인적 정보, 국가 정보, 날짜 정보, 번호 정보, 내용 정보, 분류 정보, 참조 정보 중 어느 하나를 포함하는 것을 특징으로 하는 문서 그룹화 시스템.
  9. 제 2항에 있어서,
    상기 시각화수단은 상기 다수의 클러스터의 각 대표값에 MDS(Multidimensional Scaling)를 적용하여 각각의 클러스터 중심값을 산출한 후, 상기 클러스터에 속한 상기 문서와 상기 클러스터 중심값과의 상대적인 유사도를 이용하여 상기 문서가 좌표로 표현될 시각화 정보인 문서벡터를 산출하는 것을 특 징으로 하는 문서 그룹화 시스템.
  10. 제 9항에 있어서,
    상기 문서벡터의 크기값은 상기 문서와 상기 클러스터 중심값간의 코사인 상관도, 클러스터의 크기, 클러스터에 속한 다수의 문서와 클러스터 중심값간의 코사인 상관도가 갖는 최대값과 최소값을 이용하여 산출하는 것을 특징으로 하는 문서 그룹화 시스템.
  11. 제 10항에 있어서,
    상기 문서벡터의 방향값은 식
    Figure 112006055492702-pat00053
    의 실행에 의해 연산되며,
    i, j 및 k는 상수이며, Ci는 i번째 클러스터 중심값이고, dj는 상기 Ci에 속한 j번째 문서이며,
    Figure 112006055492702-pat00054
    는 k번째 클러스터 중심값인 Ck와 상기 dj간의 코사인 상관도이며,
    Figure 112006055492702-pat00055
    는 상기 Ci와 상기 Ck간의 벡터방향값인 것을 특징으로 하는 문서 그룹화 시스템.
  12. 제 2항에 있어서,
    상기 출력수단은 상기 다수의 문서간의 우선권관계 정보 또는 참조관계 정보를 출력하는 것을 특징으로 하는 문서 그룹화 시스템.
  13. 다수의 문서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템으로 문서를 그룹화하는 방법에 있어서,
    (a) 상기 컴퓨터 시스템이 상기 서버로 그룹화할 문서를 요청하여 다수의 문서를 전송받는 단계,
    (b) 전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 단계,
    (c) 생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 다수의 문서정보를 이용하여 상기 컴퓨터 시스템이 상기 다수의 문서를 클러스터링하는 단계,
    (d) 상기 컴퓨터 시스템이 클러스터링된 다수의 클러스터와 상기 클러스터에 속한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 단계,
    (e) 산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 상기 컴퓨터 시스템의 출력수단을 통해 출력하는 단계를 포함하는 것을 특징으로 하는 문서 그룹화 방법.
  14. 제 13항에 있어서,
    상기 문서는 서지정보를 포함하는 특허 또는 실용신안의 공개공보 또는 등록공보인 것을 특징으로 하는 문서 그룹화 방법.
  15. 제 14항에 있어서,
    상기 (c) 단계는,
    두 클러스터(cluster)간 유사도가 가장 큰 클러스터들을 묶어 나가는 방식으로 클러스터링을 하고;
    상기 두 클러스터(cluster)간 유사도는 각 클러스터에 속하는 임의의 두 문서간 유사도에 의해 연산되고;
    상기 두 문서의 유사도는 상기 두 문서의 다차원 벡터와 상기 각 두 문서의 서지사항의 항목간의 유사도에 의해 연산되고;
    상기 두 항목간 유사도는 두 항목의 값에 의하여 산출할 수 있는 것;
    을 특징으로 하는 문서 그룹화 방법.
  16. 제 14항에 있어서,
    상기 두 문서의 유사도에서 연산되는 상기 서지사항의 항목간 유사도가 차지하는 비중은 조절가능한 것을 특징으로 하는 문서 그룹화 방법.
  17. 제 15항에 있어서,
    상기 두 문서의 유사도는 식
    sim(A, B) = α0simcos(A, B) + α1sima(1)(A, B) + α2sima(2)(A, B) + ... + αnsima(m)(A, B)
    의 실행에 의해 연산되며,
    여기서, A와 B는 각각 문서 A와 문서 B이며, sim(A, B)는 두 문서의 유사도이고, simcos(A, B)는 상기 다차원 벡터를 이용한 코사인 상관도이고, sima(k)(A, B)는 문서 A와 문서 B간의 서지정보의 항목인 a(k)에 대한 항목간 유사도이고(1≤k≤m), α0, α1, α2 및 αm 은 조절이 가능한 가중치로서, 총합이 1인 상수이고, 상기 m은 문서의 서지정보의 항목 수인 것을 특징으로 하는 문서 그룹화 방법.
  18. 제 17항에 있어서,
    상기 simcos(A, B)는 식
    simcos(A, B)=cos(VA, VB)=
    Figure 112006055492702-pat00056
    의 실행에 의해 연산되며,
    VA와 VB는 각각 상기 A와 상기 B의 단어의 통계정보를 갖는 벡터인 것을 특징으로 하는 문서 그룹화 방법.
  19. 삭제
  20. 제 17항에 있어서,
    상기 서지정보의 항목은 인적 정보, 국가 정보, 날짜 정보, 번호 정보, 내용 정보, 분류 정보, 참조 정보 중 어느 하나를 포함하는 것을 특징으로 하는 문서 그룹화 방법.
  21. 제 14항에 있어서,
    상기 (d) 단계는
    (d1) 상기 다수의 클러스터의 각 대표값에 MDS를 적용하여 각각의 클러스터 중심값을 산출하는 단계,
    (d2) 상기 클러스터에 속한 상기 문서와 상기 클러스터 중심값과의 상대적인 유사도를 이용하여 상기 문서가 좌표로 표현될 시각화 정보인 문서벡터를 산출하는 단계를 포함하는 것을 특징으로 하는 문서 그룹화 방법.
  22. 제 21항에 있어서,
    상기 문서벡터의 크기값은 상기 문서와 상기 클러스터 중심값간의 코사인 상관도, 클러스터의 크기, 클러스터에 속한 다수의 문서와 클러스터 중심값간의 코사인 상관도가 갖는 최대값과 최소값을 이용하여 산출하는 것을 특징으로 하는 문서 그룹화 방법.
  23. 제 22항에 있어서,
    상기 문서벡터의 방향값은 식
    Figure 112006055492702-pat00057
    의 실행에 의해 연산되며,
    i, j 및 k는 상수이며, Ci는 i번째 클러스터 중심값이고, dj는 상기 Ci에 속 한 j번째 문서이며,
    Figure 112006055492702-pat00058
    는 k번째 클러스터 중심값인 Ck와 상기 dj간의 코사인 상관도이며,
    Figure 112006055492702-pat00059
    는 상기 Ci와 상기 Ck간의 벡터방향값인 것을 특징으로 하는 문서 그룹화 방법.
  24. 제 14항에 있어서,
    상기 (e) 단계는 상기 다수의 문서간의 우선권관계 정보 또는 참조관계 정보를 출력하는 단계를 포함하는 것을 특징으로 하는 문서 그룹화 방법.
  25. 다수의 문서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템으로 문서를 그룹화하는 방법을 컴퓨터로 기록한 기록매체에 있어서,
    상기 컴퓨터 시스템이 상기 서버로 그룹화할 문서를 요청하여 다수의 문서를 전송받는 단계,
    전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 단계,
    생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 문서정보를 이용하여 상기 컴퓨터 시스템이 상기 다수의 문서를 클러스터링하는 단계,
    상기 컴퓨터 시스템이 클러스터링된 다수의 클러스터와 상기 클러스터에 속 한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 단계,
    산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 상기 컴퓨터 시스템의 출력수단을 통해 출력하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020060072730A 2006-08-01 2006-08-01 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 KR100849631B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060072730A KR100849631B1 (ko) 2006-08-01 2006-08-01 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060072730A KR100849631B1 (ko) 2006-08-01 2006-08-01 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체

Publications (2)

Publication Number Publication Date
KR20080011949A KR20080011949A (ko) 2008-02-11
KR100849631B1 true KR100849631B1 (ko) 2008-07-31

Family

ID=39340332

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060072730A KR100849631B1 (ko) 2006-08-01 2006-08-01 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체

Country Status (1)

Country Link
KR (1) KR100849631B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508167B2 (en) 2013-02-08 2016-11-29 Samsung Electronics Co., Ltd. Method and apparatus for high-dimensional data visualization
KR20210023636A (ko) * 2019-08-21 2021-03-04 네이버 주식회사 장기간 연관성 높은 문서 클러스터링을 위한 방법 및 시스템
US11200448B2 (en) * 2019-05-15 2021-12-14 RELX Inc. Systems and methods for generating a low-dimensional space representing similarities between patents

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101136037B1 (ko) * 2009-11-06 2012-04-18 동국대학교 산학협력단 문서의 색인화 및 검색을 위한 방법 및 장치
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
CN112989153B (zh) * 2019-12-13 2024-05-24 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067398A (ja) 2001-08-27 2003-03-07 Ricoh Co Ltd 文書分類装置および文書分類方法、並びに文書分類方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005339412A (ja) 2004-05-31 2005-12-08 Bearnet Inc 特許マップ生成方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067398A (ja) 2001-08-27 2003-03-07 Ricoh Co Ltd 文書分類装置および文書分類方法、並びに文書分類方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005339412A (ja) 2004-05-31 2005-12-08 Bearnet Inc 特許マップ生成方法およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508167B2 (en) 2013-02-08 2016-11-29 Samsung Electronics Co., Ltd. Method and apparatus for high-dimensional data visualization
US11200448B2 (en) * 2019-05-15 2021-12-14 RELX Inc. Systems and methods for generating a low-dimensional space representing similarities between patents
KR20210023636A (ko) * 2019-08-21 2021-03-04 네이버 주식회사 장기간 연관성 높은 문서 클러스터링을 위한 방법 및 시스템
KR20210023635A (ko) * 2019-08-21 2021-03-04 네이버 주식회사 장기간 관련 있는 이슈 단위의 클러스터를 이용한 문서 타임라인을 제공하는 방법 및 시스템
KR102337536B1 (ko) * 2019-08-21 2021-12-13 네이버 주식회사 장기간 관련 있는 이슈 단위의 클러스터를 이용한 문서 타임라인을 제공하는 방법 및 시스템
KR102349522B1 (ko) * 2019-08-21 2022-01-11 네이버 주식회사 장기간 연관성 높은 문서 클러스터링을 위한 방법 및 시스템

Also Published As

Publication number Publication date
KR20080011949A (ko) 2008-02-11

Similar Documents

Publication Publication Date Title
Charte et al. Working with Multilabel Datasets in R: The mldr Package.
Tzirita Zacharatou et al. GPU rasterization for real-time spatial aggregation over arbitrary polygons
Paiva et al. An approach to supporting incremental visual data classification
US20060004753A1 (en) System and method for document analysis, processing and information extraction
US20160350294A1 (en) Method and system for peer detection
JP2017504108A (ja) 3dモデルの比較方法および装置
KR100849631B1 (ko) 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체
JP2004062804A (ja) 画像の分類方法、画像特徴量空間表示方法、プログラムおよび記録媒体
Pagliosa et al. Projection inspector: Assessment and synthesis of multidimensional projections
Huang et al. Exploration of dimensionality reduction for text visualization
Yu et al. A content-based goods image recommendation system
JP2000311246A (ja) 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体
Foncubierta-Rodríguez et al. Retrieval of high-dimensional visual data: current state, trends and challenges ahead
Zhao et al. Call to order: a hierarchical browsing approach to eliciting users' preference
CN111354076A (zh) 一种基于嵌入空间的单幅图像三维零件组合式建模方法
Ellena et al. A novel hierarchical clustering algorithm for the analysis of 3D anthropometric data of the human head
Assa et al. Displaying data in multidimensional relevance space with 2D visualization maps
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
Chambers et al. Exploring 2d shape complexity
CN110737796B (zh) 图像检索方法、装置、设备及计算机可读存储介质
da Fonseca Sketch-based retrieval in large sets of drawings
Plant et al. Visualising image databases
Beilschmidt et al. An efficient aggregation and overlap removal algorithm for circle maps
Bespalov and et al. Scale-space representation and classification of 3d models
Cromley et al. A concentration-based approach to data classification for choropleth mapping

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120703

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130701

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140728

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150701

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160704

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170706

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180702

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190702

Year of fee payment: 12