KR101035037B1 - 동적 임계값이 적용된 유사문서 분류화 장치 및 방법 - Google Patents

동적 임계값이 적용된 유사문서 분류화 장치 및 방법 Download PDF

Info

Publication number
KR101035037B1
KR101035037B1 KR1020100085384A KR20100085384A KR101035037B1 KR 101035037 B1 KR101035037 B1 KR 101035037B1 KR 1020100085384 A KR1020100085384 A KR 1020100085384A KR 20100085384 A KR20100085384 A KR 20100085384A KR 101035037 B1 KR101035037 B1 KR 101035037B1
Authority
KR
South Korea
Prior art keywords
document
documents
similarity
similar
threshold
Prior art date
Application number
KR1020100085384A
Other languages
English (en)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020100085384A priority Critical patent/KR101035037B1/ko
Priority to PCT/KR2011/003590 priority patent/WO2012030049A2/ko
Application granted granted Critical
Publication of KR101035037B1 publication Critical patent/KR101035037B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Abstract

본 발명은 동적 임계값이 적용된 문서 브라우징 장치 및 방법에 관한 것으로, 입력되거나 저장된 문서에 대하여 각 문서 사이의 유사도를 저장하는 문서 관리 모듈, 문서 관리 모듈을 검색하여 기준 문서와 다른 문서 사이의 유사도가 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 유사 문서 검색 모듈 및 검색된 문서들을 하나의 군집으로 군집화하는 유사 문서 분류화 모듈을 포함한다.

Description

동적 임계값이 적용된 유사문서 분류화 장치 및 방법{Apparatus and Method for Clustering Documents Using Dynamic Threshold}
본 발명은 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고 검색된 문서들 사이의 유사도에 따라 군집화하는 동적 임계값이 적용된 유사문서 분류화 장치 및 방법에 관한 것이다.
인터넷을 통한 정보 교류가 일반화되고 정보의 급격한 증가를 가져왔으나, 상대적으로 사용자가 원하는 가장 적절한 정보의 검색이 어려워졌고 필요한 문서의 저장 및 관리에 많은 시간이 소요되게 되었다.
또한, 소정의 웹 서버를 이용하여 검색되는 문서를 저장하고, 이를 군집화하기 위한 다양한 방법들이 제시되고 있으나, 이들의 군집에 있어서는 소정의 분류수단에 의해 분류된 문서들을 구분하여 저장하는 것으로 분류 작업을 완료하는 것이 일반적이다.
따라서, 구조화된 군집들을 사용자가 편집하는 것은 어려운 작업이며, 군집 조건에 해당되는 문서가 새롭게 발생한 경우에는 이전 군집으로 분류할 수 없는 문제점이 있다.
본 발명은 임계값을 재설정할 수 있고 재설정된 임계값 이상의 유사도를 가지는 문서를 검색하여 다수의 군집을 생성하는 동적 임계값이 적용된 유사문서 분류화 장치, 그 방법 및 이를 기록한 전자 장치에서 판독 가능한 기록매체에 관한 것이다.
본 발명의 한 측면에 따르면, 입력되거나 저장된 문서에 대하여 각 문서 사이의 유사도를 저장하는 문서 관리 모듈, 문서 관리 모듈을 검색하여 기준 문서와 다른 문서 사이의 유사도가 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 유사 문서 검색 모듈 및 검색된 문서들을 하나의 군집으로 군집화하는 유사 문서 분류화 모듈을 포함하는 동적 임계값이 적용된 유사문서 분류화 장치를 제공한다.
유사 문서 검색 모듈은, 문서 관리 모듈에 저장된 문서를 순차적으로 검색하여 기준 문서로 선택한 후 유사 문서를 검색하고, 문서 관리 모듈을 검색하여 기준 문서의 유사 문서로 검색되지 않은 문서를 검색하여 새로운 기준 문서를 선택한 후 새로운 기준 문서의 유사 문서를 검색하는 과정을 반복할 수 있다.
유사 문서 분류화 모듈은, 기준 문서 또는 새로 선택된 기준 문서의 유사 문서로 검색된 문서들을 각각 별개의 군집으로 분류화할 수 있다.
동적 임계값이 적용된 유사문서 분류화 장치는, 설정된 임계값을 변경하여 저장하는 임계값 재설정 모듈을 더 포함할 수 있다.
임계값 재설정 모듈은, 임계값을 입력하는 사용자 인터페이스 및 사용자 인터페이스를 통해 새로운 임계값이 입력되면, 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정하는 임계값 재설정부를 포함할 수 있다.
유사 문서 검색 모듈은, 임계값이 변경되면 새로운 임계값에 따라 기준 문서와 비교하여 새로운 임계값 이상의 유사도를 가지는 문서를 재검색하고 유사 문서 분류화 모듈은, 재검색된 문서들을 하나의 군집으로 분류화할 수 있다.
동적 임계값이 적용된 유사문서 분류화 장치는, 입력되거나 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하는 주제어 저장 모듈 및 모든 문서 쌍에 대하여 각 문서에 할당된 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하는 유사도 계산 모듈을 더 포함할 수 있다.
유사도 계산 모듈은, 모든 문서 쌍에 대하여 배치(Batch) 방식으로 문서 사이의 유사도를 계산할 수 있다.
유사도 계산 모듈은, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다.
동적 임계값이 적용된 유사문서 분류화 장치는, 유사 문서 화 모듈에서 군집화된 군집을 시각화하여 나타내는 시각화 모듈을 더 포함할 수 있다.
본 발명의 다른 측면에 따르면, 입력되거나 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 상기 각 문서의 대표 주제어로 할당하여 저장하는 단계, 모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하고 상기 계산된 문서 사이의 유사도를 저장하는 단계, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계 및 검색된 문서들을 군집화하는 단계를 포함하는 동적 임계값이 적용된 유사문서 분류화 방법을 제공한다.
동적 임계값이 적용된 유사문서 분류화 방법은, 검색된 문서들을 군집화하는 단계 이후에, 기준 문서의 유사 문서로 검색되지 않은 문서를 검색하여 새로운 기준 문서를 선택한 후 새로운 기준 문서의 유사 문서를 검색하는 단계 및 새로운 기준 문서의 유사 문서를 군집화하는 단계를 포함하되, 입력되거나 저장된 문서가 모두 군집화될 때까지 상기의 단계를 반복하여 수행할 수 있다.
동적 임계값이 적용된 분류화 방법은, 입력되거나 저장된 문서가 모두 군집화될 때까지 상기의 단계를 반복하여 수행한 후, 각각의 기준 문서에 대하여 구성된 별개의 군집을 시각화하여 나타내는 단계를 더 포함할 수 있다.
동적 임계값이 적용된 분류화 방법은, 입력되거나 저장된 문서가 모두 군집화될 때까지 상기의 단계를 반복하여 수행한 후, 이전에 설정된 임계값을 새로운 임계값으로 변경하여 재설정하는 임계값 재설정 단계를 더 포함할 수 있다.
동적 임계값이 적용된 분류화 방법은, 이전에 설정된 임계값을 새로운 임계값으로 변경하여 재설정하는 임계값 재설정 단계 이후에, 기준 문서와 비교하여 새로운 임계값 이상의 유사도를 가지는 문서를 검색하는 단계, 검색된 문서들을 군집화하는 단계, 기준 문서의 유사 문서로 검색되지 않은 문서를 검색하여 새로운 기준 문서를 선택한 후 새로운 기준 문서의 유사 문서를 검색하는 단계 및 새로운 기준 문서의 유사 문서를 군집화하는 단계를 포함하되, 입력되거나 저장된 문서가 모두 군집화될 때까지 상기의 단계를 반복하여 수행할 수 있다.
동적 임계값이 적용된 유사문서 분류화 방법은, 각각의 군집을 시각화하여 나타내는 단계를 더 포함할 수 있다.
모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하고 계산된 문서 사이의 유사도를 저장하는 단계는, 모든 문서 쌍에 대해 배치(Batch) 방식으로 각 문서 사이의 유사도를 계산할 수 있다.
모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하고 계산된 문서 사이의 유사도를 저장하는 단계는, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다.
본 발명의 또 다른 측면에 따르면, 동적 임계값이 적용된 유사문서 분류화 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체를 제공한다.
본 발명에 따르면, 기준 문서와 유사도가 다른 다양한 문서를 검색할 수 있고 사용자 선택에 따라 재설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있고, 사용자가 임계값을 임의로 조절하여 저장된 모든 문서를 군집화할 수 있으므로 문서 분류의 효율성을 높일 수 있는 효과가 있다.
또한, 입력되거나 저장된 모든 문서에 대하여, 설정된 임계값 이상의 유사도를 가지는 문서들을 각각의 군집으로 군집화함으로써 관련 문서의 특성 등을 분석할 수 있는 효과가 있다.
도 1은 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 일 실시예를 나타내는 구성도.
도 2는 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 임계값 재설정 모듈의 일 실시예를 나타내는 구성도.
도 3은 본 발명의 다른 측면에 따른 동적 임계값이 적용된 유사문서 분류화 방법의 제1 실시예를 나타내는 흐름도.
도 4는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 군집화 방법의 제2 실시예를 나타내는 흐름도.
도 5는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 유사문서 분류화 방법의 제3 실시예를 나타내는 흐름도.
도 6은 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 문서 유사도 계산 결과를 설명하기 위한 도면.
도 7a 및 도 7b는 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 임계값에 따른 유사 문서 검색 결과를 설명하기 위한 도면.
도 8는 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 임계값 변경을 설명하기 위한 도면.
도 9는 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 증분 방식을 사용하여 문서 유사도 비교를 설명하기 위한 도면.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
이제 본 발명의 실시예에 따른 동적 임계값이 적용된 유사문서 분류화 장치 및 방법, 이를 기록한 전자장치에 의해 판독 가능한 기록매체에 대하여 도면을 참조하여 상세하게 설명하고, 도면 부호에 관계없이 동일하거나 대응하는 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 일 실시예를 나타내는 구성도를 개략적으로 도시한 도면이고, 도 2는 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 임계값 재설정 모듈의 일 실시예를 나타내는 구성도를 개략적으로 도시한 도면이다.
본 발명의 실시예에 따르면, 도 1에 도시한 바와 같이, 동적 임계값이 적용된 유사문서 분류화 장치(100)는 문서 관리 모듈(110), 유사 문서 검색 모듈(120) 및 유사 문서 분류화 모듈(130)을 포함한다.
또한, 동적 임계값이 적용된 유사문서 분류화 장치(100)는 주제어 저장 모듈(140), 유사도 계산 모듈(150), 임계값 재설정 모듈(160) 및 시각화 모듈(170) 중 어느 하나 이상을 더 포함하여 구성될 수 있다.
주제어 저장 모듈(140)은 문서가 새로 입력되거나 미리 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 대표 주제어로 할당하여 저장하고, 유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 저장된 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산할 수 있다.
주제어 저장 모듈(140)은 주제어로 가치 있는 용어들을 저장한 주제어 사전과 주제어로 가치없는 용어들을 저장한 불용 주제어 사전을 저장하고 각 문서에서 추출되는 용어를 주제어 사전 및 불용 주제어 사전에서 검색하여 주제어로 선정할 수 있다.
여기서, 주제어는 특정 문서의 연구 내용, 주장을 대표할 수 있는 문서 내에 존재하는 용어를 의미한다.
구체적으로, 입력 문서로부터 색인지(Indexer)를 이용하여 색인어들을 추출하고 이를 주제어 사전, 불용 주제어 사전과 매칭하여 주제어 후보들을 선정한 후, 주제어 후보들을 용어 빈도(term frequency), 문서 빈도(document frequency) 등의 기준을 적용하여 순위화(ranking)하고 N개의 상위 주제어 후보들을 주제어로 선정할 수 있다.
상기의 문서로부터 상위 N개의 주제어를 추출하는 방법은 일 실시예에 불구하며 다양한 방법으로 각각의 문서로부터 상위 N개의 주제어를 추출할 수 있다.
유사도 계산 모듈(150)은 각 문서의 상위 N개의 주제어(대표 주제어)를 서로 비교하여 유사도를 계산할 수 있다.
도 6은 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 문서 유사도 계산 결과를 설명하기 위한 도면이다.
예를 들어, 도 6에 도시한 바와 같이, 유사도 계산 모듈(150)은 각 문서의 상위 5개의 주제어를 대표 주제어로 할당하여 저장하고, 모든 문서 쌍에 대하여 각각의 대표 주제어를 서로 비교하여 대표 주제어 중 일치되는 대표 주제어 개수를 %로 계산할 수 있다.
'문서1'의 대표 주제어는 '주제어1', '주제어2', '주제어3', '주제어4' 및 '주제어5'이고, '문서2'의 대표 주제어는 '주제어2', '주제어4', '주제어5', '주제어6' 및 '주제어9'이다.
'문서1'과 '문서2'는 전체 5개의 주제어 중 3개의 주제어가 일치하므로 60%의 유사도를 가진다.
상기의 유사도 계산 방법은 일 실시예를 든 것으로 다양한 방법으로 계산될 수 있다.
유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 배치(Batch) 방식으로 각 문서 사이의 유사도를 계산할 수 있다.
배치(Batch) 방식은 데이터 처리 대상이 되는 데이터를 어느 일정한 관리 단위로 종합한 것으로, 배치 방식으로 각 문서 사이의 유사도를 계산하는 방법은 n개의 문서가 입력되면 첫 번째 문서는 (n-1)개의 문서와 유사도를 비교하고, 두 번째 문서는 (n-2)개의 문서와 유사도를 비교하는 방법으로, 전체 유사도 비교 횟수는
Figure 112010056762012-pat00001
이다.
유사도 계산 모듈(150)은 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다.
도 9는 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 증분 방식을 사용하여 문서 유사도 비교를 설명하기 위한 도면이다.
증분(Incremental) 방식은 데이터를 한꺼번에 처리하지 않고 하나의 문서씩 순차적으로 처리하는 방법으로, 도 10에 도시한 바와 같이, 증분 방식으로 각 문서 사이의 유사도를 계산하는 방법은 새로운 문서가 추가되면 추가된 문서로부터 상위 N개의 주제어를 추출하여 대표 주제어로 할당한 후 미리 저장된 문서들의 대표 주제어와 비교하여 문서 쌍의 유사도를 계산하고, 문서가 삭제되는 경우 유사도 관계를 끊는 방법으로 데이터를 처리한다.
증분 방식을 사용하여 유사도를 비교할 경우 새로 입력된 문서와 미리 저장된 n개의 문서를 비교하여 모든 문서 사이의 유사도를 산출할 수 있으므로 배치 방식을 사용하여 유사도를 비교할 경우보다 서비스 응답 시간을 감소시킬 수 있다.
문서 관리 모듈(110)은 모든 문서에 대하여 유사도 계산 모듈(150)에서 계산된 각 문서 사이의 유사도를 관리할 수 있다.
구체적으로, 문서 관리 모듈(110)은 2차원 행렬 또는 이와 대등한 효과를 가진 데이터 구조에 문서 사이의 유사도를 저장하고 관리할 수 있고, 증분 방식으로 유사도가 갱신되는 경우 즉시 일괄 변경할 수 있다.
유사 문서 검색 모듈(120)은 문서 관리 모듈(110)을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있고, 문서 관리 모듈(110)에 저장된 문서를 순차적으로 검색하여 기준 문서로 선택한 후 유사 문서를 검색할 수 있다.
또한, 유사 문서 검색 모듈(120)은 문서 관리 모듈(110)을 검색하여 기준 문서의 유사 문서로 검색되지 않은 문서를 검색하여 새로운 기준 문서로 선택한 후, 새로운 기준 문서의 유사 문서를 검색하는 과정을 반복하여 문서 관리 모듈(110)에 저장된 모든 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서 군집으로 군집화할 수 있다.
여기서, 새로운 기준 문서를 선택하는 방법은 군집화되지 않은 문서들 문서 ID, 참조수 또는 무작위 순으로 선택할 수 있다.
유사 문서 분류화 모듈(130)은 검색된 문서들을 하나의 군집으로 군집화할 수 있고, 기준 문서 또는 새로 선택된 기준 문서의 유사 문서로 검색된 문서들을 각각 별개의 군집으로 군집화할 수 있다.
도 7a 및 도 7b는 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 임계값에 따른 유사 문서 검색 결과를 설명하기 위한 도면이다.
예를 들어, 도 7a에 도시한 바와 같이, 임계값을 80%로 설정한 후, 문서 관리 모듈(110)에 저장된 문서를 순차로 검색하여 '문서1'을 기준 문서로 선택한 후 기준 문서에 대하여 유사도가 80% 이상인 문서들을 검색한다.
'문서1'과 80%의 유사도를 가지는 유사 문서의 검색이 완료되면, '문서1'의 유사 문서로 검색되지 않은 '문서2'를 새로운 기준 문서로 선택하고 새로운 기준 문서에 대하여 유사도가 80% 이상인 문서들을 검색한다.
'문서2'와 유사도가 80% 이상인 유사 문서 검색이 완료되면, 동일한 방법으로 '문서3'을 새로운 기준 문서로 선택하여 유사도가 80% 이상인 문서들을 검색한다.
문서 관리 모듈(110)에 저장된 '문서1'의 유사 문서는 '문서4'가 검색되고, '문서2' 또는 '문서3'의 유사 문서는 검색되지 않는다.
따라서, 유사 문서 분류화 모듈(130)은, 도 7b에 도시한 바와 같이, 각각의 기준 문서에 대하여 유사 문서로 검색된 문서들을 독립된 군집으로 구성할 수 있다.
시각화 모듈(170)은 유사 문서 검색 모듈(120)에서 검색된 문서 사이의 유사도 또는 유사 문서 분류화 모듈(130)에서 생성된 군집을 시각화하여 나타낼 수 있다.
임계값 재설정 모듈(160)은, 도 2에 도시한 바와 같이, 사용자 인터페이스(162) 및 임계값 재설정부(164)를 포함하여 구성되며, 설정된 임계값을 변경할 수 있다.
도 8은 본 발명의 일 측면에 따른 동적 임계값이 적용된 유사문서 분류화 장치의 임계값 변경을 설명하기 위한 도면이다.
예를 들어, 도 8에 도시한 바와 같이, 임계값 재설정 모듈(160)의 사용자 인터페이스(162)는 다수의 임계값을 지정하는 선택 박스(box) 형태로 형성될 수 있다.
사용자가 사용자 인터페이스(162)를 통해 새로운 임계값을 입력하면, 임계값 재설정부(164)는 미리 설정된 임계값을 새로운 임계값으로 변경하여 설정할 수 있다.
따라서, 문서 검색 중 임계값을 재설정하여 유사도가 다른 문서들을 검색할 수 있다.
임계값이 재설정되면, 유사 문서 검색 모듈(120)은 재설정된 임계값을 기준으로 유사 문서를 재검색하고, 유사 문서 분류화 모듈(130)은 재검색된 문서들을 대상으로 새로운 군집을 생성할 수 있다.
도 3은 본 발명의 다른 측면에 따른 동적 임계값이 적용된 유사문서 분류화 방법의 제1 실시예를 나타내는 흐름도를 도시한 도면이다.
본 발명의 제1 실시예에 따르면, 동적 임계값이 적용된 유사문서 분류화 방법은 주제어 추출 및 저장하고(S310), 문서 유사도 계산 및 저장하고(S320), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S330), 유사 문서를 군집화할 수 있다(S340).
먼저, 입력되거나 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 대표 주제어로 할당하여 저장할 수 있다. 각각의 문서로부터 상위 N개의 주제어 추출은 상술한 바와 같이, 다양한 방법으로 수행할 수 있다.
모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장할 수 있다.
각각의 문서 사이의 유사도 계산은 입력되거나 저장된 문서 전체 또는 미리 설정된 양의 문서 전체에 대하여 배치(Batch) 방식으로 각 문서 사이의 유사도를 계산할 수 있고, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다.
다음으로, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고, 기준 문서와 기준 문서의 유사 문서를 하나의 군집으로 군집화할 수 있다.
도 4는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제2 실시예를 나타내는 흐름도를 도시한 도면이다.
제2 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은, 도 4에 도시한 바와 같이, 주제어 추출 및 저장하고(S410), 문서 유사도 계산 및 저장하고(S420), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S430), 유사 문서를 군집화하고(S440), 군집화되지 않은 문서가 존재하는지 여부를 검색하여(S450), 군집화되지 않은 문서가 존재하는 경우 새로운 기준 문서를 선택하고(S460), 새로운 기준 문서를 기준으로 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S430), 새로운 기준 문서의 유사 문서를 군집화하고(S440), 군집화되지 않은 문서가 존재하지 않는 경우 각각의 기준 문서의 유사 문서 군집을 시각화할 수 있다(S470).
제1 실시예에 따른 동적 임계값이 적용된 유사문서 분류화 방법과 비교할 때, 제2 실시예에 따른 동적 임계값이 적용된 유사문서 분류화 방법은 기준 문서의 유사 문서를 군집화한 후(S440), 기준 문서의 유사 문서로 군집화되지 않은 문서가 존재하는지 여부를 판단(S450)하여 새로운 기준 문서를 선택한 후(S460) 다시 새로운 기준 문서와 비교하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S430), 검색된 유사 문서를 군집화할 수 있다(S440).
상기의 과정을 군집화되지 않은 문서가 검색되지 않을 때까지 반복적으로 수행함으로써 저장된 모든 문서를 유사 문서끼리 군집화할 수 있다.
새로운 기준 문서 선택(S460)은 이전의 기준 문서의 유사 문서를 제외한 저장된 문서 중 순차적으로 검색하여 결정할 수 있다.
저장된 모든 문서의 군집화가 완료되면, 군집화된 각각의 기준 문서의 유사 문서들 군집을 시각화하여 나타낼 수 있다(S470).
도 5는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 유사문서 분류화 방법의 제3 실시예를 나타내는 흐름도를 도시한 도면이다.
제3 실시예에 따른 동적 임계값이 적용된 유사문서 분류화 방법은, 도 5에 도시한 바와 같이, 주제어 추출 및 저장하고(S510), 문서 유사도 계산 및 저장하고(S520), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S530), 검색된 유사 문서를 군집화하고(S540), 군집화되지 않은 문서가 존재하는지 여부를 판단할 수 있다(S550).
군집화되지 않은 문서가 존재하는 경우, 새로운 기준 문서를 선택한 후(S560), 새로운 기준 문서의 유사 문서를 검색하여(S530) 군집화(S540)할 수 있다.
군집화되지 않는 문서가 존재하지 않는 경우(저장된 모든 문서의 군집화가 완료된 경우) 임계값을 재설정할 수 있다(S570).
임계값이 재설정되면(S570), 기준 문서에 대하여 재설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 과정(S530), 검색된 문서들을 군집화하는 과정(S540), 군집화되지 않은 문서가 존재하는지 판단하는 과정(S550), 새로운 기준 문서를 선택하고(S560), 새로운 기준 문서의 유사 문서를 검색하여 군집화하는 과정(S530~S540)을 군집화되지 않은 문서가 존재하지 않을 때까지 반복적으로 수행할 수 있다.
따라서, 제3 실시예에 따른 동적 임계값이 적용된 유사문서 분류화 방법은 사용자가 임계값을 임의로 조절하여 저장된 모든 문서를 군집화할 수 있으므로 문서 분류의 효율성을 높일 수 있다.
본 발명의 또 다른 측면에 따르면, 동적 임계값이 적용된 유사문서 분류화 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체에 기록될 수 있다.
동적 임계값이 적용된 유사문서 분류화 방법은 컴퓨터 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다.
또한, 동적 임계값이 적용된 유사문서 분류화 방법은 컴퓨터가 읽을 수 있는 정보저장매체(Computer Readable Medium)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 임계값이 변경된 경우 기준 문서와 변경된 임계값 이상의 유사도를 가지는 문서를 검색하여 새로운 군집을 생성할 수 있다.
본 발명은 임계값을 동적으로 변경하고 이에 따라 유사한 문서를 검색하여 검색된 유사 문서들을 군집화할 수 있는 동적 임계값이 적용된 유사문서 분류화 장치 및 이를 이용하여 문서를 다수의 군집으로 분류하는 장치 등에 적용할 수 있다.
100: 동적 임계값이 적용된 유사문서 분류화 장치
110: 문서 관리 모듈
120: 유사 문서 검색 모듈
130: 유사 문서 분류화 모듈
140: 주제어 저장 모듈
150: 유사도 계산 모듈
160: 임계값 재설정 모듈
162: 사용자 인터페이스
164: 임계값 재설정부
170: 시각화 모듈

Claims (19)

  1. 입력되거나 저장된 문서에 대하여 각 문서 사이의 유사도를 저장하는 문서 관리 모듈;
    상기 문서 관리 모듈을 검색하여 기준 문서와 다른 문서 사이의 유사도가 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 유사 문서 검색 모듈;
    상기 검색된 문서들을 하나의 군집으로 군집화하는 유사 문서 분류화 모듈; 및
    상기 설정된 임계값을 변경하여 저장하는 임계값 재설정 모듈을 포함하는 동적 임계값이 적용된 유사문서 분류화 장치.
  2. 제1항에 있어서,
    상기 유사 문서 검색 모듈은 상기 문서 관리 모듈에 저장된 문서를 순차적으로 검색하여 기준 문서로 선택한 후 유사 문서를 검색하고, 상기 문서 관리 모듈을 검색하여 상기 기준 문서의 유사 문서로 검색되지 않은 문서를 검색하여 새로운 기준 문서를 선택한 후 상기 새로운 기준 문서의 유사 문서를 검색하는 과정을 반복하는 것을 특징으로 하는 동적 임계값이 적용된 유사문서 분류화 장치.
  3. 제2항에 있어서,
    상기 유사 문서 분류화 모듈은 상기 기준 문서 또는 새로 선택된 기준 문서의 유사 문서로 검색된 문서들을 각각 별개의 군집으로 군집화하는 것을 특징으로 하는 동적 임계값이 적용된 유사문서 분류화 장치.
  4. 삭제
  5. 제1항에 있어서,
    상기 임계값 재설정 모듈은, 임계값을 입력하는 사용자 인터페이스; 및
    상기 사용자 인터페이스를 통해 새로운 임계값이 입력되면, 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정하는 임계값 재설정부;를 포함하는 동적 임계값이 적용된 유사문서 분류화 장치.
  6. 삭제
  7. 제1항에 있어서,
    상기 입력되거나 저장된 문서에 대하여, 각 문서로부터 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하는 주제어 저장 모듈; 및
    모든 문서 쌍에 대하여 상기 각 문서에 할당된 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하는 유사도 계산 모듈;을 더 포함하는 동적 임계값이 적용된 유사문서 분류화 장치.
  8. 제7항에 있어서,
    상기 유사도 계산 모듈은, 모든 문서 쌍에 대하여 배치(Batch) 방식으로 문서 사이의 유사도를 계산하는 동적 임계값이 적용된 유사문서 분류화 장치.
  9. 제7항에 있어서,
    상기 유사도 계산 모듈은, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 상기 새로 추가된 문서와 상기 입력되거나 저장된 문서 사이의 유사도를 계산하는 동적 임계값이 적용된 유사문서 분류화 장치.
  10. 제1항에 있어서,
    상기 유사 문서 분류화 모듈에서 군집화된 군집을 시각화하여 나타내는 시각화 모듈을 더 포함하는 동적 임계값이 적용된 유사문서 분류화 장치.
  11. 입력되거나 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 상기 각 문서의 대표 주제어로 할당하여 저장하는 단계;
    모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하고 상기 계산된 문서 사이의 유사도를 저장하는 단계;
    기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계; 및
    상기 검색된 문서들을 군집화하는 단계;를 포함하며,
    상기 검색된 문서들을 군집화하는 단계 이후에,
    상기 기준 문서의 유사 문서로 검색되지 않은 문서를 검색하여 새로운 기준 문서를 선택한 후 상기 새로운 기준 문서의 유사 문서를 검색하는 단계; 및
    상기 새로운 기준 문서의 유사 문서를 군집화하는 단계;를 포함하되,
    상기 입력되거나 저장된 문서가 모두 군집화될 때까지 상기의 단계를 반복하여 수행한 후,
    이전에 설정된 임계값을 새로운 임계값으로 변경하여 재설정하는 임계값 재설정 단계를 더 포함하는 동적 임계값이 적용된 유사문서 분류화 방법.
  12. 삭제
  13. 제11항에 있어서,
    상기 입력되거나 저장된 문서가 모두 군집화될 때까지 상기의 단계를 반복하여 수행한 후,
    각각의 기준 문서에 대하여 구성된 별개의 군집을 시각화하여 나타내는 단계를 더 포함하는 동적 임계값이 적용된 군집화 방법.
  14. 삭제
  15. 제11항에 있어서,
    상기 이전에 설정된 임계값을 새로운 임계값으로 변경하여 재설정하는 임계값 재설정 단계 이후에,
    기준 문서와 비교하여 상기 새로운 임계값 이상의 유사도를 가지는 문서를 검색하는 단계;
    상기 검색된 문서들을 군집화하는 단계;
    상기 기준 문서의 유사 문서로 검색되지 않은 문서를 검색하여 새로운 기준 문서를 선택한 후 상기 새로운 기준 문서의 유사 문서를 검색하는 단계; 및
    상기 새로운 기준 문서의 유사 문서를 군집화하는 단계;를 포함하되,
    상기 입력되거나 저장된 문서가 모두 군집화될 때까지 상기의 단계를 반복하여 수행하는 동적 임계값이 적용된 유사문서 분류화 방법.
  16. 제15항에 있어서,
    각각의 군집을 시각화하여 나타내는 단계를 더 포함하는 동적 임계값이 적용된 군집화 방법.
  17. 제11항에 있어서,
    모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하고 상기 계산된 문서 사이의 유사도를 저장하는 단계는,
    상기 모든 문서 쌍에 대해 배치(Batch) 방식으로 각 문서 사이의 유사도를 계산하는 것을 특징으로 하는 동적 임계값이 적용된 군집화 방법.
  18. 제11항에 있어서,
    모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하고 상기 계산된 문서 사이의 유사도를 저장하는 단계는,
    새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 상기 새로 추가된 문서와 상기 입력되거나 저장된 문서 사이의 유사도를 계산하는 것을 특징으로 하는 동적 임계값이 적용된 유사문서 분류화 방법.
  19. 제11항, 제13항, 및 제15항 내지 제18항 중 어느 한 항에 있어서,
    상기 동적 임계값이 적용된 유사문서 분류화 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
KR1020100085384A 2010-09-01 2010-09-01 동적 임계값이 적용된 유사문서 분류화 장치 및 방법 KR101035037B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100085384A KR101035037B1 (ko) 2010-09-01 2010-09-01 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
PCT/KR2011/003590 WO2012030049A2 (ko) 2010-09-01 2011-05-16 동적 임계값이 적용된 유사문서 분류화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100085384A KR101035037B1 (ko) 2010-09-01 2010-09-01 동적 임계값이 적용된 유사문서 분류화 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101035037B1 true KR101035037B1 (ko) 2011-05-19

Family

ID=44366141

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100085384A KR101035037B1 (ko) 2010-09-01 2010-09-01 동적 임계값이 적용된 유사문서 분류화 장치 및 방법

Country Status (2)

Country Link
KR (1) KR101035037B1 (ko)
WO (1) WO2012030049A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101847847B1 (ko) 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법
KR20210062934A (ko) * 2019-11-22 2021-06-01 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
KR20210119041A (ko) * 2020-03-24 2021-10-05 경북대학교 산학협력단 군집 기반 중복문서 제거 장치 및 제거 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176179B2 (en) 2019-09-24 2021-11-16 International Business Machines Corporation Assigning a new problem record based on a similarity to previous problem records

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040078896A (ko) * 2003-03-05 2004-09-13 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040078896A (ko) * 2003-03-05 2004-09-13 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
주제어 기반 문서 클러스터링 시스템의 설계 및 구현",장성호,국민대학교대학원 전산과학학과, 석사학위논문, pp.21-39 (2003.07.31.)*

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101847847B1 (ko) 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법
WO2018092936A1 (ko) * 2016-11-15 2018-05-24 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법
KR20210062934A (ko) * 2019-11-22 2021-06-01 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
KR102376489B1 (ko) * 2019-11-22 2022-03-18 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
KR20210119041A (ko) * 2020-03-24 2021-10-05 경북대학교 산학협력단 군집 기반 중복문서 제거 장치 및 제거 방법
KR102373146B1 (ko) 2020-03-24 2022-03-14 경북대학교 산학협력단 군집 기반 중복문서 제거 장치 및 제거 방법

Also Published As

Publication number Publication date
WO2012030049A2 (ko) 2012-03-08
WO2012030049A3 (ko) 2012-04-26

Similar Documents

Publication Publication Date Title
US9317613B2 (en) Large scale entity-specific resource classification
JP4041080B2 (ja) データ検索装置及びデータ検索プログラム
US10366154B2 (en) Information processing device, information processing method, and computer program product
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
KR20070102035A (ko) 문서 분류 시스템 및 그 방법
US10579616B2 (en) Data search system, data search method, and program product
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN103430172A (zh) 检索装置、检索方法及程序
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
KR101035037B1 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
CN105224624A (zh) 一种实现倒排链快速归并的方法和装置
JP5194818B2 (ja) データ分類方法およびデータ処理装置
JP6972935B2 (ja) 関連スコア算出システム、方法およびプログラム
JP5994490B2 (ja) データ検索プログラム、データベース装置および情報処理システム
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
KR20230057114A (ko) 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
CN106294784B (zh) 资源搜索方法及装置
KR101077982B1 (ko) 동적 임계값이 적용된 문서 브라우징 장치 및 방법
JP2010055164A (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP4640861B2 (ja) 検索処理方法及びプログラム
KR101458857B1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체
CN109213830B (zh) 专业性技术文档的文档检索系统
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140408

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150511

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee