KR100356105B1 - 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템 - Google Patents

문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템 Download PDF

Info

Publication number
KR100356105B1
KR100356105B1 KR1020000029370A KR20000029370A KR100356105B1 KR 100356105 B1 KR100356105 B1 KR 100356105B1 KR 1020000029370 A KR1020000029370 A KR 1020000029370A KR 20000029370 A KR20000029370 A KR 20000029370A KR 100356105 B1 KR100356105 B1 KR 100356105B1
Authority
KR
South Korea
Prior art keywords
document
sentence
topic
search
information
Prior art date
Application number
KR1020000029370A
Other languages
English (en)
Other versions
KR20000054268A (ko
Inventor
전상훈
Original Assignee
주식회사 엔아이비소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엔아이비소프트 filed Critical 주식회사 엔아이비소프트
Priority to KR1020000029370A priority Critical patent/KR100356105B1/ko
Publication of KR20000054268A publication Critical patent/KR20000054268A/ko
Application granted granted Critical
Publication of KR100356105B1 publication Critical patent/KR100356105B1/ko

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B07SEPARATING SOLIDS FROM SOLIDS; SORTING
    • B07CPOSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
    • B07C5/00Sorting according to a characteristic or feature of the articles or material being sorted, e.g. by control effected by devices which detect or measure such characteristic or feature; Sorting by manually actuated devices, e.g. switches
    • B07C5/34Sorting according to other particular properties

Abstract

자동 요약을 이용하여 주제어 데이터베이스와 주제문장 데이터베이스를 구축한 후, 키 문서를 입력으로 받아 키 문서의 내용과 유사한 내용을 갖는 문서를 검색한다. 먼저 키 문서의 주제어와 주제문장 정보를 추출한 후, 주제어 데이터베이스 내의 주제어를 검색하여 키 문서의 주제어와 일치하는 주제어를 갖는 문서에 가중치를 부여하는 방식으로 주제어별 가중치를 계산하고, 주제문장 데이터베이스 내의 주제문장에 대해 키 문서의 주제어를 얼마나 많이 포함하고 있는지에 대한 가중치를 계산하여 주제문장별 가중치를 계산한 후 두 가중치를 합하여 문서를 분류한다. 분류된 문서는 키 문서와의 연관성이 높은 것부터 차례로 사용자에게 표시되며, 키 문서와 검색 대상 문서 내에서 일치하는 주제어 그룹이 동일한 것끼리 묶어 그룹 내에서 연관성이 높은 것부터 낮은 것의 순서로 표시할 수도 있다.
문서 자체를 검색 키로 하여 이와 유사한 내용을 갖는 문서를 검색할 수 있으므로, 한번의 검색으로 원하는 정보를 쉽고 빠르게 찾을 수 있으며, 문서에 대한 검색 결과를 문서의 주제와 관련된 요약 정보로 표시하여 주므로, 검색 결과를 다시 확인해야 하는 불편함이 없이 빠르게 원하는 정보를 찾을 수 있다.

Description

문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서 분류 검색 시스템{Method and system for document classification and search using document auto-summary system}
본 발명은 문서 분류 검색 방법 및 문서 분류 검색 시스템에 관한 것으로서, 특히 자동 요약을 이용하여 구축된 데이터베이스를 사용하여 문서 자체를 대상으로 특정 문서와 유사한 문서를 탐색하여 분류하고 검색할 수 있도록 해 주는 문서 분류 검색 방법 및 시스템에 관한 것이다.
기존의 문서 분류 검색 시스템은 공통적으로 검색어(keyword)를 사용한 검색 시스템이다. 이와 같이 핵심 단어로 웹 문서를 검색하는 경우는 사용자가 간단한 검색어 입력만으로 정보를 검색할 수 있지만, 검색 결과의 양이 지나치게 많고 실제로 검색 결과에서 사용자가 필요로 하는 문서를 다시 한 번 일일이 확인을 해야하기 때문에, 검색 결과 확인에 많은 시간을 투자하여야 한다는 단점이 있다. 즉, 검색 결과가 전체적인 문서 내용을 기반으로 이루어지는 것이 아니어서 검색된 문서가 원하는 정보를 담고 있는 문서인지 확신할 수 없으므로 필요한 정보를 쉽고 정확하게 찾고 싶다는 사용자의 요구를 충족시키기 어려우며, 검색에 있어서 핵심이라고 할 수 있는 시간과 노력의 절약이라는 측면에서 사용자의 불만이 많다.
이에 대한 해결 방법으로 검색 결과에서 검색어가 포함된 문장을 제시하는방법이 사용되고 있다. 이 경우 사용자가 웹 문서의 내용을 어느 정도 파악할 수 있기는 하지만, 검색어를 포함한 문장만을 부분적으로 조합하여 요약문으로 제시하기 때문에 내용에 일관성이 없고, 문장 조합만으로는 문서의 전체적인 내용을 이해할 수 없으며, 문장에 검색어가 포함되어 있더라도 문서의 전체적인 내용이 사용자가 요구하는 내용이 아닐 수 있다는 등의 문제점이 있다.
따라서, 특정한 문서 자체와 유사한 것들을 탐색하여 관련성을 기준으로 분류하여 결과를 보여주는 문서 분류 및 검색 시스템이 있다면 매우 유용할 것이다.
한편, 방대한 양의 문서의 내용을 쉽게 파악할 수 있도록 하기 위한 방법으로 여러 가지 자동 요약 시스템이 개발되어 있다. 문서 자동 요약 시스템이란 간단히 말하면 '문서의 내용을 일정한 크기로 줄여주는 것'이라고 할 수 있으며, 주어진 문서에서 중요하지 않은 부분이나 사소한 부분을 생략하면서 핵심적인 내용을 일관성있게 추려내어 모아주는 문서 내용 압축 시스템이다.
통상 자동 요약 시스템에서 자동 요약을 하는 과정은 먼저 문서의 내용을 읽어들여서 요약용의 해석 단위로 분류하는 파싱(parsing) 단계로부터 시작한다. 문서 자동 요약 시스템에서는 문서를 문단의 집합으로 간주하고, 문장은 다시 단어의 집합으로 파악하며, 단어가 문서 자동 요약 시스템의 최하위 요소인 동시에 주제어(keyword)의 역할을 한다. 문서 자동 요약의 두번째 단계는 문서의 주제어 정보를 구축하는 것이다. 즉, 문서의 최하위 요소인 단어를 기준으로 빈도 정보를 수집하여 주제어 정보를 구축한다. 주제어 정보를 구축한 후에는 주제문장을 선별하기 위해서 각 문장별로 문장의 가중치를 계산한다. 문장의 가중치 계산은 2단계로 나누어 진행되는데, 먼저 각 문장에 대해 주제어가 나타난 빈도를 중심으로 점수를 부여하고, 문장의 길이와 문장에 포함된 주제어의 길이를 기준으로 점수를 부여하여 각 문장별 가중치를 계산한다. 이와 같이 하여 각 문장의 가중치가 계산되면 가중치가 높은 문장부터 차례로 문장을 선택하여 지정한 분량의 요약문을 생성한다.
따라서, 이와 같은 자동 요약 시스템을 적절히 활용한다면 사용자가 원하는 정보를 포함하는 문서를 검색하는 데에 유용하게 사용할 수 있을 것이다.
본 발명은 이러한 점을 감안하여 이루어진 것으로서, 본 발명의 목적은 특정한 문서를 검색키로 하여 이와 유사한 문서를 찾을 수 있는 문서 분류 및 검색 시스템을 제공하는 것이다.
본 발명의 다른 목적은 문서 검색 결과에 대해 개별 문서의 내용을 직접 일일이 확인하지 않고도 원하는 내용의 문서를 찾을 수 있는 문서 분류 및 검색 시스템을 제공하는 것이다.
본 발명의 또다른 목적은 검색한 문서의 내용을 사용자가 쉽고 빠르게 파악할 수 있는 문서 분류 및 검색 시스템을 제공하는 것이다.
도 1은 본 발명의 문서 분류 검색 시스템을 이용하여 문서를 검색하는 과정을 보여주는 개요도이다.
도 2는 본 발명의 문서 분류 검색 시스템의 내부 구성의 일예를 보여주는 개략 블록도이다.
도 3는 본 발명의 문서 분류 검색 시스템 내의 주제어 정보 데이터베이스에 저장되는 데이터의 구조를 나타낸다.
도 4a와 도 4b는 각각 본 발명의 문서 분류 검색 시스템 내의 주제문장 정보 데이터베이스 내에 저장되는 데이터의 구조와 주제문장 정보 데이터베이스 내의 각레코드 내의 문장 정보 필드의 데이터 구조를 나타낸다.
도 5는 본 발명의 문서 분류 검색 과정을 나타내는 흐름도이다.
도 6은 키 문서 입력 과정의 상세한 흐름을 나타내는 흐름도이다.
도 7은 검색하고자 하는 키 문서 입력 화면의 예이다.
도 8과 도 9는 각각 주제어별 가중치 계산 과정과 주제문장별 가중치 계산 과정의 상세한 흐름을 나타내는 흐름도이다.
도 10과 도 11은 검색 결과를 사용자에게 표시하는 화면 구성의 예이다.
도 12는 본 발명의 문서 분류 검색 시스템을 이용하여 실제로 문서를 검색한 사례를 나타내는 도면이다.
이와 같은 목적을 달성하기 위한 본 발명의 문서 분류 검색 방법에서는, 입력 문서와의 유사성을 기준으로 검색 대상 문서를 분류 검색하며, 검색 키 문서(key document)를 입력하는 제 1 단계, 검색 키 문서의 주제어 정보를 생성하는 제 2 단계, 검색 대상 문서 내에 포함된 각 주제어에 대하여 주제어를 내용으로 하는 주제어 필드와 주제어를 포함하는 검색 대상 문서의 문서 식별자를 내용으로 하는 하나 이상의 문서 식별자 필드를 포함하는 레코드를 포함하는 주제어 정보 데이터베이스를 이용하여 검색 대상 문서에 주제어별 가중치를 부여하는 제 3 단계, 각 검색 대상 문서에 대하여 검색 대상 문서의 문서 식별자를 내용으로 하는 문서 식별자 필드와 검색 대상 문서를 구성하는 문장의 정보를 내용으로 하는 하나 이상의 문장 정보 필드를 포함하는 레코드를 포함하며, 문장 정보 필드는 각각 문장의 번호, 문서 내에서의 문장의 위치, 문장의 길이, 문장이 포함하고 있는 주제어의 비율에 따라 정해지는 문장 가중치를 내용으로 하는 문장번호, 문장위치, 문장길이, 문장가중치 서브필드와 각 문장 내에 포함되어 있는 주제어 식별자를 내용으로 하는 하나 이상의 주제어 식별자 서브필드를 포함하고 있는 주제문장 정보 데이터베이스를 이용하여, 검색 대상 문서에 주제문장별 가중치를 부여하는 제 4 단계, 주제어별 가중치와 주제문장별 가중치를 합한 전체 가중치가 높은 것으로부터 낮은 것의 순서로 검색 대상 문서를 분류하는 제 5 단계를 포함한다.
여기에서, 검색 키 문서를 입력하는 제 1 단계에서는 검색 키 문서의 내용을 직접 입력하거나, 검색 키 문서의 파일명을 지정하거나, 검색 키 문서가 존재하는 인터넷 주소를 지정할 수 있다.
한편, 검색 키 문서의 주제어 정보는 주제단어와 주제단어의 출현빈도에 따른 주제단어 가중치를 포함하고, 주제어별 가중치를 부여하는 제 3 단계는, 주제어 정보 데이터베이스를 이용하여, 검색 키 문서의 주제단어와 일치하는 주제어를 갖는 검색 대상 문서에 가중치를 부여하는 제 3-1 단계와 검색 대상 문서에 키 문서의 주제단어 가중치에 따른 가중치를 부여하는 제 3-2 단계를 포함할 수 있고, 주제문장별 가중치를 부여하는 제 4 단계는, 주제문장 정보 데이터베이스를 이용하여 각 검색 대상 문서의 주제문장을 추출하는 제 4-1 단계, 주제문장 정보 데이터베이스를 이용하여 추출된 각 검색 대상 문서의 주제문장에 대한 주제어를 추출하는 제 4-2 단계, 검색 키 문서의 주제단어와 일치하는 주제어를 포함하는 주제문장을 갖는 검색 대상 문서에 가중치를 부여하는 제 4-3 단계, 검색 대상 문서에 검색 키 문서의 주제단어 가중치에 따른 가중치를 부여하는 제 4-4 단계, 검색 대상 문서의 주제문장에서 주제단어의 점유율을 계산하여 가중치를 부여하는 제 4-5 단계를 포함할 수 있다.
또한, 분류된 문서를 사용자에게 표시하는 제 6 단계를 더 포함할 수 있으며, 검색 키 문서를 입력하는 제 2 단계에서 검색 키 문서의 주제문장 정보를 생성하고, 제 6 단계에서 검색 키 문서의 문서 정보와 분류된 문서의 문서 정보를 함께 표시하되, 검색 키 문서의 문서 정보는 검색 키 문서의 주제어 정보와 주제문장 정보를 포함하고, 분류된 문서의 문서 정보는 주제어 정보 데이터베이스와 주제문장 정보 데이터베이스를 이용하여 추출된 분류된 문서의 주제어 정보와 주제문장 정보를 포함한다. 또한, 분류된 문서의 문서 정보는 분류된 문서에 포함되어 있는 검색 키 문서의 주제단어의 집합이 일치하는 문서들을 그룹으로 묶어 그룹 내에서 전체 가중치가 높은 것으로부터 낮은 것의 순서로 검색 대상 문서를 분류하여 표시할 수도 있다.
한편, 본 발명에 따른 하는 문서 분류 검색 시스템은, 검색 대상 문서 내에 포함된 각 주제어에 대하여 주제어를 내용으로 하는 주제어 필드와 주제어를 포함하는 검색 대상 문서의 문서 식별자를 내용으로 하는 하나 이상의 문서 식별자 필드를 포함하는 레코드를 포함하는 주제어 정보 데이터베이스, 각 검색 대상 문서에 대하여 검색 대상 문서의 문서 식별자를 내용으로 하는 문서 식별자 필드와 검색 대상 문서를 구성하는 문장의 정보를 내용으로 하는 하나 이상의 문장 정보 필드를 포함하는 레코드를 포함하며, 문장 정보 필드는 각각 문장의 번호, 문서 내에서의 문장의 위치, 문장의 길이, 문장이 포함하고 있는 주제어의 비율에 따라 정해지는 문장 가중치를 내용으로 하는 문장번호, 문장위치, 문장길이, 문장가중치 서브필드와 각 문장 내에 포함되어 있는 주제어 식별자를 내용으로 하는 하나 이상의 주제어 식별자 서브필드를 포함하고 있는 주제문장 정보 데이터베이스, 입력 문서로부터 주제어 정보를 추출할 수 있는 주제어 정보 추출 수단, 추출된 상기 주제어 정보를 입력으로 받아 입력된 주제어와 동일한 문자열의 존재를 검색할 수 있는 검색 수단을 포함하며, 상기 검색 수단은, 주제어 정보 데이터베이스를 이용하여 각 검색 대상 문서에 주제어별 가중치를 부여하고, 주제문장 정보 데이터베이스를 이용하여 상기 검색 대상 문서에 주제문장별 가중치를 부여하여, 주제어별 가중치와 주제문장별 가중치를 합한 전체 가중치가 높은 것으로부터 낮은 것의 순서로 검색 대상 문서를 분류할 수 있는 것을 특징으로 한다.
또한, 입력 문서로부터 주제문장 정보를 추출할 수 있는 주제문장 정보 추출 수단을 더 포함하거나, 검색 결과를 사용자에게 표시할 수 있는 표시 수단을 더 포함할 수도 있고, 검색 대상 문서의 내용을 텍스트 데이터로 저장하는 검색 대상 문서 텍스트 데이터베이스를 더 포함할 수도 있다.
이제 본 발명의 바람직한 실시예에 대하여 도면을 참고로 하여 상세히 설명한다.
도 1은 본 발명의 문서 분류 검색 시스템을 이용하여 문서를 검색하는 과정을 보여주는 개요도이다.
먼저 문서 분류 검색 시스템(120)은 검색 요구가 있을 것에 대비해서 검색 대상 문서(110)에 대하여 문서 요약 정보를 생성하여 자체 내에 데이터베이스로 보관하고 있다. 클라이언트 컴퓨터(140)에 의해 인터넷(130)을 통해 문서 검색 요청이 있는 경우, 문서 분류 검색 시스템(120)은 미리 보관된 문서 요약 정보를 이용하여 문서 검색을 수행하고 이 결과를 역시 인터넷(130)을 통해 클라이언트 컴퓨터(140)로 제공한다.
다음으로, 도 2를 참조하여 문서 분류 검색 시스템의 내부 구성에 대해 설명한다. 도 2는 본 발명의 문서 분류 검색 시스템의 내부 구성의 일예를 보여주는 개략 블록도이다.
문서 자동 요약 모듈(210)은 입력으로 문서를 받아들여 주제어 정보와 주제문장 정보를 포함하는 문서 요약 정보를 생성한다. 사용자로부터 문서 검색 요구가 있을 경우, 사용자는 검색하고자 하는 키 문서를 문서 분류 검색 시스템(120)으로 입력하며, 입력된 키 문서에 대하여 문서 자동 요약 모듈(210)이 자동 요약을 수행하여 키 문서 요약 정보를 생성한다. 생성된 키 문서 요약 정보는 검색을 위하여문서 검색 모듈(250)로 전달된다.
한편, 본 발명의 문서 분류 검색 시스템(120)은 사용자의 검색 요구가 있을 것에 대비하여 검색 대상이 되는 문서에 대해 요약 정보를 생성하여 이를 각각 주제어 정보 데이터베이스(230)와 주제문장 정보 데이터베이스(240)에 저장하여 두고, 이는 요약 정보 관리 모듈(220)에 의해 관리된다. 문서 자동 요약 모듈(210)은 요약 정보 관리 모듈(220)과도 연동되어 이와 같은 데이터베이스를 구축하기 위한 단계에서 검색 대상 문서에 대한 요약 정보를 생성한다. 또한, 검색 대상 문서의 내용은 텍스트 부분만 별도로 분리되어 문서의 전체 내용이 검색 대상 문서 텍스트 데이터베이스(260)에 저장된다. 이와 같이 함으로써, 이후 검색 결과를 사용자에게 표시할 때, 검색 대상 문서에 재차 접근할 필요가 없이 검색 대상 문서 텍스트 데이터베이스(260)에 저장된 내용을 이용하여 표시할 수 있게 된다.
문서 검색 모듈(250)은 문서 자동 요약 모듈(210)로부터 키 문서 요약 정보를 입력받고, 키 문서 요약 정보를 바탕으로 주제어 정보 데이터베이스(230)와 주제문장 정보 데이터베이스(240)를 검색하여 키 문서와 유사한 문서를 검색하는 본 발명의 핵심적인 기능을 한다.
문서 검색 모듈(250)에 의해 수행된 문서 분류 검색의 결과는 결과 표시 모듈(270)에 의해 사용자에게 표시되며, 이 때 검색 대상 문서 텍스트 데이터베이스(260)에 저장되어 있는 검색 대상 문서의 내용을 함께 사용자에게 표시할 수 있다.
주제어 정보 데이터베이스(230)와 주제문장 정보 데이터베이스(240)에 저장되는 데이터의 구조가 도 3, 도 4a 및 도 4b에 나타나 있다.
주제어 정보 데이터베이스(230)는, 도 3에 나타난 바와 같이, 검색 대상 문서에서 나타나는 주제어 별로 구성되어 있다. 즉, 각 주제어 별로 주제어 자체가 내용이 되는 주제단어 필드와 해당 주제어를 포함하고 있는 문서의 ID를 포함하는 하나 이상의 문서 ID 필드를 포함하는 레코드를 단위로 구성된다. 각 필드는 필요에 따라 다양한 문서 정보를 포함하는 여러 서브필드들로 구성될 수 있다.
이에 비해 주제문장 정보 데이터베이스(240)는, 도 4a에 나타난 바와 같이, 검색 대상 문서별로 구성되어 있다. 주제문장 정보 데이터베이스의 각 레코드는 해당 검색 대상 문서의 문서 ID 필드와 문서에 포함된 각 문장의 문장 정보를 내용으로 하는 하나 이상의 문장 정보 필드로 구성된다. 문장 정보 필드는 다시 여러 개의 서브필드로 나뉘어 있는데, 문장 정보 필드의 상세한 데이터 구조가 도 4b에 나타나 있다. 즉, 문장 정보 필드는 각각 문장의 번호, 문서 내에서의 문장의 위치, 문장의 길이, 문장이 포함하고 있는 주제어의 비율에 따라 정해지는 문장 가중치를 내용으로 하는 문장번호, 문장위치, 문장길이, 문장가중치 서브필드를 갖고 있으며, 각 문장 내에 포함되어 있는 주제어 ID를 내용으로 하는 하나 이상의 주제어 ID 서브필드를 또한 포함하고 있다.
이제, 사용자로부터의 검색 요구가 있을 때의 문서 검색 과정에 대해 도 5를 참고하여 설명한다. 도 5는 본 발명의 문서 검색 과정을 나타내는 흐름도이다.
먼저 검색하고자 하는 키 문서(key document)를 입력한다(S510). 본 발명의 문서 분류 검색 시스템의 특징은 문서를 검색하기 위해서 키워드를 입력하지 않고키 문서를 입력한다는 점이며, 이에 따라 키 문서와 유사한 내용을 갖는 문서를 검색해 준다는 점이다.
도 6은 키 문서 입력 과정의 상세한 흐름을 나타내는 흐름도이다. 도 6을 참조하면, 검색할 문서를 입력하는 방법은 크게 세 가지가 있다. 첫번째 방법은 검색할 문서의 내용을 직접 입력하는 것이며(S610), 이 때 문서 분류 검색 시스템은 텍스트의 입력창을 사용자에게 제공하고, 이는 HTML의 Form 태그와 <input type='textarea'> 태그를 이용하여 구현할 수 있다.
두번째 방법은 사용자의 컴퓨터에 있는 문서를 지정하는 것으로(S620), 이와 같이 할 경우 사용자 컴퓨터의 파일을 웹 브라우저를 이용하여 문서 분류 검색 시스템으로 전송한다(S640). 파일 전송의 경우 HTML의 Form 태그와 <input type='file'> 태그를 이용한다. 이 때 문서 분류 검색 시스템은 검색하고자 하는 파일명을 입력할 수 있는 입력창을 제공하며, 사용자 시스템 내의 파일을 찾을 수 있는 찾아보기 기능을 제공할 수 있다. 도 7에는 사용자의 웹 브라우저에 나타나는 키 문서 입력 화면의 예가 도시되어 있다.
키 문서 입력 화면에서는 또한 주제어와 주제문장의 비율을 선택할 수 있도록 할 수도 있다. 주제어와 주제문장의 비율은 문서 분류 검색 시스템에서 미리 설정하여 둘 수도 있지만, 이를 사용자가 선택할 수 있도록 함으로써 사용자가 원하는 정도에 따라 문서 검색의 수준을 정할 수 있다. 주제어와 주제문장은 각각 개수나 크기별(5단어, 10단어 또는 512 byte, 1kbyte 등)로 선택하거나 비율(1%, 5%, 10% 등)로 선택할 수 있다.
세번째 방법은 사용자의 컴퓨터에는 없고 인터넷을 통하여 접근이 가능한 다른 컴퓨터에 있는 문서를 지정하는 것으로, 이렇게 하기 위해서는 문서의 인터넷 주소를 입력하면 된다(S630). 이 때 문서 분류 검색 시스템은 사용자의 웹브라우저에 주소 입력창을 제공하고, 해당 인터넷 주소로 접근하여 사용자가 지정한 문서를 읽어온다(S650).
파일의 내용을 읽어온 후에는 파일 내용이 보통의 텍스트로 처리가 가능한 텍스트 데이터인지를 검사한다(S660). 보통의 텍스트로 처리가 가능한 아스키 텍스트 파일(.txt)은 바로 키 문서 입력(S510)의 다음 단계인 키 문서 요약 정보 생성 단계(S520)로 처리가 진행되지만, 이를 제외한 나머지 바이너리 형식으로 된 파일이나 웹 문서(.html)들은 문서 분류 검색 시스템 내부에서 별도의 텍스트 필터를 사용하여 텍스트를 추출한다(S670).
이와 같이, 보통의 텍스트 문서가 아닌 경우는 문서 분류 검색 시스템 내부에서 문서 필터 처리를 하게 되므로, 검색할 문서의 종류는 아스키 텍스트 파일(.txt), 웹 문서(.html), 워드프로세서 파일(.doc, .hwp, .gul 등) 및 기타 텍스트를 포함한 파일 등은 모두 가능하다.
다음, 입력된 키 문서에 대해서 요약 정보를 추출한다(S520). 키 문서의 요약 정보 추출은 문서 분류 검색 시스템의 문서 자동 요약 모듈(210)에 의해 이루어지는데, 문서의 최하위 요소인 단어를 기준으로 빈도 정보를 수집하여 주제어 정보를 구축하고, 각 문장별로 문장의 가중치를 계산하여 주제어 정보와 주제문장 정보를 생성한다. 이렇게 처리하여 생성된 키 문서의 주제어 정보는 빈도에 의한 주제어 가중치를 포함하며, 키 문서의 주제문장 정보는 주제어 가중치(주제어의 출현 빈도에 따라 계산된 가중치), 문장 길이, 문장 안에서 단어 수에 의해 계산된 문장 가중치를 포함한다.
키 문서에 대해 추출된 주제어 정보는 이후의 검색 과정에서 유사한 문서를 검색하는 검색 키로서 사용되고, 추출된 주제문장 정보는 검색 결과를 표시할 때 키 문서에 대해 요약 정보를 제공하기 위해 사용된다. 따라서, 필요에 따라서는 주제어 정보만을 추출하여 검색에 사용하고, 검색 결과 표시 단계에서는 입력 문서 전체를 표시하거나, 입력 문서에 대해서는 문서의 제목만을 표시하는 등으로 할 수도 있다.
이제 키 문서의 주제어 정보를 이용하여 검색 대상인 각 문서에 대해 주제어별 가중치를 계산한다(S530). 주제어에 대한 가중치 계산은 키 문서에서 생성된 주제어 정보를 문서 요약 정보 관리 시스템이 보관하고 있는 주제어 정보와 비교하여 각 검색 대상 문서별로 가중치를 계산하는 것이다. 주제어별 가중치의 계산은 크게 2 단계로 이루어진다. 주제어별 가중치 계산 과정의 상세한 흐름이 도 8에 나타나 있다.
첫번째 단계에서는 키 문서의 주제어 목록을 주제어 정보 데이터베이스의 각 주제어와 비교하여(S810) 일치하는 주제어를 갖고 있는 문서에 대해 가중치를 부여하는 방식으로 키 문서와 각 문서의 주제어 가중치를 계산한다(S820). 이렇게 하면, 일치하는 주제어를 많이 포함한 문서일수록 주제어 개수에 대한 가중치가 높아진다. 또한 이 때, 일치하는 주제어가 검색 대상 문서의 전체 주제어에서 차지하는비율을 백분율로 계산하여 첫번째 단계에서 부여된 가중치에 곱한다. 이는 각 문서마다 전체 주제어의 수가 다르기 때문에 일률적으로 주제어 가중치를 적용할 경우에 변별력이 낮아지는 문제를 해결하기 위한 것이다.
두번째 단계는 키 문서의 개별 주제어가 지닌 주제어별 가중치를 검색된 문서의 주제어에 누적해서 계산하는 과정이다(S830). 이는 첫번째 단계에서 제시하는 주제어 가중치를 보완하는 작업으로서, 단순하게 어휘 목록을 많이 가지고 있는 문서보다는 빈도가 높은 주제어를 많이 포함한 문서일수록 유사한 문서로 판정하기 위한 작업이다. 다음, 이에 대해서도 전체 주제어 수가 다른 것에 따른 변별력 저하를 해결하기 위해서, 검색 키 문서와 검색 대상 문서에서 일치하여 발견된 주제어의 주제어별 가중치의 합을 검색 대상 문서의 전체 주제어의 주제어별 가중치 합에 대한 백분율로 계산한다.
한편, 주제어에 대하여 가중치를 계산하는 방법으로는 두 가지를 사용할 수 있다. 첫번째 방법은 전체 주제어 목록을 모두 이용하여 처리하는 방법이고, 두번째 방법은 부분적인 상위(high range) 주제어만 가지고 처리하는 방법이다.
첫번째 방법의 경우에는 시간이 많이 걸린다는 단점이 있지만, 전체적인 주제어에 대한 일치 정도를 정확하게 계산할 수 있다는 장점이 있어 일치 정도가 정확한 검색이 필요한 경우에 사용한다. 두번째 방법은 빈도가 높은 핵심 주제어를 이용하기 때문에 주제 정보에 대한 변별력을 높일 경우에 적용할 수 있으며, 시간이 상대적으로 덜 걸린다는 장점이 있다.
한편, 정확도를 높이기 위해서는 두 가지 방법을 복합적으로 사용할 수도 있다. 즉, 전체 주제어를 가지고 1차 주제어 가중치를 계산한 후에 핵심 주제어만을 가지고 2차 가중치를 추가로 적용하는 것이다.
이와 같이 각 검색 대상 문서에 대해 주제어별 가중치를 계산하면 각 문서별로 주제어별 가중치가 높은 문서부터 차례로 분류된다. 그런데 주제어만 가지고 가중치를 계산하면, 주제어의 분포나 주제어 간의 결합 관계를 고려하지 않았기 때문에 단순하게 주제어가 많이 나타날수록 가중치가 높아진다는 한계가 있다. 즉, 주제어를 많이 포함한 문서일수록 유사한 문서로 판정하게 되는데 이러한 한계를 극복하려면 주제어 간의 분포나 문장 안에서 주제어의 결합 관계를 검사해야 한다. 따라서, 다음 단계로 주제문장별 가중치를 계산한다(S540).
도 9는 주제문장별 가중치 계산 과정의 상세한 흐름을 나타내는 흐름도이다.
주제문장에 대한 가중치를 계산하기 위해서는 먼저 주제문장을 선별(S910)하는데, 이는 주제문장 정보 데이터베이스(240)에서 문서별로 가중치가 높은 것부터 낮은 것의 순서로 일정 비율만큼 주제 문장으로 선택하는 방식으로 수행된다.
다음으로는 선택된 주제 문장 내의 주제어를 주제문장 정보 데이터베이스로부터 추출하고(S920), 이 주제어와 키 문서의 주제어를 비교하여 키 문서의 주제어가 나타날 때마다 해당 문서에 대해 가중치를 부여해 준다(S930).
이제 키 문서의 주제어별 가중치를 문서에 누적해서 계산해 준다(S940). 즉, 키 문서의 주제어 중 빈도가 높은 주제어를 포함하는 문서일수록 높은 가중치를 갖게 된다.
마지막으로, 주제 문장에서 키 문서의 주제어의 점유율, 즉, 선택된 주제 문장에서 발견된 키 문서의 주제어가 차지하는 비율(전체 문장 길이에 대한 주제어의 길이)을 계산한다(S950). 이와 같이 길이 비율에 의한 백분율을 적용하는 것은 문장 길이에 대한 변별력을 높이기 위한 것으로서, 각 문서마다 길이가 다르고 문서 내의 각 문장마다 길이가 다르기 때문에 일률적으로 주제어와 주제 문장 가중치를 적용할 경우 변별력이 낮아지는 문제를 해결한다.
결과적으로 가중치가 높은 키 문서의 주제어를 많이 포함한 문장일수록 주제 문장에 대한 가중치가 높아진다.
주제어 가중치와 주제 문장 가중치를 적용하면 최종적으로 검색 대상인 각 문서에 대해 가중치가 계산된다. 이와 같이 계산된 가중치를 가지고 가중치가 높은 것으로부터 정렬하여 문서를 분류하고(S550), 이를 사용자에게 표시한다.
도 10과 도 11은 이와 같이 처리한 결과를 사용자에게 표시하는 화면 구성의 예이다.
결과 처리 화면은 크게 키 문서 영역과 결과 문서 영역으로 나뉘어진다. 키 문서 영역에서는 키 문서 제목과 키 문서의 내용, 키 문서의 주제어, 키 문서의 일반적인 문서 정보를 표시한다. 이 때 키 문서의 내용에서는 앞서 키 문서에 대해 생성된 요약 정보 중 주제문장 정보를 이용하여 일정 비율로 요약된 문서의 요약을 제시할 수 있다. 키 문서 주제어의 내용에서는 역시 키 문서에 대해 생성된 요약 정보 중 주제어 정보를 이용하여 키 문서의 주제어를 표시하며, 일정한 비율 또는 개수로 표시할 주제어를 제한할 수 있다.
결과 문서 영역에서는 검색 결과 키 문서와의 연관성이 가장 큰 것으로부터낮은 것의 순서로 표시할 수도 있고, 주제어 연관성에 따라 문서를 일정한 그룹으로 묶은 후에 그룹 내의 문서에 대해 가중치 순서로 표시하여 보여줄 수도 있다. 여기에서, 주제어 연관성에 따라 문서를 분류한다는 것은 검색된 문서마다 보유하고 있는 키 문서의 주제어를 가지고 판단하여, 동일한 주제어를 가지고 있는 문서를 하나의 그룹으로 설정한 다음 같은 그룹 안에서 가중치가 높은 문서부터 차례로 보여준다는 것이다. 즉, 주제어 연관성 별로 검색 문서를 표시할 경우, 도 11에 나타난 바와 같이, 각 문서 그룹에 대해 연관된 주제어를 표시하고 해당 그룹에 속하는 문서를 가중치순으로 정렬하여 표시한다.
결과 문서 영역에서 표시하는 결과 문서 정보는 키 문서의 정보와 유사한 형태로 처리한다. 즉, 결과 문서 제목과 결과 문서의 내용, 결과 문서의 주제어, 결과 문서의 일반적인 문서 정보를 표시한다. 여기서 결과 문서의 내용으로 주제문장 정보 데이터베이스의 주제문장 정보를 이용하여 결과 문서의 요약 정보를 제시하므로 사용자는 결과 문서로 직접 접근하여 내용을 확인하지 않고도 결과 문서의 내용을 쉽게 파악할 수 있다.
이제, 문서 자동 요약법을 이용하여 실제로 문서를 분류하여 검색한 사례에 대해 설명한다. 이 사례는 유니텔에서 수집한 연합 뉴스 데이터를 가지고 문서 분류 검색을 시도한 것인데, 이 데이터의 특징은 다음과 같다.
연합 뉴스에서 하나의 문서의 평균 길이는 500 - 1,000 바이트 정도이며, 총 문서 개수는 18,359건이다. 기간은 1997년 6월 16일부터 1999년 9월 30일까지이며, 키 문서로 사용한 것은 1997년 6월 17일자 기사 중에서 하나를 선택하였다. 가능한한 원문 내용을 고치지 않았으므로 띄어쓰기나 맞춤법에 어긋나는 경우가 있음을 감안해야 한다.
사례의 검색 결과를 표시하는 화면예가 도 12에 나타나 있다.
키 문서로 사용한 문서는 1997년 6월 17일 전주에서 음주 측정을 거부한 운전자를 구속했다는 내용으로, 이 문서에서 주제어를 추출하면 "음주, 혐의, 거부, 검문, 경찰, 구속, 단속, 도로교통법, 등록, 마흔살, 북부, 삼거리, 서신동, 소속, 연합, 요구, 위반, 운전자, 전주} 등이 나타난다. 이러한 주제어를 기반으로 유사한 문서를 검색하여 두 단어간의 관계를 중심으로 살펴보면 {음주-혐의(36건), 음주-구속(29건), 음주-측정(17건)} 순으로 관련된 문서를 찾을 수 있으며, 이것을 세 단어, 네 단어로 계속 확장하면 최종적으로 {음주-구속-단속-혐의-거부-검찰(1건)}에 해당하는 문서를 찾을 수 있다. 이렇게 최종적으로 찾은 문서는 1997년 6월 23일 서울에서 음주 측정을 거부한 사람에 대하여 영장을 기각했다는 내용으로, 이 문서의 주제어는 {음주, 서울, 구속, 오토바이, 경우, 동부, 경찰관, 기각, 도로교통법, 연합, 혐의, 거부, 검찰, 계속, 구속영장, 남대문, 도주, 등록} 등으로 나타난다. 두 문서를 비교해보면, 음주 측정과 관련된 내용으로서 모두 음주 측정을 거부하였지만 한 사람은 구속되고 다른 한 사람은 영장이 기각되었다는 내용이다. 이와 같이 최종적으로 분류된 문서는 키 문서와 유사한 내용으로서 주제는 음주 측정과 관련되어 있다는 사실을 한눈에 파악할 수 있다. 그리고 나머지 분류 등급이 낮은 문서들을 살펴보면 {음주-구속-단속-혐의-거부} 등의 주제어에 의해서 분류된 것으로 모두 음주 측정 단속에서 측정을 거부한 혐의로 구속되는 것과 관련된 내용들이다. 마찬가지로 점점 분류 등급이 낮은 문서를 확인해보면, {음주-측정, 음주-단속} 등과 관련된 내용이지만 직접적으로 키 문서와의 관련성이 점점 줄어드는 것을 확인할 수 있다.
본 발명에 따르면, 문서 자체를 검색 키로 하여 이와 유사한 내용을 갖는 문서를 검색할 수 있으므로, 한번의 검색으로 원하는 정보를 쉽고 빠르게 찾을 수 있다.
또한, 문서에 대한 검색 결과를 문서의 주제와 관련된 요약 정보로 표시하여 주므로, 검색 결과를 다시 확인해야 하는 불편함이 없이 빠르게 원하는 정보를 찾을 수 있다.

Claims (15)

  1. 입력 문서와의 유사성을 기준으로 검색 대상 문서를 분류 검색하는 방법에 있어서,
    검색 키 문서(key document)를 입력하는 제 1 단계,
    상기 검색 키 문서의 주제어 정보를 생성하는 제 2 단계,
    검색 대상 문서 내에 포함된 각 주제어에 대하여 상기 주제어를 내용으로 하는 주제어 필드와 상기 주제어를 포함하는 검색 대상 문서의 문서 식별자를 내용으로 하는 하나 이상의 문서 식별자 필드를 포함하는 레코드를 포함하는 주제어 정보 데이터베이스를 이용하여 상기 검색 대상 문서에 주제어별 가중치를 부여하는 제 3 단계,
    각 검색 대상 문서에 대하여 검색 대상 문서의 문서 식별자를 내용으로 하는 문서 식별자 필드와 검색 대상 문서를 구성하는 문장의 정보를 내용으로 하는 하나 이상의 문장 정보 필드를 포함하는 레코드를 포함하며, 상기 문장 정보 필드는 각각 문장의 번호, 문서 내에서의 문장의 위치, 문장의 길이, 문장이 포함하고 있는 주제어의 비율에 따라 정해지는 문장 가중치를 내용으로 하는 문장번호, 문장위치, 문장길이, 문장가중치 서브필드와 각 문장 내에 포함되어 있는 주제어 식별자를 내용으로 하는 하나 이상의 주제어 식별자 서브필드를 포함하고 있는 주제문장 정보 데이터베이스를 이용하여, 상기 검색 대상 문서에 주제문장별 가중치를 부여하는 제 4 단계,
    상기 주제어별 가중치와 상기 주제문장별 가중치를 합한 전체 가중치가 높은 것으로부터 낮은 것의 순서로 상기 검색 대상 문서를 분류하는 제 5 단계를 포함하는 문서 분류 검색 방법.
  2. 제 1 항에 있어서,
    상기 제 1 단계는 검색 키 문서의 내용을 직접 입력하는 단계인 문서 분류 검색 방법.
  3. 제 1 항에 있어서,
    상기 제 1 단계는 검색 키 문서의 파일명을 지정하는 단계인 문서 분류 검색 방법.
  4. 제 1 항에 있어서,
    상기 제 1 단계는 검색 키 문서가 존재하는 인터넷 주소를 지정하는 단계인 문서 분류 검색 방법.
  5. 제 1 항에 있어서,
    상기 제 2 단계에서 상기 검색 키 문서의 상기 주제어 정보는 주제단어와 상기 주제단어의 출현빈도에 따른 주제단어 가중치를 포함하는 문서 분류 검색 방법.
  6. 제 5 항에 있어서,
    상기 제 3 단계는,
    상기 주제어 정보 데이터베이스를 이용하여, 상기 검색 키 문서의 상기 주제단어와 일치하는 주제어를 갖는 상기 검색 대상 문서에 가중치를 부여하는 제 3-1 단계,
    상기 검색 대상 문서에 상기 키 문서의 상기 주제단어 가중치에 따른 가중치를 부여하는 제 3-2 단계를 포함하는 문서 분류 검색 방법.
  7. 제 5 항에 있어서,
    상기 제 4 단계는,
    상기 주제문장 정보 데이터베이스를 이용하여 각 검색 대상 문서의 주제문장을 추출하는 제 4-1 단계,
    상기 주제문장 정보 데이터베이스를 이용하여 상기 추출된 각 검색 대상 문서의 주제문장에 대한 주제어를 추출하는 제 4-2 단계,
    상기 검색 키 문서의 상기 주제단어와 일치하는 주제어를 포함하는 주제문장을 갖는 검색 대상 문서에 가중치를 부여하는 제 4-3 단계,
    상기 검색 대상 문서에 상기 검색 키 문서의 상기 주제단어 가중치에 따른 가중치를 부여하는 제 4-4 단계,
    상기 검색 대상 문서의 주제문장에서 상기 검색 키 문서의 주제단어의 점유율을 계산하여 가중치를 부여하는 제 4-5 단계를 포함하는 문서 분류 검색 방법.
  8. 제 1 항에 있어서,
    상기 분류된 문서를 사용자에게 표시하는 제 6 단계를 더 포함하는 문서 분류 검색 방법.
  9. 제 8 항에 있어서,
    상기 제 2 단계에서 상기 검색 키 문서의 주제문장 정보를 생성하는 문서 분류 검색 방법.
  10. 제 9 항에 있어서,
    상기 제 6 단계에서,
    상기 검색 키 문서의 문서 정보와 상기 분류된 문서의 문서 정보를 함께 표시하되,
    상기 검색 키 문서의 문서 정보는 상기 검색 키 문서의 상기 주제어 정보와 상기 주제문장 정보를 포함하고,
    상기 분류된 문서의 문서 정보는 상기 주제어 정보 데이터베이스와 상기 주제문장 정보 데이터베이스를 이용하여 추출된 상기 분류된 문서의 주제어 정보와 주제문장 정보를 포함하는 문서 분류 검색 방법.
  11. 제 10 항에 있어서,
    상기 제 6 단계에서, 상기 분류된 문서의 문서 정보는, 상기 분류된 문서에 포함되어 있는 상기 검색 키 문서의 주제단어의 집합이 일치하는 문서들을 그룹으로 묶어, 상기 그룹 내에서 전체 가중치가 높은 것으로부터 낮은 것의 순서로 상기 검색 대상 문서를 분류하여 표시하는 문서 분류 검색 방법.
  12. 검색 대상 문서 내에 포함된 각 주제어에 대하여 상기 주제어를 내용으로 하는 주제어 필드와 상기 주제어를 포함하는 검색 대상 문서의 문서 식별자를 내용으로 하는 하나 이상의 문서 식별자 필드를 포함하는 레코드를 포함하는 주제어 정보 데이터베이스,
    각 검색 대상 문서에 대하여 검색 대상 문서의 문서 식별자를 내용으로 하는 문서 식별자 필드와 검색 대상 문서를 구성하는 문장의 정보를 내용으로 하는 하나 이상의 문장 정보 필드를 포함하는 레코드를 포함하며, 상기 문장 정보 필드는 각각 문장의 번호, 문서 내에서의 문장의 위치, 문장의 길이, 문장이 포함하고 있는 주제어의 비율에 따라 정해지는 문장 가중치를 내용으로 하는 문장번호, 문장위치, 문장길이, 문장가중치 서브필드와 각 문장 내에 포함되어 있는 주제어 식별자를 내용으로 하는 하나 이상의 주제어 식별자 서브필드를 포함하고 있는 주제문장 정보 데이터베이스,
    입력 문서로부터 주제어 정보를 추출할 수 있는 주제어 정보 추출 수단,
    추출된 상기 주제어 정보를 입력으로 받아 입력된 주제어와 동일한 문자열의 존재를 검색할 수 있는 검색 수단을 포함하며,
    상기 검색 수단은,
    상기 주제어 정보 데이터베이스를 이용하여 각 검색 대상 문서에 주제어별 가중치를 부여하고,
    상기 주제문장 정보 데이터베이스를 이용하여 상기 검색 대상 문서에 주제문장별 가중치를 부여하여,
    상기 주제어별 가중치와 상기 주제문장별 가중치를 합한 전체 가중치가 높은 것으로부터 낮은 것의 순서로 상기 검색 대상 문서를 분류할 수 있는 문서 분류 검색 시스템.
  13. 제 12 항에 있어서,
    입력 문서로부터 주제문장 정보를 추출할 수 있는 주제문장 정보 추출 수단을 더 포함하는 문서 분류 검색 시스템.
  14. 제 12 항에 있어서,
    검색 결과를 사용자에게 표시할 수 있는 표시 수단을 더 포함하는 문서 분류 검색 시스템.
  15. 제 12 항에 있어서,
    검색 대상 문서의 내용을 텍스트 데이터로 저장하는 검색 대상 문서 데이터베이스를 더 포함하는 문서 분류 검색 시스템.
KR1020000029370A 2000-05-30 2000-05-30 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템 KR100356105B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000029370A KR100356105B1 (ko) 2000-05-30 2000-05-30 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000029370A KR100356105B1 (ko) 2000-05-30 2000-05-30 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템

Publications (2)

Publication Number Publication Date
KR20000054268A KR20000054268A (ko) 2000-09-05
KR100356105B1 true KR100356105B1 (ko) 2002-10-19

Family

ID=19670829

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000029370A KR100356105B1 (ko) 2000-05-30 2000-05-30 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템

Country Status (1)

Country Link
KR (1) KR100356105B1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
KR100751295B1 (ko) * 2006-04-19 2007-08-23 인하대학교 산학협력단 질의 기반의 문서요약 장치 및 그 방법
CN105930311B (zh) * 2009-02-18 2018-10-09 谷歌有限责任公司 执行与再现文档关联的动作的方法、移动设备和可读介质
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
WO2010105245A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Automatically providing content associated with captured information, such as information captured in real-time
KR101064256B1 (ko) * 2009-12-03 2011-09-14 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
KR101456599B1 (ko) * 2013-05-07 2014-11-03 한국원자력 통제기술원 전략물자 판정 시스템 및 그 방법
KR101717230B1 (ko) * 2015-12-30 2017-03-16 성균관대학교산학협력단 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
KR102123974B1 (ko) * 2018-07-24 2020-06-17 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법
CN113515627B (zh) * 2021-05-19 2023-07-25 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785033A (ja) * 1993-09-09 1995-03-31 Toshiba Corp 文書検索装置
JPH09128402A (ja) * 1995-10-30 1997-05-16 Fuji Xerox Co Ltd 文書類似度計算装置および文書分類装置
JPH1063678A (ja) * 1996-08-23 1998-03-06 Matsushita Electric Ind Co Ltd 全文検索結果表示装置
JPH11345238A (ja) * 1998-06-02 1999-12-14 Hitachi Ltd www上のHTML文書のキーワード検索の結果の提示方法
JP2000112949A (ja) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785033A (ja) * 1993-09-09 1995-03-31 Toshiba Corp 文書検索装置
JPH09128402A (ja) * 1995-10-30 1997-05-16 Fuji Xerox Co Ltd 文書類似度計算装置および文書分類装置
JPH1063678A (ja) * 1996-08-23 1998-03-06 Matsushita Electric Ind Co Ltd 全文検索結果表示装置
JPH11345238A (ja) * 1998-06-02 1999-12-14 Hitachi Ltd www上のHTML文書のキーワード検索の結果の提示方法
JP2000112949A (ja) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体

Also Published As

Publication number Publication date
KR20000054268A (ko) 2000-09-05

Similar Documents

Publication Publication Date Title
KR100356105B1 (ko) 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
US6826576B2 (en) Very-large-scale automatic categorizer for web content
JP4365074B2 (ja) ユーザ定義可能なパーソナリティを備えた文書拡充システム
US7895196B2 (en) Computer system for identifying storylines that emerge from highly ranked web search results
US8161059B2 (en) Method and apparatus for collecting entity aliases
Koshman et al. Web searching on the Vivisimo search engine
US10552467B2 (en) System and method for language sensitive contextual searching
US20040139397A1 (en) Methods and apparatus for summarizing document content for mobile communication devices
US20040199495A1 (en) Name browsing systems and methods
US20080086453A1 (en) Method and apparatus for correlating the results of a computer network text search with relevant multimedia files
US20030033333A1 (en) Hot topic extraction apparatus and method, storage medium therefor
JP2001519952A (ja) データ要約装置
US7523109B2 (en) Dynamic grouping of content including captive data
JP2001515245A (ja) データ組を選ぶための方法とシステム
CN101118560A (zh) 关键词输出设备和关键词输出方法
JP2000506650A (ja) 電子メッセージから取り出した資源評価情報を使用するネットワーク資源検出方式及び方法
EP2657853A1 (en) Webpage information detection method and system
KR20070039072A (ko) 검색 엔진에서의 결과물 기반의 광고 개인화
KR100434902B1 (ko) 지식 기반 맞춤 정보 제공 시스템 및 그 서비스 방법
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
EP2306333A1 (en) Offline software library
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
Iacobelli et al. Finding new information via robust entity detection
KR102428046B1 (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
KR20230088093A (ko) 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법

Legal Events

Date Code Title Description
A201 Request for examination
G15R Request for early opening
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee