KR101931859B1

KR101931859B1 - 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Info

Publication number: KR101931859B1
Application number: KR1020160125607A
Authority: KR
Inventors: 김범진
Original assignee: (주)시지온
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2018-12-21
Also published as: KR20180035477A

Abstract

전자문서에 포함된 각각의 단어 중 상기 전자문서를 대표할 수 있는 대표 단어를 선정하는 방법, 선정된 각 전자문서의 대표 단어를 이용하여 사용자 단말이 요청한 전자 문서 및 그와 연관된 전자문서에 관한 정보를 제공할 수 있는 방법 및 이들 방법을 수행하는 컴퓨팅 시스템이 개시된다. 본 발명의 일 측면에 따르면, 소정의 컴퓨팅 시스템에 의해 수행되는 전자문서의 대표 단어 선정 방법으로서, 복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 분석대상 전자문서를 획득하는 단계, 상기 분석대상 전자문서로부터 소정의 추출기준에 의해 적어도 하나의 후보 단어를 추출하는 단계, 상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계 및 상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되, 상기 후보 단어의 비중 값을 획득하는 단계는, 상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계; 상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계 및 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서의 대표 단어 선정 방법이 제공된다.

Description

전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템{Method for selecting headword of electronic document, method for providing electronic document, and computing system performing the same}

본 발명은 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법 및 이들 방법을 수행하는 컴퓨팅 시스템에 관한 것이다. 보다 상세하게는 전자문서에 포함된 각각의 단어 중 상기 전자문서를 대표할 수 있는 대표 단어를 선정하는 방법, 선정된 각 전자문서의 대표 단어를 이용하여 사용자 단말이 요청한 전자 문서 및 그와 연관된 전자문서에 관한 정보를 제공할 수 있는 방법 및 이들 방법을 수행하는 컴퓨팅 시스템에 관한 것이다.

최근 IT 기술의 등장 이후 컴퓨터를 통해 접근할 수 있는 전자문서의 비중이 계속적으로 증가하고 있으며, 특히 최근 모바일 기술이 발달과 함께 웹 문서와 같은 전자문서의 생산 및 유통이 더욱 폭발적으로 증가하고 있는 추세이다. 이러한 상황에서 전자문서의 주요 내용을 손쉽게 알고자 하는 요구와 수많은 전자문서들 중에서 자신이 관심 있어하는 주제와 관련된 문서에 손쉽게 접근하고자 하는 요구 역시 함께 증가하고 있다.

본 발명이 해결하고자 하는 기술적 과제는 전자문서에 포함된 각각의 단어 중 상기 전자문서를 대표할 수 있는 대표 단어를 자동으로 선정하는 방법 및 이를 수행하는 컴퓨팅 시스템, 선정된 각 전자문서의 대표 단어를 이용하여 사용자 단말이 요청한 전자 문서 및 그와 연관된 전자문서에 관한 정보를 제공할 수 있는 방법 및 이를 수행하는 컴퓨팅 시스템을 제공하는 것이다.

본 발명의 일 측면에 따르면, 소정의 컴퓨팅 시스템에 의해 수행되는 전자문서의 대표 단어 선정 방법으로서, 복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 분석대상 전자문서를 획득하는 단계, 상기 분석대상 전자문서로부터 소정의 추출기준에 의해 적어도 하나의 후보 단어를 추출하는 단계, 상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계 및 상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되, 상기 후보 단어의 비중 값을 획득하는 단계는, 상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계, 상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계 및 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서의 대표 단어 선정 방법이 제공된다.

일 실시예에서, 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는, 하기 [수식1]에 따른 RF(x,d) 값을 산출하는 단계 및 하기 [수식1]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함할 수 있다.

[수식 1]

(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F₁(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)

일 실시예에서, 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는, 하기 [수식2]에 따른 RF(x,d) 값을 산출하는 단계 및 하기 [수식2]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함할 수 있다.

[수식 2]

일 실시예에서, 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는, 상기 후보 단어의 제1빈도 및 하기 [수식 3]에 따른 IF(x, D) 값에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함할 수 있다.

[수식 3]

(x는 상기 후보 단어, D는 상기 전자문서 군, F₂(x, D)는 상기 후보 단어의 제2빈도, |D|는 상기 전자문서 군에 포함된 전자문서의 총 개수)

본 발명의 다른 일 측면에 따르면, 소정의 컴퓨팅 시스템에 의해 수행되는 전자문서 제공 방법으로서, 복수의 전자문서를 포함하는 소정의 전자문서 군 내에 속하는 각각의 전자문서에 대하여, 상기 전자문서의 대표 단어를 상술한 전자문서의 대표 단어 선정 방법에 의하여 선정하는 단계, 상기 전자문서 군에 포함된 소정의 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 단계 및 사용자 단말로부터 수신되는 상기 제공대상 전자문서의 제공요청에 응답하여, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계를 포함하는 전자문서 제공 방법이 제공된다.

일 실시예에서, 상기 적어도 하나의 연관 전자문서를 선정하는 단계는, 상기 제공대상 전자문서의 대표 단어에 기초하여 상기 제공대상 전자문서에 상응하는 단어 벡터를 생성하는 단계, 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어에 기초하여 상기 전자문서에 상응하는 단어 벡터를 생성하고 상기 제공대상 전자문서와 상기 전자문서 간의 유사도를 산출하는 단계-여기서, 상기 유사도는 상기 제공대상 전자문서에 상응하는 단어 벡터와 상기 전자문서에 상응하는 단어 벡터간의 유클리드 거리에 반비례함-, 산출된 상기 유사도에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함할 수 있다.

일 실시예에서, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 전자문서 요청 시스템으로 제공하는 단계는, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되, 상기 페이지 내에서, 상기 적어도 하나의 연관 전자문서의 정보는 유사도 순으로 배치될 수 있다.

일 실시예에서, 상기 적어도 하나의 연관 전자문서를 선정하는 단계는, 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어 중에서 상기 제공대상 전자문서의 대표 단어 중 어느 하나와 일치하는 단어인 연관단어의 개수를 판단하는 단계 및 상기 나머지 전자문서 각각의 연관단어의 개수에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함할 수 있다.

일 실시예에서, 상기 적어도 하나의 연관 전자문서는, 완전 동일 클러스터 또는 부분 동일 클러스터 중 어느 하나에 속하고, 상기 완전 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어가 상기 제공대상 전자문서의 대표단어와 모두 일치하고, 상기 부분 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어 중 일부가 상기 제공대상 전자문서의 대표단어와 일치하며, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되, 상기 페이지 내에서, 상기 완전 동일 클러스터에 속하는 연관 전자문서의 정보는 상기 부분 동일 클러스터에 속하는 연관 전자문서의 정보보다 우선적으로 배치될 수 있다.

본 발명의 다른 일 측면에 따르면 데이터 처리장치에 설치되며 상술한 방법을 수행하기 위하여 기록매체에 저장된 컴퓨터 프로그램이 제공된다.

본 발명의 다른 일 측면에 따르면, 적어도 하나의 프로세서, 상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며, 상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 전자문서의 대표 단어 선정 방법을 수행하되, 상기 전자문서의 대표 단어 선정 방법은, 복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 분석대상 전자문서를 획득하는 단계, 상기 분석대상 전자문서로부터 소정의 추출기준에 의해 상기 분석대상 전자문서에 포함된 단어 중 적어도 하나의 후보 단어를 추출하는 단계, 상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계 및 상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되, 상기 후보 단어의 비중 값을 획득하는 단계는, 상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계, 상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계 및 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서의 대표 단어 선정 시스템이 제공된다.

본 발명의 다른 일 측면에 따르면, 적어도 하나의 프로세서, 상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며, 상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 전자문서 제공 방법을 수행하되, 상기 전자문서 제공 방법은, 복수의 전자문서를 포함하는 소정의 전자문서 군 내에 속하는 각각의 전자문서에 대하여, 상기 전자문서의 대표 단어를 상술한 전자문서의 대표 단어 선정 방법에 의하여 선정하는 단계, 상기 전자문서 군에 포함된 소정의 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 단계 및 사용자 단말로부터 수신되는 상기 제공대상 전자문서의 제공요청에 응답하여, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계를 포함하는 전자문서 제공 시스템이 제공된다.

본 발명의 일 실시예에 따르면, 전자문서에 포함된 각각의 단어 중 상기 전자문서를 대표할 수 있는 대표 단어를 자동으로 선정하는 방법 및 이를 수행하는 컴퓨팅 시스템을 제공할 수 있다. 본 방법 및 시스템에 의하면, 특정 전자문서 내에서 각 단어가 출현하는 빈도와 해당 단어가 전자문서 군 전체에서 나타나는 빈도를 모두 고려함으로써, 해당 전자문서를 가장 적합하게 대표할 수 있는 대표 단어를 선정할 수 있는 효과가 있다.

또한 본 발명의 일 실시예에 따르면, 선정된 각 전자문서의 대표 단어를 이용하여 사용자 단말이 요청한 전자 문서 및 그와 연관된 전자문서에 관한 정보를 제공할 수 있는 방법 및 이를 수행하는 컴퓨팅 시스템을 제공할 수 있다. 본 방법 및 시스템에 따르면, 사용자가 요청한 전자문서와 연관성이 높은 다른 전자문서에 관한 정보를 함께 제공함으로써 사용자에게 높은 편의성을 제공할 수 있는 효과가 있다. 특히 사용자는 별도의 검색 없이도 관심 있는 주제에 관한 전자문서에 용이하게 접근할 수 있는 편의성을 제공받을 수 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 전자문서의 대표 단어 선정 방법 및 전자 문서 제공 방법의 수행 환경을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 전자문서의 대표 단어 선정 방법을 나타내는 흐름도이다.
도 3은 어느 하나의 후보 단어의 비중 값을 획득하는 방법을 설명하기 위한 흐름도이다,
도 4는 본 발명의 일 실시예에 따른 전자문서 제공 방법을 나타내는 흐름도이다.
도 5a 및 도 5b는 각각 사용자 단말에 디스플레이되는 페이지를 개략적으로 도시한 도면이다.
도 6 및 도 7은 각각 연관 전자문서를 선정하는 방법을 도시한 흐름도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 전자문서의 대표 단어 선정 방법 및 전자 문서 제공 방법의 수행 환경을 도시한 도면이다.

도 1을 참조하면, 전자문서의 대표 단어 선정 방법 및 전자 문서 제공 방법의 수행 환경은 소정의 컴퓨팅 시스템(100)에 의해 수행될 수 있다.

상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다.

상기 컴퓨팅 시스템(100)은 다수의 모듈의 형태로 구현될 수 있다. 예를 들면, 상기 컴퓨팅 시스템(100)은 네트워크를 통해 외부 시스템(예를 들면, 200) 및/또는 각종 사용자 단말(예를 들면, 300)과 통신할 수 있는 적어도 하나의 통신 모듈이나 상기 컴퓨팅 시스템(100)의 주요 기능을 수행하고 상기 컴퓨팅 시스템(100)에 포함된 다른 구성요소의 기능 및/또는 리소스를 제어하고 할 수 있는 제어모듈, 각종 정보를 저장할 수 있는 저장모듈, 사용자와 인터페이싱할 수 있는 입출력모듈 등을 포함할 수 있다. 상기 컴퓨팅 시스템(100)에 포함된 각종 모듈은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 경우에 따라서는 상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 각종 데이터를 저장하는 DB(130)을 더 포함할 수도 있다.

본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.

도 1을 참조하면, 상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상에 따른 전자문서의 대표 단어 선정 방법을 수행하기 위한 전자문서의 대표 단어 선정 시스템(110; 이하, '선정 시스템'이라고 함) 및 본 발명의 기술적 사상에 따른 전자문서 제공 방법을 수행하기 위한 전자문서 제공 시스템(120; 이하, '제공 시스템'이라고 함)을 포함할 수 있다.

상기 선정 시스템(110) 및 제공 시스템(120)은 각각 독립된 물리적 장치의 형태로 구현될 수 있다. 또는 구현 예에 따라 두 시스템(110, 120)은 하나의 물리적 장치로 구현될 수도 있다. 후자의 경우, 두 시스템(110, 120)은 각각 논리적으로 구분된 별도의 소프트웨어로 구성될 수 있다.

이하에서는 이해의 편의를 위하여 본 발명의 기술적 사상에 따른 전자문서의 대표 단어 선정 방법은 상기 선정 시스템(110)에 의해 수행되고, 본 발명의 기술적 사상에 따른 전자문서 제공 방법은 상기 제공 시스템(120)에 의해 수행되는 것으로 설명하지만, 구현 예에 따라서는 도 1과 는 달리, 상기 컴퓨터 시스템(100)은 본 발명의 기술적 사상에 따른 전자문서의 대표 단어 선정 방법 및 전자문서 제공 방법을 복합적으로 수행하는 하나의 시스템으로 구현될 수도 있다.

도 1에 도시된 바와 같이, 상기 컴퓨팅 시스템(100)은 소정의 외부 시스템(200)과 네트워크를 통해 연결되어 본 발명의 기술적 사상을 구현하는데 필요한 각종 정보, 데이터, 신호 및/또는 메시지를 송수신할 수 있다. 예를 들어 상기 컴퓨팅 시스템(100)은 상기 외부 시스템(200)으로부터 전자문서를 수신할 수 있다. 일 실시예에서 수신된 전자문서는 상기 DB(130)에 보관될 수 있다.

상기 외부 시스템(200)은 전자문서를 생성하거나 저장하거나 수집하거나 제공할 수 있는 각종 시스템일 수 있다. 예를 들어 상기 외부 시스템(200)은 기사를 생성/제공하는 언론사 시스템일 수 있다. 또는 상기 외부 시스템(200)은 블로그 서비스, 인터넷 커뮤니티 서비스, 전자 게시판 서비스, 소셜 네트워크 서비스 등을 제공하는 시스템일 수도 있으나 이에 한정되는 것은 아니다.

본 명세서에서 전자 문서라고 함은 컴퓨터로 판독 가능한 기록매체에 저장될 수 있거나 전자적 형태로 저장되거나 전송될 수 있는 문서 혹은 컴퓨터가 읽고 해석할 수 있는 형태의 문서를 의미할 수 있다. 예를 들어, 전자 문서는 웹 페이지일 수 있다. 또는 전자 문서는 PDF 포맷의 문서, 전자메일 혹은 각종 워드프로세서에 의해 생성될 수 있는 문서일 수도 있으나 이에 한정되는 것은 아니다.

한편, 도 1에는 하나의 외부 시스템(200)만이 도시되어 있으나, 구현예에 따라서는 다수의 외부 시스템이 존재할 수 있으며, 상기 컴퓨팅 시스템(100)은 다수의 외부 시스템 각각으로부터 전자문서를 수신할 수 있다.

도 1은 상기 컴퓨팅 시스템(100)이 상기 외부 시스템(200)과 분리된 별도의 시스템으로 구현된 형태를 도시하고 있으나, 실시예에 따라 상기 컴퓨팅 시스템(100)은 상기 외부 시스템(200)에 포함된 서브 시스템의 형태로 구현될 수도 있다. 또는 상기 컴퓨팅 시스템(100)의 구성 요소 중 일부가 상기 외부 시스템(200)에 포함되는 형태로 구현될 수도 있다.

한편, 상기 컴퓨팅 시스템(100)은 사용자 단말(300)과 유/무선 네트워크를 통해 연결되어 본 발명의 기술적 사상을 구현하는데 필요한 각종 정보, 데이터, 신호 및/또는 메시지를 송수신할 수 있다. 예를 들어, 상기 컴퓨팅 시스템(100)은 특정한 전자문서 및 상기 특정한 전자문서와 연관된 적어도 하나의 다른 전자문서의 정보를 상기 사용자 단말(300)로 전송할 수 있다.

상기 사용자 단말(300)은 휴대전화, 위성전화, 무선전화, SIP(Session Initiation Protocol), WLL(Wireless Local Loop) 스테이션, 스마트폰, 타블렛 PC, PDA(Personal Digital Assistant) 등의 핸드헬드 장치, 데스크 탑이나 랩탑을 포함하는 컴퓨팅 장치일 수도 있다.

도 2는 본 발명의 일 실시예에 따른 선정 시스템(110)이 수행하는 전자문서의 대표 단어 선정 방법을 나타내는 흐름도이다. 전자문서의 대표 단어 선정 방법을 수행함으로써, 상기 선정 시스템(110)은 특정 전자문서(분석대상 전자문서)를 대표하는 적어도 하나의 대표 단어를 선정할 수 있다.

상기 대표 단어는 상기 분석대상 전자문서에 포함된 단어로서, 상기 분석대상 전자문서의 내용을 가장 잘 나타내는 단어일 수 있다. 상기 대표 단어는 표제어, 키워드, 핵심어, 태그 등으로 활용될 수 있다.

한편, 상기 분석대상 전자문서는 소정의 전자문서 군(group)에 속하는 전자문서일 수 있다.

전자문서 군은 복수의 전자문서를 포함할 수 있다. 하나의 전자문서 군을 형성하는 방법은 다양할 수 있다. 일 실시예에서, 하나의 전자문서 군은 어느 하나의 외부 시스템(예를 들면, 200)에서 수집된 전자문서만을 포함할 수 있다. 또는 하나의 전자문서 군에 포함된 복수의 전자문서는 미리 지정된 여러 외부 시스템으로부터 수집된 전자문서를 포함할 수 있다. 또는 상기 전자문서 군에 포함된 복수의 전자문서는 다양한 외부 사이트를 크롤링하여 수집한 전자문서일 수도 있다.

또는 하나의 전자문서 군에 포함된 복수의 전자문서는 특정한 조건을 만족하는 문서만을 포함할 수도 있다. 예를 들어, 하나의 전자문서 군은 특정한 기간에 작성 또는 게시된 전자문서만을 포함하거나, 특정한 사이트에서 제공하는 전자문서만을 포함하거나, 특정한 사이트에서 제공하며 특정한 기간 내에 작성된 전자문서만을 포함할 수 있다. 이 외에도 작성자, 본문의 길이, 미리 지정된 태그 등 다양한 조건이 있을 수 있다.

상기 전자문서 군에 포함된 복수의 전자문서는 이후 설명하는 전자문서의 대표 단어 선정 방법 또는 전자문서 제공방법이 수행되기 이전에 미리 상기 컴퓨팅 시스템(100)에 의해 수집될 수 있다.

도 2를 참조하면, 상기 선정 시스템(110)은 소정의 전자문서 군에 속하는 분석대상 전자문서를 획득할 수 있다(S110). 상기 선정 시스템(110)은 상기 외부 시스템(200)으로부터 상기 분석대상 전자문서를 획득할 수 있다. 또는 상기 선정 시스템(110)은 미리 수집된 상기 분석대상 전자문서를 보관하고 있는 상기 DB(130)로부터 상기 분석대상 전자문서를 획득할 수도 있다.

이후 상기 선정 시스템(110)은 상기 분석대상 전자문서로부터 소정의 추출기준에 의해 적어도 하나의 후보 단어를 추출할 수 있다(S120). 상기 추출기준은 다양할 수 있다.

일 실시예에서, 상기 선정 시스템(110)은 특정 품사(예를 들어, 명사)에 해당하는 단어만을 후보 단어라고 판단할 수 있다. 이 경우 상기 선정 시스템(110)은 상기 분석대상 전자문서에 포함된 각 단어의 형태소 분석을 수행할 수 있다. 구현 예에 따라 상기 선정 시스템(110)은 해당 단어가 어느 품사에 해당하는지 판단할 수 없는 경우 이를 신조어라고 보고 후보단어라고 판단할 수 있다.

한편, 상기 선정 시스템(110)은 추출된 상기 적어도 하나의 후보단어 각각의 비중 값(상기 후보 단어가 상기 분석대상 전자문서 내에서 차지하는 비중 혹은 중요도를 나타내는 값)을 획득할 수 있으며(S130), 획득한 비중 값에 기초하여 추출된 적어도 하나의 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표단어로 선정할 수 있다(S140). 예를 들어, 상기 선정 시스템(110)은 비중 값이 가장 높은 일정 개수의 후보 단어를 대표 단어로 선정할 수 있다. 또는 상기 선정 시스템(110)은 비중 값이 일정 값 이상(혹은 일정 값 이하)인 후보 단어를 모두 대표 단어로 선정할 수도 있다.

이하에서는 도 3을 참조하여, S130 단계에 대해 보다 상세하게 설명하기로 한다. 도 3은 어느 하나의 후보 단어의 비중 값을 획득하는 방법을 설명하기 위한 흐름도이다,

도 3을 참조하면, 상기 선정 시스템(110)은 상기 후보 단어의 제1빈도를 획득할 수 있다(S131). 이때, 특정 단어의 제1빈도는 상기 분석대상 전자문서 내에서 상기 특정 단어가 출현한 횟수로 정의될 수 있다. 예를 들어, 특정 단어가 상기 분석대상 전자문서 내에서 n번 나타난 경우 상기 특정 단어의 제1빈도는 n일 수 있다.

한편, 상기 선정 시스템(110)은 상기 후보 단어의 제2빈도를 획득할 수 있다(S132). 이때 특정 단어의 제2빈도는 상기 분석대상 전자문서가 속하는 전자문서 군에 포함된 모든 전자문서 중 상기 특정 단어를 포함하고 있는 전자문서의 개수로 정의될 수 있다. 예를 들어, 특정 단어를 포함하는 전자문서가 상기 전자문서 군 내에 m개 존재하는 경우, 상기 특정 단어의 제2빈도는 m일 수 있다. 한편, 실시예에 따라서 상기 제2빈도는 상기 전자문서 군 내의 모든 전자문서에서 상기 후보 단어가 출현한 횟수로 정의될 수도 있다.

이후 상기 선정 시스템(110)은 상기 후보 단어의 비중 값을 획득할 수 있다(S133). 이때, 상기 후보 단어의 비중 값은 상기 제1빈도 및 상기 제2빈도에 기초하여 산출되는 값일 수 있다.

특정 단어가 상기 분석대상 전자문서에 자주 출현하는 경우 해당 단어는 상기 분석대상 전자문서와 높은 관련성을 가질 가능성이 크기 때문에, 특정 단어의 제1빈도가 높을수록 상기 특정 단어와 상기 분석대상 전자문서간의 관련성이 크다고 볼 수 있다. 반면, 특정 단어가 전자문서 군 내의 많은 문서에서 공통적으로 나타나는 경우, 해당 단어는 상기 분석대상 전자문서만의 특징을 드러내기에는 적합하지 않은 일반적인 단어일 가능성이 높기 때문에, 특정 단어의 제2빈도가 높을수록 상기 특정 단어와 상기 분석대상 전자문서간의 관련성이 적다고 볼 수 있다.

일 실시예에서, 상기 선정 시스템(110)은 상기 후보 단어의 제1빈도가 증가할수록 중가하고, 상기 후보 단어의 제2빈도가 증가할수록 감소하는 소정의 수학적 함수를 이용할 수 있다. 이 경우, 도 2의 S140 단계에서 상기 선정 시스템(110)은 비중 값이 가장 높은 일정 개수의 후보 단어 또는 비중 값이 일정 수치 이상인 후보 단어를 상기 분석대상 전자문서의 대표 단어로 선정할 수 있다.

다른 일 실시예에서, 상기 선정 시스템(110)은 상기 후보 단어의 제1빈도가 증가할수록 감소하고, 상기 후보 단어의 제2빈도가 증가할수록 증가하는 소정의 수학적 함수를 이용하여 상기 후보 단어의 비중 값을 산출할 수도 있다. 이 경우 도 2의 S140 단계에서 상기 선정 시스템(110)은 비중 값이 가장 낮은 일정 개수의 후보 단어 또는 비중 값이 일정 수치 이하인 후보 단어를 상기 분석대상 전자문서의 대표 단어로 선정할 수 있다.

한편, 일 실시예에서 상기 선정 시스템(110)은 상기 후보 단어의 제1빈도를 그대로 이용하는 것이 아니라 상기 후보 단어의 제1빈도에 기초하여 산출되는 상대적 빈도 값을 산출한 후 이에 기초하여 상기 후보 단어의 비중 값을 산출할 수 있다. 동일한 제1빈도를 가지는 경우에도 해당 단어가 속한 문서의 길이에 따라 비중 값이 달리 판단되도록 하기 위함이다(예를 들어, 길이가 1페이지인 문서 내에서 특정 단어가 n번 등장했을 때의 비중 값과 길이가 10페이지인 문서 내에서 특정 단어가 n번 등장했을 때의 비중 값은 달리 볼 수 있다). 본 실시예에서, 상기 선정 시스템(110)은 하기 [수식 1] 또는 [수식 2]에 의해 상기 후보 단어의 상대적 빈도 값 RF(x, d)을 산출할 수 있다.

[수식 1]

[수식 2]

한편, 일 실시예에서 상기 선정 시스템(110)은 상기 후보 단어의 제2빈도를 그대로 이용하는 것이 아니라 상기 후보 단어의 제2빈도와 전자문서 군의 크기(즉, 상기 전자문서 군에 포함된 전자문서의 총 개수)를 함께 고려한 역문서 빈도 값 IF(x, D)을 하기 [수식 3]에 의해 산출한 후 이에 기초하여 상기 후보 단어의 비중 값을 산출할 수 있다. 구현 예에 따라서는 하기 [수식 3]의 IF(x, D)에 로그를 취한 값에 기초하여 상기 후보 단어의 비중 값을 산출할 수 있다.

[수식 3]

한편, 도 2 및 도 3의 과정을 통해 선정된 상기 분석대상 전자문서의 대표 단어는 상기 분석대상 전자문서에 태깅될 수 있다.

상기 제공 시스템(120)은 상기 사용자 단말(200)이 상기 전자문서 군에 속하는 특정 전자문서(제공대상 전자문서)의 제공을 요청하는 경우, 상기 요청에 응답하여 상기 제공대상 전자문서를 상기 사용자 단말로 전송(제공)할 수 있다. 구현 예에 따라 상기 제공 시스템(120)은 상기 전자문서의 대표 단어 선정 방법에 의해 선정된 상기 제공대상 전자문서의 대표 단어를 상기 제공대상 전자문서와 함께 제공할 수 있다.

또한 상기 제공 시스템(120)은 상기 제공 대상 전자문서와 함께 상기 제공 대상 전자문서와 연관된 연관 전자문서에 관한 정보를 제공할 수도 있는데 이하에서는 이에 대하여 도 4 내지 도 7을 참조하여 설명하기로 한다.

도 4는 본 발명의 일 실시예에 따른 제공 시스템(120)이 수행하는 전자문서 제공 방법을 나타내는 흐름도이다.

도 4를 참조하면, 상기 제공 시스템(120)은 전자문서 군에 속하는 각각의 전자문서의 대표 단어를 선정할 수 있다(S210). 상기 제공 시스템(120)은 상술한 전자문서의 대표 단어 선정 방법을 이용하여 각 전자문서의 대표 단어를 선정할 수 있다. 구현 예에 따라서 상기 제공 시스템(120)은 다른 다양한 방법을 이용하여 각 전자문서의 대표 단어를 선정할 수도 있다.

한편, 상기 제공 시스템(120)은 상기 전자문서 군에 속하는 제공대상 전자문서의 제공 요청을 상기 사용자 단말(300)로부터 수신할 수 있다(S220).

그러면 상기 제공 시스템(120)은 상기 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정할 수 있다(S230).

이후 상기 제공 시스템(120)은 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공할 수 있다(S240).

일 실시예에서 상기 제공 시스템(120)은 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 상기 사용자 단말(300)로 제공할 수 있으며, 상기 사용자 단말(300)은 제공된 페이지를 디스플레이할 수 있는데, 도 5a 및 도 5b는 각각 상기 사용자 단말(300)에 디스플레이되는 페이지를 개략적으로 도시한 도면이다.

먼저 도 5a를 참조하면, 상기 사용자 단말(300)에 디스플레이 되는 페이지(310)의 특정 영역(311)에 제공대상 전자문서의 내용 중 적어도 일부가 표시될 수 있다. 또한 상기 페이지(310)에는 상기 제공대상 전자문서의 연관 전자문서의 정보(311-1 내지 311-6)가 세로로 나열될 수 있다. 각각의 연관 전자문서의 정보는 해당 연관 전자문서의 내용 중 일부, 제목, 작성시각 등을 포함할 수 있으며, 해당 연관 전자문서를 가리키는 하이퍼링크의 형태로 표시될 수도 있다. 또한 상기 페이지(310)에는 상기 제공대상 전자문서의 대표 단어(예를 들어, H1, H2, H3, H4)가 해시 태그 등의 형태(313)로 표시될 수도 있다.

도 5b를 참조하면, 상기 사용자 단말(300)에 디스플레이 되는 페이지(320)의 특정 영역(321)에 제공대상 전자문서의 내용 중 적어도 일부가 표시될 수 있다. 또한 상기 페이지(310)에는 상기 제공대상 전자문서의 연관 전자문서의 정보(321-1 내지 321-6)가 가로로 나열될 수 있다.

이하에서는 도 6 및 도 7을 참조하여, S230 단계에 대해 보다 상세하게 설명하기로 한다. 도 6 및 도 7은 각각 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 방법을 도시한 흐름도이다.

먼저 도 6을 참조하면, 상기 제공 시스템(120)은 상기 제공대상 전자문서의 대표 단어에 기초하여 상기 제공대상 전자문서에 상응하는 단어 벡터 V₁를 생성할 수 있다(S231). 특정 전자문서의 단어 벡터는 상기 특정 전자문서에서 추출된 후보 단어의 제1빈도를 요소로 하는 벡터일 수 있다.

한편, 상기 제공 시스템(120)은 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여 유사도를 산출할 수 있다. 이를 위하여, 상기 제공 시스템(120)은 각각의 전자문서의 단어벡터 V₂를 생성할 수 있으며(S232), 단어 벡터 V₁과 단어벡터 V₂간의 유클리드 거리(Euclidean Distance)를 산출할 수 있다(S233). 이때, 두 전자문서 간의 유사도는 두 전자문서에 상응하는 단어 벡터의 유클리드 거리에 반비례하는 값일 수 있다.

이후 상기 제공 시스템(120)은 산출된 상기 유사도에 기초하여 상기 적어도 하나의 연관 전자문서를 선정할 수 있다(S234).

한편, 도 6의 실시예의 경우, 상술한 페이지 내에서, 상기 적어도 하나의 연관 전자문서의 정보는 유사도 순으로 배치될 수 있다. 예를 들면, 도 5a의 페이지(310)에서 각각의 연관 전자문서의 정보(312-1 내지 312-6)는 유사도가 높을수록 상위에 배치될 수 있으며, 도 5b의 페이지(320)에서 각각의 연관 전자문서의 정보(322-1 내지 322-6)는 유사도가 높을수록 좌측에 배치될 수 있다.

다음으로 도 7을 참조하면, 상기 제공 시스템(120)은 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어 중에서 상기 제공대상 전자문서의 대표 단어 중 어느 하나와 일치하는 단어인 연관단어의 개수를 판단할 수 있다(S235).

이후 상기 제공 시스템(120)은 상기 나머지 전자문서 각각의 연관단어의 개수에 기초하여 상기 적어도 하나의 연관 전자문서를 선정할 수 있다(S236).

본 실시예에서, 상기 적어도 하나의 연관 전자문서는 완전 동일 클러스터 또는 부분 동일 클러스터 중 어느 하나에 속할 수 있다.

완전 동일 클러스터는 상기 제공대상 전자문서와 대표단어가 모두 일치하는 연관 전자문서로 구성된 클러스터일 수 있다. 즉, 상기 완전 동일 클러스터에 속하는 연관 전자문서는 해당 연관 전자문서의 대표 단어가 상기 제공대상 전자문서의 대표단어와 모두 일치할 수 있다.

부분 동일 클러스터는 상기 제공대상 전자문서와 대표단어가 일부만 일치하는 연관 전자문서로 구성된 클러스터일 수 있다. 즉, 상기 부분 동일 클러스터에 속하는 연관 전자문서는 해당 연관 전자문서의 대표 단어 중 일부가 상기 제공대상 전자문서의 대표단어와 일치할 수 있다.

도 7의 실시예에서, 완전 동일 클러스터와 부분 동일 클러스터에 포함된 연관 전자문서의 개수는 미리 지정되어 있을 수 있다. 예를 들어, 상기 제공 시스템(120)은 완전 동일 클러스터에 속하는 20개의 연관 전자문서를 선정할 수 있으며, 부분 동일 클러스터에 속하는 20개의 연관 전자문서를 선정할 수 있다.

한편, 상기 제공 시스템(120)은 도 7에 따른 연관 전자문서의 선정 과정에서 상술한 유사도 혹은 유클리드 거리를 더 반영할 수도 있다. 예를 들면, 상기 제공 시스템(120)은 상술한 방법에 의해 유사도 혹은 유클리드 거리를 산출하고, 산출된 값이 일정 범위를 벗어나는 전자문서의 경우 해당 전자문서를 연관 전자문서에서 제외할 수 있다.

한편, 도 7의 실시예의 경우, 상술한 페이지 내에서, 상기 완전 동일 클러스터에 속하는 연관 전자문서의 정보는 상기 부분 동일 클러스터에 속하는 연관 전자문서의 정보보다 우선적으로 배치될 수 있다.

예를 들면, 도 5a의 페이지(310)에서는 완전 동일 클러스터에 속하는 연관 전자문서는 부분 동일 클러스터에 속하는 연관 전자문서보다 상위에 배치될 수 있으며, 도 5b의 페이지(320)에서 완전 동일 클러스터에 속하는 연관 전자문서는 부분 동일 클러스터에 속하는 연관 전자문서보다 좌측에 배치될 수 있다. 또한 동일한 클러스터 내에서 각 전자문서의 작성시각 혹은 게시 시각 순으로 배치될 수 있다.

한편, 구현 예에 따라서, 상기 컴퓨팅 시스템(100)은 적어도 하나의 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다. 여기서, 상기 프로그램은, 프로세서에 의해 실행되는 경우, 본 실시예에 따른 컴퓨팅 시스템(100)으로 하여금, 상술한 전자문서의 대표 단어 선정 방법 및/또는 전자문서 제공 방법을 수행하도록 할 수 있다.

한편, 본 발명의 실시예에 따른 전자문서의 대표 단어 선정 방법 및/또는 전자문서 제공 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

소정의 컴퓨팅 시스템에 의해 수행되는 전자문서 제공 방법으로서,
복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 각각의 전자문서에 대하여, 상기 전자문서의 대표 단어를 소정의 전자문서의 대표 단어 선정 방법에 의하여 선정하는 단계;
상기 전자문서 군에 포함된 소정의 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 단계; 및
사용자 단말로부터 수신되는 상기 제공대상 전자문서의 제공요청에 응답하여, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계를 포함하되,
상기 적어도 하나의 연관 전자문서를 선정하는 단계는,
상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어 중에서 상기 제공대상 전자문서의 대표 단어 중 어느 하나와 일치하는 단어인 연관단어의 개수를 판단하는 단계; 및
상기 나머지 전자문서 각각의 연관단어의 개수에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함하고,
상기 적어도 하나의 연관 전자문서는, 완전 동일 클러스터 또는 부분 동일 클러스터 중 어느 하나에 속하고,
상기 완전 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어가 상기 제공대상 전자문서의 대표단어와 모두 일치하고,
상기 부분 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어 중 일부가 상기 제공대상 전자문서의 대표단어와 일치하며,
상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는,
상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되,
상기 페이지 내에서, 상기 완전 동일 클러스터에 속하는 연관 전자문서의 정보는 상기 부분 동일 클러스터에 속하는 연관 전자문서의 정보보다 우선적으로 배치되는 전자문서 제공 방법.
제1항에 있어서,
상기 전자문서의 대표 단어 선정 방법은,
복수의 전자문서를 포함하는 소정의 전자문서 군 내에 속하는 분석대상 전자문서를 획득하는 단계;
상기 분석대상 전자문서로부터 소정의 추출기준에 의해 적어도 하나의 후보 단어를 추출하는 단계;
상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계; 및
상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되,
상기 후보 단어의 비중 값을 획득하는 단계는,
상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계;
상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계; 및
상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 방법.
제2항에 있어서,
상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
하기 [수식1]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 방법.
[수식 1]

(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F₁(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
제2항에 있어서,
상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
하기 [수식2]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 방법.
[수식 2]

(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F₁(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
제2항에 있어서,
상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
상기 후보 단어의 제1빈도 및 하기 [수식 3]에 따른 IF(x, D) 값에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 방법.
[수식 3]

(x는 상기 후보 단어, D는 상기 전자문서 군, F₂(x, D)는 상기 후보 단어의 제2빈도, |D|는 상기 전자문서 군에 포함된 전자문서의 총 개수)
제1항에 있어서,
상기 적어도 하나의 연관 전자문서를 선정하는 단계는,
상기 제공대상 전자문서의 대표 단어에 기초하여 상기 제공대상 전자문서에 상응하는 단어 벡터를 생성하는 단계;
상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여,
상기 전자문서의 대표 단어에 기초하여 상기 전자문서에 상응하는 단어 벡터를 생성하고 상기 제공대상 전자문서와 상기 전자문서 간의 유사도를 산출하는 단계-여기서, 상기 유사도는 상기 제공대상 전자문서에 상응하는 단어 벡터와 상기 전자문서에 상응하는 단어 벡터간의 유클리드 거리에 반비례함;
산출된 상기 유사도에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함하는 전자문서 제공 방법.
제6항에 있어서,
상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는,
상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되,
상기 페이지 내에서, 상기 적어도 하나의 연관 전자문서의 정보는 유사도 순으로 배치되는 전자문서 제공 방법.
삭제
삭제
데이터 처리장치에 설치되며 제1항 내지 제7항 중 어느 한 항에 기재된 방법을 수행하기 위하여 기록매체에 저장된 컴퓨터 프로그램.
적어도 하나의 프로세서;
상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며,
상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 전자문서 제공 방법을 수행하되,
상기 전자문서 제공 방법은,
복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 각각의 전자문서에 대하여, 상기 전자문서의 대표 단어를 소정의 전자문서의 대표 단어 선정 방법에 의하여 선정하는 단계;
상기 전자문서 군에 포함된 소정의 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 단계; 및
사용자 단말로부터 수신되는 상기 제공대상 전자문서의 제공요청에 응답하여, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계를 포함하되,
상기 적어도 하나의 연관 전자문서를 선정하는 단계는,
상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어 중에서 상기 제공대상 전자문서의 대표 단어 중 어느 하나와 일치하는 단어인 연관단어의 개수를 판단하는 단계; 및
상기 나머지 전자문서 각각의 연관단어의 개수에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함하고,
상기 적어도 하나의 연관 전자문서는, 완전 동일 클러스터 또는 부분 동일 클러스터 중 어느 하나에 속하고,
상기 완전 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어가 상기 제공대상 전자문서의 대표단어와 모두 일치하고,
상기 부분 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어 중 일부가 상기 제공대상 전자문서의 대표단어와 일치하며,
상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는,
상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되,
상기 페이지 내에서, 상기 완전 동일 클러스터에 속하는 연관 전자문서의 정보는 상기 부분 동일 클러스터에 속하는 연관 전자문서의 정보보다 우선적으로 배치되는 전자문서 제공 시스템.
제11항에 있어서,
상기 전자문서의 대표 단어 선정 방법은,
복수의 전자문서를 포함하는 소정의 전자문서 군 내에 속하는 분석대상 전자문서를 획득하는 단계;
상기 분석대상 전자문서로부터 소정의 추출기준에 의해 상기 분석대상 전자문서에 포함된 단어 중 적어도 하나의 후보 단어를 추출하는 단계;
상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계; 및
상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되,
상기 후보 단어의 비중 값을 획득하는 단계는,
상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계;
상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계; 및
상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 시스템.
제12항에 있어서,
상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
하기 [수식1]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 시스템.
[수식 1]

(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F₁(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
제12항에 있어서,
상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
하기 [수식2]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 시스템.
[수식 2]

(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F₁(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
제12항에 있어서,
상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
상기 후보 단어의 제1빈도 및 하기 [수식 3]에 따른 IF(x, D) 값에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 시스템.
[수식 3]

(x는 상기 후보 단어, D는 상기 전자문서 군, F₂(x, D)는 상기 후보 단어의 제2빈도, |D|는 상기 전자문서 군에 포함된 전자문서의 총 개수)
제11항에 있어서,
상기 적어도 하나의 연관 전자문서를 선정하는 단계는,
상기 제공대상 전자문서의 대표 단어에 기초하여 상기 제공대상 전자문서에 상응하는 단어 벡터를 생성하는 단계;
상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여,
상기 전자문서의 대표 단어에 기초하여 상기 전자문서에 상응하는 단어 벡터를 생성하고 상기 제공대상 전자문서와 상기 전자문서 간의 유사도를 산출하는 단계-여기서, 상기 유사도는 상기 제공대상 전자문서에 상응하는 단어 벡터와 상기 전자문서에 상응하는 단어 벡터간의 유클리드 거리에 반비례함;
산출된 상기 유사도에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함하는 전자문서 제공 시스템.
제16항에 있어서,
상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는,
상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되,
상기 페이지 내에서, 상기 적어도 하나의 연관 전자문서의 정보는 유사도 순으로 배치되는 전자문서 제공 시스템.
삭제
삭제