KR101931859B1 - 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 - Google Patents

전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 Download PDF

Info

Publication number
KR101931859B1
KR101931859B1 KR1020160125607A KR20160125607A KR101931859B1 KR 101931859 B1 KR101931859 B1 KR 101931859B1 KR 1020160125607 A KR1020160125607 A KR 1020160125607A KR 20160125607 A KR20160125607 A KR 20160125607A KR 101931859 B1 KR101931859 B1 KR 101931859B1
Authority
KR
South Korea
Prior art keywords
electronic document
candidate word
word
frequency
representative
Prior art date
Application number
KR1020160125607A
Other languages
English (en)
Other versions
KR20180035477A (ko
Inventor
김범진
Original Assignee
(주)시지온
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)시지온 filed Critical (주)시지온
Priority to KR1020160125607A priority Critical patent/KR101931859B1/ko
Publication of KR20180035477A publication Critical patent/KR20180035477A/ko
Application granted granted Critical
Publication of KR101931859B1 publication Critical patent/KR101931859B1/ko

Links

Images

Classifications

    • G06F17/27
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F17/30705

Abstract

전자문서에 포함된 각각의 단어 중 상기 전자문서를 대표할 수 있는 대표 단어를 선정하는 방법, 선정된 각 전자문서의 대표 단어를 이용하여 사용자 단말이 요청한 전자 문서 및 그와 연관된 전자문서에 관한 정보를 제공할 수 있는 방법 및 이들 방법을 수행하는 컴퓨팅 시스템이 개시된다. 본 발명의 일 측면에 따르면, 소정의 컴퓨팅 시스템에 의해 수행되는 전자문서의 대표 단어 선정 방법으로서, 복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 분석대상 전자문서를 획득하는 단계, 상기 분석대상 전자문서로부터 소정의 추출기준에 의해 적어도 하나의 후보 단어를 추출하는 단계, 상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계 및 상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되, 상기 후보 단어의 비중 값을 획득하는 단계는, 상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계; 상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계 및 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서의 대표 단어 선정 방법이 제공된다.

Description

전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템{Method for selecting headword of electronic document, method for providing electronic document, and computing system performing the same}
본 발명은 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법 및 이들 방법을 수행하는 컴퓨팅 시스템에 관한 것이다. 보다 상세하게는 전자문서에 포함된 각각의 단어 중 상기 전자문서를 대표할 수 있는 대표 단어를 선정하는 방법, 선정된 각 전자문서의 대표 단어를 이용하여 사용자 단말이 요청한 전자 문서 및 그와 연관된 전자문서에 관한 정보를 제공할 수 있는 방법 및 이들 방법을 수행하는 컴퓨팅 시스템에 관한 것이다.
최근 IT 기술의 등장 이후 컴퓨터를 통해 접근할 수 있는 전자문서의 비중이 계속적으로 증가하고 있으며, 특히 최근 모바일 기술이 발달과 함께 웹 문서와 같은 전자문서의 생산 및 유통이 더욱 폭발적으로 증가하고 있는 추세이다. 이러한 상황에서 전자문서의 주요 내용을 손쉽게 알고자 하는 요구와 수많은 전자문서들 중에서 자신이 관심 있어하는 주제와 관련된 문서에 손쉽게 접근하고자 하는 요구 역시 함께 증가하고 있다.
본 발명이 해결하고자 하는 기술적 과제는 전자문서에 포함된 각각의 단어 중 상기 전자문서를 대표할 수 있는 대표 단어를 자동으로 선정하는 방법 및 이를 수행하는 컴퓨팅 시스템, 선정된 각 전자문서의 대표 단어를 이용하여 사용자 단말이 요청한 전자 문서 및 그와 연관된 전자문서에 관한 정보를 제공할 수 있는 방법 및 이를 수행하는 컴퓨팅 시스템을 제공하는 것이다.
본 발명의 일 측면에 따르면, 소정의 컴퓨팅 시스템에 의해 수행되는 전자문서의 대표 단어 선정 방법으로서, 복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 분석대상 전자문서를 획득하는 단계, 상기 분석대상 전자문서로부터 소정의 추출기준에 의해 적어도 하나의 후보 단어를 추출하는 단계, 상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계 및 상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되, 상기 후보 단어의 비중 값을 획득하는 단계는, 상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계, 상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계 및 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서의 대표 단어 선정 방법이 제공된다.
일 실시예에서, 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는, 하기 [수식1]에 따른 RF(x,d) 값을 산출하는 단계 및 하기 [수식1]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함할 수 있다.
[수식 1]
Figure 112016094677914-pat00001
(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F1(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
일 실시예에서, 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는, 하기 [수식2]에 따른 RF(x,d) 값을 산출하는 단계 및 하기 [수식2]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함할 수 있다.
[수식 2]
Figure 112016094677914-pat00002
(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F1(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
일 실시예에서, 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는, 상기 후보 단어의 제1빈도 및 하기 [수식 3]에 따른 IF(x, D) 값에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함할 수 있다.
[수식 3]
Figure 112016094677914-pat00003
(x는 상기 후보 단어, D는 상기 전자문서 군, F2(x, D)는 상기 후보 단어의 제2빈도, |D|는 상기 전자문서 군에 포함된 전자문서의 총 개수)
본 발명의 다른 일 측면에 따르면, 소정의 컴퓨팅 시스템에 의해 수행되는 전자문서 제공 방법으로서, 복수의 전자문서를 포함하는 소정의 전자문서 군 내에 속하는 각각의 전자문서에 대하여, 상기 전자문서의 대표 단어를 상술한 전자문서의 대표 단어 선정 방법에 의하여 선정하는 단계, 상기 전자문서 군에 포함된 소정의 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 단계 및 사용자 단말로부터 수신되는 상기 제공대상 전자문서의 제공요청에 응답하여, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계를 포함하는 전자문서 제공 방법이 제공된다.
일 실시예에서, 상기 적어도 하나의 연관 전자문서를 선정하는 단계는, 상기 제공대상 전자문서의 대표 단어에 기초하여 상기 제공대상 전자문서에 상응하는 단어 벡터를 생성하는 단계, 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어에 기초하여 상기 전자문서에 상응하는 단어 벡터를 생성하고 상기 제공대상 전자문서와 상기 전자문서 간의 유사도를 산출하는 단계-여기서, 상기 유사도는 상기 제공대상 전자문서에 상응하는 단어 벡터와 상기 전자문서에 상응하는 단어 벡터간의 유클리드 거리에 반비례함-, 산출된 상기 유사도에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 전자문서 요청 시스템으로 제공하는 단계는, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되, 상기 페이지 내에서, 상기 적어도 하나의 연관 전자문서의 정보는 유사도 순으로 배치될 수 있다.
일 실시예에서, 상기 적어도 하나의 연관 전자문서를 선정하는 단계는, 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어 중에서 상기 제공대상 전자문서의 대표 단어 중 어느 하나와 일치하는 단어인 연관단어의 개수를 판단하는 단계 및 상기 나머지 전자문서 각각의 연관단어의 개수에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 적어도 하나의 연관 전자문서는, 완전 동일 클러스터 또는 부분 동일 클러스터 중 어느 하나에 속하고, 상기 완전 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어가 상기 제공대상 전자문서의 대표단어와 모두 일치하고, 상기 부분 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어 중 일부가 상기 제공대상 전자문서의 대표단어와 일치하며, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되, 상기 페이지 내에서, 상기 완전 동일 클러스터에 속하는 연관 전자문서의 정보는 상기 부분 동일 클러스터에 속하는 연관 전자문서의 정보보다 우선적으로 배치될 수 있다.
본 발명의 다른 일 측면에 따르면 데이터 처리장치에 설치되며 상술한 방법을 수행하기 위하여 기록매체에 저장된 컴퓨터 프로그램이 제공된다.
본 발명의 다른 일 측면에 따르면, 적어도 하나의 프로세서, 상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며, 상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 전자문서의 대표 단어 선정 방법을 수행하되, 상기 전자문서의 대표 단어 선정 방법은, 복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 분석대상 전자문서를 획득하는 단계, 상기 분석대상 전자문서로부터 소정의 추출기준에 의해 상기 분석대상 전자문서에 포함된 단어 중 적어도 하나의 후보 단어를 추출하는 단계, 상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계 및 상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되, 상기 후보 단어의 비중 값을 획득하는 단계는, 상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계, 상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계 및 상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서의 대표 단어 선정 시스템이 제공된다.
본 발명의 다른 일 측면에 따르면, 적어도 하나의 프로세서, 상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며, 상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 전자문서 제공 방법을 수행하되, 상기 전자문서 제공 방법은, 복수의 전자문서를 포함하는 소정의 전자문서 군 내에 속하는 각각의 전자문서에 대하여, 상기 전자문서의 대표 단어를 상술한 전자문서의 대표 단어 선정 방법에 의하여 선정하는 단계, 상기 전자문서 군에 포함된 소정의 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 단계 및 사용자 단말로부터 수신되는 상기 제공대상 전자문서의 제공요청에 응답하여, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계를 포함하는 전자문서 제공 시스템이 제공된다.
본 발명의 일 실시예에 따르면, 전자문서에 포함된 각각의 단어 중 상기 전자문서를 대표할 수 있는 대표 단어를 자동으로 선정하는 방법 및 이를 수행하는 컴퓨팅 시스템을 제공할 수 있다. 본 방법 및 시스템에 의하면, 특정 전자문서 내에서 각 단어가 출현하는 빈도와 해당 단어가 전자문서 군 전체에서 나타나는 빈도를 모두 고려함으로써, 해당 전자문서를 가장 적합하게 대표할 수 있는 대표 단어를 선정할 수 있는 효과가 있다.
또한 본 발명의 일 실시예에 따르면, 선정된 각 전자문서의 대표 단어를 이용하여 사용자 단말이 요청한 전자 문서 및 그와 연관된 전자문서에 관한 정보를 제공할 수 있는 방법 및 이를 수행하는 컴퓨팅 시스템을 제공할 수 있다. 본 방법 및 시스템에 따르면, 사용자가 요청한 전자문서와 연관성이 높은 다른 전자문서에 관한 정보를 함께 제공함으로써 사용자에게 높은 편의성을 제공할 수 있는 효과가 있다. 특히 사용자는 별도의 검색 없이도 관심 있는 주제에 관한 전자문서에 용이하게 접근할 수 있는 편의성을 제공받을 수 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 전자문서의 대표 단어 선정 방법 및 전자 문서 제공 방법의 수행 환경을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 전자문서의 대표 단어 선정 방법을 나타내는 흐름도이다.
도 3은 어느 하나의 후보 단어의 비중 값을 획득하는 방법을 설명하기 위한 흐름도이다,
도 4는 본 발명의 일 실시예에 따른 전자문서 제공 방법을 나타내는 흐름도이다.
도 5a 및 도 5b는 각각 사용자 단말에 디스플레이되는 페이지를 개략적으로 도시한 도면이다.
도 6 및 도 7은 각각 연관 전자문서를 선정하는 방법을 도시한 흐름도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 전자문서의 대표 단어 선정 방법 및 전자 문서 제공 방법의 수행 환경을 도시한 도면이다.
도 1을 참조하면, 전자문서의 대표 단어 선정 방법 및 전자 문서 제공 방법의 수행 환경은 소정의 컴퓨팅 시스템(100)에 의해 수행될 수 있다.
상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다.
상기 컴퓨팅 시스템(100)은 다수의 모듈의 형태로 구현될 수 있다. 예를 들면, 상기 컴퓨팅 시스템(100)은 네트워크를 통해 외부 시스템(예를 들면, 200) 및/또는 각종 사용자 단말(예를 들면, 300)과 통신할 수 있는 적어도 하나의 통신 모듈이나 상기 컴퓨팅 시스템(100)의 주요 기능을 수행하고 상기 컴퓨팅 시스템(100)에 포함된 다른 구성요소의 기능 및/또는 리소스를 제어하고 할 수 있는 제어모듈, 각종 정보를 저장할 수 있는 저장모듈, 사용자와 인터페이싱할 수 있는 입출력모듈 등을 포함할 수 있다. 상기 컴퓨팅 시스템(100)에 포함된 각종 모듈은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 경우에 따라서는 상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 각종 데이터를 저장하는 DB(130)을 더 포함할 수도 있다.
본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.
도 1을 참조하면, 상기 컴퓨팅 시스템(100)은 본 발명의 기술적 사상에 따른 전자문서의 대표 단어 선정 방법을 수행하기 위한 전자문서의 대표 단어 선정 시스템(110; 이하, '선정 시스템'이라고 함) 및 본 발명의 기술적 사상에 따른 전자문서 제공 방법을 수행하기 위한 전자문서 제공 시스템(120; 이하, '제공 시스템'이라고 함)을 포함할 수 있다.
상기 선정 시스템(110) 및 제공 시스템(120)은 각각 독립된 물리적 장치의 형태로 구현될 수 있다. 또는 구현 예에 따라 두 시스템(110, 120)은 하나의 물리적 장치로 구현될 수도 있다. 후자의 경우, 두 시스템(110, 120)은 각각 논리적으로 구분된 별도의 소프트웨어로 구성될 수 있다.
이하에서는 이해의 편의를 위하여 본 발명의 기술적 사상에 따른 전자문서의 대표 단어 선정 방법은 상기 선정 시스템(110)에 의해 수행되고, 본 발명의 기술적 사상에 따른 전자문서 제공 방법은 상기 제공 시스템(120)에 의해 수행되는 것으로 설명하지만, 구현 예에 따라서는 도 1과 는 달리, 상기 컴퓨터 시스템(100)은 본 발명의 기술적 사상에 따른 전자문서의 대표 단어 선정 방법 및 전자문서 제공 방법을 복합적으로 수행하는 하나의 시스템으로 구현될 수도 있다.
도 1에 도시된 바와 같이, 상기 컴퓨팅 시스템(100)은 소정의 외부 시스템(200)과 네트워크를 통해 연결되어 본 발명의 기술적 사상을 구현하는데 필요한 각종 정보, 데이터, 신호 및/또는 메시지를 송수신할 수 있다. 예를 들어 상기 컴퓨팅 시스템(100)은 상기 외부 시스템(200)으로부터 전자문서를 수신할 수 있다. 일 실시예에서 수신된 전자문서는 상기 DB(130)에 보관될 수 있다.
상기 외부 시스템(200)은 전자문서를 생성하거나 저장하거나 수집하거나 제공할 수 있는 각종 시스템일 수 있다. 예를 들어 상기 외부 시스템(200)은 기사를 생성/제공하는 언론사 시스템일 수 있다. 또는 상기 외부 시스템(200)은 블로그 서비스, 인터넷 커뮤니티 서비스, 전자 게시판 서비스, 소셜 네트워크 서비스 등을 제공하는 시스템일 수도 있으나 이에 한정되는 것은 아니다.
본 명세서에서 전자 문서라고 함은 컴퓨터로 판독 가능한 기록매체에 저장될 수 있거나 전자적 형태로 저장되거나 전송될 수 있는 문서 혹은 컴퓨터가 읽고 해석할 수 있는 형태의 문서를 의미할 수 있다. 예를 들어, 전자 문서는 웹 페이지일 수 있다. 또는 전자 문서는 PDF 포맷의 문서, 전자메일 혹은 각종 워드프로세서에 의해 생성될 수 있는 문서일 수도 있으나 이에 한정되는 것은 아니다.
한편, 도 1에는 하나의 외부 시스템(200)만이 도시되어 있으나, 구현예에 따라서는 다수의 외부 시스템이 존재할 수 있으며, 상기 컴퓨팅 시스템(100)은 다수의 외부 시스템 각각으로부터 전자문서를 수신할 수 있다.
도 1은 상기 컴퓨팅 시스템(100)이 상기 외부 시스템(200)과 분리된 별도의 시스템으로 구현된 형태를 도시하고 있으나, 실시예에 따라 상기 컴퓨팅 시스템(100)은 상기 외부 시스템(200)에 포함된 서브 시스템의 형태로 구현될 수도 있다. 또는 상기 컴퓨팅 시스템(100)의 구성 요소 중 일부가 상기 외부 시스템(200)에 포함되는 형태로 구현될 수도 있다.
한편, 상기 컴퓨팅 시스템(100)은 사용자 단말(300)과 유/무선 네트워크를 통해 연결되어 본 발명의 기술적 사상을 구현하는데 필요한 각종 정보, 데이터, 신호 및/또는 메시지를 송수신할 수 있다. 예를 들어, 상기 컴퓨팅 시스템(100)은 특정한 전자문서 및 상기 특정한 전자문서와 연관된 적어도 하나의 다른 전자문서의 정보를 상기 사용자 단말(300)로 전송할 수 있다.
상기 사용자 단말(300)은 휴대전화, 위성전화, 무선전화, SIP(Session Initiation Protocol), WLL(Wireless Local Loop) 스테이션, 스마트폰, 타블렛 PC, PDA(Personal Digital Assistant) 등의 핸드헬드 장치, 데스크 탑이나 랩탑을 포함하는 컴퓨팅 장치일 수도 있다.
도 2는 본 발명의 일 실시예에 따른 선정 시스템(110)이 수행하는 전자문서의 대표 단어 선정 방법을 나타내는 흐름도이다. 전자문서의 대표 단어 선정 방법을 수행함으로써, 상기 선정 시스템(110)은 특정 전자문서(분석대상 전자문서)를 대표하는 적어도 하나의 대표 단어를 선정할 수 있다.
상기 대표 단어는 상기 분석대상 전자문서에 포함된 단어로서, 상기 분석대상 전자문서의 내용을 가장 잘 나타내는 단어일 수 있다. 상기 대표 단어는 표제어, 키워드, 핵심어, 태그 등으로 활용될 수 있다.
한편, 상기 분석대상 전자문서는 소정의 전자문서 군(group)에 속하는 전자문서일 수 있다.
전자문서 군은 복수의 전자문서를 포함할 수 있다. 하나의 전자문서 군을 형성하는 방법은 다양할 수 있다. 일 실시예에서, 하나의 전자문서 군은 어느 하나의 외부 시스템(예를 들면, 200)에서 수집된 전자문서만을 포함할 수 있다. 또는 하나의 전자문서 군에 포함된 복수의 전자문서는 미리 지정된 여러 외부 시스템으로부터 수집된 전자문서를 포함할 수 있다. 또는 상기 전자문서 군에 포함된 복수의 전자문서는 다양한 외부 사이트를 크롤링하여 수집한 전자문서일 수도 있다.
또는 하나의 전자문서 군에 포함된 복수의 전자문서는 특정한 조건을 만족하는 문서만을 포함할 수도 있다. 예를 들어, 하나의 전자문서 군은 특정한 기간에 작성 또는 게시된 전자문서만을 포함하거나, 특정한 사이트에서 제공하는 전자문서만을 포함하거나, 특정한 사이트에서 제공하며 특정한 기간 내에 작성된 전자문서만을 포함할 수 있다. 이 외에도 작성자, 본문의 길이, 미리 지정된 태그 등 다양한 조건이 있을 수 있다.
상기 전자문서 군에 포함된 복수의 전자문서는 이후 설명하는 전자문서의 대표 단어 선정 방법 또는 전자문서 제공방법이 수행되기 이전에 미리 상기 컴퓨팅 시스템(100)에 의해 수집될 수 있다.
도 2를 참조하면, 상기 선정 시스템(110)은 소정의 전자문서 군에 속하는 분석대상 전자문서를 획득할 수 있다(S110). 상기 선정 시스템(110)은 상기 외부 시스템(200)으로부터 상기 분석대상 전자문서를 획득할 수 있다. 또는 상기 선정 시스템(110)은 미리 수집된 상기 분석대상 전자문서를 보관하고 있는 상기 DB(130)로부터 상기 분석대상 전자문서를 획득할 수도 있다.
이후 상기 선정 시스템(110)은 상기 분석대상 전자문서로부터 소정의 추출기준에 의해 적어도 하나의 후보 단어를 추출할 수 있다(S120). 상기 추출기준은 다양할 수 있다.
일 실시예에서, 상기 선정 시스템(110)은 특정 품사(예를 들어, 명사)에 해당하는 단어만을 후보 단어라고 판단할 수 있다. 이 경우 상기 선정 시스템(110)은 상기 분석대상 전자문서에 포함된 각 단어의 형태소 분석을 수행할 수 있다. 구현 예에 따라 상기 선정 시스템(110)은 해당 단어가 어느 품사에 해당하는지 판단할 수 없는 경우 이를 신조어라고 보고 후보단어라고 판단할 수 있다.
한편, 상기 선정 시스템(110)은 추출된 상기 적어도 하나의 후보단어 각각의 비중 값(상기 후보 단어가 상기 분석대상 전자문서 내에서 차지하는 비중 혹은 중요도를 나타내는 값)을 획득할 수 있으며(S130), 획득한 비중 값에 기초하여 추출된 적어도 하나의 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표단어로 선정할 수 있다(S140). 예를 들어, 상기 선정 시스템(110)은 비중 값이 가장 높은 일정 개수의 후보 단어를 대표 단어로 선정할 수 있다. 또는 상기 선정 시스템(110)은 비중 값이 일정 값 이상(혹은 일정 값 이하)인 후보 단어를 모두 대표 단어로 선정할 수도 있다.
이하에서는 도 3을 참조하여, S130 단계에 대해 보다 상세하게 설명하기로 한다. 도 3은 어느 하나의 후보 단어의 비중 값을 획득하는 방법을 설명하기 위한 흐름도이다,
도 3을 참조하면, 상기 선정 시스템(110)은 상기 후보 단어의 제1빈도를 획득할 수 있다(S131). 이때, 특정 단어의 제1빈도는 상기 분석대상 전자문서 내에서 상기 특정 단어가 출현한 횟수로 정의될 수 있다. 예를 들어, 특정 단어가 상기 분석대상 전자문서 내에서 n번 나타난 경우 상기 특정 단어의 제1빈도는 n일 수 있다.
한편, 상기 선정 시스템(110)은 상기 후보 단어의 제2빈도를 획득할 수 있다(S132). 이때 특정 단어의 제2빈도는 상기 분석대상 전자문서가 속하는 전자문서 군에 포함된 모든 전자문서 중 상기 특정 단어를 포함하고 있는 전자문서의 개수로 정의될 수 있다. 예를 들어, 특정 단어를 포함하는 전자문서가 상기 전자문서 군 내에 m개 존재하는 경우, 상기 특정 단어의 제2빈도는 m일 수 있다. 한편, 실시예에 따라서 상기 제2빈도는 상기 전자문서 군 내의 모든 전자문서에서 상기 후보 단어가 출현한 횟수로 정의될 수도 있다.
이후 상기 선정 시스템(110)은 상기 후보 단어의 비중 값을 획득할 수 있다(S133). 이때, 상기 후보 단어의 비중 값은 상기 제1빈도 및 상기 제2빈도에 기초하여 산출되는 값일 수 있다.
특정 단어가 상기 분석대상 전자문서에 자주 출현하는 경우 해당 단어는 상기 분석대상 전자문서와 높은 관련성을 가질 가능성이 크기 때문에, 특정 단어의 제1빈도가 높을수록 상기 특정 단어와 상기 분석대상 전자문서간의 관련성이 크다고 볼 수 있다. 반면, 특정 단어가 전자문서 군 내의 많은 문서에서 공통적으로 나타나는 경우, 해당 단어는 상기 분석대상 전자문서만의 특징을 드러내기에는 적합하지 않은 일반적인 단어일 가능성이 높기 때문에, 특정 단어의 제2빈도가 높을수록 상기 특정 단어와 상기 분석대상 전자문서간의 관련성이 적다고 볼 수 있다.
일 실시예에서, 상기 선정 시스템(110)은 상기 후보 단어의 제1빈도가 증가할수록 중가하고, 상기 후보 단어의 제2빈도가 증가할수록 감소하는 소정의 수학적 함수를 이용할 수 있다. 이 경우, 도 2의 S140 단계에서 상기 선정 시스템(110)은 비중 값이 가장 높은 일정 개수의 후보 단어 또는 비중 값이 일정 수치 이상인 후보 단어를 상기 분석대상 전자문서의 대표 단어로 선정할 수 있다.
다른 일 실시예에서, 상기 선정 시스템(110)은 상기 후보 단어의 제1빈도가 증가할수록 감소하고, 상기 후보 단어의 제2빈도가 증가할수록 증가하는 소정의 수학적 함수를 이용하여 상기 후보 단어의 비중 값을 산출할 수도 있다. 이 경우 도 2의 S140 단계에서 상기 선정 시스템(110)은 비중 값이 가장 낮은 일정 개수의 후보 단어 또는 비중 값이 일정 수치 이하인 후보 단어를 상기 분석대상 전자문서의 대표 단어로 선정할 수 있다.
한편, 일 실시예에서 상기 선정 시스템(110)은 상기 후보 단어의 제1빈도를 그대로 이용하는 것이 아니라 상기 후보 단어의 제1빈도에 기초하여 산출되는 상대적 빈도 값을 산출한 후 이에 기초하여 상기 후보 단어의 비중 값을 산출할 수 있다. 동일한 제1빈도를 가지는 경우에도 해당 단어가 속한 문서의 길이에 따라 비중 값이 달리 판단되도록 하기 위함이다(예를 들어, 길이가 1페이지인 문서 내에서 특정 단어가 n번 등장했을 때의 비중 값과 길이가 10페이지인 문서 내에서 특정 단어가 n번 등장했을 때의 비중 값은 달리 볼 수 있다). 본 실시예에서, 상기 선정 시스템(110)은 하기 [수식 1] 또는 [수식 2]에 의해 상기 후보 단어의 상대적 빈도 값 RF(x, d)을 산출할 수 있다.
[수식 1]
Figure 112016094677914-pat00004
(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F1(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
[수식 2]
Figure 112016094677914-pat00005
(x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F1(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
한편, 일 실시예에서 상기 선정 시스템(110)은 상기 후보 단어의 제2빈도를 그대로 이용하는 것이 아니라 상기 후보 단어의 제2빈도와 전자문서 군의 크기(즉, 상기 전자문서 군에 포함된 전자문서의 총 개수)를 함께 고려한 역문서 빈도 값 IF(x, D)을 하기 [수식 3]에 의해 산출한 후 이에 기초하여 상기 후보 단어의 비중 값을 산출할 수 있다. 구현 예에 따라서는 하기 [수식 3]의 IF(x, D)에 로그를 취한 값에 기초하여 상기 후보 단어의 비중 값을 산출할 수 있다.
[수식 3]
Figure 112016094677914-pat00006
(x는 상기 후보 단어, D는 상기 전자문서 군, F2(x, D)는 상기 후보 단어의 제2빈도, |D|는 상기 전자문서 군에 포함된 전자문서의 총 개수)
한편, 도 2 및 도 3의 과정을 통해 선정된 상기 분석대상 전자문서의 대표 단어는 상기 분석대상 전자문서에 태깅될 수 있다.
상기 제공 시스템(120)은 상기 사용자 단말(200)이 상기 전자문서 군에 속하는 특정 전자문서(제공대상 전자문서)의 제공을 요청하는 경우, 상기 요청에 응답하여 상기 제공대상 전자문서를 상기 사용자 단말로 전송(제공)할 수 있다. 구현 예에 따라 상기 제공 시스템(120)은 상기 전자문서의 대표 단어 선정 방법에 의해 선정된 상기 제공대상 전자문서의 대표 단어를 상기 제공대상 전자문서와 함께 제공할 수 있다.
또한 상기 제공 시스템(120)은 상기 제공 대상 전자문서와 함께 상기 제공 대상 전자문서와 연관된 연관 전자문서에 관한 정보를 제공할 수도 있는데 이하에서는 이에 대하여 도 4 내지 도 7을 참조하여 설명하기로 한다.
도 4는 본 발명의 일 실시예에 따른 제공 시스템(120)이 수행하는 전자문서 제공 방법을 나타내는 흐름도이다.
도 4를 참조하면, 상기 제공 시스템(120)은 전자문서 군에 속하는 각각의 전자문서의 대표 단어를 선정할 수 있다(S210). 상기 제공 시스템(120)은 상술한 전자문서의 대표 단어 선정 방법을 이용하여 각 전자문서의 대표 단어를 선정할 수 있다. 구현 예에 따라서 상기 제공 시스템(120)은 다른 다양한 방법을 이용하여 각 전자문서의 대표 단어를 선정할 수도 있다.
한편, 상기 제공 시스템(120)은 상기 전자문서 군에 속하는 제공대상 전자문서의 제공 요청을 상기 사용자 단말(300)로부터 수신할 수 있다(S220).
그러면 상기 제공 시스템(120)은 상기 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정할 수 있다(S230).
이후 상기 제공 시스템(120)은 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공할 수 있다(S240).
일 실시예에서 상기 제공 시스템(120)은 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 상기 사용자 단말(300)로 제공할 수 있으며, 상기 사용자 단말(300)은 제공된 페이지를 디스플레이할 수 있는데, 도 5a 및 도 5b는 각각 상기 사용자 단말(300)에 디스플레이되는 페이지를 개략적으로 도시한 도면이다.
먼저 도 5a를 참조하면, 상기 사용자 단말(300)에 디스플레이 되는 페이지(310)의 특정 영역(311)에 제공대상 전자문서의 내용 중 적어도 일부가 표시될 수 있다. 또한 상기 페이지(310)에는 상기 제공대상 전자문서의 연관 전자문서의 정보(311-1 내지 311-6)가 세로로 나열될 수 있다. 각각의 연관 전자문서의 정보는 해당 연관 전자문서의 내용 중 일부, 제목, 작성시각 등을 포함할 수 있으며, 해당 연관 전자문서를 가리키는 하이퍼링크의 형태로 표시될 수도 있다. 또한 상기 페이지(310)에는 상기 제공대상 전자문서의 대표 단어(예를 들어, H1, H2, H3, H4)가 해시 태그 등의 형태(313)로 표시될 수도 있다.
도 5b를 참조하면, 상기 사용자 단말(300)에 디스플레이 되는 페이지(320)의 특정 영역(321)에 제공대상 전자문서의 내용 중 적어도 일부가 표시될 수 있다. 또한 상기 페이지(310)에는 상기 제공대상 전자문서의 연관 전자문서의 정보(321-1 내지 321-6)가 가로로 나열될 수 있다.
이하에서는 도 6 및 도 7을 참조하여, S230 단계에 대해 보다 상세하게 설명하기로 한다. 도 6 및 도 7은 각각 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 방법을 도시한 흐름도이다.
먼저 도 6을 참조하면, 상기 제공 시스템(120)은 상기 제공대상 전자문서의 대표 단어에 기초하여 상기 제공대상 전자문서에 상응하는 단어 벡터 V1를 생성할 수 있다(S231). 특정 전자문서의 단어 벡터는 상기 특정 전자문서에서 추출된 후보 단어의 제1빈도를 요소로 하는 벡터일 수 있다.
한편, 상기 제공 시스템(120)은 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여 유사도를 산출할 수 있다. 이를 위하여, 상기 제공 시스템(120)은 각각의 전자문서의 단어벡터 V2를 생성할 수 있으며(S232), 단어 벡터 V1과 단어벡터 V2 간의 유클리드 거리(Euclidean Distance)를 산출할 수 있다(S233). 이때, 두 전자문서 간의 유사도는 두 전자문서에 상응하는 단어 벡터의 유클리드 거리에 반비례하는 값일 수 있다.
이후 상기 제공 시스템(120)은 산출된 상기 유사도에 기초하여 상기 적어도 하나의 연관 전자문서를 선정할 수 있다(S234).
한편, 도 6의 실시예의 경우, 상술한 페이지 내에서, 상기 적어도 하나의 연관 전자문서의 정보는 유사도 순으로 배치될 수 있다. 예를 들면, 도 5a의 페이지(310)에서 각각의 연관 전자문서의 정보(312-1 내지 312-6)는 유사도가 높을수록 상위에 배치될 수 있으며, 도 5b의 페이지(320)에서 각각의 연관 전자문서의 정보(322-1 내지 322-6)는 유사도가 높을수록 좌측에 배치될 수 있다.
다음으로 도 7을 참조하면, 상기 제공 시스템(120)은 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어 중에서 상기 제공대상 전자문서의 대표 단어 중 어느 하나와 일치하는 단어인 연관단어의 개수를 판단할 수 있다(S235).
이후 상기 제공 시스템(120)은 상기 나머지 전자문서 각각의 연관단어의 개수에 기초하여 상기 적어도 하나의 연관 전자문서를 선정할 수 있다(S236).
본 실시예에서, 상기 적어도 하나의 연관 전자문서는 완전 동일 클러스터 또는 부분 동일 클러스터 중 어느 하나에 속할 수 있다.
완전 동일 클러스터는 상기 제공대상 전자문서와 대표단어가 모두 일치하는 연관 전자문서로 구성된 클러스터일 수 있다. 즉, 상기 완전 동일 클러스터에 속하는 연관 전자문서는 해당 연관 전자문서의 대표 단어가 상기 제공대상 전자문서의 대표단어와 모두 일치할 수 있다.
부분 동일 클러스터는 상기 제공대상 전자문서와 대표단어가 일부만 일치하는 연관 전자문서로 구성된 클러스터일 수 있다. 즉, 상기 부분 동일 클러스터에 속하는 연관 전자문서는 해당 연관 전자문서의 대표 단어 중 일부가 상기 제공대상 전자문서의 대표단어와 일치할 수 있다.
도 7의 실시예에서, 완전 동일 클러스터와 부분 동일 클러스터에 포함된 연관 전자문서의 개수는 미리 지정되어 있을 수 있다. 예를 들어, 상기 제공 시스템(120)은 완전 동일 클러스터에 속하는 20개의 연관 전자문서를 선정할 수 있으며, 부분 동일 클러스터에 속하는 20개의 연관 전자문서를 선정할 수 있다.
한편, 상기 제공 시스템(120)은 도 7에 따른 연관 전자문서의 선정 과정에서 상술한 유사도 혹은 유클리드 거리를 더 반영할 수도 있다. 예를 들면, 상기 제공 시스템(120)은 상술한 방법에 의해 유사도 혹은 유클리드 거리를 산출하고, 산출된 값이 일정 범위를 벗어나는 전자문서의 경우 해당 전자문서를 연관 전자문서에서 제외할 수 있다.
한편, 도 7의 실시예의 경우, 상술한 페이지 내에서, 상기 완전 동일 클러스터에 속하는 연관 전자문서의 정보는 상기 부분 동일 클러스터에 속하는 연관 전자문서의 정보보다 우선적으로 배치될 수 있다.
예를 들면, 도 5a의 페이지(310)에서는 완전 동일 클러스터에 속하는 연관 전자문서는 부분 동일 클러스터에 속하는 연관 전자문서보다 상위에 배치될 수 있으며, 도 5b의 페이지(320)에서 완전 동일 클러스터에 속하는 연관 전자문서는 부분 동일 클러스터에 속하는 연관 전자문서보다 좌측에 배치될 수 있다. 또한 동일한 클러스터 내에서 각 전자문서의 작성시각 혹은 게시 시각 순으로 배치될 수 있다.
한편, 구현 예에 따라서, 상기 컴퓨팅 시스템(100)은 적어도 하나의 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다. 여기서, 상기 프로그램은, 프로세서에 의해 실행되는 경우, 본 실시예에 따른 컴퓨팅 시스템(100)으로 하여금, 상술한 전자문서의 대표 단어 선정 방법 및/또는 전자문서 제공 방법을 수행하도록 할 수 있다.
한편, 본 발명의 실시예에 따른 전자문서의 대표 단어 선정 방법 및/또는 전자문서 제공 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (19)

  1. 소정의 컴퓨팅 시스템에 의해 수행되는 전자문서 제공 방법으로서,
    복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 각각의 전자문서에 대하여, 상기 전자문서의 대표 단어를 소정의 전자문서의 대표 단어 선정 방법에 의하여 선정하는 단계;
    상기 전자문서 군에 포함된 소정의 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 단계; 및
    사용자 단말로부터 수신되는 상기 제공대상 전자문서의 제공요청에 응답하여, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계를 포함하되,
    상기 적어도 하나의 연관 전자문서를 선정하는 단계는,
    상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어 중에서 상기 제공대상 전자문서의 대표 단어 중 어느 하나와 일치하는 단어인 연관단어의 개수를 판단하는 단계; 및
    상기 나머지 전자문서 각각의 연관단어의 개수에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함하고,
    상기 적어도 하나의 연관 전자문서는, 완전 동일 클러스터 또는 부분 동일 클러스터 중 어느 하나에 속하고,
    상기 완전 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어가 상기 제공대상 전자문서의 대표단어와 모두 일치하고,
    상기 부분 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어 중 일부가 상기 제공대상 전자문서의 대표단어와 일치하며,
    상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는,
    상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되,
    상기 페이지 내에서, 상기 완전 동일 클러스터에 속하는 연관 전자문서의 정보는 상기 부분 동일 클러스터에 속하는 연관 전자문서의 정보보다 우선적으로 배치되는 전자문서 제공 방법.
  2. 제1항에 있어서,
    상기 전자문서의 대표 단어 선정 방법은,
    복수의 전자문서를 포함하는 소정의 전자문서 군 내에 속하는 분석대상 전자문서를 획득하는 단계;
    상기 분석대상 전자문서로부터 소정의 추출기준에 의해 적어도 하나의 후보 단어를 추출하는 단계;
    상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계; 및
    상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되,
    상기 후보 단어의 비중 값을 획득하는 단계는,
    상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계;
    상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계; 및
    상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 방법.
  3. 제2항에 있어서,
    상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
    하기 [수식1]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 방법.
    [수식 1]
    Figure 112018011295405-pat00007

    (x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F1(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
  4. 제2항에 있어서,
    상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
    하기 [수식2]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 방법.
    [수식 2]
    Figure 112018011295405-pat00008

    (x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F1(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
  5. 제2항에 있어서,
    상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
    상기 후보 단어의 제1빈도 및 하기 [수식 3]에 따른 IF(x, D) 값에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 방법.
    [수식 3]
    Figure 112018011295405-pat00009

    (x는 상기 후보 단어, D는 상기 전자문서 군, F2(x, D)는 상기 후보 단어의 제2빈도, |D|는 상기 전자문서 군에 포함된 전자문서의 총 개수)
  6. 제1항에 있어서,
    상기 적어도 하나의 연관 전자문서를 선정하는 단계는,
    상기 제공대상 전자문서의 대표 단어에 기초하여 상기 제공대상 전자문서에 상응하는 단어 벡터를 생성하는 단계;
    상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여,
    상기 전자문서의 대표 단어에 기초하여 상기 전자문서에 상응하는 단어 벡터를 생성하고 상기 제공대상 전자문서와 상기 전자문서 간의 유사도를 산출하는 단계-여기서, 상기 유사도는 상기 제공대상 전자문서에 상응하는 단어 벡터와 상기 전자문서에 상응하는 단어 벡터간의 유클리드 거리에 반비례함;
    산출된 상기 유사도에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함하는 전자문서 제공 방법.
  7. 제6항에 있어서,
    상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는,
    상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되,
    상기 페이지 내에서, 상기 적어도 하나의 연관 전자문서의 정보는 유사도 순으로 배치되는 전자문서 제공 방법.
  8. 삭제
  9. 삭제
  10. 데이터 처리장치에 설치되며 제1항 내지 제7항 중 어느 한 항에 기재된 방법을 수행하기 위하여 기록매체에 저장된 컴퓨터 프로그램.
  11. 적어도 하나의 프로세서;
    상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며,
    상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 전자문서 제공 방법을 수행하되,
    상기 전자문서 제공 방법은,
    복수의 전자문서를 포함하는 소정의 전자문서 군(群) 내에 속하는 각각의 전자문서에 대하여, 상기 전자문서의 대표 단어를 소정의 전자문서의 대표 단어 선정 방법에 의하여 선정하는 단계;
    상기 전자문서 군에 포함된 소정의 제공대상 전자문서의 대표 단어와 상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각의 대표 단어를 비교하여, 상기 제공대상 전자문서와 연관된 적어도 하나의 연관 전자문서를 선정하는 단계; 및
    사용자 단말로부터 수신되는 상기 제공대상 전자문서의 제공요청에 응답하여, 상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계를 포함하되,
    상기 적어도 하나의 연관 전자문서를 선정하는 단계는,
    상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여, 상기 전자문서의 대표 단어 중에서 상기 제공대상 전자문서의 대표 단어 중 어느 하나와 일치하는 단어인 연관단어의 개수를 판단하는 단계; 및
    상기 나머지 전자문서 각각의 연관단어의 개수에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함하고,
    상기 적어도 하나의 연관 전자문서는, 완전 동일 클러스터 또는 부분 동일 클러스터 중 어느 하나에 속하고,
    상기 완전 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어가 상기 제공대상 전자문서의 대표단어와 모두 일치하고,
    상기 부분 동일 클러스터에 속하는 연관 전자문서는, 해당 연관 전자문서의 대표 단어 중 일부가 상기 제공대상 전자문서의 대표단어와 일치하며,
    상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는,
    상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되,
    상기 페이지 내에서, 상기 완전 동일 클러스터에 속하는 연관 전자문서의 정보는 상기 부분 동일 클러스터에 속하는 연관 전자문서의 정보보다 우선적으로 배치되는 전자문서 제공 시스템.
  12. 제11항에 있어서,
    상기 전자문서의 대표 단어 선정 방법은,
    복수의 전자문서를 포함하는 소정의 전자문서 군 내에 속하는 분석대상 전자문서를 획득하는 단계;
    상기 분석대상 전자문서로부터 소정의 추출기준에 의해 상기 분석대상 전자문서에 포함된 단어 중 적어도 하나의 후보 단어를 추출하는 단계;
    상기 적어도 하나의 후보 단어 각각에 대하여, 상기 후보 단어의 비중 값을 획득하는 단계; 및
    상기 후보 단어 각각의 비중 값에 기초하여, 상기 후보 단어 중 적어도 일부를 상기 분석대상 전자문서의 대표 단어로 선정하는 단계를 포함하되,
    상기 후보 단어의 비중 값을 획득하는 단계는,
    상기 후보 단어가 상기 분석대상 전자문서 내에서 출현한 횟수인 제1빈도를 획득하는 단계;
    상기 전자문서 군 내의 전자문서에서 상기 후보 단어가 출현한 횟수 또는 상기 전자문서 군 내의 전자문서 중 상기 후보 단어가 포함된 전자문서의 개수인 제2빈도를 획득하는 단계; 및
    상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 시스템.
  13. 제12항에 있어서,
    상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
    하기 [수식1]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 시스템.
    [수식 1]
    Figure 112018011295405-pat00010

    (x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F1(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
  14. 제12항에 있어서,
    상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
    하기 [수식2]에 따른 RF(x,d) 값 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 시스템.
    [수식 2]
    Figure 112018011295405-pat00011

    (x는 상기 후보 단어, d는 상기 분석대상 전자문서, 함수 F1(a, b)는 단어a가 전자문서b 내에서 출현한 횟수, E는 상기 분석대상 전자문서에서 추출된 상기 적어도 하나의 후보 단어로 구성된 집합)
  15. 제12항에 있어서,
    상기 후보 단어의 제1빈도 및 상기 후보 단어의 제2빈도에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계는,
    상기 후보 단어의 제1빈도 및 하기 [수식 3]에 따른 IF(x, D) 값에 기초하여 산출되는 상기 후보 단어의 비중 값을 획득하는 단계를 포함하는 전자문서 제공 시스템.
    [수식 3]
    Figure 112018011295405-pat00012

    (x는 상기 후보 단어, D는 상기 전자문서 군, F2(x, D)는 상기 후보 단어의 제2빈도, |D|는 상기 전자문서 군에 포함된 전자문서의 총 개수)
  16. 제11항에 있어서,
    상기 적어도 하나의 연관 전자문서를 선정하는 단계는,
    상기 제공대상 전자문서의 대표 단어에 기초하여 상기 제공대상 전자문서에 상응하는 단어 벡터를 생성하는 단계;
    상기 전자문서 군에 포함된 상기 복수의 전자문서에서 상기 제공대상 전자문서를 제외한 나머지 전자문서 각각에 대하여,
    상기 전자문서의 대표 단어에 기초하여 상기 전자문서에 상응하는 단어 벡터를 생성하고 상기 제공대상 전자문서와 상기 전자문서 간의 유사도를 산출하는 단계-여기서, 상기 유사도는 상기 제공대상 전자문서에 상응하는 단어 벡터와 상기 전자문서에 상응하는 단어 벡터간의 유클리드 거리에 반비례함;
    산출된 상기 유사도에 기초하여 상기 적어도 하나의 연관 전자문서를 선정하는 단계를 포함하는 전자문서 제공 시스템.
  17. 제16항에 있어서,
    상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보를 상기 사용자 단말로 제공하는 단계는,
    상기 제공대상 전자문서 및 상기 적어도 하나의 연관 전자문서의 정보가 배치된 페이지를 제공하는 단계를 포함하되,
    상기 페이지 내에서, 상기 적어도 하나의 연관 전자문서의 정보는 유사도 순으로 배치되는 전자문서 제공 시스템.
  18. 삭제
  19. 삭제
KR1020160125607A 2016-09-29 2016-09-29 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 KR101931859B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160125607A KR101931859B1 (ko) 2016-09-29 2016-09-29 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160125607A KR101931859B1 (ko) 2016-09-29 2016-09-29 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Publications (2)

Publication Number Publication Date
KR20180035477A KR20180035477A (ko) 2018-04-06
KR101931859B1 true KR101931859B1 (ko) 2018-12-21

Family

ID=61973845

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160125607A KR101931859B1 (ko) 2016-09-29 2016-09-29 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Country Status (1)

Country Link
KR (1) KR101931859B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230016274A (ko) * 2021-07-26 2023-02-02 주식회사 플렉슬 하나의 화면 상에 전자 문서를 구성하는 페이지를 두 개의 페이지씩 동시에 표시할 수 있는 전자 장치 및 그 동작 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101934240B1 (ko) * 2018-08-13 2019-04-05 주식회사 아발론교육 키워드를 표시하는 방법 및 그 장치
KR102002488B1 (ko) * 2019-04-02 2019-07-23 주식회사 한국정보보호경영연구소 블록체인 기반 오프 체인 분산형 저장소를 활용한 문서 임치 시스템
KR102593884B1 (ko) * 2020-11-12 2023-10-26 주식회사 포스코인재창조원 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016092A (ja) 2001-04-26 2003-01-17 Hitachi Ltd 類似文書検索方法及びその実施システム並びにその処理プログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
JPH11259487A (ja) * 1998-03-06 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
US8914361B2 (en) * 1999-09-22 2014-12-16 Google Inc. Methods and systems for determining a meaning of a document to match the document to content
KR100685023B1 (ko) * 2001-11-13 2007-02-20 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
KR100490748B1 (ko) * 2002-04-11 2005-05-24 한국전자통신연구원 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법
JP4222811B2 (ja) * 2002-10-30 2009-02-12 株式会社リコー キーワード抽出装置並びにプログラムおよび記録媒体
JP4828091B2 (ja) * 2003-03-05 2011-11-30 ヒューレット・パッカード・カンパニー クラスタリング方法プログラム及び装置
KR20060122276A (ko) * 2005-05-26 2006-11-30 주식회사 다음기술 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
KR100849631B1 (ko) * 2006-08-01 2008-07-31 (주)윕스 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체
KR100835290B1 (ko) * 2006-11-07 2008-06-05 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
KR100878157B1 (ko) * 2007-05-15 2009-01-15 충남대학교산학협력단 프로세스 정보를 이용한 지능적 웹 서비스 발견 방법
KR100898462B1 (ko) * 2007-05-16 2009-05-21 엔에이치엔(주) 문서 순위 결정 방법 및 이를 이용한 문서 순위 결정시스템
KR100896702B1 (ko) * 2007-08-16 2009-05-14 한국과학기술원 신뢰도를 향상시킨 문서 구조 기반 군집 장치 및 방법
KR100917176B1 (ko) * 2007-11-19 2009-09-15 포항공과대학교 산학협력단 비구조 웹문서로부터 온톨로지를 자동으로 구축하기 위한방법 및 장치
KR100993845B1 (ko) * 2007-12-28 2010-11-12 한양대학교 산학협력단 개인화된 의미 기반 웹 문서 추천 시스템 및 그 방법
KR20090117109A (ko) * 2008-05-08 2009-11-12 주식회사 케이티 랭킹 장치 및 그 방법과, 온톨로지에 기반한 시맨틱 검색랭킹 시스템 및 그 방법
CN101615178B (zh) * 2008-06-26 2013-01-09 日电(中国)有限公司 用于建立对象层次结构的方法和系统
US8352855B2 (en) * 2009-01-02 2013-01-08 Apple Inc. Selection of text in an unstructured document
KR20100084403A (ko) * 2009-01-16 2010-07-26 울산대학교 산학협력단 문서의 유사도 결정 방법 및 이를 이용한 단말 장치
KR20110031532A (ko) * 2009-09-21 2011-03-29 한국과학기술원 문서집합 순위화 시스템
KR101108600B1 (ko) * 2009-11-10 2012-01-31 동국대학교 산학협력단 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치
KR20110094563A (ko) * 2010-02-17 2011-08-24 주식회사 티앤엘아이앤티 웹 문서의 링크-키워드 관계를 이용한 관련어 검색 방법 및 검색 시스템
KR101099908B1 (ko) * 2010-04-21 2011-12-28 엔에이치엔(주) 문서 간 유사도 계산 시스템 및 방법
JP5411802B2 (ja) * 2010-05-18 2014-02-12 日本電信電話株式会社 代表語抽出装置、代表語抽出方法および代表語抽出プログラム
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
JP5990178B2 (ja) * 2010-11-05 2016-09-07 楽天株式会社 キーワード抽出に関するシステム及び方法
KR101274419B1 (ko) * 2010-12-30 2013-06-17 엔에이치엔(주) 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법
KR101567870B1 (ko) * 2013-08-29 2015-11-10 건국대학교 산학협력단 가중치 기반 데이터 랭킹 산출 방법
KR102244298B1 (ko) * 2014-04-30 2021-04-23 삼성전자주식회사 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016092A (ja) 2001-04-26 2003-01-17 Hitachi Ltd 類似文書検索方法及びその実施システム並びにその処理プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deng Cai외4. Support Tensor Machines for Text Categorization. 2006.4.
김한준 외, 위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델, 한국전자거래학회지 제19권 제3호, pp.107-123, 2014.08.
이재원 외, 개념 망을 통한 전자 카탈로그의 시맨틱 검색 및 추천, 한국전자거래학회지 제15권 제3호, pp.131-145, 2010.

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230016274A (ko) * 2021-07-26 2023-02-02 주식회사 플렉슬 하나의 화면 상에 전자 문서를 구성하는 페이지를 두 개의 페이지씩 동시에 표시할 수 있는 전자 장치 및 그 동작 방법
KR102554030B1 (ko) * 2021-07-26 2023-07-11 주식회사 플렉슬 하나의 화면 상에 전자 문서를 구성하는 페이지를 두 개의 페이지씩 동시에 표시할 수 있는 전자 장치 및 그 동작 방법

Also Published As

Publication number Publication date
KR20180035477A (ko) 2018-04-06

Similar Documents

Publication Publication Date Title
CN109840321B (zh) 文本推荐方法、装置及电子设备
US11036791B2 (en) Computerized system and method for determining non-redundant tags from a user's network activity
US10706100B2 (en) Method of and system for recommending media objects
JP6196316B2 (ja) ユーザ投稿に基づいたコンテンツの配信の調整
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
US9460117B2 (en) Image searching
KR102281186B1 (ko) 검색 결과에 대한 애니메이션 스니핏
US9720904B2 (en) Generating training data for disambiguation
US11294974B1 (en) Golden embeddings
US20180004844A1 (en) Method and system for presenting content summary of search results
JP2017010514A (ja) 検索エンジン及びその実現方法
KR101931859B1 (ko) 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
EP3519990A1 (en) Query-time analytics on graph queries spanning subgraphs
US9407589B2 (en) System and method for following topics in an electronic textual conversation
US8504561B2 (en) Using domain intent to provide more search results that correspond to a domain
WO2015158301A1 (en) Retrieval method and retrieval apparatus based on browser
US20170228457A1 (en) Scalable and effective document summarization framework
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
US20200159765A1 (en) Performing image search using content labels
US20190258719A1 (en) Emoji classifier
US8923626B1 (en) Image retrieval
JP6434954B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2014102827A (ja) 検索システム及びその検索方法
RU2711123C2 (ru) Способ и система компьютерной обработки одной или нескольких цитат в цифровых текстах для определения их автора
CN107483595B (zh) 信息推送方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant