KR101377447B1 - 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템 - Google Patents

태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템 Download PDF

Info

Publication number
KR101377447B1
KR101377447B1 KR1020120083947A KR20120083947A KR101377447B1 KR 101377447 B1 KR101377447 B1 KR 101377447B1 KR 1020120083947 A KR1020120083947 A KR 1020120083947A KR 20120083947 A KR20120083947 A KR 20120083947A KR 101377447 B1 KR101377447 B1 KR 101377447B1
Authority
KR
South Korea
Prior art keywords
word
sentence
document
words
existing
Prior art date
Application number
KR1020120083947A
Other languages
English (en)
Other versions
KR20130076684A (ko
Inventor
허지욱
이동호
Original Assignee
한양대학교 에리카산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 에리카산학협력단 filed Critical 한양대학교 에리카산학협력단
Publication of KR20130076684A publication Critical patent/KR20130076684A/ko
Application granted granted Critical
Publication of KR101377447B1 publication Critical patent/KR101377447B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템이 개시된다. 다중 문서 요약 시스템이 다중 문서를 요약하는 방법은 상기 다중 문서 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리하는 단계, 폭소노미(Folksonomy) 시스템으로부터 수신한 상기 각 단어에 대한 태그 클러스터를 이용하여 상기 다중 문서에 대한 각 단어의 기여도를 분석하는 단계, 상기 전처리한 각 문장과 상기 분석한 각 단어의 기여도를 기초로 상기 다중 문서에 내에 존재하는 각 문장의 중요도를 계산하는 단계 및 상기 계산한 각 문장의 중요도를 기초로 상기 다중 문서에서 주요 문장을 추출하는 단계를 포함할 수 있다.

Description

태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템{MULTI-DOCUMENT SUMMARIZATION METHOD AND SYSTEM USING SEMMANTIC ANALYSIS BETWEEN TEGS}
본 발명의 실시예들은 다중 문서 내에 존재하는 단어의 중요도와 다른 단어들과의 의미적인 관계를 분석하여 다중 문서를 요약할 수 있는 다중 문서 요약 방법 및 시스템에 관한 것이다.
최근 인터넷의 급속한 발달과 스마트폰, 태블릿 PC 등의 보급으로 인하여 사용자들은 자신의 원하는 정보(문서, 이미지, 영상 음악 등)들을 손쉽게 구할 수 있게 되었고, 이와 더불어 웹 상에서 생성되는 문서(인터넷 기사, 블로그, 웹 페이지, 전자우편 등)의 양은 하루가 다르게 증가하고 있다. 그러나, 무한하게 생성되고 무분별하게 제공되는 문서들 중 사용자가 자신이 원하는 정보를 찾기 위해서는, 비록 검색 엔진의 도움을 받더라도 많은 시간과 노력을 들여 검색된 문서를 일일이 읽고 검토해야 하며, 이러한 작업에는 많은 시간과 노력이 소비된다는 어려움이 있다.
사용자들의 이러한 어려움을 해소하기 위하여 현재 다양한 문서 요약 기법이 연구되고 있다. 문서 요약 기법이란 정보검색 기술, 텍스트 마이닝 등과 같은 기법들을 이용하여 장문의 문서를 그 문서의 핵심과 내용의 일관성을 유지하고 양을 간략하게 줄여 사용자에게 문서의 요점만을 전달해주는 기술을 말한다.
또한, 최근에는 단일 문서가 아닌 동일한 주제의 다중 문서들을 동시에 분석하여 요약하는 다중 문서 요약 기법에 대한 연구 또한 활발히 진행되고 있다. 이러한 다중 문서 요약 기법에는 문서 내에 존재하는 단어와 문장간의 관계를 기계학습과 확률적인 계산을 이용하여 요약하는 기법, 워드넷(Wordnet)과 같은 외부의 정보를 참조하여 문서 내에 존재하는 단어들간의 의미적인 관계를 분석하는 기법 등이 있다.
그러나, 기계학습 기법이나 확률적인 계산에 기반한 문서 요약 기법들은 학습과 요약 과정에 많은 계산비용과 분석시간이 소비된다는 단점들이 존재한다. 또한 워드넷을 이용한 문서 요약 기법은 문서 내에 존재하는 사람 이름, 제품 이름, 단체명, 신조어와 같이 새롭게 출현하여 워드넷에 정의되어 있지 않는 고유명사에 대한 분석이 용이하지 않다는 문제점이 있다.
따라서, 문서 요약 시 분석 시간과 분석 비용을 절감할 수 있으며, 문서에 고유명사가 포함되는 경우에도 보다 정확하게 문서를 요약할 수 있는 방법이 요구되고 있다.
다중 문서 요약 시 요구되는 높은 분석 시간과 분석 비용을 절감할 수 있는 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템이 제공된다.
다중 문서에 신조어, 고유명사 등이 포함되는 경우에도 보다 정확하게 다중 문서의 요점을 요약할 수 있는 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템이 제공된다.
다중 문서 요약 시스템이 다중 문서를 요약하는 방법은 상기 다중 문서 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리하는 단계, 폭소노미(Folksonomy) 시스템으로부터 수신한 상기 각 단어에 대한 태그 클러스터를 이용하여 상기 다중 문서에 대한 각 단어의 기여도를 분석하는 단계, 상기 전처리한 각 문장과 상기 분석한 각 단어의 기여도를 기초로 상기 다중 문서에 내에 존재하는 각 문장의 중요도를 계산하는 단계 및 상기 계산한 각 문장의 중요도를 기초로 상기 다중 문서에서 주요 문장을 추출하는 단계를 포함할 수 있다.
일측에 따르면, 상기 전처리하는 단계는 상기 다중 문서 내에 존재하는 각 문장에서 불용어를 제거하고 상기 문장을 단어로 분리함으로써 상기 다중 문서 내의 문장과 단어를 분석 가능한 형태로 전처리하는 단계일 수 있다.
다른 측면에 따르면, 상기 각 단어의 기여도를 분석하는 단계는 상기 전처리한 다중 문서 내에 존재하는 각 단어와 상기 각 단어의 상기 다중 문서 내에 출현하는 빈도수를 기초로 단어 빈도 테이블을 생성하는 단계, 상기 태그 클러스터를 이용하여 상기 단어 빈도 테이블을 재구축하는 단계 및 상기 재구축한 단어 빈도 테이블을 기초로 기 설정된 알고리즘을 이용하여 상기 각 단어의 기여도를 분석하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 기 설정된 알고리즘은 HITS(Hypertext Induced Topic Search) 알고리즘일 수 있다.
또 다른 측면에 따르면, 상기 각 문장의 중요도를 계산하는 단계는 상기 재구축한 단어 빈도 테이블을 기초로 상기 각 문장에 존재하는 단어에 가중치를 적용하여 상기 각 문장의 중요도를 계산하는 단계일 수 있다.
또 다른 측면에 따르면, 상기 계산한 각 문장의 중요도를 기초로 스코어 테이블을 생성하는 단계를 더 포함하고, 상기 주요 문장을 추출하는 단계는 상기 생성한 스코어 테이블을 기초로 상기 다중 문서 내에 존재하는 문장 중 스코어가 가장 높은 문장을 상기 주요 문장으로 추출하는 단계일 수 있다.
다중 문서 요약 시스템은 다중 문서 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리하는 전처리부, 폭소노미 시스템으로부터 수신한 상기 각 단어에 대한 태그 클러스터를 이용하여 상기 다중 문서에 대한 각 단어의 기여도를 분석하는 단어 분석부 및 상기 전처리한 각 문장과 상기 분석한 각 단어의 기여도를 기초로 상기 다중 문서에 내에 존재하는 각 문장의 중요도를 계산하고 상기 계산한 각 문장의 중요도를 기초로 상기 다중 문서에서 주요 문장을 추출하는 문장 분석부를 포함할 수 있다.
다중 문서 요약 시 폭소노미(Folksonomy) 시스템으로부터 다중 문서 내에 존재하는 각 단어에 대한 태그 클러스터를 실시간으로 획득함으로써 다중 문서 요약에 요구되는 분석 시간과 비용을 절감할 수 있다.
폭소노미 시스템으로부터 수신한 태그 클러스터를 이용하여 단어의 중요도와 다른 단어들간의 의미적인 관계를 분석하고 이를 기반으로 다중 문서 내의 중요 문장을 찾아 요약하기 때문에 다중 문서에 신조어, 고유명사 등이 포함되는 경우에도 보다 정확하게 다중 문서를 요약할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 태그간 의미 분석을 이용하여 다중 문서를 요약하는 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일실시예에 있어서, 태그 클러스터를 이용하여 단어 빈도 테이블을 재구축함으로써 다중 문서 내의 중요 단어들을 랭킹하는 과정을 나타내는 도면이다.
도 3은 본 발명의 일실시예에 있어서, HITS 알고리즘을 이용하여 각 단어의 문서에 대한 기여도를 측정하는 과정을 나타내는 도면이다.
도 4는 본 발명의 일실시예에 있어서, 단어 빈도 테이블 내의 단어와 클러스터의 의미적 관련성을 나타내는 도면이다.
도 5는 본 발명의 일실시예에 있어서, 다중 문서 요약 시스템을 나타내는 블록도이다.
도 6 및 도 7은 가중치의 변화에 따른 성능 측정 결과를 나타내는 그래프이다.
도 8 및 도 9는 단어 조합 변화에 따른 성능 측정 결과를 나타내는 그래프이다.
도 10은 문서 내 존재하는 분석 가능한 단어의 비율을 나타내는 그래프이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 있어서, 태그간 의미 분석을 이용하여 다중 문서를 요약하는 방법을 나타내는 흐름도이다.
본 발명에 따른 다중 문서 요약 방법은 크게 전처리 단계, 단어 분석 단계 및 문장 분석 단계로 구분될 수 있다.
전처리 단계에서는 먼저, 다중 문서 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리한다(S110). 일 예로, 상기 전처리하는 단계에는 다중 문서 내에 존재하는 문장들을 나누고 각 문장 내에 존재하는 불용어(stopword)들을 제거함으로써 다음 단계에서 다중 문서 내의 문장들과 단어들을 분석 가능한 형태로 변환할 수 있다.
단어 분석 단계에서는 폭소노미(Folksonomy) 시스템으로부터 수신한 각 단어에 대한 태그 클러스터를 이용하여 전처리 단계에서 전처리된 각 단어의 다중 문서에 대한 기여도를 분석한다. 일 예로, 단어 분석 단계에서는 문서 내에 존재하는 단어들에 대한 의미적 분석을 위하여 전처리 단계를 통해 넘겨받은 단어들과 플리커(Flickr)와 같은 폭소노미 시스템으로부터 수신한 각 단어의 태그 클러스터를 이용하여 단어 빈도 테이블을 생성하고(S120), 이를 기반으로 HITS(Hypertext Induced Topic Search) 알고리즘을 응용하여 각 단어의 문서 내 기여도를 분석하는 작업을 수행할 수 있다(S130).
보다 구체적으로, 단어 분석 단계에서는 전처리 단계를 통해 전처리한 다중 문서 내에 존재하는 각 단어와 각 단어의 상기 다중 문서 내에 출현하는 빈도수를 기초로 단어 빈도 테이블을 생성한 후, 폭소노미 시스템으로부터 수신한 태그 클러스터를 이용하여 단어 빈도 테이블을 재구축할 수 있다. 그리고, 재구축한 단어 빈도 테이블을 기초로 HITS(Hypertext Induced Topic Search) 알고리즘과 같은 기 설정된 알고리즘을 이용하여 각 단어의 기여도를 분석할 수 있다.
웹 2.0 환경에서는 사용자가 직접 참여하여 정보를 공유하는 폭소노미 시스템을 기반으로 사용자가 콘텐츠에 태그(tag)를 직접 입력함으로써 특정 정보에 대하여 특정 전문가의 견해에 종속적이지 않은 많은 사람들이 생각하는 보다 일반적인 정보들을 얻을 수 있다. 이러한 사용자들의 일반적인 정보들이 모여서 이루어진 폭소노미 시스템은 위키피디아(Wiki-Pedia), 플리커(Flickr), 딜리셔스(Del.ici.ous) 등이 있다. 폭소노미 시스템들은 그들이 가지고 있는 정보들을 접근하고 제어를 할 수 있는 Open-API들을 제공해주고 있으며, 이를 통하여 사용자들은 PC뿐만 아니라, 스마트 폰, 태블릿 PC 등과 같은 다양한 기기들을 통하여 집단지성으로 이루어진 정보의 접근이 가능하도록 서비스를 해주고 있다.
문장 분석 단계에서는 전처리 단계를 통해 전처리한 각 문장들과 단어 분석 단계를 통해 분석한 각 단어의 기여도를 기초로 다중 문서에 내에 존재하는 각 문장의 중요도를 계산하고(S140), 계산한 각 문장의 중요도를 기초로 다중 문서에서 주요 문장을 추출함으로써 다중 문서를 요약할 수 있다(S150).
일 예로, 문장 분석 단계에서는 단어 분석 단계에서 재구축한 단어 빈도 테이블을 기초로 각 문장에 존재하는 단어에 가중치를 적용하여 각 문장의 중요도를 계산할 수 있다. 그리고, 계산한 각 문장의 중요도를 기초로 스코어 테이블을 생성하고 이를 기초로 다중 문서 내에 존재하는 문장 중 스코어가 가장 높은 문장을 상기 주요 문장으로 추출할 수 있다.
도 2는 본 발명의 일실시예에 있어서, 태그 클러스터를 이용하여 단어 빈도 테이블을 재구축함으로써 다중 문서 내의 중요 단어들을 랭킹하는 과정을 나타내는 도면이고, 도 3은 본 발명의 일실시예에 있어서, HITS 알고리즘을 이용하여 각 단어의 문서에 대한 기여도를 측정하는 과정을 나타내는 도면이다. 이하, 도 2 및 도 3을 참조하여 단어 분석 단계를 보다 상세히 설명한다.
전처리 단계를 통하여 얻어진 단어들을 기초로 문서 내에 존재하는 단어들의 빈도수를 측정하기 위하여 먼저 단어 빈도 테이블(WFT: Word Frequency Table)을 생성할 수 있다. 단어 빈도 테이블은 다음의 수학식 1과 같이 표현된다.
Figure 112012061334936-pat00001
여기서, wi 는 문서 내에 존재하는 n개의 단어를 나타내며, ci 는 wi 에 대한 문서 내의 출현빈도를 나타내는 값이다.
WFT는 c 값에 의해 정렬될 수 있다. WTF의 상위에 있는 단어일수록 현재 분석되고 있는 다중 문서 중 높은 빈도수를 나타내는 단어이다. 높은 빈도수를 가지는 단어는 문서 내에 의미 있는 단어들로 추론될 수 있다. 그러나, 빈도수가 높은 단어라고 해서 문서 내의 중요단어라 확정을 할 수 없으므로, 단어의 정확하고 객관적인 분석을 위하여 집단지성으로 이루어진 폭소노미 시스템 중 하나인 플리커(Flickr)에서 제공하는 태그 클러스터(Tag Cluster)를 이용하여 다시 한번 WFT 내에 있는 단어에 대한 분석을 진행할 수 있다.
플리커는 많은 사용자가 시스템에 업로드 된 이미지에 관련된 태그를 입력하여 이미지를 공유하는 폭소노미에 기반한 소셜 태깅(Social Tagging) 시스템이다. 특히 플리커에서 제공되는 태그 클러스터는 시스템에서 유사한 주제를 갖는 이미지들에 반복적이고 공통적으로 태깅된 태그들을 수집하고 분석하여, 각 태그에 의미적으로 관련성이 높은 단어들의 집합들로 구성된다.
단어 분석을 위하여 플리커에서 제공되는 플리커 API인 'flickr.tags.getClusters'를 이용하여 특정한 태그에 관련된 일반적인 태그 클러스터들을 획득할 수 있다. 또한 플리커 API를 통하여 획득된 클러스터들은 정적인 단어들의 집합이 아니며 동적으로 계속 변화하는 태그간의 의미적 분석을 수행하여 해당 태그와 관련된 가장 유사한 단어들의 집합들을 넘겨주게 된다.
예를 들어 도 2에 도시된 것과 같이, 문서 내에 존재하는 빈도수가 높은 단어 'airbus'는 플리커의 태그 클러스터에 의해 획득된 태그 'airpor', 'plane', 'a380', 'aviation' 등과 같은 해당 단어와 의미적으로 연관성이 높은 태그들을 가져오게 된다. 그 후 WFT 내의 각 단어에 대하여 태그 클러스터에서 가져온 태그들 중 WFT 내에 존재하는 태그들만을 추출하고 각 태그의 빈도수를 측정하여 저장한다. 저장된 태그의 빈도수는 WFT 내의 각 단어의 빈도수와 합산하여 해당 단어의 변경된 빈도수로 새롭게 반영한다. 또한 WFT 내의 각 단어의 태그 클러스터 중에서 WFT 에 존재하는 다른 단어도 추출하여 해당 단어의 워드 클러스터(WordCluster)에 저장한다.
즉, 도 2에서 기존 WFT 내에서 빈도수가 64개였던 단어 'airbus'는 플리커에서 제공해주는 태그 클러스터들에 의하여 11개가 추가적으로 획득되어 최종적인 빈도수가 75개가 되며, 'airbus'의 태그 클러스터 중 WFT에 존재하는 단어인 'a380', 'plane', 'flight', 'boeing' 등은 'airbus'의 워드 클러스터로 저장한다.
본 발명에 따른 다중 문서 요약 시스템은 이와 같은 과정을 반복하여 WFT 내에 존재하는 각 단어의 빈도수를 새롭게 반영하고, 플리커에서 가져온 각 태그 클러스터의 태그 중 WFT 에 속해 있는 단어 또한 각 단어의 워드 클러스터로써 새롭게 추가할 수 있다. 새롭게 생성된 단어 빈도 테이블 WFT' 은 다음의 수학식 2와 같이 표현된다.
Figure 112012061334936-pat00002
수학식 2에서 새롭게 추가된 wci 는 wi 의 워드 클러스터로서 플리커에서 가져온 wi 의 태그 클러스터에서 WFT 에 재하는 다른 단어들의 집합 의미한다. 새롭게 생성된 WFT' 는 문장 분석 단계에서 각 단어의 문서에 대한 기여도와 문장을 분석하는데 이용될 수 있다.
본 발명에 따른 다중 문서 요약 시스템은 새롭게 생성된 WTF'를 기반으로 각 단어의 문서에 대한 기여도를 측정하기 위하여 HITS(Hypertext Induced Topic Search) 알고리즘을 응용하여 분석을 진행할 수 있다.
HITS는 기본적으로 웹 페이지의 하이퍼링크를 기반으로 이루어진 링크형식의 문서들을 웹 페이지의 인링크(In-link)와 아웃링크(Out-link)의 관계를 분석하여 각 웹 페이지의 'authority'와 'hub'에 기반하여 중요도가 있는 웹 페이지를 찾아내는 알고리즘이다. 'authority'는 하나의 웹 페이지가 얼마나 많은 다른 웹 페이지들로부터 링크되었는지를 측정함으로써 해당 웹 페이지가 다른 웹 페이지들에게 얼마나 권위가 있는지를 나타내는 척도이며, 'hub'는 하나의 웹 페이지에서 다른 웹 페이지들로 얼마나 많은 링크를 걸고 있는가를 측정함으로써 해당 웹 페이지가 얼마나 많은 권위 있는 페이지들과 연결되어 있는지를 나타내는 척도이다. 즉, 링크구조로 연결된 웹 페이지들 중 권위 있는 웹 페이지들에 링크를 많이 건 웹 페이지는 'hub'의 값이 높아 신뢰성이 높은 웹 페이지가 될 수 있으며, 높은 'hub' 값을 가지는 웹 페이지에 의해 링크가 걸린 웹 페이지는 높은 'authority' 값을 가지게 되며 이는 권위 있는 웹 페이지가 될 수 있다.
도 3은 일반적인 HITS 알고리즘의 'authority'와 'hub'를 각 단어의 클러스터와 WFT'의 단어들간의 관계로 나타내고 있다. 'authority'는 WFT' 내에 존재하는 단어들이 특정 단어의 워드 클러스터에 속해 있다는 것을 나타내며, 'hub'는 특정 단어가 WFT' 에 존재하는 단어들의 워드 클러스터에 속하고 있는 것을 나타낸다. WFT' 내의 단어 wj 와 단어의 워드 클러스터에 대한 HITS 관계는 문서에 대한 중요도와 기여도를 나타내며, 이는 'authority'와 'hub'의 합으로 계산되고 다음의 수학식 3과 같이 표현된다.
Figure 112012061334936-pat00003
또한, 각 단어에 대한 'authority'와 'hub'에 대한 계산은 수학식 4와 수학식 5로 표현된다.
Figure 112012061334936-pat00004
Figure 112012061334936-pat00005
'authority'를 계산하기 위한 수학식 4의 경우, WFT' 내에 존재하는 단어 wj 가 단어 wi 의 워드 클러스터 Clusteri 에 포함되면 '1', 포함되지 않으면 '0'을 부여하게 되며, Clusteri 에 존재하는 단어 중 WFT' 내에 일치되는 모든 단어 개수의 합을 구하게 된다. 즉, 'authority'의 값이 높으면 해당 단어의 워드 클러스터 내의 단어가 WFT' 내에 존재하는 단어들 중 의미적으로 관련성이 높은 단어들이 많이 분포되어 있으며, 문서내의 중요도가 높은 단어로 분석된다.
반면, 수학식 5의 경우 wi 의 워드 클러스터 Clusteri 내에 있는 단어 중 WFT' 내에 있는 wj 가 존재할 경우 '1'을, 존재하지 않을 때 '0'을 부여하게 되며, 모든 WFT' 에 일치되는 단어 개수의 합을 구하게 된다. 'hub'의 값이 높으면 해당 단어는 WFT' 의 각 단어의 워드 클러스터를 통하여 의미상으로 관련성 높다는 것을 판단 할 수 있으며, 해당 단어가 문서 에 대한 기여도가 높은 단어로 분석된다.
최종적으로 각 단어의 'authority'와 'hub'의 합으로 계산된 HITS의 값은 WTF' 내에 있는 각 단어의 문서에 대한 중요도와 기여도를 나타나게 된다. 결국 문서 요약 시 해당 단어가 자신의 클러스터를 통하여 의미적으로 관계가 깊은 다른 단어들에 대해서 얼마나 많은 참조를 받고 있으며, 자신이 다른 단어의 클러스터에 의미적으로 얼마나 많은 참조를 주느냐에 따라 단어의 중요도를 판단할 수 있다.
도 4는 본 발명의 일실시예에 있어서, 단어 빈도 테이블 내의 단어와 클러스터의 의미적 관련성을 나타내는 도면이다. 이하, 도 4를 참조하여 문장 분석 단계를 보다 상세히 설명한다.
문장 분석 단계에서는 전처리 단계를 통해서 넘겨받은 문장들과 단어 분석 단계에서 분석된 단어들을 기초로 다음과 같은 알고리즘을 활용하여 문서 내에 존재하는 문장들을 분석할 수 있다.
Figure 112012061334936-pat00006

'authority'를 계산하기 위한 수학식 4의 경우, WFT' 내에 존재하는 단어 wj 가 단어 wi 의 워드 클러스터 Clusteri 에 포함되면 '1', 포함되지 않으면 '0'을 부여하게 되며, Clusteri 에 존재하는 단어 중 WFT' 내에 일치되는 모든 단어 개수의 합을 구하게 된다. 즉, 'authority'의 값이 높으면 해당 단어의 워드 클러스터 내의 단어가 WFT' 내에 존재하는 단어들 중 의미적으로 관련성이 높은 단어들이 많이 분포되어 있으며, 문서내의 중요도가 높은 단어로 분석된다.
반면, 수학식 5의 경우 wi 의 워드 클러스터 Clusteri 내에 있는 단어 중 WFT' 내에 있는 wj 가 존재할 경우 '1'을, 존재하지 않을 때 '0'을 부여하게 되며, 모든 WFT' 에 일치되는 단어 개수의 합을 구하게 된다. 'hub'의 값이 높으면 해당 단어는 WFT' 의 각 단어의 워드 클러스터를 통하여 의미상으로 관련성 높다는 것을 판단 할 수 있으며, 해당 단어가 문서 에 대한 기여도가 높은 단어로 분석된다.
최종적으로 각 단어의 'authority'와 'hub'의 합으로 계산된 HITS의 값은 WTF' 내에 있는 각 단어의 문서에 대한 중요도와 기여도를 나타나게 된다. 결국 문서 요약 시 해당 단어가 자신의 클러스터를 통하여 의미적으로 관계가 깊은 다른 단어들에 대해서 얼마나 많은 참조를 받고 있으며, 자신이 다른 단어의 클러스터에 의미적으로 얼마나 많은 참조를 주느냐에 따라 단어의 중요도를 판단할 수 있다.
도 4는 본 발명의 일실시예에 있어서, 단어 빈도 테이블 내의 단어와 클러스터의 의미적 관련성을 나타내는 도면이다. 이하, 도 4를 참조하여 문장 분석 단계를 보다 상세히 설명한다.
문장 분석 단계에서는 전처리 단계를 통해서 넘겨받은 문장들과 단어 분석 단계에서 분석된 단어들을 기초로 다음과 같은 알고리즘을 활용하여 문서 내에 존재하는 문장들을 분석할 수 있다.
Figure 112012061334936-pat00007
수학식 6에 의하여 WFT' 내에 존재하는 단어의 조합에 대한 의미적인 결과가 획득되면, 다중 문서 요약 시스템은 k 개의 조합된 단어가 포함된 문장을 찾게 되고, 해당 문장에 대해서 다음의 수학식 7을 통하여 최종적인 스코어를 부여할 수 있다.
Figure 112012061334936-pat00008
수학식 7에서 's' 는 분석될 문장을 나타내며, 'mix n words' 는 문장 내에 존재하는 WFT' 의 k개 이하의 조합된 단어들을 의미한다.
각 문장 내에 존재하는 WFT' 의 각 단어들에 부여된 점수의 합으로 해당 문장에 스코어를 계산한다. Freq(wi)는 문서 내에 출현된 단어 wi 의 빈도수를 나타내며 HITS(wi) 는 해당 단어의 문서에 대한 기여도, 마지막으로 Rel(mix n words)은 WFT' 에 존재하는 단어의 조합에 의한 단어들간의 의미적인 관련성을 나타낸다.
수학식 7의 α, β, γ는 스코어를 계산하기 위한 각 텀(term)들의 가중치를 나타낸다(α+β+γ=1). 최종적으로 스코어가 계산된 문장들 중 최상위 스코어가 부여된 문장들 위주로 해당 문서에 대한 요약을 할 수 있다.
도 5는 본 발명의 일실시예에 있어서, 다중 문서 요약 시스템을 나타내는 블록도이다. 도면을 참조하면, 본 발명에 따른 다중 문서 요약 시스템(500)은 전처리부(510), 단어 분석부(520) 및 문장 분석부(530)를 포함한다.
전처리부(510)는 다중 문서 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리하는 것으로서, 다중 문서 내에 존재하는 각 문장에서 불용어를 제거하고 상기 문장을 단어로 분리함으로써 다중 문서 내의 문장과 단어를 분석 가능한 형태로 변환할 수 있다.
단어 분석부(520)는 플리커와 같은 폭소노미 시스템(540)으로 전처리부(510)에서 전처리된 각 단어에 대한 태그 클러스터를 요청한다. 그리고, 폭소노미 시스템(540)으로부터 획득한 각 단어에 대한 태그 클러스터를 이용하여 다중 문서에 대한 각 단어의 기여도를 분석한다.
일 예로, 단어 분석부(520)는 전처리부(510)에서 전처리된 다중 문서 내에 존재하는 각 단어와 상기 각 단어의 다중 문서 내에 출현하는 빈도수를 기초로 단어 빈도 테이블(WFT)을 생성하고, 태그 클러스터를 이용하여 단어 빈도 테이블을 재구축한 후 재구축한 단어 빈도 테이블(WFT')을 기초로 기 설정된 알고리즘(예를 들어, HITS 알고리즘 등)을 이용하여 상기 각 단어의 기여도를 분석할 수 있다.
문장 분석부(530)는 전처리부(510)에서 전처리된 각 문장과 단어 분석부(520)에서 분석된 각 단어의 기여도를 기초로 다중 문서에 내에 존재하는 각 문장의 중요도를 계산하고, 계산한 각 문장의 중요도를 기초로 다중 문서에서 주요 문장을 추출한다. 이 때, 문장 분석부(530)는 재구축한 단어 빈도 테이블을 기초로 각 문장에 존재하는 단어에 가중치를 적용하여 상기 각 문장의 중요도를 계산할 수 있으며, 계산한 각 문장의 중요도를 기초로 스코어 테이블을 생성하고 이를 기초로 다중 문서 내에 존재하는 문장 중 스코어가 가장 높은 문장을 주요 문장으로 추출할 수 있다.
도 6 및 도 7은 가중치의 변화에 따른 성능 측정 결과를 나타내는 그래프로서 본 발명에 따른 다중 문서 요약 시스템의 성능평가 위하여 TAC 에서 제공되는 TAC 2008, TAC 2009 데이터들을 가지고 실험한 결과를 나타낸다. TAC 2008 문서는 총 48개의 주제와 960개의 문서들로 이루어 졌고, TAC 2009는 44개의 주제와 880개의 문서들로 이루어졌다. 또한 TAC는 평가를 위하여 각 문서에 대하여 전문가가 요약하여 작성한 문서도 함께 제공해준다.
문서 요약의 평가 방법으로는 가장 널리 사용되는 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)를 이용하였다. 이 방법은 전문가가 직접 요약한 요약문과 시스템에 의해 자동으로 요약된 요약문을 비교하는 방법으로 단어의 출연 순서와 일치하는 정도를 정확률(Precision)과 재현률(Recall), F-measure로 측정하는 방법으로 두 문서의 유사성을 판단할 수 있는 척도로 사용된다. 다음의 수학식 8은 ROUGE-N 의 n-gram에 대한 재현율을 계산하는 식이다.
Figure 112012061334936-pat00009
gramn은 n-gram의 길이이고, Countmatch는 전문가가 요약한 요약문과 자동 요약된 요약문 간의 동시에 발생한 최대 n-gram의 수이다. ROUGE-SU는 n-gram 쌍 사이에 임의의 공간을 허용하고, uni-gram을 추가하여 재현율, 정확율, F-measure를 측정할 수 있다. ROUGE-N은 전문가의 요약문과 자동 요약된 요약문에 대한 비교 시 n-gram씩 순서를 고려하여 비교한다. 따라서, 각 단어의 출현 순서까지 고려하여 얼마나 정확하게 일치하는가를 측정하는 반면, ROUGE-SU의 경우 n-gram 쌍 사이에 임의의 공간을 허용하기 때문에 요약문에 대한 비교 분석 시 각 단어의 출현 순서는 고려하지 않는다. ROUGE-N은 각 단어의 출현 순서까지 고려하여 정확히 일치 하는지를 판별하기 때문에 간혹 요약문 비교 시 제대로 평가하지 못하는 경우도 발생한다. ROUGE-SU는 ROUGE-N의 이러한 한계점을 보완하기 위하여 사용되는 평가 척도이다.
이하에서는 ROUGE-2(bigram)와 ROUGE-SU(skip bigram)4를 이용하여 비교 평가를 수행한 결과를 나타낸다.
첫 번째 실험은 수학식 7에서의 가중치 α, β, γ값에 변화를 주어서 ROUGE-2와 ROUGE-SU4의 F-measure 값을 측정하였다. 도 6은 TAC2008에 적용된 실험 결과, 도 7은 TAC2009에 적용된 실험 결과를 나타낸다. TAC2008에서는 전체적으로 α의 가중치를 0.2로 낮게 주었을 때, β, γ 값의 변화에 상관없이 좋은 성능을 보여주고 있으며 α의 값이 올라갈수록 성능이 현저하게 떨어지는 것을 확인할 수가 있다. 반면 TAC2009에서는 α값에 상관없이 전체적으로 우수한 성능을 보였으며 β, γ값의 변화에 따라 성능이 떨어지는 것을 확인할 수가 있다.
위의 결과로 보아 전문가가 문서 요약 시 문서 내에 존재하는 단어 중 빈도수가 높은 단어 위주로 요약된 요약문 보다는 각 단어와의 관계를 분석하여 기여도가 높고 의미상 연관성이 높은 단어들 위주로 요약을 수행 한다는 것을 확인할 수 있다.
도 8 및 도 9는 단어 조합 변화에 따른 성능 측정 결과를 나타내는 그래프이다.
두 번째 실험은 앞선 실험에서 TAC2008(α=0.2, β=0.7, γ=0.1)과 TAC2009(α=0.2, β=0.1, γ=0.7)에서 좋은 성능을 보여준 값의 가중치를 고정시키고 WFT' 에서 조합에 사용될 단어의 총 개수와 조합될 단어의 수 k 값에 변화를 줘서 ROUGE-2와 ROUGE-SU4의 F-Measure를 측정하였다. 기본적으로 조합에 사용될 단어의 수는 WFT' 에 존재하는 단어 상위 10개에서 20개까지 사용하였으며, 조합에 사용될 단어의 수 k의 값은 3~5로 설정하고 실험하였다.
도 8은 TAC2008에 F-Measure값을 측정한 결과를 나타낸다. 도 8을 통해 알 수 있듯이 단어의 조합 개수에 따라 성능에 큰 변화를 보였으며, TAC2008의 경우는 15개의 단어들을 이용하여 3개의 단어를 조합하여 요약한 결과가 가장 높은 성능을 나타낸다. 반면 4개의 단어를 조합하여 요약한 결과가 전체적으로 최저의 성능을 나타낸다.
도 9는 TAC2009에 적용된 결과를 나타낸다. 도 9에 나타나는 바와 같이 TAC2008와는 다르게 4개의 단어를 조합하여 요약한 결과가 전체적으로 우수한 성능을 나타내고 있다. 또한, 조합에 사용될 단어의 개수가 많아질수록 성능이 떨어지는 것을 확인할 수 있으며, 이는 TAC2008에서도 동일한 현상을 보여주고 있다. 기본적으로 문서 요약 시 분석될 단어의 개수와 조합될 단어의 개수가 많아지면 그만큼 문서 요약의 성능이 떨어지는 것을 알 수 있으며, 이는 문장내의 중요단어의 수가 많아질수록 그 문장은 일반적인 문장이 아니라 전문적이고 세부적인 내용을 포함한 문장이 된다는 것을 추측할 수 있다. 반면에 조합에 사용될 단어의 개수와 조합에 사용될 단어가 적어지면 그만큼 문장의 내용이 일반적이게 되며 실험결과 성능이 높은 것으로 보아 전문가는 문서 요약 시 전문적인 단어보단 일반적인 단어들을 위주로 사용한다는 것을 추측할 수 있다.
다음의 표 1 및 표 2는 각각 본 발명에 따른 다중 문서 요약 시스템 중 실험을 통하여 가장 높은 성능을 보인 결과와 TAC에서 제공된 TAC2008(표 1), TAC2009(표 2)에 사용된 다른 다중 문서 요약 기법 NIST, ceaList1, LIPN1 VensesTeam1 들에 의해 요약된 결과에 대한 ROUGE-2 와 ROUGE-SU4 의 재현률과 정확률, F-Measure를 비교한 표이다.
Figure 112012061334936-pat00010
Figure 112012061334936-pat00011
TAC2008의 경우 본 발명에서 제안한 결과 중 ROUGE-2의 정확율이 전체적으로 다른 비교군의 성능 보다 우수하게 나온 것이 확인되었고, 재현율과 F-Measure의 값은 높거나 비슷한 성능을 나타낸다. ROUGE-SU4의 결과도 마찬가지로 부분적으로는 재현율이 떨어지는 반면, 정확율과 F-Measure 값이 다른 비교군 보다 비슷한 값을 보이거나 높은 값이 나온 것을 볼 수 있다. TAC2009의 경우, TAC2008 데이터의 결과 값과는 다르게 재현율, 정확율과 F-Measure 값은 전체적으로 다른 비교 군들보다 높게 나온 것을 확인 할 수 있다. 특히, 비교군중 TAC2008에서는 좋은 성능이 나오는 반면 TAC2009에서는 좋지 않은 성능을 보였지만, 본 발명에 따른 다중 문서 요약 방법을 사용하는 경우 TAC2008, TAC2009에서 모두 안정적인 결과가 나오는 것을 확인할 수 있다. 또한, 전문가가 요약한 TAC2008, TAC2009의 요약문 모두 단순히 문서내의 빈도수가 많은 단어 위주로 요약을 하지 않았다는 것을 알 수 있다. 이 결과로 보아 TAC2008의 경우 전문가가 문서 요약 시 사용한 단어가 문서 내에 기여도가 높은 단어들 위주로 문서를 요약하였으며, 본 발명에서 제안하는 방법 중 워드 클러스터와 각 단어의 기여도에 대한 분석을 수행하여 요약한 결과가 좋은 성과를 보인 것으로 판단된다. 반면 TAC2009의 경우 전문가가 문서 요약 시 사용한 단어들은 서로간의 의미적 연관성이 높은 단어들 위주로 문서를 요약하였으며, 본 발명에서 제안한 방법 중 단어의 의미적 연관성 분석을 수행하여 요약한 결과가 좋은 성과를 보인 것으로 판단된다.
도 10은 문서 내 존재하는 분석 가능한 단어의 비율을 나타내는 그래프로서 문서 내에 의미적으로 분석이 가능한 단어를 분류해 놓은 것이다.
단어는 TAC2008, TAC2009에 의하여 생성된 WFT' 의 단어 중 상위 20개의 단어들을 분석하였다. 분석가능성의 기준은 해당단어가 워드넷 또는 태그 클러스터에 존재여부를 가지고 판단하였다.
도 10을 통해 알 수 있듯이, 전체의 87%에 해당되는 단어들은 워드넷과 태그 클러스터에 존재하여 의미적인 분석이 가능했으며, 6%의 단어는 태그 클러스터에서만 존재하는 단어들이고 4%의 단어들은 워드 넷에서만 존재하는 단어들로서 의미적인 분석이 가능했다. 나머지 3%의 단어들은 워드넷과 태그 클러스터에도 존재하지 않는 단어들로 '년도', '숫자', '문자기호' 등과 같이 의미적인 분석이 불가능한 단어들이 대부분이었다. 태그 클러스터에만 존재하는 단어들은 사람이름, 제품이름, 신조어 등과 같은 문서 내에 핵심이 되는 고유명사들이 대부분이었으며, 워드넷에는 존재하지 않아 분석할 수 없는 단어들이었다. 워드넷에만 존재하는 단어들은 동명사나 분사 등으로 이루어진 단어로서 이루어졌으며 의미적으로 중요하지 않은 단어들도 포함되어 있었다.
따라서, 워드넷을 기반으로 한 단어의 의미적인 분석 기법은 고유명사들로 이루어진 단어들을 효과적으로 분석할 수가 없는 반면, 집단지성으로 이루어진 폭소노미 시스템은 고유명사에 대한 정보를 포함하고 있으므로 단어에 대한 의미적인 분석을 할 수 있다는 것을 확인할 수 있다.
그러므로, 본 발명에 따른 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템은 문서 요약 시 문서 내에 존재하는 단어들 간의 의미적인 관계분석에 소비되는 시간을 줄이기 위하여 폭소노미 시스템으로부터 문서 내에 존재하는 각 단어들의 클러스터를 획득하고, 이를 기반으로 다중 문서 내에 존재하는 단어들의 다중 문서 내 기여도와 단어들 간의 의미적인 연관성을 효과적으로 분석하여 다중 문서 내의 핵심이 되는 단어들 위주로 문서를 요약할 수 있다.
또한, 본 발명에 따른 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템은 폭소노미 시스템의 태그 클러스터를 이용함으로써 워드넷과 같은 어휘사전에 정의되어 있지 않아 의미적으로 분서하기 힘든 사람이름, 제품명 등과 같은 고유명사와 같은 단어에 대해서도 처리가 가능하다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (12)

  1. 다중 문서 요약 시스템이 다중 문서를 요약하는 방법에 있어서,
    상기 다중 문서 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리하는 단계;
    폭소노미(Folksonomy) 시스템으로부터 수신한 상기 각 단어에 대한 태그 클러스터를 이용하여 상기 다중 문서에 대한 각 단어의 기여도를 분석하는 단계;
    상기 전처리한 각 문장과 상기 분석한 각 단어의 기여도를 기초로 상기 다중 문서 내에 존재하는 각 문장의 중요도를 계산하는 단계; 및
    상기 계산한 각 문장의 중요도를 기초로 상기 다중 문서에서 주요 문장을 추출하는 단계
    를 포함하고,
    상기 각 단어의 기여도를 분석하는 단계는,
    상기 전처리한 다중 문서 내에 존재하는 각 단어와 상기 각 단어의 상기 다중 문서 내에 출현하는 빈도수를 기초로 단어 빈도 테이블을 생성하는 단계;
    상기 태그 클러스터를 이용하여 상기 단어 빈도 테이블을 재구축하는 단계; 및
    상기 재구축한 단어 빈도 테이블을 기초로 기 설정된 알고리즘을 이용하여 상기 각 단어의 기여도를 분석하는 단계
    를 포함하는 다중 문서 요약 방법.
  2. 청구항 2은(는) 설정등록료 납부시 포기되었습니다.
    제1항에 있어서,
    상기 전처리하는 단계는,
    상기 다중 문서 내에 존재하는 각 문장에서 불용어를 제거하고 상기 문장을 단어로 분리함으로써 상기 다중 문서 내의 문장과 단어를 분석 가능한 형태로 전처리하는 단계인 것을 특징으로 하는 다중 문서 요약 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 기 설정된 알고리즘은,
    HITS(Hypertext Induced Topic Search) 알고리즘인 것을 특징으로 하는 다중 문서 요약 방법.
  5. 제1항에 있어서,
    상기 각 문장의 중요도를 계산하는 단계는,
    상기 재구축한 단어 빈도 테이블을 기초로 상기 각 문장에 존재하는 단어에 가중치를 적용하여 상기 각 문장의 중요도를 계산하는 단계인 것을 특징으로 하는 다중 문서 요약 방법.
  6. 청구항 6은(는) 설정등록료 납부시 포기되었습니다.
    제1항에 있어서,
    상기 계산한 각 문장의 중요도를 기초로 스코어 테이블을 생성하는 단계를 더 포함하고,
    상기 주요 문장을 추출하는 단계는,
    상기 생성한 스코어 테이블을 기초로 상기 다중 문서 내에 존재하는 문장 중 스코어가 가장 높은 문장을 상기 주요 문장으로 추출하는 단계인 것을 특징으로 하는 다중 문서 요약 방법.
  7. 다중 문서 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리하는 전처리부;
    폭소노미(Folksonomy) 시스템으로부터 수신한 상기 각 단어에 대한 태그 클러스터를 이용하여 상기 다중 문서에 대한 각 단어의 기여도를 분석하는 단어 분석부; 및
    상기 전처리한 각 문장과 상기 분석한 각 단어의 기여도를 기초로 상기 다중 문서 내에 존재하는 각 문장의 중요도를 계산하고 상기 계산한 각 문장의 중요도를 기초로 상기 다중 문서에서 주요 문장을 추출하는 문장 분석부
    를 포함하고,
    상기 단어 분석부는,
    상기 전처리한 다중 문서 내에 존재하는 각 단어와 상기 각 단어의 상기 다중 문서 내에 출현하는 빈도수를 기초로 단어 빈도 테이블을 생성하고, 상기 태그 클러스터를 이용하여 상기 단어 빈도 테이블을 재구축한 후 상기 재구축한 단어 빈도 테이블을 기초로 기 설정된 알고리즘을 이용하여 상기 각 단어의 기여도를 분석하는 다중 문서 요약 시스템.
  8. 청구항 8은(는) 설정등록료 납부시 포기되었습니다.
    제7항에 있어서,
    상기 전처리부는,
    상기 다중 문서 내에 존재하는 각 문장에서 불용어를 제거하고 상기 문장을 단어로 분리함으로써 상기 다중 문서 내의 문장과 단어를 분석 가능한 형태로 전처리하는 것을 특징으로 하는 다중 문서 요약 시스템.
  9. 삭제
  10. 제7항에 있어서,
    상기 기 설정된 알고리즘은,
    HITS(Hypertext Induced Topic Search) 알고리즘인 것을 특징으로 하는 다중 문서 요약 시스템.
  11. 제7항에 있어서,
    상기 문장 분석부는,
    상기 재구축한 단어 빈도 테이블을 기초로 상기 각 문장에 존재하는 단어에 가중치를 적용하여 상기 각 문장의 중요도를 계산하는 것을 특징으로 하는 다중 문서 요약 시스템.
  12. 청구항 12은(는) 설정등록료 납부시 포기되었습니다.
    제7항에 있어서,
    상기 문장 분석부는,
    상기 계산한 각 문장의 중요도를 기초로 스코어 테이블을 생성하고, 상기 생성한 스코어 테이블을 기초로 상기 다중 문서 내에 존재하는 문장 중 스코어가 가장 높은 문장을 상기 주요 문장으로 추출하는 것을 특징으로 하는 다중 문서 요약 시스템.
KR1020120083947A 2011-12-28 2012-07-31 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템 KR101377447B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20110144851 2011-12-28
KR1020110144851 2011-12-28

Publications (2)

Publication Number Publication Date
KR20130076684A KR20130076684A (ko) 2013-07-08
KR101377447B1 true KR101377447B1 (ko) 2014-03-26

Family

ID=48990219

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120083947A KR101377447B1 (ko) 2011-12-28 2012-07-31 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101377447B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200114214A (ko) 2019-03-28 2020-10-07 김예식 토론 분석 시스템 및 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101503265B1 (ko) * 2013-11-04 2015-03-18 국립대학법인 울산과학기술대학교 산학협력단 한국뉴스 요약 시스템 및 방법
CN104915335B (zh) * 2015-06-12 2018-03-16 百度在线网络技术(北京)有限公司 为主题文档集生成摘要的方法和装置
CN108733682B (zh) * 2017-04-14 2021-06-22 华为技术有限公司 一种生成多文档摘要的方法及装置
KR102125341B1 (ko) * 2018-07-25 2020-06-22 주식회사 아이포트폴리오 언어 학습을 위한 문제 생성 시스템 및 방법
KR102129485B1 (ko) * 2018-11-30 2020-07-03 동국대학교 산학협력단 태그 클라우드 생성 장치 및 방법
KR102309870B1 (ko) * 2019-05-02 2021-10-08 주식회사 와이더플래닛 디스플레이 광고에서 텍스트 요약 방법 및 그 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yang Qu and Qunxiu Chen. Collaborative Summarization : When Collaborative Filtering Meets Document Summarization. 23rd Pacific Asia Conference on Language, Information and Computation, 2009. , pp.474- *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200114214A (ko) 2019-03-28 2020-10-07 김예식 토론 분석 시스템 및 방법

Also Published As

Publication number Publication date
KR20130076684A (ko) 2013-07-08

Similar Documents

Publication Publication Date Title
KR101377447B1 (ko) 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템
US8356025B2 (en) Systems and methods for detecting sentiment-based topics
US7451124B2 (en) Method of analyzing documents
US7783644B1 (en) Query-independent entity importance in books
US8849787B2 (en) Two stage search
RU2377645C2 (ru) Способ и система для классификации дисплейных страниц с помощью рефератов
US20040133560A1 (en) Methods and systems for organizing electronic documents
KR100896702B1 (ko) 신뢰도를 향상시킨 문서 구조 기반 군집 장치 및 방법
US10002188B2 (en) Automatic prioritization of natural language text information
CN107688616B (zh) 使实体的独特事实显现
KR20120112663A (ko) 검색 제안 클러스터링 및 프리젠테이션
US20130036076A1 (en) Method for keyword extraction
KR101377114B1 (ko) 뉴스 요약문 생성 시스템 및 방법
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
Di Santo et al. Comparing approaches for query autocompletion
WO2015004006A1 (en) Method and computer server system for receiving and presenting information to a user in a computer network
US20190065502A1 (en) Providing information related to a table of a document in response to a search query
KR101429623B1 (ko) 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법
Song et al. Transfer understanding from head queries to tail queries
KR101429621B1 (ko) 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
Özyirmidokuz Mining unstructured Turkish economy news articles
Heu et al. Multi-document summarization exploiting semantic analysis based on tag cluster
JP2012104051A (ja) 文書インデックス作成装置
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180108

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190304

Year of fee payment: 6