WO2015167074A1

WO2015167074A1 - 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버

Info

Publication number: WO2015167074A1
Application number: PCT/KR2014/006955
Authority: WO
Inventors: 이수원; 노준호
Original assignee: 숭실대학교산학협력단
Priority date: 2014-04-28
Filing date: 2014-07-29
Publication date: 2015-11-05
Also published as: US20170060997A1; US10394864B2; KR101536520B1

Abstract

토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버가 제공된다. 본 발명의 토픽을 추출하는 서버는, 분류 정보에 따라 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 텍스트 전처리부, 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 핵심어 추출부, 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 시드 선정부, 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 초기 군집화부 및 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 군집 병합부를 포함하는 것을 특징으로 한다.

Description

토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버

본 발명은 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버에 관한 것이다.

문서 집합에서 특정 분류별로 토픽을 추출하는 기술은 텍스트 마이닝 분야의 일부분으로 많은 양의 문서를 요약하는 기술과 함께 연구되고 있다.

예를 들어, 트위터(twitter)와 페이스북(facebook)과 같은 소셜 네트워크 서비스에 게재된 글이나 포털 업체에서 제공하는 다양한 게시물들을 이용하여 특정 분류별로 사용자들이 표현한 관심사와 특성 등을 분석할 수 있으며, 이는 기업의 지역 마케팅이나, 국가의 정책 수립과 같은 의사 결정에 유용하게 활용될 수 있다.

일 예로서, 트위터와 페이스북은 사용자가 작성한 글에 해당 사용자의 위치 정보를 기록하는 형태로 서비스를 제공하고 있으며, 국내 포털 업체인 다음(daum)은 제공하는 뉴스 기사를 조회한 사용자의 위치 정보를 토대로 지역별 인기 기사를 집계하는 서비스를 제공하고 있다.

그 중 위치 정보가 포함된 텍스트 데이터는 지역별 사용자들이 표현한 관심사와 같은 특성을 내포하고 있으며 지역 간 비교를 통해 각 특성의 차이를 파악할 수 있다.

그러나, 종래에는 이와 같은 토픽을 추출하기 위해 사용하는 파라미터 값의 결정이 어려웠으며, 적절한 파라미터가 주어지지 않으면 정확한 토픽 추출이 불가능한 문제가 있다.

이에, 문서 집합으로부터 토픽을 추출 시 정확도를 높일 수 있는 방안이 요구되고 있다.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 문서 집합으로부터 토픽을 추출 시 정확도를 높일 수 있는 방안을 제공하고자 한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 토픽을 추출하는 서버는, 분류 정보에 따라서 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 텍스트 전처리부, 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 핵심어 추출부, 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 시드 선정부, 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 초기 군집화부 및 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 군집 병합부를 포함하는 것을 특징으로 한다.

본 발명의 일 측면에서, 상기 핵심어는 상기 분류별 문서 집합 중 해당 문서 집합에서 출현한 빈도가 다른 문서 집합들에서 출현한 빈도보다 높은 것을 특징으로 한다.

또한, 본 발명의 일 측면에서, 상기 시드 선정부는 상기 분류별 문서 집합의 문서에서 단어의 출현 빈도와 상기 단어가 출현한 문서 빈도에 근거하여 상기 시드를 선정하는 것을 특징으로 한다.

또한, 본 발명의 일 측면에서, 상기 초기 군집화부는 상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고, 상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되, 상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 한다.

또한, 본 발명의 일 측면에서, 상기 군집 병합부는 유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 정답 토픽을 이용하여, 추출된 토픽의 적합성을 평가하는 서버는, 상기 추출된 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 ASP(Average Set Precision) 계산부, 상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 ASR(Average Set Recall) 계산부 및 상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 F_AS-measure를 계산하는 적합성 평가부를 포함하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 서버가 토픽을 추출하는 방법은 (a) 분류 정보에 따라 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 단계, (b) 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 단계, (c) 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 단계, (d) 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 단계 및 (e) 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 일 측면에서, 상기 (d) 단계는 상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고, 상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되, 상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 한다.

또한, 본 발명의 일 측면에서, 상기 (e) 단계는 유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 서버가 정답 토픽을 이용하여, 추출된 토픽의 적합성을 평가하는 방법은 (a) 상기 추출된 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 단계, (b) 상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 단계 및 (c) 상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 F_AS-measure를 계산하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 일 실시예에 따르면, 분류별 문서 집합으로부터 토픽을 추출 시 정확도를 높일 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 토픽 추출 서버의 구성을 도시한 블록도이다.

도 2는 본 발명의 일 실시예에 따른 토픽 추출 과정을 도시한 흐름도이다.

도 3은 본 발명의 일 실시예에 따른 추출된 토픽의 적합성을 평가하는 과정을 도시한 흐름도이다.

도 4 및 도 5는 본 발명의 일 실시예에 따른 데이터 수집 및 정답 토픽 구축 결과를 도시한 도면이다.

도 6은 본 발명의 일 실시예에 따른 핵심어를 선별하기 위한 단어 가중치 기법의 실험 결과를 도시한 도면이다.

도 7은 본 발명의 일 실시예에 따른 초기 군집화를 위한 연관성 계산 기법의 실험 결과를 도시한 도면이다.

도 8 및 도 9는 본 발명의 일 실시예에 따른 초기 군집화 및 군집 병합 파라미터의 조정 결과를 도시한 도면이다.

도 10 및 도 11은 본 발명의 일 실시예에 따른 추출된 토픽의 적합성 평가 결과를 도시한 그래프 및 최적의 파라미터를 적용하여 추출된 최종 토픽의 결과이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.

그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.

또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

본 발명의 일 실시예에 따른 서비스 서버(100)는 데이터 수집부(110), 텍스트 전처리부(120), 토픽 추출부(130) 및 적합성 평가부(140)를 포함할 수 있으며, 토픽 추출부(130)는 다시 핵심어 추출부(131), 시드 선정부(132), 초기 군집화부(133) 및 군집 병합부(134)를 포함할 수 있다.

각 구성 요소를 설명하면, 데이터 수집부(110)는 분류 정보가 태깅된 텍스트 데이터를 수집하고, 태깅(tagging)된 분류 정보에 따라 분류별 문서 집합을 구성할 수 있다.

여기서 '분류 정보'는, 텍스트 데이터로부터 토픽(topic;단어 집합)에 대한 특성이나 경향을 도출하기 위한 키워드를 포함할 수 있으며, 예를 들어 지역(위치), 나이, 성별, 정치, 사회, 스포츠, 취미 등 다양한 키워드 포함할 수 있다.

예를 들어, 분류 정보가 '지역'으로 태깅된 텍스트 데이터를 분석한다면, 분류 정보인 '지역'에 따라서 구성되는 문서 집합은 서울, 경기, 강원, 경상, 전라, 제주 및 충정도 등과 같이 각 지역과 관련된 텍스트 데이터들이 하나의 '지역별 문서 집합'을 구성할 수 있다.

이와 같이 구성된 '지역별 문서 집합'은 각 지역의 관심사나 특성의 경항을 도출하고 다른 지역과의 차이를 분석하는데 활용될 수 있으며, 지역 간 차이점을 분석한 결과는 마케팅에 이용되어 투자한 비용 대비 높은 효과를 얻을 수 있고, 특정 지역과 관련된 정책을 수립하는데 유용한 정보를 제공할 수 있다.

참고로, 데이터 수집부(110)는 토픽을 추출하기 위한 분류 정보가 태깅된 텍스트 데이터를 포털 사이트에 게재된 게시물(뉴스, 블로그, 댓글 등)로부터 수집할 수 있다.

예를 들어, 분류 정보가 '지역'으로 설정된 경우, 데이터 수집부(110)는 포털 사이트에 게재된 지역별 인기 뉴스를 수집하여 지역별로 문서 집합을 구성할 수 있다.

이하, 분류 정보를 '지역'으로 설정하여 지역별 토픽을 추출하는 경우를 설명하도록 한다.

그러나, 본 발명의 분류 정보가 '지역'으로 한정되는 것은 아니며, '지역' 외에도 다양한 키워드가 분류 정보로 사용될 수 있다.

한편, 텍스트 전처리부(120)는 텍스트 데이터를 효과적으로 사용하기 위하여, 데이터 수집부(110)에 의해 구성된 문서 집합으로부터 명사를 추출한 후 불용어를 제거할 수 있다.

구체적으로, 텍스트 전처리부(120)는 텍스트 데이터로부터 토픽을 추출하기 위해서 명사를 추출할 수 있으며, 이를 위해 형태소 분석기(미도시)와 연동되어 각 단어들의 품사를 분석할 수 있다.

여기서 형태소 분석 과정은, 입력된 문서를 공백, 탭, 줄 바꿈과 같은 화이트스페이스(whitespace)를 사용하여 토큰(token)으로 분할하고, 분할된 토큰을 사전과 비교하여 일치하는 단어에 대한 품사로 태깅할 수 있다.

이후, 텍스트 전처리부(120)는 품사가 태깅된 텍스트 데이터에서 최종적으로 명사만 유지하고 다른 품사의 단어는 제거할 수 있다.

또한, 텍스트 전처리부(120)는 전술한 바와 같이 추출된 명사로부터 불용어를 제거할 수 있다.

형태소 분석을 통해 추출된 명사 중에는 의미가 중요하지 않거나 모든 문서 집합에서 출현하여 변별력이 없는 불용어가 존재할 수 있는데, 이러한 불용어는 후술하는 단어 군집화 과정에서 오염된 토픽이 추출되는 문제(다수의 토픽과 관련된 단어가 포함된 군집이 생성될 수 있음)를 야기하므로 제거가 필요하다.

이를 위해, 텍스트 전처리부(120)는 불용어 사전(미도시)과 연동될 수 있으며, 전술한 바와 같이 추출된 명사 중 불용어 사전(미도시)에 포함된 단어와 일치하는 명사를 제거할 수 있다.

참고로, 불용어 사전(미도시)의 단어와 일치하지는 않지만 텍스트 데이터의 특성 상 특정 단어들이 불용어로 선정될 수도 있다.

예를 들어, 분석 대상인 텍스트 데이터가 '뉴스 기사'인 경우, 뉴스 기사에 출현하는 ‘뉴스 제공사 이름’ 등 의미가 적은 단어들은 불용어로 선정될 수 있다.

한편, 토픽 추출부(130)는 텍스트 전처리부(120)에 의해 전처리된 텍스트 데이터에 근거하여, 단어 가중치 기반의 핵심어 추출과, 추출된 핵심어들을 관련 단어들로 군집화한 후 분류 정보별 토픽을 추출할 수 있다.

이를 위해 토픽 추출부(130)는 핵심어 추출부(131), 시드 선정부(132), 초기 군집화부(133) 및 군집 병합부(134)를 포함할 수 있다.

구체적으로, 핵심어 추출부(131)는 분류 정보별로 구성된 문서 집합에서 출현한 단어에 대해 가중치를 계산하고, 이를 기준으로 분류 정보별 핵심어를 추출할 수 있다.

여기서 '핵심어'는 분류 정보별 문서 집합을 대표하는 단어로서, 특정 문서 집합에서 높은 빈도로 출현하면서 다른 문서 집합에는 낮은 빈도로 출현하는 단어이다.

예를 들어, 분류 정보가 '지역'이고 분류 정보별 문서 집합이 서울, 경기, 강원, 경상, 전라, 제주 및 충청도인 경우, '서울 시장'이란 단어가 '서울 문서 집합'에서 높은 빈도로 출현하는 반면, 다른 문서 집합인 경기, 강원, 경상, 제주 및 충청도에서는 낮은 빈도로 출현하는 경우, '서울 시장'이란 단어는 '서울 문서 집합'의 핵심어로 추출될 수 있다.

이러한 점을 고려하여, 핵심어 추출부(131)는 아래의 [수학식 1]을 이용하여 분류 정보별로 구성된 문서 집합에서 출현한 단어에 대한 가중치를 계산할 수 있다.

참고로, 분류 정보는 '지역'이며, 지역 외에도 다른 분류 정보가 [수학식 1]에 적용될 수 있다.

수학식 1

여기서, a, c는 단어 w_i가 지역 l의 문서 집합 D(l)에서 출현한 문서 수에 대한 교차표의 정의에 따를 수 있으며, 교차표는 아래와 같다.

표 1

여기서 a는 지역 l의 문서 집합에서 단어 w_i가 등장한 문서 수이고, b는 단어 w_i가 등장하지 않은 문서의 수이다.

또한, c는 지역 l을 제외한 문서 집합에서 단어 w_i가 출현한 문서 수이고, d는 같은 문서 집합에서 단어 w_i가 출현하지 않은 문서 수이다.

핵심어 추출부(131)는 [수학식 1]을 이용하여 문서 집합에서 출현한 단어에 대해 가중치를 계산하고, 가중치에 따라 문서 집합 내의 단어들을 내림차순으로 정렬할 수 있다.

이후, 핵심어 추출부(131)는 내림차순으로 정렬된 상위 kr%의 단어들로 구성된 지역 l의 핵심어 집합 Keyword(l)을 생성할 수 있다.

한편, 시드 선정부(132)는 핵심어 추출부(131)에 의해 생성된 핵심어 집합으로부터 '시드(seed)'를 선정할 수 있다.

여기서, '시드'는 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 요소로서, 선정된 시드 수에 따라 최종 토픽 수도 영향을 받을 수 있다.

예를 들어, 선정된 시드가 너무 많은 문서에서 출현하여, 다수의 토픽과 관련된 단어가 시드가 되어 군집화를 수행하면 한 군집에 다수의 토픽이 혼재된 결과가 나올 수 있다.

따라서 시드 선정부(132) 단어의 출현 빈도와 출현한 문서 빈도를 고려하여 시드를 선정할 수 있으며, 이때, [수학식 2]를 이용할 수 있다.

참고로, 분류 정보는 '지역'이며, 지역 외에도 다른 분류 정보가 [수학식 2]에 적용될 수 있다

수학식 2

시드 선정부(132)는 [수학식 2]를 이용하여 앞서 추출된 모든 핵심어에 대해 가중치를 계산하고, 가중치에 따라 핵심어 집합 내의 단어들을 내림차순으로 정렬한 후, 상위 sr%의 단어를 시드로 선정할 수 있다.

한편, 초기 군집화부(133)는 시드 선정부(132)에 의해 선정된 시드를 중심으로, 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성할 수 있다.

이를 위해 초기 군집화부(133)는 시드 si와 동일한 문장에서 출현한 핵심어 wj의 연관성을 계산할 수 있으며, 연관성은 두 단어가 지역 l의 문서 집합에서 동시 출현한 문장의 수에 로그 함수를 취한 값인 association(s_i, w_j, l) 함수로 계산할 수 있다.

이후, 초기 군집화부(133)는 association 함수로 계산된 값들에 대하여, 지역 l의 모든 시드에 대해 동시 출현한 단어와의 association 값의 평균과 표준편차를 이용하여 시드와 단어가 하나의 군집으로 구성될지를 결정할 수 있다.

여기서 파라미터인 α는 평균과 표준편차를 이용한 임계치를 결정하는 파라미터로 사용될 수 있다.

초기 군집화부(133)는 다음의 [수학식 3]을 이용하여 주어진 시드에 대한 초기 군집화를 수행할 수 있다.

수학식 3

한편, 군집 병합부(134)는 초기 군집화로 생성된 모든 군집 쌍에 대해 유사한 군집들을 병합하여 최종 지역별 토픽 집합을 추출할 수 있다.

참고로, 선정된 시드 중에는 같은 문장에서 다수 출현한 단어들이 있을 수 있으며, 이러한 시드들은 초기 군집화부(133)에 의해 내용이 유사한 군집들로 생성될 수 있기 때문에 이러한 군집들을 군집화하는 과정이 필요하다.

군집 병합부(134)는 초기 군집화부(133)에 의해 생성된 모든 군집 쌍에 대해 [수학식 4]를 반복적으로 수행하면서 유사한 군집들을 병합하여 최종 지역별 토픽 집합을 추출할 수 있다.

수학식 4

[수학식 4]는 지역 l의 문서 집합에서 k번째 토픽이 생성되는 조건을 기술한 식으로서, 군집 Cs_i와 Cs_j가 토픽

로 병합되기 위해서는 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수의 비율이 β보다 커야 하는 조건을 만족해야 한다.

한편, 적합성 평가부(140)는 정답 토픽 집합과 군집 병합부(134)에 의해 추출된 최종 토픽 집합을 비교하여 상기 최종 토픽 집합의 적합성을 평가할 수 있다.

여기서 '정답 토픽'은 군집 병합부(134)에 의해 추출된 최종 토픽 집합의 적합성을 평가하기 위한 비교 대상으로서, 분류 정보별 문서 집합을 사람이 직접 읽은 후 분류 정보별로 특정 개수의 토픽이 추출될 수 있으며, 각 토픽당 특정 수의 키워드가 포함될 수 있다.

예를 들어, 분류 정보가 '지역'이고, 포털 사이트에 게재된 지역별 인기 뉴스를 수집하여 지역별 토픽을 추출하는 경우, '정답 토픽'은 수집된 뉴스와 동일한 기간 동안의 지역별 뉴스 본문을 사람이 직접 읽은 후 지역별로 특정 개수의 토픽을 추출하고, 각 토픽당 특정 수의 키워드로 구축될 수 있다.

적합성 평가부(140)는 최종 토픽 집합의 적합성을 평가하기 위해서, 군집 병합부(134)에 의해 자동 추출된 모든 토픽에 대해 동일 지역의 정답 토픽 집합과 유사성을 계산하고 평균을 취할 수 있다(이하, ASP(Average Set Precision)라 칭함).

여기서, ASP는 군집 병합부(134)에 의해 자동 추출된 최종 토픽이 정답 토픽을 맞춘 수준을 의미할 수 있다.

또한, 적합성 평가부(140)는 모든 정답 토픽에 대해 동일 지역의 자동 추출된 토픽과 유사성을 계산하고 평균을 취할 수 있다(이하, ASR(Average Set Recall)라 칭함).

여기서, ASR은 정답 토픽이 군집 병합부(134)에 의해 자동 추출된 최종 토픽 집합에 재현된 수준을 의미할 수 있다.

또한, 적합성 평가부(140)는 상기 ASP와 ASR에 근거하여 군집 병합부(134)에 의해 자동 추출된 최종 토픽의 적합성인 F_AS-measure에 대해 [수학식 5]를 이용하여 계산할 수 있다.

수학식 5

참고로, 적합성 평가부(140)가 데이터 수집부(110), 텍스트 전처리부(120) 및 토픽 추출부(130)와 함께 서비스 서버(100)에 포함되어, 군집 병합부(134)에 의해 자동 추출된 최종 토픽의 적합성을 평가하는 것으로 설명하였지만, 별도의 평가 서버(미도시)에 적합성 평가부(140)가 포함되어 군집 병합부(134)에 의해 자동 추출된 최종 토픽의 적합성을 평가하거나, 다른 토픽 추출 장치(미도시)를 통해 추출된 토픽의 적합성을 평가할 수도 있다.

도 2에 도시된 흐름도의 과정은 서비스 서버(100)에 의해 수행될 수 있으며, 이하, 서비스 서버(100)를 중심으로 도 2의 흐름도를 설명하도록 한다.

참고로, 도 2는 지역별 토픽을 추출하기 위한 과정이며 분류 정보는 '지역'으로 설정되었다.

먼저, 서비스 서버(100)는 위치 정보가 태깅된 텍스트 데이터를 수집하고, 태깅된 위치 정보에 따라 지역별 문서 집합을 구성한다(S201).

S201 후, 서비스 서버(100)는 S201에서 구성된 문서 집합으로부터 명사를 추출한 후 불용어를 제거한다(S202).

S202 후, 서비스 서버(100)는 지역별로 구성된 문서 집합에서 출현한 단어에 대해 상기 [수학식 1]을 이용하여 가중치를 계산하고, 내림차순으로 정렬된 상위 kr%의 단어들로 구성된 지역 l의 핵심어 집합 Keyword(l)을 생성한다(S203).

S203 후, 서비스 서버(100)는 단어의 출현 빈도와 출현한 문서 빈도를 고려하여 핵심어 집합으로부터 시드를 선정한다(S204).

즉, S203에서 생성된 핵심어 집합으로부터 상기 [수학식 2]를 이용하여 모든 핵심어에 대해 가중치를 계산하고, 가중치에 따라 핵심어 집합 내의 단어들을 내림차순으로 정렬한 후, 상위 sr%의 단어를 시드로 선정할 수 있다.

S204 후, 서비스 서버(100)는 S204에서 선정된 시드를 중심으로 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는, 주어진 시드에 대한 초기 군집화를 수행한다(S205).

이때, 서비스 서버(100)는 [수학식 3]을 이용하여 시드와 동일한 문장에서 출현한 핵심어의 연관성을 계산할 수 있으며, 계산된 연관성에 따라서 해당 핵심어가 시드와 하나의 군집으로 구성될지를 결정할 수 있다.

S205 후, 서비스 서버(100)는 초기 군집화로 생성된 모든 군집 쌍에 대해 유사한 군집들을 병합하여 최종 지역별 토픽 집합을 추출한다(S206).

이때, 서비스 서버(100)는 S205에서 생성된 모든 군집 쌍에 대해 [수학식 4]를 반복적으로 수행하면서 유사한 군집들을 병합하여 최종 지역별 토픽 집합을 추출할 수 있다.

도 3에 도시된 흐름도의 과정은 서비스 서버(100)에 의해 수행될 수 있으며, 이하, 서비스 서버(100)를 중심으로 도 3의 흐름도를 설명하도록 한다.

서비스 서버(100)는 자동 추출된 지역별 토픽의 적합성을 평가하기 위한 정답 토픽을 구축한다(S301).

S301 후, 서비스 서버(100)는 자동 추출된 최종 토픽이 정답 토픽을 맞춘 수준을 의미하는 ASP를 계산한다(S302).

여기서, ASP는 자동 추출된 모든 토픽에 대해 동일 지역의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여 계산될 수 있다.

S302 후, 서비스 서버(100)는 정답 토픽이 자동 추출된 최종 토픽 집합에 재현된 수준을 의미하는 ASR를 계산한다(S303).

여기서, ASR은 모든 정답 토픽에 대해 동일 지역의 자동 추출된 토픽과 유사성을 계산하고 평균을 취하여 계산될 수 있다.

S303 후, 서비스 서버(100)는 ASP와 ASR에 근거하여 F_AS-measure를 계산하고 자동 추출된 최종 토픽의 적합성을 평가한다(S304).

이때, 서비스 서버(100)는 상기 [수학식 5]를 이용하여 F_AS-measure를 계산할 수 있다.

이하, 도 4 내지 도 11을 참조하여 본 발명의 일 실시예에 따른 지역별 토픽 추출 및 해당 토픽의 적합성을 평가하는 방법을 설명하도록 한다.

도 4의 (a)는 지역 종속적 토픽을 추출하기 위해 지역 정보가 포함된 텍스트 데이터인 미디어 다음(http://media.daum.net)에서 제공하는 뉴스 통계 중 지역별 인기 뉴스를 수집한 결과이다.

그리고 도 4의 (b)는 미디어 다음에서 제공 중인 강원 지역의 2013년 9월 25일의 인기 기사 페이지이다.

제공되는 지역은 도 4의 (b)에 도시된 바와 같이, 특별시와 광역시, 도 단위 지역으로 총 13 지역이며, 각 지역별로 1 순위부터 30번째 순위의 인기 기사를 제공한다.

본 발명에서는 도 단위 지역인 강원, 경기, 경상, 전라, 제주 및 충청 6개 지역의 인기 기사를 사용하였다.

도 5는 서비스 서버(100)에 의해 자동 추출된 토픽을 평가하기 위한 비교 대상인 정답 토픽으로서, 도 4의 (a)와 (b)를 통해 수집된 뉴스와 동일한 기간 동안의 지역별 뉴스 본문을 사람이 직접 읽은 후 지역별로 6개의 토픽을 추출하고, 각 토픽당 4～7개의 키워드로 구축한 결과이다.

도 6은 지역 문서 집합을 대표하는 단어인 핵심어를 선별하기 위한 최적의 단어 가중치 기법을 선정하는 실험 결과로서, 핵심어 선정 단계에서 사용하는 단어 가중치 기법을 결정하기 위해 문서 분류에서 사용되는 단어 가중치 기법들을 비교하였다.

비교하는 가중치 기법은 본 발명에서 제안하는 [수학식 1]의 TCW와, 문서 분류에서 사용되는 단어 가중치 기법인 ECCD, X², IG(Information Gain) 및 GR(Gain Ratio)이다.

단어 가중치 계산 기법별 정답 토픽 단어의 평균 순위를 정리한 결과는 도 6에 도시된 바와 같으며, 본 발명에서 제안하는 [수학식 1]의 TCW를 사용하는 경우, 다른 가중치 계산 방법에 비해 정답 토픽의 단어들이 평균적으로 상위에 출현하는 것을 볼 수 있다.

초기 군집화 단계에서 단어 연관성 계산 방법으로 두 단어가 동시 출현한 문장 수에 로그 함수를 취한 계산 방법인 본 발명의 [수학식 3]과 종래의 단어 연관성 계산 방법인 PMI를 비교하였다.

이때, 군집화 임계치를 각 시드마다 동시 출현한 핵심어들과의 연관성 값의 평균과 표준편차를 사용하여 결정하는 방법과, 지역 문서 집합의 모든 시드와 핵심어의 연관성 값의 평균과 표준편차를 사용하여 결정하는 방법을 사용하였다.

도 7에 도시된 결과는 각각의 연관성 계산 방법([수학식 3] 및 PMI)과 군집화 임계치 계산 방법(시드별 평균 및 전체 평균)에 대하여 핵심어 선정 비율 kr과 시드 선정 비율 sr을 변경해 가면서 토픽을 추출하였을 때의 평가 결과이다.

참고로, α는 2.0으로 고정하여 실험을 진행하였다.

실험 결과, 연관성 계산 방법은 본 발명에서 제안한 [수학식 3]의 함수를, 군집화 임계치는 지역 문서 집합의 모든 시드와 핵심어의 연관성 값의 평균과 표준편차를 사용하여 결정하는 방법을 사용하고, 핵심어는 상위 3%, 시드는 상위 4%를 선정하여 토픽을 추출할 때 가장 높은 평가 점수를 보임을 알 수 있다(도 7의 (b)).

도 8및 도 9는 본 발명의 일 실시예에 따른 초기 군집화 및 군집 병합 파라미터의 조정 결과를 도시한 도면이다.

초기 군집화를 생성하는 [수학식 3]에서 단어 군집화 임계치 α와 군집 병합에 대한 [수학식 4]에서 유사한 군집 병합 임계치인 β를 조정하는 실험을 수행하였으며, 실험 순서는 α를 우선적으로 조정하고, 그 결과를 반영하여 β를 조정하였다.

도 8의 (a) 내지 (g)는 β를 0.5로 고정하고, 핵심어 선정 비율 kr, 시드 선정 비율 sr과 α를 조정하였을 때 추출된 토픽의 적합성 평가 결과이다.

실험 결과, α는 2.0, kr은 3%, sr은 4%에서 최적의 결과를 보임을 알 수 있다(도 8의 (e)).

또한, 도 9의 (h) 내지 (l)은 앞서 결정된 결과에 따라서 α를 2.0으로 고정하고, 핵심어 선정 비율 kr, 시드 선정 비율 sr 및 β를 조정하였을 때 추출된 토픽의 적합성 평가 결과이다.

실험 결과, β는 0.7, kr은 3%, sr은 4%에서 최적의 결과를 보임을 알 수 있다(도 9의 (k)).

도 10은 kr을 3%, sr을 4%로 고정하고, α는 0에서 3까지, β는 0.1에서 1까지 조정하면서 추출된 토픽의 적합성을 평가한 결과이다.

도 10에 도시된 바와 같이, α는 2.0, β는 0.7을 사용할 때 본 발명에서 제안하는 토픽 추출 성능이 최적의 결과를 보임을 알 수 있다.

도 11은 도 10에 도시된 최적의 파라미터, 즉, α는 2.0, β는 0.7, 그리고 kr을 3%, sr을 4%로 적용했을 때 추출된 최종 지역별 토픽이다.

도 5에 도시된 정답 토픽과 비교했을 때 상당 부분 일치하거나 유사한 토픽이 존재함을 알 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.

그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

토픽을 추출하는 서버에 있어서,

분류 정보에 따라서 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 텍스트 전처리부;

상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 핵심어 추출부;

상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 시드 선정부;

상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 초기 군집화부; 및

상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 군집 병합부

를 포함하는 것을 특징으로 하는 토픽 추출 서버.
제 1 항에 있어서,

상기 핵심어는 상기 분류별 문서 집합 중 해당 문서 집합에서 출현한 빈도가 다른 문서 집합들에서 출현한 빈도보다 높은 것을 특징으로 하는 토픽 추출 서버.
제 1 항에 있어서,

상기 시드 선정부는,

상기 분류별 문서 집합의 문서에서 단어의 출현 빈도와 상기 단어가 출현한 문서 빈도에 근거하여 상기 시드를 선정하는 것을 특징으로 하는 토픽 추출 서버.
제 1 항에 있어서,

상기 초기 군집화부는,

상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고,

상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되,

상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 하는 토픽 추출 서버.
제 1 항에 있어서,

상기 군집 병합부는,

유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 하는 토픽 추출 서버.
정답 토픽을 이용하여, 추출된 토픽의 적합성을 평가하는 서버에 있어서,

상기 추출된 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 ASP(Average Set Precision) 계산부;

상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 ASR(Average Set Recall) 계산부; 및

상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 F_AS-measure를 계산하는 적합성 평가부

를 포함하는 것을 특징으로 하는 추출된 토픽의 적합성 평가 서버.
서버가 토픽을 추출하는 방법에 있어서,

(a) 분류 정보에 따라 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 단계;

(b) 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 단계;

(c) 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 단계;

(d) 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 단계; 및

(e) 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 단계

를 포함하는 것을 특징으로 하는 토픽 추출 방법.
제 7 항에 있어서,

상기 (d) 단계는,

상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고,

상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되,

상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 하는 토픽 추출 방법.
제 7 항에 있어서,

상기 (e) 단계는,

유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 하는 토픽 추출 방법.
서버가 정답 토픽을 이용하여, 추출된 토픽의 적합성을 평가하는 방법에 있어서,

(a) 상기 추출된 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 단계;

(b) 상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 단계; 및

(c) 상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 F_AS-measure를 계산하는 단계

를 포함하는 것을 특징으로 하는 추출된 토픽의 적합성 평가 방법.