WO2015167074A1 - 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 - Google Patents

토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 Download PDF

Info

Publication number
WO2015167074A1
WO2015167074A1 PCT/KR2014/006955 KR2014006955W WO2015167074A1 WO 2015167074 A1 WO2015167074 A1 WO 2015167074A1 KR 2014006955 W KR2014006955 W KR 2014006955W WO 2015167074 A1 WO2015167074 A1 WO 2015167074A1
Authority
WO
WIPO (PCT)
Prior art keywords
topic
extracted
seed
cluster
words
Prior art date
Application number
PCT/KR2014/006955
Other languages
English (en)
French (fr)
Inventor
이수원
노준호
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to US15/307,058 priority Critical patent/US10394864B2/en
Publication of WO2015167074A1 publication Critical patent/WO2015167074A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Definitions

  • the text data including location information includes characteristics such as interests expressed by users of each region, and the differences between the characteristics can be identified through comparisons between regions.
  • the key word is characterized in that the frequency of appearance in the document set of the document set for each category is higher than the frequency appeared in other document sets.
  • the server for evaluating the suitability of the extracted topic calculates the similarity and set the similarity topic set of the correct answer for all the extracted topics
  • ASP Average Set Precision
  • ASR Average Set Recall
  • ASR Average Set Recall
  • a method in which a server according to an embodiment of the present invention evaluates the suitability of an extracted topic by using a correct answer topic may include (a) correct answer topics of the same classification for all the extracted topics. Calculating and averaging a set and similarity, and calculating an average set precision (ASP) at which the extracted topic matches the correct answer topic, (b) similarity to the extracted topic of the same classification for all the correct answer topics Calculating and taking an average, calculating an ASR (Average Set Recall) in which the correct answer topic is reproduced in the extracted topic set, and (c) F, which is a fitness of the extracted topic based on the ASP and the ASR. Calculating an AS -measure.
  • stopword dictionary For reference, although words that do not coincide with words in a stopword dictionary (not shown), specific words may be selected as stopwords due to the characteristics of text data.
  • the initial clustering unit 133 may calculate the association of the key word wj in the same sentence as the seed si, and the association is a value in which two words take a log function on the number of sentences simultaneously appearing in the document set of region l. Can be calculated with (s i , w j , l)
  • the initial clustering unit 133 is composed of the seed and the word in one cluster by using the mean and the standard deviation of the association value with the words simultaneously appearing for all seeds in the region l with respect to the values calculated by the association function. Can be determined.
  • the clustering of these clusters is necessary because these seeds may be generated as similar clusters by the initial clustering unit 133. .
  • the service server 100 may calculate the F AS -measure using Equation 5 above.
  • the clustering threshold is determined by using the mean and standard deviation of the association values with the keywords appearing simultaneously for each seed, and the mean and standard deviation of the association values of all the seeds and keywords in the local document set. Method was used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버가 제공된다. 본 발명의 토픽을 추출하는 서버는, 분류 정보에 따라 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 텍스트 전처리부, 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 핵심어 추출부, 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 시드 선정부, 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 초기 군집화부 및 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 군집 병합부를 포함하는 것을 특징으로 한다.

Description

토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
본 발명은 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버에 관한 것이다.
문서 집합에서 특정 분류별로 토픽을 추출하는 기술은 텍스트 마이닝 분야의 일부분으로 많은 양의 문서를 요약하는 기술과 함께 연구되고 있다.
예를 들어, 트위터(twitter)와 페이스북(facebook)과 같은 소셜 네트워크 서비스에 게재된 글이나 포털 업체에서 제공하는 다양한 게시물들을 이용하여 특정 분류별로 사용자들이 표현한 관심사와 특성 등을 분석할 수 있으며, 이는 기업의 지역 마케팅이나, 국가의 정책 수립과 같은 의사 결정에 유용하게 활용될 수 있다.
일 예로서, 트위터와 페이스북은 사용자가 작성한 글에 해당 사용자의 위치 정보를 기록하는 형태로 서비스를 제공하고 있으며, 국내 포털 업체인 다음(daum)은 제공하는 뉴스 기사를 조회한 사용자의 위치 정보를 토대로 지역별 인기 기사를 집계하는 서비스를 제공하고 있다.
그 중 위치 정보가 포함된 텍스트 데이터는 지역별 사용자들이 표현한 관심사와 같은 특성을 내포하고 있으며 지역 간 비교를 통해 각 특성의 차이를 파악할 수 있다.
그러나, 종래에는 이와 같은 토픽을 추출하기 위해 사용하는 파라미터 값의 결정이 어려웠으며, 적절한 파라미터가 주어지지 않으면 정확한 토픽 추출이 불가능한 문제가 있다.
이에, 문서 집합으로부터 토픽을 추출 시 정확도를 높일 수 있는 방안이 요구되고 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 문서 집합으로부터 토픽을 추출 시 정확도를 높일 수 있는 방안을 제공하고자 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 토픽을 추출하는 서버는, 분류 정보에 따라서 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 텍스트 전처리부, 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 핵심어 추출부, 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 시드 선정부, 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 초기 군집화부 및 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 군집 병합부를 포함하는 것을 특징으로 한다.
본 발명의 일 측면에서, 상기 핵심어는 상기 분류별 문서 집합 중 해당 문서 집합에서 출현한 빈도가 다른 문서 집합들에서 출현한 빈도보다 높은 것을 특징으로 한다.
또한, 본 발명의 일 측면에서, 상기 시드 선정부는 상기 분류별 문서 집합의 문서에서 단어의 출현 빈도와 상기 단어가 출현한 문서 빈도에 근거하여 상기 시드를 선정하는 것을 특징으로 한다.
또한, 본 발명의 일 측면에서, 상기 초기 군집화부는 상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고, 상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되, 상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 한다.
또한, 본 발명의 일 측면에서, 상기 군집 병합부는 유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 정답 토픽을 이용하여, 추출된 토픽의 적합성을 평가하는 서버는, 상기 추출된 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 ASP(Average Set Precision) 계산부, 상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 ASR(Average Set Recall) 계산부 및 상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 FAS-measure를 계산하는 적합성 평가부를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 서버가 토픽을 추출하는 방법은 (a) 분류 정보에 따라 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 단계, (b) 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 단계, (c) 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 단계, (d) 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 단계 및 (e) 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 측면에서, 상기 (d) 단계는 상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고, 상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되, 상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 한다.
또한, 본 발명의 일 측면에서, 상기 (e) 단계는 유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 서버가 정답 토픽을 이용하여, 추출된 토픽의 적합성을 평가하는 방법은 (a) 상기 추출된 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 단계, (b) 상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 단계 및 (c) 상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 FAS-measure를 계산하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 분류별 문서 집합으로부터 토픽을 추출 시 정확도를 높일 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 토픽 추출 서버의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 토픽 추출 과정을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 추출된 토픽의 적합성을 평가하는 과정을 도시한 흐름도이다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 데이터 수집 및 정답 토픽 구축 결과를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 핵심어를 선별하기 위한 단어 가중치 기법의 실험 결과를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 초기 군집화를 위한 연관성 계산 기법의 실험 결과를 도시한 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에 따른 초기 군집화 및 군집 병합 파라미터의 조정 결과를 도시한 도면이다.
도 10 및 도 11은 본 발명의 일 실시예에 따른 추출된 토픽의 적합성 평가 결과를 도시한 그래프 및 최적의 파라미터를 적용하여 추출된 최종 토픽의 결과이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.
또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 토픽 추출 서버의 구성을 도시한 블록도이다.
본 발명의 일 실시예에 따른 서비스 서버(100)는 데이터 수집부(110), 텍스트 전처리부(120), 토픽 추출부(130) 및 적합성 평가부(140)를 포함할 수 있으며, 토픽 추출부(130)는 다시 핵심어 추출부(131), 시드 선정부(132), 초기 군집화부(133) 및 군집 병합부(134)를 포함할 수 있다.
각 구성 요소를 설명하면, 데이터 수집부(110)는 분류 정보가 태깅된 텍스트 데이터를 수집하고, 태깅(tagging)된 분류 정보에 따라 분류별 문서 집합을 구성할 수 있다.
여기서 '분류 정보'는, 텍스트 데이터로부터 토픽(topic;단어 집합)에 대한 특성이나 경향을 도출하기 위한 키워드를 포함할 수 있으며, 예를 들어 지역(위치), 나이, 성별, 정치, 사회, 스포츠, 취미 등 다양한 키워드 포함할 수 있다.
예를 들어, 분류 정보가 '지역'으로 태깅된 텍스트 데이터를 분석한다면, 분류 정보인 '지역'에 따라서 구성되는 문서 집합은 서울, 경기, 강원, 경상, 전라, 제주 및 충정도 등과 같이 각 지역과 관련된 텍스트 데이터들이 하나의 '지역별 문서 집합'을 구성할 수 있다.
이와 같이 구성된 '지역별 문서 집합'은 각 지역의 관심사나 특성의 경항을 도출하고 다른 지역과의 차이를 분석하는데 활용될 수 있으며, 지역 간 차이점을 분석한 결과는 마케팅에 이용되어 투자한 비용 대비 높은 효과를 얻을 수 있고, 특정 지역과 관련된 정책을 수립하는데 유용한 정보를 제공할 수 있다.
참고로, 데이터 수집부(110)는 토픽을 추출하기 위한 분류 정보가 태깅된 텍스트 데이터를 포털 사이트에 게재된 게시물(뉴스, 블로그, 댓글 등)로부터 수집할 수 있다.
예를 들어, 분류 정보가 '지역'으로 설정된 경우, 데이터 수집부(110)는 포털 사이트에 게재된 지역별 인기 뉴스를 수집하여 지역별로 문서 집합을 구성할 수 있다.
이하, 분류 정보를 '지역'으로 설정하여 지역별 토픽을 추출하는 경우를 설명하도록 한다.
그러나, 본 발명의 분류 정보가 '지역'으로 한정되는 것은 아니며, '지역' 외에도 다양한 키워드가 분류 정보로 사용될 수 있다.
한편, 텍스트 전처리부(120)는 텍스트 데이터를 효과적으로 사용하기 위하여, 데이터 수집부(110)에 의해 구성된 문서 집합으로부터 명사를 추출한 후 불용어를 제거할 수 있다.
구체적으로, 텍스트 전처리부(120)는 텍스트 데이터로부터 토픽을 추출하기 위해서 명사를 추출할 수 있으며, 이를 위해 형태소 분석기(미도시)와 연동되어 각 단어들의 품사를 분석할 수 있다.
여기서 형태소 분석 과정은, 입력된 문서를 공백, 탭, 줄 바꿈과 같은 화이트스페이스(whitespace)를 사용하여 토큰(token)으로 분할하고, 분할된 토큰을 사전과 비교하여 일치하는 단어에 대한 품사로 태깅할 수 있다.
이후, 텍스트 전처리부(120)는 품사가 태깅된 텍스트 데이터에서 최종적으로 명사만 유지하고 다른 품사의 단어는 제거할 수 있다.
또한, 텍스트 전처리부(120)는 전술한 바와 같이 추출된 명사로부터 불용어를 제거할 수 있다.
형태소 분석을 통해 추출된 명사 중에는 의미가 중요하지 않거나 모든 문서 집합에서 출현하여 변별력이 없는 불용어가 존재할 수 있는데, 이러한 불용어는 후술하는 단어 군집화 과정에서 오염된 토픽이 추출되는 문제(다수의 토픽과 관련된 단어가 포함된 군집이 생성될 수 있음)를 야기하므로 제거가 필요하다.
이를 위해, 텍스트 전처리부(120)는 불용어 사전(미도시)과 연동될 수 있으며, 전술한 바와 같이 추출된 명사 중 불용어 사전(미도시)에 포함된 단어와 일치하는 명사를 제거할 수 있다.
참고로, 불용어 사전(미도시)의 단어와 일치하지는 않지만 텍스트 데이터의 특성 상 특정 단어들이 불용어로 선정될 수도 있다.
예를 들어, 분석 대상인 텍스트 데이터가 '뉴스 기사'인 경우, 뉴스 기사에 출현하는 ‘뉴스 제공사 이름’ 등 의미가 적은 단어들은 불용어로 선정될 수 있다.
한편, 토픽 추출부(130)는 텍스트 전처리부(120)에 의해 전처리된 텍스트 데이터에 근거하여, 단어 가중치 기반의 핵심어 추출과, 추출된 핵심어들을 관련 단어들로 군집화한 후 분류 정보별 토픽을 추출할 수 있다.
이를 위해 토픽 추출부(130)는 핵심어 추출부(131), 시드 선정부(132), 초기 군집화부(133) 및 군집 병합부(134)를 포함할 수 있다.
구체적으로, 핵심어 추출부(131)는 분류 정보별로 구성된 문서 집합에서 출현한 단어에 대해 가중치를 계산하고, 이를 기준으로 분류 정보별 핵심어를 추출할 수 있다.
여기서 '핵심어'는 분류 정보별 문서 집합을 대표하는 단어로서, 특정 문서 집합에서 높은 빈도로 출현하면서 다른 문서 집합에는 낮은 빈도로 출현하는 단어이다.
예를 들어, 분류 정보가 '지역'이고 분류 정보별 문서 집합이 서울, 경기, 강원, 경상, 전라, 제주 및 충청도인 경우, '서울 시장'이란 단어가 '서울 문서 집합'에서 높은 빈도로 출현하는 반면, 다른 문서 집합인 경기, 강원, 경상, 제주 및 충청도에서는 낮은 빈도로 출현하는 경우, '서울 시장'이란 단어는 '서울 문서 집합'의 핵심어로 추출될 수 있다.
이러한 점을 고려하여, 핵심어 추출부(131)는 아래의 [수학식 1]을 이용하여 분류 정보별로 구성된 문서 집합에서 출현한 단어에 대한 가중치를 계산할 수 있다.
참고로, 분류 정보는 '지역'이며, 지역 외에도 다른 분류 정보가 [수학식 1]에 적용될 수 있다.
수학식 1
Figure PCTKR2014006955-appb-M000001
여기서, a, c는 단어 wi가 지역 l의 문서 집합 D(l)에서 출현한 문서 수에 대한 교차표의 정의에 따를 수 있으며, 교차표는 아래와 같다.
표 1
Figure PCTKR2014006955-appb-T000001
여기서 a는 지역 l의 문서 집합에서 단어 wi가 등장한 문서 수이고, b는 단어 wi가 등장하지 않은 문서의 수이다.
또한, c는 지역 l을 제외한 문서 집합에서 단어 wi가 출현한 문서 수이고, d는 같은 문서 집합에서 단어 wi가 출현하지 않은 문서 수이다.
핵심어 추출부(131)는 [수학식 1]을 이용하여 문서 집합에서 출현한 단어에 대해 가중치를 계산하고, 가중치에 따라 문서 집합 내의 단어들을 내림차순으로 정렬할 수 있다.
이후, 핵심어 추출부(131)는 내림차순으로 정렬된 상위 kr%의 단어들로 구성된 지역 l의 핵심어 집합 Keyword(l)을 생성할 수 있다.
한편, 시드 선정부(132)는 핵심어 추출부(131)에 의해 생성된 핵심어 집합으로부터 '시드(seed)'를 선정할 수 있다.
여기서, '시드'는 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 요소로서, 선정된 시드 수에 따라 최종 토픽 수도 영향을 받을 수 있다.
예를 들어, 선정된 시드가 너무 많은 문서에서 출현하여, 다수의 토픽과 관련된 단어가 시드가 되어 군집화를 수행하면 한 군집에 다수의 토픽이 혼재된 결과가 나올 수 있다.
따라서 시드 선정부(132) 단어의 출현 빈도와 출현한 문서 빈도를 고려하여 시드를 선정할 수 있으며, 이때, [수학식 2]를 이용할 수 있다.
참고로, 분류 정보는 '지역'이며, 지역 외에도 다른 분류 정보가 [수학식 2]에 적용될 수 있다
수학식 2
Figure PCTKR2014006955-appb-M000002
시드 선정부(132)는 [수학식 2]를 이용하여 앞서 추출된 모든 핵심어에 대해 가중치를 계산하고, 가중치에 따라 핵심어 집합 내의 단어들을 내림차순으로 정렬한 후, 상위 sr%의 단어를 시드로 선정할 수 있다.
한편, 초기 군집화부(133)는 시드 선정부(132)에 의해 선정된 시드를 중심으로, 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성할 수 있다.
이를 위해 초기 군집화부(133)는 시드 si와 동일한 문장에서 출현한 핵심어 wj의 연관성을 계산할 수 있으며, 연관성은 두 단어가 지역 l의 문서 집합에서 동시 출현한 문장의 수에 로그 함수를 취한 값인 association(si, wj, l) 함수로 계산할 수 있다.
이후, 초기 군집화부(133)는 association 함수로 계산된 값들에 대하여, 지역 l의 모든 시드에 대해 동시 출현한 단어와의 association 값의 평균과 표준편차를 이용하여 시드와 단어가 하나의 군집으로 구성될지를 결정할 수 있다.
여기서 파라미터인 α는 평균과 표준편차를 이용한 임계치를 결정하는 파라미터로 사용될 수 있다.
초기 군집화부(133)는 다음의 [수학식 3]을 이용하여 주어진 시드에 대한 초기 군집화를 수행할 수 있다.
수학식 3
Figure PCTKR2014006955-appb-M000003
한편, 군집 병합부(134)는 초기 군집화로 생성된 모든 군집 쌍에 대해 유사한 군집들을 병합하여 최종 지역별 토픽 집합을 추출할 수 있다.
참고로, 선정된 시드 중에는 같은 문장에서 다수 출현한 단어들이 있을 수 있으며, 이러한 시드들은 초기 군집화부(133)에 의해 내용이 유사한 군집들로 생성될 수 있기 때문에 이러한 군집들을 군집화하는 과정이 필요하다.
군집 병합부(134)는 초기 군집화부(133)에 의해 생성된 모든 군집 쌍에 대해 [수학식 4]를 반복적으로 수행하면서 유사한 군집들을 병합하여 최종 지역별 토픽 집합을 추출할 수 있다.
수학식 4
Figure PCTKR2014006955-appb-M000004
[수학식 4]는 지역 l의 문서 집합에서 k번째 토픽이 생성되는 조건을 기술한 식으로서, 군집 Csi와 Csj가 토픽
Figure PCTKR2014006955-appb-I000001
로 병합되기 위해서는 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수의 비율이 β보다 커야 하는 조건을 만족해야 한다.
한편, 적합성 평가부(140)는 정답 토픽 집합과 군집 병합부(134)에 의해 추출된 최종 토픽 집합을 비교하여 상기 최종 토픽 집합의 적합성을 평가할 수 있다.
여기서 '정답 토픽'은 군집 병합부(134)에 의해 추출된 최종 토픽 집합의 적합성을 평가하기 위한 비교 대상으로서, 분류 정보별 문서 집합을 사람이 직접 읽은 후 분류 정보별로 특정 개수의 토픽이 추출될 수 있으며, 각 토픽당 특정 수의 키워드가 포함될 수 있다.
예를 들어, 분류 정보가 '지역'이고, 포털 사이트에 게재된 지역별 인기 뉴스를 수집하여 지역별 토픽을 추출하는 경우, '정답 토픽'은 수집된 뉴스와 동일한 기간 동안의 지역별 뉴스 본문을 사람이 직접 읽은 후 지역별로 특정 개수의 토픽을 추출하고, 각 토픽당 특정 수의 키워드로 구축될 수 있다.
적합성 평가부(140)는 최종 토픽 집합의 적합성을 평가하기 위해서, 군집 병합부(134)에 의해 자동 추출된 모든 토픽에 대해 동일 지역의 정답 토픽 집합과 유사성을 계산하고 평균을 취할 수 있다(이하, ASP(Average Set Precision)라 칭함).
여기서, ASP는 군집 병합부(134)에 의해 자동 추출된 최종 토픽이 정답 토픽을 맞춘 수준을 의미할 수 있다.
또한, 적합성 평가부(140)는 모든 정답 토픽에 대해 동일 지역의 자동 추출된 토픽과 유사성을 계산하고 평균을 취할 수 있다(이하, ASR(Average Set Recall)라 칭함).
여기서, ASR은 정답 토픽이 군집 병합부(134)에 의해 자동 추출된 최종 토픽 집합에 재현된 수준을 의미할 수 있다.
또한, 적합성 평가부(140)는 상기 ASP와 ASR에 근거하여 군집 병합부(134)에 의해 자동 추출된 최종 토픽의 적합성인 FAS-measure에 대해 [수학식 5]를 이용하여 계산할 수 있다.
수학식 5
Figure PCTKR2014006955-appb-M000005
참고로, 적합성 평가부(140)가 데이터 수집부(110), 텍스트 전처리부(120) 및 토픽 추출부(130)와 함께 서비스 서버(100)에 포함되어, 군집 병합부(134)에 의해 자동 추출된 최종 토픽의 적합성을 평가하는 것으로 설명하였지만, 별도의 평가 서버(미도시)에 적합성 평가부(140)가 포함되어 군집 병합부(134)에 의해 자동 추출된 최종 토픽의 적합성을 평가하거나, 다른 토픽 추출 장치(미도시)를 통해 추출된 토픽의 적합성을 평가할 수도 있다.
도 2는 본 발명의 일 실시예에 따른 토픽 추출 과정을 도시한 흐름도이다.
도 2에 도시된 흐름도의 과정은 서비스 서버(100)에 의해 수행될 수 있으며, 이하, 서비스 서버(100)를 중심으로 도 2의 흐름도를 설명하도록 한다.
참고로, 도 2는 지역별 토픽을 추출하기 위한 과정이며 분류 정보는 '지역'으로 설정되었다.
먼저, 서비스 서버(100)는 위치 정보가 태깅된 텍스트 데이터를 수집하고, 태깅된 위치 정보에 따라 지역별 문서 집합을 구성한다(S201).
S201 후, 서비스 서버(100)는 S201에서 구성된 문서 집합으로부터 명사를 추출한 후 불용어를 제거한다(S202).
S202 후, 서비스 서버(100)는 지역별로 구성된 문서 집합에서 출현한 단어에 대해 상기 [수학식 1]을 이용하여 가중치를 계산하고, 내림차순으로 정렬된 상위 kr%의 단어들로 구성된 지역 l의 핵심어 집합 Keyword(l)을 생성한다(S203).
S203 후, 서비스 서버(100)는 단어의 출현 빈도와 출현한 문서 빈도를 고려하여 핵심어 집합으로부터 시드를 선정한다(S204).
즉, S203에서 생성된 핵심어 집합으로부터 상기 [수학식 2]를 이용하여 모든 핵심어에 대해 가중치를 계산하고, 가중치에 따라 핵심어 집합 내의 단어들을 내림차순으로 정렬한 후, 상위 sr%의 단어를 시드로 선정할 수 있다.
S204 후, 서비스 서버(100)는 S204에서 선정된 시드를 중심으로 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는, 주어진 시드에 대한 초기 군집화를 수행한다(S205).
이때, 서비스 서버(100)는 [수학식 3]을 이용하여 시드와 동일한 문장에서 출현한 핵심어의 연관성을 계산할 수 있으며, 계산된 연관성에 따라서 해당 핵심어가 시드와 하나의 군집으로 구성될지를 결정할 수 있다.
S205 후, 서비스 서버(100)는 초기 군집화로 생성된 모든 군집 쌍에 대해 유사한 군집들을 병합하여 최종 지역별 토픽 집합을 추출한다(S206).
이때, 서비스 서버(100)는 S205에서 생성된 모든 군집 쌍에 대해 [수학식 4]를 반복적으로 수행하면서 유사한 군집들을 병합하여 최종 지역별 토픽 집합을 추출할 수 있다.
도 3은 본 발명의 일 실시예에 따른 추출된 토픽의 적합성을 평가하는 과정을 도시한 흐름도이다.
도 3에 도시된 흐름도의 과정은 서비스 서버(100)에 의해 수행될 수 있으며, 이하, 서비스 서버(100)를 중심으로 도 3의 흐름도를 설명하도록 한다.
서비스 서버(100)는 자동 추출된 지역별 토픽의 적합성을 평가하기 위한 정답 토픽을 구축한다(S301).
S301 후, 서비스 서버(100)는 자동 추출된 최종 토픽이 정답 토픽을 맞춘 수준을 의미하는 ASP를 계산한다(S302).
여기서, ASP는 자동 추출된 모든 토픽에 대해 동일 지역의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여 계산될 수 있다.
S302 후, 서비스 서버(100)는 정답 토픽이 자동 추출된 최종 토픽 집합에 재현된 수준을 의미하는 ASR를 계산한다(S303).
여기서, ASR은 모든 정답 토픽에 대해 동일 지역의 자동 추출된 토픽과 유사성을 계산하고 평균을 취하여 계산될 수 있다.
S303 후, 서비스 서버(100)는 ASP와 ASR에 근거하여 FAS-measure를 계산하고 자동 추출된 최종 토픽의 적합성을 평가한다(S304).
이때, 서비스 서버(100)는 상기 [수학식 5]를 이용하여 FAS-measure를 계산할 수 있다.
이하, 도 4 내지 도 11을 참조하여 본 발명의 일 실시예에 따른 지역별 토픽 추출 및 해당 토픽의 적합성을 평가하는 방법을 설명하도록 한다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 데이터 수집 및 정답 토픽 구축 결과를 도시한 도면이다.
도 4의 (a)는 지역 종속적 토픽을 추출하기 위해 지역 정보가 포함된 텍스트 데이터인 미디어 다음(http://media.daum.net)에서 제공하는 뉴스 통계 중 지역별 인기 뉴스를 수집한 결과이다.
그리고 도 4의 (b)는 미디어 다음에서 제공 중인 강원 지역의 2013년 9월 25일의 인기 기사 페이지이다.
제공되는 지역은 도 4의 (b)에 도시된 바와 같이, 특별시와 광역시, 도 단위 지역으로 총 13 지역이며, 각 지역별로 1 순위부터 30번째 순위의 인기 기사를 제공한다.
본 발명에서는 도 단위 지역인 강원, 경기, 경상, 전라, 제주 및 충청 6개 지역의 인기 기사를 사용하였다.
도 5는 서비스 서버(100)에 의해 자동 추출된 토픽을 평가하기 위한 비교 대상인 정답 토픽으로서, 도 4의 (a)와 (b)를 통해 수집된 뉴스와 동일한 기간 동안의 지역별 뉴스 본문을 사람이 직접 읽은 후 지역별로 6개의 토픽을 추출하고, 각 토픽당 4~7개의 키워드로 구축한 결과이다.
도 6은 본 발명의 일 실시예에 따른 핵심어를 선별하기 위한 단어 가중치 기법의 실험 결과를 도시한 도면이다.
도 6은 지역 문서 집합을 대표하는 단어인 핵심어를 선별하기 위한 최적의 단어 가중치 기법을 선정하는 실험 결과로서, 핵심어 선정 단계에서 사용하는 단어 가중치 기법을 결정하기 위해 문서 분류에서 사용되는 단어 가중치 기법들을 비교하였다.
비교하는 가중치 기법은 본 발명에서 제안하는 [수학식 1]의 TCW와, 문서 분류에서 사용되는 단어 가중치 기법인 ECCD, X2, IG(Information Gain) 및 GR(Gain Ratio)이다.
단어 가중치 계산 기법별 정답 토픽 단어의 평균 순위를 정리한 결과는 도 6에 도시된 바와 같으며, 본 발명에서 제안하는 [수학식 1]의 TCW를 사용하는 경우, 다른 가중치 계산 방법에 비해 정답 토픽의 단어들이 평균적으로 상위에 출현하는 것을 볼 수 있다.
도 7은 본 발명의 일 실시예에 따른 초기 군집화를 위한 연관성 계산 기법의 실험 결과를 도시한 도면이다.
초기 군집화 단계에서 단어 연관성 계산 방법으로 두 단어가 동시 출현한 문장 수에 로그 함수를 취한 계산 방법인 본 발명의 [수학식 3]과 종래의 단어 연관성 계산 방법인 PMI를 비교하였다.
이때, 군집화 임계치를 각 시드마다 동시 출현한 핵심어들과의 연관성 값의 평균과 표준편차를 사용하여 결정하는 방법과, 지역 문서 집합의 모든 시드와 핵심어의 연관성 값의 평균과 표준편차를 사용하여 결정하는 방법을 사용하였다.
도 7에 도시된 결과는 각각의 연관성 계산 방법([수학식 3] 및 PMI)과 군집화 임계치 계산 방법(시드별 평균 및 전체 평균)에 대하여 핵심어 선정 비율 kr과 시드 선정 비율 sr을 변경해 가면서 토픽을 추출하였을 때의 평가 결과이다.
참고로, α는 2.0으로 고정하여 실험을 진행하였다.
실험 결과, 연관성 계산 방법은 본 발명에서 제안한 [수학식 3]의 함수를, 군집화 임계치는 지역 문서 집합의 모든 시드와 핵심어의 연관성 값의 평균과 표준편차를 사용하여 결정하는 방법을 사용하고, 핵심어는 상위 3%, 시드는 상위 4%를 선정하여 토픽을 추출할 때 가장 높은 평가 점수를 보임을 알 수 있다(도 7의 (b)).
도 8및 도 9는 본 발명의 일 실시예에 따른 초기 군집화 및 군집 병합 파라미터의 조정 결과를 도시한 도면이다.
초기 군집화를 생성하는 [수학식 3]에서 단어 군집화 임계치 α와 군집 병합에 대한 [수학식 4]에서 유사한 군집 병합 임계치인 β를 조정하는 실험을 수행하였으며, 실험 순서는 α를 우선적으로 조정하고, 그 결과를 반영하여 β를 조정하였다.
도 8의 (a) 내지 (g)는 β를 0.5로 고정하고, 핵심어 선정 비율 kr, 시드 선정 비율 sr과 α를 조정하였을 때 추출된 토픽의 적합성 평가 결과이다.
실험 결과, α는 2.0, kr은 3%, sr은 4%에서 최적의 결과를 보임을 알 수 있다(도 8의 (e)).
또한, 도 9의 (h) 내지 (l)은 앞서 결정된 결과에 따라서 α를 2.0으로 고정하고, 핵심어 선정 비율 kr, 시드 선정 비율 sr 및 β를 조정하였을 때 추출된 토픽의 적합성 평가 결과이다.
실험 결과, β는 0.7, kr은 3%, sr은 4%에서 최적의 결과를 보임을 알 수 있다(도 9의 (k)).
도 10 및 도 11은 본 발명의 일 실시예에 따른 추출된 토픽의 적합성 평가 결과를 도시한 그래프 및 최적의 파라미터를 적용하여 추출된 최종 토픽의 결과이다.
도 10은 kr을 3%, sr을 4%로 고정하고, α는 0에서 3까지, β는 0.1에서 1까지 조정하면서 추출된 토픽의 적합성을 평가한 결과이다.
도 10에 도시된 바와 같이, α는 2.0, β는 0.7을 사용할 때 본 발명에서 제안하는 토픽 추출 성능이 최적의 결과를 보임을 알 수 있다.
도 11은 도 10에 도시된 최적의 파라미터, 즉, α는 2.0, β는 0.7, 그리고 kr을 3%, sr을 4%로 적용했을 때 추출된 최종 지역별 토픽이다.
도 5에 도시된 정답 토픽과 비교했을 때 상당 부분 일치하거나 유사한 토픽이 존재함을 알 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 토픽을 추출하는 서버에 있어서,
    분류 정보에 따라서 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 텍스트 전처리부;
    상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 핵심어 추출부;
    상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 시드 선정부;
    상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 초기 군집화부; 및
    상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 군집 병합부
    를 포함하는 것을 특징으로 하는 토픽 추출 서버.
  2. 제 1 항에 있어서,
    상기 핵심어는 상기 분류별 문서 집합 중 해당 문서 집합에서 출현한 빈도가 다른 문서 집합들에서 출현한 빈도보다 높은 것을 특징으로 하는 토픽 추출 서버.
  3. 제 1 항에 있어서,
    상기 시드 선정부는,
    상기 분류별 문서 집합의 문서에서 단어의 출현 빈도와 상기 단어가 출현한 문서 빈도에 근거하여 상기 시드를 선정하는 것을 특징으로 하는 토픽 추출 서버.
  4. 제 1 항에 있어서,
    상기 초기 군집화부는,
    상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고,
    상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되,
    상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 하는 토픽 추출 서버.
  5. 제 1 항에 있어서,
    상기 군집 병합부는,
    유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 하는 토픽 추출 서버.
  6. 정답 토픽을 이용하여, 추출된 토픽의 적합성을 평가하는 서버에 있어서,
    상기 추출된 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 ASP(Average Set Precision) 계산부;
    상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 ASR(Average Set Recall) 계산부; 및
    상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 FAS-measure를 계산하는 적합성 평가부
    를 포함하는 것을 특징으로 하는 추출된 토픽의 적합성 평가 서버.
  7. 서버가 토픽을 추출하는 방법에 있어서,
    (a) 분류 정보에 따라 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 단계;
    (b) 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 단계;
    (c) 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 단계;
    (d) 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 다수 출현한 핵심어를 하나의 군집으로 구성하는 단계; 및
    (e) 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 단계
    를 포함하는 것을 특징으로 하는 토픽 추출 방법.
  8. 제 7 항에 있어서,
    상기 (d) 단계는,
    상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고,
    상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되,
    상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 하는 토픽 추출 방법.
  9. 제 7 항에 있어서,
    상기 (e) 단계는,
    유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 하는 토픽 추출 방법.
  10. 서버가 정답 토픽을 이용하여, 추출된 토픽의 적합성을 평가하는 방법에 있어서,
    (a) 상기 추출된 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 단계;
    (b) 상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 단계; 및
    (c) 상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 FAS-measure를 계산하는 단계
    를 포함하는 것을 특징으로 하는 추출된 토픽의 적합성 평가 방법.
PCT/KR2014/006955 2014-04-28 2014-07-29 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 WO2015167074A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/307,058 US10394864B2 (en) 2014-04-28 2014-07-29 Method and server for extracting topic and evaluating suitability of the extracted topic

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140050883A KR101536520B1 (ko) 2014-04-28 2014-04-28 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
KR10-2014-0050883 2014-04-28

Publications (1)

Publication Number Publication Date
WO2015167074A1 true WO2015167074A1 (ko) 2015-11-05

Family

ID=53793203

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/006955 WO2015167074A1 (ko) 2014-04-28 2014-07-29 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버

Country Status (3)

Country Link
US (1) US10394864B2 (ko)
KR (1) KR101536520B1 (ko)
WO (1) WO2015167074A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018174397A1 (ko) * 2017-03-20 2018-09-27 삼성전자 주식회사 전자 장치 및 제어 방법
KR20180106817A (ko) * 2017-03-20 2018-10-01 삼성전자주식회사 전자 장치 및 제어 방법

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101671892B1 (ko) * 2015-01-20 2016-11-02 한국과학기술원 Uri 정의문 및 부가정보 기반 텍스트에서 개체의 uri를 식별하는 장치, 토픽 분포 추정 방법 및 uri 선택 방법
US11347777B2 (en) * 2016-05-12 2022-05-31 International Business Machines Corporation Identifying key words within a plurality of documents
US9899038B2 (en) * 2016-06-30 2018-02-20 Karen Elaine Khaleghi Electronic notebook system
WO2018068002A1 (en) * 2016-10-06 2018-04-12 University Of Massachusetts Methods for automated controversy detection of content
CN108073568B (zh) 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN106815211B (zh) * 2016-12-22 2020-08-07 深圳爱拼信息科技有限公司 一种基于循环聚焦机制进行文档主题建模的方法
US11397558B2 (en) 2017-05-18 2022-07-26 Peloton Interactive, Inc. Optimizing display engagement in action automation
CN110147443B (zh) * 2017-08-03 2021-04-27 北京国双科技有限公司 话题分类评判方法及装置
KR102017227B1 (ko) 2017-11-02 2019-09-02 서강대학교산학협력단 과학문서의 핵심어구 추출방법 및 장치
KR102019194B1 (ko) * 2017-11-22 2019-09-06 주식회사 와이즈넛 문서 내 핵심 키워드 추출 시스템 및 방법
US10831772B2 (en) * 2017-12-20 2020-11-10 International Business Machines Corporation Facilitation of domain and client-specific application program interface recommendations
US10963499B2 (en) 2017-12-29 2021-03-30 Aiqudo, Inc. Generating command-specific language model discourses for digital assistant interpretation
US10929613B2 (en) * 2017-12-29 2021-02-23 Aiqudo, Inc. Automated document cluster merging for topic-based digital assistant interpretation
US10963495B2 (en) 2017-12-29 2021-03-30 Aiqudo, Inc. Automated discourse phrase discovery for generating an improved language model of a digital assistant
CN108595460A (zh) * 2018-01-05 2018-09-28 中译语通科技股份有限公司 关键词自动抽取的多路评测方法及系统、计算机程序
US10235998B1 (en) 2018-02-28 2019-03-19 Karen Elaine Khaleghi Health monitoring system and appliance
US11521098B2 (en) 2018-03-28 2022-12-06 University Of Massachusetts Modeling controversy within populations
CN110889285B (zh) * 2018-08-16 2023-06-16 阿里巴巴集团控股有限公司 确定核心词的方法、装置、设备和介质
US10559307B1 (en) 2019-02-13 2020-02-11 Karen Elaine Khaleghi Impaired operator detection and interlock apparatus
US10735191B1 (en) 2019-07-25 2020-08-04 The Notebook, Llc Apparatus and methods for secure distributed communications and data access
CN110795553B (zh) * 2019-09-09 2024-04-23 腾讯科技(深圳)有限公司 一种摘要生成方法及设备
CN110991785B (zh) * 2019-10-11 2023-07-25 平安科技(深圳)有限公司 基于文本的指标提取方法、装置、计算机设备及存储介质
CN111291186B (zh) * 2020-01-21 2024-01-09 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
US11347944B2 (en) * 2020-01-27 2022-05-31 Walmart Apollo, Llc Systems and methods for short text identification
CN111291554B (zh) * 2020-02-27 2024-01-12 京东方科技集团股份有限公司 标注方法、关系抽取方法、存储介质和运算装置
KR102328234B1 (ko) * 2020-03-18 2021-11-17 충북대학교 산학협력단 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법
CN113255340B (zh) * 2021-07-09 2021-11-02 北京邮电大学 面向科技需求的主题提取方法、装置和存储介质
CN114385890B (zh) * 2022-03-22 2022-05-20 深圳市世纪联想广告有限公司 互联网舆情监控系统
CN115767204A (zh) * 2022-11-10 2023-03-07 北京奇艺世纪科技有限公司 一种视频处理方法、电子设备及存储介质
KR102604582B1 (ko) * 2022-12-13 2023-11-22 주식회사 한국건설방재연구원 시공재해 db 통합을 위한 핵심어구 추출 및 정확도 평가 방법
CN117275752B (zh) * 2023-11-20 2024-03-22 中国人民解放军总医院 基于机器学习的病例聚类分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040078896A (ko) * 2003-03-05 2004-09-13 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터
KR20090013928A (ko) * 2007-08-03 2009-02-06 김남호 토픽 추출 장치, 상기 토픽 추출 장치를 이용한 소셜네트워크 생성 시스템 및 그 방법
KR20130065871A (ko) * 2011-12-06 2013-06-20 (주)도연애드 문서로부터 추출한 토픽과 위치 정보에 기초한 컨텐츠 제공 방법 및 컨텐츠 전달 방법, 및 상기 방법을 수행하는 장치
KR20140007004A (ko) * 2011-05-11 2014-01-16 구글 인코포레이티드 문서들로부터 토픽들의 병렬 생성

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8903810B2 (en) * 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US8429184B2 (en) * 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US8799285B1 (en) * 2007-08-02 2014-08-05 Google Inc. Automatic advertising campaign structure suggestion
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
JP5587821B2 (ja) * 2011-04-11 2014-09-10 日本電信電話株式会社 文書トピック抽出装置及び方法及びプログラム
US9229924B2 (en) * 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US9460457B1 (en) * 2013-03-14 2016-10-04 Google Inc. Automatically annotating content items with an entity
US10599697B2 (en) * 2013-03-15 2020-03-24 Uda, Llc Automatic topic discovery in streams of unstructured data
WO2015008388A1 (ja) * 2013-07-19 2015-01-22 楽天株式会社 レコメンド情報提示装置、レコメンド情報提示方法及びレコメンド情報提示プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040078896A (ko) * 2003-03-05 2004-09-13 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터
KR20090013928A (ko) * 2007-08-03 2009-02-06 김남호 토픽 추출 장치, 상기 토픽 추출 장치를 이용한 소셜네트워크 생성 시스템 및 그 방법
KR20140007004A (ko) * 2011-05-11 2014-01-16 구글 인코포레이티드 문서들로부터 토픽들의 병렬 생성
KR20130065871A (ko) * 2011-12-06 2013-06-20 (주)도연애드 문서로부터 추출한 토픽과 위치 정보에 기초한 컨텐츠 제공 방법 및 컨텐츠 전달 방법, 및 상기 방법을 수행하는 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NOH, JUN HO: "A Word Clustering Method for Regional Topic Extraction", MASTER'S THESIS, 29 January 2014 (2014-01-29) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018174397A1 (ko) * 2017-03-20 2018-09-27 삼성전자 주식회사 전자 장치 및 제어 방법
KR20180106817A (ko) * 2017-03-20 2018-10-01 삼성전자주식회사 전자 장치 및 제어 방법
US11257482B2 (en) 2017-03-20 2022-02-22 Samsung Electronics Co., Ltd. Electronic device and control method
KR102529262B1 (ko) * 2017-03-20 2023-05-08 삼성전자주식회사 전자 장치 및 제어 방법
KR20230067587A (ko) * 2017-03-20 2023-05-16 삼성전자주식회사 전자 장치 및 제어 방법
US11881209B2 (en) 2017-03-20 2024-01-23 Samsung Electronics Co., Ltd. Electronic device and control method
KR102666316B1 (ko) 2017-03-20 2024-05-17 삼성전자주식회사 전자 장치 및 제어 방법

Also Published As

Publication number Publication date
US20170060997A1 (en) 2017-03-02
US10394864B2 (en) 2019-08-27
KR101536520B1 (ko) 2015-07-14

Similar Documents

Publication Publication Date Title
WO2015167074A1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
WO2019103224A1 (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
WO2012134180A2 (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN104881458B (zh) 一种网页主题的标注方法和装置
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及系统
CN106407484A (zh) 一种基于弹幕语义关联的视频标签提取方法
WO2017007084A1 (ko) 토픽 추출 장치 및 방법
Ho et al. Statistical and structural approaches to filtering internet pornography
WO2013002436A1 (ko) 온톨로지 기반의 문서 분류 방법 및 장치
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN104809252B (zh) 互联网数据提取系统
Raghav et al. Analyzing the extraction of relevant legal judgments using paragraph-level and citation information
WO2019039673A1 (ko) 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN113010637A (zh) 一种文本审核方法及装置
WO2023191129A1 (ko) 법안 및 법규정에 대한 모니터링 방법 및 이를 위한 프로그램
WO2017057858A1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
Gunawan et al. Building automatic customer complaints filtering application based on Twitter in Bahasa Indonesia
WO2018143490A1 (ko) 웹 콘텐츠를 이용한 사용자 감성 예측 시스템 및 그 방법
WO2017179778A1 (ko) 빅데이터를 이용한 검색 방법 및 장치
Chandrasekar et al. Gleaning information from the web: Using syntax to filter out irrelevant information
WO2024019226A1 (ko) 유해 url 탐지 방법
WO2016088954A1 (ko) 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치
Chen et al. Knowledge extraction for identification of Chinese organization names

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14890484

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15307058

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14890484

Country of ref document: EP

Kind code of ref document: A1