KR20130037976A - 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치 - Google Patents

토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치 Download PDF

Info

Publication number
KR20130037976A
KR20130037976A KR1020110102569A KR20110102569A KR20130037976A KR 20130037976 A KR20130037976 A KR 20130037976A KR 1020110102569 A KR1020110102569 A KR 1020110102569A KR 20110102569 A KR20110102569 A KR 20110102569A KR 20130037976 A KR20130037976 A KR 20130037976A
Authority
KR
South Korea
Prior art keywords
topic
target
template
topics
unit
Prior art date
Application number
KR1020110102569A
Other languages
English (en)
Other versions
KR101565759B1 (ko
Inventor
이충희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110102569A priority Critical patent/KR101565759B1/ko
Priority to US13/612,182 priority patent/US9075870B2/en
Publication of KR20130037976A publication Critical patent/KR20130037976A/ko
Application granted granted Critical
Publication of KR101565759B1 publication Critical patent/KR101565759B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/40Protecting water resources
    • Y02A20/402River restoration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

종래에는, 특정 토픽이나 트렌드 자체를 탐지하는 것에 한정되어 있으므로, 특정 토픽에 대한 경쟁 관계에 있는 토픽을 자동으로 찾을 방법이 없고, 특정 토픽이 다른 토픽과 연계해서 복합적으로 작용해서 확산되는 내용을 자동으로 찾을 방법이 없다. 즉, 사용자가 특정 토픽에 대한 경쟁토픽이나 관련토픽을 찾아서 토픽 간의 복합적 관계를 보고 싶은 경우에는 사람이 직접 검색해야 하는 문제가 있다. 이에 본 발명의 실시예에서는, 단순히 토픽이나 트렌드 자체만을 찾고 관리하는 것과는 달리, 토픽 템플릿과 연관어에 기반해서 특정 토픽의 관련토픽과 경쟁토픽을 자동으로 탐지하고 추적할 수 있는 기술을 제안하고자 한다. 본 발명은 토픽템플릿과 연관어에 기반해서 관련토픽과 경쟁토픽을 탐지해서 추적하는 방법에 관한 것이며, 보다 상세하게는 분석이 필요한 토픽을 입력하면 토픽템플릿 속성과 연관어 정보에 기반해서 대상토픽과 관련된 토픽들을 시간과 중요도 순으로 자동으로 탐지하고 보여줌으로써 대상토픽이 어떤 토픽과 연계되어 어떤 방향으로 전개되는지 상세한 분석이 가능하게 한다.

Description

토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치{METHOD AND SYSTEM FOR DETECTING RELATED TOPICS AND COMPETITION TOPICS BASED ON TOPIC TEMPLATES AND ASSOCIATION WORDS, RELATED TOPICS AND COMPETITION TOPICS DETECTING DEVICE}
본 발명은 토픽 탐지 및 추적 기술에 관한 것으로, 특히 토픽 템플릿(topic template)과 연관어(association word)를 기반으로 특정 토픽에 대한 관련토픽(related topic) 및 경쟁토픽(competition topic)을 자동으로 탐지하고 추적하는데 적합한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치에 관한 것이다.
관련토픽 탐지 및 추적 기술의 종래기술을 살펴보면 다음과 같다.
먼저, 이슈 추적 관리 시스템 및 그 방법[한국공개특허 제2009-0024147호]은 기업이나 연구기관 등 조직에서 발생하는 업무상 이슈 또는 문제점을 효과적이고 효율적으로 처리하는 방법 및 시스템에 관한 것이다.
업무 현장에서 발생하는 문제들이 점점 복잡하고 다양해짐에 따라 문제의 원인 파악과 해결 방안 수립을 위해 상당한 초기 대응시간을 필요로 하며 관련 부서들 간의 실시간 협업 및 크로스-체킹(cross-checking)을 통하지 않고서는 문제에 대한 최적 해결책(solution)을 결정하기 힘든 단점이 있으며, 이를 개선하기 위해 이슈의 발의 및 전파 단계; 유사 이슈 사례 검색 단계; 이슈 해결을 위한 대안 수립과 의견 교환 단계; 해결된 이슈의 처리 결과 등록 단계; 를 포함하는 이슈 추적 관리 방법 및 시스템에 관한 것이다.
이 특허는 이슈를 사용자가 발의하고, 관련된 사례 등을 직접 검색해서 해결하기 쉽도록 도와주는 도구를 만드는 것에 목적이 있다.
이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이터를 생성하는 방법[한국공개특허 제2009-0021350호]은, 이슈 분석 시스템 및 이를 이용한 이슈 데이터 생성 방법에 관한 것으로, 보다 구체적으로는 입력 데이터에 포함된 정보를 추출하여 사용자에 의하여 설정된 이슈를 분석하여 관리하는 이슈 분석 시스템 및 이를 이용하여 다양한 입력의 데이터로부터 이슈 분석을 위한 이슈 분석 데이터를 생성하는 방법에 관한 것이다.
이 특허는 다양한 문서들로부터 핵심어, 핵심이미지, 메타 데이터 등을 자동으로 추출해서 사용자가 입력한 이슈를 검색 가능하도록 도와주는 것에 목적이 있다.
Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling[미국등록특허 US 6,529,902 B1]의 목적은, 1) change-point 방법을 사용해서 문서의 오프라인 세그먼트를 제공하는 것, 2) 각 문서에 토픽을 할당하는 것, 3) 오프라인 자동 음성 인식과 기계번역을 위한 향상된 언어모델을 제공하는 것이다.
처리 과정은 문서를 특정 크기의 세그먼트 단위로 분리하고, 각 세그먼트 별로 likelihood score를 계산해서 likelihood ratio를 계산하고, likelihood ratio가 임계값 이상인 경우에 토픽이 변환된 것으로 보고 세그먼트로 나누면서 해당 토픽을 할당한다.
이 특허의 목적은 likelihood 방법에 기반해서 문서에서의 토픽 변환과 토픽 할당을 잘 하는 것이다.
자동 트렌드 탐지를 위한 속성의 정의 및 트렌드 순위 결정 방법[참고문헌: 오흥선, 최윤정, 신욱현, 정윤재, 맹성현, 정보과학회논문지: 소프트웨어 및 응용, 2009]은, 트렌드의 다양한 측면을 정량화하기 위하여 출현 빈도로 구성된 트렌드 곡선으로부터 네 가지 속성(변동성, 지속성, 안정성, 누적량)을 정의하고 이를 활용한 트렌드 순위 결정 방법을 제안한다. 특허, 뉴스, 블로그와 같이 시간 정보가 있는 문서들로부터의 자동적인 트렌드 분석(trend analysis)에 대한 과거 연구들은 대부분 트렌드와 관련된 단어의 출현 빈도 정보를 이용하여 주어진 개념의 중요도를 측정하고 이 개념의 시간에 따른 트렌드 라인을 보여주는 것에 초점을 맞췄다.
이 논문에서는 일련의 실험을 통하여 각 속성의 유용성을 검증하고 속성들의 조합이 순위 결정에 어떤 영향을 미치는지 분석하였다. 실험결과로부터 네 가지 속성을 모두 조합할 경우 특징적인 트렌드 탐지에 더욱 기여하는 것을 알 수 있었다.
이 논문의 목적은 트렌드 탐지를 더욱 잘 하기 위한 것으로, 네 가지 속성에 기반한 트렌드 순위 결정 방법을 제안하였다.
TwitterMonitor: Trend Detection over the Twitter Stream[참고문헌: Michael Mathioudakis, Nick Koudas, SIGMOD 2010]은, Twitter stream을 대상으로 트렌드를 탐지하는 시스템으로써, Twitter를 실시간으로 분석해서 키워드 빈도수에 기반해서 emerging topic을 탐지하고 각 토픽에 대한 관련 정보를 통합해서 의미 있는 분석결과를 제공한다. 이 논문의 목적은 단순히 키워드 빈도수에 기반해서 emerging topic을 최근 트렌드로 탐지하는 방법에 대한 것으로, 최근 많이 사용되는 트위터를 기반으로 탐지하는 것에 의의가 있다.
Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors[참고문헌: Takeshi Sakaki, Makoto Okazaki, Yutaka Matsuo, WWW 2010]은, 트위터 상에서 만들어지는 tweet을 대상으로 지진과 같은 사건을 실시간으로 탐지해서 추적하는 방법에 대한 것이다. 대상 사건을 탐지하기 위해서 tweet에 있는 키워드 및 문맥정보를 자질로 사용하는 분류기를 이용하였고, 대상 사건의 장소의 중심과 이동 경로를 발견할 수 있는 시공간 확률 모델을 개발하였다. 본 시스템은 일본에서 발생한 진도 3 이상 지진의 96%에 대해서 발생 여부를 트위터로부터 확인할 수 있었고, 지진 경로나 태풍 경로를 추정해서 기상청 발표보다 빠르게 대상 지역에 경고할 수 있었다.
이 논문의 목적은 트위터를 실시간으로 모니터링 해서 자연재해 등의 사건을 빠르게 탐지하고 경고하기 위한 것이다.
이상과 같이 종래에는, 특정 토픽이나 트렌드 자체를 탐지하는 것에 한정되어 있으므로, 특정 토픽에 대한 경쟁 관계에 있는 토픽을 자동으로 찾을 방법이 없고, 특정 토픽이 다른 토픽과 연계해서 복합적으로 작용해서 확산되는 내용을 자동으로 찾을 방법이 없다. 즉, 사용자가 특정 토픽에 대한 경쟁토픽이나 관련토픽을 찾아서 토픽 간의 복합적 관계를 보고 싶은 경우에는 사람이 직접 검색해야 하는 문제가 있다.
한국공개특허 2009-0024147호, 이슈 추적 관리 시스템 및 그 방법, 2010.09.29 공개 한국공개특허 2010-0103001호, 이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이터를 생성하는 방법, 2010.09.27 공개 미국등록특허 US 6,529,902호, Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling, 2003.03.04 등록
자동 트렌드 탐지를 위한 속성의 정의 및 트렌드 순위 결정 방법, 정보과학회논문지, 소프트웨어 및 응용, 2009 TwitterMonitor: Trend Detection over the Twitter Stream, Michael Mathioudakis, Nick Koudas, SIGMOD 2010 Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors, Takeshi Sakaki, Makoto Okazaki, Yutaka Matsuo, WWW, 2010
이에 본 발명의 실시예에서는, 단순히 토픽이나 트렌드 자체만을 찾고 관리하는 것과는 달리, 토픽 템플릿과 연관어에 기반해서 특정 토픽의 관련토픽과 경쟁토픽을 자동으로 탐지하고 추적할 수 있는 기술을 제안하고자 한다.
본 발명은 토픽템플릿과 연관어에 기반해서 관련토픽과 경쟁토픽을 탐지해서 추적하는 방법에 관한 것이며, 보다 상세하게는 분석이 필요한 토픽을 입력하면 토픽템플릿 속성과 연관어 정보에 기반해서 대상토픽과 관련된 토픽들을 시간과 중요도 순으로 자동으로 탐지하고 보여줌으로써 대상토픽이 어떤 토픽과 연계되어 어떤 방향으로 전개되는지 상세한 분석이 가능하게 한다.
또한, 대상토픽과 경쟁관계에 있는 경쟁토픽을 자동으로 탐지해서 대상토픽과 경쟁토픽의 관련 이슈 전개 과정을 각각 보여줌으로써 대상토픽과 경쟁토픽의 비교 분석이 가능하게 한다.
이러한 관련토픽과 경쟁토픽의 탐지 및 추적 기술을 자동으로 제공함으로써 최근 이슈의 상세한 분석이 가능하고 하고, 이를 통해 문제에 대한 빠른 대처가 가능하게 하거나 이슈화되어 큰 문제로 번지기 전에 사전 진화가 가능하게 하는 기술에 관한 것이다.
본 발명의 실시예에 따른 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템은, 온라인 상에서 생성된 문서 정보에 대해 정보추출 기법을 이용하여 토픽 템플릿(topic template)과 연관어(association word)를 생성하는 정보추출 장치와, 상기 정보추출 장치로부터 생성된 상기 토픽 템플릿과 연관어를 기반으로 사용자에 의해 입력되는 대상토픽(target topic)에 대한 관련토픽(related topic)과 경쟁토픽(competition topic)을 탐지 및 추적하는 관련토픽 탐지 장치를 포함할 수 있다.
여기서, 상기 정보추출 장치는, 형태소 분석 및 개체명 인식을 포함하는 언어분석을 수행하는 언어 분석부와, 상기 언어 분석부를 통해 언어 분석된 결과를 이용하여 상기 토픽 템플릿을 생성하고, 생성되는 상기 토픽 템플릿을 데이터베이스에 저장하는 토픽 템플릿 추출부와, 상기 토픽 템플릿으로 저장된 토픽들에 대해 발생빈도 및 토픽 중요도 및 토픽 신뢰도를 측정하여 순위화하는 토픽 순위화부와, 키워드 간의 관련도를 측정하고, 측정되는 관련도에 따라 상기 연관어를 추출하여 데이터베이스에 저장하는 연관어 추출부를 포함할 수 있다.
또한, 상기 문서 정보는, 뉴스 또는 블로그 또는 SNS(Social Network Service) 문서 중 적어도 하나를 포함할 수 있다.
본 발명의 실시예에 따라 정보추출 장치에 의해 생성된 토픽 템플릿과 연관어를 기반으로 사용자가 입력한 대상토픽에 대한 관련토픽과 경쟁토픽을 탐지 및 추적하는 관련토픽 탐지 장치는, 상기 대상토픽의 유형을 파악하여 대상토픽에 대응하는 관련토픽을 토픽 템플릿의 속성을 기반으로 탐지 및 추적하는 토픽 템플릿 속성기반 관련토픽 탐지부와, 상기 대상토픽의 연관어를 토픽 템플릿 데이터베이스의 속성을 기반으로 규칙 및 기계학습 기법에 의해 필터링 및 순위화하여 대상토픽과 경쟁관계에 있는 경쟁토픽을 추출하고, 추출되는 상기 경쟁토픽과 대상토픽을 상기 토픽 템플릿 데이터베이스에서 검색하여 토픽 추적결과를 제공하는 연관어 기반 경쟁토픽 탐지부와, 상기 대상토픽의 연관어 중에서 상기 대상토픽과 관련이 있고 이슈화된 토픽을 순위화하는 연관어 기반 관련토픽 탐지부를 포함할 수 있다.
여기서, 상기 토픽 템플릿 속성기반 관련토픽 탐지부는, 기 설정된 토픽유형 중 하나로 대상토픽의 유형을 선정하는 유픽 유형 인식부와, 상기 대상토픽과 관련된 토픽을 찾기 위해 상기 토픽 유형 인식부에서 선정된 토픽유형에 따라 핵심속성을 선정하는 토픽 유형별 핵심속성 선정부와, 상기 토픽 유형별 핵심속성 선정부를 통해 선정되는 상기 핵심속성과 대상토픽을 기반으로 토픽 템플릿을 검색하여 관련토픽을 검색하는 관련토픽 검색부를 포함할 수 있다.
또한, 상기 토픽 유형별 핵심속성 선정부는, 기 설정된 규칙 또는 기계학습에 의해 상기 핵심속성을 선정할 수 있다.
또한, 상기 연관어 기반 경쟁토픽 탐지부는, 상기 대상토픽의 연관어를 검색하는 연관어 검색부와, 상기 연관어 검색부의 연관어 검색 결과 중에서 상기 대상토픽의 경쟁토픽에 포함되지 않은 항목을 제거하는 연관어 필터링부와, 상기 연관어 필터링부를 통해 필터링되는 연관어를 빈도수 및 소스 신뢰도 측정값을 이용하여 순위화하고, 단일의 경쟁토픽을 선정하는 경쟁토픽 순위화부와, 상기 선정되는 단일의 경쟁토픽에 대해서 상기 토픽 템플릿을 검색하여 관련토픽을 검색하는 경쟁토픽 검색부와, 상기 대상토픽에 대해서 상기 토픽 템플릿을 검색하여 관련 토픽을 검색하는 대상토픽 검색부와, 상기 경쟁토픽 검색부에서 검색한 결과와 상기 대상토픽 검색부에서 검색한 결과를 사용자 인터페이스를 통해 제공하는 토픽 추적부를 포함할 수 있다.
또한, 상기 연관어 필터링부는, 기 설정된 제거규칙을 기반으로 토픽 템플릿 속성값 또는 개체명 태그를 고려하여 상기 경쟁토픽에 포함되지 않은 항목을 제거할 수 있다.
또한, 상기 연관어 기반 관련토픽 탐지부는, 상기 대상토픽의 연관어를 검색하는 연관어 검색부와, 상기 연관어 검색부의 검색결과에 따른 연관어와 관련된 토픽을 검색하는 연관어 기반 토픽 템플릿 검색부와, 상기 연관어 기반 토픽 템플릿 검색부에서 검색한 결과들 중 상기 대상토픽과 관련이 없는 토픽을 제거하는 대상토픽 기반 필터링부와, 상기 대상토픽 기반 필터링부에서 필터링되고 남은 토픽들에 대해서 이슈화 정도를 측정하여 날짜별로 순위화하는 토픽 순위화부와, 상기 토픽 순위화부로부터의 날짜별 순위화 결과를 기반으로 이슈화된 토픽을 사용자 인터페이스를 통해 제공하는 관련 토픽 제시부를 포함할 수 있다.
또한, 상기 대상토픽 기반 필터링부는, 연관어 및 토픽 템플릿 속성값을 기반으로 상기 대상토픽과 관련이 없는 토픽을 제거할 수 있다.
본 발명의 실시예에 따라 토픽 템플릿과 연관어를 기반으로 사용자가 입력한 대상토픽에 대한 관련토픽과 경쟁토픽을 탐지 및 추적하는 관련토픽 탐지 방법은, 토픽 템플릿 속성기반 관련토픽 탐지부를 통해 상기 대상토픽의 유형을 파악하여 대상토픽에 대응하는 관련토픽을 토픽 템플릿의 속성을 기반으로 탐지 및 추적하는 과정과, 연관어 기반 경쟁토픽 탐지부를 통해 상기 대상토픽의 연관어를 토픽 템플릿 데이터베이스의 속성을 기반으로 규칙 및 기계학습 기법에 의해 필터링 및 순위화하여 대상토픽과 경쟁관계에 있는 경쟁토픽을 추출하고, 추출되는 상기 경쟁토픽과 대상토픽을 상기 연관어 기반 경쟁토픽 탐지부가 상기 토픽 템플릿 데이터베이스에서 검색하여 토픽 추적결과를 제공하는 과정과, 상기 대상토픽의 연관어 중에서 상기 대상토픽과 관련이 있고 이슈화된 토픽을 연관어 기반 관련토픽 탐지부가 순위화하는 과정을 포함할 수 있다.
여기서, 상기 탐지 및 추적하는 과정은, 기 설정된 토픽유형 중 하나로 대상토픽의 유형을 선정하는 과정과, 상기 대상토픽과 관련된 토픽을 찾기 위해 상기 선정된 토픽유형에 따라 핵심속성을 선정하는 과정과, 선정되는 상기 핵심속성과 대상토픽을 기반으로 토픽 템플릿을 검색하여 관련토픽을 검색하는 과정을 포함할 수 있다.
또한, 상기 관련토픽을 검색하는 과정은, 상기 대상토픽이 템플릿 명인 모든 토픽 템플릿을 검색하는 과정과, 핵심속성의 속성값이 비어있는 토픽 템플릿을 제거하는 과정과, 속성값 순위화 및 상위 n개의 속성값을 선정하는 과정과, 상기 상위 n개의 속성값을 제외한 나머지 토픽 템플릿을 제거하는 과정과, 상기 상위 n개의 속성값에 따라 토픽 템플릿을 그룹핑하는 과정을 포함할 수 있다.
또한, 상기 핵심속성을 선정하는 과정은, 기 설정된 규칙 또는 기계학습에 의해 상기 핵심속성을 선정하는 과정을 포함할 수 있다.
또한, 상기 토픽 추적결과를 제공하는 과정은, 상기 대상토픽의 연관어를 검색하는 과정과, 상기 연관어의 검색 결과 중에서 상기 대상토픽의 경쟁토픽에 포함되지 않은 항목을 제거하는 과정과, 상기 제거하는 과정을 통해 필터링되는 연관어를 빈도수 및 소스 신뢰도 측정값을 이용하여 순위화하고, 단일의 경쟁토픽을 선정하는 과정과, 선정되는 상기 단일의 경쟁토픽에 대해서 상기 토픽 템플릿을 검색하여 관련토픽을 검색하는 과정과, 상기 대상토픽에 대해서 상기 토픽 템플릿을 검색하여 관련토픽을 검색하는 과정과, 상기 단일의 경쟁토픽에 대해서 검색한 결과와 상기 대상토픽에 대해서 검색한 결과를 사용자 인터페이스를 통해 제공하는 과정을 포함할 수 있다.
또한, 상기 제거하는 과정은, 기 설정된 제거규칙을 기반으로 토픽 템플릿 속성값 또는 개체명 태그를 고려하여 상기 경쟁토픽에 포함되지 않은 항목을 제거하는 과정을 포함할 수 있다.
또한, 상기 기 설정된 제거규칙은, 개체명 태그를 기반으로 필터링하여 상기 개체명 태그가 상기 대상토픽과 다른 연관어를 제거하는 과정과, 상기 대상토픽의 유형별 필터링 속성을 선정하여 상기 대상토픽의 유형에 따라 필터링을 수행할 속성을 선정하는 과정과, 상기 연관어를 상기 토픽 템플릿에서 검색하고, 검색되는 상기 연관어의 필터링 속성값이 상기 대상토픽의 필터링 속성값과 동일한 연관어를 제거하는 과정을 포함할 수 있다.
또한, 상기 순위화하는 과정은, 상기 대상토픽의 연관어를 검색하는 과정과, 상기 연관어와 관련된 토픽을 검색하는 과정과, 상기 연관어와 관련된 토픽을 검색한 결과들 중 상기 대상토픽과 관련이 없는 토픽을 제거하는 과정과, 상기 제거하는 과정을 통해 필터링되고 남은 토픽들에 대해서 이슈화 정도를 측정하여 날짜별로 순위화하는 과정과, 상기 날짜별로 순위화한 결과를 기반으로 이슈화된 토픽을 사용자 인터페이스를 통해 제공하는 과정을 포함할 수 있다.
또한, 상기 제거하는 과정은, 연관어 및 토픽 템플릿 속성값을 기반으로 상기 대상토픽과 관련이 없는 토픽을 제거하는 과정을 포함할 수 있다.
본 발명에 의하면, 특정 토픽에 대한 정보만을 검색하고 관리하는 기존방법에서 탈피하여 특정토픽에 대한 관련토픽과 경쟁토픽을 자동으로 찾아주고 효과적인 UI로 비교해서 보여줌으로써 특정토픽에 대한 정확하고 상세한 분석이 가능하도록 도와준다. 본 발명에 의해서 사용자는 최근 이슈화되는 토픽에 대한 상세하고 정확한 분석을 자동으로 제공받음으로써 문제점에 대한 빠르고 정확한 대처가 가능하게 하고, 상시적인 모니터링에 본 발명을 적용함으로써 특정토픽이 이슈화되어 큰 문제로 번지기 전에 사전 진화가 가능하도록 할 수 있다.
도 1은 본 발명의 실시예에 따른 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 장치(1000)를 포함하는 관련토픽 및 경쟁토픽 탐지 시스템에 대한 구성 블록도,
도 2는 도 1의 관련토픽 탐지 장치(1000)에서 토픽 템플릿 속성기반 관련토픽 탐지부(1100)의 상세 구성 블록도,
도 3은 도 2의 토픽 유형 인식부(1102)에서 인식되는 토픽 유형의 계층구조를 예시한 도면,
도 4는 도 2의 토픽 유형별 핵심속성 선정부(1104)에서 선정한 핵심속성과 대상토픽을 기반으로 관련토픽 검색부(1106)에서 검색되는 토픽 템플릿의 단계별 구현 과정을 예시한 도면,
도 5는 도 2의 관련토픽 제시부(1108)를 통해 제시되는 관련토픽 제시 결과를 예시한 도면,
도 6은 도 1의 연관어 기반 경쟁토픽 탐지부(1200)의 상세 구성 블록도,
도 7은 도 6의 토픽 추적부(1212)를 통해 제공되는 UI(User Interface) 출력 결과를 예시한 도면,
도 8은 도 1의 연관어 기반 관련토픽 탐지부(1300)의 상세 구성 블록도,
도 9는 도 8의 관련 토픽 제시부(1310)를 통해 제공되는 UI 출력 결과를 예시한 도면.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 발명은 특정 토픽에 대한 관련토픽 및 경쟁토픽을 자동으로 탐지하고 추적하는 기술에 대한 것으로서, 추출되는 관련토픽 및 경쟁토픽은 토픽템플릿과 연관어에 기반해서 탐지되며, 세부적으로는 토픽템플릿 속성 기반 관련토픽 탐지 과정, 연관어 기반 경쟁토픽 탐지 과정, 연관어 기반 관련토픽 탐지 과정 등을 포함할 수 있다.
뉴스, 블로그, SNS(Social Network Service) 등을 통해 온라인 상에서 사용자 간에 구전되고 있는 토픽들은 정보추출 과정을 통해 템플릿 형태로 저장되고, 서로 관련이 있는 키워드들이 연관어로 저장되며, 이를 기반으로 경쟁토픽과 관련토픽을 자동으로 탐지해서 추적함으로써 최근 이슈화되고 있는 토픽들에 대한 정확하고 상세한 분석을 가능하게 하고, 이슈화되기 전에 문제가 될 수 있는 토픽에 대해서 미리 분석해서 대처가 가능하도록 하는 것을 특징으로 한다.
본 발명에서는 토픽을 개체(Entity)와 개체(Entity)+이벤트(Event)를 모두 포괄하는 것으로 정의하며, 이벤트는 행위를 포함할 수 있다. 예를 들면 다음과 같다.
개체: 아이패드, 갤럭시S, 무상급식, 나가수
개체+이벤트: 〈아이패드, 출시〉, 〈무상급식, 반대〉, 〈나가수, 종영〉
토픽 템플릿은 속성과 속성값 구조를 포함할 수 있으며 다음 [표 1]과 같은 형태로 구성될 수 있다.
Figure pat00001
이하, 본 발명의 실시예에 따른 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 기술에 대해 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명에 따른 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지를 위한 전체 시스템을 나타낸 구성도로서, 크게 정보추출 장치(100)와 관련토픽 탐지 장치(1000)로 구성될 수 있다.
여기서, 정보추출 장치(100)는 언어 분석부(102), 토픽 템플릿 추출부(104), 토픽 순위화부(106), 연관어 추출부(108) 등을 포함할 수 있으며, 온라인 상에서 생성된 문서들, 예를 들어 뉴스, 블로그, SNS 등의 문서들을 입력으로 받아 정보추출 기술을 이용하여 최종적으로 토픽 템플릿과 연관어를 생성하는 역할을 할 수 있다. 정보추출 장치(100)를 통해 생성되는 토픽 템플릿은 토픽 템플릿 DB(10)에 저장되고, 연관어는 연관어 DB(20)에 각각 저장될 수 있다.
도 1에 도시한 바와 같이, 정보추출 장치(100) 내의 언어 분석부(102)는 형태소분석, 개체명 인식 등의 언어분석을 수행하는 역할을 할 수 있다.
토픽 템플릿 추출부(104)는 언어 분석부(102)를 통해 언어 분석된 결과를 이용하여 토픽 템플릿을 생성하고, 생성된 토픽 템플릿을 토픽 템플릿 DB(10)에 저장하는 역할을 할 수 있다.
토픽 순위화부(106)는 토픽 템플릿으로 저장된 토픽들에 대해 발생빈도 및 토픽 중요도 및 토픽 신뢰도를 측정하여 순위화할 수 있다.
연관어 추출부(108)는 키워드 간의 관련도를 측정하여 관련이 높은 키워드를 연관어로 추출할 수 있다. 연관어 추출부(108)를 통해 추출되는 연관어는 연관어 DB(20)에 저장될 수 있다.
관련토픽 탐지 장치(1000)는 토픽 템플릿 속성기반 관련토픽 탐지부(1100), 연관어 기반 경쟁토픽 탐지부(1200), 연관어 기반 관련토픽 탐지부(1300) 등을 포함할 수 있으며, 정보추출 장치(100)에서 생성한 DB 정보(토픽 템플릿 및 연관어)를 기반으로 사용자가 입력한 대상토픽(target topic)에 대한 관련토픽과 경쟁토픽을 자동으로 탐지하고 추적해서 보여주는 기능을 할 수 있다.
도 1에 도시한 바와 같이, 관련토픽 탐지 장치(1000) 내의 토픽 템플릿 속성기반 관련토픽 탐지부(1100)는 사용자가 입력한 대상토픽의 유형을 파악하여 대상토픽에 대응하는 관련토픽을 토픽 템플릿의 속성을 기반으로 탐지 및 추적하는 역할을 할 수 있다.
연관어 기반 경쟁토픽 탐지부(1200)는 대상토픽의 연관어를 토픽 템플릿 DB(10)의 속성을 기반으로 규칙 및 기계학습 기법에 의해 필터링 및 순위화하여 대상토픽과 경쟁관계에 있는 토픽을 추출하고, 추출된 경쟁토픽과 대상토픽을 토픽 템플릿 DB(10)에서 검색하여 토픽 추적결과를 제공할 수 있다.
연관어 기반 관련토픽 탐지부(1300)는 대상토픽의 연관어 중에서 대상토픽과 관련이 있고 이슈화된 토픽을 순위화하여 제공할 수 있다.
도 2는 도 1의 토픽 템플릿 속성기반 관련토픽 탐지부(1100)의 상세 구성 블록도로서, 토픽 유형 인식부(1102), 토픽 유형별 핵심속성 선정부(1104), 관련토픽 검색부(1106), 관련토픽 제시부(1108) 등을 포함할 수 있다.
도 2에 도시한 바와 같이, 토픽 템플릿 속성기반 관련토픽 탐지부(1100) 내의 토픽 유형 인식부(1102)는 기 설정된 토픽유형 중 하나로 대상토픽의 유형을 선정하는 역할을 할 수 있다.
토픽유형은 도 3과 같은 계층구조를 가질 수 있다. 다만, 도 3의 토픽유형 계층은 하나의 예시일 뿐이며, 분류방식에 따라 다양하게 선정될 수 있음을 당업자라면 용이하게 알 수 있을 것이다.
토픽 유형별 핵심속성 선정부(1104)는 대상토픽과 관련된 토픽을 찾기 위한 가장 효과적인 속성(핵심속성)을 선정하는 수단으로서, 토픽 유형 인식부(1102)에서 제시한 토픽유형에 따라 핵심속성을 제시할 수 있다.
핵심속성을 선정하는 데에는 다양한 규칙 또는 기계학습 방법이 적용될 수 있으며, 본 발명의 실시예에서는 특정 기법에 국한되지는 않는다. 토픽 유형별로 선정되는 핵심속성들은 다음과 같이 예시될 수 있다.
(토픽유형: 복지정책) → (핵심속성: 지역)
(토픽유형: 복지정책) → (핵심속성: 정당)
(토픽유형: 상품-스마트폰) → (핵심속성: 발매국가)
(토픽유형: 상품-도서) → (핵심속성: 연령)
관련토픽 검색부(1106)는 토픽 유형별 핵심속성 선정부(1104)에서 선정한 핵심속성과 대상토픽을 기반으로 토픽 템플릿을 검색하여 관련토픽을 검색하는 수단으로서, 다음과 같은 검색 과정을 포함할 수 있다.
1단계: 대상토픽이 템플릿 명인 모든 토픽 템플릿을 검색
2단계: 핵심속성의 속성값이 비어있는 토픽 템플릿 제거
3단계: 속성값 순위화 및 상위 n개 속성값 선정
4단계: 상위 n개 속성값을 제외한 나머지 토픽 템플릿 제거
5단계: 상위 n개 속성값에 따라 토픽 템플릿 그룹핑
도 4는 도 2의 토픽 유형별 핵심속성 선정부(1104)에서 선정한 핵심속성과 대상토픽을 기반으로 관련토픽 검색부(1106)에서 검색되는 토픽 템플릿의 단계별 구현 과정을 예시한 도면이다.
도 4에 도시한 바와 같이, 입력된 대상토픽은 무상급식이고, 토픽 유형별 핵심속성 선정부(1104)에서 선정된 핵심속성이 지역이라고 가정한다.
관련토픽 제시부(1104)는 관련토픽 검색부(1106)에서 검색한 토픽들을 시간 및 중요도에 따라 보여주는 기능을 할 수 있다. 관련토픽 제시 결과는 도 5에 예시한 바와 같다.
도 6은 도 1의 연관어 기반 경쟁토픽 탐지부(1200)의 상세 구성 블록도로서, 연관어 검색부(1202), 연관어 필터링부(1204), 경쟁토픽 순위화부(1206), 경쟁토픽 검색부(1208), 대상토픽 검색부(1210), 토픽 추적부(1212) 등을 포함할 수 있다.
도 6에 도시한 바와 같이, 연관어 검색부(1202)는 연관어 DB(20)를 기반으로 대상토픽의 연관어를 검색하는 기능을 할 수 있다. 예를 들면, 다음과 같다.
대상토픽: 아이패드
연관어검색결과 : 스티브잡스 , 모토로라줌 , 아이폰 , 갤럭시탭 , 애플
연관어 필터링부(1204)는 연관어 검색 결과 중에서 대상토픽의 경쟁토픽에 포함되지 않은 항목들을 제거하는 역할을 할 수 있다. 예컨대, 기 설정된 제거규칙을 기반으로 토픽 템플릿 속성값, 개체명 태그 등을 고려하여 경쟁토픽에 포함되지 않은 항목들이 제거될 수 있다. 제거규칙은 다음과 같이 예시될 수 있다.
1단계: 개체명 태그 기반 필터링
◎ 기능: 개체명 태그가 대상토픽과 다른 연관어 제거
◎ 예제
·대상토픽 개체명 태그: 〈 아이패드 : TMI _ HW〉
· 연관어별 개체명 태그: 〈 스티브잡스 : PS _ PERSON〉 ,〈 모토로라줌 : TMI _ HW〉 , 〈 아이폰 : TMI _ HW〉 , 〈 갤럭시탭 : TMI _ HW〉 , 〈애플: OGG _ BUSINESS〉
· 필터링 결과: 모토로라줌 , 아이폰 , 갤럭시탭
2단계: 대상토픽 유형별 필터링 속성 선정
◎ 기능: 대상토픽의 유형에 따라 필터링을 고려할 속성 선정
◎ 예제
·대상토픽 유형(예: 아이패드 ): 상품- 테블릿PC
· 필터링 속성: 제조사
3단계: 토픽 템플릿 속성기반 연관어 제거
◎ 기능: 각 연관어를 토픽 템플릿에서 검색하고, 검색된 연관어의 필터링 속성의 값이 대상토픽의 필터링 속성값과 동일한 연관어를 제거
◎ 예제
·대상토픽의 필터링 속성값: 〈 아이패드 , 제조사:애플〉
· 연관어별 필터링 속성값: 〈 모토로라줌 , 제조사: 모토로라〉 , 〈 아이폰 , 제조사:애플〉 , 〈 갤럭시탭 , 제조사:삼성〉
· 필터링 결과: 모토로라줌 , 갤럭시탭
경쟁토픽 순위화부(1206)는 필터링된 연관어를 빈도수 및 소스 신뢰도 측정값을 이용하여 순위화하고, 최종적으로 경쟁토픽 1개를 선정할 수 있다. 위 예에 대한 순위화 결과로 갤럭시탭이 1등으로 나온다고 가정할 때, 최종 경쟁토픽으로 갤럭시탭이 선정될 수 있다.
경쟁토픽 검색부(1208)는 최종적으로 선정된 경쟁토픽 개체에 대해서 토픽 템플릿을 검색하여 관련 토픽들을 모두 검색할 수 있다.
대상토픽 검색부(1210)는 대상토픽 개체에 대해서 토픽 템플릿을 검색하여 관련 토픽들을 모두 검색할 수 있다.
토픽 추적부(1212)는 경쟁토픽 검색부(1208)에서 검색한 결과와 대상토픽 검색부(1210)에서 검색한 결과를 사용자가 비교하기 편한 UI로 보여주는 기능을 할 수 있다. 도 7은 이러한 토픽 추적부(1212)를 통해 제공되는 UI 출력 결과를 예시한 도면이다.
도 8은 도 1의 연관어 기반 관련토픽 탐지부(1300)의 상세 구성 블록도로서, 연관어 검색부(1302), 연관어 기반 토픽 템플릿 검색부(1304), 대상토픽 기반 필터링부(1306), 토픽 순위화부(1308), 관련토픽 제시부(1310) 등을 포함할 수 있다.
도 8에 도시한 바와 같이, 연관어 검색부(1302)는 대상토픽의 연관어를 검색하는 기능을 수행하며, 예를 들면 다음과 같다.
·대상토픽: 4대강사업
· 연관어검색결과 : 낙동강, 국토부 , 채소값, 한나라당, 왜관철교
연관어 기반 토픽템플릿 검색부(1304)는 연관어 검색부(1302)의 결과물인 연관어와 관련된 토픽들을 모두 검색하는 기능을 하며, 다음은 연관어에 대한 예시와 검색된 토픽의 일부 예시를 나타내고 있다.
· 연관어1 : 낙동강
관련토픽: 〈임시물막이,붕괴〉, 〈생태공원,운영〉, 〈폐기물,매립〉, 〈 구제역매몰지 ,재앙시작〉
· 연관어2 : 국토부
관련토픽: 〈 동남권신공항 ,발표〉, 〈속도전,진행〉, 〈 룸살롱향흥 ,제공〉
· 연관어3 : 채소값
관련토픽: 〈채소값,폭등〉, 〈정부대책,기대〉, 〈대책촉구성명,발표〉
· 연관어4 : 왜관철교
관련토픽: 〈 왜관철교 , 새단장 〉, 〈 다이옥산권고치 ,초과〉, 〈 왜관철교 ,붕괴〉
· 연관어5 : 한나라당
관련토픽: 〈 엄기영 , 입당〉, 〈재보궐선거,참패〉, 〈 4대강사업사망노동자 ,조사〉, 〈 4대강사업 ,비판〉
대상토픽 기반 필터링부(1306)는 연관어 기반 토픽 템플릿 검색부(1304)에서 검색한 결과들 중에서 대상토픽과 관련이 없는 토픽들을 제거하는 역할을 할 수 있다. 대상토픽 기반 필터링부(1306)의 제거 기법은 연관어 DB(20) 및 토픽 템플릿 속성값을 기반으로 수행될 수 있으며, 이에 대한 예시는 다음과 같다.
Figure pat00002
토픽 순위화부(1308)는 대상토픽 기반 필터링부(1306)에서 필터링 되고 남은 토픽들에 대해서 이슈화 정도를 측정하여 날짜 별로 순위화하는 역할을 할 수 있다. 이와 같이 날짜 별로 순위화한 결과는 다음과 같이 예시될 수 있다.
·2011년
1월 3주: 〈채소값,폭등〉(채소값)
2월 1주: 〈속도전,진행〉( 국토부 ) → 〈폐기물,매립〉(낙동강)
4월 3주: 〈 4대강사업사망노동자 ,조사〉(한나라당) → 〈 4대강사업 ,비판〉(한나라당)
5월 3주: 〈임시물막이,붕괴〉(낙동강)
6월 3주: 〈 룸살롱향흥 ,제공〉( 국토부 )
6월 4주: 〈 왜관철교 , 붕괴〉( 왜관철교 ) →〈 구제역매몰지 , 재앙시작〉(낙동강)
관련 토픽 제시부(1310)는 토픽 순위화부(1308)로부터의 날짜 별 순위화 결과를 기반으로, 날짜 별로 가장 이슈화된 토픽들을 대상으로 가장 효과적인 UI를 통해 사용자에게 보여주는 기능을 할 수 있다.
도 9는 이러한 관련 토픽 제시부(1310)를 통해 제공되는 UI 출력 결과를 예시한 도면이다.
이상 설명한 바와 같은 본 발명의 실시예에 의하면, 특정 토픽에 대한 정보만을 검색하고 관리하는 기존방법에서 탈피하여 특정토픽에 대한 관련토픽과 경쟁토픽을 자동으로 찾아주고 효과적인 UI로 비교해서 보여줌으로써 특정토픽에 대한 정확하고 상세한 분석이 가능하도록 구현한 것이다. 본 발명에 의해서 사용자는 최근 이슈화되는 토픽에 대한 상세하고 정확한 분석을 자동으로 제공받음으로써 문제점에 대한 빠르고 정확한 대처가 가능하게 하고, 상시적인 모니터링에 본 발명을 적용함으로써 특정토픽이 이슈화되어 큰 문제로 번지기 전에 사전 진화가 가능하도록 할 수 있다.
100: 정보추출 장치
1000: 관련토픽 탐지 장치
1100: 토픽 템플릿 속성 기반 관련토픽 탐지부
1200: 연관어 기반 경쟁토픽 탐지부
1300: 연관어 기반 관련토픽 탐지부

Claims (19)

  1. 온라인 상에서 생성된 문서 정보에 대해 정보추출 기법을 이용하여 토픽 템플릿(topic template)과 연관어(association word)를 생성하는 정보추출 장치와,
    상기 정보추출 장치로부터 생성된 상기 토픽 템플릿과 연관어를 기반으로 사용자에 의해 입력되는 대상토픽(target topic)에 대한 관련토픽(related topic)과 경쟁토픽(competition topic)을 탐지 및 추적하는 관련토픽 탐지 장치를 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템.
  2. 제 1 항에 있어서,
    상기 정보추출 장치는,
    형태소 분석 및 개체명 인식을 포함하는 언어분석을 수행하는 언어 분석부와,
    상기 언어 분석부를 통해 언어 분석된 결과를 이용하여 상기 토픽 템플릿을 생성하고, 생성되는 상기 토픽 템플릿을 데이터베이스에 저장하는 토픽 템플릿 추출부와,
    상기 토픽 템플릿으로 저장된 토픽들에 대해 발생빈도 및 토픽 중요도 및 토픽 신뢰도를 측정하여 순위화하는 토픽 순위화부와,
    키워드 간의 관련도를 측정하고, 측정되는 관련도에 따라 상기 연관어를 추출하여 데이터베이스에 저장하는 연관어 추출부를 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 문서 정보는, 뉴스 또는 블로그 또는 SNS(Social Network Service) 문서 중 적어도 하나를 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템.
  4. 정보추출 장치에 의해 생성된 토픽 템플릿과 연관어를 기반으로 사용자가 입력한 대상토픽에 대한 관련토픽과 경쟁토픽을 탐지 및 추적하는 관련토픽 탐지 장치에 있어서,
    상기 대상토픽의 유형을 파악하여 대상토픽에 대응하는 관련토픽을 토픽 템플릿의 속성을 기반으로 탐지 및 추적하는 토픽 템플릿 속성기반 관련토픽 탐지부와,
    상기 대상토픽의 연관어를 토픽 템플릿 데이터베이스의 속성을 기반으로 규칙 및 기계학습 기법에 의해 필터링 및 순위화하여 대상토픽과 경쟁관계에 있는 경쟁토픽을 추출하고, 추출되는 상기 경쟁토픽과 대상토픽을 상기 토픽 템플릿 데이터베이스에서 검색하여 토픽 추적결과를 제공하는 연관어 기반 경쟁토픽 탐지부와,
    상기 대상토픽의 연관어 중에서 상기 대상토픽과 관련이 있고 이슈화된 토픽을 순위화하는 연관어 기반 관련토픽 탐지부를 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 장치.
  5. 제 4 항에 있어서,
    상기 토픽 템플릿 속성기반 관련토픽 탐지부는,
    기 설정된 토픽유형 중 하나로 대상토픽의 유형을 선정하는 유픽 유형 인식부와,
    상기 대상토픽과 관련된 토픽을 찾기 위해 상기 토픽 유형 인식부에서 선정된 토픽유형에 따라 핵심속성을 선정하는 토픽 유형별 핵심속성 선정부와,
    상기 토픽 유형별 핵심속성 선정부를 통해 선정되는 상기 핵심속성과 대상토픽을 기반으로 토픽 템플릿을 검색하여 관련토픽을 검색하는 관련토픽 검색부를 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 장치.
  6. 제 5 항에 있어서,
    상기 토픽 유형별 핵심속성 선정부는, 기 설정된 규칙 또는 기계학습에 의해 상기 핵심속성을 선정하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 장치.
  7. 제 4 항에 있어서,
    상기 연관어 기반 경쟁토픽 탐지부는,
    상기 대상토픽의 연관어를 검색하는 연관어 검색부와,
    상기 연관어 검색부의 연관어 검색 결과 중에서 상기 대상토픽의 경쟁토픽에 포함되지 않은 항목을 제거하는 연관어 필터링부와,
    상기 연관어 필터링부를 통해 필터링되는 연관어를 빈도수 및 소스 신뢰도 측정값을 이용하여 순위화하고, 단일의 경쟁토픽을 선정하는 경쟁토픽 순위화부와,
    상기 선정되는 단일의 경쟁토픽에 대해서 상기 토픽 템플릿을 검색하여 관련토픽을 검색하는 경쟁토픽 검색부와,
    상기 대상토픽에 대해서 상기 토픽 템플릿을 검색하여 관련 토픽을 검색하는 대상토픽 검색부와,
    상기 경쟁토픽 검색부에서 검색한 결과와 상기 대상토픽 검색부에서 검색한 결과를 사용자 인터페이스를 통해 제공하는 토픽 추적부를 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 장치.
  8. 제 7 항에 있어서,
    상기 연관어 필터링부는, 기 설정된 제거규칙을 기반으로 토픽 템플릿 속성값 또는 개체명 태그를 고려하여 상기 경쟁토픽에 포함되지 않은 항목을 제거하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 장치.
  9. 제 4 항에 있어서,
    상기 연관어 기반 관련토픽 탐지부는,
    상기 대상토픽의 연관어를 검색하는 연관어 검색부와,
    상기 연관어 검색부의 검색결과에 따른 연관어와 관련된 토픽을 검색하는 연관어 기반 토픽 템플릿 검색부와,
    상기 연관어 기반 토픽 템플릿 검색부에서 검색한 결과들 중 상기 대상토픽과 관련이 없는 토픽을 제거하는 대상토픽 기반 필터링부와,
    상기 대상토픽 기반 필터링부에서 필터링되고 남은 토픽들에 대해서 이슈화 정도를 측정하여 날짜별로 순위화하는 토픽 순위화부와,
    상기 토픽 순위화부로부터의 날짜별 순위화 결과를 기반으로 이슈화된 토픽을 사용자 인터페이스를 통해 제공하는 관련 토픽 제시부를 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 장치.
  10. 제 9 항에 있어서,
    상기 대상토픽 기반 필터링부는, 연관어 및 토픽 템플릿 속성값을 기반으로 상기 대상토픽과 관련이 없는 토픽을 제거하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 장치.
  11. 정보추출 장치에 의해 생성된 토픽 템플릿과 연관어를 기반으로 사용자가 입력한 대상토픽에 대한 관련토픽과 경쟁토픽을 탐지 및 추적하는 관련토픽 탐지 방법에 있어서,
    토픽 템플릿 속성기반 관련토픽 탐지부를 통해 상기 대상토픽의 유형을 파악하여 대상토픽에 대응하는 관련토픽을 토픽 템플릿의 속성을 기반으로 탐지 및 추적하는 과정과,
    연관어 기반 경쟁토픽 탐지부를 통해 상기 대상토픽의 연관어를 토픽 템플릿 데이터베이스의 속성을 기반으로 규칙 및 기계학습 기법에 의해 필터링 및 순위화하여 대상토픽과 경쟁관계에 있는 경쟁토픽을 추출하고, 추출되는 상기 경쟁토픽과 대상토픽을 상기 연관어 기반 경쟁토픽 탐지부가 상기 토픽 템플릿 데이터베이스에서 검색하여 토픽 추적결과를 제공하는 과정과,
    상기 대상토픽의 연관어 중에서 상기 대상토픽과 관련이 있고 이슈화된 토픽을 연관어 기반 관련토픽 탐지부가 순위화하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
  12. 제 11 항에 있어서,
    상기 탐지 및 추적하는 과정은,
    기 설정된 토픽유형 중 하나로 대상토픽의 유형을 선정하는 과정과,
    상기 대상토픽과 관련된 토픽을 찾기 위해 상기 선정된 토픽유형에 따라 핵심속성을 선정하는 과정과,
    선정되는 상기 핵심속성과 대상토픽을 기반으로 토픽 템플릿을 검색하여 관련토픽을 검색하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
  13. 제 12 항에 있어서,
    상기 관련토픽을 검색하는 과정은,
    상기 대상토픽이 템플릿 명인 모든 토픽 템플릿을 검색하는 과정과,
    핵심속성의 속성값이 비어있는 토픽 템플릿을 제거하는 과정과,
    속성값 순위화 및 상위 n개의 속성값을 선정하는 과정과,
    상기 상위 n개의 속성값을 제외한 나머지 토픽 템플릿을 제거하는 과정과,
    상기 상위 n개의 속성값에 따라 토픽 템플릿을 그룹핑하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
  14. 제 12 항에 있어서,
    상기 핵심속성을 선정하는 과정은, 기 설정된 규칙 또는 기계학습에 의해 상기 핵심속성을 선정하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
  15. 제 11 항에 있어서,
    상기 토픽 추적결과를 제공하는 과정은,
    상기 대상토픽의 연관어를 검색하는 과정과,
    상기 연관어의 검색 결과 중에서 상기 대상토픽의 경쟁토픽에 포함되지 않은 항목을 제거하는 과정과,
    상기 제거하는 과정을 통해 필터링되는 연관어를 빈도수 및 소스 신뢰도 측정값을 이용하여 순위화하고, 단일의 경쟁토픽을 선정하는 과정과,
    선정되는 상기 단일의 경쟁토픽에 대해서 상기 토픽 템플릿을 검색하여 관련토픽을 검색하는 과정과,
    상기 대상토픽에 대해서 상기 토픽 템플릿을 검색하여 관련토픽을 검색하는 과정과,
    상기 단일의 경쟁토픽에 대해서 검색한 결과와 상기 대상토픽에 대해서 검색한 결과를 사용자 인터페이스를 통해 제공하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
  16. 제 15 항에 있어서,
    상기 제거하는 과정은,
    기 설정된 제거규칙을 기반으로 토픽 템플릿 속성값 또는 개체명 태그를 고려하여 상기 경쟁토픽에 포함되지 않은 항목을 제거하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
  17. 제 16 항에 있어서,
    상기 기 설정된 제거규칙은,
    개체명 태그를 기반으로 필터링하여 상기 개체명 태그가 상기 대상토픽과 다른 연관어를 제거하는 과정과,
    상기 대상토픽의 유형별 필터링 속성을 선정하여 상기 대상토픽의 유형에 따라 필터링을 수행할 속성을 선정하는 과정과,
    상기 연관어를 상기 토픽 템플릿에서 검색하고, 검색되는 상기 연관어의 필터링 속성값이 상기 대상토픽의 필터링 속성값과 동일한 연관어를 제거하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
  18. 제 11 항에 있어서,
    상기 순위화하는 과정은,
    상기 대상토픽의 연관어를 검색하는 과정과,
    상기 연관어와 관련된 토픽을 검색하는 과정과,
    상기 연관어와 관련된 토픽을 검색한 결과들 중 상기 대상토픽과 관련이 없는 토픽을 제거하는 과정과,
    상기 제거하는 과정을 통해 필터링되고 남은 토픽들에 대해서 이슈화 정도를 측정하여 날짜별로 순위화하는 과정과,
    상기 날짜별로 순위화한 결과를 기반으로 이슈화된 토픽을 사용자 인터페이스를 통해 제공하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
  19. 제 18 항에 있어서,
    상기 제거하는 과정은, 연관어 및 토픽 템플릿 속성값을 기반으로 상기 대상토픽과 관련이 없는 토픽을 제거하는 과정을 포함하는
    토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 방법.
KR1020110102569A 2011-10-07 2011-10-07 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치 KR101565759B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110102569A KR101565759B1 (ko) 2011-10-07 2011-10-07 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
US13/612,182 US9075870B2 (en) 2011-10-07 2012-09-12 System, method and apparatus for detecting related topics and competition topics based on topic templates and association words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110102569A KR101565759B1 (ko) 2011-10-07 2011-10-07 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치

Publications (2)

Publication Number Publication Date
KR20130037976A true KR20130037976A (ko) 2013-04-17
KR101565759B1 KR101565759B1 (ko) 2015-11-06

Family

ID=48042634

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110102569A KR101565759B1 (ko) 2011-10-07 2011-10-07 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치

Country Status (2)

Country Link
US (1) US9075870B2 (ko)
KR (1) KR101565759B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160002199A (ko) * 2014-06-30 2016-01-07 경일대학교산학협력단 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9521013B2 (en) 2008-12-31 2016-12-13 Facebook, Inc. Tracking significant topics of discourse in forums
US8462160B2 (en) * 2008-12-31 2013-06-11 Facebook, Inc. Displaying demographic information of members discussing topics in a forum
US10002187B2 (en) * 2013-11-26 2018-06-19 Oracle International Corporation Method and system for performing topic creation for social data
US9996529B2 (en) * 2013-11-26 2018-06-12 Oracle International Corporation Method and system for generating dynamic themes for social data
US20150161633A1 (en) * 2013-12-06 2015-06-11 Asurion, Llc Trend identification and reporting
CN104408093B (zh) * 2014-11-14 2018-01-26 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN106296344B (zh) * 2016-07-29 2020-01-07 北京小米移动软件有限公司 恶意地址识别方法及装置
CN106251202B (zh) * 2016-07-29 2019-12-13 北京小米移动软件有限公司 恶意订单识别方法及装置
CN107783948B (zh) * 2017-10-10 2020-10-13 湖北文理学院 一种基于社交网络原理的词汇社交网络分析方法
US11055643B2 (en) 2017-11-13 2021-07-06 Samsung Electronics Co., Ltd. System and method for a prescriptive engine
US11521601B2 (en) 2019-10-18 2022-12-06 Invoca, Inc. Detecting extraneous topic information using artificial intelligence models

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794193A (en) * 1995-09-15 1998-08-11 Lucent Technologies Inc. Automated phrase generation
US6529902B1 (en) 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
US7395256B2 (en) * 2003-06-20 2008-07-01 Agency For Science, Technology And Research Method and platform for term extraction from large collection of documents
US7426507B1 (en) * 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US8209335B2 (en) * 2005-09-20 2012-06-26 International Business Machines Corporation Extracting informative phrases from unstructured text
JP4547500B2 (ja) 2006-07-21 2010-09-22 国立大学法人群馬大学 検索装置及びプログラム
KR101052631B1 (ko) 2009-01-29 2011-07-28 성균관대학교산학협력단 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치
US8539359B2 (en) * 2009-02-11 2013-09-17 Jeffrey A. Rapaport Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic
KR101088787B1 (ko) 2009-03-12 2011-12-02 조정열 이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이터를생성하는 방법
KR20100105226A (ko) 2009-03-20 2010-09-29 주식회사 에이원디앤에스 이슈 추적 관리 시스템 및 그 방법
US8838599B2 (en) * 2010-05-14 2014-09-16 Yahoo! Inc. Efficient lexical trending topic detection over streams of data using a modified sequitur algorithm

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160002199A (ko) * 2014-06-30 2016-01-07 경일대학교산학협력단 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템

Also Published As

Publication number Publication date
US20130090918A1 (en) 2013-04-11
US9075870B2 (en) 2015-07-07
KR101565759B1 (ko) 2015-11-06

Similar Documents

Publication Publication Date Title
KR20130037976A (ko) 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
Rudra et al. Extracting and summarizing situational information from the twitter social media during disasters
US12026194B1 (en) Query modification based on non-textual resource context
US9535911B2 (en) Processing a content item with regard to an event
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
KR101695011B1 (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
Raharjana et al. User story extraction from online news for software requirements elicitation: A conceptual model
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
US20150088491A1 (en) Keyword extraction apparatus and method
KR20150059208A (ko) 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
CN113032673A (zh) 资源的获取方法、装置、计算机设备及存储介质
JP2014106665A (ja) 文書検索装置、文書検索方法
Colhon et al. Relating the opinion holder and the review accuracy in sentiment analysis of tourist reviews
Beytía et al. Visual gender biases in wikipedia: A systematic evaluation across the ten most spoken languages
JP5349699B1 (ja) 文書分析装置およびプログラム
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
JP2019086940A (ja) 関連スコア算出システム、方法およびプログラム
US9262735B2 (en) Identifying and amalgamating conditional actions in business processes
Jeon et al. Making a graph database from unstructured text
KR20200064490A (ko) 프로필 자동생성서버 및 방법
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
Dai et al. MOETA: A novel text-mining model for collecting and analysing competitive intelligence

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20181001

Year of fee payment: 4