KR20190055027A

KR20190055027A - 이벤트 발견 방법, 장치, 기기 및 저장 매체

Info

Publication number: KR20190055027A
Application number: KR1020190045154A
Authority: KR
Inventors: 위광 첸; 웬하오 첸; 후이 저우; 위홍 정; 웨나 첸
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2018-06-01
Filing date: 2019-04-17
Publication date: 2019-05-22
Also published as: CN110633330A; US11210469B2; JP6741110B2; CN110633330B; US20190370330A1; KR102229427B1; EP3518119A1; JP2019212292A

Abstract

본 출원의 실시예는 이벤트 발견 방법, 장치, 기기 및 저장 매체를 제공한다. 타깃 키워드를 포함한 다수의 텍스트를 획득하고; 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하고; 추출된 문구에 대해 클러스터링을 수행하여 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시킴으로써 이벤트를 형성한다. 본 출원의 실시예에서 제공하는 이벤트 발견 방법은 이벤트 발견의 정확도 및 이벤트의 리콜율을 향상시킬 수 있다.

Description

이벤트 발견 방법, 장치, 기기 및 저장 매체{EVENT DISCOVERY METHOD, APPARATUS, DEVICE, AND STORAGE MEDIUM}

본 출원의 실시예는 컴퓨터 기술 분야에 관한 것으로, 특히 이벤트 발견 방법, 장치, 기기 및 저장 매체에 관한 것이다.

인터넷이 발전함에 따라, 인터넷 정보는 폭발적으로 증가하고 있으며, 사람들마다 부득이하게 정보 과부하 문제에 직면하게 된다. 사용자가 특정 인물이나 회사를 주목할려면, 부득이하게 대량의 정리되지 않은 뉴스 정보에 직면하게 된다. 만약 "이벤트"를 입도로 인터넷 중 대량의 정보를 조직하여 사용자에게 표시할 수 있다면, 사용자가 정보를 획득하기 위한 시간 소비를 크게 줄일 수 있다.

현재 이벤트 발견에 관한 주요 방법은, 클러스터링 방법, 버스트 검출 방법 및 클러스터링과 버스트 검출을 결합시킨 방법 총 3가지를 포함한다. 여기서, 클러스터링 방법은 일부 텍스트 리소스를 상대로 기설정된 유사도 산출 방법에 따라 텍스트의 본문에 대해 클러스터링 처리를 수행하는 것으로서, 그 클러스터링의 기본 유닛은 일반적으로 뉴스 또는 마이크로블로그 등 이벤트 정보를 반영할 수 있는 리소스이다. 버스트 검출은 키워드의 출현 빈도를 모니터링하고, 출현 빈도가 돌발적으로 증가한 키워드를 식별 및 추출하는 것이다. 양자를 결합시킨 방법은 먼저 버스트 검출을 수행한 다음, 버스트 검출에 의해 획득된 결과를 기초로 뉴스를 리콜한 후, 리콜된 뉴스를 기초로 클러스터링을 수행하는 것이다.

그러나, 버스트 검출의 키워드 또는 검색어가 비교적 짧으므로, 비록 일부 키워드 또는 엔티티에 버스트가 존재함을 식별해 낼 수 있으나, 도대체 어느 이벤트 또는 어느 몇개의 이벤트에 의해 초래된 것인지 마이닝해낼 수 없으며, 이벤트 리콜율이 비교적 낮다. 또한, 클러스터링 방법 및 클러스터링과 버스트 검출을 결합시킨 방법에 있어서, 클러스터링 조작을 수행할 경우, 그 클러스터링 대상이 모두 뉴스 또는 마이크로블로그의 본문이므로, 클러스터링 군집의 불순 및 초대형 군집 문제가 발생하기 쉬우며, 이벤트 발견의 정확도가 상대적으로 낮다.

본 출원의 실시예는 이벤트 발견의 정확도 및 이벤트 리콜율을 향상시키기 위한 이벤트 발견 방법, 장치, 기기 및 저장 매체를 제공한다.

본 출원의 실시예의 제1 양태에서 제공하는 이벤트 발견 방법은, 타깃 키워드를 포함한 다수의 텍스트를 획득하는 단계와; 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하는 단계와; 추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하는 단계를 포함한다.

본 출원의 실시예의 제2 양태에서 제공하는 이벤트 발견 장치는, 타깃 키워드를 포함한 다수의 텍스트를 획득하기 위한 획득 모듈과; 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하기 위한 문구 마이닝 모듈과; 추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하기 위한 클러스터링 모듈을 포함한다.

본 출원의 실시예의 제3 양태에서 제공하는 컴퓨터 기기는, 하나 또는 다수의 프로세서와; 이벤트 중 텍스트 및/또는 이벤트와 문구 사이의 관련 관계를 표시하기 위한 표시 장치와; 하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되, 상기 하나 또는 다수의 프로그램은 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서가 상술한 제1 양태에 따른 방법을 실현하도록 한다.

본 출원의 실시예의 제4 양태에서 제공하는 컴퓨터 판독 가능한 저장 매체는, 컴퓨터 프로그램이 저장되되, 해당 프로그램은 프로세서에 의해 실행될 경우, 상기 제1 양태에 따른 방법을 실현한다.

상술한 각 양태에 따르면, 본 출원의 실시예는 타깃 키워드를 포함한 다수의 텍스트를 획득하고, 해당 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하고, 추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시킴으로써 이벤트를 형성한다. 본 출원의 실시예는 타깃 키워드를 포함한 다수의 텍스트를 획득한 이후, 나아가 클러스터링 방법을 이용하여 이벤트를 형성하므로, 키워드가 상대적으로 짧음으로 인하여 이벤트 리콜율이 낮은 문제점을 방지할 수 있으며, 이벤트의 리콜율을 향상시킨다. 또한, 클러스터링 방법을 이용하여 이벤트를 형성할 경우, 본 출원의 실시예는 이벤트 정보를 독립적으로 기술할 수 있는 문구를 기초로 클러스터링을 수행하며, 텍스트 본문을 클러스터링의 기초로 하는 종래기술에 비해, 분명히 초대형 클러스터링 군집의 형성을 방지할 수 있으며, 텍스트 본문에 비해, 문구는 일반적으로 하나의 이벤트만 포함하므로, 본 출원의 실시예는 클러스터링 군집의 순도를 향상시켜, 하나의 클러스터링 군집에 하나의 이벤트만 포함되도록 할 수 있다. 다시 말해서, 본 출원의 실시예는 이벤트 발견의 정확도를 향상시킬 수 있다.

상술한 발명의 내용 부분에 기재된 내용은 본 출원의 실시예의 관건적이거나 중요한 특징을 한정하기 위한 것이 아니며, 본 출원의 범위를 한정하기 위한 것도 아닌 것으로 이해하여야 한다. 본 출원의 기타 특징은 아래의 설명으로부터 용이하게 이해될 것이다.

도1은 본 출원의 실시예에서 제공하는 이벤트 발견 방법의 흐름도이다.
도2는 본 출원의 실시예에서 제공하는 버스트 임계값 산출 방법의 흐름도이다.
도3은 본 출원의 실시예에서 제공하는 단계(S13)의 수행 방법에 대한 흐름도이다.
도4는 본 출원의 실시예에서 제공하는 이벤트 발견 장치의 구성을 간략하게 나타낸 도면이다.
도5는 본 출원의 실시예에서 제공하는 클러스터링 모듈(43)의 구성을 간략하게 나타낸 도면이다.

이하, 첨부된 도면을 참조하여 본 출원의 실시예에 대해 보다 상세하게 설명한다. 도면에 본 출원의 일부 실시예가 도시되어 있으나, 본 출원은 다양한 형태로 구현될 수 있는 것으로 이해하여야 하며, 본문에 기재된 실시예에 한정되는 것으로 해석되어서는 아니되며, 반대로, 이러한 실시예들은 본 출원을 보다 명확하고 충분히 이해하도록 제공되는 것이다. 본 출원의 도면 및 실시예는 예시적 작용으로 이용될 뿐, 본 출원의 보호 범위를 한정하기 위한 것이 아님을 이해하여야 한다.

본 출원의 실시예의 명세서, 청구범위 및 상술한 도면에서 용어 "제1", “제2”, “제3”, “제4” 등(만약 존재할 경우)은, 유사한 대상을 구분하기 위한 것이으로서, 반드시 특정된 순서 또는 선후 순서를 설명하가 위해 사용될 필요는 없다. 본 출원에 기재된 본 출원의 실시예가 예컨대 여기에 도시되거나 기재된 순서 이외의 순서로 실시될 수 있도록, 이러게 사용되는 데이터는 적절한 경우에 호환될 수 있음을 이해하여야 한다. 또한, 용어 “포함하다”, “구비하다” 및 이들의 임의의 변형은 비배타적인 포함을 포괄하기 위한 것으로서， 예를 들어, 일련의 단계 또는 유닛을 포함하는 과정, 방법, 시스템, 제품 또는 기기는 반드시 명확히 나열된 이러한 단계 또는 유닛에 한정될 필요는 없으며, 명확히 나열되지 않은 것 또는 이러한 과정, 방법, 제품 또는 기기가 고유한 기타 단계 또는 유닛을 포함할 수 있다.

보다 쉽게 이해할 수 있도록, 아래에서 우선 본 출원의 실시예에 관한 용어에 대해 설명한다.

1. 클러스터링 군집은 클러스터링 조작의 결과로서, 하나의 클러스터링 군집에는 여러개의 유사한 데이터가 포함되며, 본 출원의 실시예에서 문구를 기초로 클러스터링하여 획득한 클러스터링 군집은 여러개의 유사한 문구를 포함한다.

２. 이벤트는 하나의 텍스트의 클러스터링 군집으로서, 해당 클러스터링 군집에 포함되는 텍스트는 모두 동일 사건에 대한 정보를 기재하기 위한 것이며, 여기서 본 출원의 실시예 중 텍스트는 뉴스 텍스트 및/또는 마이크로블로그 텍스트를 가리킬 수 있으나, 뉴스 텍스트 및/또는 마이크로블로그 텍스트에 한정되지 않는다.

３. 이벤트 정보를 독립적으로 기술하는 문구는 이벤트를 충분하고 명확하게 기술할 수 있는 짧은 문구를 가리킨다.

배경기술로부터 알 수 있는 바와 같이, 현재 버스트 검출을 기초로 하는 이벤트 발견 방법은 이벤트 리콜율이 낮은 문제점이 존재하고, 클러스터링 또는 클러스터링과 버스트 검출의 결합을 기초로 하는 이벤트 발견 방법은 초대형 군집 및 클러스터링 군집에 다수의 이벤트가 포함되어 클러스터링 군집이 불순한 문제점이 존재한다. 종래기술에 존재하는 상기 문제점을 해결하기 위하여, 본 출원의 실시예는 클러스터링과 버스트 검출을 결합하는 기초상에서, 텍스트에서 이벤트 정보를 독립적으로 기술할 수 있는 문구를 기초로 텍스트에 대해 클러스터링을 수행하여 이벤트를 획득하는 이벤트 발견 방법을 제공한다. 본 출원의 실시예는 클러스터링과 버스트 검출을 결합시키는 방법을 기초로 이벤트 발견을 수행하므로, 버스트 검출 방법을 단독으로 사용함에 따라 이벤트 리콜율이 낮은 문제점을 해결할 수 있다. 또한, 클러스터링 방법을 이용하여 이벤트를 형성할 경우, 본 출원의 실시예는 이벤트 정보를 독립적으로 기술할 수 있는 문구를 기초로 수행하며, 텍스트 본문을 클러스터링의 기초로 하는 종래기술에 비해, 초대형 클러스터링 군집의 형성을 현저히 방지할 수 있으며, 텍스트 본문에 비해, 문구는 일반적으로 하나의 이벤트만 포함하므로, 본 출원의 실시예는 클러스터링 군집의 순도를 향상시켜, 하나의 클러스터링 군집에 하나의 이벤트만 포함되도록 할 수 있다. 다시 말해서, 본 출원의 실시예는 이벤트 발견의 정확도를 향상시킬 수 있다.

이하, 첨부된 도면을 결합하여 본 출원의 실시예에 따른 기술방안에 대해 구체적으로 설명한다.

도1은 본 출원의 실시예에서 제공하는 이벤트 발견 방법의 흐름도로서, 해당 방법은 일종 이벤트 발견 장치에 의해 수행될 수 있다. 도1을 참조하면, 해당 방법은 단계(S11) 내지 단계(S13)을 포함한다.

단계(S11)에서, 타깃 키워드를 포함한 다수의 텍스트를 획득한다.

여기서, 타깃 키워드는 사용자가 인간-컴퓨터 상호 작용 인터페이스를 통해 입력한 키워드일 수 있으며, 버스트 검출 방법으로 검출하여 획득한 키워드일 수도 있다. 여기서 버스트 검출은 기설정된 시간동안 키원드가 타깃 검색 엔진에서 검색된 횟수를 통계하고, 동일 키워드가 기설정된 시간동안에서의 검색횟수가 기설정된 버스트 임계값을 초과할 경우, 해당 키워드를 타깃 키워드로 판단하는 것을 가리킨다.

본 출원의 일실시예에 따르면, 버스트 검출 방법을 기초로 타깃 키워드를 획득할 경우, 기설정된 버스트 임계값은 하나뿐일 수 있다. 즉, 모든 키워드에 대해 버스트 검출을 수행할 때 모두 동일한 버스트 임계값을 사용한다. 본 출원의 다른 실시예에 따르면, 기설정된 버스트 임계값은 다수개일 수도 있으며, 부동한 키워드에 대해 버스트 검출을 수행할 경우 부동한 버스트 임계값을 사용할 수 있다. 본 출원의 또다른 실시예에 따르면, 각 키워드마다 하나의 대응되는 버스트 임계값이 설정될 수 있으며, 해당 버스트 임계값을 설정하는 방법은 경험에 따라 설정할 수 있으며, 기설정된 알고리즘에 따라 산출하여 획득할 수도 있다. 예를 들어, 일 예시적 실시예에 따르면 후술하는 알고리즘을 기초로 산출하여 획득할 수 있다.

도2는 본 출원의 실시예에서 제공하는 버스트 임계값 산출 방법의 흐름도이다. 도2에 도시된 바와 같이, 버스트 임계값은 아래와 같은 방법으로 산출하여 획득할 수 있다.

단계(S21)에서, 타깃 검색 엔진의 기설정된 과거 시간 동안에서의, 각 검색어의 검색 횟수 평균값 및 검색 횟수 표준차를 확정한다.

단계(S22)에서, 각 검색어에 대응되는 검색 횟수 평균값 및 검색 횟수 표준차를 기초로, 각 검색어에 대응되는 버스트 임계값을 확정한다.

예를 들어, 이미 지나간 20일 내에 키워드(a)의 매일 검색 횟수가 각각 pv₁, pv₂……pv₂₀이라고 가정하면, pv₁, pv₂……pv₂₀을 기초로 지난 20일 내에 키워드(a)의 검색 횟수 평균값(pv_v) 및 검색 횟수 표준차(Ep_v)를 산출할 수 있으며, 나아가, pv_v 및 Ep_v를 하기 관계식에 대입하여 키워드(a)에 대응되는 버스트 임계값을 획득할 수 있다.

Q=g·pv_v+h·Ep_v

여기서, Q는 버스트 임계값이고, g와 h는 기설정된 가중 파라미터이며, g와 h는 상수이다.

마찬가지로, 상기 버스트 임계값을 산출하는 방법에 따라 지난 20일 동안 기타 키워드의 버스트 임계값을 산출할 수도 있다. 물론, 상술한 내용은 단지 하나의 가능한 예시를 명확하게 설명하기 위한 것일 뿐, 본 출원에 대한 유일한 한정은 아니다.

나아가, 본 실시예에 언급된 타깃 키워드는 하나 또는 다수의 키워드를 포함할 수 있으며, 텍스트를 획득할 때 모든 타깃 키워드를 포함하는 텍스트를 획득하여야 한다. 예를 들어, 타깃 키워드가 (모모 스타, 결혼)이면, 획득된 텍스트는 “모모 스타” 및 “결혼” 이 두 개의 키워드를 동시에 포함해야 한다.

물론, 상술한 내용은 단지 예시적인 설명일 뿐, 본 출원에 대한 유일한 한정은 아니다.

나아가, 본 실시예에 언급된 텍스트는 기설정된 데이터 베이스로부터 획득할 수 있으며, 또는 크롤링(crawling) 기술을 통해 네트워크 매체로부터 획득할 수도 있으며, 본 실시예는 텍스트의 획득 위치 및 획득 방법에 대해 구체적으로 한정하지 않는다.

단계(S12)에서, 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출한다.

일반적으로, 텍스트의 표제는 본문에서 기술할 내용과 일치한다. 즉 텍스트의 표제는 일반적으로 본문에서 기술할 이벤트의 정보를 제공하며, 이러한 정보는 일반적으로 이벤트 정보를 독립적으로 기술하는 하나 또는 다수의 문구에 포함되어 있다. 텍스트 표제로부터 이러한 문구를 추출함으로써 텍스트에 어떠한 이벤트가 기술되어있는지 대략적으로 판단할 수 있으므로, 텍스트 클러스터링을 위해 조건을 제공한다. 또한, 본 실시예에서 텍스트 표제로부터 상기 문구를 추출하는 이유는, 한편으로 텍스트 표제가 본문의 핵심 내용을 반영할 수 있기 때문이며, 다른 한편으로 텍스트 본문에 이벤트 정보를 독립적으로 기술할 수 있는 문구가 상대적으로 많으므로, 본문으로부터 추출된 문구는 대량의 핵심 이벤트와 무관한 정보를 포함하지만, 텍스트 표제는 짧고 쓸모없는 정보가 상대적으로 적게 포함되어 있으므로, 텍스트 표제를 기초로 상기 문구를 추출할 경우, 데이터 양을 줄이고, 처리 효율을 향상시킬 수 있을 뿐만 아니라, 보다 관건적인 것은, 텍스트 표제를 기초로 상기 문구를 추출할 경우, 초대형 클러스터링 군집의 형성을 방지할 수 있으므로, 이벤트 발견의 정확도를 확보할 수 있으나, 텍스트 본문을 기초로 할 경우 이러한 점을 구현할 수 없기 때문이다.

나아가, 텍스트 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출할 경우, 본 실시예에서 제공하는 방법은 다양한 방법을 포한한다.

본 출원의 일실시예에 따르면, 사전에 통계 분석 방법을 기초로 범용적인 문법 구조를 획득하고, 해당 문법 구조에 부합되는 문구가 이벤트 정보를 독립적으로 기술할 수 있도록 설정할 수 있다. 따라서, 상기 문구를 추출하는 조작을 수행할 경우, 먼저 기설정된 문법 분석 알고리즘을 기초로 텍스트 표제의 문법 구조에 대해 분석을 수행할 수 있으며, 텍스트 표제에 상기 문법 구조에 부합되는 문구가 존재하는 것으로 해석될 경우, 해당 문구를 텍스트 표제로부터 추출하고, 해당 문구와 텍스트 사이의 관련 관계를 기록한다.

본 출원의 다른 실시예에 따르면, 텍스트 표제에 구두점 및/또는 빈칸이 포함될 경우, 텍스트 표제로부터 구두점 및/또는 빈칸에 의해 분할된 문구를 추출하여, 해당 문구를 이벤트 정보를 독립적으로 기술하는 문구로 할 수 있다. 예를 들어, 문장 표제가 “비트코인 폭락으로 새해 맞이, 드디어 드러난 가격 폭락 원인”일 경우, 해당 표제로부터 추출할 수 있는 문구는 “비트코인 폭락으로 새해 맞이” 및 “드디어 드러난 가격 폭락 원인”이다. 물론, 이는 단지 예시적인 설명일 뿐, 본 출원에 대한 유일한 한정은 아니다.

단계(S13)에서, 추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성한다.

예를 들어, 전술한 텍스트 표제로부터 추출된 문구가 “xx밴드 리드보컬 별세”, “xx밴드 리드보컬, 향년 50세로 별세” 및 “xx밴드 리드보컬, 12월 새 앨범 발표”를 포함하는 것으로 가정한다. 여기서, “xx밴드 리드보컬 별세” 및 “xx밴드 리드보컬, 향년 50세로 별세”는 클러스터링을 거친 후 동일한 클러스터링 군집에 속하며, 문구 “xx밴드 리드보컬 별세”를 포함한 텍스트는 q, w, e를 포함하고, 문구 “xx밴드 리드보컬, 향년 50세로 별세”를 포함한 텍스트는 p, o, i를 포함한다. 이때 텍스트q, w, e, p, o, i는 집결되어 이베트를 형성한다.

본 실시예는 타깃 키워드를 포함한 다수의 텍스트를 획득하고, 해당 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하고, 추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시킴으로써 이벤트를 형성한다. 본 실시예는 타깃 키워드를 포함한 다수의 텍스트를 획득한 이후, 나아가 클러스터링 방법을 이용하여 이벤트를 형성하므로, 키워드가 상대적으로 짧음으로 인하여 이벤트 리콜율이 낮은 문제를 방지하고, 이벤트의 리콜율을 향상시킬 수 있다. 또한, 클러스터링 방법을 이용하여 이벤트를 형성할 경우, 본 실시예는 이벤트 정보를 독립적으로 기술할 수 있는 문구를 기초로 클러스터링을 수행하며, 클러스터링의 기초로서 텍스트 본문을 이용하는 종래기술에 비해, 초대형 클러스터링 군집의 형성을 현저히 방지할 수 있으며, 텍스트 본문에 비해, 문구는 일반적으로 하나의 이벤트만 포함하므로, 본 실시예는 클러스터링 군집의 순도를 향상시켜, 하나의 클러스터링 군집에 하나의 이벤트만 포함되도록 할 수 있다. 다시 말해서, 본 실시예는 이벤트 발견의 정확도를 향상시킬 수 있다.

이하, 첨부된 도면을 결합하여 상기 실시예에 대해 최적화 및 확장한다.

도3은 본 출원의 실시예에서 제공하는 단계(S13)의 수행 방법을 나타내는 흐름도이다. 도3에 도시된 바와 같이, 도1의 실시예의 기초상에서, 해당 방법은 단계(S31) 내지 단계(S34)를 포함한다.

단계(S31)에서, 추출된 각 문구를 상대로, 상기 다수의 텍스트로부터 타깃 텍스트로서 상기 문구를 포함한 텍스트를 획득하여 타깃 텍스트로 한다.

단계(S32)에서, 상기 타깃 텍스트의 특징어를 상기 문구의 특징어로 사용한다.

단계(S33)에서, 각 문구의 특징어를 기초로 각 문구 사이에서 유사도 산출을 수행한다.

단계(S34)에서, 상호간의 유사도가 기설정된 임계값보다 높은 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성한다.

예를 들어, 전술한 실시예의 단계(s11)를 기초로 텍스트(s, d, f, g, j)를 획득하고, 텍스트(s, d, f, g, j)의 표제로부터 추출하여 획득된 문구가 문구(m)과 문구(n)을 포함하되, 여기서, 텍스트(s, d, f, g, j)에 있어서, 텍스트(s, d)는 문구(m)을 포함하고, 텍스트(g, j)는 문구(n)을 포함한다고 가정하면, 문구(m)의 특징어로서 텍스트(s, d)로부터 특징어를 추출하고, 문구(n)의 특징어로서 텍스트(g, j)로부터 특징어를 추출하며, 나아가, 문구(m) 및 문구(n)의 특징어를 기초로 문구(m)와 문구(n) 사이의 유사도을 산출하고, 문구(m)와 문구(n) 사이의 유사도가 기설정된 임계값보다 클 경우, 텍스트(s, d, g, j)를 집결시켜 이벤트를 형성한다. 여기서, 다시 문구가 존재하는 텍스트로부터 특징어를 추출할 경우, 텍스트의 본문 또는 요약으로부터 추출할 수 있으며, 텍스트의 표제로부터 추출할 수도 있으며, 본 실시예는 이에 대해 한정하지 않는다.

나아가, 이벤트를 획득한 이후, 본 실시예는 또한 이벤트와 문구 사이의 관련 관계를 구축할 수 있으며, 사용자가 어느 하나의 이벤트를 검색할 경우, 사용자가 이벤트에 포함된 다수의 텍스트로부터 하나의 텍스트를 선택하여 열독할 수 있도록, 사용자에게 이벤트와 문구 사이의 관련 관계를 표시하거나, 또는, 이벤트 중 어느 하나의 텍스트와 문구 사이의 관련 관계만 표시하며, 사용자가 해당 텍스트를 열독할 경우, 이벤트 중 기타 텍스트의 주소를 추천 링크로서 해당 텍스트에 첨부할 수 있다.

본 실시예는 이벤트 정보를 독립적으로 기술하는 문구를 기초로 클러스터링을 수행하는 것으로서, 텍스트 본문을 클러스터링의 기초로 하는 종래 기술에 비해, 초대형 클러스터링 군집의 형성을 현저히 방지할 수 있으며, 텍스트 본문에 비해, 문구는 일반적으로 하나의 이벤트만 포함하므로, 본 실시예는 클러스터링 군집의 순도를 향상시켜, 하나의 클러스터링 군집에 하나의 이벤트만 포함되도록 할 수 있다. 다시 말해서, 본 실시예는 이벤트 발견의 정확도를 향상시킬 수 있다.

도4는 본 출원의 실시예에서 제공하는 이벤트 발견 장치의 구성을 간략하게 나타낸 도면이다. 도4에 도시된 바와 같이, 본 출원의 일실시예에 따른 이벤트 발견 장치(40)는, 타깃 키워드를 포함한 다수의 텍스트를 획득하기 위한 획득 모듈(41)과, 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하기 위한 문구 마이닝 모듈(42)과, 추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하기 위한 클러스터링 모듈(43)을 포함한다.

일 가능한 설계에 있어서, 상기 획득 모듈(41)은, 타깃 검색 엔진에서 동일한 검색어의 검색 횟수를 모니터링하고, 기설정된 시간 동안에서의 검색 횟수가 기설정된 버스트 임계값을 초과한 키워드를 타깃 키워드로 하는 모니터링 서브 모듈을 포함한다.

일 가능한 설계에 있어서, 상기 장치(40)는, 타깃 검색 엔진의 기설정된 과거 기간 동안에서의, 각 검색어의 검색 횟수 평균값 및 검색 횟수 표준차를 확정하기 위한 제1 확정 모듈과, 각 검색어에 대응되는 검색 횟수 평균값 및 검색 횟수 표준차를 기초로, 각 검색어에 대응되는 버스트 임계값을 확정하기 위한 제2 확정 모듈을 더 포함한다.

일 가능한 설계에 있어서, 상기 문구 마이닝 모듈은, 기설정된 문법 구조를 기초로 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하기 위한 제1 마이닝 서브 모듈을 포함한다.

일 가능한 설계에 있어서, 상기 문구 마이닝 모듈은, 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구로서 구두점 및/또는 빈칸에 의해 분할된 문구를 추출하기 위한 제2 마이닝 서브 모듈을 포함한다.

본 실시예에서 제공하는 이벤트 발견 장치는 도1의 실시예에 따른 기술방안을 수행할 수 있으며, 그 수행 방식과 유익한 효과는 유사하므로, 여기서는 중복되는 설명을 생략하기로 한다.

도5는 본 출원의 실시예에서 제공하는 클러스터링 모듈(43)의 구성을 개략적으로 나타낸 도면이다. 도5에 도시된 바와 같이, 도4의 실시예의 기초상에서, 클러스터링 모듈(43)은, 추출된 각 문구를 상대로, 상기 다수의 텍스트로부터 타깃 텍스트로서 상기 문구를 포함한 텍스트를 획득하기 위한 획득 서브 모듈(431)과, 상기 타깃 텍스트의 특징어를 상기 문구의 특징어로 하는 확정 서브 모듈(432)과, 각 문구의 특징어를 기초로, 각 문구 사이에서 유사도 산출을 수행하기 위한 산출 서브 모듈(433)과, 상호간의 유사도가 기설정된 임계값보다 높은 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하기 위한 이벤트 형성 서브 모듈(434)을 포함한다.

일 가능한 설계에 있어서, 상기 확정 서브 모듈(432)은 구체적으로, 상기 타깃 텍스트의 표제로부터 특징어를 추출하여, 상기 특징어를 상기 문구의 특징어로 한다.

일 가능한 설계에 있어서, 상기 장치(40)는, 이벤트와 문구 사이의 관련 관계를 표시하기 위한 표시 모듈을 더 포함한다.

본 실시예에서 제공하는 이벤트 발견 장치는 도3의 실시예에 따른 기술방안을 수행할 수 있으며, 그 수행 방식과 유익한 효과는 유사하므로, 여기서는 중복되는 설명을 생략하기로 한다.

본 출원의 실시예는 컴퓨터 기기를 더 제공하며, 해당 컴퓨터 기기는, 하나 또는 다수의 프로세서와, 이벤트 중 텍스트 및/또는 이벤트와 문구 사이의 관련 관계를 표시하기 위한 표시 장치와, 하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되, 상기 하나 또는 다수의 프로그램이 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서가 상기 어느 일 실시예에 따른 방법을 구현하도록 한다.

본 출원의 실시예는 컴퓨터 프로그램이 저장되는 컴퓨터 판독 가능한 저장 매체를 더 제공하되, 해당 프로그램은 프로세서에 의해 실행될 경우, 상기 어느 일 실시예에 따른 방법을 구현한다.

본 명세서에서 앞서 설명한 기능은 적어도 부분적으로 하나 또는 다수의 하드웨어 로직 부재에 의해 수행될 수 있다. 예를 들어, 사용 가능한 시범 유형의 하드웨어 로직 부재는 필드 프로그래머블 게이트 어레이(FPGA), 응용 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그래머블 로직 소자(CPLD) 등을 포함하나, 이에 한정되지 않는다.

본 개시된 방법을 실시하기 위한 프로그램 코드는 하나 또는 다수의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서 또는 제어장치에 제공되어, 프로그램 코드가 프로세서 또는 제어장치에 의해 실행될 경우, 흐름도 및/또는 블록도 중 규정된 기능/조작이 실시되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 부분적으로 기계에서 실행되고 부분적으로 원격 기계에서 실행되거나, 또는 완전히 원격 기계 또는 서버에서 실행될 수 있다.

본 개시된 문맥에 있어서, 기계 판독 가능한 매체는 유형한 매체일 수 있으며, 명령 실행 시스템, 장치 또는 기기에서 사용하거나, 명령 실행 시스템, 장치 또는 기기와 결합하여 사용될 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능한 매체는 기계 판독 가능한 신호 매체 또는 기계 판독 가능한 저장 매체일 수 있다. 기계 판독 가능한 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 기계 판독 가능한 저장 매체의 보다 구체적인 예시는 하나 또는 다수의 와이어를 기초로 하는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능한 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 조합을 포함한다.

또한, 각 조작은 특정 순서로 설명되었으나, 이러한 조작이 표시된 특정 순서 또는 순차적 순서에 따라 실행되도록 요구하거나, 원하는 결과를 달성하기 위하여 도시된 모든 조작이 반드시 실행되도록 요구하는 것으로 이해하여서는 아니된다. 일정한 환경에서, 멀티 태스킹 및 병행 처리는 유리할 수 있다. 마찬가지로, 위의 기재에는 여러 구체적인 구현 세부사항이 포함되었으나, 이는 본 개시의 범위를 한정하는 것으로 해석하여서는 아니된다. 별개의 실시예의 문맥에 기재된 일부 특징은 조합되어 단일 구현에 구현될 수 있다. 반대로, 단일 구현의 문맥에 설명된 각종의 특징도 단독으로 또는 임의의 적절한 서브 조합의 방식으로 다수의 구현에 구현될 수 있다.

본원의 주제는 구조적 특징 및/또는 방법 로직 동작에 특정된 언어를 이용하여 설명되었으나, 첨부된 특허 청구 범위에 한정된 주제는 반드시 앞서 설명한 특정의 특징 또는 동작에 한정되는 것은 아님을 이해하여야 한다. 반대로, 앞서 설명한 특정 특징 및 동작은 단지 특허 청구 범위를 실현하는 예시적 형태일 뿐이다.

40 : 이벤트 발견 장치 41 : 획득 모듈
42 : 문구 마이닝 모듈 43 : 클러스터링 모듈
431 : 획득 서브 모듈 432 : 확정 서브 모듈
433 : 산출 서브 모듈 434 : 이벤트 형성 서브 모듈

Claims

타깃 키워드를 포함한 다수의 텍스트를 획득하는 단계와;
상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하는 단계와;
추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하는 단계를 포함하는 것을 특징으로 하는 이벤트 발견 방법.
제1항에 있어서,
상기 타깃 키워드를 포함한 다수의 텍스트를 획득하는 단계는,
타깃 검색 엔진에서의 동일한 검색어의 검색 횟수를 모니터링하고, 기설정된 시간 동안에서의 검색 횟수가 기설정된 버스트 임계값을 초과한 키워드를 타깃 키워드로 하는 단계를 포함하는 것을 특징으로 하는 이벤트 발견 방법.
제2항에 있어서, 상기 이벤트 발견 방법은
상기 타깃 검색 엔진에서의 동일한 검색어의 검색 횟수를 모니터링하고, 기설정된 시간 동안에서의 검색 횟수가 기설정된 버스트 임계값을 초과한 키워드를 타깃 키워드로 하는 단계 이전에,
타깃 검색 엔진의 기설정된 과거 시간 동안에서의 각 검색어의 검색 횟수 평균값 및 검색 횟수 표준차를 확정하는 단계와;
각 검색어에 대응되는 검색 횟수 평균값 및 검색 횟수 표준차를 기초로, 각 검색어에 대응되는 버스트 임계값을 확정하는 단계를 더 포함하는 것을 특징으로 하는 이벤트 발견 방법.
제1항에 있어서,
상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하는 단계는,
기설정된 문법 구조를 기초로, 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하는 단계를 포함하는 것을 특징으로 하는 이벤트 발견 방법.
제1항에 있어서,
상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하는 단계는,
상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구로서 구두점 및 빈칸 중 적어도 하나 이상에 의해 분할된 문구를 추출하는 단계를 포함하는 것을 특징으로 하는 이벤트 발견 방법.
제1항에 있어서,
상기 추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하는 단계는,
추출된 각 문구를 상대로, 상기 다수의 텍스트로부터 상기 문구를 포함하는 텍스트를 획득하여 타깃 텍스트로 하는 단계와;
상기 타깃 텍스트의 특징어를 상기 문구의 특징어로 하는 단계와;
각 문구의 특징어를 기초로, 각 문구 사이에서 유사도 산출을 수행하는 단계와;
상호간의 유사도가 기설정된 임계값보다 높은 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하는 단계를 포함하는 것을 특징으로 하는 이벤트 발견 방법.
제6항에 있어서,
상기 타깃 텍스트의 특징어를 상기 문구의 특징어로 하는 단계는,
상기 타깃 텍스트의 표제로부터 특징어를 추출하여, 상기 특징어를 상기 문구의 특징어로 하는 단계를 포함하는 것을 특징으로 하는 이벤트 발견 방법.
제1항에 있어서,
이벤트를 형성한 후, 상기 방법은,
이벤트와 문구 사이의 관련 관계를 표시하는 단계를 더 포함하는 것을 특징으로 하는 이벤트 발견 방법.
타깃 키워드를 포함한 다수의 텍스트를 획득하기 위한 획득 모듈과;
상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하기 위한 문구 마이닝 모듈과;
추출된 문구에 대해 클러스터링을 수행하여, 동일한 클러스터링 군집에 속하는 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하기 위한 클러스터링 모듈을 포함하는 것을 특징으로 하는 이벤트 발견 장치.
제9항에 있어서,
상기 획득 모듈은,
타깃 검색 엔진에서의 동일한 검색어의 검색 횟수를 모니터링하고, 기설정된 시간 동안에서의 검색 횟수가 기설정된 버스트 임계값을 초과한 키워드를 타깃 키워드로 하기 위한 모니터링 서브 모듈을 포함하는 것을 특징으로 하는 이벤트 발견 장치.
제10항에 있어서,
상기 이벤트 발견 장치는,
타깃 검색 엔진의 기설정된 과거 시간 동안에서의 각 검색어의 검색 횟수 평균값 및 검색 횟수 표준차를 확정하기 위한 제1 확정 모듈과;
각 검색어에 대응되는 검색 횟수 평균값 및 검색 횟수 표준차를 기초로, 각 검색어에 대응되는 버스트 임계값을 확정하기 위한 제2 확정 모듈을 더 포함하는 것을 특징으로 하는 이벤트 발견 장치.
제9항에 있어서,
상기 문구 마이닝 모듈은,
기설정된 문법 구조를 기초로, 상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구를 추출하기 위한 제1 마이닝 서브 모듈을 포함하는 것을 특징으로 하는 이벤트 발견 장치.
제9항에 있어서,
상기 문구 마이닝 모듈은,
상기 다수의 텍스트의 표제로부터 이벤트 정보를 독립적으로 기술하는 문구로서 구두점 및 빈칸 중 적어도 하나 이상에 의해 분할된 문구를 추출하기 위한 제2 마이닝 서브 모듈을 포함하는 것을 특징으로 하는 이벤트 발견 장치.
제9항에 있어서,
상기 클러스터링 모듈은,
추출된 각 문구를 상대로, 상기 다수의 텍스트로부터 상기 문구를 포함한 텍스트를 획득하여 타깃 텍스트로 하기 위한 획득 서브 모듈과;
상기 타깃 텍스트의 특징어를 상기 문구의 특징어로 하기 위한 확정 서브 모듈과;
각 문구의 특징어를 기초로, 각 문구 사이에서 유사도 산출을 수행하기 위한 산출 서브 모듈과;
상호간의 유사도가 기설정된 임계값보다 높은 문구가 존재하는 텍스트를 집결시켜 이벤트를 형성하기 위한 이벤트 형성 서브 모듈을 포함하는 것을 특징으로 하는 이벤트 발견 장치.
제14항에 있어서,
상기 확정 서브 모듈은 구체적으로,
상기 타깃 텍스트의 표제로부터 특징어를 추출하고, 상기 특징어를 상기 문구의 특징어로 하기 위해 사용되는 것을 특징으로 하는 이벤트 발견 장치.
제9항 내지 제15항 중 어느 한 항에 있어서,
이벤트와 문구 사이의 관련 관계를 표시하기 위한 표시 모듈을 더 포함하는 것을 특징으로 하는 이벤트 발견 장치.
하나 또는 다수의 프로세서와;
이벤트 중 텍스트 및 이벤트와 문구 사이의 관련 관계 중 적어도 하나 이상을 표시하기 위한 표시 장치와;
하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되,
상기 하나 또는 다수의 프로그램은 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 실현하도록 하는 것을 특징으로 하는 컴퓨터 기기.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체에 있어서,
상기 프로그램은 프로세서에 의해 실행될 경우, 제1항 내지 제8항 중 어느 한 항에 방법을 실현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.