KR20220024251A - 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체 - Google Patents

이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체 Download PDF

Info

Publication number
KR20220024251A
KR20220024251A KR1020220014482A KR20220014482A KR20220024251A KR 20220024251 A KR20220024251 A KR 20220024251A KR 1020220014482 A KR1020220014482 A KR 1020220014482A KR 20220014482 A KR20220014482 A KR 20220014482A KR 20220024251 A KR20220024251 A KR 20220024251A
Authority
KR
South Korea
Prior art keywords
event
name
library
extracted
text data
Prior art date
Application number
KR1020220014482A
Other languages
English (en)
Inventor
쓰치 쑤
후이치앙 종
치앙 황
저청 주오
첸후이 리우
허우치엔 저우
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220024251A publication Critical patent/KR20220024251A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 개시는 이벤트 라이브러리를 구축하는 방법 및 장치를 제공하는 바, 딥러닝, 자연어 처리, 빅데이터 등의 기술분야에 관한 것이다. 구체적인 구현방안은 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하고, 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하고, 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하고, 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하고, 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가하는 것이다. 해당 실시방식은 이벤트 라이브러리를 구축하는 과정에서의 정보의 무결성을 향상한다.

Description

이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체{METHOD AND APPARATUS FOR BUILDING EVENT LIBRARY, ELECTRONIC DEVICE, AND COMPUTER-READABLE MEDIUM}
본 개시는 데이터 처리 기술분야에 관한 것으로, 구체적으로 딥러닝, 자연어 처리, 빅데이터 등의 기술분야에 관한 것이고, 특히 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 컴퓨터 판독가능 매체 및 매체에 저장된 컴퓨터 프로그램에 관한 것이다.
종래 기술에서 뉴스 이벤트의 이벤트 이름을 라이브러리에 귀속시키는 방법은, 일반적으로 뉴스 타이틀을 복수의 문장으로 분할하고 다음, 각각 문장이 이벤트 이름인지 여부를 판단하고, 이벤트 이름인 서브문장이 존재하는 경우, 해당 이벤트 이름을 이벤트 라이브러리에서 기존과 매칭시키고, 이벤트 라이브러리에서 매칭되지 못한 경우, 해당 이벤트 이름을 이벤트 라이브러리로 귀속시킨다. 해당 방법은 본래 두 개의 문자/어구로 구성된 이벤트 이름을 분할하여 당초에 이벤트로 분류되어야 했을 뉴스가 간과되게 할 수 있으므로, 이벤트의 전면성이 보장될 수 없게 되고, 이러한 단편적인 이벤트 이름은 이벤트 라이브러리 내의 이벤트 이름에 매칭되는 경우, 단편적인 이벤트만 매칭될 수 있고 완전한 이벤트 이름에 매칭되지 못한다.
이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 컴퓨터 판독가능 매체 및 매체에 저장된 컴퓨터 프로그램이 제공된다.
제1 방면에 있어서, 이벤트 라이브러리를 구축하는 방법을 제공하는 바, 해당 방법은 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하는 단계; 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하는 단계; 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하는 단계; 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하는 단계; 및 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가하는 단계를 포함한다.
제2 방면에 있어서, 이벤트 라이브러리를 구축하는 장치를 제공하는 바, 해당 장치는 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하도록 구성된 취득 유닛; 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하도록 구성된 추출 유닛; 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하도록 구성된 매칭 유닛; 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하도록 구성된 검출 유닛; 및 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가하도록 구성된 추가 유닛을 포함한다.
제3 방면에 있어서, 전자 기기를 제공하는 바, 해당 전자 기기는 적어도 하나의 프로세서; 및 적어도 하나의 프로세서에 통신적으로 연결되는 메모리를 포함한다. 여기서, 메모리에는 적어도 하나의 프로세서에 의해 실행가능한 명령어가 저장되어 있고, 명령어는 적어도 하나의 프로세서에 의해 실행되어 적어도 하나의 프로세서가 제1 방면의 어느 한 구현방식에 따른 방법을 수행할 수 있도록 한다.
제4 방면에 있어서, 컴퓨터 명령어가 저장되어 있는 비일시적 컴퓨터 판독가능 저장매체를 제공하는 바, 컴퓨터 명령어는 컴퓨터가 제1 방면의 어느 한 구현방식에 따른 방법을 수행하도록 한다.
제5 방면에 있어서, 매체에 저장된 컴퓨터 프로그램을 제공하는 바, 컴퓨터 프로그램은 프로세서에 의해 실행되는 경우, 제1 방면의 어느 한 구현방식에 따른 방법을 구현한다.
본 개시의 실시예에 의해 제공되는 이벤트 라이브러리를 구축하는 방법 및 장치는, 우선, 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하고 다음, 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하고 그 다음, 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하고 이어, 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하고 마지막으로, 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가한다. 이로써, 이벤트 라이브러리의 이벤트 이름을 구축할 시, 텍스트 라이브러리로부터 리콜 이벤트를 획득하여 정규화 판단을 수행하고 추출된 이벤트 이름과 텍스트 라이브러리 내 정보의 대응을 종합적으로 고려하는 바, 이벤트 라이브러리 구축의 전면성과 정확성을 향상한다.
여기서 기술되는 내용은 본 개시의 실시예의 핵심적이거나 중요한 특징을 표기하고자 하는게 아니며 본 개시의 범위를 한정하고자 하는 것도 아님을 이해하여야 한다. 본 개시의 다른 특징은 하기 발명의 설명에 의해 이해하기 수월해질 것이다.
첨부도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 개시를 한정하지 않는다.
도 1은 본 개시에 따른 이벤트 라이브러리를 구축하는 방법의 일 실시예의 흐름도이다.
도 2는 본 개시에 따른 이벤트 라이브러리를 구축하는 방법의 다른 실시예의 흐름도이다.
도 3은 본 개시의 실시예의 리콜 이벤트를 획득하는 방법의 흐름도이다.
도 4는 본 개시의 실시예의 추출 이벤트 이름을 획득하는 방법의 흐름도이다.
도 5는 본 개시에 따른 이벤트 라이브러리를 구축하는 장치의 실시예의 구조 개략도이다.
도 6은 본 개시의 실시예의 이벤트 라이브러리를 구축하는 방법을 구현하기 위한 전자 기기의 블록도이다.
첨부도면을 결부하여 본 개시의 시범적 실시예에 대하여 설명하는 바, 여기에는 이해를 돕고자 본 개시의 실시예의 여러가지 세부사항이 포함되며, 이러한 부분은 단지 시범적인 것으로 간주되어야 한다. 따라서, 당업자라면 본 개시의 범위와 사상에서 벗어나지 않으면서 여기서 기술하는 실시예에 대한 여러 가지 변경과 수정이 가능하다는 점을 인지하여야 한다. 마찬가지로, 명확함과 간결함을 위해 하기 기술에 있어서 공지된 기능과 구조에 대한 기술(記述)은 생략된다.
도 1은 본 개시에 따른 이벤트 라이브러리를 구축하는 방법의 일 실시예의 흐름(100)을 도시하고, 상술한 이벤트 라이브러리를 구축하는 방법은 하기와 같은 단계를 포함한다.
단계(101)에서, 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득한다.
본 실시예에 있어서, 이벤트 텍스트 데이터는 적어도 한 가지 이벤트의 텍스트 데이터에 관련되고, 해당 이벤트 텍스트 데이터는 서로 다른 텍스트 컨텐츠에 기반하여 서로 다른 표현 형식을 가질 수 있는 바, 예를 들면, 텍스트 컨텐츠는 전기적 이야기, 이벤트적인 뉴스 등을 포함하고, 이벤트 텍스트 데이터가 이벤트 뉴스인 경우, 이벤트 텍스트 데이터는 타이틀, 개요, 머리말, 본론, 배경 및 맺음말 등을 포함한다.
본 실시예에 있어서, 이벤트 라이브러리를 구축하는 방법이 실행되는 수행주체는 다양한 수단으로 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득할 수 있는 바, 예를 들면, 클라이언트 단말기로부터 실시간으로 이벤트 텍스트 데이터를 취득하거나 데이터베이스로부터 사전저장된 이벤트 텍스트 데이터를 취득할 수 있다.
단계(102)에서, 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득한다.
본 실시예에 있어서, 추출 이벤트 이름은 이벤트 텍스트 데이터의 핵심 컨텐츠를 추출함으로써 획득되는, 전체 본론 텍스트 데이터 내의 정보를 총괄할 수 있는 구절 또는 문장일 수 있고, 해당 추출 이벤트 이름에 의해 이벤트 텍스트 데이터를 개괄할 수 있다. 나아가 추출 이벤트 이름이 획득되는 경우, 템플릿에 기반하여 이벤트 텍스트 데이터에 대해 이벤트 이름을 추출할 수 있는 바, 예를 들면, 템플릿은 명사-동사-명사이다.
본 실시예에 있어서, 텍스트 라이브러리와 이벤트 라이브러리, 두 개의 라이브러리가 사전설정되어 있다. 여기서, 텍스트 라이브러리는 이벤트 텍스트 데이터 및 이벤트 텍스트 데이터에 관련되는 컨텐츠를 저장하기 위한 것이다. 해당 이벤트 텍스트 데이터에 관련되는 컨텐츠는 이벤트 텍스트 ID, 추출 이벤트 이름, 이벤트를 포함하고, 여기서 하나의 이벤트 텍스트 데이터는 하나의 이벤트 텍스트 ID를 가지고, 하나의 이벤트 텍스트 데이터는 하나의 추출 이벤트 이름에 대응되고, 하나 또는 복수의 이벤트 텍스트 데이터는 하나의 이벤트에 대응되고 해당 대응되는 이벤트는 이벤트 라이브러리 내에서 대응되는 이벤트 이름을 가진다. 텍스트 라이브러리는 이벤트 라이브러리와 매핑 관계를 가지고, 텍스트 라이브러리는 이벤트 라이브러리와 이벤트를 통해 일체로 연계되는 바, 여기서 텍스트 라이브러리 내의 이벤트는 이벤트 라이브러리 내의 이벤트 이름 및 이벤트 이름 ID에 대응되는 것을 설명하여야 한다. 텍스트 라이브러리와 이벤트 라이브러리는 모두 검색 서비스를 제공할 수 있는 ES(ElasticSearch의 약칭임, ElasticSearch는 분산 전문검색 프레임워크임)를 데이터로 사용하여 저장할 수 있다.
이벤트 라이브러리와 텍스트 라이브러리는 서로 다른 이벤트 및 서로 다른 이벤트에 관련되는 이벤트 컨텐츠를 저장하도록 사용되고, 해당 서로 다른 이벤트에 관련되는 이벤트 컨텐츠는 이벤트 ID, 추출 이벤트 이름, 이벤트 ID에 대응되는 이벤트 이름(유일성을 가짐)을 포함하는 바, 여기서 하나의 이벤트는 하나의 이벤트 ID를 가지고, 하나의 본론 ID는 하나의 이벤트 이름에 대응되고, 하나의 이벤트는 하나 또는 복수의 추출 이벤트 이름에 대응된다.
본 실시예에 있어서, 텍스트 라이브러리는 이벤트의 텍스트 입도(granularity)이고, 각 이벤트의 텍스트 컨텐츠를 상세히 기재한다. 이벤트 라이브러리는 이벤트의 이벤트 입도이고, 각 이벤트의 이벤트 이름 및 각 이벤트 이름에 대응되는 이벤트 텍스트 데이터에서 추출 획득된 추출 이벤트 이름을 상세히 기재한다.
선택적으로, 텍스트 라이브러리 및 이벤트 라이브러리는 이벤트 개체 및 시간 등 요소를 더 포함할 수 있고, 이벤트 개체는, 예를 들면, 인물, 지점, 기구 등을 포함하고, 추출된 이벤트 개체는 텍스트 라이브러리 내 대응되는 이벤트에 보충되고, 이벤트 개체는 온라인 서비스의 수요에 따라 추가될 수 있다. 이벤트 개체 및 시간 등 요소를 텍스트 라이브러리 및 이벤트 라이브러리 중 이벤트의 관련 정보로 한다. 예를 들면 이벤트의 시작/종료 시간, 이벤트에 관련되는 이벤트 개체 등이 있다. 이러한 요소 정보는 후속의, 이벤트 라이브러리에 기반하는 이벤트 분석에 전면적인 도움을 제공함으로써 사용자가 해당 이벤트를 더 명확하게 인지하도록 하거나 또는 이벤트 검색 시 선별 조건으로서 이벤트에 대해 선별 검색을 수행할 수 있도록 한다.
단계(103)에서, 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득한다.
본 실시예에 있어서, 기설정된 텍스트 라이브러리는 위에서 언급된 텍스트 라이브러리이고, 해당 텍스트 라이브러리는 라이브러리에 귀속된 복수의 이벤트 텍스트 데이터를 저장하도록 사용되고, 라이브러리에 귀속된 각각 이벤트 텍스트 데이터는 하나의 이벤트 텍스트 ID, 하나의 추출 이벤트 이름, 및 하나의 이벤트에 대응된다. 여기서 이벤트는 추출 이벤트 이름과 같을 수도 있고 추출 이벤트 이름과 다를 수도 있다.
본 실시예에 있어서, 텍스트 라이브러리 내 이벤트 정보는 텍스트 라이브러리에 저장된 라이브러리에 귀속된 복수의 이벤트 텍스트 데이터 관련 정보이고 복수의 이벤트 텍스트 데이터 관련 정보는 각 이벤트 텍스트 데이터 각각의 추출 이벤트 이름, 각 이벤트 텍스트 데이터에 대응되는 이벤트(이벤트 ID, 이벤트 ID에 대응되는 이벤트 이름 등)를 포함할 수 있고, 예를 들면, 해당 관련 정보는 라이브러리에 귀속된 이벤트 텍스트 데이터의 추출 이벤트 이름이고 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 텍스트 라이브러리 내 라이브러리에 귀속된 이벤트 텍스트 데이터의 추출 이벤트 이름에 매칭시켜, 매칭이 성공하는 경우, 매칭되는 추출 이벤트 이름에 대응되는 라이브러리에 귀속된 이벤트 텍스트 데이터가 리콜 이벤트이다. 리콜 이벤트는 하나일 수도 있고 복수일 수도 있다.
단계(104)에서, 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출한다.
본 실시예에 있어서, 정규화 조건은 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름이 리콜 이벤트의 추출 이벤트 이름과 일체로 귀속될 수 있는지 여부를 테스트하는 조건이고, 해당 조건은 하나의 지표나 또는 하나의 훈련이 완성된 정규 판별 모델일 수 있다. 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름과 리콜 이벤트의 추출 이벤트 이름이 해당 지표에 부합되는 경우, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름이 정규화 조건에 부합된다고 결정한다. 또는, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름과 리콜 이벤트의 추출 이벤트 이름이 모두 해당 정규 판별 모델에 입력되면, 출력은 추출 이벤트 이름과 리콜 이벤트의 추출 이벤트 이름이 하나의 이벤트로 귀속될 수 있는지 여부에 대한 신뢰도이고, 신뢰도가 기설정된 역치보다 높은 경우, 추출 이벤트 이름이 정규화 조건에 부합된다고 결정한다.
정규 판별 모델은 딥러닝 분류 모델을 적용하고, 훈련 샘플은 <두 개의 이벤트 이름으로 구성되는 이벤트 이름 쌍, 태그(0, 1)>이다. 신뢰도가 기설정된 역치보다 높은 경우 리콜 이벤트 뉴스가 귀속되는 이벤트를 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 귀속 이벤트로 할 수 있다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 이벤트 라이브러리에는 리콜 이벤트의 이벤트 이름과 추출 이벤트 이름이 저장되어 있고, 상술한 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하는 단계는, 이벤트 라이브러리로부터 리콜 이벤트의 이벤트 이름을 취득하는 단계; 리콜 이벤트의 이벤트 이름과 추출 이벤트 이름을 정규 판별 모델에 입력하여 추출 이벤트 이름이 리콜 이벤트의 이벤트 이름에 속하는 리콜 확률을 획득하는 단계; 리콜 확률이 리콜 역치보다 큰 것에 응답하여 리콜 이벤트의 추출 이벤트 이름과 추출 이벤트 이름을 정규 판별 모델에 입력하여 추출 이벤트 이름이 리콜 이벤트의 이벤트 이름에 속하는 정규 확률을 획득하는 단계; 및 정규 확률이 리콜 역치보다 큰 것에 응답하여 추출 이벤트 이름이 정규화 조건에 부합된다고 결정하는 단계를 포함한다.
본 선택 가능한 구현방식에 있어서, 리콜 역치는 구성가능한 값이고, 나아가 구성 수요에 기반하여 리콜 역치에 대해 구체 값 설정을 수행할 수 있다.
본 선택 가능한 구현방식에 있어서, 리콜 이벤트의 이벤트 이름 및 리콜 이벤트의 추출 이벤트 이름과 두 차례의 정규화 판별을 수행함으로써 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름의 정규화 조건에 대한 판단의 신뢰성을 향상한다.
단계(105)에서, 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가한다.
본 실시예에 있어서, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름이 정규화 조건에 부합되지 않을 경우, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름이 기존의 이벤트 이름에 귀속될 수 없다고 결정되는 바, 이벤트 라이브러리에서 신규한 이벤트 이름을 형성하여야 하고 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 텍스트 라이브러리에 저장할 시, 텍스트 라이브러리에는 신규한 이벤트 텍스트 ID가 형성되어야 하고 해당 신규한 이벤트 텍스트 ID는 해당 신규한 이벤트 이름에 대응된다.
본 개시의 실시예에 의해 제공되는 이벤트 라이브러리를 구축하는 방법은 우선, 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하고 다음, 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하고 그 다음, 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하고 이어, 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하고 마지막으로, 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가한다. 이로써, 이벤트 라이브러리의 이벤트 이름을 구축할 시, 텍스트 라이브러리로부터 리콜 이벤트를 획득하여 정규화 판단을 수행하고, 추출된 이벤트 이름과 텍스트 라이브러리 내 정보의 대응을 종합적으로 고려하는 바, 이벤트 라이브러리 구축의 전면성과 정확성을 향상한다.
도 2는 본 개시에 따른 이벤트 라이브러리를 구축하는 방법의 다른 실시예의 흐름도(200)를 도시하고, 상술한 이벤트 라이브러리를 구축하는 방법은 하기와 같은 단계를 포함한다.
단계(201)에서, 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득한다.
단계(202)에서, 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득한다.
단계(203)에서, 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득한다.
단계(204)에서, 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하고, 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 경우 단계(205)를 수행한다.
본 실시예의 하나의 선택 가능한 구현방식에 있어서, 추출 이벤트 이름이 정규화 조건에 부합되는 것을 검출하는 경우, 추출 이벤트 이름을 이벤트 라이브러리 내 리콜 이벤트에 대응되는 이벤트 이름 아래 귀속시키고, 이벤트 텍스트 데이터를 텍스트 라이브러리의 리콜 이벤트 아래 귀속시킨다.
본 선택 가능한 구현방식에 있어서, 과거 이벤트에 귀속된 이벤트 텍스트 데이터는 과거 이벤트의 이벤트 ID와 해당 이벤트 ID에 대응되는 이벤트 이름을 저장한다.
본 선택 가능한 구현방식에 있어서, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름이 정규화 조건에 부합되는 경우, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름이 기존의 이벤트 이름에 귀속될 수 있다고, 즉 이벤트 라이브러리의 기존의 이벤트 이름(리콜 이벤트에 대응되는 이벤트 이름 아래)에 귀속될 수 있다고 결정하고, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 텍스트 라이브러리에 저장할 시, 텍스트 라이브러리는 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터에 리콜 이벤트에 대응되는 이벤트 텍스트 ID를 부여하고, 해당 신규한 이벤트 텍스트 ID는 리콜 이벤트의 이벤트 이름에 대응된다.
본 선택 가능한 구현방식에 있어서, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름이 정규화 조건에 부합되는 경우, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름을 이벤트 라이브러리의 기존의 이벤트 이름 아래 귀속시키는 바, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름의 정규화 효과를 향상하고 이벤트 라이브러리 분류의 유효성을 보장한다.
단계(205)에서, 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가한다.
상술한 단계(201) 내지 단계(205)에서의 조작 및 특징은 각각 단계(101) 내지 단계(105)에서의 조작 및 특징에 대응된다는 것을 이해하여야 하며, 따라서 상술한 단계(101) 내지 단계(105)에서의 조작 및 특징에 대한 기술은 단계(201) 내지 단계(205)에 마찬가지로 적용되는 바, 이에 대한 상세한 설명은 생략하기로 한다.
본 실시예에 있어서, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터는 하나 또는 복수일 수 있고, 각 라이브러리에 귀속하고자 하는 본론 텍스트 데이터는 하나의 추출 이벤트 이름에 대응되고, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터가 하나인 경우, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름은 획득된 이벤트 라이브러리의 신규한 이벤트 이름일 수 있다. 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터가 복수인 경우, 복수의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름에 대해 정규화 처리를 수행할 수 있고, 마지막으로 복수의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터에 대응되는 가장 적합한 신규한 이벤트 이름을 획득한다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 이벤트 텍스트 데이터가 복수인 경우, 각 이벤트 텍스트 데이터는 하나의 추출 이벤트 이름에 대응되고 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하는 단계는, 복수의 이벤트 텍스트 데이터 중 임의 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름 간의 유사도를 계산하는 단계; 유사도가 유사도 역치보다 큰 두 개의 이벤트 텍스트 데이터에 대해 해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름의 정규 확률을 계산하는 단계; 해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름의 정규 확률이 정규 역치보다 큰 것에 응답하여 해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름을 일체로 병합하여 이벤트 클러스터를 획득하는 단계; 및 모든 이벤트 클러스터에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하는 단계를 포함한다.
본 선택 가능한 구현방식에 있어서, 유클리디안 거리 공식을 채용하여 복수의 이벤트 텍스트 데이터 중 임의 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름 간의 유사도를 계산할 수 있고, 유사도 역치는 서로 다른 이벤트 텍스트 데이터에 따라 서로 다른 값으로 설정될 수 있는 바, 예를 들면, 유사도 역치는 95%이다.
실제 예를 들면 하기한 바와 같으며, a, b, c는 세 가지 서로 다른 이벤트 텍스트 데이터이고, 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름 간의 정규 확률에 따라 내림차순으로 정렬하면, 정렬한 후의 결과가 ac, bd, ab이다. 우선, a, c가 하나로 귀속될 수 있다면 a와 c가 하나의 이벤트 클러스터 ac를 형성하고, bd가 하나로 귀속될 수 있다면 b와 d가 하나의 이벤트 클러스터 bd를 형성하는 바, 계속하여 ab를 처리하는 경우, 이때 a와 b는 이미 서로 다른 클러스터에 소속되어 있다. 두 개의 이벤트 텍스트 데이터 a, b가 하나로 귀속될 수 있다고 판단되고, 두 개의 이벤트 텍스트 데이터 a, b가 이전에 이미 서로 다른 클러스터 ac 및 bd에 귀속된 경우, 이때 a 및 b가 소속되는 두 개의 클러스터 내의 모든 뉴스가 두 개씩마다 모두 하나로 귀속될 수 있는지 여부를 판단하여, 그러한 경우, ac, bd 두 개의 클러스터를 병합하고 아닌 경우, a 및 b는 하나로 귀속될 수 없다고 판단한다.
본 선택 가능한 구현방식에 있어서, 모든 이벤트 클러스터에 기반하여 획득된 이벤트 라이브러리의 신규한 이벤트 이름은 이벤트 클러스터 내 모든 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름 중의 하나의 추출 이벤트 이름일 수 있고, 또는 가장 이른 이벤트 텍스트 데이터에 대응되는 이벤트 이름을 선택하여 전체 이벤트 클러스터의 이벤트 이름으로 하거나 또는 출현 횟수가 가장 많은 이벤트 이름을 선택하여 전체 이벤트 클러스터의 이벤트 이름으로 할 수 있다.
이벤트 라이브러리에서 이벤트 라이브러리의 신규한 이벤트 이름이 획득된 후 상응하게 신규한 이벤트 ID를 생성하기도 하는 것을 설명하여야 한다.
본 선택 가능한 구현방식에 있어서, 복수의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터가 정규화 조건에 부합되지 않을 경우, 복수의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름에 기반하여 복수의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터에 대하여 유사성 및 정규성 판단을 수행하는 바, 복수의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 이벤트 라이브러리에 귀속하는 통합화의 효과를 보장한다.
단계(206)에서, 이벤트 텍스트 데이터 내의 개체를 추출하여 이벤트 개체를 획득한다.
본 실시예에 있어서, 이벤트 개체는 인물, 지점, 기구 등을 포함할 수 있고 LAC(Lexical Analysis of Chinese, 복합적 어휘 분석 모델)에 의해 이벤트 텍스트 데이터 내의 개체를 추출하여 이벤트 개체를 획득할 수 있고, LAC는 중국어 토큰화, 품사 주석, 개체명 인식 태스크를 전체적으로 완성할 수 있다.
본 실시예에 있어서, 이벤트 개체가 획득된 후, 이벤트 개체를 이벤트 라이브러리의 각 이벤트 개체에 대응되는 이벤트 ID 아래에 각각 저장할 수 있는 바, 이로써 각 이벤트를 검색할 시, 이벤트 개체에 의해 이벤트 라이브러리의 컨텐츠를 효과적으로 검색할 수 있다.
선택적으로, 이벤트 개체가 획득된 후, 이벤트 개체를 텍스트 라이브러리의 각 이벤트 텍스트 데이터에 대응되는 이벤트 텍스트 ID 아래에 각각 저장할 수 있는 바, 각 이벤트 텍스트를 검색하는 경우, 이벤트 개체에 의해 텍스트 라이브러리의 컨텐츠를 효과적으로 검색할 수 있다.
단계(207)에서, 텍스트 검색 요청을 수신한다.
본 실시예에 있어서, 텍스트 검색 요청은 텍스트 라이브러리 내 데이터에 대한 검색 요청이고, 해당 텍스트 검색 요청은 검색 키워드, 검색 범위 등의 컨텐츠를 포함할 수 있고, 검색 키워드를 통해 텍스트 라이브러리 내의 검색 키워드와 같거나 또는 관련되는 컨텐츠를 쿼리할 수 있고, 검색 범위에 의해 서치하는 컨텐츠에 대해 서치할 영역을 결정할 수 있다.
단계(208)에서, 텍스트 검색 요청 및 이벤트 개체에 기반하여 텍스트 라이브러리 내의 이벤트에 대해 검색을 수행하여 검색 결과를 획득한다.
본 실시예에 있어서, 상술한 텍스트 검색 요청 및 이벤트 개체에 기반하여 텍스트 라이브러리 내의 이벤트에 대해 검색을 수행하여 검색 결과를 획득하는 단계는,
이벤트 개체 및 텍스트 검색 요청에 기반하여 텍스트 라이브러리 내의 이벤트를 정렬하여 정렬된 이벤트를 표시하는 단계; 또는/및 이벤트 개체 및 텍스트 검색 요청에 기반하여 텍스트 라이브러리 내의 이벤트를 선별하여 선별된 이벤트를 표시하는 단계를 포함할 수 있다.
본 실시예에 있어서, 검색 요청은 검색 키워드와 검색 범위를 포함할 수 있고, 검색 키워드에 의해 이벤트 개체로부터 키워드와 같거나 관련되는 단어를 선택하고, 검색 범위 내에서 검색을 수행할 수 있다. 예를 들면, 이벤트 개체가 XXX사람이고, 키워드가 "시간 범위 내의 인물"이고, 검색 범위가 2020년 5월 내지 2020년 7월인 경우, 검색 결과는 2020년 5월 내지 2020년 7월 사이에 "XXX사람"과 관련되는 이벤트이다. 또 예를 들면, 이벤트 개체가 신발을 포함하고 키워드가 "신발"이고 검색 범위가 전체 텍스트 라이브러리로 기본설정된 경우, 전체 텍스트 라이브러리 내의 "신발"에 관련되는 이벤트를 표시한다.
선택적으로, 본 실시예에 의해 제공되는 방법은, 이벤트 검색 요청을 수신하고, 이벤트 개체 및 이벤트 검색 요청에 기반하여 이벤트 라이브러리 내의 이벤트에 대해 검색을 수행하여 이벤트에 대한 검색 결과를 획득하는 단계를 더 포함할 수 있다.
본 실시예에 의해 제공되는 이벤트 라이브러리를 구축하는 방법은 이벤트 텍스트 데이터 내 개체를 추출하여 이벤트 개체를 획득하고, 검색 요청이 수신되는 경우, 이벤트 개체 및 검색 요청에 기반하여 텍스트 라이브러리 내의 이벤트에 대해 검색을 수행하는 바, 검색의 신뢰성 및 효율을 향상한다.
본 실시예에 있어서, 텍스트 라이브러리 내의 이벤트 정보의 서로 다른 필드에 대해 서로 다른 가중치를 설정할 수 있고, 각 필드의 가중치에 의해 텍스트 라이브러리 내 각 이벤트와 추출 이벤트 이름의 매칭 점수 값을 획득할 수 있는 바, 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하는 단계는 추출 이벤트 이름을 텍스트 라이브러리 내 각 이벤트의 이벤트 필드에 매칭시키는 단계; 추출 이벤트 이름이 텍스트 라이브러리 내 적어도 하나의 이벤트 필드에 매칭되는 것에 응답하여, 매칭되는 이벤트의 필드의 가중치에 기반하여 추출 이벤트 이름에 매칭되는 이벤트의 매칭 점수 값을 결정하는 단계; 매칭 점수 값에 기반하여 모든 이벤트에 대해 내림차순의 정렬을 수행하여 이벤트 시퀀스를 획득하는 단계; 추출 이벤트 이름의 시맨틱 벡터 및 이벤트 시퀀스 내 각 이벤트의 시맨틱 벡터를 각각 취득하는 단계; 및 이벤트 시퀀스에서 추출 이벤트 이름과의 시맨틱 벡터 유사도가 유사도 역치보다 큰 이벤트를 선택하여 리콜 이벤트로 하는 단계를 포함한다.
도 3은 본 개시의 실시예의 리콜 이벤트를 획득하는 방법의 흐름도(300)를 도시하고, 상술한 리콜 이벤트를 획득하는 방법은 하기와 같은 단계를 포함한다.
단계(301)에서, 추출 이벤트 이름을 텍스트 라이브러리 내 각 이벤트의 이벤트 필드에 매칭시킨다.
본 실시예에 있어서, 텍스트 라이브러리는 복수의 이벤트 텍스트 데이터를 포함하고, 각각 이벤트 텍스트 데이터는 하나의 이벤트에 대응되고 각각 이벤트 텍스트 데이터는 복수의 이벤트 필드를 더 포함하고, 텍스트 라이브러리 내 각 이벤트의 이벤트 필드에 대해 사전에 가중치를 설정하고, 이벤트 필드는 이벤트 텍스트 데이터의 서로 다른 형식에 기반하여 서로 다른 구획 방법을 가지고, 이벤트 필드는 이벤트 텍스트 데이터 내의 일부 컨텐츠일 수 있다. 예를 들면, 이벤트 텍스트 데이터는 타이틀, 개요 등을 포함하고, 타이틀은 텍스트 라이브러리 내의 각 이벤트의 하나의 이벤트 필드이고, 개요도 각 이벤트의 하나의 이벤트 필드이다. 선택적으로, 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름, 이벤트 텍스트 데이터의 이벤트 ID에 대응되는 이벤트 이름도 모두 하나의 필드로 할 수 있다. 일 예시에 있어서, 이벤트 텍스트 데이터의 추출 이벤트 이름 및 이벤트 ID에 대응되는 이벤트 이름의 가중을 2로 설정하고 이벤트 텍스트 데이터의 타이틀의 가중을 1로 설정한다.
본 실시예에 있어서, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름을 텍스트 라이브러리 내 각 이벤트의 이벤트 필드에 매칭시킨다는 것은, 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터의 추출 이벤트 이름을 각 이벤트 필드와 비교하여, 같은 경우, 양자가 매칭된다고 결정하고, 아닌 경우, 양자가 매칭되지 않는다고 결정하는 것을 가리킨다.
단계(302)에서, 추출 이벤트 이름이 텍스트 라이브러리 내 적어도 하나의 이벤트 필드에 매칭되는 것에 응답하여 매칭되는 이벤트의 필드의 가중치에 기반하여 추출 이벤트 이름에 매칭되는 이벤트의 매칭 점수 값을 결정한다.
본 실시예에 있어서, 각 필드의 가중은 서로 다르며, 각 필드의 가중은 수동으로 구성될 수도 있고 자동으로 설정될 수도 있는데, 서로 다른 가중은 각 필드의 중요도를 구분하기 위한 것이다. 예를 들면, 라이브러리에 귀속하고자 하는 뉴스의 이벤트 이름이 텍스트 라이브러리 내의 어느 한 이벤트 뉴스 텍스트 A의 추출 이벤트 이름에 매칭되면서 동시에 텍스트 라이브러리 내의 어느 한 이벤트 뉴스 텍스트 B의 타이틀에도 매칭되고 설정된 추출 이벤트 이름의 필드의 가중이 타이틀의 필드의 가중보다 큰 경우(추출 이벤트 이름이 타이틀보다 더 중요하다는 것을 설명하고자 하는 바임), 이때, 이벤트 뉴스 텍스트 A의 매칭 득점이 이벤트 뉴스 텍스트 B의 매칭 득점보다 높게 된다.
단계(303)에서, 매칭 점수 값에 기반하여 모든 이벤트에 대해 내림차순의 정렬을 수행하여 이벤트 시퀀스를 획득한다.
본 실시예에 있어서, 텍스트 라이브러리의 하나의 이벤트가 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터에 매칭되는 경우, 하나의 매칭 점수 값을 가지는 바, 즉, 하나의 이벤트가 하나의 매칭 점수 값에 대응된다. 해당 매칭 점수 값은 해당 이벤트의 각 필드에 대응되는 가중치를 합산하여 획득할 수 있고, 매칭 점수 값의 높고 낮음은 이벤트 시퀀스 내 각 이벤트 위치를 결정하고 또한 각 이벤트의 중요 정도를 표현한다.
단계(304)에서, 추출 이벤트 이름의 시맨틱 벡터 및 이벤트 시퀀스 내 각 이벤트의 시맨틱 벡터를 각각 취득한다.
본 실시예에 있어서, 시맨틱 모델에 의해 추출 이벤트 이름의 시맨틱 벡터 및 이벤트 시퀀스 내 각 이벤트의 필드의 시맨틱 벡터를 획득할 수 있다. 선택적으로, 각 이벤트의 필드의 시맨틱 벡터를 획득하고, 각 이벤트의 필드의 시맨틱 벡터를 합산하여 합을 구하고 평균을 구하여 이벤트의 시맨틱 벡터를 획득한다.
단계(305)에서, 이벤트 시퀀스에서 추출 이벤트 이름과의 시맨틱 벡터 유사도가 유사도 역치보다 큰 이벤트를 선택하여 리콜 이벤트로 한다.
본 실시예에 있어서, 라이브러리에 귀속하고자 하는 추출 이벤트 이름 및 리콜 이벤트에 대응되는 각 이벤트의 시맨틱 벡터를 취득하고, 라이브러리에 귀속하고자 하는 추출 이벤트 이름의 시맨틱 벡터와 리콜 이벤트의 시맨틱 벡터의 코사인 거리를 취득하여 양자의 시맨틱 벡터의 유사도로 하고, 시맨틱 벡터의 유사도가 유사도 역치보다 낮다면 양자의 유사도가 매우 낮다는 것을 표시하는 바, 해당 리콜 이벤트를 필터링해버릴 수 있고; 아닌 경우, 양자의 유사도가 보다 높다는 것을 표시하는 바, 해당 리콜 이벤트를 보류한다. 시맨틱 유사도에 따라 필터링하는 목적은 정규 판별의 계산 스트레스를 저감하고자 하는 데 있고, 복수의 리콜 이벤트의 리콜 과정은 병렬로 수행될 수 있다.
본 실시예에 의해 제공되는 리콜 이벤트를 획득하는 방법은, 텍스트 라이브러리 내 각 이벤트를 서로 다른 가중치를 가지는 복수의 필드로 구획하고, 추출 이벤트 이름과 각 필드의 매칭을 통해 이벤트 시퀀스를 결정하고, 리콜 시, 추출 이벤트 이름, 텍스트 라이브러리 내 이벤트의 각 필드의 가중치 및 이벤트의 시맨틱 벡터에 따라 리콜 이벤트를 종합적으로 고려하는 바, 획득된 리콜 이벤트의 정확률 및 정밀도를 향상한다.
도 4는 본 개시의 실시예의 추출 이벤트 이름을 획득하는 방법의 흐름도(400)를 도시하고, 상술한 추출 이벤트 이름을 획득하는 방법은 하기와 같은 단계를 포함한다.
단계(401)에서, 이벤트 텍스트 데이터에 대응되는 문장을 복수의 서브문장으로 분할한다.
본 실시예에 있어서, 이벤트 텍스트 데이터에 대응되는 문장은 이벤트 텍스트 데이터 내의 타이틀 또는 개요 등일 수 있고, 이벤트 텍스트 데이터에 대응되는 문장 내의 문장 부호에 따라 이벤트 텍스트 데이터에 대응되는 문장을 복수의 서브문장으로 분할할 수 있다.
단계(402)에서, 복수의 서브문장에 대해 판별을 수행하여 각 서브문장이 이벤트 이름에 속하는 이벤트 확률을 획득한다.
본 실시예에 있어서, 이벤트 텍스트 데이터에 대응되는 문장을 복수의 서브문장으로 구획한 후, 각 서브문장이 이벤트 이름인지 여부의 확률을 획득하는 바, 해당 서브문장이 이벤트 이름인지 여부의 확률은 바로 상술한 이벤트 확률이다. 서브문장이 이벤트 이름인지 여부의 이벤트 확률은 서브문장을 이미 훈련이 완성된 이벤트 이름 모델에 입력하여 취득될 수 있다.
이벤트 이름 모델은 딥러닝 분류 모델을 적용할 수 있고, 이벤트 이름 모델의 훈련 과정은 하기한 바와 같다. 각 서브문장이 이벤트 이름인지 여부의 태그, 예컨대 <서브문장, 태그>를 취득하여 이벤트 이름 모델의 훈련 샘플로 하고, 이벤트 이름 모델에 이벤트 텍스트 데이터의 적어도 하나의 서브문장을 입력하여 각 서브문장이 이벤트 이름에 속하는 이벤트 확률을 획득한다.
단계(403)에서, 이벤트 확률에 기반하여 복수의 서브문장을 처리하여 추출 이벤트 이름을 획득한다.
본 실시예에 있어서, 이벤트 확률의 크기에 기반하여 이벤트 이름에 가장 근접한 서브문장을 추출 이벤트 이름으로 할 수 있다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 상술한 이벤트 확률에 기반하여 복수의 서브문장을 처리하여 추출 이벤트 이름을 획득하는 단계는, 복수의 서브문장 내에 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장이 있는 것에 응답하여 이벤트 확률이 이벤트 이름 역치보다 큰 모든 서브문장을 스티칭하여 추출 이벤트 이름을 획득하는 단계를 포함한다.
본 선택 가능한 구현방식에 있어서, 이벤트 이름 역치는 구성가능한 값일 수 있고, 나아가 구성 수요에 기반하여 이벤트 이름 역치에 대해 구체 값 설정을 수행할 수 있다.
본 선택 가능한 구현방식에 있어서, 이벤트 확률은 서브문장이 본론 이름에 속하는 신뢰도이고, 신뢰도가 이벤트 이름 역치보다 큰 모든 서브문장을 스티칭하는 것은 같은 이벤트에 속하는 복수의 서브문장이 분할되는 것을 회피할 수 있고, 이벤트의 무결성을 보장한다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 상술한 이벤트 확률에 기반하여 복수의 서브문장을 처리하여 추출 이벤트 이름을 획득하는 단계는, 복수의 서브문장 내에 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장이 없는 것에 응답하여 이벤트 텍스트 데이터 내의 타이틀을 취득하고 타이틀을 추출 이벤트 이름으로 하는 단계를 포함한다.
본 선택 가능한 구현방식에 있어서, 일반적으로 하나의 타이틀은 하나의 이벤트만 포함하고, 이벤트 텍스트 데이터의 모든 서브문장이 한 이벤트 이름에 속하는 신뢰도가 높지 않을 경우, 이벤트는 이벤트 이름을 표시할 수 있는 바, 추출 이벤트 이름의 추출의 신뢰성을 보장한다.
선택적으로, 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장을 스페이스로 스티칭하여 해당 이벤트 뉴스의 이벤트 이름으로 하고, 이벤트 이름 역치보다 큰 서브문장이 없는 경우, 이벤트 확률이 가장 높은 서브문장을 이벤트 이름으로 할 수 있다.
본 선택 가능한 구현방식에 의해 제공되는 추출 이벤트 이름을 획득하는 방법은, 이벤트 확률의 서브문장에 대해 처리하는 바, 이벤트 이름에 속할 가능성이 가장 큰 서브문장의 조합을 구현하고, 획득된 추출 이벤트 이름의 정확성을 향상한다.
선택 가능한 구현방식에 있어서, 이벤트 텍스트 데이터는 이벤트 뉴스 텍스트 데이터이고, 텍스트 라이브러리는 이벤트 뉴스를 저장하기 위한 것이고, 이벤트 라이브러리는 이벤트의 이벤트 이름 및 이벤트 뉴스에 관련되는 이벤트의 관련 정보를 저장하기 위한 것이다.
본 선택 가능한 구현방식에 있어서, 이벤트 뉴스 텍스트 데이터는 어느 한 독립적인 뉴스 이벤트를 핵심으로 하여 전개된 뉴스 보도를 가리키고, 그 사물이 변경하는 시간적 상태는 돌발적이거나 또는 도약적인 것으로, 어느 한 시간, 어느 한 지점에 발생되고 하나 또는 복수의 참가자의 특정 이야기(story) 발생에 관한 것이다. 비(非)이벤트 뉴스 텍스트 데이터는 이벤트 뉴스 텍스트 데이터와 구분되는 뉴스 보도를 가리키는 것으로, 즉, 일정 시간 동안에 또는 몇몇 공간에서 나아가 발생되는 상황, 경험 또는 문제 등의 개관적인 또는 단계적인 반영을 가리키는 바, 그 시간 상태는 흔히는 점진적인 것이다. 예를 들면, "XXX사는 81.75억 홍콩 달러 가치의 신규 주식을 발행할 것이다"는 하나의 이벤트 뉴스 텍스트 데이터이다. 이벤트 뉴스 텍스트 데이터는 여론에 대한 영향이 더 크다. 이벤트 분석은 여론 상황 분석 중의 한 분석 모듈로, 이벤트 검색, 주제 분석 등의 서비스를 제공하고, 이러한 서비스는 모두 이벤트 라이브러리에 기반하여 구현되는 바, 따라서, 이벤트 라이브러리는 이벤트 뉴스 분석에 기초적인 데이터 지원을 제공한다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 이벤트 뉴스 텍스트 데이터는 하기와 같은 단계인, 뉴스정보 스트림으로부터 뉴스 텍스트 데이터를 취득하는 단계; 뉴스 텍스트 데이터 내의 타이틀을 추출하는 단계; 타이틀을 사전훈련이 완성된 이벤트 판별 모델에 입력하여 타이틀이 이벤트의 타이틀에 속하는 확률을 획득하는 단계; 및 타이틀 확률이 기설정된 이벤트 역치보다 크다고 결정하는 것에 응답하여 뉴스 텍스트 데이터를 이벤트 뉴스 텍스트 데이터로 결정하는 단계에 의해 획득된다.
본 선택 가능한 구현방식에 있어서, 뉴스 텍스트 데이터는 실시간 뉴스정보 스트림에서 유래되고, 실시간 뉴스정보 스트림은 수행주체가 적어도 하나의 데이터 소스의 뉴스를 실시간으로 취득함으로써 획득할 수 있다. 적어도 하나의 데이터 소스의 뉴스는 한 배치의 뉴스 텍스트 데이터일 수 있고, 매 회 한 배치의 뉴스 텍스트 데이터를 처리하는 것은 계산 효율을 향상하기 위한 것이고, 뉴스 텍스트 데이터를 사전훈련된 이벤트 판별 모델에 입력하여, 뉴스 텍스트 데이터의 타이틀이 이벤트의 타이틀에 속하는 확률을 출력한다. 여기서 이벤트 판별 모델은 딥러닝 분류 모델을 적용할 수 있고, 이벤트 판별 모델의 훈련 샘플은 한 배치의 뉴스 타이틀 및 이벤트인지 여부에 대응되는 태그이다.
본 선택 가능한 구현방식에 있어서, 기설정된 이벤트 역치는 구성가능한 값이고, 나아가 구성 수요에 기반하여 이벤트 이름 역치에 대하여 구체 값 설정을 수행할 수 있다.
본 선택 가능한 구현방식에 있어서, 이벤트 판별 모델에 의해 뉴스 텍스트 데이터의 타이틀을 판별하고 타이틀이 이벤트의 타이틀에 속하는 확률을 획득하는 바, 이로써 간단하고 편리하게 이벤트 뉴스 텍스트 데이터를 획득할 수 있다.
나아가 도 5를 참조하면, 상술한 각 도면에 도시된 방법에 대한 구현으로, 본 개시는 이벤트 라이브러리를 구축하는 장치의 일 실시예를 제공하는 바, 해당 장치 실시예는 도 1에 도시된 방법 실시예와 서로 대응되고, 해당 장치는 구체적으로 여러 가지 전자 기기에 응용될 수 있다.
도 5에 도시된 바와 같이, 본 실시예에 의해 제공되는 이벤트 라이브러리를 구축하는 장치(500)는 취득 유닛(501), 추출 유닛(502), 매칭 유닛(503), 검출 유닛(504) 및 추가 유닛(505)을 포함한다. 여기서, 상술한 취득 유닛(501)은 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하도록 구성될 수 있다. 상술한 추출 유닛(502)은 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하도록 구성될 수 있다. 상술한 매칭 유닛(503)은 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하도록 구성될 수 있다. 상술한 검출 유닛(504)은 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하도록 구성될 수 있다. 상술한 추가 유닛(505)은 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가하도록 구성될 수 있다.
본 실시예에 있어서, 이벤트 라이브러리를 구축하는 장치(500)에서 취득 유닛(501), 추출 유닛(502), 매칭 유닛(503), 검출 유닛(504) 및 추가 유닛(505)의 구체적인 처리 및 이에 따른 기술 효과는 도 1의 대응되는 실시예에서의 단계(101), 단계(102), 단계(103)의 관련 설명을 각각 참조할 수 있는 바, 이에 대한 상세한 설명은 생략하기로 한다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 상술한 이벤트 라이브러리를 구축하는 장치(500)는 정규 유닛(미도시)을 더 포함한다. 여기서, 상술한 정규 유닛은 추출 이벤트 이름이 정규화 조건에 부합되는 것을 검출하는 것에 응답하여 추출 이벤트 이름을 이벤트 라이브러리 내 리콜 이벤트에 대응되는 이벤트 이름 아래 귀속시키고 이벤트 텍스트 데이터를 텍스트 라이브러리의 리콜 이벤트 아래 귀속시키도록 구성된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 이벤트 텍스트 데이터가 복수인 경우, 각각 이벤트 텍스트 데이터는 하나의 추출 이벤트 이름에 대응되고, 상술한 추가 유닛(505)은 계산 모듈(미도시), 정규 모듈(미도시), 병합 모듈(미도시) 및 획득 모듈(미도시)을 포함한다. 여기서, 상술한 계산 모듈은 복수의 이벤트 텍스트 데이터 중 임의 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름 간의 유사도를 계산하도록 구성된다. 상술한 정규 모듈은 유사도가 유사도 역치보다 큰 두 개의 이벤트 텍스트 데이터에 대해 해당 두 개의 이벤트 텍스트 데이터에 대응되는 이벤트 이름의 정규 확률을 계산하도록 구성된다. 상술한 병합 모듈은 해당 두 개의 이벤트 텍스트 데이터에 대응되는 이벤트 이름의 정규 확률이 정규 역치보다 큰 것에 응답하여 해당 두 개의 이벤트 텍스트 데이터에 대응되는 이벤트 이름을 일체로 병합하여 이벤트 클러스터를 획득하도록 구성될 수 있다. 상술한 획득 모듈은 모든 이벤트 클러스터에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하도록 구성된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 이벤트 정보는 서로 다른 가중치를 가지는 복수의 필드를 포함하고, 매칭 유닛(503)은 매칭 모듈(미도시), 결정 모듈(미도시), 정렬 모듈(미도시), 취득 모듈(미도시) 및, 선택 모듈(미도시)을 포함한다. 여기서, 상술한 매칭 모듈은 추출 이벤트 이름을 텍스트 라이브러리 내 각 이벤트의 이벤트 필드에 매칭시키도록 구성된다. 상술한 결정 모듈은 추출 이벤트 이름이 텍스트 라이브러리 내 적어도 하나의 이벤트 필드에 매칭되는 것에 응답하여, 매칭되는 이벤트의 필드의 가중치에 기반하여 추출 이벤트 이름에 매칭되는 이벤트의 매칭 점수 값을 결정하도록 구성된다. 상술한 정렬 모듈은 매칭 점수 값에 기반하여 모든 이벤트에 대해 내림차순의 정렬을 수행하여 이벤트 시퀀스를 획득하도록 구성된다. 상술한 취득 모듈은 추출 이벤트 이름의 시맨틱 벡터 및 이벤트 시퀀스 내 각 이벤트의 시맨틱 벡터를 각각 취득하도록 구성된다. 상술한 선택 모듈은 이벤트 시퀀스에서 추출 이벤트 이름과의 시맨틱 벡터 유사도가 유사도 역치보다 큰 이벤트를 선택하여 리콜 이벤트로 하도록 구성된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 상술한 이벤트 라이브러리를 구축하는 장치(500)는 선별 유닛(미도시), 수신 유닛(미도시) 및 검색 유닛(미도시)을 더 포함한다. 여기서, 상술한 선별 유닛은 이벤트 텍스트 데이터 내의 개체를 추출하여 이벤트 개체를 획득하도록 구성된다. 상술한 수신 유닛은 텍스트 검색 요청을 수신하도록 구성된다. 상술한 검색 유닛은 이벤트 개체 및 텍스트 검색 요청에 기반하여 텍스트 라이브러리 내의 이벤트에 대해 검색을 수행하여 검색 결과를 획득하도록 구성된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 추출 유닛(502)은 분할 모듈(미도시), 판별 모듈(미도시) 및 처리 모듈(미도시)을 포함한다. 여기서, 상술한 분할 모듈은 이벤트 텍스트 데이터에 대응되는 문장을 복수의 서브문장으로 분할하도록 구성된다. 상술한 판별 모듈은 복수의 서브문장에 대해 판별을 수행하여 각 서브문장이 이벤트 이름에 속하는 이벤트 확률을 획득하도록 구성된다. 상술한 처리 모듈은 이벤트 확률에 기반하여 복수의 서브문장을 처리하여 추출 이벤트 이름을 획득하도록 구성된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 상술한 처리 모듈은 스티칭 서브모듈(미도시)을 포함한다. 상술한 스티칭 서브모듈은 복수의 서브문장 내에 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장이 있는 것에 응답하여 이벤트 확률이 이벤트 이름 역치보다 큰 모든 서브문장을 스티칭하여 추출 이벤트 이름을 획득하도록 구성된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 상술한 처리 모듈은 취득 서브모듈(미도시)을 포함한다. 상술한 취득 서브모듈은 복수의 서브문장 내에 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장이 없는 것에 응답하여 이벤트 텍스트 데이터 내의 타이틀을 취득하고 타이틀을 추출 이벤트 이름으로 하도록 구성된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 이벤트 라이브러리에는 리콜 이벤트의 이벤트 이름과 추출 이벤트 이름이 저장되어 있고, 상술한 검출 유닛(504)은 이름 결정 모듈(미도시), 리콜 모듈(미도시), 추출 모듈(미도시) 및 부합 모듈(미도시)을 포함한다. 여기서, 상술한 이름 결정 모듈은 이벤트 라이브러리로부터 리콜 이벤트의 이벤트 이름을 취득하도록 구성된다. 상술한 리콜 모듈은 리콜 이벤트의 이벤트 이름과 추출 이벤트 이름을 정규 판별 모델에 입력하여 추출 이벤트 이름이 리콜 이벤트의 이벤트 이름에 속하는 리콜 확률을 획득하도록 구성된다. 상술한 추출 모듈은 리콜 확률이 리콜 역치보다 큰 것에 응답하여 리콜 이벤트의 추출 이벤트 이름과 추출 이벤트 이름을 정규 판별 모델에 입력하여 추출 이벤트 이름이 리콜 이벤트의 이벤트 이름에 속하는 정규 확률을 획득하도록 구성된다. 상술한 부합 모듈은 정규 확률이 리콜 역치보다 큰 것에 응답하여 추출 이벤트 이름이 정규화 조건에 부합된다고 결정하도록 구성된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 이벤트 텍스트 데이터는 이벤트 뉴스 텍스트 데이터이고, 텍스트 라이브러리는 이벤트 뉴스를 저장하도록 사용되고, 이벤트 라이브러리는 이벤트의 이벤트 이름 및 이벤트 뉴스에 관련되는 이벤트의 관련 정보를 저장하도록 사용된다.
본 실시예의 일부 선택 가능한 구현방식에 있어서, 이벤트 뉴스 텍스트 데이터는, 정보 유닛(미도시), 추출 유닛(미도시), 판별 유닛(미도시) 및 결정 유닛(미도시)에 의해 획득된다. 여기서, 상술한 정보 유닛은 뉴스정보 스트림으로부터 뉴스 텍스트 데이터를 취득하도록 구성된다. 상술한 추출 유닛은 뉴스 텍스트 데이터 내의 타이틀을 추출하도록 구성된다. 상술한 판별 유닛은 타이틀을 사전훈련이 완성된 이벤트 판별 모델에 입력하여 타이틀이 이벤트의 타이틀에 속하는 확률을 획득하도록 구성된다. 상술한 결정 유닛은 타이틀 확률이 기설정된 이벤트 역치보다 크다고 결정하는 것에 응답하여 뉴스 텍스트 데이터를 이벤트 뉴스 텍스트 데이터로 결정하도록 구성된다.
본 개시의 실시예에 의해 제공되는 이벤트 라이브러리를 구축하는 장치는, 우선, 취득 유닛(501)이 적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하고 다음, 추출 유닛(502)이 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하고, 그 다음, 매칭 유닛(503)이 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하고 이어, 검출 유닛(504)이 리콜 이벤트에 기반하여 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하고 마지막으로, 추가 유닛(505)이 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 이벤트 텍스트 데이터를 신규한 이벤트로 하여 텍스트 라이브러리에 추가한다. 이로써, 이벤트 라이브러리의 이벤트 이름을 구축할 시, 텍스트 라이브러리로부터 리콜 이벤트를 획득하여 정규화 판단을 수행하고, 추출된 이벤트 이름과 텍스트 라이브러리 내 정보의 대응을 종합적으로 고려하는 바, 이벤트 라이브러리 구축의 전면성과 정확성을 향상한다.
본 개시의 실시예에 따르면, 본 개시는 전자 기기, 판독가능 저장매체 및 매체에 저장된 컴퓨터 프로그램을 더 제공한다.
도 6은 본 개시의 실시예를 실시할 수 있는 예시적인 전자 기기(600)의 개략적인 블록도를 도시한다. 전자 기기는 여러 가지 형식의 디지털 컴퓨터, 예를 들어 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 다른 적합한 컴퓨터를 가리키고자 하는 것이다. 전자 기기는 여러 가지 형식의 이동 장치, 예를 들어 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 이와 유사한 다른 컴퓨팅 기기를 가리킬 수도 있다. 본 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 설명한 및/또는 요구하는 본 출원의 구현을 한정하고자 하는 것이 아니다.
도 6에 도시된 바와 같이, 기기(600)는 컴퓨팅 유닛(601)을 포함하고, 이는 읽기전용 메모리(ROM)(602)에 저장된 컴퓨터 프로그램 또는 저장 유닛(608)으로부터 랜덤 액세스 메모리(RAM)(603)에 로딩된 컴퓨터 프로그램에 따라 여러 가지 적당한 동작과 처리를 수행할 수 있다. RAM(603)은 기기(600) 조작에 필요한 여러 가지 프로그램 및 데이터를 저장할 수도 있다. 컴퓨팅 유닛(601), ROM(602) 및 RAM(603)은 버스(604)에 의해 서로 연결된다. 입력/출력(I/O) 인터페이스(605)도 버스(604)에 연결된다.
기기(600) 중의 복수의 부품이 I/O 인터페이스(605)에 연결되는데 입력 유닛(606)(예를 들면, 키보드, 마우스 등), 출력 유닛(607)(예를 들면, 여러 가지 유형의 디스플레이, 스피커 등), 저장 유닛(608)(예를 들면, 자기디스크, 광디스크 등) 및 통신 유닛(609)(예를 들면, 네트워크 인터페이스 카드, 모뎀, 무선 통신 송수신기 등)을 포함한다. 통신 유닛(609)은 기기(600)가 인터넷과 같은 컴퓨터 네트워크 및/또는 여러 가지 전기통신 네트워크를 통해 다른 기기와 정보/데이터를 교환하도록 허용한다.
컴퓨팅 유닛(601)은 처리 및 컴퓨팅 파워를 가지는 여러 가지 범용의 및/또는 전용의 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(601)의 일부 예시는 중앙처리장치(CPU), 그래픽 처리 장치(GPU), 여러 가지 전용의 인공지능(AI) 컴퓨팅 칩, 머신러닝 모델 알고리즘을 실행하는 여러 가지 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의 적합한 프로세서, 컨트롤러, 마이크로컨트롤러 등을 포함하나, 이에 한정되지 않는다. 컴퓨팅 유닛(601)은 위에서 기술한 각 방법 및 처리, 예를 들면, 이벤트 라이브러리를 구축하는 방법을 수행한다. 예를 들면, 일부 실시예에 있어서, 이벤트 라이브러리를 구축하는 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있는 바, 기계 판독가능 매체, 예를 들면, 저장 유닛(608)에 유형으로(tangibly) 포함된다. 일부 실시예에 있어서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(602) 및/또는 통신 유닛(609)을 거쳐 기기(600)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램은 RAM(603)에 로딩되어 컴퓨팅 유닛(601)에 의해 실행되는 경우, 위에서 기술한 이벤트 라이브러리를 구축하는 방법의 하나 또는 복수의 단계를 수행할 수 있다. 대안으로, 다른 실시예에 있어서, 컴퓨팅 유닛(601)은 다른 임의의 적당한 방식으로(예를 들면, 펌웨어에 의해) 이벤트 라이브러리를 구축하는 방법을 수행하도록 구성될 수 있다.
본 명세서에 있어서, 위에서 기술한 시스템 및 기술의 여러 가지 실시방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그램가능 게이트 어레이(FPGA), 주문형 집적회로(ASIC), 주문형 표준제품(ASSP), 시스템온칩(SOC), 복잡한 프로그램 가능 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합 중에서 구현될 수 있다. 이러한 여러 가지 실시방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있는 바, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템에서 실행 및/또는 해석될 수 있고, 해당 프로그램가능 프로세서는 전용의 또는 범용의 프로그램가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령어를 수신하고 데이터와 명령어를 해당 저장 시스템, 해당 적어도 하나의 입력 장치 및 해당 적어도 하나의 출력 장치로 전송할 수 있다.
본 개시의 방법을 실시하는 프로그램 코드는 하나 또는 복수의 프로그램 언어의 임의 조합을 적용하여 작성할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램가능 이벤트 라이브러리를 구축하는 장치의 프로세서 또는 컨트롤러에 제공되어, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행되는 경우, 흐름도 및/또는 블록도에 규정한 기능/조작을 실시하도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행될 수도 있고, 부분적으로 기계에서 실행될 수도 있고, 독립적인 소프트웨어 패키지로서 부분적으로는 기계에서 실행되면서 부분적으로는 원격 기계에서 실행되거나 또는 완전히 원격 기계나 서버에서 실행될 수 있다.
본 개시의 문맥상으로 기계 판독가능 매체는 유형의 매체일 수 있고, 이는 명령어 실행 시스템, 장치 또는 기기가 사용하거나 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용하는 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 저장 매체는 전자의, 자성의, 광학의, 전자기의, 적외선의 또는 반도체의 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 선에 따른 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함하게 된다.
사용자와의 인터랙션을 제공하기 위해, 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있는 바, 해당 컴퓨터는 사용자한테 정보를 표시하기 위한 표시 장치(예를 들어, CRT (음극선관) 또는 LCD (액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 포함하고, 사용자는 해당 키보드와 해당 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 다른 종류의 장치도 사용자와의 인터랙션을 제공하는 데 사용될 수 있는 바, 예를 들어, 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의 형식(사운드 입력, 음성 입력 또는 촉각 입력을 포함함)으로 사용자로부터의 입력을 수신할 수 있다.
여기서 기술하는 시스템과 기술은 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면, 데이터 서버로서), 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 네트워크 브라우저를 통하여 여기서 기술하는 시스템 및 기술의 구현 방식과 인터랙션할 수 있음) 또는 이러한 백그라운드 부품, 미들웨어 부품 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다. 컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고 통상적으로는 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계가 발생된다.
본 개시의 기술 방안에서 관련되는 사용자 개인 정보의 취득, 저장 및 응용 등은 모두 관련 법률 법규의 규정에 부합되며 공서양속을 위반하지 않는다.
상기 제시한 여러 가지 형식의 흐름을 사용하여 단계에 대해 재정렬, 증가 또는 삭제가 가능하다는 점을 이해하여야 한다. 예를 들면, 본 개시에 의해 제공되는 기술방안이 지향하는 결과를 구현할 수 있는 한, 본 개시에 기재된 각 단계는 병렬도 수행될 수도 있고 순차로 수행될 수도 있고 다른 순서로 수행될 수도 있는 바, 본 명세서에서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시방식은 본 개시의 보호 범위를 한정하지 않는다. 당업자라면 설계의 요구나 다른 요인에 따라 여러 가지 수정, 조합, 서브조합 및 치환이 가능하다는 점을 인지하여야 한다. 본 개시의 사상 및 원칙 아래 수행되는 임의의 수정, 균등치환 및 개량 등은 모두 본 개시의 보호범위에 포함되어야 한다.

Claims (25)

  1. 이벤트 라이브러리를 구축하는 방법으로서,
    적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하는 단계;
    상기 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하는 단계;
    상기 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 상기 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하는 단계;
    상기 리콜 이벤트에 기반하여 상기 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하는 단계; 및
    상기 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 상기 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 상기 이벤트 텍스트 데이터를 신규한 이벤트로 하여 상기 텍스트 라이브러리에 추가하는 단계
    를 포함하는, 이벤트 라이브러리를 구축하는 방법.
  2. 제1항에 있어서,
    상기 방법은,
    상기 추출 이벤트 이름이 정규화 조건에 부합되는 것을 검출하는 것에 응답하여 상기 추출 이벤트 이름을 상기 이벤트 라이브러리 내 상기 리콜 이벤트에 대응되는 이벤트 이름 아래 귀속시키고, 상기 이벤트 텍스트 데이터를 상기 텍스트 라이브러리의 상기 리콜 이벤트 아래 귀속시키는 단계를 더 포함하는, 이벤트 라이브러리를 구축하는 방법.
  3. 제1항에 있어서,
    상기 이벤트 텍스트 데이터가 복수인 경우, 각각 이벤트 텍스트 데이터는 하나의 추출 이벤트 이름에 대응되고,
    상기 추출 이벤트 이름에 기반하여 이벤트 라이브러리의 신규한 이벤트 이름을 획득하는 단계는,
    복수의 이벤트 텍스트 데이터 중 임의 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름 간의 유사도를 계산하는 단계;
    유사도가 유사도 역치보다 큰 두 개의 이벤트 텍스트 데이터에 대해 해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름의 정규 확률을 계산하는 단계;
    해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름의 정규 확률이 정규 역치보다 큰 것에 응답하여 해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름을 일체로 병합하여 이벤트 클러스터를 획득하는 단계; 및
    모든 이벤트 클러스터에 기반하여 상기 이벤트 라이브러리의 신규한 이벤트 이름을 획득하는 단계
    를 더 포함하는, 이벤트 라이브러리를 구축하는 방법.
  4. 제1항에 있어서,
    상기 이벤트 정보는 서로 다른 가중치를 가지는 복수의 필드를 포함하고,
    상기 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 상기 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하는 단계는,
    상기 추출 이벤트 이름을 텍스트 라이브러리 내 각 이벤트의 이벤트 필드에 매칭시키는 단계;
    상기 추출 이벤트 이름이 상기 텍스트 라이브러리 내 적어도 하나의 이벤트 필드에 매칭되는 것에 응답하여, 매칭되는 이벤트의 필드의 가중치에 기반하여 상기 추출 이벤트 이름에 매칭되는 이벤트의 매칭 점수 값을 결정하는 단계;
    상기 매칭 점수 값에 기반하여 모든 이벤트에 대해 내림차순의 정렬을 수행하여 이벤트 시퀀스를 획득하는 단계;
    상기 추출 이벤트 이름의 시맨틱 벡터 및 상기 이벤트 시퀀스 내 각 이벤트의 시맨틱 벡터를 각각 취득하는 단계; 및
    상기 이벤트 시퀀스에서 상기 추출 이벤트 이름과의 시맨틱 벡터 유사도가 유사도 역치보다 큰 이벤트를 선택하여 리콜 이벤트로 하는 단계
    를 포함하는, 이벤트 라이브러리를 구축하는 방법.
  5. 제1항 내지 제4항 중의 어느 한 항에 있어서,
    상기 방법은,
    상기 이벤트 텍스트 데이터 내의 개체를 추출하여 이벤트 개체를 획득하는 단계;
    텍스트 검색 요청을 수신하는 단계; 및
    상기 이벤트 개체 및 상기 텍스트 검색 요청에 기반하여 상기 텍스트 라이브러리 내의 이벤트에 대해 검색을 수행하여 검색 결과를 획득하는 단계
    를 더 포함하는, 이벤트 라이브러리를 구축하는 방법.
  6. 제5항에 있어서,
    상기 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하는 단계는,
    상기 이벤트 텍스트 데이터에 대응되는 문장을 복수의 서브문장으로 분할하는 단계;
    상기 복수의 서브문장에 대해 판별을 수행하여 각 서브문장이 이벤트 이름에 속하는 이벤트 확률을 획득하는 단계; 및
    상기 이벤트 확률에 기반하여 상기 복수의 서브문장을 처리하여 추출 이벤트 이름을 획득하는 단계를 포함하는, 이벤트 라이브러리를 구축하는 방법.
  7. 제6항에 있어서,
    상기 이벤트 확률에 기반하여 상기 복수의 서브문장을 처리하여 추출 이벤트 이름을 획득하는 단계는,
    상기 복수의 서브문장 내에 상기 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장이 있는 것에 응답하여 이벤트 확률이 이벤트 이름 역치보다 큰 모든 서브문장을 스티칭하여 추출 이벤트 이름을 획득하는 단계를 포함하는, 이벤트 라이브러리를 구축하는 방법.
  8. 제6항에 있어서,
    상기 이벤트 확률에 기반하여 상기 복수의 서브문장을 처리하여 추출 이벤트 이름을 획득하는 단계는,
    상기 복수의 서브문장 내에 상기 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장이 없는 것에 응답하여 상기 이벤트 텍스트 데이터 내의 타이틀을 취득하고 상기 타이틀을 추출 이벤트 이름으로 하는 단계를 포함하는, 이벤트 라이브러리를 구축하는 방법.
  9. 제6항에 있어서,
    상기 이벤트 라이브러리에는 상기 리콜 이벤트의 이벤트 이름과 추출 이벤트 이름이 저장되어 있고,
    상기 리콜 이벤트에 기반하여 상기 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하는 단계는,
    상기 이벤트 라이브러리로부터 상기 리콜 이벤트의 이벤트 이름을 취득하는 단계;
    상기 리콜 이벤트의 이벤트 이름과 상기 추출 이벤트 이름을 정규 판별 모델에 입력하여 상기 추출 이벤트 이름이 상기 리콜 이벤트의 이벤트 이름에 속하는 리콜 확률을 획득하는 단계;
    상기 리콜 확률이 리콜 역치보다 큰 것에 응답하여 상기 리콜 이벤트의 추출 이벤트 이름과 상기 추출 이벤트 이름을 상기 정규 판별 모델에 입력하여 상기 추출 이벤트 이름이 상기 리콜 이벤트의 이벤트 이름에 속하는 정규 확률을 획득하는 단계; 및
    상기 정규 확률이 상기 리콜 역치보다 큰 것에 응답하여 상기 추출 이벤트 이름이 정규화 조건에 부합된다고 결정하는 단계
    를 포함하는, 이벤트 라이브러리를 구축하는 방법.
  10. 제1항에 있어서,
    상기 이벤트 텍스트 데이터는 이벤트 뉴스 텍스트 데이터이고, 상기 텍스트 라이브러리는 이벤트 뉴스를 저장하도록 사용되고, 상기 이벤트 라이브러리는 이벤트의 이벤트 이름 및 상기 이벤트 뉴스에 관련되는 이벤트의 관련 정보를 저장하도록 사용되는, 이벤트 라이브러리를 구축하는 방법.
  11. 제10항에 있어서,
    상기 이벤트 뉴스 텍스트 데이터는,
    뉴스정보 스트림으로부터 뉴스 텍스트 데이터를 취득하는 단계;
    상기 뉴스 텍스트 데이터 내의 타이틀을 추출하는 단계;
    상기 타이틀을 사전훈련이 완성된 이벤트 판별 모델에 입력하여 상기 타이틀이 이벤트의 타이틀에 속하는 확률을 획득하는 단계; 및
    상기 타이틀 확률이 기설정된 이벤트 역치보다 크다고 결정하는 것에 응답하여 상기 뉴스 텍스트 데이터를 이벤트 뉴스 텍스트 데이터로 결정하는 단계
    에 의해 획득되는, 이벤트 라이브러리를 구축하는 방법.
  12. 이벤트 라이브러리를 구축하는 장치로서,
    적어도 하나의 라이브러리에 귀속하고자 하는 이벤트 텍스트 데이터를 취득하도록 구성된 취득 유닛;
    상기 이벤트 텍스트 데이터에 기반하여 추출 이벤트 이름을 획득하도록 구성된 추출 유닛;
    상기 추출 이벤트 이름을 기설정된 텍스트 라이브러리 내 이벤트 정보에 매칭시켜 상기 텍스트 라이브러리에 속하는 리콜 이벤트를 획득하도록 구성된 매칭 유닛;
    상기 리콜 이벤트에 기반하여 상기 추출 이벤트 이름이 정규화 조건에 부합되는지 여부를 검출하도록 구성된 검출 유닛; 및
    상기 추출 이벤트 이름이 정규화 조건에 부합되지 않는 것을 검출하는 것에 응답하여 상기 추출 이벤트 이름에 기반하여 상기 이벤트 라이브러리의 신규한 이벤트 이름을 획득하고, 상기 이벤트 텍스트 데이터를 신규한 이벤트로 하여 상기 텍스트 라이브러리에 추가하도록 구성된 추가 유닛
    을 포함하는, 이벤트 라이브러리를 구축하는 장치.
  13. 제12항에 있어서,
    상기 장치는,
    상기 추출 이벤트 이름이 정규화 조건에 부합되는 것을 검출하는 것에 응답하여 상기 추출 이벤트 이름을 상기 이벤트 라이브러리 내 상기 리콜 이벤트에 대응되는 이벤트 이름 아래 귀속시키고, 상기 이벤트 텍스트 데이터를 상기 텍스트 라이브러리의 상기 리콜 이벤트 아래 귀속시키도록 구성된 정규 유닛을 더 포함하는, 이벤트 라이브러리를 구축하는 장치.
  14. 제12항에 있어서,
    상기 이벤트 텍스트 데이터가 복수인 경우, 각각 이벤트 텍스트 데이터는 하나의 추출 이벤트 이름에 대응되고,
    상기 추가 유닛은,
    복수의 이벤트 텍스트 데이터 중 임의 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름 간의 유사도를 계산하도록 구성된 계산 모듈;
    유사도가 유사도 역치보다 큰 두 개의 이벤트 텍스트 데이터에 대해 해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름의 정규 확률을 계산하도록 구성된 정규 모듈;
    해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름의 정규 확률이 정규 역치보다 큰 것에 응답하여 해당 두 개의 이벤트 텍스트 데이터에 대응되는 추출 이벤트 이름을 일체로 병합하여 이벤트 클러스터를 획득하도록 구성된 병합 모듈; 및
    모든 이벤트 클러스터에 기반하여 상기 이벤트 라이브러리의 신규한 이벤트 이름을 획득하도록 구성된 획득 모듈
    을 포함하는, 이벤트 라이브러리를 구축하는 장치.
  15. 제12항에 있어서,
    상기 이벤트 정보는 서로 다른 가중치를 가지는 복수의 필드를 포함하고, 상기 매칭 유닛은,
    상기 추출 이벤트 이름을 텍스트 라이브러리 내 각 이벤트의 이벤트 필드에 매칭시키도록 구성된 매칭 모듈;
    상기 추출 이벤트 이름이 상기 텍스트 라이브러리 내 적어도 하나의 이벤트 필드에 매칭되는 것에 응답하여, 매칭되는 이벤트의 필드의 가중치에 기반하여 상기 추출 이벤트 이름에 매칭되는 이벤트의 매칭 점수 값을 결정하도록 구성된 결정 모듈;
    상기 매칭 점수 값에 기반하여 모든 이벤트에 대해 내림차순의 정렬을 수행하여 이벤트 시퀀스를 획득하도록 구성된 정렬 모듈;
    상기 추출 이벤트 이름의 시맨틱 벡터 및 상기 이벤트 시퀀스 내 각 이벤트의 시맨틱 벡터를 각각 취득하도록 구성된 취득 모듈; 및
    상기 이벤트 시퀀스에서 상기 추출 이벤트 이름과의 시맨틱 벡터 유사도가 유사도 역치보다 큰 이벤트를 선택하여 리콜 이벤트로 하도록 구성된 선택 모듈
    을 포함하는, 이벤트 라이브러리를 구축하는 장치.
  16. 제12항 내지 제15항 중의 어느 한 항에 있어서,
    상기 장치는,
    상기 이벤트 텍스트 데이터 내의 개체를 추출하여 이벤트 개체를 획득하도록 구성된 선별 유닛;
    텍스트 검색 요청을 수신하도록 구성된 수신 유닛; 및
    상기 이벤트 개체 및 상기 텍스트 검색 요청에 기반하여 상기 텍스트 라이브러리 내의 이벤트에 대해 검색을 수행하여 검색 결과를 획득하도록 구성된 검색 유닛
    을 더 포함하는, 이벤트 라이브러리를 구축하는 장치.
  17. 제16항에 있어서,
    상기 추출 유닛은,
    상기 이벤트 텍스트 데이터에 대응되는 문장을 복수의 서브문장으로 분할하도록 구성된 분할 모듈;
    상기 복수의 서브문장에 대해 판별을 수행하여 각 서브문장이 이벤트 이름에 속하는 이벤트 확률을 획득하도록 구성된 판별 모듈; 및
    상기 이벤트 확률에 기반하여 상기 복수의 서브문장을 처리하여 추출 이벤트 이름을 획득하도록 구성된 처리 모듈
    을 포함하는, 이벤트 라이브러리를 구축하는 장치.
  18. 제17항에 있어서,
    상기 처리 모듈은,
    복수의 서브문장 내에 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장이 있는 것에 응답하여 이벤트 확률이 이벤트 이름 역치보다 큰 모든 서브문장을 스티칭하여 추출 이벤트 이름을 획득하도록 구성된 스티칭 서브모듈을 포함하는, 이벤트 라이브러리를 구축하는 장치.
  19. 제17항에 있어서,
    상기 처리 모듈은,
    상기 복수의 서브문장 내에 상기 이벤트 확률이 이벤트 이름 역치보다 큰 서브문장이 없는 것에 응답하여 상기 이벤트 텍스트 데이터 내의 타이틀을 취득하고 상기 타이틀을 추출 이벤트 이름으로 하도록 구성된 취득 서브모듈을 포함하는, 이벤트 라이브러리를 구축하는 장치.
  20. 제17항에 있어서,
    상기 이벤트 라이브러리에는 상기 리콜 이벤트의 이벤트 이름과 추출 이벤트 이름이 저장되어 있고,
    상기 검출 유닛은,
    상기 이벤트 라이브러리로부터 상기 리콜 이벤트의 이벤트 이름을 취득하도록 구성된 이름 결정 모듈;
    상기 리콜 이벤트의 이벤트 이름과 상기 추출 이벤트 이름을 정규 판별 모델에 입력하여 상기 추출 이벤트 이름이 상기 리콜 이벤트의 이벤트 이름에 속하는 리콜 확률을 획득하도록 구성된 리콜 모듈;
    상기 리콜 확률이 리콜 역치보다 큰 것에 응답하여 상기 리콜 이벤트의 추출 이벤트 이름과 상기 추출 이벤트 이름을 상기 정규 판별 모델에 입력하여 상기 추출 이벤트 이름이 상기 리콜 이벤트의 이벤트 이름에 속하는 정규 확률을 획득하도록 구성된 추출 모듈; 및
    상기 정규 확률이 상기 리콜 역치보다 큰 것에 응답하여 상기 추출 이벤트 이름이 정규화 조건에 부합된다고 결정하도록 구성된 부합 모듈
    을 포함하는, 이벤트 라이브러리를 구축하는 장치.
  21. 제12항에 있어서,
    상기 이벤트 텍스트 데이터는 이벤트 뉴스 텍스트 데이터이고, 상기 텍스트 라이브러리는 이벤트 뉴스를 저장하도록 사용되고, 상기 이벤트 라이브러리는 이벤트의 이벤트 이름 및 상기 이벤트 뉴스에 관련되는 이벤트의 관련 정보를 저장하도록 사용되는, 이벤트 라이브러리를 구축하는 장치.
  22. 제21항에 있어서,
    상기 이벤트 뉴스 텍스트 데이터는,
    뉴스정보 스트림으로부터 뉴스 텍스트 데이터를 취득하도록 구성된 정보 유닛;
    상기 뉴스 텍스트 데이터 내의 타이틀을 추출하도록 구성된 추출 유닛;
    상기 타이틀을 사전훈련이 완성된 이벤트 판별 모델에 입력하여 상기 타이틀이 이벤트의 타이틀에 속하는 확률을 획득하도록 구성된 판별 유닛; 및
    상기 타이틀 확률이 기설정된 이벤트 역치보다 크다고 결정하는 것에 응답하여 상기 뉴스 텍스트 데이터를 이벤트 뉴스 텍스트 데이터로 결정하도록 구성된 결정 유닛
    에 의해 획득되는, 이벤트 라이브러리를 구축하는 장치.
  23. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신적으로 연결되는 메모리
    를 포함하되, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제11항 중 어느 한 항의 방법을 수행하도록 하는, 전자 기기.
  24. 컴퓨터 명령어가 저장되어 있는 비일시적 컴퓨터 판독가능 저장매체로서,
    상기 컴퓨터 명령어는 상기 컴퓨터가 제1항 내지 제11항 중 어느 한 항의 방법을 수행하도록 하는, 비일시적 컴퓨터 판독가능 저장매체.
  25. 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행되는 경우, 제1항 내지 제11항 중 어느 한 항의 방법을 구현하는, 매체에 저장된 컴퓨터 프로그램.
KR1020220014482A 2021-05-19 2022-02-03 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체 KR20220024251A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110548521.0 2021-05-19
CN202110548521.0A CN113221538B (zh) 2021-05-19 2021-05-19 事件库构建方法和装置、电子设备、计算机可读介质

Publications (1)

Publication Number Publication Date
KR20220024251A true KR20220024251A (ko) 2022-03-03

Family

ID=77093313

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220014482A KR20220024251A (ko) 2021-05-19 2022-02-03 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체

Country Status (5)

Country Link
US (1) US20220129634A1 (ko)
EP (1) EP4092564A1 (ko)
JP (1) JP2022095608A (ko)
KR (1) KR20220024251A (ko)
CN (1) CN113221538B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028631B (zh) * 2023-03-30 2023-07-14 粤港澳大湾区数字经济研究院(福田) 一种多事件检测方法及相关设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075757A (ja) * 2007-09-19 2009-04-09 Kureo:Kk 情報処理装置、およびプログラム
US20110184983A1 (en) * 2010-01-28 2011-07-28 Her Majesty The Queen In Right Of Canada As Represented By The Minister Method and system for extracting and characterizing relationships between entities mentioned in documents
US9245022B2 (en) * 2010-12-30 2016-01-26 Google Inc. Context-based person search
US9116995B2 (en) * 2011-03-30 2015-08-25 Vcvc Iii Llc Cluster-based identification of news stories
CN103345489A (zh) * 2013-06-25 2013-10-09 百度在线网络技术(北京)有限公司 一种事件查询请求处理方法及装置
US20150294220A1 (en) * 2014-04-11 2015-10-15 Khalid Ragaei Oreif Structuring data around a topical matter and a.i./n.l.p./ machine learning knowledge system that enhances source content by identifying content topics and keywords and integrating associated/related contents
US9256664B2 (en) * 2014-07-03 2016-02-09 Palantir Technologies Inc. System and method for news events detection and visualization
WO2016182774A1 (en) * 2015-05-08 2016-11-17 Thomson Reuters Global Resources Social Media Events Detection and Verification
US11663254B2 (en) * 2016-01-29 2023-05-30 Thomson Reuters Enterprise Centre Gmbh System and engine for seeded clustering of news events
JP2017211687A (ja) * 2016-05-23 2017-11-30 株式会社Nttドコモ 関連文書抽出装置
US11640420B2 (en) * 2017-12-31 2023-05-02 Zignal Labs, Inc. System and method for automatic summarization of content with event based analysis
CN110309251B (zh) * 2018-03-12 2024-01-12 北京京东尚科信息技术有限公司 文本数据的处理方法、装置和计算机可读存储介质
CN110633330B (zh) * 2018-06-01 2022-02-22 北京百度网讯科技有限公司 事件发现方法、装置、设备及存储介质
CN109033200B (zh) * 2018-06-29 2021-03-02 北京百度网讯科技有限公司 事件抽取的方法、装置、设备及计算机可读介质
US10860860B1 (en) * 2019-01-03 2020-12-08 Amazon Technologies, Inc. Matching videos to titles using artificial intelligence
JP2022552421A (ja) * 2019-10-18 2022-12-15 ユーエル リミテッド ライアビリティ カンパニー 規制のための表現を動的に作成するための技術
CN111460288B (zh) * 2020-03-27 2023-08-04 北京百度网讯科技有限公司 用于检测新闻事件的方法和装置
CN112100374A (zh) * 2020-08-28 2020-12-18 清华大学 文本聚类方法、装置、电子设备及存储介质
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质

Also Published As

Publication number Publication date
EP4092564A1 (en) 2022-11-23
US20220129634A1 (en) 2022-04-28
CN113221538B (zh) 2023-09-19
CN113221538A (zh) 2021-08-06
JP2022095608A (ja) 2022-06-28

Similar Documents

Publication Publication Date Title
US11521603B2 (en) Automatically generating conference minutes
EP3819785A1 (en) Feature word determining method, apparatus, and server
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
EP4141697A1 (en) Method and apparatus of processing triple data, method and apparatus of training triple data processing model, device, and medium
EP3992814A2 (en) Method and apparatus for generating user interest profile, electronic device and storage medium
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
KR20220024251A (ko) 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체
CN116166814A (zh) 事件检测方法、装置、设备以及存储介质
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
CN115292506A (zh) 应用于办公领域的知识图谱本体构建方法和装置
CN114201607B (zh) 一种信息处理的方法和装置
CN117556050B (zh) 数据分类分级方法、装置、电子设备及存储介质
CN115828915B (zh) 实体消歧方法、装置、电子设备和存储介质
CN114492409B (zh) 文件内容的评价方法、装置、电子设备及程序产品
US20220318503A1 (en) Method and apparatus for identifying instruction, and screen for voice interaction
CN114117007A (zh) 检索实体的方法、装置、设备以及存储介质
CN114398469A (zh) 搜索词权重的确定方法、装置及电子设备
CN115203275A (zh) 召回结果排序方法、装置、设备、存储介质及程序产品
CN114706956A (zh) 分类信息获取、分类方法、装置、电子设备和存储介质
CN115617680A (zh) 用户体验测试案例生成方法、装置、设备及存储介质
CN113360602A (zh) 用于输出信息的方法、装置、设备以及存储介质