KR102117160B1 - 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치 - Google Patents

모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치 Download PDF

Info

Publication number
KR102117160B1
KR102117160B1 KR1020180115856A KR20180115856A KR102117160B1 KR 102117160 B1 KR102117160 B1 KR 102117160B1 KR 1020180115856 A KR1020180115856 A KR 1020180115856A KR 20180115856 A KR20180115856 A KR 20180115856A KR 102117160 B1 KR102117160 B1 KR 102117160B1
Authority
KR
South Korea
Prior art keywords
entity
text
vector
neural network
network model
Prior art date
Application number
KR1020180115856A
Other languages
English (en)
Other versions
KR20190094078A (ko
Inventor
즈판 펑
차오 루
용 주
잉 리
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20190094078A publication Critical patent/KR20190094078A/ko
Application granted granted Critical
Publication of KR102117160B1 publication Critical patent/KR102117160B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치를 제기하고, 여기서, 모호한 엔티티 단어에 기반한 텍스트 처리 방법은 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하고, 훈련된 단어 벡터 모델을 통해 문맥의 의미 벡터를 생성하며, 훈련된 무감독 신경망 모델을 통해, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하고, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 각 엔티티 텍스트 의미 및 각 엔티티 사이의 관계를 이미 학습하여 취득한 무감독 신경망 모델을 통해, 생성한 후보 엔티티의 제1 엔티티 벡터는 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 더 포함하게 되어, 모호성을 제거하려는 텍스트의 엔티티 정보가 완정히 형상화되도록 하고, 또 문맥의 의미 벡터와 싱크로율을 계산하여, 목표 엔티티를 결정하고, 모호성을 제거하려는 텍스트가 모호성 제거를 하는 정확성을 향상한다.

Description

모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치{A TEXT PROCESSING METHOD AND DEVICE BASED ON AMBIGUOUS ENTITY WORDS}
본 발명은 자연 언어 처리 기술 분야에 관한 것으로, 특히 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치에 관한 것이다.
모바일 인터넷의 보급에 따라, 마이크로 블로그, 인터넷 게시판 및 각 주요 뉴스 웹 사이트 등은 사람들의 생활을 대단히 크게 편리하게 하였지만, 이러한 플랫폼의 데이터는 대부분이 비 구조화 또는 반 구조화의 형식으로 존재하여, 이러한 지식 베이스중의 데이터에 대량의 모호한 엔티티 단어가존재하는 것을 초래한다.이런 모호한 엔티티 단어에 대해 모호성 제거 처리를 하는 것을 통해, 서로 다른 문맥에서 당해 엔티티 단어가 어느 사물을 기리키는 것인지를 식별할 수 있고, 후속의 구체적인 응용을 위하여 편리를 제공한다.
그러나 관련 기술에서, 한가지 방식은 기존의 지식 베이스 데이터를 이용하여, 텍스트 중복도와 관련도를 계산하여, 모호성 제거를 할 수 있다. 다른 한가지 방식은 기존 지식 베이스 데이터를 이용하여, 무감독(unsupervised) 또는 반 감독(semi-supervised)의 모델 훈련을 하며, 의미(semantic)에 근거하여 모호한 엔티티 단어에 대해 모호성 제거를 한다. 그러나 이 두가지 방식은, 모호성 제거의 효과가 비교적 낮다.
본 발명은 적어도 일정한 정도에서 관련 기술에서의 기술적 과제 중의 하나를 해결하는 것을 목적으로 한다.
이를 위해, 본 발명의 제1 목적은 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 제기하는 것이고, 훈련이 완성한 무감독 신경망 모델(Unsupervised neural network model)은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였으며, 무감독 신경망 모델을 통해 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성함으로써, 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하도록한다. 이로하여 엔티티 정보의 형상화가 비교적 완정하고, 진일보 제1 엔티티 벡터와 문맥의 의미 벡터의 싱크로율을 계산하여, 목표 엔티티를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성을 향상한다.
본 발명의 제2 목적은 모호한 엔티티 단어에 기반한 텍스트 처리 장치를 제기하는 것이다.
본 발명의 제3 목적은 컴퓨터 기기를 제기하는 것이다.
본 발명의 제4 목적은 비일시적 컴퓨터 판독가능 저장 매체를 제기하는 것이다.
본 발명의 제5 목적은 컴퓨터 프로그램 제품을 제기하는 것이다.
상술한 목적을 달성하기 위해, 본 발명의 제1 측면의 실시예는 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 제기하고, 텍스트 처리 방법은,
모호성을 제거하려는 텍스트의 문맥, 및 상기 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하는 단계 - 여기서, 상기 적어도 2개의 후보 엔티티는 서로 다른 의미를 가짐 - ;
훈련된 단어 벡터(word Embedding) 모델에 따라, 상기 문맥의 의미 벡터를 생성하는 단계;
훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하는 단계 - 여기서, 상기 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였음 -;
상기 문맥의 의미 벡터와 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 상기 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하는 단계; 및
상기 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 상기 모호성을 제거하려는 텍스트가 상기 문맥에서 표현하는 목표 엔티티를 결정하는 단계; 를 포함한다.
본 발명의 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하고, 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하며, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하고, 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 텍스트를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성과 효율을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 지식 베이스에서 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.
상술한 목적을 달성하기 위해, 본 발명의 제2 측면의 실시예는 모호한 엔티티 단어에 기반한 텍스트 처리 장치를 제기하고, 텍스트 처리 장치는 획득 모듈, 생성 모듈, 제1 결정 모듈, 및 제1 처리 모듈을 포함한다.
상기 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 상기 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 여기서, 상기 적어도 2개의 후보 엔티티는 서로 다른 의미를 가지며;
상기 생성 모듈은 훈련된 단어 벡터 모델에 따라, 상기 문맥의 의미 벡터를 생성하고; 훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하기 위한 것이며; 여기서, 상기 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였다.
상기 제1 결정 모듈은 상기 문맥의 의미 벡터와 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 상기 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하기 위한 것이다.
상기 제1 처리 모듈은 상기 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 상기 모호성을 제거하려는 텍스트가 상기 문맥에서 표현하는 목표 엔티티를 결정하기 위한 것이다.
본 발명의 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 장치에서, 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 생성 모듈은 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티로부터, 제1 엔티티 벡터를 생성하기 위한 것이며, 제1 결정 모듈은 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하기 위한 것이고, 제1 처리 모듈은 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함한다. 이로하여 엔티티 정보의 형상화가 비교적 완정하고, 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 텍스트를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 엔티티 정보의 형상화가 완정하지 않고, 지식 베이스에서 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.
상술한 목적을 달성하기 위해, 본 발명의 제3 측면의 실시예는 컴퓨터 기기를 제기하고, 컴퓨터 기기는 메모리, 프로세서 및 메모리에 저장되고 프로세서에서 작동 가능한 컴퓨터 프로그램을 포함하고, 상기 프로세서가 상기 프로그램을 수행할 경우, 제1 측면의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.
상술한 목적을 달성하기 위해, 본 발명의 제4 측면의 실시예는 비일시적 컴퓨터 판독가능 저장 매체를 제기하고, 비일시적 컴퓨터 판독가능 저장 매체에 컴퓨터 프로그램이 저장되어 있고, 당해 프로그램이 프로세서에 의해 수행될 경우, 제1 측면의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.
상술한 목적을 구현하기 위해, 본 발명의 제5 측면의 실시예는 컴퓨터 프로그램 제품을 제기하고, 상기 컴퓨터 프로그램 제품중의 명령이 프로세서에 의해 수행될 경우, 제1 측면의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.
본 발명의 추가적인 측면과 장점은 이하 설명에서 일부 제기되고 다른 일부는 이하 설명에서 더욱 명확해지거나 또는 본 발명의 실천을 통하여 이해될 것이다.
본 발명의 상기 및/또는 추가적인 측면과 장점은 이하 첨부된 도면을 결합하여 행한 실시예에 대한 설명으로부터 더욱 명확해지고 용이하게 이해될 것이며, 여기서:
도 1은 본 발명의 실시예가 제공하는 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 2는 본 발명의 실시예가 제공하는 다른 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 3a는 본 발명의 실시예가 제공하는 또 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 3b는 본 발명의 실시예가 제공하는 바이두 지식 베이스에 기반한 각 모델 사이의 전략 프레임 도이다.
도 4는 본 발명의 실시예가 제공하는 또 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 5는 본 발명의 실시예가 제공하는 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 구조 개략도이다.
도 6은 본 발명의 실시예가 제공하는 다른 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 구조 개략도이다.
도 7은 본 출원의 실시형태의 예시적인 컴퓨터 기기를 구현하는데 사용되는 블록도를 표시한다.
이하, 본 발명의 실시예를 상세하게 서술하고자 한다. 상기 실시예의 예시는 도면에 도시되었는 바, 그중 시종일관하게 동일하거나 유사한 도면부호는 동일하거나 유사한 소자 또는 동일하거나 유사한 기능을 가진 소자를 가리킨다. 아래 첨부도면을 참조하여 설명된 실시예는 예시적인 것으로, 본 발명을 해석하기 위한 것일 뿐, 본 발명을 제한하는 것으로 이해하여서는 안된다.
아래의 참조 도면은 본 발명의 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치를 서술한다.
도 1은 본 발명의 실시예가 제공하는 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 1에 도시된 바와 같이, 당해 방법은 단계 101~단계 105를 포함한다.
단계 101, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득한다.
구체적으로, 지식 베이스로부터 모호성을 제거하려는 텍스트를 포함한 텍스트 세트를 획득하고, 단어 분리 알고리즘을 이용하여 텍스트 세트를 처리하며, 가능한 구현 방식으로서, 중국어 단어 분리 시스템(Ictclas) 알고리즘을 이용하여, 텍스트 세트에 대해 품사 태깅과 단어 분리를 할 수 있다. 그다음 의미가 없는 단어 리스트에 따라 의미가 없는 단어(StopWords)를 제거하고, 복수의 문자 또는 단어를 획득하여, 하나의 엔티티 집합을 구성하며, 모호성을 제거하려는 텍스트를 중심으로, 고정 창구 중 하나의 단어를 골라서 당해 모호성을 제거하려는 텍스트의 문맥으로 하고, 당해 모호성을 제거하려는 텍스트의 문맥을 매트릭스A로 표시하고 A=[w1 w2 w3 w4 ... wN]이며, 여기서, N는 모호성을 제거하려는 텍스트의 문맥의 길이이다. 지식 베이스를 검색하여, 모호성을 제거하려는 텍스트가 표현하는 엔티티와, 지식 베이스에서 텍스트가 표현하는 엔티티를 비교하여, 만약 같으면, 지식 베이스에서 표현하는 엔티티를 모호성을 제거하려는 텍스트가 표현하는 후보 엔티티로 하고, 후보 엔티티의 개수는 적어도 2개이고, 여기서, 2개의 후보 엔티티는 서로 다른 의미를 가지며, 예를 들어, 후보 엔티티는 2개이고, 각 휴대폰을 표현하는 애플과 과일을 표현하는 애플이며, 2개의 후보 엔티티는 비록 모두 애플이지만, 2개의 엔티티의 의미는 서로 다르다. 본 출원에서, 엔티티 단어는 실물의 명칭을 표시하며, 엔티티는 실물을 말한다.
단계 102, 훈련된 단어 벡터(Word Embedding) 모델에 따라, 문맥의 의미 벡터를 생성한다.
구체적으로, 훈련된 단어 벡터 모델에 모호성을 제거하려는 텍스트의 문맥을 입력한다. 훈련된 단어 벡터 모델에는 지식 베이스에 대응되는 모든 엔티티의 의미 벡터 테이블이 이미 생성하였기에, 테이블을 검색하면 모호성을 제거하려는 텍스트의 문맥에서 각 단어에 대응되는 의미 벡터를 바로 획득할 수 있다. 가능한 구현 방식으로서, 본 실시예에서의 단어 벡터 모델은 word2vec모델일 수 있고, word2vec모델을 통해 단어를 실제 값의 벡터로 표현할 수 있다. 예를 들어, 스타는, 단어 벡터에서 [0.792, -0.177, -0.107, 0.109, -0.542, ...]로 표시할 수 있다.
설명해야 하는 바는, 단어 벡터 모델에 대한 해석 설명은, 하기의 실시예에서 상세히 소개할 수 있다.
단계 103, 훈련된 무감독 신경망 모델에 따라, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성한다.
구체적으로, 적어도 2개의 후보를 훈련이 완성된 무감독 신경망 모델에 입력하여, 2개의 후보 엔티티에 대응되는 벡터를 각각 생성하고, 본 실시예에서 무감독 신경망 모델과 감독 신경망 모델이 있기에, 편리하게 구분하기 위하여, 무감독 신경망 모델이 생성한 벡터를 제1 엔티티 벡터라고 하고, 감독 신경망 모델이 생성한 벡터를 제2 엔티티 벡터라고 한다.
설명해야 하는 바는, 훈련된 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였다. 그원인은, 비록 무감독 신경망이 엔티티와 엔티티 사이의 관계를 이용하여, 엔티티에 잠재된 의미 정보를 형상화하는데 사용되지만, 무감독 신경망 모델(Unsupervised neural network model)은 감독 신경망 모델(Supervised neural network model)이 생성한 데이터의 기초상에서 더 훈련하여 취득한 것이고, 감독 신경망 모델은 엔티티에 관련한 중요 정보를 이용하여, 엔티티의 텍스트 의미 정보를 형상화할 수 있으며, 따라서, 감독 신경망 모델이 생성한 엔티티 텍스트 의미 데이터를 이용하여, 무감독 신경망 모델에 대해 훈련을 할 수 있음으로써, 무감독 신경망 모델이 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득할 수 있도록 하고, 엔티티 정보의 형상화가 비교적 완정하도록 한다. 후속 실시예에서 감독 신경망과 무감독 신경망의 생성 및 훈련 과정을 상세히 해석한다.
단계 104, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 결정한다.
구체적으로, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하기 전에, 획득하여 취득한 문맥의 의미 벡터를 무감독 신경망 모델에 입력한다. 여기서, 무감독 신경망 모델은 입력층(Input layer), 은닉층(hidden layer)과 출력층(Output layer)을 포함하고, 문맥의 의미 벡터를 무감독 신경망 모델의 입력층에 입력하고, 당해 모델의 출력층의 가중치를 문맥에 대응되는 제1 엔티티 벡터로 하고, 문맥에 대응되는 제1 엔티티 벡터와 각 후보 엔티티의 제1 엔티티 벡터에 따라 싱크로율을 계산하며, 가능한 구현 방식으로서, 활성층(LogisticRegression) 모델, 즉 무감독 신경망 모델의 출력층을 훈련함으로써, 직접 계산하여 획득한다.
설명해야 하는 바는, 문맥의 의미 벡터를 무감독 신경망 모델에 입력하여, 문맥에 대응되는 제1 엔티티 벡터를 취득함으로써, 문맥에 대응되는 제1 엔티티 벡터와 후보 엔티티에 대응되는 제1 엔티티 벡터가 동일한 벡터 공간에 있도록 하여, 싱크로율 계산에 편리하다.
단계 105, 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다.
구체적으로, 계산을 통해 문맥과 각 후보 엔티티 사이의 싱크로율을 취득하여, 문맥 싱크로율이 가장 높은 후보 엔티티를 결정하고, 당해 후보 엔티티를 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티로 한다. 즉 모호성을 제거하려는 텍스트의 원래 의미를 복원하고, 엔티티의 모호성 제거를 구현한다.
본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하고, 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하며, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하고, 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 엔티티 정보의 완정한 형상화를 구현한다. 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 지식 베이스에서 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.
단어 벡터 모델을 이용하여 문맥의 의미 벡터를 생성하기 전에, 먼저 응용 정경에 따라, 단어 벡터 모델을 훈련하여, 응용 정경에 부합되는 단어 벡터 모델을 취득한다. 이를 위해, 본 실시예는 이 과정을 해석한다.
이를 대하여, 본 발명은 다른 하나의 가능한 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 제기한다. 도 2는 본 발명의 실시예가 제공하는 다른 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이며, 단어 벡터 모델을 생성하는 과정을 더 명확하게 해석하였다. 도 2에 도시된 바와 같이, 전의 실시예에 기반하여, 단계 102 전에, 당해 방법은 단계 201와 단계 202를 포함할 수 있다.
단계 201, 서로 다른 응용 정경에 대하여, 대응되는 훈련 코퍼스(training corpus)를 각각 생성한다.
구체적으로, 서로 다른 응용 정경은, 서로 다른 훈련 코퍼스를 이용한다. 예를 들어, 검색 응용에서, 검색 로그를 이용하여 대응되는 훈련 코퍼스를 구축할 필요가 있고, 웹 텍스트 이해 응용에서, 웹을 이용하여 훈련 코퍼스를 구축할 필요가 있다. 가능한 구현 방식으로서, 본 실시예는 바이두의 사용자 검색 로그, 및 바이두의 지식 베이스 데이터에 기반하여, 서로 다른 응용 정경에서, 대응되는 훈련 코퍼스를 생성한다. 바이두의 사용자 검색 로그와 바이두의 지식 베이스 데이터에 기반하였기에, 데이터 양이 비교적 크고, 훈련 코퍼스가 비교적 풍부하며, 훈련의 효과를 향상할 수 있다.
단계 202, 각 응용 정경에 대응되는 훈련 코퍼스를 이용하여 단어 벡터 모델을 훈련하여, 각 응용 정경에 적용하는 단어 벡터 모델을 취득한다.
구체적으로, 응용 정경에 따라 대응되는 훈련 코퍼스를 결정한 후, 훈련 코퍼스에 대해 단어 분리 처리를 한다. 가능한 구현 방식으로서, 중국어 단어 분리 시스템(Ictclas) 단어 분리 알고리즘을 이용하여, 훈련 코퍼스에서의 복수의 문서에 대해, 단어 분리 처리를 할 수 있고, 의미가 없는 단어 리스트를 이용하여 의미가 없는 단어를 제거함으로써, 복수의 문자, 단의미 단편(fragment)을 취득한다. 각 단편은 하나의 표제어(term)이며, 즉 각 term은 하나의 단어 또는 하나의 문자를 대표하고, 각 term은 스페이스로 분리한다. 예를 들어, 편리하게 구분하기 위하여, 서로 다른 단편에 대해 번호를 매기고, term1 term2 term3 term4 term5 ......로 표시할 수 있다.
더 나아가, 단어 벡터 모델을 이용하여 훈련하는 가능한 구현 방식으로, 단어 벡터 모델은 word2vec모델일 수 있고, 당해 모델은 단어를 실제 값 벡터로 표현하는 효율적인 알고리즘 모델이며, 이는 딥러닝(Deep Learning)의 아이디어를 이용하여, 훈련을 통해, 텍스트 내용에 대한 처리를 K 차원 벡터 공간에서의 벡터로 간소화할 수 있고, 더 나아가 벡터 사이의 연산을 통해 벡터 공간에서의 싱크로율을 획득하며, 벡터 공간에서의 싱크로율은 텍스트 의미에서의 싱크로율을 표시하는데 사용될 수 있다. 본 실시예에서 구체적으로 word2vec모델에서의 skipgram방식을 이용하여, 응용 정경에 대응되는 훈련 코퍼스를 훈련하여, 서로 다른 응용 정경에 대응되는 단의미 의미 벡터 테이블을 취득할 수 있음으로써, 각 응용 정경에 적용되는 단어 벡터 모델을 취득할 수 있다.
본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 응용 정경에 따라 단어 벡터 모델을 훈련하여, 각 응용 정경에 적용되는 단어 벡터 모델을 취득함으로써, 서로 다른 응용 정경에 대하여 모호성 제거 처리가 필요할 경우, 모호성을 제거하려는 텍스트에 대응되는 문맥을 처리할 수 있다. 예를 들어, 테이블을 검색하여 문맥에 대응되는 의미 벡터를 생성하고, 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티에 대해, 이미 학습을 통하여 취득한 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계의 무감독 신경망 모델을 통해 후보 엔티티의 제1 엔티티 벡터를 생성하여, 엔티티 정보의 형상화가 비교적 완정하도록 한다. 더 나아가 문맥의 의미 벡터와 후보 엔티티의 제1 엔티티 벡터에 따라 싱크로율을 계산하고, 싱크로율의 계산 결과에 따라, 후보 엔티티중에서 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정하여, 모호성 제거의 정확성이 비교적 높다. 동시에, 단어 벡터 모델에 대한 훈련은 제일 큰 중국어 지식 베이스에 기반하였기에, 동일한 이름이지만 같지 않은 뜻을 갖는 다중의 모호한 엔티티에 대한 모호성 제거 효과가 비교적 좋다.
상술한 실시예에서, 후보 엔티티는 훈련된 무감독 신경망 모델에 입력되어, 제1 엔티티 벡터를 취득하고, 여기서, 무감독 신경망 모델 훈련 과정에서 감독 신경망 모델이 출력한 데이터를 사용할 필요가 있으며, 이를 위해, 다음에 실시예를 통해 감독 신경망 모델의 생성과 훈련 과정, 및 감독 신경망 모델이 훈련을 완성한 후, 무감독 신경망 모델에 대해 훈련하는 과정을 해석하고 설명한다.
상술한 실시예에 기반하여, 본 발명은 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 가능한 구현 방식을 더 제기한다. 도 3a는 본 발명의 실시예가 제공하는 또 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이고, 도 3a에 도시된 바와 같이, 단계 103전에 단계 301~단계 306를 더 포함할 수 있다.
단계 301, 감독 신경망 모델의 훈련 샘플의 포지티브 이그잼플(positive example)과 네거티브 이그잼플(negative example)을 생성한다.
훈련 샘플의 포지티브 이그잼플을 생성하는 방법은, 구체적으로: 지식 베이스에서의 각 엔티티는 관련된 속성, 및 속성값을 가지고, 동시에 각 엔티티에 대응되는 당해 엔티티의 소개 정보가 있을 수 있으며, 지식 베이스에서의 각 엔티티의 속성, 및 각 엔티티의 소개 정보로부터 추출한 키워드에 따라, 훈련 샘플의 포지티브 이그잼플을 생성한다. 예를 들어, 엔티티가 류더화 일 경우, 이는 많은 속성을 가지고, 예를 들어, 류더화는 아내의 속성, 딸의 속성이 있으며, 아내의 속성값은 주리첸(즉 안해의 이름)이고, 딸의 속성값은 류향혜(즉 딸의 이름)이며, 관련한 속성은 매우 많고, 여기서 일일이 열거하지 않는다.
류더화에 대해, 예를 들어, 류더화는, 1961년9월27일 홍콩에서 태여났고, 배우, 가수, 프로듀서, 작사가이며, 대표작에는 "The Condor Heros", "Infernal Affairs", "Shock Wave" 등과 같은 관련된 소개 정보가 더 있다. 당해 소개 정보를 통해, 엔티티인 류더화의 예를 들어 배우, 가수, 작품인 "Infernal Affairs" 등과 같은 키워드를 추출할 수 있다.
따라서, 주리첸, 류향혜, 배우, 가수, 작품인 "Infernal Affairs" 등과 같은 것을, 엔티티인 류더화의 훈련 샘플의 포지티브 이그잼플로 할 수 있다.
훈련 샘플의 네거티브 이그잼플을 생성하는 방법은, 구체적으로: 지식 베이스에서의 각 엔티티의 모든 텍스트의 서술 정보에 대해 단어 분할 처리를 한 후, 단어 분할을 통하여 취득한 각 표제어에 대해 단어 빈도 통계를 하고, 각 표제의미 단어 빈도에 따라, 각 표제어를 네거티브 샘플링(Negative Sampling)하고, 훈련 샘플의 네거티브 이그잼플을 취득한다. 발명자는 실제 테스트에서, 단어 빈도를 통해 네거티브 샘플링하여 결정한 네거티브 이그잼플을 이용하여 훈련한 효과는, 완전히 무작위로 네거티브 샘플링하여 결정한 네거티브 이그잼플을 이용하여 훈련한 효과보다 좋고, 모델 훈련의 속도와 모델 훈련의 효과를 향상한다는 것을 발견하였다.
예를 들어, 표 1에 나타낸 바와 같이, 각 표제어 및 각 표제어가 나타나는 빈도를 통해, 하나의 표제어 및 표제어의 빈도표를 생성할 수 있고, 단어 빈도가 큰 것으로부터 작아지는 순서에 따라 배열 할 수 있다.
표제어 단어 빈도
교사 113132
경찰 100099
웹 사이트 10000
사랑 9502
공연 8000
슬픔 4119
··· ···
가능한 구현 방식으로서, 표 1의 표제어 및 표제어의 빈도표에 따라, 빈도에 근거해 네거티브 샘플링하고, 네거티브 샘플링의 결과에서 결정한 표제어를 훈련의 네거티브 샘플로 하며, 당해 방식은 무작위의 네거티브 샘플링에 비교하여, 모델 훈련의 효과가 더 좋다.
단계 302, 훈련 샘플에 따라 감독 신경망 모델을 훈련한다.
여기서, 감독 신경망 모델은 훈련 샘플의 각 텍스트의 의미 벡터를 입력하기 위한 제1 레이어, 및 제1 레이어로부터 입력된 텍스트가 서술한 엔티티를 예측하기 위한 제2 레이어를 포함한다. 가능한 구현 방식으로서, 다큐먼트 벡터(Doc2vec)의 기술을 이용하여 이 2개의 레이어를 연결하고 훈련할 수 있다. 구체적으로, 감독 신경망 모델의 입력, 즉 제1 레이어의 입력은, 훈련 샘플의 각 텍스트의 의미 벡터이다. 즉 훈련 샘플에 대응되는 엔티티의 텍스트를 도 2에 대응되는 실시예에서의 단어 벡터 모델에 입력하여, 당해 엔티티에 대응되는 텍스트 의미 벡터를 생성하고, 당해 텍스트 의미 벡터를 감독 신경망 모델의 제1 레이어에 입력한 후, 제2 레이어를 통해 제1 레이어로부터 입력된 텍스트가 서술한 엔티티를 예측한다.
단계 303, 감독 신경망 모델에서, 제1 레이어로부터 입력되는 훈련 샘플의 텍스트가 제2 레이어에서 출력되는 엔티티를 서술하기 위한 것일 경우, 감독 신경망 모델의 훈련이 완료되었다고 결정한다.
구체적으로, 감독 신경망 모델에서, 제1 레이어로부터 입력된 훈련 샘플의 텍스트가, 제2 레이어에서 출력되는 엔티티를 서술하기 위한 것일 경우, 제2 레이어의 파라미터는 제1 레이어에서 입력하는 훈련 샘플의 텍스트가 서술하기 위한 엔티티인 것을 정확하게 예측하기 위한 것일 수 있는 것을 설명하고, 당해 파라미터의 훈련 효과는 비교적 좋으며, 제2 레이어의 파라미터를 결정하는 동시에 감독 신경망 모델의 훈련이 완료되었다고 결정한다. 감독 신경망 모델의 2개의 레이어의 설치 방식은, 감독 신경망 모델의 훈련을 완성한 후, 이미 학습을 통하여 각 엔티티의 의미를 취득하였기에, 텍스트와 엔티티 사이의 대응 관계가 결정되였다.
단계 304, 훈련된 감독 신경망 모델을 이용하여, 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터를 생성한다.
구체적으로, 훈련된 감독 신경망 모델은, 제2 레이어의 파라미터를 결정하였고, 지식 베이스에서의 각 엔티티를 훈련된 감독 신경망 모델에 입력하고, 제2 레이어의 파라미터를 이용하여 지식 베이스에서의 각 엔티티에 대응되는 제2 엔티티 벡터를 생성할 수 있다.
단계 305, 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터에 따라, 무감독 신경망 모델이 출력한 각 엔티티의 제1 엔티티 벡터를 초기화한다.
구체적으로, 무감독 신경망 모델의 입력은 지식 베이스중의 각 엔티티이고, 각 엔티티가 훈련하지 않은 무감독 신경망 모델에 입력된 후, 각 엔티티에 대응되는 제1 엔티티 벡터를 생성하고, 당해 제1 엔티티 벡터는 무작위로 생성하는 난수 시퀀스이고, 당해 각 엔티티의 제1 엔티티 벡터는, 후속 훈련 과정에서 부단히 업데이트되어, 목표 요구에 부합되는 제1 엔티티 벡터를 마지막에 취득한다. 감독 신경망 모델이 출력한 지식 베이스에서, 각 엔티티의 제2 엔티티 벡터를 무감독 신경망 모델에 입력하여, 무감독 신경망 모델이 출력한 각 엔티티의 제1 엔티티 벡터를 초기화하고, 즉 무감독 신경망 모델의 출력을 각 엔티티의 제2 엔티티 벡터로 바꾸며, 이로하여 무감독 신경망 모델이 훈련할 때의 반복 횟수를 낮출 수 있고, 훈련 속도와 훈련 효과를 향상한다. 또한 제2 엔티티 벡터는 텍스트와 엔티티 사이의 관계를 이미 학습하였으며, 또 무감독 신경망 모델에 입력되어 훈련하고, 무감독 신경망 모델을 이용하여 엔티티와 엔티티 사이의 관계를 학습하여 취득할 수도 있음으로써, 텍스트와 엔티티 사이의 관계, 및 엔티티와 엔티티 사이의 관계를 포함하는 제1 엔티티 벡터를 마지막으로 출력한다.
단계 306, 엔티티 사이의 관련 관계에 따라, 초기화된 무감독 신경망 모델을 훈련한다.
구체적으로, 지식 베이스에서 관련 관계가 존재하는 각 엔티티에 따라, 및/또는, 검색 로그에서 같이 발생하는 관계가 존재하는 엔티티에 의해, 초기화된 무감독 신경망 모델을 훈련하고, 무감독 신경망 모델이 출력한 제1 엔티티 벡터 사이의 거리가 엔티티 사이의 관계의 긴밀한 정도에 서로 대응될 경우, 무감독 신경망 모델의 훈련이 완성된다.
도 3b는 본 발명의 실시예가 제공하는 바이두 지식 베이스에 기반한 각 모델 사이의 전략 프레임 도이다. 상술한 과정을 더 설명하기 위해, 도 3b에 도시된 바와 같이, 단어 벡터 모델은 바이두의 사용자 검색 로그와 바이두 지식 베이스 데이터에 기반하여, 표제어 벡터를 생성하고, 감독 신경망 모델은 바이두의 지식 베이스 데이터에 기반하여, 훈련 샘플을 생성하며, 단어 벡터 모델을 통해 훈련 샘플로부터 훈련 샘플에 대응되는 단어 벡터를 생성하고, 훈련 샘플의 단어 벡터를 감독 신경망 모델에 입력하여, 각 엔티티의 의미를 이미 학습한 엔티티 의미 벡터를 생성하며, 즉 각 엔티티의 제2 엔티티 벡터를 생성한다.
더 나아가, 감독 신경망 모델은 생성한 제2 엔티티 벡터를 무감독 신경망 모델에 입력하여, 무감독 신경망 모델의 제1 엔티티 벡터를 초기화하고, 그후 훈련을 통해, 각 엔티티 의미 및 각 엔티티 사이의 관계를 이미 학습한 제1 엔티티 벡터를 생성하여, 엔티티 정보에 대해 완정한 형상화를 구현하고, 모호성 제거 처리의 정확성을 향상한다.
본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 감독 신경망 모델을 훈련하는 것을 통해, 감독 신경망 모델이 각 엔티티의 의미를 학습하도록 하고, 또한 감독 신경망 모델이 생성한 각 엔티티의 제2 엔티티 벡터를 통해 무감독 신경망 모델에 대해 초기화하여, 무감독 신경망 모델이 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 학습하여 취득할 수 있게 되어, 데이터 이용이 더 충분하고, 엔티티의 정보를 완정하게 형상화하였다. 또한 무감독 신경망 모델을 이용하여 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 모호성 제거를 하는 정확성을 향상한다.
상술한 실시예에 기반하여, 본 발명의 실시예는 가능한 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 더 제기하고, 도 4는 본 발명의 실시예가 제공하는 또 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다. 도 4에 도시된 바와 같이, 단계 103 후에, 단계 401~단계 402를 포함할 수도 있다.
단계 401, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 서로 다른 후보 엔티티 사이의 싱크로율을 결정한다.
가능한 구현 방식으로서, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 코사인 거리 알고리즘을 이용하여, 임의의 2개의 후보 엔티티의 제1 엔티티 벡터 사이의 싱크로율을 계산할 수 있다.
단계 402, 서로 다른 후보 엔티티 사이의 싱크로율에 따라, 엔티티 관계 마이닝 또는 엔티티 추천을 행한다.
구체적으로, 계산에 따라 서로 다른 후보 엔티티 사이의 싱크로율을 취득한다. 가능한 구현 방식으로서, 싱크로율과 미리 설정될 역치를 비교하고, 싱크로율의 값이 역치의 싱크로율을 초과할 경우, 그의 대응되는 2개의 서로 다른 후보 엔티티 사이에 엔티티 관계가 존재하고, 지식 그래프에 엔티티의 가장자리 관계를 증가하며, 당해 가장자리 관계는 엔티티 추천에 사용될 수 있다. 예를 들어, 검색 응용 정경에서, 사용자가 하나의 엔티티를 검색할 경우, 관련된 다른 하나의 엔티티를 추천하여, 검색의 효율을 향상할 수 있다.
본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하고, 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하며, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하고, 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성과 효율을 향상하고, 동시에 , 생성한 제1 엔티티 벡터에 따라, 서로 다른 후보 엔티티 사이의 싱크로율을 계산하여, 엔티티 관계에 대해 마이닝과 엔티티 추천에 사용 할 수 있어, 엔티티의 가장자리 관계를 증가한다.
상술한 실시예를 구현하기 위해, 본 발명은 모호한 엔티티 단어에 기반한 텍스트 처리 장치를 더 제기한다.
도 5는 본 발명의 실시예가 제공하는 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 구조 개략도이다.
도 5에 도시된 바와 같이, 당해 장치는 획득 모듈(61), 생성 모듈(62), 제1 결정 모듈(63)과 제1 처리 모듈(64)을 포함한다.
획득 모듈(61)은, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 여기서, 적어도 2개의 후보 엔티티는 서로 다른 의미를 가진다.
생성 모듈(62)은, 훈련된 단어 벡터 모델에 따라, 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델에 따라, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하기 위한 것이며, 여기서, 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였다.
제1 결정 모듈(63)은, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하기 위한 것이다.
제1 처리 모듈(64)은, 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정하기 위한 것이다.
설명해야 하는 바는, 전술한 방법 실시예에 대한 해석 설명은 당해 실시예의 장치에도 적용되고, 여기서 반복하여 설명하지 않는다.
본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 장치에서, 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 생성 모듈은 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하기 위한 것이며, 제1 결정 모듈은 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하기 위한 것이고, 제1 처리 모듈은 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를여 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 텍스트를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성과 효율을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 엔티티 정보의 형상화가 완정하지 않고, 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.
상술한 실시예에 기반하여, 본 발명의 실시예는 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 가능한 구현 방식을 더 제공하고, 도 6은 본 발명의 실시예가 제공하는 다른 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 구조 개략도이다. 도 6에 도시된 바와 같이, 전의 실시예의 기초 상에, 당해 장치는 제1 훈련 모듈(65), 제2 훈련 모듈(66), 제3 훈련 모듈(67), 제2 결정 모듈(68)과 제2 처리 모듈(69)을 더 포함한다.
제1 훈련 모듈(65)은, 서로 다른 응용 정경에 대하여, 대응되는 훈련 코퍼스를 각각 생성하고, 각 응용 정경에 대응되는 훈련 코퍼스를 이용하여 단어 벡터 모델 훈련을 하여, 각 응용 정경에 적용하는 단어 벡터 모델을 취득하기 위한 것이다.
제2 훈련 모듈(66)은, 지식 베이스에서의 각 엔티티의 속성 및 각 엔티티의 소개 정보로부터 추출된 키워드에 따라, 훈련 샘플의 포지티브 이그잼플을 생성하고, 지식 베이스에서의 각 엔티티의 전부 텍스트 서술 정보에 따라, 훈련 샘플의 네거티브 이그잼플을 생성하며, 훈련 샘플에 따라, 감독 신경망 모델을 훈련한다. 여기서, 감독 신경망 모델은, 훈련 샘플의 각 텍스트의 의미 벡터를 입력하기 위한 제1 레이어, 및 제1 레이어로부터 입력된 텍스트가 서술한 엔티티를 예측하기 위한 제2 레이어를 포함하고, 여기서, 제2 레이어의 파라미터는 제2 엔티티 벡터를 생성하기 위한 것이다. 감독 신경망 모델에서, 제1 레이어로부터 입력된 훈련 샘플의 텍스트가 제2 레이어에서 출력되는 엔티티를 서술하기 위한 것일 경우, 감독 신경망 모델의 훈련이 완료되었다고 결정한다.
가능한 구현 방식으로서, 제2 훈련 모듈(66)은 지식 베이스에서의 각 엔티티의 전부 텍스트의 서술 정보에 대해 단어 분할 처리를 한 후, 단어 분할을 통하여 취득한 각 표제어에 대해 단어 빈도 통계를 하고, 각 표제의미 단어 빈도에 따라, 각 표제어를 네거티브 샘플링하여, 훈련 샘플의 네거티브 이그잼플을 취득하기 위한 것일 수도 있다.
제3 훈련 모듈(67)은, 훈련된 감독 신경망 모델을 이용하여, 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터를 생성하기 위한 것이다. 여기서, 감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 의미를 취득하였고, 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터에 따라, 무감독 신경망 모델로부터 출력하는 각 엔티티의 제1 엔티티 벡터를 초기화하며, 엔티티 사이의 관련 관계에 따라, 초기화된 무감독 신경망 모델을 훈련한다.
가능한 구현 방식으로서, 제3 훈련 모듈(67)은, 지식 베이스에서 관련 관계가 존재하는 각 엔티티에 따라, 및/또는, 검색 로그에서 같이 발생하는 관계가 존재하는 엔티티에 따라, 초기화된 무감독 신경망 모델을 훈련하고, 무감독 신경망 모델이 출력한 제1 엔티티 벡터 사이의 거리가 엔티티 사이의 관계의 긴밀한 정도에 서로 대응될 경우, 무감독 신경망 모델의 훈련이 완성되는데 사용할 수도 있다.
제2 결정 모듈(68)은, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 서로 다른 후보 엔티티 사이의 싱크로율을 결정한다.
제2 처리 모듈(69)은, 서로 다른 후보 엔티티 사이의 싱크로율에 따라, 엔티티 관계 마이닝 또는 엔티티 추천을 행한다.
설명해야 하는 바는, 전술한 방법 실시예에 대한 해석 설명은 당해 실시예의 장치에도 적용되고, 여기서 반복하여 설명하지 않는다.
본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 장치에서, 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 생성 모듈은 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하기 위한 것이며, 제1 결정 모듈은 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하기 위한 것이고, 제1 처리 모듈은 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 텍스트를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성과 효율을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 엔티티 정보의 형상화가 완정하지 않고, 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.
상술한 실시예를 구현하기 위해, 본 발명은 컴퓨터 기기를 더 제기한다. 컴퓨터 기기는 메모리, 프로세서 및 메모리에 저장되고 프로세서에서 작동 가능한 컴퓨터 프로그램을 포함하고, 상기 프로세서가 상기 프로그램을 수행할 경우, 전술한 방법의 실시예의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.
상술한 실시예를 구현하기 위해, 본 발명은 비일시적 컴퓨터 판독가능 저장 매체를 더 제기한다. 비일시적 컴퓨터 판독가능 저장 매체에 컴퓨터 프로그램이 저장되어 있고, 당해 프로그램이 프로세서에 의해 수행될 경우, 전술한 방법의 실시예의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.
상술한 실시예를 구현하기 위해, 본 발명은 컴퓨터 프로그램 제품을 더 제기하고, 상기 컴퓨터 프로그램 제품중의 명령이 프로세서에 의해 수행될 경우, 전술한 방법의 실시예의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.
도 7은 본 출원의 실시형태의 예시적인 컴퓨터 기기를 구현하는데 사용되는 적합한 블록도를 표시한다. 도 7에 도시된 컴퓨터 기기(12)는 단지 예시일 뿐이고, 본 출원의 실시예의 기능과 사용 범위에 대해 어떠한 제한을 가해서는 않된다.
도 7에 도시된 바와 같이, 컴퓨터 기기(12)는 범용 계산 기기의 형식으로 표현된다. 컴퓨터 기기(12)의 컴포넌트는 하나 또는 복수의 프로세싱 유닛(16)(또는 프로세서), 시스템 메모리(28), 서로 다른 시스템 컴포넌트(시스템 메모리(28)와 프로세싱 유닛(16)을 포함함)를 연결한 버스(18)를 포함할 수 있지만 이에 한정하지 않는다.
버스(18)는 몇가지 유형 버스 구성중의 하나 또는 복수를 표시하고, 메모리 버스 또는 메모리 제어기, 주변 장치 버스, 그래픽 가속 포트, 프로세서 또는 멀티 버스 구조에서의 임의의 버스 구조를 사용한 로컬 버스를 포함한다. 예를 들어, 이러한 체계 구조는 업계 표준 아키텍처(Industry Standard Architecture; 하기의 약칭: ISA)버스, 마이크로 채널 구조(Micro Channel Architecture; 하기의 약칭: MCA)버스, 향상된 ISA버스, 비디오 일렉트로닉스 표준화 협회(Video Electronics Standards Association; 하기의 약칭: VESA)로컬 버스 및 PCI(Peripheral Component Interconnection; 하기의 약칭: PCI)버스를 포함하지만 이에 한정하지 않는다.
컴퓨터 기기(12)는 전형적으로 멀티 컴퓨터 시스템의 판독 가능한 매체를 포함한다. 이러한 매체는 컴퓨터 기기(12)에 의해 액세스할 수 있는 모든 사용 가능한 매체일 수 있고, 휘발성 매체와 비 휘발성 매체, 분리형 매체와 비 분리형 매체를 포함하다.
메모리(28)는 휘발성 메모리 형식의 컴퓨터 시스템 판독 가능 매체를 포함할 수 있고, 예를 들어 랜덤 액세스 메모리(Random Access Memory; 하기의 약칭: RAM)(30) 및/또는 캐시 메모리(32)이다. 컴퓨터 기기(12)는 분리형/비 분리형, 휘발성/비 휘발성 컴퓨터 시스템 저장 매체를 더 포함한다. 단지 예로서, 저장 시스템(34)은 비 분리형, 비 휘발성 자기 매체를 판독 기록하는데 사용될 수있다(도 7에는 도시되지 않음, 통상적으로 "하드 드라이버”라고 함)이다. 비록 도 7에는 도시되지 않았지만, 분리형 비 휘발성 디스크(예를 들어“플로피 디스크”)에 대해 판독 기록하기 위한 디스크 드라이브, 및 분리형 비 휘발성 시디롬(예를 들어: 시디롬(Compact Disc Read Only Memory; 하기의 약칭: CD-ROM), 디브이디롬(Digital Video Disc Read Only Memory; 하기의 약칭: DVD-ROM) 또는 기타 광학 매체)에 대해 판독 기록하기 위한 시디롬 드라이버를 제공할 수 있다. 이러한 경우, 각 드라이브는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(18)와 서로 연결된다. 메모리(28)는 적어도 하나의 프로그램 제품을 포함할 수 있고, 당해 프로그램 제품은 한 조(예를 들어 적어도 하나)프로그램 모듈을 가지며, 이러한 프로그램 모듈은 본 출원의 각 실시예의 기능을 수행하도록 구성된다.
한 조(적어도 하나)의 프로그램 모듈(42)을 구비한 프로그램/유틸리티(40)는, 예를 들어 메모리(28)에 저장할 수 있고, 이러한 프로그램 모듈(42)은 운영 체제, 하나 또는 복수의 응용 프로그램 , 기타 프로그램 모듈 및 프로그램 데이터를 포함하지만 이에 한정하지 않으며, 이러한 예시에서의 각각 또는 일부 조합에는 네트워크 환경의 구현을 포함할 수 있다. 프로그램 모듈(42)은 통상적으로 본 출원에서 서술하는 실시예 에서의 기능 및/또는 방법을 수행한다.
컴퓨터 기기(12)는 하나 또는 복수의 외부 기기(14)(예를 들어 키보드, 포인팅 기기, 디스플레이(24) 등)와 통신할 수도 있고, 하나 또는 복수의 사용자가 당해 컴퓨터 기기(12)와 상호 작용할 수 있도록 하는 기기와 통신할 수도 있으며, 및/또는 당해 컴퓨터 기기(12)가 하나 또는 복수의 기타 계산 기기와 통신할 수 있도록 하는 임의의 기기(예를 들어 랜카드, 모뎀 등)와 통신한다. 이런 통신은 입력/출력(I/O)인터페이스(22)를 통해 할 수 있다. 또한, 컴퓨터 기기(12)는 네트워크 어댑터(20)를 통해 하나 또는 복수의 네트워크(예를 들어근거리 통신망(Local Area Network; 하기의 약칭: LAN), 광역 통신망(Wide Area Network; 하기의 약칭: WAN)및/또는 예를 들어 인터넷과 같은 공중 네트워크)와 통신할 수도 있다. 도시된 바와 같이, 네트워크 어댑터(20)는 버스(18)를 통해 컴퓨터 기기(12)의 기타 모듈과 통신한다. 이해해야 하는 것은, 도면에 도시되지 않았지만, 컴퓨터 기기(12)를 결합하여 기타 하드웨어 및/또는 소프트웨어 모듈을 사용할 수 있고, 마이크로 코드, 기기 드라이브, 리던던트 프로세싱 유닛 , 외부 디스크 드라이브 배열, RAID시스템, 테이프 드라이브 및 데이터 백업 저장 시스템 등을 포함하지만 이에 한정하지 않는다.
프로세싱 유닛(16)은 시스템 메모리(28)에 저장된 프로그램을 작동하는 것을 통해, 예를 들어 전술한 실시예에서 제기된 방법을 구현함으로써 각종 기능 응용 및 데이터 처리를 수행한다.
본 명세서의 설명에서 참조 용어 "일 실시예”, "일부 실시예”, "예시적인 실시예”, "예시”, "구체적 예시” 또는 "일부 예시” 등의 설명은 당해 실시예 또는 예시를 결합하여 설명하는 구체적인 특징, 구조, 재료 또는 특점이 본 발명의 적어도 하나의 실시예 또는 예시에 포함된다는 것을 의미한다. 본 명세서에서 상술한 용어에 대한 예시적인 설명이 반드시 동일한 실시예 또는 예시를 가리키는 것은 아니다. 그리고, 설명된 구체적 특징, 구조, 재료 또는 특점은 임의의 하나 또는 복수의 실시예 또는 예시에서 적합한 방식으로 결합될 수 있다. 이 외에, 서로 모순이 없을 경우, 본 기술 분야의 통상의 지식을 가진자들은 본 명세서에서 설명한 다른 실시예 또는 실례 및 다른 실시예 또는 실례의 구성을 결합과 조합할 수 있다.
이 외에, 용어“제1", "제2"는 단지 설명의 목적을 위한 것일 뿐, 상대적인 중요성을 지시하거나 암시하는 것 또는 지시된 기술 특징의 수량을 함축적으로 제시하는 것으로 이해해서는 안된다. 이에 따라, "제1", "제2"로 한정된 특징은 적어도 하나의 당해 특징을 명시하거나 함춤적으로 포함할 수 있다. 본 발명의 설명에서, 별도로 명확하게 구체적인 한정을 하지 않는 한 "복수”의 함의는 적어도 두개이고 예를 들어 두개, 세개이다.
흐름도에서 또는 여기에서 기타 방식으로 설명되는 어떠한 과정 또는 방법 설명은 한개 또는 더 많은 수량의 특정 로직 기능이나 과정의 단계를 실현하기 위한 수행가능 명령의 코드의 모듈, 단락 또는 부분을 포함하는 것을 나타내는것으로 이해할 수 있다. 그리고 본 발명의 바람직한 실시예의 범위는 별도의 실현을 포함하는바, 여기서 관련되는 기능은 제시되거나 토론된 순서대로가 아닌, 거의 동시의 방식 또는 상반되는 순서를 포함한 순서에 따라 수행될 수 있는바, 이는 본 발명의 실시예가 속하는 기술분야의 통상의 지식을 가진 자들에 의해 이해될 수 있다.
흐름도에서 표시되거나 여기서 기타 방식으로 설명되는 로직 및/또는 단계는, 예를 들면, 로직 기능을 실현하기 위한 수행 가능한 명령의 서열 리스트로 여길 수 있으며, 구체적으로 어떠한 컴퓨터 판독가능 매체에서 실현되어 명령 수행 시스템, 장치 또는 설비(예를 들면, 컴퓨터에 기초한 시스템, 프로세서를 포함한 시스템 또는 기타 명령 수행 시스템, 장치나 설비로부터 명령을 취득하고 명령을 수행할 수 있는 시스템)에 제공되어 사용될 수 있거나 또는 이런 명령 수행 시스템, 장치 또는 설비를 결부하여 사용할 수 있다. 본 명세서에 대해 말하자면, "컴퓨터 판독가능 매체”는 어떠한 프로그램을 포함, 저장, 통신, 전파 또는 전송하여 명령 수행 시스템, 장치 또는 설비에 제공할 수 있거나 또는 이런 명령 수행 시스템, 장치 또는 설비를 결부하여 사용하는 장치 일 수 있다. 컴퓨터 판독가능 매체의 더 구체적인 예시(비 전면 리스트임)는 하기와 같은 것을 포함한다. 하나의 또는 복수개의 배선을 갖는 전기 연결부(전기 장치), 휴대용 컴퓨터 디스크 케이스(자기 장치), 랜덤 액세스 메모리(RAM), 판독 전용 기억 장치(ROM), 소거 프로그램 가능 랜덤 액세스 메모리(EPROM또는 플래시 메모리), 광섬유 장치 및 시디롬(CDROM)이다. 이 외에, 컴퓨터 판독 가능 매체는 심지어 그 위에 상기 프로그램을 프린트할 수 있는 종이나 기타 적합한 매체일 수 있다. 종이 또는 기타 매체에 대해 광학 스캐닝을 행하고 이어 편집, 해독을 행하거나 필요할 때 기타 적합한 방식으로 처리하는 것을 통하여 전자 방식으로 상기 프로그램을 획득하고, 다음 그를 컴퓨터 메모리에 저장할 수 있기 때문이다.
본 발명의 각 부분은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 조합으로 실현될 수 있다는 것으로 이해되어야 한다. 상기 실시예에서, 복수개의 단계나 방법은 메모리에 저장된 적합한 명령 수행 시스템이 수행하는 소프트웨어 또는 펌웨어로 실현할 수 있다. 예를 들면, 만약 하드웨어로 실현한다면 다른 한 실시예에서처럼 본 분야에서 공지된 아래에 열거한 기술 중의 어느 한 항 또는 그들의 조합으로 실현할 수 있다. 데이터 신호에 대해 로직 기능을 실현하기 위한 로직 게이트 회로를 구비한 이산 로직 회로, 적합한 조합 로직 게이트 회로를 구비한 전용 집적 회로, 프로그램 가능 게이트 어레이(PGA), 필드 프로그램 가능 게이트 어레이(FPGA)등이다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자들은, 상기 실시예 방법이 지닌 전부 또는 일부 단계의 실현은 프로그램을 통하여 관련 하드웨어를 명령하여 완성할 수 있고, 상기 프로그램은 컴퓨터 판독가능 저장 매체에 저장될 수 있으며, 당해 프로그램이 수행될 때 방법 실시예의 단계 중의 하나 또는 그 조합을 포함한다는 것을 이해할 수 있다.
이 외에, 본 발명의 각 실시예에서 각 기능 유닛은 하나의 처리 모듈에 집적될 수 있고, 각 유닛이 단독으로 물리적으로 존재할 수도 있으며 두개 또는 두개 이상의 유닛이 하나의 모듈에 집적될 수도 있다. 상기 집적된 모듈은 하드웨의미 형식으로 실현될 수도 있고, 소프트웨어 기능 모듈의 형식을 적용하여 실현할 수도 있다. 상기 통합된 모듈이 만약 소프트웨어 기능 모듈의 형식으로 실현되고 독립된 제품으로 판매되거나 사용될 때 하나의 컴퓨터 판독 가능한 저장 매체에 저장될 수도 있다.
위에서 언급된 저장 매체는 읽기 전용 기억 장치, 디스크 또는 CD일 수 있다. 비록 이미 본 발명의 실시예를 제시하고 설명하였으나, 상술한 실시예는 예시적인 것이고, 본 발명에 대한 한정으로 이해해서는 안되며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자들은 본 발명의 범위 내에서 이러한 실시예에 대해 변화, 수정, 대체와 변형을 진행할 수 있음을 이해할 수 있다.

Claims (11)

  1. 모호한 엔티티 단어에 기반한 텍스트 처리 방법에 있어서,
    획득 모듈은, 모호성을 제거하려는 텍스트의 문맥, 및 상기 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하는 단계 - 여기서, 상기 적어도 2개의 후보 엔티티는 서로 다른 의미를 가짐 - ;
    생성 모듈은, 훈련된 단어 벡터 모델에 따라, 상기 문맥의 의미 벡터를 생성하는 단계;
    상기 생성 모듈은, 훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하는 단계 - 여기서, 상기 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였음 -;
    제1 결정 모듈은, 상기 문맥의 의미 벡터와 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 상기 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하는 단계; 및
    제1 처리 모듈은, 상기 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 상기 모호성을 제거하려는 텍스트가 상기 문맥에서 표현하는 목표 엔티티를 결정하는 단계; 를 포함하는 것,
    을 특징으로 하는 모호한 엔티티 단어에 기반한 텍스트 처리 방법.
  2. 제1 항에 있어서,
    상기 훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하기 전에,
    제3 훈련 모듈은, 훈련된 감독 신경망 모델을 이용하여, 미리 설정된 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터를 생성하는 단계 - 상기 감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 의미를 취득하였음 - ;
    상기 제3 훈련 모듈은, 상기 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터에 따라, 상기 무감독 신경망 모델이 출력한 각 엔티티의 제1 엔티티 벡터를 초기화하는 단계; 및
    상기 제3 훈련 모듈은, 엔티티 사이의 관련 관계에 따라, 초기화 된 무감독 신경망 모델을 훈련하는 단계; 를 더 포함하는 것,
    을 특징으로 하는 텍스트 처리 방법.
  3. 제2 항에 있어서,
    상기 훈련된 감독 신경망 모델을 이용하여, 상기 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터를 생성하기 전에,
    제2 훈련 모듈은, 지식 베이스에서의 각 엔티티의 속성 및 각 엔티티의 소개 정보에서 추출된 키워드에 따라, 훈련 샘플의 포지티브 이그잼플을 생성하는 단계;
    상기 제2 훈련 모듈은, 상기 지식 베이스에서의 각 엔티티의 전부 텍스트 서술 정보에 따라, 훈련 샘플의 네거티브 이그잼플을 생성하는 단계;
    상기 제2 훈련 모듈은, 상기 훈련 샘플에 따라, 감독 신경망 모델을 훈련하는 단계 - 여기서, 상기 감독 신경망 모델은, 훈련 샘플의 각 텍스트의 의미 벡터를 입력하기 위한 제1 레이어, 및 제1 레이어로부터 입력된 텍스트가 서술한 엔티티를 예측하기 위한 제2 레이어를 포함하고, 상기 제2 레이어의 파라미터는 상기 제2 엔티티 벡터를 생성하기 위한 것임 - ; 및
    상기 감독 신경망 모델에서, 제1 레이어로부터 입력된 훈련 샘플의 텍스트가 상기 제2 레이어에서 출력되는 엔티티를 서술하기 위한 것일 경우, 상기 제2 훈련 모듈은 상기 감독 신경망 모델의 훈련이 완료되었다고 결정하는 단계; 를 더 포함하는 것,
    을 특징으로 하는 텍스트 처리 방법.
  4. 제3 항에 있어서,
    상기 지식 베이스에서의 각 엔티티의 전부 텍스트 서술 정보에 따라, 훈련 샘플의 네거티브 이그잼플을 생성하는 단계는,
    상기 제2 훈련 모듈은, 상기 지식 베이스에서의 각 엔티티의 전부 텍스트 서술 정보에 대해 단어 분할 처리를 한 후, 단어 분할을 통하여 취득한 각 표제어에 대해 단어 빈도 통계를 하는 단계; 및
    상기 제2 훈련 모듈은, 각 표제의미 단어 빈도에 따라, 각 표제어를 네거티브 샘플링하여, 상기 훈련 샘플의 네거티브 이그잼플을 취득하는 단계; 를 포함하는 것,
    을 특징으로 하는 텍스트 처리 방법.
  5. 제2 항에 있어서,
    상기 엔티티 사이의 관련 관계에 따라, 초기화 된 무감독 신경망 모델을 훈련하는 단계는,
    상기 제3 훈련 모듈은, 지식 베이스에서 관련 관계가 존재하는 각 엔티티에 따라, 및/또는, 검색 로그에서 동시발생 관계가 존재하는 엔티티에 따라, 초기화 된 무감독 신경망 모델을 훈련하는 단계; 및
    상기 제3 훈련 모듈은, 상기 무감독 신경망 모델이 출력한 제1 엔티티 벡터 사이의 거리가 상기 엔티티 사이의 관계긴밀 정도에 서로 대응될 경우, 상기 무감독 신경망 모델의 훈련이 완료되는 단계; 를 포함하는 것,
    을 특징으로 하는 텍스트 처리 방법.
  6. 제1 항에 있어서,
    상기 훈련된 단어 벡터 모델에 따라, 상기 문맥의 의미 벡터를 생성하기 전에,
    제1 훈련 모듈은, 서로 다른 응용 정경에 대하여, 대응되는 훈련 코퍼스를 각각 생성하고;
    상기 제1 훈련 모듈은, 각 응용 정경에 대응되는 훈련 코퍼스를 이용하여 단어 벡터 모델 훈련을 하여, 각 응용 정경에 적용하는 단어 벡터 모델을 취득하는 단계; 를 더 포함하는 것,
    을 특징으로 하는 텍스트 처리 방법.
  7. 제1 항에 있어서,
    상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성한 후,
    제2 결정 모듈은, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 서로 다른 후보 엔티티 사이의 싱크로율을 결정하는 단계; 및
    제2 처리 모듈은, 서로 다른 후보 엔티티 사이의 싱크로율에 따라, 엔티티 관계 마이닝 또는 엔티티 추천을 수행하는 단계; 를 더 포함하는 것,
    을 특징으로 하는 텍스트 처리 방법.
  8. 모호한 엔티티 단어에 기반한 텍스트 처리 장치에 있어서,
    획득 모듈, 생성 모듈, 제1 결정 모듈, 및 제1 처리 모듈을 포함하고,
    상기 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 상기 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 여기서, 상기 적어도 2개의 후보 엔티티는 서로 다른 의미를 가지며;
    상기 생성 모듈은 훈련된 단어 벡터 모델에 따라, 상기 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하기 위한 것이며; 여기서, 상기 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였고;
    상기 제1 결정 모듈은 상기 문맥의 의미 벡터와 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 상기 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하기 위한 것이며;
    상기 제1 처리 모듈은 상기 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 상기 모호성을 제거하려는 텍스트가 상기 문맥에서 표현하는 목표 엔티티를 결정하기 위한 것,
    을 특징으로 하는 모호한 엔티티 단어에 기반한 텍스트 처리 장치.
  9. 컴퓨터 기기에 있어서,
    메모리, 프로세서 및 메모리에 저장되고 프로세서에서 작동 가능한 컴퓨터 프로그램을 포함하고,
    상기 프로세서가 상기 프로그램을 수행할 경우, 제1 항 내지 제7 항 중 어느 한 항의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현하는 것,
    을 특징으로 하는 컴퓨터 기기.
  10. 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
    상기 프로그램이 프로세서에 의해 수행될 경우, 제1 항 내지 제7 항 중 어느 한 항의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현하는 것,
    을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  11. 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 수행될 경우, 제1 항 내지 제7 항 중 어느 한 항의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 수행하는 것,
    을 특징으로 하는 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램.
KR1020180115856A 2018-01-17 2018-09-28 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치 KR102117160B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810044364.8A CN108280061B (zh) 2018-01-17 2018-01-17 基于歧义实体词的文本处理方法和装置
CN201810044364.8 2018-01-17

Publications (2)

Publication Number Publication Date
KR20190094078A KR20190094078A (ko) 2019-08-12
KR102117160B1 true KR102117160B1 (ko) 2020-06-01

Family

ID=62803839

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180115856A KR102117160B1 (ko) 2018-01-17 2018-09-28 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치

Country Status (5)

Country Link
US (1) US11455542B2 (ko)
EP (1) EP3514702A1 (ko)
JP (1) JP6643555B2 (ko)
KR (1) KR102117160B1 (ko)
CN (1) CN108280061B (ko)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555208B (zh) * 2018-06-04 2021-11-19 北京三快在线科技有限公司 一种信息查询中的歧义消除方法、装置及电子设备
CN108920467B (zh) * 2018-08-01 2021-04-27 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN110929507B (zh) * 2018-08-31 2023-07-21 中国移动通信有限公司研究院 一种文本信息处理的方法、装置及存储介质
CN110162753B (zh) * 2018-11-08 2022-12-13 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN109614610A (zh) * 2018-11-27 2019-04-12 新华三大数据技术有限公司 相似文本识别方法及装置
CN109614615B (zh) * 2018-12-04 2022-04-22 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109635114A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109783651B (zh) * 2019-01-29 2022-03-04 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN109933785B (zh) * 2019-02-03 2023-06-20 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN109902186B (zh) * 2019-03-12 2021-05-11 北京百度网讯科技有限公司 用于生成神经网络的方法和装置
CN110096573B (zh) * 2019-04-22 2022-12-27 腾讯科技(深圳)有限公司 一种文本解析方法及装置
CN110210018B (zh) * 2019-05-14 2023-07-11 北京百度网讯科技有限公司 挂号科室的匹配方法和装置
CN110134965B (zh) * 2019-05-21 2023-08-18 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110580337A (zh) * 2019-06-11 2019-12-17 福建奇点时空数字科技有限公司 一种基于实体相似度计算的专业实体消歧实现方法
KR20190083629A (ko) * 2019-06-24 2019-07-12 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110245357B (zh) * 2019-06-26 2023-05-02 北京百度网讯科技有限公司 主实体识别方法和装置
CN110287910A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN110427612B (zh) * 2019-07-02 2023-04-28 平安科技(深圳)有限公司 基于多语言的实体消歧方法、装置、设备和存储介质
CN110390106B (zh) * 2019-07-24 2023-04-21 中南民族大学 基于双向关联的语义消歧方法、装置、设备及存储介质
CN110502613B (zh) * 2019-08-12 2022-03-08 腾讯科技(深圳)有限公司 一种模型训练方法、智能检索方法、装置和存储介质
CN110705292B (zh) * 2019-08-22 2022-11-29 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110688452B (zh) * 2019-08-23 2022-09-13 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110532557B (zh) * 2019-08-29 2023-07-28 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110543636B (zh) * 2019-09-06 2023-05-23 出门问问创新科技有限公司 一种对话系统的训练数据选择方法
CN110580294B (zh) * 2019-09-11 2022-11-29 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备
CN110909531B (zh) * 2019-10-18 2024-03-22 平安科技(深圳)有限公司 信息安全的甄别方法、装置、设备及存储介质
CN112711642A (zh) * 2019-10-24 2021-04-27 阿里巴巴集团控股有限公司 一种药物名称匹配方法和装置
CN111143521B (zh) * 2019-10-28 2023-08-15 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法
CN110825875B (zh) * 2019-11-01 2022-12-06 科大讯飞股份有限公司 文本实体类型识别方法、装置、电子设备和存储介质
CN110852106B (zh) * 2019-11-06 2024-05-03 腾讯科技(深圳)有限公司 基于人工智能的命名实体处理方法、装置及电子设备
CN110956033A (zh) * 2019-12-04 2020-04-03 北京中电普华信息技术有限公司 一种文本相似度计算方法及装置
CN110991187B (zh) * 2019-12-05 2024-03-08 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN113010633B (zh) * 2019-12-20 2023-01-31 海信视像科技股份有限公司 一种信息交互方法及设备
CN111191466B (zh) * 2019-12-25 2022-04-01 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111198932B (zh) * 2019-12-30 2023-03-21 北京明略软件系统有限公司 三元组获取方法、装置、电子设备及可读存储介质
CN111241298B (zh) * 2020-01-08 2023-10-10 腾讯科技(深圳)有限公司 信息处理方法、装置和计算机可读存储介质
CN111241282B (zh) * 2020-01-14 2023-09-08 北京百度网讯科技有限公司 文本主题生成方法、装置及电子设备
CN111259671B (zh) * 2020-01-15 2023-10-31 北京百度网讯科技有限公司 文本实体的语义描述处理方法、装置及设备
CN111241838B (zh) * 2020-01-15 2023-10-31 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
CN111310475B (zh) * 2020-02-04 2023-03-10 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN111428044B (zh) * 2020-03-06 2024-04-05 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置
CN111523324B (zh) * 2020-03-18 2024-01-26 大箴(杭州)科技有限公司 命名实体识别模型的训练方法及装置
CN111460096B (zh) * 2020-03-26 2023-12-22 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111460102B (zh) * 2020-03-31 2022-09-09 成都数之联科技股份有限公司 一种基于自然语言处理的图表推荐系统及方法
US20210312901A1 (en) * 2020-04-02 2021-10-07 Soundhound, Inc. Automatic learning of entities, words, pronunciations, and parts of speech
CN111522887B (zh) * 2020-04-03 2023-09-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111523326B (zh) * 2020-04-23 2023-03-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111523323B (zh) * 2020-04-26 2022-08-12 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和系统
CN113627135B (zh) * 2020-05-08 2023-09-29 百度在线网络技术(北京)有限公司 一种招聘岗位描述文本的生成方法、装置、设备及介质
CN111581975B (zh) * 2020-05-09 2023-06-20 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
CN111539220B (zh) * 2020-05-12 2022-06-28 北京百度网讯科技有限公司 语义相似度模型的训练方法、装置、电子设备及存储介质
US11410186B2 (en) * 2020-05-14 2022-08-09 Sap Se Automated support for interpretation of terms
CN112749553B (zh) * 2020-06-05 2023-07-25 腾讯科技(深圳)有限公司 视频文件的文本信息处理方法、装置和服务器
CN111428507B (zh) * 2020-06-09 2020-09-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111695359B (zh) * 2020-06-12 2023-10-03 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN112001180A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多模态预训练模型获取方法、装置、电子设备及存储介质
US20220027409A1 (en) * 2020-07-23 2022-01-27 Vmware, Inc. Entity to vector representation from graphs in a computing system
CN111737406B (zh) * 2020-07-28 2022-11-29 腾讯科技(深圳)有限公司 文本检索方法、装置及设备、文本检索模型的训练方法
CN111949767A (zh) * 2020-08-20 2020-11-17 深圳市卡牛科技有限公司 一种文本关键词的查找方法、装置、设备和存储介质
CN111984790B (zh) * 2020-08-26 2023-07-25 南京柯基数据科技有限公司 一种实体关系抽取方法
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN112232085B (zh) * 2020-10-15 2021-10-08 海南大学 面向本质计算与推理的跨dikw模态文本歧义处理方法
CN112256828B (zh) * 2020-10-20 2023-08-08 平安科技(深圳)有限公司 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN112270184B (zh) * 2020-10-23 2023-11-14 平安科技(深圳)有限公司 自然语言处理方法、装置及存储介质
CN112287680B (zh) * 2020-10-23 2024-04-09 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112364624B (zh) * 2020-11-04 2023-09-26 重庆邮电大学 基于深度学习语言模型融合语义特征的关键词提取方法
CN112434533B (zh) * 2020-11-16 2024-04-23 广州视源电子科技股份有限公司 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112232059B (zh) * 2020-12-14 2021-03-26 北京声智科技有限公司 文本纠错方法、装置、计算机设备及存储介质
CN112633000A (zh) * 2020-12-25 2021-04-09 北京明略软件系统有限公司 一种文本中实体的关联方法、装置、电子设备及存储介质
CN112699667B (zh) * 2020-12-29 2024-05-21 京东科技控股股份有限公司 一种实体相似度确定方法、装置、设备和存储介质
CN113221561A (zh) * 2021-01-27 2021-08-06 北京云天互联科技有限公司 基于nlp结合上下文的实体识别方法
CN112836013A (zh) * 2021-01-29 2021-05-25 北京大米科技有限公司 一种数据标注的方法、装置、可读存储介质和电子设备
CN112860866B (zh) * 2021-02-09 2023-09-19 北京百度网讯科技有限公司 语义检索方法、装置、设备以及存储介质
CN113822013B (zh) * 2021-03-08 2024-04-05 京东科技控股股份有限公司 用于文本数据的标注方法、装置、计算机设备及存储介质
CN112926329B (zh) * 2021-03-10 2024-02-20 招商银行股份有限公司 文本生成方法、装置、设备及计算机可读存储介质
CN112883730B (zh) * 2021-03-25 2023-01-17 平安国际智慧城市科技股份有限公司 相似文本匹配方法、装置、电子设备及存储介质
CN113761218B (zh) * 2021-04-27 2024-05-10 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113221577A (zh) * 2021-04-28 2021-08-06 西安交通大学 一种教育文本知识归纳方法、系统、设备及可读存储介质
CN113239192B (zh) * 2021-04-29 2024-04-16 湘潭大学 一种基于滑动窗口和随机离散采样的文本结构化技术
CN113361253B (zh) * 2021-05-28 2024-04-09 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113283240B (zh) * 2021-06-18 2023-07-07 竹间智能科技(上海)有限公司 共指消解方法及电子设备
CN113377930B (zh) * 2021-08-13 2021-11-30 中国科学院自动化研究所 面向中文短文本的实体识别与实体链接方法
CN113806552B (zh) * 2021-08-30 2022-06-14 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和存储介质
CN113743104B (zh) * 2021-08-31 2024-04-16 合肥智能语音创新发展有限公司 实体链接方法及相关装置、电子设备、存储介质
CN113971216B (zh) * 2021-10-22 2023-02-03 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
KR20230089056A (ko) * 2021-12-13 2023-06-20 삼성전자주식회사 데이터 결합을 위한 전자 장치 및 이의 제어 방법
CN114239583B (zh) * 2021-12-15 2023-04-07 北京百度网讯科技有限公司 实体链指模型的训练及实体链指方法、装置、设备及介质
CN113947087B (zh) * 2021-12-20 2022-04-15 太极计算机股份有限公司 一种基于标签的关系构建方法、装置、电子设备及存储介质
KR20230102882A (ko) * 2021-12-30 2023-07-07 삼성전자주식회사 전자 장치 및 그 제어 방법
CN114386424B (zh) * 2022-03-24 2022-06-10 上海帜讯信息技术股份有限公司 行业专业文本自动标注方法、装置、终端及存储介质
CN114841164A (zh) * 2022-04-29 2022-08-02 浪潮电子信息产业股份有限公司 一种实体链接方法、装置、设备及存储介质
CN114818736B (zh) * 2022-05-31 2023-06-09 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN115293158B (zh) * 2022-06-30 2024-02-02 撼地数智(重庆)科技有限公司 基于标签辅助的消歧方法及装置
CN115828915B (zh) * 2022-09-07 2023-08-22 北京百度网讯科技有限公司 实体消歧方法、装置、电子设备和存储介质
CN116127053B (zh) * 2023-02-14 2024-01-02 北京百度网讯科技有限公司 实体词消歧、知识图谱生成和知识推荐方法以及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331515A (ja) 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP2007323475A (ja) 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
US20160189047A1 (en) * 2014-12-30 2016-06-30 Yahoo! Inc. Method and System for Entity Linking
WO2016210203A1 (en) 2015-06-26 2016-12-29 Microsoft Technology Licensing, Llc Learning entity and word embeddings for entity disambiguation
KR101806151B1 (ko) 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230021A (ja) * 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
CN101566998B (zh) * 2009-05-26 2011-12-28 华中师范大学 一种基于神经网络的中文问答系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN105894088B (zh) * 2016-03-25 2018-06-29 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106055675B (zh) * 2016-06-06 2019-10-29 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN106295796B (zh) * 2016-07-22 2018-12-25 浙江大学 基于深度学习的实体链接方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN107102989B (zh) * 2017-05-24 2020-09-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331515A (ja) 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP2007323475A (ja) 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
US20160189047A1 (en) * 2014-12-30 2016-06-30 Yahoo! Inc. Method and System for Entity Linking
WO2016210203A1 (en) 2015-06-26 2016-12-29 Microsoft Technology Licensing, Llc Learning entity and word embeddings for entity disambiguation
KR101806151B1 (ko) 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김민호 외, 한국어 어휘의미망의 의미 관계를 이용한 어의 중의성 해소, 정보과학회논문지 제38권제19호, pp.554-564 (2011.10.) 1부.*

Also Published As

Publication number Publication date
US20190220749A1 (en) 2019-07-18
CN108280061A (zh) 2018-07-13
JP2019125343A (ja) 2019-07-25
CN108280061B (zh) 2021-10-26
JP6643555B2 (ja) 2020-02-12
EP3514702A1 (en) 2019-07-24
US11455542B2 (en) 2022-09-27
KR20190094078A (ko) 2019-08-12

Similar Documents

Publication Publication Date Title
KR102117160B1 (ko) 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치
US11216504B2 (en) Document recommendation method and device based on semantic tag
US11210470B2 (en) Automatic text segmentation based on relevant context
US20170286397A1 (en) Predictive Embeddings
US10169703B2 (en) System and method for analogy detection and analysis in a natural language question and answering system
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
US10108602B2 (en) Dynamic portmanteau word semantic identification
US10380154B2 (en) Information retrieval using structured resources for paraphrase resolution
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
CN109670185B (zh) 基于人工智能的文本生成方法和装置
CN104573099A (zh) 题目的搜索方法及装置
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
US10318883B2 (en) Identifying optimum times at which to retrain a logistic regression model
US10235350B2 (en) Detect annotation error locations through unannotated document segment partitioning
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN111611805A (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
US20190034410A1 (en) Unsupervised Template Extraction
US20190156835A1 (en) Diarization Driven by Meta-Information Identified in Discussion Content
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
Sperber et al. Segmentation for efficient supervised language annotation with an explicit cost-utility tradeoff
KR102651468B1 (ko) 개체명 인식 장치 및 방법
CN116205242A (zh) 翻译方法、装置、设备、介质及程序产品
KR20220065523A (ko) 목적지향 대화 말뭉치를 확장하기 위한 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant