KR102117160B1

KR102117160B1 - 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치

Info

Publication number: KR102117160B1
Application number: KR1020180115856A
Authority: KR
Inventors: 즈판 펑; 차오 루; 용 주; 잉 리
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2018-01-17
Filing date: 2018-09-28
Publication date: 2020-06-01
Also published as: US20190220749A1; CN108280061A; JP2019125343A; CN108280061B; JP6643555B2; EP3514702A1; US11455542B2; KR20190094078A

Abstract

본 발명은 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치를 제기하고, 여기서, 모호한 엔티티 단어에 기반한 텍스트 처리 방법은 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하고, 훈련된 단어 벡터 모델을 통해 문맥의 의미 벡터를 생성하며, 훈련된 무감독 신경망 모델을 통해, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하고, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 각 엔티티 텍스트 의미 및 각 엔티티 사이의 관계를 이미 학습하여 취득한 무감독 신경망 모델을 통해, 생성한 후보 엔티티의 제1 엔티티 벡터는 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 더 포함하게 되어, 모호성을 제거하려는 텍스트의 엔티티 정보가 완정히 형상화되도록 하고, 또 문맥의 의미 벡터와 싱크로율을 계산하여, 목표 엔티티를 결정하고, 모호성을 제거하려는 텍스트가 모호성 제거를 하는 정확성을 향상한다.

Description

모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치{A TEXT PROCESSING METHOD AND DEVICE BASED ON AMBIGUOUS ENTITY WORDS}

본 발명은 자연 언어 처리 기술 분야에 관한 것으로, 특히 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치에 관한 것이다.

모바일 인터넷의 보급에 따라, 마이크로 블로그, 인터넷 게시판 및 각 주요 뉴스 웹 사이트 등은 사람들의 생활을 대단히 크게 편리하게 하였지만, 이러한 플랫폼의 데이터는 대부분이 비 구조화 또는 반 구조화의 형식으로 존재하여, 이러한 지식 베이스중의 데이터에 대량의 모호한 엔티티 단어가존재하는 것을 초래한다.이런 모호한 엔티티 단어에 대해 모호성 제거 처리를 하는 것을 통해, 서로 다른 문맥에서 당해 엔티티 단어가 어느 사물을 기리키는 것인지를 식별할 수 있고, 후속의 구체적인 응용을 위하여 편리를 제공한다.

그러나 관련 기술에서, 한가지 방식은 기존의 지식 베이스 데이터를 이용하여, 텍스트 중복도와 관련도를 계산하여, 모호성 제거를 할 수 있다. 다른 한가지 방식은 기존 지식 베이스 데이터를 이용하여, 무감독(unsupervised) 또는 반 감독(semi-supervised)의 모델 훈련을 하며, 의미(semantic)에 근거하여 모호한 엔티티 단어에 대해 모호성 제거를 한다. 그러나 이 두가지 방식은, 모호성 제거의 효과가 비교적 낮다.

본 발명은 적어도 일정한 정도에서 관련 기술에서의 기술적 과제 중의 하나를 해결하는 것을 목적으로 한다.

이를 위해, 본 발명의 제1 목적은 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 제기하는 것이고, 훈련이 완성한 무감독 신경망 모델(Unsupervised neural network model)은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였으며, 무감독 신경망 모델을 통해 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성함으로써, 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하도록한다. 이로하여 엔티티 정보의 형상화가 비교적 완정하고, 진일보 제1 엔티티 벡터와 문맥의 의미 벡터의 싱크로율을 계산하여, 목표 엔티티를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성을 향상한다.

본 발명의 제2 목적은 모호한 엔티티 단어에 기반한 텍스트 처리 장치를 제기하는 것이다.

본 발명의 제3 목적은 컴퓨터 기기를 제기하는 것이다.

본 발명의 제4 목적은 비일시적 컴퓨터 판독가능 저장 매체를 제기하는 것이다.

본 발명의 제5 목적은 컴퓨터 프로그램 제품을 제기하는 것이다.

상술한 목적을 달성하기 위해, 본 발명의 제1 측면의 실시예는 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 제기하고, 텍스트 처리 방법은,

모호성을 제거하려는 텍스트의 문맥, 및 상기 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하는 단계 - 여기서, 상기 적어도 2개의 후보 엔티티는 서로 다른 의미를 가짐 - ;

훈련된 단어 벡터(word Embedding) 모델에 따라, 상기 문맥의 의미 벡터를 생성하는 단계;

훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하는 단계 - 여기서, 상기 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였음 -;

상기 문맥의 의미 벡터와 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 상기 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하는 단계; 및

상기 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 상기 모호성을 제거하려는 텍스트가 상기 문맥에서 표현하는 목표 엔티티를 결정하는 단계; 를 포함한다.

본 발명의 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하고, 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하며, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하고, 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 텍스트를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성과 효율을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 지식 베이스에서 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.

상술한 목적을 달성하기 위해, 본 발명의 제2 측면의 실시예는 모호한 엔티티 단어에 기반한 텍스트 처리 장치를 제기하고, 텍스트 처리 장치는 획득 모듈, 생성 모듈, 제1 결정 모듈, 및 제1 처리 모듈을 포함한다.

상기 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 상기 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 여기서, 상기 적어도 2개의 후보 엔티티는 서로 다른 의미를 가지며;

상기 생성 모듈은 훈련된 단어 벡터 모델에 따라, 상기 문맥의 의미 벡터를 생성하고; 훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하기 위한 것이며; 여기서, 상기 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였다.

상기 제1 결정 모듈은 상기 문맥의 의미 벡터와 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 상기 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하기 위한 것이다.

상기 제1 처리 모듈은 상기 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 상기 모호성을 제거하려는 텍스트가 상기 문맥에서 표현하는 목표 엔티티를 결정하기 위한 것이다.

본 발명의 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 장치에서, 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 생성 모듈은 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티로부터, 제1 엔티티 벡터를 생성하기 위한 것이며, 제1 결정 모듈은 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하기 위한 것이고, 제1 처리 모듈은 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함한다. 이로하여 엔티티 정보의 형상화가 비교적 완정하고, 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 텍스트를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 엔티티 정보의 형상화가 완정하지 않고, 지식 베이스에서 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.

상술한 목적을 달성하기 위해, 본 발명의 제3 측면의 실시예는 컴퓨터 기기를 제기하고, 컴퓨터 기기는 메모리, 프로세서 및 메모리에 저장되고 프로세서에서 작동 가능한 컴퓨터 프로그램을 포함하고, 상기 프로세서가 상기 프로그램을 수행할 경우, 제1 측면의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.

상술한 목적을 달성하기 위해, 본 발명의 제4 측면의 실시예는 비일시적 컴퓨터 판독가능 저장 매체를 제기하고, 비일시적 컴퓨터 판독가능 저장 매체에 컴퓨터 프로그램이 저장되어 있고, 당해 프로그램이 프로세서에 의해 수행될 경우, 제1 측면의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.

상술한 목적을 구현하기 위해, 본 발명의 제5 측면의 실시예는 컴퓨터 프로그램 제품을 제기하고, 상기 컴퓨터 프로그램 제품중의 명령이 프로세서에 의해 수행될 경우, 제1 측면의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.

본 발명의 추가적인 측면과 장점은 이하 설명에서 일부 제기되고 다른 일부는 이하 설명에서 더욱 명확해지거나 또는 본 발명의 실천을 통하여 이해될 것이다.

본 발명의 상기 및/또는 추가적인 측면과 장점은 이하 첨부된 도면을 결합하여 행한 실시예에 대한 설명으로부터 더욱 명확해지고 용이하게 이해될 것이며, 여기서:
도 1은 본 발명의 실시예가 제공하는 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 2는 본 발명의 실시예가 제공하는 다른 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 3a는 본 발명의 실시예가 제공하는 또 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 3b는 본 발명의 실시예가 제공하는 바이두 지식 베이스에 기반한 각 모델 사이의 전략 프레임 도이다.
도 4는 본 발명의 실시예가 제공하는 또 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.
도 5는 본 발명의 실시예가 제공하는 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 구조 개략도이다.
도 6은 본 발명의 실시예가 제공하는 다른 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 구조 개략도이다.
도 7은 본 출원의 실시형태의 예시적인 컴퓨터 기기를 구현하는데 사용되는 블록도를 표시한다.

이하, 본 발명의 실시예를 상세하게 서술하고자 한다. 상기 실시예의 예시는 도면에 도시되었는 바, 그중 시종일관하게 동일하거나 유사한 도면부호는 동일하거나 유사한 소자 또는 동일하거나 유사한 기능을 가진 소자를 가리킨다. 아래 첨부도면을 참조하여 설명된 실시예는 예시적인 것으로, 본 발명을 해석하기 위한 것일 뿐, 본 발명을 제한하는 것으로 이해하여서는 안된다.

아래의 참조 도면은 본 발명의 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치를 서술한다.

도 1은 본 발명의 실시예가 제공하는 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다.

도 1에 도시된 바와 같이, 당해 방법은 단계 101~단계 105를 포함한다.

단계 101, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득한다.

구체적으로, 지식 베이스로부터 모호성을 제거하려는 텍스트를 포함한 텍스트 세트를 획득하고, 단어 분리 알고리즘을 이용하여 텍스트 세트를 처리하며, 가능한 구현 방식으로서, 중국어 단어 분리 시스템（Ictclas） 알고리즘을 이용하여, 텍스트 세트에 대해 품사 태깅과 단어 분리를 할 수 있다. 그다음 의미가 없는 단어 리스트에 따라 의미가 없는 단어(StopWords)를 제거하고, 복수의 문자 또는 단어를 획득하여, 하나의 엔티티 집합을 구성하며, 모호성을 제거하려는 텍스트를 중심으로, 고정 창구 중 하나의 단어를 골라서 당해 모호성을 제거하려는 텍스트의 문맥으로 하고, 당해 모호성을 제거하려는 텍스트의 문맥을 매트릭스A로 표시하고 A=[w1 w2 w3 w4 ... wN]이며, 여기서, N는 모호성을 제거하려는 텍스트의 문맥의 길이이다. 지식 베이스를 검색하여, 모호성을 제거하려는 텍스트가 표현하는 엔티티와, 지식 베이스에서 텍스트가 표현하는 엔티티를 비교하여, 만약 같으면, 지식 베이스에서 표현하는 엔티티를 모호성을 제거하려는 텍스트가 표현하는 후보 엔티티로 하고, 후보 엔티티의 개수는 적어도 2개이고, 여기서, 2개의 후보 엔티티는 서로 다른 의미를 가지며, 예를 들어, 후보 엔티티는 2개이고, 각 휴대폰을 표현하는 애플과 과일을 표현하는 애플이며, 2개의 후보 엔티티는 비록 모두 애플이지만, 2개의 엔티티의 의미는 서로 다르다. 본 출원에서, 엔티티 단어는 실물의 명칭을 표시하며, 엔티티는 실물을 말한다.

단계 102, 훈련된 단어 벡터(Word Embedding) 모델에 따라, 문맥의 의미 벡터를 생성한다.

구체적으로, 훈련된 단어 벡터 모델에 모호성을 제거하려는 텍스트의 문맥을 입력한다. 훈련된 단어 벡터 모델에는 지식 베이스에 대응되는 모든 엔티티의 의미 벡터 테이블이 이미 생성하였기에, 테이블을 검색하면 모호성을 제거하려는 텍스트의 문맥에서 각 단어에 대응되는 의미 벡터를 바로 획득할 수 있다. 가능한 구현 방식으로서, 본 실시예에서의 단어 벡터 모델은 word2vec모델일 수 있고, word2vec모델을 통해 단어를 실제 값의 벡터로 표현할 수 있다. 예를 들어, 스타는, 단어 벡터에서 [0.792, -0.177, -0.107, 0.109, -0.542, ...]로 표시할 수 있다.

설명해야 하는 바는, 단어 벡터 모델에 대한 해석 설명은, 하기의 실시예에서 상세히 소개할 수 있다.

단계 103, 훈련된 무감독 신경망 모델에 따라, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성한다.

구체적으로, 적어도 2개의 후보를 훈련이 완성된 무감독 신경망 모델에 입력하여, 2개의 후보 엔티티에 대응되는 벡터를 각각 생성하고, 본 실시예에서 무감독 신경망 모델과 감독 신경망 모델이 있기에, 편리하게 구분하기 위하여, 무감독 신경망 모델이 생성한 벡터를 제1 엔티티 벡터라고 하고, 감독 신경망 모델이 생성한 벡터를 제2 엔티티 벡터라고 한다.

설명해야 하는 바는, 훈련된 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였다. 그원인은, 비록 무감독 신경망이 엔티티와 엔티티 사이의 관계를 이용하여, 엔티티에 잠재된 의미 정보를 형상화하는데 사용되지만, 무감독 신경망 모델(Unsupervised neural network model)은 감독 신경망 모델(Supervised neural network model)이 생성한 데이터의 기초상에서 더 훈련하여 취득한 것이고, 감독 신경망 모델은 엔티티에 관련한 중요 정보를 이용하여, 엔티티의 텍스트 의미 정보를 형상화할 수 있으며, 따라서, 감독 신경망 모델이 생성한 엔티티 텍스트 의미 데이터를 이용하여, 무감독 신경망 모델에 대해 훈련을 할 수 있음으로써, 무감독 신경망 모델이 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득할 수 있도록 하고, 엔티티 정보의 형상화가 비교적 완정하도록 한다. 후속 실시예에서 감독 신경망과 무감독 신경망의 생성 및 훈련 과정을 상세히 해석한다.

단계 104, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 결정한다.

구체적으로, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하기 전에, 획득하여 취득한 문맥의 의미 벡터를 무감독 신경망 모델에 입력한다. 여기서, 무감독 신경망 모델은 입력층(Input layer), 은닉층(hidden layer)과 출력층(Output layer)을 포함하고, 문맥의 의미 벡터를 무감독 신경망 모델의 입력층에 입력하고, 당해 모델의 출력층의 가중치를 문맥에 대응되는 제1 엔티티 벡터로 하고, 문맥에 대응되는 제1 엔티티 벡터와 각 후보 엔티티의 제1 엔티티 벡터에 따라 싱크로율을 계산하며, 가능한 구현 방식으로서, 활성층（LogisticRegression） 모델, 즉 무감독 신경망 모델의 출력층을 훈련함으로써, 직접 계산하여 획득한다.

설명해야 하는 바는, 문맥의 의미 벡터를 무감독 신경망 모델에 입력하여, 문맥에 대응되는 제1 엔티티 벡터를 취득함으로써, 문맥에 대응되는 제1 엔티티 벡터와 후보 엔티티에 대응되는 제1 엔티티 벡터가 동일한 벡터 공간에 있도록 하여, 싱크로율 계산에 편리하다.

단계 105, 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다.

구체적으로, 계산을 통해 문맥과 각 후보 엔티티 사이의 싱크로율을 취득하여, 문맥 싱크로율이 가장 높은 후보 엔티티를 결정하고, 당해 후보 엔티티를 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티로 한다. 즉 모호성을 제거하려는 텍스트의 원래 의미를 복원하고, 엔티티의 모호성 제거를 구현한다.

본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하고, 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하며, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하고, 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 엔티티 정보의 완정한 형상화를 구현한다. 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 지식 베이스에서 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.

단어 벡터 모델을 이용하여 문맥의 의미 벡터를 생성하기 전에, 먼저 응용 정경에 따라, 단어 벡터 모델을 훈련하여, 응용 정경에 부합되는 단어 벡터 모델을 취득한다. 이를 위해, 본 실시예는 이 과정을 해석한다.

이를 대하여, 본 발명은 다른 하나의 가능한 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 제기한다. 도 2는 본 발명의 실시예가 제공하는 다른 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이며, 단어 벡터 모델을 생성하는 과정을 더 명확하게 해석하였다. 도 2에 도시된 바와 같이, 전의 실시예에 기반하여, 단계 102 전에, 당해 방법은 단계 201와 단계 202를 포함할 수 있다.

단계 201, 서로 다른 응용 정경에 대하여, 대응되는 훈련 코퍼스(training corpus)를 각각 생성한다.

구체적으로, 서로 다른 응용 정경은, 서로 다른 훈련 코퍼스를 이용한다. 예를 들어, 검색 응용에서, 검색 로그를 이용하여 대응되는 훈련 코퍼스를 구축할 필요가 있고, 웹 텍스트 이해 응용에서, 웹을 이용하여 훈련 코퍼스를 구축할 필요가 있다. 가능한 구현 방식으로서, 본 실시예는 바이두의 사용자 검색 로그, 및 바이두의 지식 베이스 데이터에 기반하여, 서로 다른 응용 정경에서, 대응되는 훈련 코퍼스를 생성한다. 바이두의 사용자 검색 로그와 바이두의 지식 베이스 데이터에 기반하였기에, 데이터 양이 비교적 크고, 훈련 코퍼스가 비교적 풍부하며, 훈련의 효과를 향상할 수 있다.

단계 202, 각 응용 정경에 대응되는 훈련 코퍼스를 이용하여 단어 벡터 모델을 훈련하여, 각 응용 정경에 적용하는 단어 벡터 모델을 취득한다.

구체적으로, 응용 정경에 따라 대응되는 훈련 코퍼스를 결정한 후, 훈련 코퍼스에 대해 단어 분리 처리를 한다. 가능한 구현 방식으로서, 중국어 단어 분리 시스템（Ictclas） 단어 분리 알고리즘을 이용하여, 훈련 코퍼스에서의 복수의 문서에 대해, 단어 분리 처리를 할 수 있고, 의미가 없는 단어 리스트를 이용하여 의미가 없는 단어를 제거함으로써, 복수의 문자, 단의미 단편(fragment)을 취득한다. 각 단편은 하나의 표제어（term）이며, 즉 각 term은 하나의 단어 또는 하나의 문자를 대표하고, 각 term은 스페이스로 분리한다. 예를 들어, 편리하게 구분하기 위하여, 서로 다른 단편에 대해 번호를 매기고, term1 term2 term3 term4 term5 ......로 표시할 수 있다.

더 나아가, 단어 벡터 모델을 이용하여 훈련하는 가능한 구현 방식으로, 단어 벡터 모델은 word2vec모델일 수 있고, 당해 모델은 단어를 실제 값 벡터로 표현하는 효율적인 알고리즘 모델이며, 이는 딥러닝(Deep Learning)의 아이디어를 이용하여, 훈련을 통해, 텍스트 내용에 대한 처리를 K 차원 벡터 공간에서의 벡터로 간소화할 수 있고, 더 나아가 벡터 사이의 연산을 통해 벡터 공간에서의 싱크로율을 획득하며, 벡터 공간에서의 싱크로율은 텍스트 의미에서의 싱크로율을 표시하는데 사용될 수 있다. 본 실시예에서 구체적으로 word2vec모델에서의 skipgram방식을 이용하여, 응용 정경에 대응되는 훈련 코퍼스를 훈련하여, 서로 다른 응용 정경에 대응되는 단의미 의미 벡터 테이블을 취득할 수 있음으로써, 각 응용 정경에 적용되는 단어 벡터 모델을 취득할 수 있다.

본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 응용 정경에 따라 단어 벡터 모델을 훈련하여, 각 응용 정경에 적용되는 단어 벡터 모델을 취득함으로써, 서로 다른 응용 정경에 대하여 모호성 제거 처리가 필요할 경우, 모호성을 제거하려는 텍스트에 대응되는 문맥을 처리할 수 있다. 예를 들어, 테이블을 검색하여 문맥에 대응되는 의미 벡터를 생성하고, 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티에 대해, 이미 학습을 통하여 취득한 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계의 무감독 신경망 모델을 통해 후보 엔티티의 제1 엔티티 벡터를 생성하여, 엔티티 정보의 형상화가 비교적 완정하도록 한다. 더 나아가 문맥의 의미 벡터와 후보 엔티티의 제1 엔티티 벡터에 따라 싱크로율을 계산하고, 싱크로율의 계산 결과에 따라, 후보 엔티티중에서 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정하여, 모호성 제거의 정확성이 비교적 높다. 동시에, 단어 벡터 모델에 대한 훈련은 제일 큰 중국어 지식 베이스에 기반하였기에, 동일한 이름이지만 같지 않은 뜻을 갖는 다중의 모호한 엔티티에 대한 모호성 제거 효과가 비교적 좋다.

상술한 실시예에서, 후보 엔티티는 훈련된 무감독 신경망 모델에 입력되어, 제1 엔티티 벡터를 취득하고, 여기서, 무감독 신경망 모델 훈련 과정에서 감독 신경망 모델이 출력한 데이터를 사용할 필요가 있으며, 이를 위해, 다음에 실시예를 통해 감독 신경망 모델의 생성과 훈련 과정, 및 감독 신경망 모델이 훈련을 완성한 후, 무감독 신경망 모델에 대해 훈련하는 과정을 해석하고 설명한다.

상술한 실시예에 기반하여, 본 발명은 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 가능한 구현 방식을 더 제기한다. 도 3a는 본 발명의 실시예가 제공하는 또 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이고, 도 3a에 도시된 바와 같이, 단계 103전에 단계 301~단계 306를 더 포함할 수 있다.

단계 301, 감독 신경망 모델의 훈련 샘플의 포지티브 이그잼플(positive example)과 네거티브 이그잼플(negative example)을 생성한다.

훈련 샘플의 포지티브 이그잼플을 생성하는 방법은, 구체적으로: 지식 베이스에서의 각 엔티티는 관련된 속성, 및 속성값을 가지고, 동시에 각 엔티티에 대응되는 당해 엔티티의 소개 정보가 있을 수 있으며, 지식 베이스에서의 각 엔티티의 속성, 및 각 엔티티의 소개 정보로부터 추출한 키워드에 따라, 훈련 샘플의 포지티브 이그잼플을 생성한다. 예를 들어, 엔티티가 류더화 일 경우, 이는 많은 속성을 가지고, 예를 들어, 류더화는 아내의 속성, 딸의 속성이 있으며, 아내의 속성값은 주리첸(즉 안해의 이름)이고, 딸의 속성값은 류향혜(즉 딸의 이름)이며, 관련한 속성은 매우 많고, 여기서 일일이 열거하지 않는다.

류더화에 대해, 예를 들어, 류더화는, 1961년9월27일 홍콩에서 태여났고, 배우, 가수, 프로듀서, 작사가이며, 대표작에는 "The Condor Heros", "Infernal Affairs", "Shock Wave" 등과 같은 관련된 소개 정보가 더 있다. 당해 소개 정보를 통해, 엔티티인 류더화의 예를 들어 배우, 가수, 작품인 "Infernal Affairs" 등과 같은 키워드를 추출할 수 있다.

따라서, 주리첸, 류향혜, 배우, 가수, 작품인 "Infernal Affairs" 등과 같은 것을, 엔티티인 류더화의 훈련 샘플의 포지티브 이그잼플로 할 수 있다.

훈련 샘플의 네거티브 이그잼플을 생성하는 방법은, 구체적으로: 지식 베이스에서의 각 엔티티의 모든 텍스트의 서술 정보에 대해 단어 분할 처리를 한 후, 단어 분할을 통하여 취득한 각 표제어에 대해 단어 빈도 통계를 하고, 각 표제의미 단어 빈도에 따라, 각 표제어를 네거티브 샘플링(Negative Sampling)하고, 훈련 샘플의 네거티브 이그잼플을 취득한다. 발명자는 실제 테스트에서, 단어 빈도를 통해 네거티브 샘플링하여 결정한 네거티브 이그잼플을 이용하여 훈련한 효과는, 완전히 무작위로 네거티브 샘플링하여 결정한 네거티브 이그잼플을 이용하여 훈련한 효과보다 좋고, 모델 훈련의 속도와 모델 훈련의 효과를 향상한다는 것을 발견하였다.

예를 들어, 표 1에 나타낸 바와 같이, 각 표제어 및 각 표제어가 나타나는 빈도를 통해, 하나의 표제어 및 표제어의 빈도표를 생성할 수 있고, 단어 빈도가 큰 것으로부터 작아지는 순서에 따라 배열 할 수 있다.

표제어	단어 빈도
교사	113132
경찰	100099
웹 사이트	10000
사랑	9502
공연	8000
슬픔	4119
···	···

가능한 구현 방식으로서, 표 1의 표제어 및 표제어의 빈도표에 따라, 빈도에 근거해 네거티브 샘플링하고, 네거티브 샘플링의 결과에서 결정한 표제어를 훈련의 네거티브 샘플로 하며, 당해 방식은 무작위의 네거티브 샘플링에 비교하여, 모델 훈련의 효과가 더 좋다.

단계 302, 훈련 샘플에 따라 감독 신경망 모델을 훈련한다.

여기서, 감독 신경망 모델은 훈련 샘플의 각 텍스트의 의미 벡터를 입력하기 위한 제1 레이어, 및 제1 레이어로부터 입력된 텍스트가 서술한 엔티티를 예측하기 위한 제2 레이어를 포함한다. 가능한 구현 방식으로서, 다큐먼트 벡터（Doc2vec）의 기술을 이용하여 이 2개의 레이어를 연결하고 훈련할 수 있다. 구체적으로, 감독 신경망 모델의 입력, 즉 제1 레이어의 입력은, 훈련 샘플의 각 텍스트의 의미 벡터이다. 즉 훈련 샘플에 대응되는 엔티티의 텍스트를 도 2에 대응되는 실시예에서의 단어 벡터 모델에 입력하여, 당해 엔티티에 대응되는 텍스트 의미 벡터를 생성하고, 당해 텍스트 의미 벡터를 감독 신경망 모델의 제1 레이어에 입력한 후, 제2 레이어를 통해 제1 레이어로부터 입력된 텍스트가 서술한 엔티티를 예측한다.

단계 303, 감독 신경망 모델에서, 제1 레이어로부터 입력되는 훈련 샘플의 텍스트가 제2 레이어에서 출력되는 엔티티를 서술하기 위한 것일 경우, 감독 신경망 모델의 훈련이 완료되었다고 결정한다.

구체적으로, 감독 신경망 모델에서, 제1 레이어로부터 입력된 훈련 샘플의 텍스트가, 제2 레이어에서 출력되는 엔티티를 서술하기 위한 것일 경우, 제2 레이어의 파라미터는 제1 레이어에서 입력하는 훈련 샘플의 텍스트가 서술하기 위한 엔티티인 것을 정확하게 예측하기 위한 것일 수 있는 것을 설명하고, 당해 파라미터의 훈련 효과는 비교적 좋으며, 제2 레이어의 파라미터를 결정하는 동시에 감독 신경망 모델의 훈련이 완료되었다고 결정한다. 감독 신경망 모델의 2개의 레이어의 설치 방식은, 감독 신경망 모델의 훈련을 완성한 후, 이미 학습을 통하여 각 엔티티의 의미를 취득하였기에, 텍스트와 엔티티 사이의 대응 관계가 결정되였다.

단계 304, 훈련된 감독 신경망 모델을 이용하여, 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터를 생성한다.

구체적으로, 훈련된 감독 신경망 모델은, 제2 레이어의 파라미터를 결정하였고, 지식 베이스에서의 각 엔티티를 훈련된 감독 신경망 모델에 입력하고, 제2 레이어의 파라미터를 이용하여 지식 베이스에서의 각 엔티티에 대응되는 제2 엔티티 벡터를 생성할 수 있다.

단계 305, 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터에 따라, 무감독 신경망 모델이 출력한 각 엔티티의 제1 엔티티 벡터를 초기화한다.

구체적으로, 무감독 신경망 모델의 입력은 지식 베이스중의 각 엔티티이고, 각 엔티티가 훈련하지 않은 무감독 신경망 모델에 입력된 후, 각 엔티티에 대응되는 제1 엔티티 벡터를 생성하고, 당해 제1 엔티티 벡터는 무작위로 생성하는 난수 시퀀스이고, 당해 각 엔티티의 제1 엔티티 벡터는, 후속 훈련 과정에서 부단히 업데이트되어, 목표 요구에 부합되는 제1 엔티티 벡터를 마지막에 취득한다. 감독 신경망 모델이 출력한 지식 베이스에서, 각 엔티티의 제2 엔티티 벡터를 무감독 신경망 모델에 입력하여, 무감독 신경망 모델이 출력한 각 엔티티의 제1 엔티티 벡터를 초기화하고, 즉 무감독 신경망 모델의 출력을 각 엔티티의 제2 엔티티 벡터로 바꾸며, 이로하여 무감독 신경망 모델이 훈련할 때의 반복 횟수를 낮출 수 있고, 훈련 속도와 훈련 효과를 향상한다. 또한 제2 엔티티 벡터는 텍스트와 엔티티 사이의 관계를 이미 학습하였으며, 또 무감독 신경망 모델에 입력되어 훈련하고, 무감독 신경망 모델을 이용하여 엔티티와 엔티티 사이의 관계를 학습하여 취득할 수도 있음으로써, 텍스트와 엔티티 사이의 관계, 및 엔티티와 엔티티 사이의 관계를 포함하는 제1 엔티티 벡터를 마지막으로 출력한다.

단계 306, 엔티티 사이의 관련 관계에 따라, 초기화된 무감독 신경망 모델을 훈련한다.

구체적으로, 지식 베이스에서 관련 관계가 존재하는 각 엔티티에 따라, 및/또는, 검색 로그에서 같이 발생하는 관계가 존재하는 엔티티에 의해, 초기화된 무감독 신경망 모델을 훈련하고, 무감독 신경망 모델이 출력한 제1 엔티티 벡터 사이의 거리가 엔티티 사이의 관계의 긴밀한 정도에 서로 대응될 경우, 무감독 신경망 모델의 훈련이 완성된다.

도 3b는 본 발명의 실시예가 제공하는 바이두 지식 베이스에 기반한 각 모델 사이의 전략 프레임 도이다. 상술한 과정을 더 설명하기 위해, 도 3b에 도시된 바와 같이, 단어 벡터 모델은 바이두의 사용자 검색 로그와 바이두 지식 베이스 데이터에 기반하여, 표제어 벡터를 생성하고, 감독 신경망 모델은 바이두의 지식 베이스 데이터에 기반하여, 훈련 샘플을 생성하며, 단어 벡터 모델을 통해 훈련 샘플로부터 훈련 샘플에 대응되는 단어 벡터를 생성하고, 훈련 샘플의 단어 벡터를 감독 신경망 모델에 입력하여, 각 엔티티의 의미를 이미 학습한 엔티티 의미 벡터를 생성하며, 즉 각 엔티티의 제2 엔티티 벡터를 생성한다.

더 나아가, 감독 신경망 모델은 생성한 제2 엔티티 벡터를 무감독 신경망 모델에 입력하여, 무감독 신경망 모델의 제1 엔티티 벡터를 초기화하고, 그후 훈련을 통해, 각 엔티티 의미 및 각 엔티티 사이의 관계를 이미 학습한 제1 엔티티 벡터를 생성하여, 엔티티 정보에 대해 완정한 형상화를 구현하고, 모호성 제거 처리의 정확성을 향상한다.

본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 감독 신경망 모델을 훈련하는 것을 통해, 감독 신경망 모델이 각 엔티티의 의미를 학습하도록 하고, 또한 감독 신경망 모델이 생성한 각 엔티티의 제2 엔티티 벡터를 통해 무감독 신경망 모델에 대해 초기화하여, 무감독 신경망 모델이 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 학습하여 취득할 수 있게 되어, 데이터 이용이 더 충분하고, 엔티티의 정보를 완정하게 형상화하였다. 또한 무감독 신경망 모델을 이용하여 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 모호성 제거를 하는 정확성을 향상한다.

상술한 실시예에 기반하여, 본 발명의 실시예는 가능한 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 더 제기하고, 도 4는 본 발명의 실시예가 제공하는 또 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 방법의 흐름도이다. 도 4에 도시된 바와 같이, 단계 103 후에, 단계 401~단계 402를 포함할 수도 있다.

단계 401, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 서로 다른 후보 엔티티 사이의 싱크로율을 결정한다.

가능한 구현 방식으로서, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 코사인 거리 알고리즘을 이용하여, 임의의 2개의 후보 엔티티의 제1 엔티티 벡터 사이의 싱크로율을 계산할 수 있다.

단계 402, 서로 다른 후보 엔티티 사이의 싱크로율에 따라, 엔티티 관계 마이닝 또는 엔티티 추천을 행한다.

구체적으로, 계산에 따라 서로 다른 후보 엔티티 사이의 싱크로율을 취득한다. 가능한 구현 방식으로서, 싱크로율과 미리 설정될 역치를 비교하고, 싱크로율의 값이 역치의 싱크로율을 초과할 경우, 그의 대응되는 2개의 서로 다른 후보 엔티티 사이에 엔티티 관계가 존재하고, 지식 그래프에 엔티티의 가장자리 관계를 증가하며, 당해 가장자리 관계는 엔티티 추천에 사용될 수 있다. 예를 들어, 검색 응용 정경에서, 사용자가 하나의 엔티티를 검색할 경우, 관련된 다른 하나의 엔티티를 추천하여, 검색의 효율을 향상할 수 있다.

본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 방법에서, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하고, 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하며, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하고, 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성과 효율을 향상하고, 동시에 , 생성한 제1 엔티티 벡터에 따라, 서로 다른 후보 엔티티 사이의 싱크로율을 계산하여, 엔티티 관계에 대해 마이닝과 엔티티 추천에 사용 할 수 있어, 엔티티의 가장자리 관계를 증가한다.

상술한 실시예를 구현하기 위해, 본 발명은 모호한 엔티티 단어에 기반한 텍스트 처리 장치를 더 제기한다.

도 5는 본 발명의 실시예가 제공하는 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 구조 개략도이다.

도 5에 도시된 바와 같이, 당해 장치는 획득 모듈(61), 생성 모듈(62), 제1 결정 모듈(63)과 제1 처리 모듈(64)을 포함한다.

획득 모듈(61)은, 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 여기서, 적어도 2개의 후보 엔티티는 서로 다른 의미를 가진다.

생성 모듈(62)은, 훈련된 단어 벡터 모델에 따라, 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델에 따라, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하기 위한 것이며, 여기서, 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였다.

제1 결정 모듈(63)은, 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하기 위한 것이다.

제1 처리 모듈(64)은, 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정하기 위한 것이다.

설명해야 하는 바는, 전술한 방법 실시예에 대한 해석 설명은 당해 실시예의 장치에도 적용되고, 여기서 반복하여 설명하지 않는다.

본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 장치에서, 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 생성 모듈은 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하기 위한 것이며, 제1 결정 모듈은 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하기 위한 것이고, 제1 처리 모듈은 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를여 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 텍스트를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성과 효율을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 엔티티 정보의 형상화가 완정하지 않고, 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.

상술한 실시예에 기반하여, 본 발명의 실시예는 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 가능한 구현 방식을 더 제공하고, 도 6은 본 발명의 실시예가 제공하는 다른 하나의 모호한 엔티티 단어에 기반한 텍스트 처리 장치의 구조 개략도이다. 도 6에 도시된 바와 같이, 전의 실시예의 기초 상에, 당해 장치는 제1 훈련 모듈(65), 제2 훈련 모듈(66), 제3 훈련 모듈(67), 제2 결정 모듈(68)과 제2 처리 모듈(69)을 더 포함한다.

제1 훈련 모듈(65)은, 서로 다른 응용 정경에 대하여, 대응되는 훈련 코퍼스를 각각 생성하고, 각 응용 정경에 대응되는 훈련 코퍼스를 이용하여 단어 벡터 모델 훈련을 하여, 각 응용 정경에 적용하는 단어 벡터 모델을 취득하기 위한 것이다.

제2 훈련 모듈(66)은, 지식 베이스에서의 각 엔티티의 속성 및 각 엔티티의 소개 정보로부터 추출된 키워드에 따라, 훈련 샘플의 포지티브 이그잼플을 생성하고, 지식 베이스에서의 각 엔티티의 전부 텍스트 서술 정보에 따라, 훈련 샘플의 네거티브 이그잼플을 생성하며, 훈련 샘플에 따라, 감독 신경망 모델을 훈련한다. 여기서, 감독 신경망 모델은, 훈련 샘플의 각 텍스트의 의미 벡터를 입력하기 위한 제1 레이어, 및 제1 레이어로부터 입력된 텍스트가 서술한 엔티티를 예측하기 위한 제2 레이어를 포함하고, 여기서, 제2 레이어의 파라미터는 제2 엔티티 벡터를 생성하기 위한 것이다. 감독 신경망 모델에서, 제1 레이어로부터 입력된 훈련 샘플의 텍스트가 제2 레이어에서 출력되는 엔티티를 서술하기 위한 것일 경우, 감독 신경망 모델의 훈련이 완료되었다고 결정한다.

가능한 구현 방식으로서, 제2 훈련 모듈(66)은 지식 베이스에서의 각 엔티티의 전부 텍스트의 서술 정보에 대해 단어 분할 처리를 한 후, 단어 분할을 통하여 취득한 각 표제어에 대해 단어 빈도 통계를 하고, 각 표제의미 단어 빈도에 따라, 각 표제어를 네거티브 샘플링하여, 훈련 샘플의 네거티브 이그잼플을 취득하기 위한 것일 수도 있다.

제3 훈련 모듈(67)은, 훈련된 감독 신경망 모델을 이용하여, 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터를 생성하기 위한 것이다. 여기서, 감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 의미를 취득하였고, 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터에 따라, 무감독 신경망 모델로부터 출력하는 각 엔티티의 제1 엔티티 벡터를 초기화하며, 엔티티 사이의 관련 관계에 따라, 초기화된 무감독 신경망 모델을 훈련한다.

가능한 구현 방식으로서, 제3 훈련 모듈(67)은, 지식 베이스에서 관련 관계가 존재하는 각 엔티티에 따라, 및/또는, 검색 로그에서 같이 발생하는 관계가 존재하는 엔티티에 따라, 초기화된 무감독 신경망 모델을 훈련하고, 무감독 신경망 모델이 출력한 제1 엔티티 벡터 사이의 거리가 엔티티 사이의 관계의 긴밀한 정도에 서로 대응될 경우, 무감독 신경망 모델의 훈련이 완성되는데 사용할 수도 있다.

제2 결정 모듈(68)은, 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 서로 다른 후보 엔티티 사이의 싱크로율을 결정한다.

제2 처리 모듈(69)은, 서로 다른 후보 엔티티 사이의 싱크로율에 따라, 엔티티 관계 마이닝 또는 엔티티 추천을 행한다.

본 실시예의 모호한 엔티티 단어에 기반한 텍스트 처리 장치에서, 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 생성 모듈은 훈련된 단어 벡터 모델을 통해 문맥으로부터 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델을 통해 적어도 2개의 후보 엔티티중에서, 제1 엔티티 벡터를 생성하기 위한 것이며, 제1 결정 모듈은 문맥의 의미 벡터와 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 문맥과 각 후보 엔티티 사이의 싱크로율을 계산하기 위한 것이고, 제1 처리 모듈은 당해 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 엔티티를 결정한다. 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이 관계를 취득한 무감독 신경망 모델을 통해, 후보 엔티티를 처리하여, 제1 엔티티 벡터를 생성하고, 후보 엔티티의 제1 엔티티 벡터도 후보 엔티티의 텍스트 의미 및 각 엔티티 사이와의 관계를 포함하며, 진일보 제1 엔티티 벡터와 모호성을 제거하려는 텍스트의 문맥의 의미 벡터의 싱크로율을 계산하여, 모호성을 제거하려는 텍스트가 문맥에서 표현하는 목표 텍스트를 결정함으로써, 모호성을 제거하려는 텍스트에 대한 모호성 제거의 정확성과 효율을 향상하고, 관련 기술에서, 각 엔티티의 텍스트 의미, 및 각 엔티티 사이의 관계를 동시에 획득할 수 없어, 엔티티 정보의 형상화가 완정하지 않고, 엔티티 모호성 제거의 정확성이 비교적 낮은 문제를 해결한다.

상술한 실시예를 구현하기 위해, 본 발명은 컴퓨터 기기를 더 제기한다. 컴퓨터 기기는 메모리, 프로세서 및 메모리에 저장되고 프로세서에서 작동 가능한 컴퓨터 프로그램을 포함하고, 상기 프로세서가 상기 프로그램을 수행할 경우, 전술한 방법의 실시예의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.

상술한 실시예를 구현하기 위해, 본 발명은 비일시적 컴퓨터 판독가능 저장 매체를 더 제기한다. 비일시적 컴퓨터 판독가능 저장 매체에 컴퓨터 프로그램이 저장되어 있고, 당해 프로그램이 프로세서에 의해 수행될 경우, 전술한 방법의 실시예의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.

상술한 실시예를 구현하기 위해, 본 발명은 컴퓨터 프로그램 제품을 더 제기하고, 상기 컴퓨터 프로그램 제품중의 명령이 프로세서에 의해 수행될 경우, 전술한 방법의 실시예의 상기의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현한다.

도 7은 본 출원의 실시형태의 예시적인 컴퓨터 기기를 구현하는데 사용되는 적합한 블록도를 표시한다. 도 7에 도시된 컴퓨터 기기(12)는 단지 예시일 뿐이고, 본 출원의 실시예의 기능과 사용 범위에 대해 어떠한 제한을 가해서는 않된다.

도 7에 도시된 바와 같이, 컴퓨터 기기(12)는 범용 계산 기기의 형식으로 표현된다. 컴퓨터 기기(12)의 컴포넌트는 하나 또는 복수의 프로세싱 유닛(16)(또는 프로세서), 시스템 메모리(28), 서로 다른 시스템 컴포넌트（시스템 메모리(28)와 프로세싱 유닛(16)을 포함함）를 연결한 버스(18)를 포함할 수 있지만 이에 한정하지 않는다.

버스(18)는 몇가지 유형 버스 구성중의 하나 또는 복수를 표시하고, 메모리 버스 또는 메모리 제어기, 주변 장치 버스, 그래픽 가속 포트, 프로세서 또는 멀티 버스 구조에서의 임의의 버스 구조를 사용한 로컬 버스를 포함한다. 예를 들어, 이러한 체계 구조는 업계 표준 아키텍처（Industry Standard Architecture; 하기의 약칭: ISA）버스, 마이크로 채널 구조（Micro Channel Architecture; 하기의 약칭: MCA）버스, 향상된 ISA버스, 비디오 일렉트로닉스 표준화 협회（Video Electronics Standards Association; 하기의 약칭: VESA）로컬 버스 및 PCI（Peripheral Component Interconnection; 하기의 약칭: PCI）버스를 포함하지만 이에 한정하지 않는다.

컴퓨터 기기(12)는 전형적으로 멀티 컴퓨터 시스템의 판독 가능한 매체를 포함한다. 이러한 매체는 컴퓨터 기기(12)에 의해 액세스할 수 있는 모든 사용 가능한 매체일 수 있고, 휘발성 매체와 비 휘발성 매체, 분리형 매체와 비 분리형 매체를 포함하다.

메모리(28)는 휘발성 메모리 형식의 컴퓨터 시스템 판독 가능 매체를 포함할 수 있고, 예를 들어 랜덤 액세스 메모리（Random Access Memory; 하기의 약칭: RAM）(30) 및/또는 캐시 메모리(32)이다. 컴퓨터 기기(12)는 분리형/비 분리형, 휘발성/비 휘발성 컴퓨터 시스템 저장 매체를 더 포함한다. 단지 예로서, 저장 시스템(34)은 비 분리형, 비 휘발성 자기 매체를 판독 기록하는데 사용될 수있다（도 7에는 도시되지 않음, 통상적으로 "하드 드라이버”라고 함）이다. 비록 도 7에는 도시되지 않았지만, 분리형 비 휘발성 디스크（예를 들어“플로피 디스크”）에 대해 판독 기록하기 위한 디스크 드라이브, 및 분리형 비 휘발성 시디롬（예를 들어: 시디롬（Compact Disc Read Only Memory; 하기의 약칭: CD-ROM）, 디브이디롬（Digital Video Disc Read Only Memory; 하기의 약칭: DVD-ROM） 또는 기타 광학 매체）에 대해 판독 기록하기 위한 시디롬 드라이버를 제공할 수 있다. 이러한 경우, 각 드라이브는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(18)와 서로 연결된다. 메모리(28)는 적어도 하나의 프로그램 제품을 포함할 수 있고, 당해 프로그램 제품은 한 조（예를 들어 적어도 하나）프로그램 모듈을 가지며, 이러한 프로그램 모듈은 본 출원의 각 실시예의 기능을 수행하도록 구성된다.

한 조（적어도 하나）의 프로그램 모듈(42)을 구비한 프로그램/유틸리티(40)는, 예를 들어 메모리(28)에 저장할 수 있고, 이러한 프로그램 모듈(42)은 운영 체제, 하나 또는 복수의 응용 프로그램 , 기타 프로그램 모듈 및 프로그램 데이터를 포함하지만 이에 한정하지 않으며, 이러한 예시에서의 각각 또는 일부 조합에는 네트워크 환경의 구현을 포함할 수 있다. 프로그램 모듈(42)은 통상적으로 본 출원에서 서술하는 실시예 에서의 기능 및/또는 방법을 수행한다.

컴퓨터 기기(12)는 하나 또는 복수의 외부 기기(14)（예를 들어 키보드, 포인팅 기기, 디스플레이(24) 등）와 통신할 수도 있고, 하나 또는 복수의 사용자가 당해 컴퓨터 기기(12)와 상호 작용할 수 있도록 하는 기기와 통신할 수도 있으며, 및/또는 당해 컴퓨터 기기(12)가 하나 또는 복수의 기타 계산 기기와 통신할 수 있도록 하는 임의의 기기（예를 들어 랜카드, 모뎀 등）와 통신한다. 이런 통신은 입력/출력（I/O）인터페이스(22)를 통해 할 수 있다. 또한, 컴퓨터 기기(12)는 네트워크 어댑터(20)를 통해 하나 또는 복수의 네트워크（예를 들어근거리 통신망（Local Area Network; 하기의 약칭: LAN）, 광역 통신망（Wide Area Network; 하기의 약칭: WAN）및/또는 예를 들어 인터넷과 같은 공중 네트워크）와 통신할 수도 있다. 도시된 바와 같이, 네트워크 어댑터(20)는 버스(18)를 통해 컴퓨터 기기(12)의 기타 모듈과 통신한다. 이해해야 하는 것은, 도면에 도시되지 않았지만, 컴퓨터 기기(12)를 결합하여 기타 하드웨어 및/또는 소프트웨어 모듈을 사용할 수 있고, 마이크로 코드, 기기 드라이브, 리던던트 프로세싱 유닛 , 외부 디스크 드라이브 배열, RAID시스템, 테이프 드라이브 및 데이터 백업 저장 시스템 등을 포함하지만 이에 한정하지 않는다.

프로세싱 유닛(16)은 시스템 메모리(28)에 저장된 프로그램을 작동하는 것을 통해, 예를 들어 전술한 실시예에서 제기된 방법을 구현함으로써 각종 기능 응용 및 데이터 처리를 수행한다.

본 명세서의 설명에서 참조 용어 "일 실시예”, "일부 실시예”, "예시적인 실시예”, "예시”, "구체적 예시” 또는 "일부 예시” 등의 설명은 당해 실시예 또는 예시를 결합하여 설명하는 구체적인 특징, 구조, 재료 또는 특점이 본 발명의 적어도 하나의 실시예 또는 예시에 포함된다는 것을 의미한다. 본 명세서에서 상술한 용어에 대한 예시적인 설명이 반드시 동일한 실시예 또는 예시를 가리키는 것은 아니다. 그리고, 설명된 구체적 특징, 구조, 재료 또는 특점은 임의의 하나 또는 복수의 실시예 또는 예시에서 적합한 방식으로 결합될 수 있다. 이 외에, 서로 모순이 없을 경우, 본 기술 분야의 통상의 지식을 가진자들은 본 명세서에서 설명한 다른 실시예 또는 실례 및 다른 실시예 또는 실례의 구성을 결합과 조합할 수 있다.

이 외에, 용어“제1", "제2"는 단지 설명의 목적을 위한 것일 뿐, 상대적인 중요성을 지시하거나 암시하는 것 또는 지시된 기술 특징의 수량을 함축적으로 제시하는 것으로 이해해서는 안된다. 이에 따라, "제1", "제2"로 한정된 특징은 적어도 하나의 당해 특징을 명시하거나 함춤적으로 포함할 수 있다. 본 발명의 설명에서, 별도로 명확하게 구체적인 한정을 하지 않는 한 "복수”의 함의는 적어도 두개이고 예를 들어 두개, 세개이다.

흐름도에서 또는 여기에서 기타 방식으로 설명되는 어떠한 과정 또는 방법 설명은 한개 또는 더 많은 수량의 특정 로직 기능이나 과정의 단계를 실현하기 위한 수행가능 명령의 코드의 모듈, 단락 또는 부분을 포함하는 것을 나타내는것으로 이해할 수 있다. 그리고 본 발명의 바람직한 실시예의 범위는 별도의 실현을 포함하는바, 여기서 관련되는 기능은 제시되거나 토론된 순서대로가 아닌, 거의 동시의 방식 또는 상반되는 순서를 포함한 순서에 따라 수행될 수 있는바, 이는 본 발명의 실시예가 속하는 기술분야의 통상의 지식을 가진 자들에 의해 이해될 수 있다.

흐름도에서 표시되거나 여기서 기타 방식으로 설명되는 로직 및/또는 단계는, 예를 들면, 로직 기능을 실현하기 위한 수행 가능한 명령의 서열 리스트로 여길 수 있으며, 구체적으로 어떠한 컴퓨터 판독가능 매체에서 실현되어 명령 수행 시스템, 장치 또는 설비(예를 들면, 컴퓨터에 기초한 시스템, 프로세서를 포함한 시스템 또는 기타 명령 수행 시스템, 장치나 설비로부터 명령을 취득하고 명령을 수행할 수 있는 시스템)에 제공되어 사용될 수 있거나 또는 이런 명령 수행 시스템, 장치 또는 설비를 결부하여 사용할 수 있다. 본 명세서에 대해 말하자면, "컴퓨터 판독가능 매체”는 어떠한 프로그램을 포함, 저장, 통신, 전파 또는 전송하여 명령 수행 시스템, 장치 또는 설비에 제공할 수 있거나 또는 이런 명령 수행 시스템, 장치 또는 설비를 결부하여 사용하는 장치 일 수 있다. 컴퓨터 판독가능 매체의 더 구체적인 예시(비 전면 리스트임)는 하기와 같은 것을 포함한다. 하나의 또는 복수개의 배선을 갖는 전기 연결부(전기 장치), 휴대용 컴퓨터 디스크 케이스(자기 장치), 랜덤 액세스 메모리(RAM), 판독 전용 기억 장치(ROM), 소거 프로그램 가능 랜덤 액세스 메모리(EPROM또는 플래시 메모리), 광섬유 장치 및 시디롬(CDROM)이다. 이 외에, 컴퓨터 판독 가능 매체는 심지어 그 위에 상기 프로그램을 프린트할 수 있는 종이나 기타 적합한 매체일 수 있다. 종이 또는 기타 매체에 대해 광학 스캐닝을 행하고 이어 편집, 해독을 행하거나 필요할 때 기타 적합한 방식으로 처리하는 것을 통하여 전자 방식으로 상기 프로그램을 획득하고, 다음 그를 컴퓨터 메모리에 저장할 수 있기 때문이다.

본 발명의 각 부분은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 조합으로 실현될 수 있다는 것으로 이해되어야 한다. 상기 실시예에서, 복수개의 단계나 방법은 메모리에 저장된 적합한 명령 수행 시스템이 수행하는 소프트웨어 또는 펌웨어로 실현할 수 있다. 예를 들면, 만약 하드웨어로 실현한다면 다른 한 실시예에서처럼 본 분야에서 공지된 아래에 열거한 기술 중의 어느 한 항 또는 그들의 조합으로 실현할 수 있다. 데이터 신호에 대해 로직 기능을 실현하기 위한 로직 게이트 회로를 구비한 이산 로직 회로, 적합한 조합 로직 게이트 회로를 구비한 전용 집적 회로, 프로그램 가능 게이트 어레이(PGA), 필드 프로그램 가능 게이트 어레이(FPGA)등이다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자들은, 상기 실시예 방법이 지닌 전부 또는 일부 단계의 실현은 프로그램을 통하여 관련 하드웨어를 명령하여 완성할 수 있고, 상기 프로그램은 컴퓨터 판독가능 저장 매체에 저장될 수 있으며, 당해 프로그램이 수행될 때 방법 실시예의 단계 중의 하나 또는 그 조합을 포함한다는 것을 이해할 수 있다.

이 외에, 본 발명의 각 실시예에서 각 기능 유닛은 하나의 처리 모듈에 집적될 수 있고, 각 유닛이 단독으로 물리적으로 존재할 수도 있으며 두개 또는 두개 이상의 유닛이 하나의 모듈에 집적될 수도 있다. 상기 집적된 모듈은 하드웨의미 형식으로 실현될 수도 있고, 소프트웨어 기능 모듈의 형식을 적용하여 실현할 수도 있다. 상기 통합된 모듈이 만약 소프트웨어 기능 모듈의 형식으로 실현되고 독립된 제품으로 판매되거나 사용될 때 하나의 컴퓨터 판독 가능한 저장 매체에 저장될 수도 있다.

위에서 언급된 저장 매체는 읽기 전용 기억 장치, 디스크 또는 CD일 수 있다. 비록 이미 본 발명의 실시예를 제시하고 설명하였으나, 상술한 실시예는 예시적인 것이고, 본 발명에 대한 한정으로 이해해서는 안되며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자들은 본 발명의 범위 내에서 이러한 실시예에 대해 변화, 수정, 대체와 변형을 진행할 수 있음을 이해할 수 있다.

Claims

모호한 엔티티 단어에 기반한 텍스트 처리 방법에 있어서,
획득 모듈은, 모호성을 제거하려는 텍스트의 문맥, 및 상기 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하는 단계 - 여기서, 상기 적어도 2개의 후보 엔티티는 서로 다른 의미를 가짐 - ;
생성 모듈은, 훈련된 단어 벡터 모델에 따라, 상기 문맥의 의미 벡터를 생성하는 단계;
상기 생성 모듈은, 훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하는 단계 - 여기서, 상기 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였음 -;
제1 결정 모듈은, 상기 문맥의 의미 벡터와 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 상기 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하는 단계; 및
제1 처리 모듈은, 상기 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 상기 모호성을 제거하려는 텍스트가 상기 문맥에서 표현하는 목표 엔티티를 결정하는 단계; 를 포함하는 것,
을 특징으로 하는 모호한 엔티티 단어에 기반한 텍스트 처리 방법.
제1 항에 있어서,
상기 훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하기 전에,
제3 훈련 모듈은, 훈련된 감독 신경망 모델을 이용하여, 미리 설정된 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터를 생성하는 단계 - 상기 감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 의미를 취득하였음 - ;
상기 제3 훈련 모듈은, 상기 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터에 따라, 상기 무감독 신경망 모델이 출력한 각 엔티티의 제1 엔티티 벡터를 초기화하는 단계; 및
상기 제3 훈련 모듈은, 엔티티 사이의 관련 관계에 따라, 초기화 된 무감독 신경망 모델을 훈련하는 단계; 를 더 포함하는 것,
을 특징으로 하는 텍스트 처리 방법.
제2 항에 있어서,
상기 훈련된 감독 신경망 모델을 이용하여, 상기 지식 베이스에서의 각 엔티티의 제2 엔티티 벡터를 생성하기 전에,
제2 훈련 모듈은, 지식 베이스에서의 각 엔티티의 속성 및 각 엔티티의 소개 정보에서 추출된 키워드에 따라, 훈련 샘플의 포지티브 이그잼플을 생성하는 단계;
상기 제2 훈련 모듈은, 상기 지식 베이스에서의 각 엔티티의 전부 텍스트 서술 정보에 따라, 훈련 샘플의 네거티브 이그잼플을 생성하는 단계;
상기 제2 훈련 모듈은, 상기 훈련 샘플에 따라, 감독 신경망 모델을 훈련하는 단계 - 여기서, 상기 감독 신경망 모델은, 훈련 샘플의 각 텍스트의 의미 벡터를 입력하기 위한 제1 레이어, 및 제1 레이어로부터 입력된 텍스트가 서술한 엔티티를 예측하기 위한 제2 레이어를 포함하고, 상기 제2 레이어의 파라미터는 상기 제2 엔티티 벡터를 생성하기 위한 것임 - ; 및
상기 감독 신경망 모델에서, 제1 레이어로부터 입력된 훈련 샘플의 텍스트가 상기 제2 레이어에서 출력되는 엔티티를 서술하기 위한 것일 경우, 상기 제2 훈련 모듈은 상기 감독 신경망 모델의 훈련이 완료되었다고 결정하는 단계; 를 더 포함하는 것,
을 특징으로 하는 텍스트 처리 방법.
제3 항에 있어서,
상기 지식 베이스에서의 각 엔티티의 전부 텍스트 서술 정보에 따라, 훈련 샘플의 네거티브 이그잼플을 생성하는 단계는,
상기 제2 훈련 모듈은, 상기 지식 베이스에서의 각 엔티티의 전부 텍스트 서술 정보에 대해 단어 분할 처리를 한 후, 단어 분할을 통하여 취득한 각 표제어에 대해 단어 빈도 통계를 하는 단계; 및
상기 제2 훈련 모듈은, 각 표제의미 단어 빈도에 따라, 각 표제어를 네거티브 샘플링하여, 상기 훈련 샘플의 네거티브 이그잼플을 취득하는 단계; 를 포함하는 것,
을 특징으로 하는 텍스트 처리 방법.
제2 항에 있어서,
상기 엔티티 사이의 관련 관계에 따라, 초기화 된 무감독 신경망 모델을 훈련하는 단계는,
상기 제3 훈련 모듈은, 지식 베이스에서 관련 관계가 존재하는 각 엔티티에 따라, 및/또는, 검색 로그에서 동시발생 관계가 존재하는 엔티티에 따라, 초기화 된 무감독 신경망 모델을 훈련하는 단계; 및
상기 제3 훈련 모듈은, 상기 무감독 신경망 모델이 출력한 제1 엔티티 벡터 사이의 거리가 상기 엔티티 사이의 관계긴밀 정도에 서로 대응될 경우, 상기 무감독 신경망 모델의 훈련이 완료되는 단계; 를 포함하는 것,
을 특징으로 하는 텍스트 처리 방법.
제1 항에 있어서,
상기 훈련된 단어 벡터 모델에 따라, 상기 문맥의 의미 벡터를 생성하기 전에,
제1 훈련 모듈은, 서로 다른 응용 정경에 대하여, 대응되는 훈련 코퍼스를 각각 생성하고;
상기 제1 훈련 모듈은, 각 응용 정경에 대응되는 훈련 코퍼스를 이용하여 단어 벡터 모델 훈련을 하여, 각 응용 정경에 적용하는 단어 벡터 모델을 취득하는 단계; 를 더 포함하는 것,
을 특징으로 하는 텍스트 처리 방법.
제1 항에 있어서,
상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성한 후,
제2 결정 모듈은, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 서로 다른 후보 엔티티 사이의 싱크로율을 결정하는 단계; 및
제2 처리 모듈은, 서로 다른 후보 엔티티 사이의 싱크로율에 따라, 엔티티 관계 마이닝 또는 엔티티 추천을 수행하는 단계; 를 더 포함하는 것,
을 특징으로 하는 텍스트 처리 방법.
모호한 엔티티 단어에 기반한 텍스트 처리 장치에 있어서,
획득 모듈, 생성 모듈, 제1 결정 모듈, 및 제1 처리 모듈을 포함하고,
상기 획득 모듈은 모호성을 제거하려는 텍스트의 문맥, 및 상기 모호성을 제거하려는 텍스트가 표현하는 적어도 2개의 후보 엔티티를 획득하기 위한 것이고, 여기서, 상기 적어도 2개의 후보 엔티티는 서로 다른 의미를 가지며;
상기 생성 모듈은 훈련된 단어 벡터 모델에 따라, 상기 문맥의 의미 벡터를 생성하고, 훈련된 무감독 신경망 모델에 따라, 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터를 생성하기 위한 것이며; 여기서, 상기 무감독 신경망 모델은 이미 학습을 통하여 각 엔티티의 텍스트 의미 및 각 엔티티 사이의 관계를 취득하였고;
상기 제1 결정 모듈은 상기 문맥의 의미 벡터와 상기 적어도 2개의 후보 엔티티의 제1 엔티티 벡터에 따라, 상기 문맥과 각 후보 엔티티 사이의 싱크로율을 결정하기 위한 것이며;
상기 제1 처리 모듈은 상기 문맥과 각 후보 엔티티 사이의 싱크로율에 따라, 적어도 2개의 후보 엔티티중에서, 상기 모호성을 제거하려는 텍스트가 상기 문맥에서 표현하는 목표 엔티티를 결정하기 위한 것,
을 특징으로 하는 모호한 엔티티 단어에 기반한 텍스트 처리 장치.
컴퓨터 기기에 있어서,
메모리, 프로세서 및 메모리에 저장되고 프로세서에서 작동 가능한 컴퓨터 프로그램을 포함하고,
상기 프로세서가 상기 프로그램을 수행할 경우, 제1 항 내지 제7 항 중 어느 한 항의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현하는 것,
을 특징으로 하는 컴퓨터 기기.
컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
상기 프로그램이 프로세서에 의해 수행될 경우, 제1 항 내지 제7 항 중 어느 한 항의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 구현하는 것,
을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 수행될 경우, 제1 항 내지 제7 항 중 어느 한 항의 모호한 엔티티 단어에 기반한 텍스트 처리 방법을 수행하는 것,
을 특징으로 하는 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램.