KR20210092152A - 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기 - Google Patents

핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기 Download PDF

Info

Publication number
KR20210092152A
KR20210092152A KR1020210005899A KR20210005899A KR20210092152A KR 20210092152 A KR20210092152 A KR 20210092152A KR 1020210005899 A KR1020210005899 A KR 1020210005899A KR 20210005899 A KR20210005899 A KR 20210005899A KR 20210092152 A KR20210092152 A KR 20210092152A
Authority
KR
South Korea
Prior art keywords
entity
character
vector sequence
target text
vector
Prior art date
Application number
KR1020210005899A
Other languages
English (en)
Other versions
KR102466399B1 (ko
Inventor
슈 왕
커신 렌
샤오한 장
지판 펑
양 장
용 주
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210092152A publication Critical patent/KR20210092152A/ko
Application granted granted Critical
Publication of KR102466399B1 publication Critical patent/KR102466399B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • G06N3/0472
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Molds, Cores, And Manufacturing Methods Thereof (AREA)
  • Road Signs Or Road Markings (AREA)

Abstract

본 출원은 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기를 제공하고, 스마트 검색 기술 분야에 속한다. 해당 방법은 아래와 같은 단계를 포함한다. 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고; 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하며; 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하고; 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정한다. 따라서, 이러한 핵심 엔티티를 레이블링하는 방법으로, 텍스트 중 핵심 엔티티를 정확하게 추출하여, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였고, 범용성을 향상시켰다.

Description

핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기{METHOD, APPARATUS, AND ELECTRONIC DEVICE FOR LABELING CORE ENTITY}
본 출원은 컴퓨터 기술 분야에 관한 것이고, 특히 스마트 검색 기술 분야에 관한 것이며, 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기를 제공한다.
정보 기술의 발전에 따라, 텍스트 데이터가 폭발적으로 증가하고 있으며, 인공 처리만으로 대량의 텍스트 콘텐츠에서 핵심 콘텐츠를 추출할 수 없으므로, 텍스트 콘텐츠의 지능화 이해, 텍스트 콘텐츠의 생산, 처리, 및 분배 추천의 자동화, 지능화를 실현할 수 있는 컴퓨터 기술이 절실히 필요하다. 엔티티 이해는 텍스트 이해의 중요한 부분이고, 핵심 엔티티의 레이블링을 통하여 해당 엔티티의 측면, 주제와 같은 기타 세분화된 텍스트 이해 결과가 확장될 수 있으므로, 웹 페이지 텍스트 자원에 대한 사용자의 이해를 돕거나, 사용자의 의도에 따라 사용자가 필요한 보다 적합한 텍스트 자원을 추천할 수 있다.
관련 기술에서, 통상적으로 짧은 텍스트의 핵심 콘텐츠를 설명할 수 있는 키워드를 추출하여 짧은 텍스트의 핵심 콘텐츠를 특징화한다. 하지만, 키워드가 엔티티 단어가 아닐 수 있기에, 결정된 짧은 텍스트의 핵심 콘텐츠에 시맨틱 정보가 부족하여, 다양한 응용 수요를 충족시키기 어렵다.
본 출원에서 제공하는 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기는, 짧은 텍스트의 키워드를 추출하여 짧은 텍스트의 핵심 콘텐츠를 특징화할 경우, 키워드가 엔티티 단어가 아닐 수 있으므로, 결정된 짧은 텍스트의 핵심 콘텐츠에 시맨틱 정보가 부족하여, 다양한 응용 수요를 충족시키기 어려운 관련 기술의 문제점을 해결하기 위한 것이다.
본 출원의 일 측면의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 방법은, 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 상기 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하는 단계 - 상기 글자 벡터 시퀀스는, 상기 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 포함하고, 상기 제1 단어 벡터 시퀀스는 상기 타겟 텍스트 중 각 단어 세그먼트에 대응하는 단어 벡터를 포함하며, 상기 엔티티 벡터 시퀀스는 상기 타겟 텍스트 중 각 엔티티에 대응하는 엔티티 벡터를 포함함 - ; 상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 상기 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는 단계; 미리 설정된 네트워크 모델을 사용하여 상기 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 상기 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하는 단계; 및 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라, 상기 타겟 텍스트의 핵심 엔티티를 결정하는 단계를 포함한다.
본 출원의 다른 측면의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 장치는, 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 상기 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하는 제1 획득 모듈 - 상기 글자 벡터 시퀀스는 상기 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 포함하고, 상기 제1 단어 벡터 시퀀스는 상기 타겟 텍스트 중 각 단어 세그먼트에 대응하는 단어 벡터를 포함하며, 상기 엔티티 벡터 시퀀스는 상기 타겟 텍스트 중 각 엔티티에 대응하는 엔티티 벡터를 포함함 - ; 상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 상기 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는 생성 모듈; 미리 설정된 네트워크 모델을 사용하여 상기 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 상기 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하는 제1 결정 모듈; 및 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라, 상기 타겟 텍스트의 핵심 엔티티를 결정하는 제2 결정 모듈을 포함한다.
본 출원의 또 다른 측면의 실시예에서 제공하는 전자 기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서에 의해 상기 핵심 엔티티를 레이블링하는 방법이 수행되도록 한다.
본 출원의 또 다른 측면의 실시예에서 제공하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체는, 상기 컴퓨터 명령은 상기 컴퓨터가 상기 핵심 엔티티를 레이블링하는 방법을 수행하도록 한다.
본 출원의 또 다른 측면의 실시예에서 제공하는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램은, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 본 출원의 실시예에 의해 공개되는 핵심 엔티티를 레이블링하는 방법이 실행된다.
전술된 본 출원의 어느 하나 실시예의 장점 또는 유익한 효과는 아래와 같다: 타겟 텍스트의 글자 벡터, 단어 벡터, 및 엔티티 벡터를 융합하고, 미리 설정된 네트워크 모델을 사용하여 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하며, 따라서 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정하며, 이로부터, 텍스트 중 핵심 엔티티를 정확하게 추출하였고, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였으며, 범용성을 향상시켰다. 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하며, 다음, 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하고, 따라서 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정함으로써, 짧은 텍스트의 키워드를 추출하여 짧은 텍스트의 핵심 콘텐츠를 특징화할 경우, 추출된 핵심 콘텐츠에 시맨틱 정보가 부족하여, 다양한 응용 수요를 충족시키기 어려운 문제점을 해결하였고, 텍스트 중 핵심 엔티티를 정확하게 추출하였으며, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였고, 범용성을 향상시켰다.
전술된 선택가능한 방식의 기타 효과는 아래의 구체적인 실시예와 결합하여 설명할 것이다.
도면은 본 출원의 기술 방안을 보다 잘 이해하기 위한 것으로, 본 출원은 도면에 의해 한정되지 않는다. 여기서,
도 1은 본 출원의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 방법의 개략적인 흐름도이다.
도 2는 본 출원의 실시예에서 제공하는 다른 핵심 엔티티를 레이블링하는 방법의 개략적인 흐름도이다.
도 3은 본 출원의 실시예에서 제공하는 또 다른 핵심 엔티티를 레이블링하는 방법의 개략적인 흐름도이다.
도 4는 분 출원의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 장치의 구조 개략도이다.
도 5는 본 출원의 실시예에서 제공하는 전자 기기의 구조 개략도이다.
이하, 첨부된 도면을 참조하여 본 출원의 예시적인 실시예들을 설명하며, 본 출원의 실시예에 포함된 다양한 세부사항은 이해를 돕기 위한 것으로, 예시적인 목적일 뿐이다. 따라서, 이해해야 하는 바로는, 본 기술 분야에서 통상의 지식을 가진 자는 본 출원의 범위 및 사상으로부터 벗어나지 않는 한, 본 명세서에 기술된 실시예들에 대하여 다양한 변경 및 수정을 할 수 있다. 또한, 명확하고 간결하게 설명하기 위하여, 아래 설명에서 공지의 기능 및 구조에 대한 설명은 생략하기로 한다.
본 출원의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 방법은, 짧은 텍스트의 키워드를 추출하여 짧은 텍스트의 핵심 콘텐츠를 특징화할 경우, 키워드가 엔티티 단어가 아닐 수 있으므로, 결정된 짧은 텍스트의 핵심 콘텐츠에 시맨틱 정보가 부족하여, 다양한 응용 수요를 충족시키기 어려운 관련 기술의 문제점을 해결하기 위한 것이다.
아래에서, 도면을 참조하여 본 출원에서 제공하는 핵심 엔티티를 레이블링하는 방법, 장치, 전자 기기 및 저장 매체에 대하여 자세히 설명한다.
아래, 도 1과 결합하여 본 출원의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 방법에 대하여 자세히 설명한다.
도 1은 본 출원의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 방법의 개략적인 흐름도이다.
도 1과 같이, 해당 핵심 엔티티를 레이블링하는 방법은 아래와 같은 단계를 포함한다.
단계(101): 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고, 글자 벡터 시퀀스는 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 포함하고, 제1 단어 벡터 시퀀스는 타겟 텍스트 중 각 단어 세그먼트에 대응하는 단어 벡터를 포함하며, 엔티티 벡터 시퀀스는 타겟 텍스트 중 각 엔티티에 대응하는 엔티티 벡터를 포함한다.
설명이 필요한 것은, 텍스트 콘텐츠의 지능화 이해, 텍스트 콘텐츠의 생산, 처리, 및 분배 추천의 자동화와 지능화를 컴퓨터 기술로 실현할 때, 텍스트의 키워드를 추출하여 텍스트의 핵심 콘텐츠를 설명할 수 있으며, 그러나 키워드가 엔티티 단어가 아닐 수 있기에, 결정된 텍스트의 핵심 콘텐츠에 시맨틱 정보가 부족하여, 다양한 응용 수요를 충족시키기 어렵다. 하지만, 구축된 지식 베이스(예를 들어 지식 그래프)의 엔티티로 텍스트의 핵심 콘텐츠를 표현할 경우, 지식 베이스에 대량의 엔티티뿐만 아니라, 각 엔티티의 개념 정보, 각 엔티티 사이의 관계 등 정보도 포함되기에, 텍스트 핵심 콘텐츠의 시맨틱 정보를 풍부하게 할 수 있다.
타겟 텍스트는, 현재 이에 포함된 핵심 엔티티에 대하여 레이블링이 필요한 텍스트 정보를 의미하고; 타겟 텍스트는 뉴스 타이틀, 영상 타이틀, 웹페이지 문장 등과 같은 임의의 텍스트 데이터일 수 있다.
글자 벡터 매핑은, 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 결정하는 과정을 의미하고; 단어 벡터 매핑은, 타겟 텍스트 중 각 글자에 대응하는 단어 벡터를 결정하는 과정을 의미하며; 엔티티 벡터 매핑은, 지식 베이스의 정보를 이용하여 타겟 텍스트 중 엔티티, 및 각 엔티티에 대응하는 엔티티 벡터를 결정하는 과정을 의미한다.
본 출원의 실시예에서, 타겟 텍스트 중 각 캐릭터를 단위로 타겟 텍스트에 대하여 단어 세그먼트 처리를 할 수 있고, 각 캐릭터를 미리 훈련된 글자 벡터 매핑 모델에 입력하여, 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 결정하고, 따라서, 각 캐릭터에 대응하는 글자 벡터에 근거하여 타겟 텍스트에 대응하는 글자 벡터 시퀀스를 생성하며, 즉 타겟 텍스트에 대응하는 글자 벡터 시퀀스 중 각 요소(벡터)는 하나의 캐릭터에 대응하는 글자 벡터이다.
하나의 가능한 실현 방식으로, 사용된 글자 벡터 매핑 모델은 변압기에 기초한 양방향 인코딩 표현(Bidirectional Encoder Representations from Transformers, BERT) 모델일 수 있으며, BERT 모델은 텍스트의 시맨틱 정보를 보다 잘 표현할 수 있다. 설명이 필요한 것은, 실제 사용에서 미리 훈련된 글자 벡터 매핑 모델은 캐릭터의 벡터를 생성할 수 있는 임의의 자연 언어 처리 모델일 수 있고, 본 출원의 실시예는 이를 한정하지 않는다.
본 출원의 실시예에서, 먼저 시맨틱을 가진 단어를 단위로 타겟 텍스트에 대하여 단어 세그먼트 처리를 진행하고, 단어 세그먼트 처리로 획득한 복수의 단어 세그먼트를 미리 훈련된 단어 벡터 매핑 모델에 입력하여, 타겟 텍스트 중 각 단어 세그먼트에 각각 대응하는 단어 벡터를 결정하고, 따라서 타겟 텍스트 중 각 단어 세그먼트에 각각 대응하는 단어 벡터에 따라 타겟 텍스트에 대응하는 단어 벡터 시퀀스를 생성하며, 즉 타겟 텍스트에 대응하는 단어 벡터 시퀀스 중 각 요소(벡터)는 하나의 단어 세그먼트에 대응하는 단어 벡터이다.
하나의 가능한 실현 방식으로, 사용된 단어 벡터 매핑 모델은 Word2Vec 모델일 수 있다. 설명이 필요한 것은, 실제 사용에서, 미리 훈련된 단어 벡터 매핑 모델은 단어 세그먼트의 벡터를 생성할 수 있는 임의의 자연 언어 처리 모델일 수 있고, 본 출원의 실시예는 이를 한정하지 않는다.
본 출원의 실시예에서, 미리 구축된 지식 베이스를 이용하여 타겟 텍스트 중 각 단어 세그먼트가 지식 베이스에서 각각 대응하는 엔티티를 결정하여, 타겟 텍스트 중 각 엔티티를 결정하고, 따라서, 지식 베이스에 포함된 각 엔티티에 대응하는 엔티티 벡터에 따라, 타겟 텍스트 중 각 엔티티에 대응하는 엔티티 벡터를 결정하며, 따라서, 각 엔티티에 각각 대응하는 엔티티 벡터에 따라 타겟 텍스트에 대응하는 엔티티 벡터 시퀀스를 생성할 수 있다.
구체적으로, 타겟 텍스트 중 각 단어 세그먼트가 지식 베이스에서 대응하는 엔티티를 결정할 때, 각 단어 세그먼트에 대응하는 단어 벡터와 지식 베이스 중 각 엔티티에 대응하는 엔티티 벡터 사이의 유사도(예를 들어 코사인 유사도 등)에 따라, 각 단어 세그먼트에 대응하는 엔티티를 결정할 수 있다. 예를 들어, 유사도 임계치를 미리 설정하고, 각 단어 세그먼트에 대응되는 단어 벡터와의 유사도가 유사도 임계치 보다 큰 엔티티 벡터에 대응하는 엔티티를 해당 단어 세그먼트에 대응하는 엔티티로 결정할 수 있다.
하나의 가능한 실현 방식으로, 범용 지식 그래프로 미리 구축된 지식 베이스를 구축할 수 있다. 구체적으로, 미리 구축된 지식 베이스는 범용 지식 그래프, 및 지식 그래프 중 각 엔티티에 대응하는 엔티티 벡터를 포함할 수 있다. 지식 그래프의 각 엔티티가 통상적으로 단어 또는 짧은 문장이므로, 미리 훈련된 단어 벡터 매핑 모델로부터 각 엔티티에 대응하는 엔티티 벡터를 획득할 수 있으며, 예를 들어 Word2Vec 모델 등이 있다.
예를 들어, 타겟 텍스트가 "血糖不正常的標准是多少"(혈당 비정상의 기준은 얼마입니까)인 경우, 먼저 캐릭터를 단위로 타겟 텍스트에 대하여 단어 세그먼트 처리를 하여, 타겟 텍스트 중 각 캐릭터: "血", " 糖", "不", "正", "常", "的", "標", "准", "是", "多", "少"를 획득할 수 있고, 그리고 각 캐릭터를 BERT 모델에 입력하여, 각 캐릭터에 각각 대응하는 글자 벡터를 결정하여, 각 글자 벡터로 타겟 텍스트에 대응하는 글자 벡터 시퀀스를 생성한다; 그 다음, 시맨틱을 가진 단어를 단위로 타겟 텍스트에 대하여 단어 세그먼트 처리를 하여, 타겟 텍스트 중의 각 단어 세그먼트: "血糖", "不", "正常", "的", "標准", "是", "多少"를 획득하고, 각 단어 세그먼트를 Word2Vec 모델에 입력하여, 각 단어 세그먼트에 각각 대응하는 단어 벡터를 결정하고, 따라서, 각 단어 벡터로 타겟 텍스트에 대응하는 단어 벡터 시퀀스를 생성한다; 마지막으로, 타겟 텍스트 중 각 단어 세그먼트에 대응하는 각 단어 벡터에 대하여, 미리 구축된 지식 베이스 중 각 엔티티의 엔티티 벡터와의 유사도를 결정하여, 타겟 텍스트 중 각 엔티티 "血糖", "不", "正常", "的", "標准", "是", "多少"에 각각 대응하는 엔티티 벡터를 결정하고, 따라서 각 엔티티 벡터로 타겟 텍스트에 대응하는 엔티티 벡터 시퀀스를 생성한다.
단계(102): 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성한다.
본 출원의 실시예에서, 타겟 텍스트에 대하여 단어 세그먼트를 할 때, 경계의 분할 오류를 최대한 방지하기 위하여, 캐릭터를 기본 단위로 하여 타겟 텍스트에 대응하는 글자 벡터 시퀀스를 획득할 수 있다. 그러나, 단순 캐릭터는 유효한 시맨틱 정보를 저장하기 어렵기에, 타겟 텍스트의 시맨틱 정보에 보다 효과적으로 통합되도록 하기 위하여, 획득한 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 융합할 수 있다.
하나의 가능한 실현 방식으로, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 결합하여, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성할 수 있다. 구체적으로, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스는 모두 하나의 매트릭스로 볼 수 있으며, 글자 벡터 시퀀스의 행 수는 타겟 텍스트 중 캐릭터의 수량, 열 수는 하나의 글자 벡터의 요소 수량이고; 제1 단어 벡터 시퀀스의 행 수는 타겟 텍스트 중 단어 세그먼트의 수량, 열 수는 하나의 단어 벡터의 요소 수량이며; 엔티티 벡터 시퀀스의 행 수는 타겟 텍스트 중 엔티티의 수량, 열 수는 하나의 엔티티 벡터의 요소 수량인데; 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스의 차원 수가 서로 다를 수 있기에, 먼저 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 대하여 매트릭스 변환하여, 변환된 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스의 차원 수가 글자 벡터 시퀀스와 동일하도록 하고, 따라서 글자 벡터 시퀀스 중 각 행의 요소와 변환된 제1 단어 벡터 시퀀스 중 대응되는 행의 요소, 변환된 엔티티 벡터 시퀀스 중 대응되는 행의 요소를 결합하여, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성할 수 있으며, 즉 타겟 벡터 시퀀스 중 각 타겟 벡터는, 글자 벡터 시퀀스, 변환된 제1 단어 벡터 시퀀스 및 엔티티 벡터 시퀀스 중 대응되는 행의 요소가 결합되어 형성된 것이다.
하나의 가능한 실현 방식으로, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스의 평균치를 타겟 텍스트에 대응하는 타겟 벡터 시퀀스로 결정할 수 있다. 즉, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 대하여 매트릭스 변환을 한 후, 글자 벡터 시퀀스 중 각 행의 글자 벡터와 변환된 제1 단어 벡터 시퀀스 중 대응되는 행의 단어 벡터, 변환된 엔티티 벡터 시퀀스 중 대응되는 행의 엔티티 벡터의 평균치를 결정하고, 따라서, 해당 평균치를 타겟 벡터 시퀀스 중 각 타겟 벡터로 결정한다.
나아가, 타겟 텍스트 중 각 단어 세그먼트가 여러 캐릭터를 포함할 수 있기에, 통상적으로, 획득한 제1 단어 벡터 시퀀스의 차원 수가 글자 벡터 시퀀스의 차원 수보다 작은데, 제1 단어 벡터 시퀀스 중의 단어 벡터를 반복하여, 제1 단어 벡터와 글자 벡터를 정렬시킬 수 있다. 즉, 본 출원의 하나의 가능한 실현 방식에서, 단계(102)는 아래 단계를 포함할 수 있다:
제1 단어 벡터 시퀀스 중의 제1 단어 벡터에 대응하는 제1 단어 세그먼트에 포함된 캐릭터의 수가 N인 경우, 제1 단어 벡터를 N번 반복하여 제2 단어 벡터 시퀀스를 생성하고;
제2 단어 벡터 시퀀스를 매트릭스 변환하여 제3 단어 벡터 시퀀스를 생성하고, 제3 단어 벡터 시퀀스의 차원 수는 타겟 텍스트에 대응하는 글자 벡터 시퀀스의 차원 수와 동일하며;
제3 단어 벡터 시퀀스와 타겟 텍스트에 대응하는 글자 벡터 시퀀스를 병합하여, 미리 처리된 벡터 시퀀스를 생성하고;
타겟 텍스트에 대응하는 엔티티 벡터 시퀀스를 정렬하고 매트릭스 변환하여, 미리 처리된 벡터 시퀀스와 차원 수가 동일한 변환된 벡터 시퀀스를 생성하며;
변환된 벡터 시퀀스와 미리 처리된 벡터 시퀀스를 병합하여, 타겟 벡터 시퀀스를 생성한다.
하나의 가능한 실현 방식으로, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 혼합하여, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성할 경우, 먼저 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스와 글자 벡터 시퀀스를 정렬한 다음 매트릭스 변환하면, 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 혼합할 때, 각 글자 벡터와 해당 제1 단어 벡터, 엔티티 벡터 사이의 연관성이 보다 높아져, 핵심 엔티티 레이블링의 정확성을 향상시킬 수 있다.
구체적으로, 제1 벡터 중 각 제1 단어 벡터에 있어서, 제1 단어 벡터에 대응하는 제1 단어 세그먼트 중 포함된 캐릭터 수에 따라, 각 제1 단어 벡터를 반복할 수 있으며, 즉 대응되는 제1 단어 세그먼트 중 포함된 캐릭터 수가 N인 제1 단어 벡터를 N번 반복하여, 글자 벡터 시퀀스와 정렬되는 제2 단어 벡터 시퀀스를 생성하고, 다시 말하면, 제2 단어 벡터 중 포함된 단어 벡터의 수량과 글자 벡터 중 포함된 글자 벡터의 수량이 동일하다.
또한, 타겟 텍스트의 글자 벡터 시퀀스를 획득하는데 사용한 자연 언어 처리 모델과 제1 단어 벡터 시퀀스를 획득하는데 사용한 자연 언어 처리 모델이 서로 다를 수 있기에, 글자 벡터 시퀀스 중 글자 벡터와 제2 단어 벡터 시퀀스 중 단어 벡터의 차원 수가 서로 다를 수 있으며, 즉 글자 벡터 시퀀스와 제2 단어 벡터 시퀀스의 열 수가 다를 수 있으므로, 제2 단어 벡터 시퀀스를 추가로 매트릭스 변환하여, 글자 벡터 시퀀스와 차원 수가 동일한 제3 단어 벡터 시퀀스를 생성할 수 있다. 다음, 글자 벡터 시퀀스와 제3 단어 벡터 시퀀스를 병합하여, 타겟 벡터 시퀀스를 생성할 수 있다.
설명이 필요한 것은, 글자 벡터 시퀀스와 제3 단어 벡터 시퀀스를 병합할 때, 벡터 시퀀스와 제3 단어 벡터 시퀀스를 결합 처리하여 타겟 벡터 시퀀스를 생성할 수 있고; 혹은, 글자 벡터 시퀀스 중 각 글자 벡터와 제3 단어 벡터 중 대응되는 단어 벡터의 평균치를 미리 처리된 벡터 시퀀스 중 각 미리 처리된 벡터로 결정하여, 미리 처리된 벡터 시퀀스를 생성할 수 있다.
예를 들어, 타겟 텍스트가 "去吃飯
Figure pat00001
"(밥 먹으로 갈까)인 경우, 타겟 텍스트 중 포함된 각 캐릭터는 "去", "吃", "飯", "
Figure pat00002
"이고, 포함된 각 단어 세그먼트는 "去", "吃飯", "
Figure pat00003
"이며, 획득 가능한 글자 벡터 시퀀스는
Figure pat00004
인데, 각 a1, a2, a3, a4는 캐릭터 "去", "吃", "飯", "
Figure pat00005
"에 각각 대응하는 글자 벡터이고, 획득한 제1 단어 벡터 시퀀스는
Figure pat00006
인데, 각 b1, b2, b3은 단어 세그먼트 "去", "吃飯", "
Figure pat00007
"에 각각 대응하는 단어 벡터이며, 제2 단어 벡터 시퀀스는
Figure pat00008
이고; 미리 처리된 벡터 시퀀스가 글자 벡터 시퀀스와 제2 단어 벡터 시퀀스의 결합인 경우, 미리 처리된 벡터 시퀀스를
Figure pat00009
로 결정할 수 있고; 미리 처리된 벡터 시퀀스가 글자 벡터 시퀀스와 제2 단어 벡터 시퀀스의 평균치인 경우, 미리 처리된 벡터 시퀀스를
Figure pat00010
로 결정할 수 있다.
대응되게, 제1 단어 벡터 시퀀스와 동일한 처리 방식을 사용하여 엔티티 벡터 시퀀스를 정렬하고 매트릭스 변환하여, 미리 처리된 벡터 시퀀스의 차원 수와 동일한(즉 글자 벡터 시퀀스의 차원 수와 동일함) 변환 벡터를 생성할 수 있고; 따라서, 변환된 벡터 시퀀스와 미리 처리된 벡터 시퀀스를 병합하여, 타겟 벡터 시퀀스를 생성할 수 있다.
설명이 필요한 것은, 글자 벡터 시퀀스와 제2 단어 벡터 시퀀스를 결합하여 미리 처리된 벡터 시퀀스를 생성할 경우, 변환된 벡터 시퀀스와 미리 처리된 벡터 시퀀스를 결합 처리하여 타겟 벡터 시퀀스를 생성할 수 있고; 미리 처리된 벡터 시퀀스의 각 미리 처리된 벡터가 글자 벡터 시퀀스 중 각 글자 벡터와 제2 단어 벡터 시퀀스 중 대응되는 행의 단어 벡터의 평균치인 경우, 변환된 벡터 시퀀스 중 각 변환 벡터와 미리 처리된 벡터 시퀀스 중 대응되는 행의 미리 처리된 벡터의 평균치를 타겟 벡터 시퀀스 중 각 타겟 벡터로 결정하여, 타겟 벡터 시퀀스를 생성할 수 있다.
단계(103): 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정한다.
미리 설정된 네트워크 모델은 미리 훈련된 신경망 모델일 수 있고 예를 들어 확장 게이트 합성곱 신경망(Dilate Gated Convolutional Neural Network) 모델일 수 있다.
본 출원의 실시예에서, 이중 포인터 레이블링 방법으로 타겟 텍스트 중 핵심 엔티티의 시작 위치와 종료 위치를 레이블링 할 수 있다. 즉, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 미리 설정된 네트워크 모델에 입력하여, 미리 설정된 네트워크 모델을 사용하여부터 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 출력하여, 타겟 텍스트 중 핵심 엔티티의 이중 포인터 레이블링을 실현할 수 있으며, 이로부터 핵심 엔티티 레이블링의 정확성을 향상시킬 수 있다.
단계(104): 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정한다.
본 출원의 실시예에서, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률과 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정할 수 있다.
선택적으로, 확률 임계치를 미리 설정하고, 타겟 텍스트에서 핵심 엔티티의 시작 캐릭터인 확률이 확률 임계치보다 크거나 같은 제1 캐릭터, 핵심 엔티티의 종료 캐릭터인 확률이 확률 임계치 보가 크거나 같은 제2 캐릭터를 결정하여, 제1 캐릭터를 타겟 텍스트 중 핵심 엔티티의 시작 캐릭터로, 제1 캐릭터 뒤에 위치한 제2 캐릭터를 타겟 텍스트 중 핵심 엔티티의 종료 캐릭터로 하여, 타겟 텍스트 중 각 핵심 엔티티를 결정한다.
예를 들어, 미리 설정된 확률 임계치가 0.8이고, 타겟 텍스트가 "夏至未至:陸之昻和七七開始吃了起來, 七七太能吃!"(하지미지: 육지앙과 치치는 먹기 시작하였고, 치치는 너무 잘 먹었다!)인 경우, 타겟 텍스트 중 캐릭터 "陸"이 핵심 엔티티의 시작 캐릭터인 확률이 0.8보다 크고, 캐릭터 "昻"이 핵심 엔티티의 종료 캐릭터인 확률이 0.8보다 크며, 캐릭터 "七"가 핵심 엔티티의 시작 캐릭터인 확률과 핵심 엔티티의 종료 캐릭터인 확률이 모두 0.8보다 큰 것이 결정되면, 타겟 텍스트 중 핵심 엔티티가 "陸之昻", "七七", "陸之昻和七七"를 포함하는 것을 결정할 수 있다.
본 출원의 실시예의 기술 방안은, 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하며, 다음, 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하고, 따라서 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정한다. 따라서, 타겟 텍스트의 글자 벡터, 단어 벡터, 및 엔티티 벡터를 융합하고, 미리 설정된 네트워크 모델을 사용하여 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하며, 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정함으로써, 텍스트 중 핵심 엔티티를 정확하게 추출하였고, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였으며, 범용성을 향상시켰다.
본 출원의 하나의 가능한 실현 방식에서, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률과 종료 캐릭터인 확률을 결정할 때, 타겟 텍스트 중 각 엔티티가 핵심 엔티티인 선험 확률을 융합하여, 핵심 엔티티 레이블링의 정확성을 더 높일 수 있다.
아래 도 2와 결합하여 본 출원의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 방법을 더 설명한다.
도 2는 본 출원의 실시예에서 제공하는 다른 핵심 엔티티를 레이블링하는 방법의 개략적인 흐름도이다.
도 2와 같이, 해당 핵심 엔티티를 레이블링하는 방법은 아래와 같은 단계를 포함한다.
단계(201): 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고, 글자 벡터 시퀀스는 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 포함하고, 제1 단어 벡터 시퀀스는 타겟 텍스트 중 각 단어 세그먼트에 대응하는 단어 벡터를 포함하며, 엔티티 벡터 시퀀스는 타겟 텍스트 중 각 엔티티에 대응하는 엔티티 벡터를 포함한다.
단계(202): 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성한다.
단계(201-202)의 구체적인 실현 과정과 원리는 전술된 실시예의 상세한 설명을 참조할 수 있으므로, 중복되는 설명은 생략하기로 한다.
단계(203): 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률을 획득한다.
엔티티에 대응하는 핵심 엔티티 선험 확률은, 전술된 미리 설정된 네트워크 모델을 사용하여 해당 엔티티를 핵심 엔티티로 레이블링한 과거 사용 데이터에 따라 예측한 해당 엔티티를 핵심 엔티티로 레이블링하는 확률이다.
하나의 가능한 실현 방식으로, 타겟 텍스트에 포함된 각 엔티티에 따라, 타겟 텍스트 중 각 엔티티를 핵심 엔티티로 결정할 때마다, 미리 설정된 네트워크 모델의 과거 사용 데이터로부터 미리 설정된 네트워크 모델이 결정한 각 엔티티에 대응하는 시작 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 각 엔티티에 대응하는 종료 캐릭터가 핵심 엔티티의 종료 캐릭터인 확률을 획득하여, 각 엔티티가 핵심 엔티티로 결정될 때마다 대응하는 시작 캐릭터인 확률과 종료 캐릭터인 확률의 평균치를, 각 엔티티에 대응하는 핵심 엔티티 선험 확률로 결정한다.
예를 들어, 타겟 텍스트 중 엔티티 A에 있어서, 미리 설정된 네트워크 모델의 과거 데이터로부터, 엔티티 A가 핵심 엔티티로 세 차례 결정된 것으로 결정된 경우, 첫 번째로 핵심 엔티티로 결정될 때, 엔티티 A에 대응하는 시작 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률이 0.8이고, 엔티티 A에 대응하는 종료 캐릭터가 핵심 엔티티의 종료 캐릭터인 확률이 0.9이며; 두 번째로 핵심 엔티티로 결정될 때, 엔티티 A에 대응하는 시작 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률이 0.9이고, 엔티티 A에 대응하는 종료 캐릭터가 핵심 엔티티의 종료 캐릭터인 확률이 0.9이며; 세 번째로 핵심 엔티티로 결정 될 때, 엔티티 A에 대응하는 시작 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률이 0.9이고, 엔티티 A에 대응하는 종료 캐릭터가 핵심 엔티티의 종료 캐릭터인 확률이 1이면; 엔티티 A에 대응하는 핵심 엔티티 선험 확률이 (0.8+0.9+0.9+0.9+0.9+1)/6=0.9인 것을 결정할 수 있다.
설명이 필요한 것은, 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률을 결정하는 방식은 상술 방법을 포함하나 이에 한정되지 않는다. 실제 사용에서, 실제 사용 및 구체적인 응용 시나리오에 따라 핵심 엔티티 선험 확률을 결정하는 방법을 선택할 수 있고, 본 출원의 실시예는 이를 한정하지 않는다.
단계(204): 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률에 대하여 완전 연결 처리를 수행하여, 타겟 텍스트에 대응하는 선험 시퀀스 벡터를 결정한다.
본 출원의 실시예에서, 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률을 결정한 후, 각 엔티티에 대응하는 핵심 엔티티 선험 확률에 대하여 완전 연결 처리를 수행하여, 각 엔티티에 대응하는 핵심 엔티티 선험 확률을 조합하고, 이로부터 타겟 텍스트에 대응하는 선험 시퀀스 벡터를 생성할 수 있다. 즉 선험 시퀀스 벡터 중 각 요소는 각각 타겟 텍스트 중 각 엔티티에 각각 대응하는 핵심 엔티티 선험 확률이다.
단계(205): 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩 처리하여, 타겟 벡터 시퀀스에 대응하는 타겟 시퀀스 벡터를 결정한다.
타겟 벡터 시퀀스에 대응하는 타겟 시퀀스 벡터는, 타겟 벡터 시퀀스 중 각 벡터를 결합하여 생성한 벡터일 수 있고, 타겟 벡터 시퀀스 중 각 벡터를 가중 평균 병합하여 생성한 벡터일 수도 있다.
본 출원의 실시예에서, 미리 설정된 네트워크 모델 중 평균 병합 레이어로 타겟 벡터 시퀀스를 인코딩 처리하여, 타겟 벡터 시퀀스에 대응하는 타겟 시퀀스 벡터를 결정할 수 있다.
단계(206): 미리 설정된 네트워크 모델을 사용하여 타겟 시퀀스 벡터와 선험 시퀀스 벡터를 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정한다.
본 출원의 실시예에서, 미리 설정된 네트워크 모델을 사용하여 타겟 시퀀스 벡터 및 선험 시퀀스 벡터를 디코딩 처리하여, 타겟 시퀀스 벡터에 따라 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정할 때, 선험 시퀀스 벡터를 참조하도록 하여, 미리 설정된 네트워크 모델의 출력 결과를 보다 정확하게 할 수 있다.
단계(207): 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정한다.
단계(207)의 구체적인 실현 과정과 원리는 전술된 실시예의 상세한 설명을 참조할 수 있으므로, 중복되는 설명은 생략하기로 한다.
단계(208): 각 핵심 엔티티 중 시작 캐릭터 확률 및 종료 캐릭터 확률에 따라, 각 핵심 엔티티의 득점을 결정한다.
본 출원의 실시예에서, 결정된 각 핵심 엔티티에 대하여 점수를 매겨, 수요에 따라 각 핵심 엔티티의 득점으로 핵심 엔티티를 선별하여, 본 출원의 실시예에 따른 핵심 엔티티를 레이블링하는 방법의 응용 시나리오를 보다 넓힐 수 있고 범용성을 더욱 향상시킬 수 있다.
하나의 가능한 실현 방식으로, 각 핵심 엔티티 중 시작 캐릭터 확률과 종료 캐릭터 확률의 평균치를 각 핵심 엔티티의 득점으로 결정할 수 있다.
예를 들어, 핵심 엔티티 A에 있어서, 해당 핵심 엔티티의 시작 캐릭터 확률이 0.9이고, 종료 캐릭터 확률이 0.8이면, 핵심 엔티티 A의 득점은 (0.9+0.8)/2=0.85이다.
나아가, 본 출원의 실시예에 따른 핵심 엔티티를 레이블링하는 방법은, 이중 포인터 레이블링 메커니즘을 사용하기에, 결정된 핵심 엔티티 결과에 겹치거나 교차되는 부분이 발생하기 쉽다. 따라서, 결정된 핵심 엔티티 결과에 중복 부분이 존재하는 확률을 낮추기 위하여, 각 핵심 엔티티의 득점에 따라 각 핵심 엔티티를 선별하여, 중복된 핵심 엔티티를 제거할 수 있다. 즉, 본 출원의 실시예의 하나의 가능한 실현 방식에서, 타겟 텍스트에 복수의 핵심 엔티티가 포함된 것이 확인된 경우, 단계(208) 이후, 아래 단계를 더 포함할 수 있다:
타겟 텍스트의 복수의 핵심 엔티티에 교차 엔티티의 포함 여부를 판단하고;
제1 엔티티가 각각 제2 엔티티 및 제3 엔티티와 교차한 경우, 제1 엔티티의 득점이 제2 엔티티의 득점과 제3 엔티티의 득점의 합보다 큰지 여부를 판단하며;
제1 엔티티의 득점이 제2 엔티티의 득점과 제3 엔티티의 득점의 합보다 큰 경우, 제2 엔티티 및 제3 엔티티를 타겟 텍스트의 핵심 엔티티에서 제거하고;
제2 엔티티의 득점과 제3 엔티티의 득점의 합이 제1 엔티티의 득점보다 큰 경우, 제1 엔티티를 타겟 텍스트의 핵심 엔티티에서 제거한다.
제1 엔티티가 제2 엔티티 및 제3 엔티티와 교차한다는 것은, 제1 엔티티가 제2 엔티티의 인물 엔티티를 포함하는 것을 의미한다. 예를 들어, 제1 엔티티는 "陸之昻和七七"이고, 제2 엔티티는 "陸之昻"이며, 제3 엔티티는 "七七"이다.
하나의 가능한 실현 방식으로, 타겟 텍스트에 여러 핵심 엔티티가 포함하는 것이 확인된 경우, 각 핵심 엔티티에 교차된 핵심 엔티티가 포함한지 여부를 판단할 수 있고, 각 핵심 엔티티의 득점에 따라, 득점이 낮은 핵심 엔티티를 제거할 수 있다.
구체적으로, 제1 엔티티의 득점이 제2 엔티티와 제3 엔티티의 득점의 합보다 큰 경우, 제1 엔티티가 핵심 엔티티인 신뢰성이 제2 엔티티와 제3 엔티티가 함께 핵심 엔티티인 신뢰성보다 높은 것을 결정할 수 있고, 따라서, 제2 엔티티와 제3 엔티티를 타겟 텍스트의 핵심 엔티티에서 제거할 수 있으며; 제2 엔티티와 제3 엔티티의 득점의 합이 제1 엔티티의 득점보다 큰 경우, 제2 엔티티와 제3 엔티티가 함께 핵심 엔티티인 신뢰성이 제1 엔티티가 핵심 엔티티인 신뢰성 보다 높은 것을 결정할 수 있고, 따라서, 제1 엔티티를 타겟 텍스트의 핵심 엔티티에서 제거할 수 있다.
예를 들어, 타겟 텍스트가 "夏至未至:陸之昻和七七開始吃了起來, 七七太能吃!"(하지미지: 육지앙과 치치는 먹기 시작하였고, 치치는 너무 잘 먹었다!)이고, 결정된 타겟 텍스트의 핵심 엔티티가 "陸之昻", "七七", "陸之昻和七七"이며, 엔티티 "陸之昻"의 득점이 0.7, 엔티티 "七七"의 득점이 0.8, 엔티티 "陸之昻和七七"의 득점이 0.9인 경우, 엔티티 "陸之昻"과 엔티티 "七七"의 득점의 합이 엔티티 "陸之昻和七七"의 득점보다 크기에, 엔티티 "陸之昻和七七"를 타겟 텍스트의 핵심 엔티티에서 제거할 수 있다.
본 출원의 실시예에 따른 기술 방안은, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하고, 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률에 대하여 완전 연결 처리를 수행하여, 타겟 텍스트에 대응하는 선험 시퀀스 벡터를 결정하며, 다음, 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩 처리하여, 타겟 벡터 시퀀스에 대응하는 타겟 시퀀스 벡터를 결정하고, 타겟 시퀀스 벡터 및 선험 시퀀스 벡터를 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하며, 따라서, 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티와 각 핵심 엔티티의 득점을 결정한다. 이로부터, 타겟 텍스트의 글자 벡터, 단어 벡터 및 엔티티 벡터를 융합하고, 미리 설정된 네트워크 모델 및 핵심 엔티티의 선험 특징을 통하여, 타겟 텍스트의 핵심 엔티티 및 각 핵심 엔티티의 득점을 결정함으로써, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였을 뿐만 아니라, 핵심 엔티티 레이블링의 정황성과 범용성을 더욱 향상시켰다.
본 출원의 하나의 가능한 실현 방식에서, 타겟 텍스트에 여러 병렬된 엔티티가 포함된 경우, 병렬된 복수의 엔티티 중 하나만 대하여 엔티티 벡터 매핑을 할 수 있고, 해당 엔티티에 대한 식별 결과에 따라, 그와 병렬된 기타 엔티티가 핵심 엔티티인지 여부를 결정하여, 핵심 엔티티 레이블링의 계산 복잡도를 낮출 수 있다.
아래 도 3을 참조하여 본 출원의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 방법을 추가로 설명한다.
도 3은 본 출원의 실시예에서 제공하는 또 다른 핵심 엔티티를 레이블링하는 방법의 개략적인 흐름도이다.
도 3과 같이, 해당 핵심 엔티티를 레이블링하는 방법은 아래와 같은 단계를 포함한다.
단계(301): 타겟 텍스트를 식별하여, 타겟 텍스트에 미리 설정된 부호로 분리된 복수의 엔티티가 포함되어 있는지 여부를 판단한다.
미리 설정된 부호는 콤마 등 병렬 관계를 표시하는 부호일 수 있다. 실제 사용에서, 실제 수요에 따라 미리 설정된 부호를 설정할 수 있다.
본 출원의 실시예에서, 알고리즘의 복잡도를 낮추기 위하여, 타겟 텍스트에 병렬된 복수의 엔티티가 포함된 경우, 그중 하나의 엔티티만 식별하여, 해당 엔티티의 식별결과에 따라, 그와 병렬된 기타 엔티티가 핵심 엔티티인지 여부를 결정할 수 있다.
하나의 가능한 실현 방식으로, 타겟 텍스트를 식별하여, 타겟 텍스트에 미리 설정된 부호가 포함되는지 여부를 확인하고, 타겟 텍스트에 미리 설정된 부호가 포함된 것이 결정된 경우, 미리 설정된 부호 앞과 뒤의 엔티티를 병렬된 복수의 엔티티로 결정할 수 있다.
설명이 필요한 것은, 타겟 텍스트에 미리 설정된 부호로 분리된 복수의 엔티티가 포함되어 있는지 여부를 판단할 때, 미리 설정된 부호에 대응하는 글자 벡터와 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 비교할 수 있으며, 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터에 미리 설정된 부호에 대응하는 글자 벡터와 매칭하는 글자 벡터가 포함된 경우, 타겟 텍스트에 미리 설정된 부호가 포함됨을 결정할 수 있고, 타겟 텍스트 중 미리 설정된 부호의 앞과 뒤에 위치한 엔티티를, 타겟 텍스트에서 미리 설정된 부호로 분리된 복수의 엔티티로 결정할 수 있다.
단계(302): 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑하고, 첫 번째 미리 설정된 부호 앞의 제4 엔티티, 및 타겟 텍스트에서 미리 설정된 부호로 분리된 복수의 엔티티를 제외한 제5 엔티티에 대하여 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득한다.
제4 엔티티는 타겟 텍스트에서 미리 설정된 부호로 분리된 복수의 엔티티 중 첫 번째로 나타난 엔티티를 의미하고; 제5 엔티티는 타겟 텍스트에서 미리 설정된 부호로 분리된 복수의 엔티티를 제외한 기타 엔티티를 의미한다. 예를 들어, 미리 설정된 부호가 "콤마"이고, 타겟 텍스트에 엔티티 A, 엔티티 B, 엔티티 C, 엔티티 D, 엔티티 E가 포함되며, 엔티티 A, 엔티티 B, 엔티티 C가 타겟 텍스트에 순차적으로 나타나고 콤마로 분리된 경우, 제4 엔티티는 엔티티 A이고, 제5 엔티티는 엔티티 D와 엔티티 E이다.
본 출원의 실시예에서, 타겟 텍스트에 미리 설정된 부호로 분리된 복수의 병렬 엔티티가 포함된 경우, 타겟 텍스트를 엔티티 벡터 매핑할 때, 병렬 엔티티 중 첫 번째로 나타난 제4 엔티티에 대해서만 엔티티 벡터 매핑하고, 제5 엔티티를 엔티티 벡터 매핑하여, 타겟 텍스트에 대응하는 엔티티 벡터 시퀀스를 결정함으로써, 타겟 텍스트의 엔티티 벡터 매핑의 연산 부담을 줄여, 핵심 엔티티의 레이블링 효율을 향상시킬 수 있다.
단계(302)의 기타 구체적인 실현 과정과 원리는 전술된 실시예의 상세한 설명을 참조할 수 있으므로, 중복되는 설명은 생략하기로 한다.
단계(303): 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성한다.
단계(304): 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정한다.
단계(305): 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정한다.
단계(303-305)의 기타 구체적인 실현 과정과 원리는 전술된 실시예의 상세한 설명을 참조할 수 있으므로, 중복되는 설명은 생략하기로 한다.
단계(306): 제4 엔티티가 핵심 엔티티인지 여부를 판단한다.
단계(307): 제4 엔티티가 핵심 엔티티인 경우, 제4 엔티티와 미리 설정된 부호로 분리된 기타 각 엔티티를 타겟 텍스트의 핵심 엔티티로 결정한다.
본 출원의 실시예에서, 타겟 텍스트의 핵심 엔티티를 결정한 후, 타겟 텍스트의 핵심 엔티티에 제4 엔티티의 포함여부를 판단할 수 있고, 포함된 경우, 제4 엔티티와 미리 설정된 부호로 분리된 기타 각 엔티티를 타겟 텍스트의 핵심 엔티티로 결정할 수 있고; 제4 엔티티가 핵심 엔티티가 아닌 경우, 제4 엔티티와 미리 설정된 부호로 분리된 기타 엔티티도 타겟 텍스트의 핵심 엔티티가 아니다.
본 출원의 실시예에 따른 기술 방안은, 타겟 텍스트에 미리 설정된 부호로 분리된 복수의 엔티티를 포함하는 것을 통하여, 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑하고, 첫 번째 미리 설정된 부호 앞의 제4 엔티티, 및 타겟 텍스트에서 미리 설정된 부호로 분리된 복수의 엔티티를 제외한 제5 엔티티에 대하여 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하며, 다음, 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하여, 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정하고, 따라서, 제4 엔티티가 핵심 엔티티인 경우, 제4 엔티티와 미리 설정된 부호로 분리된 기타 각 엔티티를 타겟 텍스트의 핵심 엔티티로 결정한다. 따라서, 타겟 텍스트의 글자 벡터, 단어 벡터 및 엔티티 벡터를 융합하여, 병렬된 복수의 엔티티 중 하나만을 엔티티 벡터 매핑하고, 미리 설정된 네트워크 모델과 그중 하나의 병렬 엔티티에 대한 식별 결과에 따라, 타겟 텍스트의 핵심 엔티티를 결정함으로써, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였고, 핵심 엔티티 레이블링의 정황성과 범용성을 향상시켰으며, 핵심 엔티티의 레이블링 효율도 향상시켰다.
전술된 실시예를 실현하기 위하여, 본 출원은 핵심 엔티티를 레이블링하는 장치를 더 제공한다.
도 4는 본 출원 실시예에서 제공하는 핵심 엔티티를 레이블링하는 장치의 구조 개략도이다.
도 4와 같이, 핵심 엔티티를 레이블링하는 장치(40)는 아래와 같다.
제1 획득 모듈(41)은, 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고, 글자 벡터 시퀀스는 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 포함하고, 제1 단어 벡터 시퀀스는 타겟 텍스트 중 각 단어 세그먼트에 대응하는 단어 벡터를 포함하며, 엔티티 벡터 시퀀스는 타겟 텍스트 중 각 엔티티에 대응하는 엔티티 벡터를 포함한다.
생성 모듈(42)은, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성한다.
제1 결정 모듈(43)은, 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정한다.
제2 결정 모듈(44)은, 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정한다.
실제 사용에서, 본 출원의 실시예에서 제공하는 핵심 엔티티를 레이블링하는 장치는, 임의의 전자 기기에 배치되어 전술된 핵심 엔티티를 레이블링하는 방법을 구현할 수 있다.
본 출원의 실시예에 따른 기술 방안은, 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하며, 다음, 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하고, 따라서 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정한다. 따라서, 타겟 텍스트의 글자 벡터, 단어 벡터, 및 엔티티 벡터를 융합하고, 미리 설정된 네트워크 모델을 사용하여 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하며, 따라서, 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정함으로써, 텍스트 중 핵심 엔티티를 정확하게 추출하였고, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였으며, 범용성을 향상시켰다.
본 출원의 하나의 가능한 실현 방식에서, 전술된 핵심 엔티티를 레이블링하는 장치(40)는,
타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률을 획득하는 제2 획득 모듈;
타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률에 대하여 완전 연결 처리를 수행하여, 타겟 텍스트에 대응하는 선험 시퀀스 벡터를 결정하는 제3 결정 모듈을 더 포함하고,
전술된 제1 결정 모듈(43)은 구체적으로,
미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩 처리하여, 타겟 벡터 시퀀스에 대응하는 타겟 시퀀스 벡터를 결정하고;
미리 설정된 네트워크 모델을 사용하여 타겟 시퀀스 벡터와 선험 시퀀스 벡터를 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정한다.
나아가, 본 출원의 다른 하나의 가능한 실현 방식에서, 상기 생성 모듈(42)은 구체적으로,
제1 단어 벡터 시퀀스 중의 제1 단어 벡터에 대응하는 제1 단어 세그먼트에 포함된 캐릭터 수가 N인 경우, 제1 단어 벡터를 N번 반복하여 제2 단어 벡터 시퀀스를 생성하고;
제2 단어 벡터 시퀀스를 매트릭스 변환하여 제3 단어 벡터 시퀀스를 생성하고, 제3 단어 벡터 시퀀스의 차원 수는 타겟 텍스트에 대응하는 글자 벡터 시퀀스의 차원 수와 동일하며;
제3 단어 벡터 시퀀스와 타겟 텍스트에 대응하는 글자 벡터 시퀀스를 병합하여 미리 처리된 벡터 시퀀스를 생성하고;
타겟 텍스트에 대응하는 엔티티 벡터 시퀀스를 정렬하고 매트릭스 변환하여, 미리 처리된 벡터 시퀀스와 차원 수가 동일한 변환된 벡터 시퀀스를 생성하고;
변환된 벡터 시퀀스와 미리 처리된 벡터 시퀀스를 병합하여, 타겟 벡터 시퀀스를 생성한다.
나아가, 본 출원의 또 다른 가능한 실현 방식에서, 상기 생성 모듈(42)은,
타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 결합 처리하여, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는데 더 사용된다.
나아가, 본 출원의 또 다른 가능한 실현 방식에서, 상기 핵심 엔티티를 레이블링하는 장치(40)는,
제4 결정 모듈을 더 포함하며, 제4 결정 모듈은, 각 핵심 엔티티 중 시작 캐릭터 확률 및 종료 캐릭터 확률에 따라, 각 핵심 엔티티의 득점을 결정한다.
나아가, 본 출원의 또 다른 가능한 실현 방식에서, 상술의 타겟 텍스트가 복수의 핵심 엔티티를 포함한 경우, 상술의 핵심 엔티티를 레이블링하는 장치(40)는,
타겟 텍스트의 복수의 핵심 엔티티에 교차 엔티티의 포함여부를 판단하는 제1 판단 모듈;
제1 엔티티가 각각 제2 엔티티 및 제3 엔티티와 교차한 경우, 제1 엔티티의 득점이 제2 엔티티의 득점과 제3 엔티티의 득점의 합보다 큰지 여부를 판단하는 제2 판단 모듈;
제1 엔티티의 득점이 제2 엔티티의 득점과 제3 엔티티의 득점의 합보다 큰 경우, 제2 엔티티 및 제3 엔티티를 타겟 텍스트의 핵심 엔티티에서 제거하는 제1 제거 모듈; 및
제2 엔티티의 득점과 제3 엔티티의 득점의 합이 제1 엔티티의 득점보다 큰 경우, 제1 엔티티를 타겟 텍스트의 핵심 엔티티에서 제거하는 제2 제거 모듈을 더 포함한다.
나아가, 본 출원의 또 다른 가능한 실현 방식에서, 상기 핵심 엔티티를 레이블링하는 장치(40)는,
제3 판단 모듈을 더 포함하고, 제3 판단 모듈은, 타겟 텍스트를 식별하여, 타겟 텍스트에 미리 설정된 부호로 분리된 복수의 엔티티가 포함되어 있는지 여부를 판단하고;
대응되게, 제1 획득 모듈(41)은, 포함된 경우, 첫 번째 미리 설정된 부호 앞의 제4 엔티티, 및 타겟 텍스트에서 미리 설정된 부호로 분리된 복수의 엔티티를 제외한 제5 엔티티를 엔티티 벡터 매핑하는데 더 사용되며;
대응되게, 상기 핵심 엔티티를 레이블링하는 장치(40)는,
제4 엔티티가 핵심 엔티티인지 여부를 판단하는 제4 판단 모듈;
제4 엔티티가 핵심 엔티티인 경우, 제4 엔티티와 미리 설정된 부호로 분리된 기타 각 엔티티를 타겟 텍스트의 핵심 엔티티로 결정하는 제5 결정 모듈을 더 포함한다.
설명이 필요한 것은, 도 1, 도 2 및 도 3을 참조한 핵심 엔티티를 레이블링하는 방법의 실시예에 대한 설명은 해당 실시예의 핵심 엔티티를 레이블링하는 장치(40)에도 적용되므로, 중복되는 설명은 생략하기로 한다.
본 출원의 실시예에 따른 기술 방안은, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하고, 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률에 대하여 완전 연결 처리를 수행하여, 타겟 텍스트에 대응하는 선험 시퀀스 벡터를 결정하며, 다음, 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩 처리하여, 타겟 벡터 시퀀스에 대응하는 타겟 시퀀스 벡터를 결정하고, 타겟 시퀀스 벡터 및 선험 시퀀스 벡터를 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하며, 따라서, 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티, 및 각 핵심 엔티티의 득점을 결정한다. 따라서, 타겟 텍스트의 글자 벡터, 단어 벡터와 엔티티 벡터를 융합하고, 미리 설정된 네트워크 모델 및 핵심 엔티티의 선험 특징을 사용하여, 타겟 텍스트의 핵심 엔티티 및 각 핵심 엔티티의 득점을 결정함으로써, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였을 뿐만 아니라, 핵심 엔티티 레이블링의 정황성과 범용성을 더욱 향상시켰다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 핵심 엔티티를 레이블링하는 방법이 실행된다.
도 5는 본 출원의 실시예에 따른 핵심 엔티티를 레이블링하는 방법을 구현하는 전자 기기의 블록도이다. 전자 기기는 랩탑 컴퓨터, 데스크탑 컴퓨터, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내는 것이다. 전자 기기는 개인 디지털 프로세싱, 휴대 전화, 스마트 폰, 웨어러블 장치, 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에 도시된 부품, 그들의 연결 및 관계, 및 그들의 기능은 예시일 뿐, 본 명세서에서 설명 및/또는 보호하고자 하는 본 출원의 구현을 제한하는 것은 아니다.
도 5에 도시된 바와 같이, 전자 기기는, 하나 또는 그 이상의 프로세서(501), 메모리(502), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부품을 연결하는 인터페이스를 포함한다. 각 부품은 상이한 버스에 의해 상호 연결되고, 공통 메인보드에 장착되거나 또는 수요에 따라 다른 방식으로 장착될 수도 있다. 프로세서는 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링되는 디스플레이 장치)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리에 저장된 명령을 포함한 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시 방식에서, 수요에 따라 복수의 프로세서 및/또는 복수의 버스는, 복수의 메모리와 함께 사용될 수 있다. 또한, 다수의 전자 기기를 연결할 수 있으며, 각 전자 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 블레이드 서버 세트, 또는 멀티 프로세서 시스템)을 제공할 수 있다. 도 5에서는 프로세서(501)가 하나인 경우를 예로 하였다.
메모리(502)는 본 출원에서 제공하는 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령을 저장하여, 상기 적어도 하나의 프로세서가 본 출원에서 제공하는 핵심 엔티티를 레이블링하는 방법을 실행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는, 컴퓨터가 본 출원에서 제공하는 핵심 엔티티를 레이블링하는 방법을 실행하도록 하는 컴퓨터 명령을 저장한다.
메모리(502)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에 따른 핵심 엔티티를 레이블링하는 방법이 대응하는 프로그램 명령/모듈(예를 들어, 도 4의 제1 획득 모듈(41), 생성 모듈(42), 제1 결정 모듈(43), 제2 결정 모듈(44))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(501)는 메모리(502)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 애플리케이션 및 데이터 처리를 실행하며, 즉 전술된 방법 실시예에 따른 핵심 엔티티를 레이블링하는 방법을 구현한다.
메모리(502)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 핵심 엔티티를 레이블링하는 방법의 전자 기기의 사용에 따라 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(502)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 다른 비일시적 고체 메모리 장치와 같은 적어도 하나의 비일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(502)는 프로세서(501)에 비해 원격으로 설치된 저장 장치를 선택적으로 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 핵심 엔티티를 레이블링하는 방법의 전자 기기에 연결될 수 있다. 이러한 네트워크의 예로서, 인터넷, 기업 인트라넷, 로컬 영역 네트워크, 이동 통신 네트워크, 및 이들의 조합을 포함하지만, 이에 한정되지 않는다.
핵심 엔티티를 레이블링하는 방법을 수행하는 전자 기기는, 입력 장치(503) 및 출력 장치(504)를 더 포함할 수 있다. 프로세서(501), 메모리(502), 입력 장치(503), 및 출력 장치(504)는 버스 또는 다른 수단에 의해 연결될 수 있으며, 도 6에서 버스를 통한 연결이 예시되어 있다.
입력 장치(503)는 입력된 숫자 또는 문자 정보를 수신할 수 있을 뿐만 아니라, 핵심 엔티티를 레이블링하는 방법의 전자 기기의 사용자 설정 및 기능 제어에 관련된 키 신호 입력을 생성할 수 있으며, 입력 장치의 예로서, 터치 스크린, 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 그 이상의 마우스 버튼, 트랙볼, 조이스틱 등이 있다. 출력 장치(504)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 및 햅틱 피드백 장치(예를 들어, 진동 모터)등을 포함할 수 있다. 해당 디스플레이 장치는 액정표시장치(LCD), 발광 다이오드(LED) 디스플레이, 및 플라즈마 디스플레이를 포함할 수 있으나, 이에 한정되지 않는다. 일부 실시 방식에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 집적 회로(ASIC), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에 의해 구현될 수 있다. 이러한 다양한 실시 방식은 하나 또는 그 이상의 컴퓨터 프로그램에 의해 구현될 수 있으며, 해당 하나 또는 그 이상의 컴퓨터 프로그램은, 적어도 하나의 프로그램 가능 시스템에 의해 실행 및/또는 해석될 수 있고, 해당 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 해당 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, 용어 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 디바이스, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 소자(PLD))를 가리키며, 기계 판독 가능 신호인 기계 명령을 수신하기 위한 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 신호를 지칭한다.
사용자와 상호 작용하기 위하여, 컴퓨터로 본 명세서에 설명한 시스템 및 기술을 구현할 수 있으며, 해당 컴퓨터는, 사용자에게 정보를 디스플레이 하는 디스플레이 장치(예를 들어, 음극선관(CRT) 또는 액정표시장치(LCD) 모니터), 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드 및 포인팅 장치로 컴퓨터에 입력을 제공할 수 있다. 다른 종류의 장치로 사용자와의 상호 작용을 제공할 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고, 사용자로부터의 입력은 임의의 형태(음향 입력, 음성 입력, 또는 촉각 입력을 포함하는)로 수신될 수 있다.
본 명세서에서 설명한 시스템 및 기술은, 백그라운드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트-엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 사용자 컴퓨터일 수 있으며, 사용자는 이러한 그래픽 사용자 인터페이스 또는 웹 브라우저를 통하여 본 명세서에서 설명한 시스템 및 기술의 실시 방식과 상호 작용을 구현할 수 있음), 또는 이러한 백그라운드 구성 요소, 미들웨어 구성 요소 또는 프론트-엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에 의해 구현될 수 있다. 시스템의 구성 요소는, 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통하여 서로 연결될 수 있다. 통신 네트워크의 예시로는, 근거리 통신망(LAN), 광대역통신망(WAN), 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 떨어져 있고, 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버 간의 관계는 대응되는 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 생성된다.
본 출원의 실시예에 따른 기술 방안은, 타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하고, 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하며, 다음, 미리 설정된 네트워크 모델을 사용하여 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하고, 따라서 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정한다. 따라서, 타겟 텍스트의 글자 벡터, 단어 벡터와 엔티티 벡터를 융합하여, 미리 설정된 네트워크 모델을 사용하여 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률과 종료 캐릭터인 확률을 결정하고, 따라서, 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라 타겟 텍스트의 핵심 엔티티를 결정함으로써, 텍스트 중 핵심 엔티티를 정확하게 추출하였고, 텍스트의 핵심 콘텐츠의 시맨틱 정보를 풍부하게 하였으며, 범용성을 향상시켰다.
전술된 다양한 형태의 과정을 통하여 각 단계를 재배열, 부가 또는 삭제할 수 있다는 것을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계들은, 본 출원에 개시된 기술 방안이 기대하는 결과를 구현할 수 있는 한, 동시에 실행되거나 순차적으로 또는 다른 순서로 실행될 수 있고, 본 명세서에서 이를 한정하지 않는다.
본 출원의 보호 범위는 전술된 구체적인 실시 방식에 의해 한정되지 않는다. 설계 요구와 기타 요인에 따라 다양한 수정, 조합, 하위 조합, 및 대체가 이루어 질 수 있다는 것은 본 기술분야의 통상의 지식을 가진 자에게 자명한 것이다. 본 출원의 사상과 원리 내에서 이루어진 모든 수정, 등가물, 및 개선은 모두 본 출원의 보호 범위 내에 속한다.

Claims (17)

  1. 핵심 엔티티를 레이블링하는 방법에 있어서,
    타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 상기 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하는 단계 - 상기 글자 벡터 시퀀스는, 상기 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 포함하고, 상기 제1 단어 벡터 시퀀스는, 상기 타겟 텍스트 중 각 단어 세그먼트에 대응하는 단어 벡터를 포함하며, 상기 엔티티 벡터 시퀀스는, 상기 타겟 텍스트 중 각 엔티티에 대응하는 엔티티 벡터를 포함함 - ;
    상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 상기 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는 단계;
    미리 설정된 네트워크 모델을 사용하여 상기 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 상기 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하는 단계; 및
    각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라, 상기 타겟 텍스트의 핵심 엔티티를 결정하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하는 단계 전에,
    상기 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률을 획득하는 단계; 및
    상기 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률에 대하여 완전 연결 처리를 수행하여, 상기 타겟 텍스트에 대응하는 선험 시퀀스 벡터를 결정하는 단계
    를 더 포함하고,
    상기 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하는 단계는,
    미리 설정된 네트워크 모델을 사용하여 상기 타겟 벡터 시퀀스를 인코딩 처리하여, 상기 타겟 벡터 시퀀스에 대응하는 타겟 시퀀스 벡터를 결정하는 단계; 및
    상기 미리 설정된 네트워크 모델을 사용하여 상기 타겟 시퀀스 벡터와 상기 선험 시퀀스 벡터를 디코딩 처리하여, 상기 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는 단계는,
    상기 제1 단어 벡터 시퀀스 중의 제1 단어 벡터에 대응하는 제1 단어 세그먼트에 포함된 캐릭터 수가 N인 경우, 상기 제1 단어 벡터를 N번 반복하여, 제2 단어 벡터 시퀀스를 생성하는 단계;
    상기 제2 단어 벡터 시퀀스를 매트릭스 변환하여, 제3 단어 벡터 시퀀스를 생성하는 단계 - 상기 제3 단어 벡터 시퀀스의 차원 수는 상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스의 차원 수와 동일함 - ;
    상기 제3 단어 벡터 시퀀스와 상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스를 병합하여, 미리 처리된 벡터 시퀀스를 생성하는 단계;
    상기 타겟 텍스트에 대응하는 엔티티 벡터 시퀀스를 정렬하고 매트릭스 변환하여, 상기 미리 처리된 벡터 시퀀스와 차원 수가 동일한 변환된 벡터 시퀀스를 생성하는 단계; 및
    상기 변환된 벡터 시퀀스와 상기 미리 처리된 벡터 시퀀스를 병합하여, 상기 타겟 벡터 시퀀스를 생성하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는 단계는,
    상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 결합 처리하여, 상기 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 타겟 텍스트의 핵심 엔티티를 결정하는 단계 후에,
    각 핵심 엔티티 중 시작 캐릭터 확률 및 종료 캐릭터 확률에 따라, 각 핵심 엔티티의 득점을 결정하는 단계
    를 더 포함하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서,
    상기 타겟 텍스트에 복수의 핵심 엔티티가 포함된 것이 결정된 경우, 각 핵심 엔티티의 득점을 결정하는 단계 후에,
    상기 타겟 텍스트의 복수의 핵심 엔티티에 교차 엔티티의 포함 여부를 판단하는 단계;
    제1 엔티티가 각각 제2 엔티티 및 제3 엔티티와 교차한 경우, 상기 제1 엔티티의 득점이 제2 엔티티의 득점과 제3 엔티티의 득점의 합보다 큰지 여부를 판단하는 단계;
    상기 제1 엔티티의 득점이 제2 엔티티의 득점과 제3 엔티티의 득점의 합보다 큰 경우, 상기 제2 엔티티 및 제3 엔티티를 상기 타겟 텍스트의 핵심 엔티티에서 제거하는 단계; 및
    제2 엔티티의 득점과 제3 엔티티의 득점의 합이 상기 제1 엔티티의 득점보다 큰 경우, 상기 제1 엔티티를 상기 타겟 텍스트의 핵심 엔티티에서 제거하는 단계
    를 더 포함하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    상기 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하는 단계 전에,
    상기 타겟 텍스트를 식별하여, 상기 타겟 텍스트에 미리 설정된 부호로 분리된 복수의 엔티티가 포함되어 있는지 여부를 판단하는 단계
    를 더 포함하고,
    타겟 텍스트를 엔티티 벡터 매핑하는 단계는,
    포함된 경우, 첫 번째 상기 미리 설정된 부호 앞의 제4 엔티티, 및 상기 타겟 텍스트에서 상기 미리 설정된 부호로 분리된 복수의 엔티티를 제외한 제5 엔티티를 엔티티 벡터 매핑하는 단계
    를 포함하며,
    타겟 텍스트의 핵심 엔티티를 결정하는 단계 후에,
    상기 제4 엔티티가 핵심 엔티티인지 여부를 판단하는 단계; 및
    상기 제4 엔티티가 핵심 엔티티인 경우, 상기 제4 엔티티와 미리 설정된 부호로 분리된 기타 각 엔티티를 상기 타겟 텍스트의 핵심 엔티티로 결정하는 단계
    를 더 포함하는 것을 특징으로 하는 방법.
  8. 핵심 엔티티를 레이블링하는 장치에 있어서,
    타겟 텍스트를 각각 글자 벡터 매핑, 단어 벡터 매핑, 및 엔티티 벡터 매핑하여, 상기 타겟 텍스트에 각각 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 획득하는 제1 획득 모듈 - 상기 글자 벡터 시퀀스는, 상기 타겟 텍스트 중 각 캐릭터에 대응하는 글자 벡터를 포함하고, 상기 제1 단어 벡터 시퀀스는, 상기 타겟 텍스트 중 각 단어 세그먼트에 대응하는 단어 벡터를 포함하며, 상기 엔티티 벡터 시퀀스는, 상기 타겟 텍스트 중 각 엔티티에 대응하는 엔티티 벡터를 포함함 - ;
    상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스에 따라, 상기 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는 생성 모듈;
    미리 설정된 네트워크 모델을 사용하여 상기 타겟 벡터 시퀀스를 인코딩, 디코딩 처리하여, 상기 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하는 제1 결정 모듈; 및
    각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률에 따라, 상기 타겟 텍스트의 핵심 엔티티를 결정하는 제2 결정 모듈
    을 포함하는 것을 특징으로 하는 장치.
  9. 제8항에 있어서,
    상기 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률을 획득하는 제2 획득 모듈; 및
    상기 타겟 텍스트 중 각 엔티티에 대응하는 핵심 엔티티 선험 확률에 대하여 완전 연결 처리를 수행하여, 상기 타겟 텍스트에 대응하는 선험 시퀀스 벡터를 결정하는 제3 결정 모듈
    을 더 포함하고,
    상기 제1 결정 모듈은 구체적으로,
    미리 설정된 네트워크 모델을 사용하여 상기 타겟 벡터 시퀀스를 인코딩 처리하여, 상기 타겟 벡터 시퀀스에 대응하는 타겟 시퀀스 벡터를 결정하고;
    상기 미리 설정된 네트워크 모델을 사용하여 상기 타겟 시퀀스 벡터와 상기 선험 시퀀스 벡터를 디코딩 처리하여, 상기 타겟 텍스트 중 각 캐릭터가 핵심 엔티티의 시작 캐릭터인 확률, 및 종료 캐릭터인 확률을 결정하는 것
    을 특징으로 하는 장치.
  10. 제8항에 있어서,
    상기 생성 모듈은 구체적으로,
    상기 제1 단어 벡터 시퀀스 중의 제1 단어 벡터에 대응하는 제1 단어 세그먼트에 포함된 캐릭터 수가 N인 경우, 상기 제1 단어 벡터를 N번 중복하여, 제2 단어 벡터 시퀀스를 생성하고;
    상기 제2 단어 벡터 시퀀스를 매트릭스 변환하여, 제3 단어 벡터 시퀀스를 생성하며 - 상기 제3 단어 벡터 시퀀스의 차원 수는 상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스의 차원 수와 동일함 - ;
    상기 제3 단어 벡터 시퀀스와 상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스를 병합하여, 미리 처리된 벡터 시퀀스를 생성하고;
    상기 타겟 텍스트에 대응하는 엔티티 벡터 시퀀스를 정렬하고 매트릭스 변환하여, 상기 미리 처리된 벡터 시퀀스와 차원 수가 동일한 변환 벡터 시퀀스를 생성하며;
    상기 변환된 벡터 시퀀스와 상기 미리 처리된 벡터 시퀀스를 병합하여, 상기 타겟 벡터 시퀀스를 생성하는 것
    을 특징으로 하는 장치.
  11. 제8항에 있어서,
    상기 생성 모듈은 구체적으로,
    상기 타겟 텍스트에 대응하는 글자 벡터 시퀀스, 제1 단어 벡터 시퀀스, 및 엔티티 벡터 시퀀스를 결합 처리하여, 상기 타겟 텍스트에 대응하는 타겟 벡터 시퀀스를 생성하는 것
    을 특징으로 하는 장치.
  12. 제8항에 있어서,
    각 핵심 엔티티 중 시작 캐릭터 확률 및 종료 캐릭터 확률에 따라, 각 핵심 엔티티의 득점을 결정하는 제4 결정 모듈을 더 포함하는 것
    을 특징으로 하는 장치.
  13. 제12항에 있어서,
    상기 타겟 텍스트에 복수의 핵심 엔티티가 포함된 것이 결정된 경우, 상기 장치는,
    상기 타겟 텍스트의 복수의 핵심 엔티티에 교차 엔티티의 포함여부를 판단하는 제1 판단 모듈;
    제1 엔티티가 각각 제2 엔티티 및 제3 엔티티와 교차한 경우, 상기 제1 엔티티의 득점이 제2 엔티티의 득점과 제3 엔티티의 득점의 합보다 큰지 여부를 판단하는 제2 판단 모듈;
    상기 제1 엔티티의 득점이 제2 엔티티의 득점과 제3 엔티티의 득점의 합보다 큰 경우, 상기 제2 엔티티 및 제3 엔티티를 상기 타겟 텍스트의 핵심 엔티티에서 제거하는 제1 제거 모듈; 및
    제2 엔티티의 득점과 제3 엔티티의 득점의 합이 상기 제1 엔티티의 득점보다 큰 경우, 상기 제1 엔티티를 상기 타겟 텍스트의 핵심 엔티티에서 제거하는 제2 제거 모듈
    을 더 포함하는 것을 특징으로 하는 장치.
  14. 제8항에 있어서,
    상기 타겟 텍스트를 식별하여, 상기 타겟 텍스트에서 미리 설정된 부호로 분리된 복수의 엔티티가 포함되어 있는지 여부를 판단하는 제3 판단 모듈
    을 더 포함하고,
    상기 제1 획득 모듈은, 포함된 경우, 첫 번째 미리 설정된 부호 앞의 제4 엔티티, 및 상기 타겟 텍스트에서 미리 설정된 부호로 분리된 복수의 엔티티를 제외한 제5 엔티티를 엔티티 벡터 매핑하며,
    상기 장치는,
    상기 제4 엔티티가 핵심 엔티티인지 여부를 판단하는 제4 판단 모듈; 및
    상기 제4 엔티티가 핵심 엔티티인 경우, 상기 제4 엔티티와 미리 설정된 부호로 분리된 기타 각 엔티티를 상기 타겟 텍스트의 핵심 엔티티로 결정하는 제5 결정 모듈
    을 더 포함하는 것을 특징으로 하는 장치.
  15. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리
    를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제7항 중 어느 한 항의 방법이 수행되도록 하는 것
    을 특징으로 하는 전자 기기.
  16. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항의 방법을 수행하도록 하는 것
    을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체.
  17. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제7항 중 어느 한 항의 방법이 실행되는 것
    을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210005899A 2020-01-15 2021-01-15 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기 KR102466399B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010042343.X 2020-01-15
CN202010042343.XA CN111241832B (zh) 2020-01-15 2020-01-15 核心实体标注方法、装置及电子设备

Publications (2)

Publication Number Publication Date
KR20210092152A true KR20210092152A (ko) 2021-07-23
KR102466399B1 KR102466399B1 (ko) 2022-11-10

Family

ID=70868853

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210005899A KR102466399B1 (ko) 2020-01-15 2021-01-15 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기

Country Status (5)

Country Link
US (1) US20210216712A1 (ko)
EP (1) EP3862907A1 (ko)
JP (1) JP7110416B2 (ko)
KR (1) KR102466399B1 (ko)
CN (1) CN111241832B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330357A (zh) * 2021-08-04 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN116486420A (zh) * 2023-04-12 2023-07-25 北京百度网讯科技有限公司 文档图像的实体抽取方法、装置及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114586038A (zh) * 2020-09-28 2022-06-03 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质
CN112347769B (zh) * 2020-10-30 2024-01-23 北京百度网讯科技有限公司 实体识别模型的生成方法、装置、电子设备及存储介质
CN112434510B (zh) * 2020-11-24 2024-03-29 北京字节跳动网络技术有限公司 一种信息处理方法、装置、电子设备和存储介质
CN112989829B (zh) * 2021-02-10 2024-03-08 卡奥斯数字科技(上海)有限公司 一种命名实体识别方法、装置、设备及存储介质
CN113704481B (zh) * 2021-03-11 2024-05-17 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN112988979B (zh) * 2021-04-29 2021-10-08 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读介质及电子设备
CN113204615B (zh) * 2021-04-29 2023-11-24 北京百度网讯科技有限公司 实体抽取方法、装置、设备和存储介质
CN113641799B (zh) * 2021-10-13 2022-02-11 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114091458A (zh) * 2021-11-12 2022-02-25 北京明略软件系统有限公司 基于模型融合的实体识别方法和系统
CN114036281B (zh) * 2021-11-22 2024-04-16 华南农业大学 基于知识图谱的柑橘管控问答模块构建方法及问答系统
CN114792092B (zh) * 2022-06-24 2022-09-13 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN117688611B (zh) * 2024-01-30 2024-06-04 深圳昂楷科技有限公司 电子病历脱敏方法及系统、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150033735A (ko) * 2012-12-06 2015-04-01 라쿠텐 인코포레이티드 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
KR20190050180A (ko) * 2017-11-02 2019-05-10 서강대학교산학협력단 과학문서의 핵심어구 추출방법 및 장치
KR20190110174A (ko) * 2018-03-20 2019-09-30 (주)에어사운드 딥러닝 알고리즘 기반의 핵심문장 추출 방법
KR20190114195A (ko) * 2018-03-29 2019-10-10 네이버 주식회사 핵심 키워드 추출 방법 및 시스템

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN103365934A (zh) * 2012-04-11 2013-10-23 腾讯科技(深圳)有限公司 复杂命名实体抽取方法及装置
US9542652B2 (en) * 2013-02-28 2017-01-10 Microsoft Technology Licensing, Llc Posterior probability pursuit for entity disambiguation
RU2571373C2 (ru) * 2014-03-31 2015-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Метод анализа тональности текстовых данных
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US10304444B2 (en) * 2016-03-23 2019-05-28 Amazon Technologies, Inc. Fine-grained natural language understanding
KR20180055189A (ko) * 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
CN107633842B (zh) * 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
US11017173B1 (en) * 2017-12-22 2021-05-25 Snap Inc. Named entity recognition visual context and caption data
CN110287477B (zh) * 2018-03-16 2021-05-25 北京国双科技有限公司 实体情感分析方法及相关装置
US11314787B2 (en) * 2018-04-18 2022-04-26 Forcepoint, LLC Temporal resolution of an entity
CN108959256B (zh) * 2018-06-29 2023-04-07 北京百度网讯科技有限公司 短文本的生成方法、装置、存储介质和终端设备
CN109492217A (zh) 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109697289B (zh) * 2018-12-28 2023-01-13 北京工业大学 一种改进的用于命名实体识别的主动学习方法
CN109753660B (zh) 2019-01-07 2023-06-13 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN109918647A (zh) * 2019-01-30 2019-06-21 中国科学院信息工程研究所 一种安全领域命名实体识别方法及神经网络模型
CN109902307B (zh) 2019-03-15 2023-06-02 北京金山数字娱乐科技有限公司 命名实体识别方法、命名实体识别模型的训练方法及装置
CN110008469B (zh) * 2019-03-19 2022-06-07 桂林电子科技大学 一种多层次命名实体识别方法
CN110472063B (zh) * 2019-07-12 2022-04-08 新华三大数据技术有限公司 社交媒体数据处理方法、模型训练方法及相关装置
CN110399616A (zh) * 2019-07-31 2019-11-01 国信优易数据有限公司 命名实体检测方法、装置、电子设备及可读存储介质
US10789532B1 (en) * 2019-10-29 2020-09-29 Capital One Services, Llc Computer-based systems configured for detecting and splitting data types in a data file and methods of use thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150033735A (ko) * 2012-12-06 2015-04-01 라쿠텐 인코포레이티드 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
KR20190050180A (ko) * 2017-11-02 2019-05-10 서강대학교산학협력단 과학문서의 핵심어구 추출방법 및 장치
KR20190110174A (ko) * 2018-03-20 2019-09-30 (주)에어사운드 딥러닝 알고리즘 기반의 핵심문장 추출 방법
KR20190114195A (ko) * 2018-03-29 2019-10-10 네이버 주식회사 핵심 키워드 추출 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Simone Magnolini 외 4명, ‘How to Use Gazetteers for Entity Recognition with Neural Models’, Proceedings of the 5th Workshop on Semantic Deep Learning, 2019.08., pp 40-49. 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330357A (zh) * 2021-08-04 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN116486420A (zh) * 2023-04-12 2023-07-25 北京百度网讯科技有限公司 文档图像的实体抽取方法、装置及存储介质

Also Published As

Publication number Publication date
KR102466399B1 (ko) 2022-11-10
CN111241832B (zh) 2023-08-15
EP3862907A1 (en) 2021-08-11
JP2021111416A (ja) 2021-08-02
CN111241832A (zh) 2020-06-05
US20210216712A1 (en) 2021-07-15
JP7110416B2 (ja) 2022-08-01

Similar Documents

Publication Publication Date Title
KR102466399B1 (ko) 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기
JP7481251B2 (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
EP3767516A1 (en) Named entity recognition method, apparatus, and computer-readable recording medium
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111274764B (zh) 语言生成方法、装置、计算机设备及存储介质
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
KR102451496B1 (ko) 텍스트 주제 생성 방법, 장치 및 전자기기
JP2022028887A (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
CN110797005B (zh) 韵律预测方法、装置、设备和介质
EP3879427A2 (en) Information extraction method, extraction model training method, apparatus and electronic device
CN112633017B (zh) 翻译模型训练、翻译处理方法、装置、设备和存储介质
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN112507697B (zh) 事件名的生成方法、装置、设备及介质
JP2023012522A (ja) クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
US20210232765A1 (en) Method and apparatus for generating text based on semantic representation, and medium
JP2022028897A (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
JP2022017173A (ja) 情報を出力するための方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN112507188A (zh) 候选搜索词的生成方法、装置、设备及介质
CN111339314A (zh) 一种三元组数据的生成方法、装置和电子设备
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
US20210383797A1 (en) Method for dialogue processing, electronic device and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant