KR20210040319A - 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 - Google Patents

엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20210040319A
KR20210040319A KR1020210038105A KR20210038105A KR20210040319A KR 20210040319 A KR20210040319 A KR 20210040319A KR 1020210038105 A KR1020210038105 A KR 1020210038105A KR 20210038105 A KR20210038105 A KR 20210038105A KR 20210040319 A KR20210040319 A KR 20210040319A
Authority
KR
South Korea
Prior art keywords
entity
vector
text
embedding vector
determining
Prior art date
Application number
KR1020210038105A
Other languages
English (en)
Other versions
KR102504699B1 (ko
Inventor
치 왕
즈판 펑
즈지에 리우
시치 왕
춘광 차이
용 주
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210040319A publication Critical patent/KR20210040319A/ko
Application granted granted Critical
Publication of KR102504699B1 publication Critical patent/KR102504699B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 출원은 지식맵 분야에 관한 것으로, 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램을 개시한다. 구체적인 실시형태로, 타깃 텍스트를 획득하고; 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션을 결정하며; 기설정된 지식 베이스에 따라, 각 엔티티 멘션에 대응되는 후보 엔티티를 결정하고; 각 후보 엔티티의 참조 텍스트를 결정하고 각 후보 엔티티의 부가 특징 정보를 결정하며; 타깃 텍스트, 각 참조 텍스트 및 각 부가 특징 정보에 기반하여, 엔티티 링킹 결과를 결정하는 것이다. 본 실시형태는 엔티티 링킹 시 외부 지식을 제공하고, 지식 구동 작용을 적극적으로 발휘함으로써, 엔티티 링킹의 정확도를 향상시키고, 복잡한 장면에서의 응용 수요를 만족시킬 수 있다.

Description

엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램{METHOD, APPARATUS, DEVICE, STORAGE MEDIUM AND COMPUTER PROGRAM FOR ENTITY LINKING}
본 출원은 컴퓨터 기술 분야에 관한 것으로, 구체적으로 지식맵 분야에 관한 것이고, 특히 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램에 관한 것이다.
기계가 텍스트를 더 잘 이해하도록, 기계는 흔히 텍스트 중의 엔티티를 인식하는 동시에 텍스트 중의 엔티티를 상응한 지식 베이스 내의 엔티티와 일대일로 대응시켜야 한다. 지식 베이스 내의 동명 엔티티는 아주 많으므로, 엔티티 링킹(Entity Linking) 작업을 진행해야 한다. 엔티티 링킹은 수많은 자연 언어 처리 및 정보 검색 태스크에 대해 모두 적극적인 조력 작용을 일으킬 수 있다. 엔티티 링킹은 일반적으로 엔티티 인식(Named Entity Recognition) 및 엔티티 중의성 해결(Named Entity Disambiguation)인 두 부분을 포함한다.
기존의 엔티티 링킹 방안은 지도 학습 기반의 엔티티 링킹 기술 및 딥 러닝 기반의 엔티티 링킹 기술을 포함한다. 이 두 가지 기술은 모두 특징 공정 및 트레이닝 샘플의 구축 과정에 의존해야 하므로, 대량의 인력을 소모한다.
엔티티 링킹 방법, 장치, 기기 및 저장 매체를 제공한다.
제1 양태에 따르면, 타깃 텍스트를 획득하는 단계; 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션을 결정하는 단계; 기설정된 지식 베이스에 따라, 각 엔티티 멘션에 대응되는 후보 엔티티를 결정하는 단계; 각 후보 엔티티의 참조 텍스트를 결정하고 각 후보 엔티티의 부가 특징 정보를 결정하는 단계; 및 타깃 텍스트, 각 참조 텍스트 및 각 부가 특징 정보에 기반하여, 엔티티 링킹 결과를 결정하는 단계를 포함하는 엔티티 링킹 방법을 제공한다.
제2 양태에 따르면, 타깃 텍스트를 획득하는 타깃 텍스트 획득 유닛; 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션을 결정하는 엔티티 멘션 결정 유닛; 기설정된 지식 베이스에 따라, 각 엔티티 멘션에 대응되는 후보 엔티티를 결정하는 후보 엔티티 결정 유닛; 상기 후보 엔티티 각각의 참조 텍스트를 결정하고 상기 후보 엔티티 각각의 부가 특징 정보를 결정하는 부가 정보 결정 유닛; 및 타깃 텍스트, 각 참조 텍스트 및 각 부가 특징 정보에 기반하여, 엔티티 링킹 결과를 결정하는 엔티티 링킹 결정 유닛을 포함하는 엔티티 링킹 장치를 제공한다.
제3 양태에 따르면, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리를 포함하고, 메모리에 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되며, 상기 명령어가 적어도 하나의 프로세서에 의해 실행될 경우 적어도 하나의 프로세서가 제1 양태에 따른 방법을 구현할 수 있도록 하는 전자 기기를 제공한다.
제4 양태에 따르면, 컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능한 저장 매체를 제공하되, 상기 컴퓨터 명령어는 컴퓨터가 제1 양태에 따른 방법을 수행하도록 한다.
제5 양태에 따르면, 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공하되, 상기컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 제1 양태에 따른 방법을 수행하도록 한다.
본 출원에 따른 기술은 엔티티 링킹 시 외부 지식을 제공하고, 지식 구동 작용을 적극적으로 발휘함으로써, 엔티티 링킹의 정확도를 향상시키고, 복잡한 장면에서의 응용 수요를 만족시킬 수 있다.
이 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요 특징을 나타내는 것이 아니고, 본 출원의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 출원의 다른 특징은 아래의 명세서를 통해 용이하게 이해될 것이다.
도면은 본 해결수단을 더 잘 이해하도록 제공되는 것으로, 본 출원을 한정하지 않는다.
도 1은 본 출원의 일 실시예가 적용될 수 있는 예시적 시스템 아키텍처도이다.
도 2는 본 출원에 따른 엔티티 링킹 방법의 일 실시예의 흐름도이다.
도 3은 본 출원에 따른 엔티티 링킹 방법의 하나의 응용 장면의 개략도이다.
도 4는 본 출원에 따른 엔티티 링킹 방법의 다른 실시예의 흐름도이다.
도 5는 도 4에 도시된 실시예의 엔티티 인식 네트워크의 구성 개략도이다.
도 6은 도 4에 도시된 실시예의 벡터 결정 모델의 구성 개략도이다.
도 7은 도 4에 도시된 실시예의 엔티티 중의성 해결 네트워크의 구성 개략도이다.
도 8은 본 출원에 따른 엔티티 링킹 장치의 일 실시예의 구성 개략도이다.
도 9는 본 출원의 실시예에 따른 엔티티 링킹 방법을 구현하기 위한 전자 기기의 블록도이다.
아래 도면을 참조하여 본 출원의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 출원의 실시예의 다양한 세부사항들이 포함되어 있으나, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위 및 정신을 벗어나지 않는 한, 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확하고 간결한 설명을 위해, 아래의 설명에서 주지 기능 및 구조에 대한 설명을 생략한다.
모순되지 않는 한 본 출원의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 도면을 참조하고 실시예를 참조하여 본 출원을 상세히 설명하기로 한다.
도 1은 본 출원의 엔티티 링킹 방법 또는 엔티티 링킹 장치의 실시예를 구현할 수 있는 예시적 시스템 아키텍처(100)를 나타낸다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에서 통신 링크의 매체를 제공한다. 네트워크(104)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들어 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션함으로써 메시지 등을 수신 또는 송신할 수 있다. 단말 기기(101, 102, 103)에는 다양한 애플리케이션이 설치될 수 있는 바, 예를 들어 검색 타입 애플리케이션 등이다.
단말 기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우 다양한 전자 기기일 수 있고, 스마트폰, 태블릿 PC, 전자책 단말기, 차량 탑재 컴퓨터, 랩톱 컴퓨터 및 데스크톱 컴퓨터 등을 포함하지만 이에 한정되지 않는다. 단말 기기(101, 102, 103)가 소프트웨인 경우 상기 열거된 전자 기기에 설치될 수 있다. 이는 다수의 소프트웨어 또는 소프트웨어 모듈(예를 들어 분산형 서비스를 제공하기 위함)로 구현될 수 있거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
서버(105)는 다양한 서비스를 제공하는 서버일 수 있는데, 예를 들어, 단말 기기(101, 102, 103)에 의해 송신된 정보를 처리하는 백그라운드 서버일 수 있다. 백그라운드 서버는 단말기에 의해 송신된 텍스트 중의 엔티티를 인식하고, 상기 엔티티와 지식 베이스 중의 엔티티를 연관시킬 수 있다. 수행 주체는 엔티티 링킹 결과를 단말 기기(101, 102, 103)에 피드백할 수도 있다.
부연하여 설명하면, 서버(105)는 하드웨어 또는 소프트웨어일 수 있다. 서버(105)가 하드웨어인 경우 다수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우 다수의 소프트웨어 또는 소프트웨어 모듈(예를 들어 분산형 서비스를 제공하기 위함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
부연하여 설명하면, 본 출원의 실시예에 의해 제공되는 엔티티 링킹 방법은 일반적으로 서버(105)에 의해 실행된다. 대응되게, 엔티티 링킹 장치는 일반적으로 서버(105)에 설치된다.
도 1에서의 단말 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐이며, 실제 필요에 따라 임의의 개수의 단말 기기, 네트워크 및 서버를 구비할 수 있음을 이해해야 한다.
계속하여 도 2를 참조하면, 본 출원에 따른 엔티티 링킹 방법의 일 실시예의 흐름(200)을 나타낸다. 본 실시예의 엔티티 링킹 방법은 하기와 같은 단계를 포함한다.
단계 201에서, 타깃 텍스트를 획득한다.
본 실시예에서, 엔티티 링킹 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(105))는 유선 연결 또는 무선 연결 방식을 통해 타깃 텍스트를 획득할 수 있다. 상기 타깃 텍스트는 사용자가 단말기를 통해 입력한 텍스트일 수 있다. 타깃 텍스트는 적어도 하나의 엔티티 멘션을 포함할 수 있는 하나의 검색 문장일 수 있다. 예를 들어, 타깃 텍스트는 “이번 여름에 어디로 가면 좋을까”일 수 있다.
단계 202에서, 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션을 결정한다.
수행 주체는 타깃 텍스트를 획득한 후, 타깃 텍스트를 다양하게 처리하여, 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션(엔티티 mention)을 결정할 수 있다. 예를 들어, 수행 주체는 타깃 텍스트에 단어 분리를 진행하여, 획득한 명사를 엔티티 멘션으로 사용할 수 있다. 또는, 수행 주체는 타깃 텍스트에 대해 명명 엔티티 인식을 진행하여, 획득한 명명 엔티티를 엔티티 멘션으로 사용할 수 있다. 여기서, 엔티티 멘션은 엔티티의 텍스트 표현 형태를 의미하고, 명명 엔티티, 일반 명사 구, 대명사일 수 있다. 예를 들어, 엔티티 “푸딴대학교”에 있어서, 이의 엔티티는 “푸딴대학교”, “푸딴”, “딴따(旦大, 푸딴대학교 중국어 줄임말)” 등을 포함할 수 있다.
단계 203에서, 기설정된 지식 베이스에 따라, 각 엔티티 멘션에 대응되는 후보 엔티티를 결정한다.
수행 주체는 기설정된 적어도 하나의 지식 베이스에 연결될 수 있고, 상기 지식 베이스는 풍부한 텍스트의 의미 정보를 포함한다. 상기 지식 베이스는 영문 지식 베이스 TAP, 위키 백과, Freebase, YAGO 및 중문 지식 베이스 바이두 백과, 후둥 백과, 중문 위키 백과 등을 포함할 수 있다. 수행 주체는 상기 지식 베이스로부터 각 엔티티 멘션에 대응되는 후보 엔티티를 검색할 수 있다. 여기서, 후보 엔티티는 지식 베이스에 존재하고 엔티티 멘션과 관련된 엔티티이다. 후보 엔티티의 명칭은 엔티티 멘션의 명칭과 동일할 수 있고, 엔티티 멘션의 별칭과 동일할 수도 있다. 예를 들어, 엔티티 멘션 “여름”에 있어서, 이에 대응되는 후보 엔티티는 영화 “여름”(2008년에 개봉된 독일 멜로 영화), 노래 “여름”(리룽호가 창작한 노래이고, 2010년 7월에 발매되었음), 여름철(사계절 중 두 번째 계절이고, 영어는 summer임)을 포함할 수 있다.
단계 204에서, 각 후보 엔티티의 참조 텍스트를 결정하고 각 후보 엔티티의 부가 특징 정보를 결정한다.
수행 주체는 각각의 엔티티 멘션에 대응되는 각 후보 엔티티를 획득한 후, 각 후보 엔티티의 참조 텍스트 및 부가 특징 정보를 결정할 수 있다. 여기서, 참조 텍스트는 서술 후보 엔티티와 관련된 설명 텍스트일 수 있는데, 예를 들어, 이는 지식 베이스에서 후보 엔티티의 의항 서술, 요약 등을 포함할 수 있다. 부가 특징 정보는 인공 특징으로 지칭될 수도 있고, 이는 후보 엔티티의 엔티티 임베딩 벡터(entity embedding) 및 후보 엔티티의 상위 개념 및 상위 개념에 대응되는 확률을 포함할 수 있다. 이러한 부가 특징 정보은 기설정된 처리 모델에 의해 획득될 수 있는데, 예를 들어, Bi-LSTM(Bi-directional Long Short-Term Memory, 포워드 LSTM과 백워드 LSTM으로 조합되어 형성됨)에 의해 획득될 수 있다.
단계 205에서, 타깃 텍스트, 각 참조 텍스트 및 각 부가 특징 정보에 기반하여, 엔티티 링킹 결과를 결정한다.
수행 주체는 각 참조 텍스트 및 각 부가 특징 정보를 획득한 후, 타깃 텍스트와 결부하여 각 후보 엔티티에 대해 중의성 해결을 진행하고, 스티칭된 후의 텍스트를 기설정된 모델에 입력하여 각 후보 엔티티와 타깃 텍스트 중의 엔티티 멘션이 연관되는 확률을 획득할 수 있다. 확률 최댓값에 대응되는 후보 엔티티를 엔티티 링킹 결과로 사용한다.
도 3은 본 출원에 따른 엔티티 링킹 방법의 하나의 응용 장면의 개략도를 나타낸다. 도 3의 응용 장면에서, 사용자는 단말기(301) 중의 검색 타입 애플리케이션을 통해 문장 “유덕화가 부른 노래 빙우”를 입력한다. 서버(302)는 상기 입력 문장을 수신한 후, 엔티티 멘션인 “유덕화” 및 “빙우”를 획득한다. 지식 베이스에는 이름이 유덕화인 다수의 엔티티가 존재하므로, 서버(302)는 이러한 엔티티에 대해 중의성 해결을 진행하여, “중국 홍콩 남자 배우, 가수, 프로듀서, 작사가 유덕화”가 정확한 엔티티임을 결정한다.
본 출원의 상기 실시예에 의해 제공되는 엔티티 링킹 방법은, 엔티티 중의성 해결 과정에서, 후보 엔티티의 참조 텍스트 및 부가 특징 정보를 획득함으로써, 외부 지식 구동 작용을 충분히 발휘하고, 엔티티 링킹 결과의 정확도를 향상시킨다.
계속하여 도 4를 참조하면, 본 출원에 따른 엔티티 링킹 방법의 다른 실시예의 흐름(400)을 나타낸다. 도 4에 도시된 바와 같이, 본 실시예의 엔티티 링킹 방법은 하기와 같은 단계를 포함할 수 있다.
단계 401에서, 타깃 텍스트를 획득한다.
단계 402에서, 타깃 텍스트의 텍스트 임베딩 벡터 및 관련 특징 벡터를 결정한다.
본 실시예에서, 수행 주체는 타깃 텍스트를 미리 트레이닝된 언어 모델에 입력하여 텍스트 임베딩 벡터를 획득할 수 있다. 언어 모델은 기존의 다양한 언어 모델일 수 있는데, 예를 들어, Bert(Bidirectional Encoder Representation from Transformers, 양방향 Transformer의 인코더), Ernie(Ernie는 바이두의 패들패들(PaddlePaddle)에 기반하여 구축된 것임) 등일 수 있다. 수행 주체는 타깃 텍스트의 관련 특징 벡터를 결정할 수도 있다. 상기 관련 특징 벡터는 타깃 텍스트의 품사 특징 벡터일 수 있고, 엔티티 확률 특징 벡터일 수도 있다. 여기서, 품사 특징 벡터는 타깃 텍스트 중 각각의 글자의 품사를 특성화하기 위한 것이다. 예를 들면, 타깃 텍스트가 “유덕화가 부른 노래 빙우”이면, 품사 특징 벡터는 “nr nr nr v v n n n n”일 수 있다. 여기서, nr는 사람 이름을 나타내고, v는 동사를 나타내며, n은 명사를 나타낸다. 엔티티 확률 특징 벡터를는 타깃 텍스트 중 각 단어가 엔티티에 속하는 확률을 나타낸다. 여전히 상기 타깃 텍스트를 예로 들면, 대응되는 엔티티 확률 특징 벡터는 “0.92 0.92 0.92 0.01 0.01 0.73 0.73 0.88 0.88”일 수 있다.
단계 403에서, 텍스트 임베딩 벡터 및 관련 특징 벡터를 융합하여 융합 벡터를 획득한다.
텍스트 임베딩 벡터 및 관련 특징 벡터를 획득한 후, 수행 주체는 양자를 융합하여 융합 벡터를 획득할 수 있다. 구체적으로, 수행 주체는 다양한 방식을 통해 양자를 융합할 수 있다. 예를 들어, 수행 주체는 concat 함수를 통해 양자를 연결할 수 있다. 또는, 수행 주체는 pooling 층을 통해 양자의 융합 등을 구현할 수도 있다.
단계 404에서, 융합 벡터에 따라, 적어도 하나의 엔티티 멘션을 결정한다.
수행 주체는 융합 벡터를 획득한 후, 적어도 하나의 엔티티 멘션을 결정할 수 있다. 구체적으로, 수행 주체는 상기 융합 벡터를 분류 함수에 입력하여 적어도 하나의 엔티티 멘션을 획득할 수 있다. 상기 분류 함수는 softmax 함수일 수 있고, sigmod 함수일 수도 있다. 수행 주체는 분류 결과에 따라, 적어도 하나의 엔티티 멘션을 결정할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 단계 404는 도 4에 도시된 융합 벡터에 대해 주의력 강화를 진행하여 강화 벡터를 획득하는 단계; 강화 벡터를 두번 분류하여 각 엔티티 멘션의 처음 위치 및 마지막 위치를 각각 획득하는 단계; 및 획득한 처음 위치 및 마지막 위치에 따라, 각 엔티티 멘션을 결정하는 단계를 통해 구현될 수 있다.
본 실시형태에서, 수행 주체는 융합 벡터에 대해 주의력 강화를 진행하여 강화 벡터를 획득할 수 있다. 수행 주체는 Attention 메커니즘을 이용하여 상기 융합 벡터에 대한 주의력 강화를 구현할 수 있다. Attention 메커니즘은 인간 주의력을 모방하여 제출된 문제 해결 방법인 바, 간단하게 말하면, 대량의 정보로부터 가치가 높은 정보를 신속하게 선별하는 것이다. 다음, 수행 주체는 강화 벡터를 두 번 분류하되, 이 두 번의 분류는 sigmod 함수를 통해 구현된다. sigmod 함수는 하프 포인터 하프 라벨링을 구현할 수 있는데, 즉 엔티티 멘션의 처음 위치 및 마지막 위치를 각각 라벨링할 수 있다. 수행 주체는 각 엔티티 멘션의 처음 위치 및 마지막 위치에 따라, 각 엔티티 멘션을 획득할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 수행 주체는 융합 벡터를 획득한 후, 융합 벡터에 대해 주의력 강화를 진행하기 전에, 융합 벡터에 대해 차원 축소를 진행하여 저차원 융합 벡터를 획득할 수 있다. 다음, 저차원 융합 벡터에 대해 주의력 강화를 진행한다.
구체적인 응용에서, 수행 주체는 도 5에 도시된 엔티티 인식 네트워크를 통해 타깃 텍스트 중의 엔티티 멘션을 인식할 수 있다. 도 5에 도시된 바와 같이, 엔티티 인식 네트워크는 LM, Bi-LSTM, Attention 층 및 Sigmod 층을 포함할 수 있다. 도면에서, CLS는 시작 캐릭터를 표기하기 위한 것이고, token은 타깃 텍스트 중의 각각의 글자이다. 텍스트 임베딩 벡터는 각가의 글자의 임베딩 벡터(도 5에서의 Emb1, Emb2……Embn)를 포함한다. 다음, 텍스트 임베딩 벡터 중 각각의 글자의 임베딩 벡터와 관련 특징 벡터(인공 특징, 도 5에서의 회색 블록)를 융합하여 융합 벡터를 획득한다. 융합 벡터가 Bi-LSTM을 거친 후, 저차원 융합 벡터를 획득한다. 저차원 융합 벡터는 Attention 층을 거쳐 주의력 강화를 진행한다. 마지막으로, Sigmod 층을 거쳐 두 번의 분류를 진행하여 엔티티의 처음 위치 및 엔티티의 마지막 위치(도 5에서, Sigmod 층에 의해 출력된 결과에서, 흰색 바탕 블록은 처음 위치이고, 회색 바탕 블록은 마지막 위치이다)를 획득한다.
단계 405에서, 기설정된 지식 베이스에 따라, 각 엔티티 멘션에 대응되는 후보 엔티티를 결정한다.
단계 406에서, 각각의 후보 엔티티에 대해, 상기 후보 엔티티의 적어도 하나의 설명 텍스트를 획득하고, 각 설명 텍스트를 스티칭하여 상기 후보 엔티티의 참조 텍스트를 획득한다.
본 실시예에서, 수행 주체는 지식 베이스로부터 각각의 후보 엔티티의 적어도 하나의 설명 텍스트를 획득할 수 있다. 상기 설명 텍스트는 각 후보 엔티티의 의항 서술 및 요약 등 정보일 수 있다. 백과 다의어에서, 각각의 상이한 개념 의미 사물의 서술 내용을 의항이라고 한다. 각각의 의항에는, 독립된 의항명, 의상 서술, 백과 명함, 요약, 정문, 참조 자료 등 내용이 구비된다. 수행 주체는 획득한 각 정보를 스티칭하고, 획득한 텍스트를 참조 텍스트로 사용할 수 있다.
단계 407에서, 각 후보 엔티티의 엔티티 임베딩 벡터를 획득한다.
본 실시예에서, 부가 특징 정보는 엔티티 임베딩 벡터를 포함할 수 있다. 각각의 후보 엔티티에 대해, 수행 주체는 구체적으로 하기와 같은 단계를 통해 상기 후보 엔티티의 엔티티 임베딩 벡터를 결정할 수 있다.
단계 4071에서, 상기 후보 엔티티의 설명 정보를 획득한다.
본 실시예에서, 수행 주체는 먼저 상기 후보 엔티티의 설명 정보를 획득할 수 있다. 설명 정보는 수행 주체가 임의의 방식을 통해 획득한, 후보 엔티티를 서술하기 위한 정보일 수 있다. 예를 들어, 수행 주체는 지식 베이스로부터 설명 정보를 획득할 수 있고, 검색 엔진 측으로부터 설명 정보를 획득할 수도 있다. 여기서의 설명 정보는 단계 406에서의 설명 텍스트와 동일할 수도 있고, 상이할 수도 있다.
단계 4072에서, 상기 후보 엔티티와 관련된 트리플 시퀀스를 획득한다.
수행 주체는 상기 후보 엔티티와 관련된 트리플 시퀀스를 획득할 수도 있다. 구체적으로, 수행 주체는 지식맵으로부터 상기 트리플 시퀀스를 획득할 수 있다. 상기 트리플 시퀀스는 다수의 트리플을 포함할 수 있고, 각각의 트리플은 주어-술어-목적어, 즉 Subject-Predicate-Object를 나타낼 수 있다. 예를 들어, 장산-출연-장정을 나타낼 수 있다.
단계 4073에서, 상기 후보 엔티티, 설명 정보, 트리플 시퀀스 및 미리 트레이닝된 벡터 결정 모델에 따라, 상기 후보 엔티티의 엔티티 임베딩 벡터를 결정한다.
수행 주체는 상기 설명 정보, 트리플 시퀀스를 획득한 후, 상기 후보 엔티티 및 미리 트레이닝된 벡터 결정 모델과 결부하여 상기 후보 엔티티의 엔티티 임베딩 벡터를 결정할 수 있다. 상기 미리 트레이닝된 벡터 결정 모델은 각각 제1 결정 서브 모델 및 제2 결정 서브 모델(도 6에 도시됨)로 기재된 2개의 부분을 포함할 수 있다. 도 6에서, 제1 결정 서브 모델은 CBOW(continuous bag of words, 연속 단어 모음 모델) 및 단층 뉴럴 네트워크를 포함할 수 있다. 제2 결정 서브 모델은 뉴럴 네트워크를 포함할 수 있다. 수행 주체는 후보 엔티티 및 설명 정보를 제1 결정 서브 모델에 입력할 수 있고, 제1 결정 서브 모델은 벡터를 출력한다. 다음, 수행 주체는 상기 벡터 및 트리플 시퀀스를 제2 결정 서브 모델에 입력하여 엔티티 임베딩 벡터를 획득한다. 각각의 후보 엔티티의 외부 지식 정보를 추가하여, 제1 결정 서브 모델 및 제2 결정 서브 모델은 모두 상기 외부 지식을 학습함으로써, 획득한 엔티티 임베딩 벡터에 포함된 정보가 더욱 정확하도록 할 수 있다.
단계 408에서, 각 후보 엔티티의 적어도 하나의 상위 개념 및 각 상위 개념에 대응되는 확률을 획득한다.
본 실시예에서, 수행 주체는 각 후보 엔티티에 대응되는 적어도 하나의 상위 개념 및 각 상위 개념에 대응되는 확률을 획득할 수도 있다. 구체적으로, 상기 각 상위 개념의 획득은 미리 설정된 개념 확률 예측 모델을 통해 구현될 수 있다. 상기 개념 확률 예측 모델은 그 중에 입력된 텍스트 및 지식 베이스 내 엔티티, 개념 및 지시어 사이의 관계에 따라, 입력 텍스트의 상위 개념을 예측하여 예측 상위 개념으로 기록할 수 있다. 수행 주체는 상기 예측 상위 개념과 지식 베이스 내 이미 존재하는 개념의 유사도를 산출하고, 상기 유사도를 각 상위 개념에 대응되는 확률로 사용할 수 있다.
구체적인 응용에서, 상기 단계 408은 재시작 랜덤 워크(Random Walk with Restart) 기반의 개념 확률 예측 모델을 통해 구현될 수 있다. 재시작 랜덤 워크 기반의 개념 확률 예측 모델은 지식 베이스 중의 지시에 기반하여, 지정된 텍스트에 대해 지정된 텍스트 중 언어 환경에 가장 부합되는 엔티티의 세밀도의 상위 개념을 일반화할 수 있다. 예를 들면, 후보 엔티티가 “유덕화”이면, 이의 상위 개념은 “가수”일 수 있고, “배우”일 수도 있다. 텍스트가 “유덕화가 천하무적에 출연”이면, 이의 상위 개념은 배우이다. 텍스트가 “유덕화가 부른 노래 빙우”이면, 이의 상위 개념은 “가수”이다.
단계 409에서, 타깃 텍스트 및 각 참조 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터를 각각 획득한다.
수행 주체는 타깃 텍스트 및 각 참조 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터를 결정할 수도 있다. 제1 임베딩 벡터 및 제2 임베딩 벡터는 상이한 방식을 통해 획득한 임베딩 벡터일 수 있다. 예를 들어, 제1 임베딩 벡터는 LM을 통해 획득한 임베딩 벡터일 수 있고, 제2 임베딩 벡터는 Bi-LSTM을 통해 획득한 임베딩 벡터일 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 수행 주체는 하기와 같은 단계를 통해 상기 단계 409를 구현할 수 있다.
단계 4091에서, 타깃 텍스트 및 각 참조 텍스트의 단어 임베딩 벡터 및 글자 임베딩 벡터를 각각 결정한다.
본 실시형태에서, 수행 주체는 먼저 타깃 텍스트 및 각 참조 텍스트의 단어 임베딩 벡터 및 글자 임베딩 벡터를 결정할 수 있다. 단어 임베딩 벡터에는 텍스트 중 각각의 단어의 임베딩 벡터가 포함되고, 글자 임베딩 벡터에는 텍스트 중 각각의 글자의 임베딩 벡터가 포함된다. 구체적으로, 수행 주체는 미리 트레이닝된 단어 임베딩 벡터 결정 모델을 통해 단어 임베딩 벡터를 결정할 수 있다. 마찬가지로, 수행 주체는 미리 트레이닝된 글자 임베딩 벡터 결정 모델을 통해 글자 임베딩 벡터를 결정할 수도 있다. 상기 단어 임베딩 벡터 결정 모델은 Word2vec일 수 있고, 상기 글자 임베딩 벡터 결정 모델은 char2vec일 수 있다. 구체적으로, 수행 주체는 타깃 텍스트 및 각 참조 텍스트를 Word2vec, char2vec에 각각 입력하여 단어 임베딩 벡터 및 글자 임베딩 벡터를 획득할 수 있다.
단계 4092에서, 타깃 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터 및 제1 기설정 벡터 결정 모델에 따라, 타깃 텍스트의 제1 임베딩 벡터를 결정한다.
수행 주체는 타깃 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터에 입력하여 타깃 텍스트의 제1 임베딩 벡터를 결정할 수 있다. 상기 제1 기설정 벡터 결정 모델은 Bi-LSTM일 수 있다.
단계 4092에서, 타깃 텍스트 및 제2 기설정 벡터 결정 모델에 따라, 타깃 텍스트의 제2 임베딩 벡터를 결정한다.
수행 주체는 타깃 텍스트 및 제2 기설정 벡터 결정 모델에 따라, 타깃 텍스트의 제2 임베딩 벡터를 결정할 수도 있다. 상기 제2 기설정 벡터 결정 모델은 LM일 수 있다.
단계 4093에서, 각각의 참조 텍스트에 대해, 상기 참조 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터 및 제1 기설정 벡터 결정 모델에 따라, 상기 참조 텍스트의 제1 임베딩 벡터를 결정하고, 상기 참조 텍스트 및 제2 기설정 벡터 결정 모델에 따라, 상기 참조 텍스트의 제2 임베딩 벡터를 결정한다.
마찬가지로, 각각의 참조 텍스트에 대해, 수행 주체는 상기 참조 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터를 제1 기설정 벡터 결정 모델에 입력하여 상기 참조 텍스트의 제1 임베딩 벡터를 획득할 수 있다. 상기 참조 텍스트를 제2 기설정 벡터 결정 모델에 입력하여 상기 참조 텍스트의 제2 임베딩 벡터를 획득할 수 있다.
단계 410에서, 타깃 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터, 각 참조 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터, 및 각 부가 특징 정보에 따라, 엔티티 링킹 결과를 결정한다.
수행 주체는 타깃 텍스트 및 각 참조 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터, 및 각 후보 엔티티의 부가 특징 정보를 획득한 후, 엔티티 링킹 결과를 결정할 수 있다. 여기서 엔티티 링킹 결과는 타깃 텍스트 중의 엔티티 멘션과 후보 엔티티의 링킹 관계를 의미한다. 구체적으로, 수행 주체는 타깃 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터를 스티칭하고, 각 참조 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터 및 대응되는 부가 특징 정보를 스티칭할 수 있다. 스티칭된 후의 정보를 분류층에 입력하여 엔티티 링킹 결과를 획득한다.
본 실시예의 일부 선택 가능한 실시형태에서, 수행 주체는 다수의 제1 임베딩 벡터 및 제2 임베딩 벡터를 각각 풀링하여 각 제1 임베딩 벡터 및 제2 임베딩 벡터의 차원수를 감소시킬 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 수행 주체는 하기와 같은 단계를 통해 단계 410을 구현할 수 있다.
단계 4101에서, 각각의 참조 텍스트에 대해, 상기 참조 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 상기 참조 텍스트에 대응되는 후보 엔티티의 부가 특징 정보를 스티칭하여 제1 스티칭 벡터를 획득한다.
본 실시형태에서, 후보 엔티티와 부가 특징 정보 사이에 대응 관계가 존재하므로, 후보 엔티티와 참조 텍스트 사이에도 대응 관계가 존재한다. 따라서, 부가 특징 정보와 참조 텍스트 사이에도 대응 관계가 존재한다. 각각의 참조 텍스트에 대해, 수행 주체는 상기 참조 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 대응되는 부가 특징 정보를 스티칭하여 제1 스티칭 벡터를 획득한다. 다시 말하면, 각각의 후보 엔티티는 모두 제1 스티칭 벡터를 획득할 수 있다.
단계 4102에서, 타깃 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 각 제1 스티칭 벡터를 스티칭하여 제2 스티칭 벡터를 획득한다.
각 후보 엔티티의 제1 스티칭 벡터를 획득한 후, 타깃 텍스트에 대해, 수행 주체는 이의 제1 임베딩 벡터, 제2 임베딩 벡터를 스티칭한 후 각 제1 스티칭 벡터와 재차 스티칭하여 제2 스티칭 벡터를 획득할 수 있다.
단계 4103에서, 각 제1 스티칭 벡터, 제2 스티칭 벡터 및 기설정된 분류 모델에 따라, 각 후보 엔티티와 엔티티 멘션이 링킹되는 확률을 결정한다.
수행 주체는 각 제1 스티칭 벡터, 제2 스티칭 벡터를 획득한 후, 각 제1 스티칭 벡터, 제2 스티칭 벡터를 기설정된 분류 모델에 입력하여 분류 결과를 획득할 수 있고, 상기 분류 결과는 타깃 텍스트 중의 엔티티 멘션과 각 후보 엔티티 사이의 링킹 관계를 나타낸다. 상기 분류 모델은 뉴럴 네트워크 중의 하나의 데이터 처리층일 수 있는데, 예를 들어, softmax 층일 수 있다.
구체적인 응용에서, 수행 주체는 도 7에서의 엔티티 중의성 해결 네트워크를 이용하여, 인식된 엔티티 멘션에 대해 중의성 해결을 진행할 수 있다. 도 7에서, 네트워크는 다수의 LM 및 Bi-LSTM을 포함할 수 있다. 타깃 텍스트에 대해, 이를 각각 LM에 입력하여 타깃 텍스트의 제1 임베딩 벡터를 획득할 수 있다. 다음, 타깃 텍스트의 단어 임베딩 벡터 및 글자 임베딩 벡터를 Bi-LSTM에 입력하여 타깃 텍스트의 제2 임베딩 벡터를 획득한다. 마찬가지로, 각 참조 텍스트에 대해, 수행 주체는 참조 텍스트를 LM에 이력하여 참조 텍스트의 제1 임베딩 벡터를 획득할 수 있다. 다음, 참조 텍스트의 단어 임베딩 벡터 및 글자 임베딩 벡터를 Bi-LSTM에 입력하여 참조 텍스트의 제2 임베딩 벡터를 획득한다.
참조 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터를 풀링한 후, 풀링된 후의 제1 임베딩 벡터 및 제2 임베딩 벡터를 스티칭한 다음, 참조 텍스트에 대응되는 후보 엔티티의 부가 특징 정보를 상기 스티칭된 후의 벡터에 스티칭하여 제1 스티칭 벡터를 획득한다. 수행 주체는 타깃 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터를 풀링한 후, 풀링된 후의 제1 임베딩 벡터 및 제2 임베딩 벡터를 스티칭할 수 있다. 다음, 각 제1 스티칭 벡터를 풀링된 후의 제1 임베딩 벡터 및 제2 임베딩 벡터에 스티칭한 후, 제2 스티칭 벡터를 획득한다.
수행 주체는 각 제1 스티칭 벡터 및 제2 스티칭 벡터를 Dropout 층에 각각 입력할 수도 있고, Dropout 층은 오버피팅을 방지하기 위해 네트워크 중의 뉴럴 유닛을 일정한 비율에 따라 폐기할 수 있다. 다음, Dense 층에 진입하되, Dense 층은 하나의 완전 연결층이고, 이의 작용은 부분 특징을 가중치 맥트릭스를 통해 연결시키는 것이다. 마지막으로, Dense 층에 의해 출력된 정보를 softmax 다중 분류층에 입력할 수 있다. softmax 다중 분류층에 의해 출력된 0과 1 사이의 값은 각 후보 엔티티와 엔티티 멘션 사이가 연관되는 확률을 나타내기 위한 것이다. 상기 확률에 따라, 엔티티 멘션과 각 후보 엔티티의 링킹 관계를 획득한다.
본 출원의 상기 실시예에 의해 제공되는 엔티티 링킹 방법은, 엔티티 인식 네트워크 및 엔티티 중의성 해결 네트워크를 통해, 단대단의 엔티티 링킹을 구현한다. 또한, 엔티티 인식 및 엔티티 중의성 해결 과정에서 모두 외부 지식을 도입함으로써, 외부 지식의 구동 작용을 향상시키고, 엔티티 링킹의 정확도를 향상시킬수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 도 5에 도시된 엔티티 인식 네트워크 및 도 7에 도시된 엔티티 중의성 해결 네트워크는 연합하여 트레이닝될 수 있는데, 즉 엔티티 인식 네트워크 및 엔티티 중의성 해결 네트워크의 손실 함수를 더하여 트레이닝하고, 트레이닝 과정에서 네트워크 파라미터를 최적화한다. 이로써, 단대단의 트레이닝을 구현할 수 있다.
또한 도 8을 참조하면, 상기 각 도에 도시된 방법의 구현으로서, 본 출원은 엔티티 링킹 장치의 일 실시예를 제공하되, 상기 장치 실시예는 도 2에 도시된 방법 실시예와 대응되고, 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 8에 도시된 바와 같이, 본 실시예의 엔티티 링킹 장치(800)는 타깃 텍스트 획득 유닛(801), 엔티티 멘션 결정 유닛(802), 후보 엔티티 결정 유닛(803), 부가 정보 결정 유닛(804) 및 엔티티 링킹 결정 유닛(805)을 포함한다.
타깃 텍스트 획득 유닛(801)은, 타깃 텍스트를 획득한다.
엔티티 멘션 결정 유닛(802)은, 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션을 결정한다.
후보 엔티티 결정 유닛(803)은, 기설정된 지식 베이스에 따라, 각 엔티티 멘션에 대응되는 후보 엔티티를 결정한다.
부가 정보 결정 유닛(804)은, 각 후보 엔티티의 참조 텍스트를 결정하고 각 후보 엔티티의 부가 특징 정보를 결정한다.
엔티티 링킹 결정 유닛(805)은, 타깃 텍스트, 각 참조 텍스트 및 각 부가 특징 정보에 기반하여, 엔티티 링킹 결과를 결정한다.
본 실시예의 일부 선택 가능한 실시형태에서, 엔티티 멘션 결정 유닛(802)은 도 8에 미도시된 벡터 결정 모듈, 벡터 융합 모듈 및 엔티티 멘션 결정 모듈을 더 포함할 수 있다.
벡터 결정 모듈은, 타깃 텍스트의 텍스트 임베딩 벡터 및 관련 특징 벡터를 결정한다.
벡터 융합 모듈은, 텍스트 임베딩 벡터 및 관련 특징 벡터를 융합하여 융합 벡터를 획득한다.
엔티티 멘션 결정 모듈은, 융합 벡터에 따라, 적어도 하나의 엔티티 멘션을 결정한다.
본 실시예의 일부 선택 가능한 실시형태에서, 엔티티 멘션 결정 모듈은 또한, 융합 벡터에 대해 주의력 강화를 진행하여 강화 벡터를 획득하고; 강화 벡터를 두 번 분류하여 각 엔티티 멘션의 처음 위치 및 마지막 위치를 각각 획득하며; 획득한 처음 위치 및 마지막 위치에 따라, 각 엔티티 멘션을 결정할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 부가 정보 결정 유닛(804)은 도 8에 미도시된, 각각의 후보 엔티티에 대해, 상기 후보 엔티티의 적어도 하나의 설명 텍스트를 획득하고, 각 설명 텍스트를 스티칭하여 상기 후보 엔티티의 참조 텍스트를 획득하는 참조 텍스트 결정 모듈을 더 포함할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 부가 특징 정보는 엔티티 임베딩 벡터를 포함한다. 부가 정보 결정 유닛(804)은 도 8에 미도시된, 각각의 후보 엔티티에 대해, 상기 후보 엔티티의 설명 정보를 획득하고; 상기 후보 엔티티와 관련된 트리플 시퀀스를 획득하고; 상기 후보 엔티티, 설명 정보, 트리플 시퀀스 및 미리 트레이닝된 벡터 결정 모델에 따라, 상기 후보 엔티티의 엔티티 임베딩 벡터를 결정하는 엔티티 임베딩 벡터 결정 모듈을 더 포함할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 부가 특징 정보는 적어도 하나의 상위 개념 및 각 상위 개념에 대응되는 확률을 포함한다. 부가 정보 결정 유닛(804)은 도 8에 미도시된, 개각각의 후보 엔티티에 대해, 상기 후보 엔티티 및 기설정된 개념 예측 모델에 따라, 상기 후보 엔티티의 적어도 하나의 상위 개념 및 각 상위 개념에 대응되는 확률을 결정하여 확률 시퀀스를 획득하는 개념 예측 모듈을 더 포함할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 엔티티 링킹 결정 유닛(805)은 도 8에 미도시된 임베딩 벡터 결정 모듈 및 엔티티 링킹 결정 모듈을 더 포함할 수 있다.
임베딩 벡터 결정 모듈은, 타깃 텍스트 및 각 참조 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터를 각각 결정한다.
엔티티 링킹 결정 모듈은, 타깃 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터, 각 참조 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터, 및 각 부가 특징 정보에 따라, 엔티티 링킹 결과를 결정한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 임베딩 벡터 결정 모듈은 또한, 타깃 텍스트 및 각 참조 텍스트의 단어 임베딩 벡터 및 글자 임베딩 벡터를 각각 결정하고; 타깃 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터 및 제1 기설정 벡터 결정 모델에 따라, 타깃 텍스트의 제1 임베딩 벡터를 결정하며; 타깃 텍스트 및 제2 기설정 벡터 결정 모델에 따라, 타깃 텍스트의 제2 임베딩 벡터를 결정하고; 각각의 참조 텍스트에 대해, 상기 참조 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터 및 상기 제1 기설정 벡터 결정 모델에 따라, 상기 참조 텍스트의 제1 임베딩 벡터를 결정하며; 상기 참조 텍스트 및 제2 기설정 벡터 결정 모델에 따라, 상기 참조 텍스트의 제2 임베딩 벡터를 결정한다.
본 실시예의 일부 선택 가능한 실시형태에서, 엔티티 링킹 결정 모듈은 또한, 각각의 참조 텍스트에 대해, 상기 참조 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 상기 참조 텍스트에 대응되는 후보 엔티티의 부가 특징 정보를 스티칭하여 제1 스티칭 벡터를 획득하고; 상기 타깃 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 각 제1 스티칭 벡터를 스티칭하여 제2 스티칭 벡터를 획득하며; 각 제1 스티칭 벡터, 제2 스티칭 벡터 및 기설정된 분류 모델에 따라, 각 후보 엔티티와 상기 엔티티 멘션이 링킹되는 확률을 결정한다.
엔티티 링킹 장치(800)에 기재된 유닛(801) 내지 유닛(805)는 각각 도 2에 설명된 방법에서의 각 단계와 대응된다. 이로써, 위에서 엔티티 링킹 방법에 대해 설명한 동작 및 특징은 마찬가지로 장치(800) 및 그 중에 포함된 유닛에 적용되므로, 여기서 더 이상 설명하지 않는다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능한 저장 매체를 더 제공한다.
도 9에 도시된 바와 같이, 본 출원의 실시예에 따른 엔티티 링킹 방법을 수행하기 위한 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 출원의 구현을 한정하지 않는다.
도 9에 도시된 바와 같이, 상기 전자 기기는 하나 또는 다수의 프로세서(901), 메모리(902), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령어를 포함하는 전자 기기 내에서 실행되는 명령어를 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 9에서 하나의 프로세서(901)를 예로 든다.
메모리(902)는 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능한 저장 매체이다. 여기서, 메모리에 적어도 하나의 프로세서가 본 출원에 의해 제공되는 엔티티 링킹 방법을 수행하도록 하는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장된다. 본 출원의 비일시적 컴퓨터 판독 가능한 저장 매체는 본 출원에 의해 제공되는 엔티티 링킹 방법을 수행하도록 하는 컴퓨터 명령어를 저장한다.
메모리(902)는 비일시적 컴퓨터 판독 가능한 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능한 프로그램, 및 본 출원의 실시예의 엔티티 링킹 방법에 대응되는 프로그램 명령어/모듈(예를 들어, 도 8에 도시된 타깃 텍스트 획득 유닛(801), 엔티티 멘션 결정 유닛(802), 후보 엔티티 결정 유닛(803), 부가 정보 결정 유닛(804) 및 엔티티 링킹 결정 유닛(805))과 같은 모듈을 저장할 수 있다. 프로세서(901)는 메모리(902)에 저장된 비일시적 소프트웨어 프로그램, 명령어 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하는데, 즉 상기 방법 실시예의 엔티티 링킹 방법을 구현한다.
메모리(902)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며; 데이터 저장 영역은 엔티티 링킹 방법을 수행하기 위한 전자 기기의 사용에 따라 구축한 다양한 데이터 등을 저장할 수 있다. 이 밖에, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 다른 비일시적 고체 상태 메모리와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(902)는 프로세서(901)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 엔티티 링킹 방법을 수행하기 위한 전자 기기 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
엔티티 링킹 방법을 수행하기 위한 전자 기기는 입력 장치(903) 및 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 9에서 버스를 통해 연결되는 것을 예로 든다.
입력 장치(903)는 입력된 디지털 또는 문자 정보를 수신할 수 있고, 엔티티 링킹 방법을 수행하기 위한 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 발생할 수 있으며, 상기 입력 장치는 예를 들어 터치스크린, 키패드, 마우스, 트랙 패널, 터치 패널, 지시 바, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치이다. 출력 장치(904)는 표시 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 표시 기기는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라스마 표시 장치를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 표시 기기는 터치스크린일 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있으며, 데이터 및 명령어를 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령어를 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 “기계 판독 가능한 매체” 및 “컴퓨터 판독 가능한 매체”는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령어를 수신하는 기계 판독 가능한 매체를 포함한다. 용어 “기계 판독 가능한 신호”는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위하여, 여기서 설명된 시스템 및 기술을 컴퓨터에서 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
본 출원의 실시예에 따른 기술적 해결수단은, 사전 트레이닝 및 미세 조정 과정에서 참조 텍스트를 도입함으로써, 외부 지식에 대한 언어 모델의 학습 능력을 향상시키고, 입력 텍스트의 이해에 대한 정확도를 향상시킬 수 있으며; 입력 텍스트 및 참조 텍스트를 표기하여 잡음이 섞이지 않거나 입력 텍스트가 희석되지 않도록 방지한다.
위에서 설명한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 출원에서 공개된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 출원의 보호 범위 내에 속해야 한다.
800: 엔티티 링킹 장치 801: 타깃 텍스트 획득 유닛
802: 엔티티 멘션 결정 유닛 803: 후보 엔티티 결정 유닛
804: 부가 정보 결정 유닛 805: 엔티티 링킹 결정 유닛

Claims (21)

  1. 엔티티 링킹 방법으로서,
    타깃 텍스트를 획득하는 단계;
    상기 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션을 결정하는 단계;
    기설정된 지식 베이스에 따라, 각 상기 엔티티 멘션에 대응되는 후보 엔티티를 결정하는 단계;
    상기 후보 엔티티 각각의 참조 텍스트를 결정하고 상기 후보 엔티티 각각의 부가 특징 정보를 결정하는 단계; 및
    상기 타깃 텍스트, 각 상기 참조 텍스트 및 각 상기 부가 특징 정보에 기반하여, 엔티티 링킹 결과를 결정하는 단계를 포함하는 엔티티 링킹 방법.
  2. 제1항에 있어서,
    상기 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션을 결정하는 단계는,
    상기 타깃 텍스트의 텍스트 임베딩 벡터 및 관련 특징 벡터를 결정하는 단계;
    상기 텍스트 임베딩 벡터 및 상기 관련 특징 벡터를 융합하여 융합 벡터를 획득하는 단계; 및
    상기 융합 벡터에 따라, 상기 적어도 하나의 엔티티 멘션을 결정하는 단계를 포함하는 엔티티 링킹 방법.
  3. 제2항에 있어서,
    상기 융합 벡터에 따라, 상기 적어도 하나의 엔티티 멘션을 결정하는 단계는,
    상기 융합 벡터에 대해 주의력 강화를 진행하여 강화 벡터를 획득하는 단계;
    상기 강화 벡터를 두번 분류하여 각 엔티티 멘션의 처음 위치 및 마지막 위치를 각각 획득하는 단계; 및
    획득한 처음 위치 및 마지막 위치에 따라, 각 엔티티 멘션을 결정하는 단계를 포함하는 엔티티 링킹 방법.
  4. 제1항에 있어서,
    상기 후보 엔티티 각각의 참조 텍스트를 결정하는 단계는,
    각각의 후보 엔티티에 대해, 상기 후보 엔티티의 적어도 하나의 설명 텍스트를 획득하고, 각 설명 텍스트를 스티칭하여 상기 후보 엔티티의 참조 텍스트를 획득하는 단계를 포함하는 엔티티 링킹 방법.
  5. 제1항에 있어서,
    상기 부가 특징 정보는 엔티티 임베딩 벡터를 포함하고;
    상기 후보 엔티티 각각의 부가 특징 정보를 결정하는 단계는,
    각각의 후보 엔티티에 대해, 상기 후보 엔티티의 설명 정보를 획득하는 단계;
    상기 후보 엔티티와 관련된 트리플 시퀀스를 획득하는 단계; 및
    상기 후보 엔티티, 상기 설명 정보, 상기 트리플 시퀀스 및 미리 트레이닝된 벡터 결정 모델에 따라, 상기 후보 엔티티의 엔티티 임베딩 벡터를 결정하는 단계를 포함하는 엔티티 링킹 방법.
  6. 제1항에 있어서,
    상기 부가 특징 정보는 적어도 하나의 상위 개념 및 각 상위 개념에 대응되는 확률을 포함하고;
    상기 후보 엔티티 각각의 부가 특징 정보를 결정하는 단계는,
    각각의 후보 엔티티에 대해, 상기 후보 엔티티 및 기설정된 개념 예측 모델에 따라, 상기 후보 엔티티의 적어도 하나의 상위 개념 및 각 상위 개념에 대응되는 확률을 결정하여 확률 시퀀스를 획득하는 단계를 포함하는 엔티티 링킹 방법.
  7. 제1항에 있어서,
    상기 타깃 텍스트, 각 상기 참조 텍스트 및 각 상기 부가 특징 정보에 기반하여, 엔티티 링킹 결과를 결정하는 단계는,
    상기 타깃 텍스트 및 상기 참조 텍스트 각각의 제1 임베딩 벡터 및 제2 임베딩 벡터를 각각 결정하는 단계; 및
    상기 타깃 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터, 상기 참조 텍스트 각각의 제1 임베딩 벡터 및 제2 임베딩 벡터, 및 각 상기 부가 특징 정보에 따라, 엔티티 링킹 결과를 결정하는 단계를 포함하는 엔티티 링킹 방법.
  8. 제7항에 있어서,
    상기 타깃 텍스트 및 상기 참조 텍스트 각각의 제1 임베딩 벡터 및 제2 임베딩 벡터를 각각 결정하는 단계는,
    상기 타깃 텍스트 및 상기 참조 텍스트 각각의 단어 임베딩 벡터 및 글자 임베딩 벡터를 각각 결정하는 단계;
    상기 타깃 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터 및 제1 기설정 벡터 결정 모델에 따라, 상기 타깃 텍스트의 제1 임베딩 벡터를 결정하는 단계;
    상기 타깃 텍스트 및 제2 기설정 벡터 결정 모델에 따라, 상기 타깃 텍스트의 제2 임베딩 벡터를 결정하는 단계; 및
    각각의 참조 텍스트에 대해, 상기 참조 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터 및 상기 제1 기설정 벡터 결정 모델에 따라, 상기 참조 텍스트의 제1 임베딩 벡터를 결정하고, 상기 참조 텍스트 및 상기 제2 기설정 벡터 결정 모델에 따라, 상기 참조 텍스트의 제2 임베딩 벡터를 결정하는 단계를 포함하는 엔티티 링킹 방법.
  9. 제7항에 있어서,
    상기 타깃 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터, 상기 참조 텍스트 각각의 제1 임베딩 벡터 및 제2 임베딩 벡터, 및 각 상기 부가 특징 정보에 따라, 엔티티 링킹 결과를 결정하는 단계는,
    각각의 참조 텍스트에 대해, 상기 참조 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 상기 참조 텍스트에 대응되는 후보 엔티티의 부가 특징 정보를 스티칭하여 제1 스티칭 벡터를 획득하는 단계;
    상기 타깃 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 각 제1 스티칭 벡터를 스티칭하여 제2 스티칭 벡터를 획득하는 단계; 및
    각 상기 제1 스티칭 벡터, 상기 제2 스티칭 벡터 및 기설정된 분류 모델에 따라, 각 상기 후보 엔티티와 상기 엔티티 멘션이 링킹되는 확률을 결정하는 단계를 포함하는 엔티티 링킹 방법.
  10. 엔티티 링킹 장치로서,
    타깃 텍스트를 획득하는 타깃 텍스트 획득 유닛;
    상기 타깃 텍스트에 포함된 적어도 하나의 엔티티 멘션을 결정하는 엔티티 멘션 결정 유닛;
    기설정된 지식 베이스에 따라, 각 상기 엔티티 멘션에 대응되는 후보 엔티티를 결정하는 후보 엔티티 결정 유닛;
    상기 후보 엔티티 각각의 참조 텍스트를 결정하고 상기 후보 엔티티 각각의 부가 특징 정보를 결정하는 부가 정보 결정 유닛; 및
    상기 타깃 텍스트, 각 상기 참조 텍스트 및 각 상기 부가 특징 정보에 기반하여, 엔티티 링킹 결과를 결정하는 엔티티 링킹 결정 유닛을 포함하는 엔티티 링킹 장치.
  11. 제10항에 있어서,
    상기 엔티티 멘션 결정 유닛은,
    상기 타깃 텍스트의 텍스트 임베딩 벡터 및 관련 특징 벡터를 결정하는 벡터 결정 모듈;
    상기 텍스트 임베딩 벡터 및 상기 관련 특징 벡터를 융합하여 융합 벡터를 획득하는 벡터 융합 모듈; 및
    상기 융합 벡터에 따라, 상기 적어도 하나의 엔티티 멘션을 결정하는 엔티티 멘션 결정 모듈을 포함하는 엔티티 링킹 장치.
  12. 제11항에 있어서,
    상기 엔티티 멘션 결정 모듈은 또한,
    상기 융합 벡터에 대해 주의력 강화를 진행하여 강화 벡터를 획득하고,
    상기 강화 벡터를 두번 분류하여 각 엔티티 멘션의 처음 위치 및 마지막 위치를 각각 획득하며,
    획득한 처음 위치 및 마지막 위치에 따라, 각 엔티티 멘션을 결정하는 엔티티 링킹 장치.
  13. 제10항에 있어서,
    상기 부가 정보 결정 유닛은,
    각각의 후보 엔티티에 대해, 상기 후보 엔티티의 적어도 하나의 설명 텍스트를 획득하고, 각 설명 텍스트를 스티칭하여 상기 후보 엔티티의 참조 텍스트를 획득하는 참조 텍스트 결정 모듈을 포함하는 엔티티 링킹 장치.
  14. 제10항에 있어서,
    상기 부가 특징 정보는 엔티티 임베딩 벡터를 포함하고;
    상기 부가 정보 결정 유닛은,
    각각의 후보 엔티티에 대해, 상기 후보 엔티티의 설명 정보를 획득하며,
    상기 후보 엔티티와 관련된 트리플 시퀀스를 획득하고,
    상기 후보 엔티티, 상기 설명 정보, 상기 트리플 시퀀스 및 미리 트레이닝된 벡터 결정 모델에 따라, 상기 후보 엔티티의 엔티티 임베딩 벡터를 결정하는 엔티티 임베딩 벡터 결정 모듈을 포함하는 엔티티 링킹 장치.
  15. 제10항에 있어서,
    상기 부가 특징 정보는 적어도 하나의 상위 개념 및 각 상위 개념에 대응되는 확률을 포함하고,
    상기 부가 정보 결정 유닛은,
    각각의 후보 엔티티에 대해, 상기 후보 엔티티 및 기설정된 개념 예측 모델에 따라, 상기 후보 엔티티의 적어도 하나의 상위 개념 및 각 상위 개념에 대응되는 확률을 결정하여 확률 시퀀스를 획득하는 개념 예측 모듈을 포함하는 엔티티 링킹 장치.
  16. 제10항에 있어서,
    상기 엔티티 링킹 결정 유닛은,
    상기 타깃 텍스트 및 상기 참조 텍스트 각각의 제1 임베딩 벡터 및 제2 임베딩 벡터를 각각 결정하는 임베딩 벡터 결정 모듈; 및
    상기 타깃 텍스트의 제1 임베딩 벡터 및 제2 임베딩 벡터, 상기 참조 텍스트 각각의 제1 임베딩 벡터 및 제2 임베딩 벡터, 및 각 상기 부가 특징 정보에 따라, 엔티티 링킹 결과를 결정하는 엔티티 링킹 결정 모듈을 포함하는 엔티티 링킹 장치.
  17. 제16항에 있어서,
    상기 임베딩 벡터 결정 모듈은 또한,
    상기 타깃 텍스트 및 상기 참조 텍스트 각각의 단어 임베딩 벡터 및 글자 임베딩 벡터를 각각 결정하고,
    상기 타깃 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터 및 제1 기설정 벡터 결정 모델에 따라, 상기 타깃 텍스트의 제1 임베딩 벡터를 결정하며,
    상기 타깃 텍스트 및 제2 기설정 벡터 결정 모델에 따라, 상기 타깃 텍스트의 제2 임베딩 벡터를 결정하고,
    각각의 참조 텍스트에 대해, 상기 참조 텍스트의 단어 임베딩 벡터, 글자 임베딩 벡터 및 상기 제1 기설정 벡터 결정 모델에 따라, 상기 참조 텍스트의 제1 임베딩 벡터를 결정하며, 상기 참조 텍스트 및 상기 제2 기설정 벡터 결정 모델에 따라, 상기 참조 텍스트의 제2 임베딩 벡터를 결정하는 엔티티 링킹 장치.
  18. 제16항에 있어서,
    상기 엔티티 링킹 결정 모듈은 또한,
    각각의 참조 텍스트에 대해, 상기 참조 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 상기 참조 텍스트에 대응되는 후보 엔티티의 부가 특징 정보를 스티칭하여 제1 스티칭 벡터를 획득하고,
    상기 타깃 텍스트의 제1 임베딩 벡터, 제2 임베딩 벡터 및 각 제1 스티칭 벡터를 스티칭하여 제2 스티칭 벡터를 획득하며,
    각 상기 제1 스티칭 벡터, 상기 제2 스티칭 벡터 및 기설정된 분류 모델에 따라, 각 상기 후보 엔티티와 상기 엔티티 멘션이 링킹되는 확률을 결정하는 엔티티 링킹 장치.
  19. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 연결되는 메모리를 포함하고,
    상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되며, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행될 경우 상기 적어도 하나의 프로세서가 제1항 내지 제9항 중 어느 한 항에 따른 엔티티 링킹 방법을 수행할 수 있도록 하는 전자 기기.
  20. 컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 명령어는 컴퓨터가 제1항 내지 제9항 중 어느 한 항에 따른 엔티티 링킹 방법을 수행하도록 하는 비일시적 컴퓨터 판독 가능한 저장 매체.
  21. 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 제1항 내지 제9항 중 어느 한 항에 따른 엔티티 링킹 방법을 수행하도록 하는 컴퓨터 프로그램.
KR1020210038105A 2020-04-23 2021-03-24 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 KR102504699B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010326675.0A CN111523326B (zh) 2020-04-23 2020-04-23 实体链指方法、装置、设备以及存储介质
CN202010326675.0 2020-04-23

Publications (2)

Publication Number Publication Date
KR20210040319A true KR20210040319A (ko) 2021-04-13
KR102504699B1 KR102504699B1 (ko) 2023-02-27

Family

ID=71903467

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038105A KR102504699B1 (ko) 2020-04-23 2021-03-24 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
US (1) US11704492B2 (ko)
EP (1) EP3859559A3 (ko)
JP (1) JP7398402B2 (ko)
KR (1) KR102504699B1 (ko)
CN (1) CN111523326B (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220900A (zh) * 2021-05-10 2021-08-06 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
CN115169326A (zh) * 2022-04-15 2022-10-11 山西长河科技股份有限公司 一种中文关系抽取方法、装置、终端及存储介质
WO2023130688A1 (zh) * 2022-01-05 2023-07-13 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN112257443B (zh) * 2020-09-30 2024-04-02 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN112307752A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112464669B (zh) * 2020-12-07 2024-02-09 宁波深擎信息科技有限公司 股票实体词消歧方法、计算机设备及存储介质
CN112989235B (zh) * 2021-03-09 2023-08-01 北京百度网讯科技有限公司 基于知识库的内链构建方法、装置、设备和存储介质
CN113033205B (zh) * 2021-03-24 2023-07-25 北京百度网讯科技有限公司 实体链接的方法、装置、设备以及存储介质
CN113204685A (zh) * 2021-04-25 2021-08-03 Oppo广东移动通信有限公司 资源信息获取方法及装置、可读存储介质、电子设备
CN113505587B (zh) * 2021-06-23 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 实体抽取方法及相关装置、设备和存储介质
CN113609291A (zh) * 2021-07-27 2021-11-05 科大讯飞(苏州)科技有限公司 实体分类方法、装置、电子设备和存储介质
US11842153B2 (en) * 2021-07-28 2023-12-12 Microsoft Technology Licensing, Llc Computing system for auto-identification of secondary insights using reverse extraction
CN113626613B (zh) * 2021-08-18 2022-07-05 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法
CN114048736A (zh) * 2021-10-21 2022-02-15 盐城金堤科技有限公司 执行主体的提取方法、装置、存储介质和电子设备
CN114218404A (zh) * 2021-12-29 2022-03-22 北京百度网讯科技有限公司 内容检索方法、检索库的构建方法、装置和设备
CN114647739B (zh) * 2022-02-25 2023-02-28 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN115982352B (zh) * 2022-12-12 2024-04-02 北京百度网讯科技有限公司 文本分类方法、装置以及设备
CN116127334A (zh) * 2023-02-22 2023-05-16 佛山科学技术学院 一种半结构化文本匹配方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108569A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体
JP2008033931A (ja) * 2006-07-26 2008-02-14 Xerox Corp テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム
US20170262412A1 (en) * 2007-10-17 2017-09-14 Vcvc Iii Llc Nlp-based entity recognition and disambiguation
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
JP2018180866A (ja) * 2017-04-11 2018-11-15 富士通株式会社 判別方法、判別プログラム及び判別装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016210203A1 (en) * 2015-06-26 2016-12-29 Microsoft Technology Licensing, Llc Learning entity and word embeddings for entity disambiguation
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统
CN106940702A (zh) * 2016-01-05 2017-07-11 富士通株式会社 连接短文本中实体提及与语义知识库中实体的方法和设备
CN107092605B (zh) * 2016-02-18 2019-12-31 北大方正集团有限公司 一种实体链接方法及装置
CN105976056A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向rnn的信息提取系统
US11907858B2 (en) * 2017-02-06 2024-02-20 Yahoo Assets Llc Entity disambiguation
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN110569496B (zh) * 2018-06-06 2022-05-17 腾讯科技(深圳)有限公司 实体链接方法、装置及存储介质
CN110147421B (zh) * 2019-05-10 2022-06-21 腾讯科技(深圳)有限公司 一种目标实体链接方法、装置、设备及存储介质
CN110275966B (zh) * 2019-07-01 2021-10-01 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN111428443B (zh) * 2020-04-15 2022-09-13 中国电子科技网络信息安全有限公司 一种基于实体上下文语义交互的实体链接方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108569A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体
JP2008033931A (ja) * 2006-07-26 2008-02-14 Xerox Corp テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム
US20170262412A1 (en) * 2007-10-17 2017-09-14 Vcvc Iii Llc Nlp-based entity recognition and disambiguation
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
JP2018180866A (ja) * 2017-04-11 2018-11-15 富士通株式会社 判別方法、判別プログラム及び判別装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220900A (zh) * 2021-05-10 2021-08-06 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
CN113220900B (zh) * 2021-05-10 2023-08-25 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
WO2023130688A1 (zh) * 2022-01-05 2023-07-13 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质
CN115169326A (zh) * 2022-04-15 2022-10-11 山西长河科技股份有限公司 一种中文关系抽取方法、装置、终端及存储介质

Also Published As

Publication number Publication date
US11704492B2 (en) 2023-07-18
KR102504699B1 (ko) 2023-02-27
CN111523326B (zh) 2023-03-17
JP2021168124A (ja) 2021-10-21
US20210216716A1 (en) 2021-07-15
EP3859559A2 (en) 2021-08-04
JP7398402B2 (ja) 2023-12-14
CN111523326A (zh) 2020-08-11
EP3859559A3 (en) 2021-10-20

Similar Documents

Publication Publication Date Title
KR102504699B1 (ko) 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
EP3889830A1 (en) Cross-modality processing method and apparatus, electronic device and computer storage medium
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US20210397947A1 (en) Method and apparatus for generating model for representing heterogeneous graph node
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
US11915484B2 (en) Method and apparatus for generating target re-recognition model and re-recognizing target
CN111666751B (zh) 训练文本扩充方法、装置、设备以及存储介质
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
US11321370B2 (en) Method for generating question answering robot and computer device
JP2021106016A (ja) 対話生成方法、装置、電子機器及び媒体
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
JP2021190073A (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
US20210312308A1 (en) Method for determining answer of question, computing device and storage medium
JP7352640B2 (ja) 検索項目書き換え方法、装置、機器および記憶媒体
CN111651988B (zh) 用于训练模型的方法、装置、设备以及存储介质
CN115688796A (zh) 用于自然语言处理领域中预训练模型的训练方法及其装置
CN117121021A (zh) 用于用户界面预测和生成的经机器学习的模型

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant