KR102554121B1 - 텍스트의 엔티티 포커스의 마이닝 방법 및 장치 - Google Patents

텍스트의 엔티티 포커스의 마이닝 방법 및 장치 Download PDF

Info

Publication number
KR102554121B1
KR102554121B1 KR1020210005121A KR20210005121A KR102554121B1 KR 102554121 B1 KR102554121 B1 KR 102554121B1 KR 1020210005121 A KR1020210005121 A KR 1020210005121A KR 20210005121 A KR20210005121 A KR 20210005121A KR 102554121 B1 KR102554121 B1 KR 102554121B1
Authority
KR
South Korea
Prior art keywords
focus
input text
entity
core entity
labeling
Prior art date
Application number
KR1020210005121A
Other languages
English (en)
Other versions
KR20210092147A (ko
Inventor
슈 왕
케신 렌
시아오한 장
즈판 펑
양 장
용 주
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210092147A publication Critical patent/KR20210092147A/ko
Application granted granted Critical
Publication of KR102554121B1 publication Critical patent/KR102554121B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 지식 맵 분야에 관한 것이다. 본 발명의 실시예에서는 텍스트의 엔티티 포커스의 마이닝 방법 및 장치를 공개하였다. 상기 방법은, 입력 텍스트에 대해 용어 특징을 추출하는 단계; 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하는 단계; 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측하는 단계; 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하는 단계; 및 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계를 포함한다. 상기 방법은 텍스트에서 엔티티 포커스의 정확한 추출을 실현하였다.

Description

텍스트의 엔티티 포커스의 마이닝 방법 및 장치{METHOD AND APPARATUS FOR MINING ENTITY FOCUS IN TEXT}
본 발명의 실시예는 컴퓨터 기술 분야에 관한 것이며, 구체적으로는 데이터 처리 기술에 관한 것으로서, 특히는 텍스트의 엔티티 포커스의 마이닝 방법 및 장치에 관한 것이다.
인터넷 기술의 발전과 더불어, 소셜 플랫폼 등 네트워크 애플리케이션에서 대량의 숏 텍스트가 나타난다. 텍스트의 엔티티 포커스는 텍스트 정보에 포함되는 엔티티 및 엔티티를 둘러싸고 설명되는 엔티티 속성, 관련 화제 또는 사건 등 포커스 정보를 표시한다. 엔티티 포커스 라벨링은 텍스트 데이터에서 주요하게 설명되는 엔티티 및 상응한 티티 포커스를 명확히하는 기술이다. 엔티티 포커스의 결과는 신속한 텍스트 내용 추출, 및 해석 가능한 정보의 추천을 위한 것이다.
한국등록특허 제10-1009924호
종래의 엔티티 포커스 라벨링 방안은 주요하게 키워드 인식을 통해 엔티티 키워드 및 포커스 키워드를 추출하는 것이다. 이러한 방식은 키워드 라이브러리의 구축에 의존하기에, 텍스트 중의 엔티티를 잘 커버할 수 없으며, 엔티티와 포커스 사이의 관계를 판정할 수 없다.
본 발명의 실시예는 텍스트의 엔티티 포커스의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능한 매체를 제공한다.
제1 양태에서, 본 발명의 실시예는 텍스트의 엔티티 포커스의 마이닝 방법을 제공하는 바, 입력 텍스트에 대해 용어(word and phrase) 특징을 추출하는 단계; 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하는 단계; 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측하는 단계; 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하는 단계; 및 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계를 포함한다.
일부 실시예에 있어서, 상기 입력 텍스트에 대해 용어 특징을 추출하는 단계는, 입력 텍스트에 대응되는 글자 시퀀스에 대해 용어 혼합 임베딩을 진행하여 대응되는 글자 특징 벡터를 획득하는 단계; 입력 텍스트에 대응되는 글자 시퀀스 중의 각 문자에 대해 위치 임베딩을 진행하여, 대응되는 위치 특징 벡터를 획득하는 단계; 입력 텍스트를 개체명 인식하고, 개체명 인식의 결과에 따라 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하는 단계; 및 입력 텍스트에 대응되는 글자 특징 벡터, 위치 특징 벡터 및 개체명 타입 특징 벡터를 스플라이싱하여 입력 텍스트의 용어 특징 벡터를 형성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 개체명 인식의 결과에 따라 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하는 단계는, 입력 텍스트 중의 타깃 단어의 개체명의 타입이 인식되지 않은 것에 응답하여, 타깃 단어에 대해 품사 라벨링을 진행하고, 입력 텍스트에서 인식된 개체명의 타입 및 타깃 단어의 품사 라벨링 결과에 기반하여 개체명 타입 특징 벡터를 생성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측하는 단계는, 입력 텍스트의 코딩 시퀀스를 코어 엔티티 라벨링 네트워크에 입력하여 입력 텍스트중 각 스트링을 코어 엔티티로 하는 확률을 예측하고, 입력 텍스트 중 각 스트링을 코어 엔티티로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 시작 위치 및 종료 위치를 각각 라벨링하는 단계를 포함한다.
일부 실시예에 있어서, 상기 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계는, 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 코어 엔티티의 포커스 선험 특징을 획득하는 단계; 입력 텍스트의 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 서브 시퀀스에 기반하여 입력 텍스트의 제1 포커스 특징을 생성하고, 입력 텍스트의 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계를 포함한다.
일부 실시예에 있어서, 상기 입력 텍스트의 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계는, 입력 텍스트의 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여 입력 텍스트 중 각 스트링을 코어 엔티티의 포커스로 하는 확률을 예측하고, 입력 텍스트에서 각 스트링을 코어 엔티티의 포커스로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 포커스의 시작 위치 및 종료 위치를 각각 라벨링하는 단계를 포함한다.
일부 실시예에 있어서, 상기 입력 텍스트는 코어 엔티티 및 대응되는 포커스의 라벨링 정보를 포함하고; 상기 방법은, 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 따라, 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 위치의 예측 오차를 확정하고, 역전파법을 사용하여 코어 엔티티 포커스를 라벨링하기 위한 모델 중의 파라미터를 반복 조절하여, 트레이닝 완료된 코어 엔티티 포커스를 라벨링하기 위한 모델을 획득하는 단계를 더 포함하며, 코어 엔티티 포커스를 라벨링하기 위한 모델은 텍스트 코딩 네트워크, 코어 엔티티 라벨링 네트워크 및 포커스 라벨링 네트워크를 포함한다.
일부 실시예에 있어서, 상기 방법은, 입력 텍스트 중의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 기반하여 코어 엔티티와 대응되는 포커스의 상대 위치 특징을 추출하고 코딩하여 상대 위치 특징 시퀀스를 획득하는 단계를 더 포함하고; 상기 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계는, 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 코어 엔티티의 포커스 선험 특징을 획득하는 단계; 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 대해 코딩한 결과를 상대 위치 특징 시퀀스와 스플라이싱하여 입력 텍스트 중의 코어 엔티티의 코딩 시퀀스를 획득하는 단계; 입력 텍스트의 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스에 기반하여 입력 텍스트의 제2 포커스 특징을 생성하고, 입력 텍스트의 제2 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계를 포함한다.
제2 양태에서, 본 발명의 실시예는 텍스트의 엔티티 포커스의 마이닝 장치를 제공하는 바, 입력 텍스트에 대해 용어 특징을 추출하도록 구성되는 제1 추출 유닛; 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하도록 구성되는 코딩 유닛; 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측하도록 구성되는 제1 라벨링 유닛; 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하도록 구성되는 제2 추출 유닛; 및 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 제2 라벨링 유닛을 포함한다.
일부 실시예에 있어서, 상기 제1 추출 유닛은 하기와 같은 방식으로 입력 텍스트에 대해 용어 특징을 추출하도록 구성되는 바, 입력 텍스트에 대응되는 글자 시퀀스에 대해 용어 혼합 임베딩을 진행하여 대응되는 글자 특징 벡터를 획득하고; 입력 텍스트에 대응되는 글자 시퀀스 중의 각 문자에 대해 위치 임베딩을 진행하여, 대응되는 위치 특징 벡터를 획득하며; 입력 텍스트를 개체명 인식하고, 개체명 인식의 결과에 따라 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하고; 입력 텍스트에 대응되는 글자 특징 벡터, 위치 특징 벡터 및 개체명 타입 특징 벡터를 스플라이싱하여 입력 텍스트의 용어 특징 벡터를 형성한다.
일부 실시예에 있어서, 상기 제1 추출 유닛은 또한 하기와 같은 방식으로 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하도록 구성되는 바, 입력 텍스트 중의 타깃 단어의 개체명의 타입이 인식되지 않은 것에 응답하여, 타깃 단어에 대해 품사 라벨링을 진행하고, 입력 텍스트에서 인식된 개체명의 타입 및 타깃 단어의 품사 라벨링 결과에 기반하여 개체명 타입 특징 벡터를 생성한다.
일부 실시예에 있어서, 상기 제1 라벨링 유닛은 하기와 같은 방식으로 입력 텍스트 중의 코어 엔티티의 위치를 예측하도록 구성되는 바, 입력 텍스트의 코딩 시퀀스를 코어 엔티티 라벨링 네트워크에 입력하여 입력 텍스트중 각 스트링을 코어 엔티티로 하는 확률을 예측하고, 입력 텍스트 중 각 스트링을 코어 엔티티로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 시작 위치 및 종료 위치를 각각 라벨링한다.
일부 실시예에 있어서, 상기 제2 라벨링 유닛은 하기와 같은 방식으로 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 바, 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 코어 엔티티의 포커스 선험 특징을 획득하고; 입력 텍스트의 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 서브 시퀀스에 기반하여 입력 텍스트의 제1 포커스 특징을 생성하고, 입력 텍스트의 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측한다.
일부 실시예에 있어서, 상기 제2 라벨링 유닛은 또한 하기와 같은 방식으로 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 바, 입력 텍스트의 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여 입력 텍스트 중 각 스트링을 코어 엔티티의 포커스로 하는 확률을 예측하고, 입력 텍스트에서 각 스트링을 코어 엔티티의 포커스로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 포커스의 시작 위치 및 종료 위치를 각각 라벨링한다.
일부 실시예에 있어서, 상기 입력 텍스트는 코어 엔티티 및 대응되는 포커스의 라벨링 정보를 포함하고; 상기 장치는, 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 따라, 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 위치의 예측 오차를 확정하고, 역전파법을 사용하여 코어 엔티티 포커스를 라벨링하기 위한 모델 중의 파라미터를 반복 조절하여, 트레이닝 완료된 코어 엔티티 포커스를 라벨링하기 위한 모델을 획득하도록 구성되는 반복 조절 유닛을 더 포함하고, 코어 엔티티 포커스를 라벨링하기 위한 모델은 텍스트 코딩 네트워크, 코어 엔티티 라벨링 네트워크 및 포커스 라벨링 네트워크를 포함한다.
일부 실시예에 있어서, 상기 장치는, 입력 텍스트 중의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 기반하여 코어 엔티티와 대응되는 포커스의 상대 위치 특징을 추출하고 코딩하여 상대 위치 특징 시퀀스를 획득하도록 구성되는 제3 추출 유닛을 더 포함하고; 상기 제2 라벨링 유닛은 또한 하기와 같은 방식으로 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 바, 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 코어 엔티티의 포커스 선험 특징을 획득하고; 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 대해 코딩한 결과를 상대 위치 특징 시퀀스와 스플라이싱하여 입력 텍스트 중의 코어 엔티티의 코딩 시퀀스를 획득하며; 입력 텍스트의 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스에 기반하여 입력 텍스트의 제2 포커스 특징을 생성하고, 입력 텍스트의 제2 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측한다.
제3 양태에서, 본 발명의 실시예는 전자 기기를 제공하는 바, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함하며, 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 실행되어, 하나 또는 복수의 프로세서가 제1 양태에서 제공되는 텍스트의 엔티티 포커스의 마이닝 방법을 구현하도록 한다.
제4 양태에서, 본 발명의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 매체를 제공하는 바, 프로그램이 프로세서에 의해 실행될 경우 제1 양태에서 제공되는 텍스트의 엔티티 포커스의 마이닝 방법을 구현하도록 한다.
본 발명의 상기 실시예의 텍스트의 엔티티 포커스의 마이닝 방법 및 장치는, 입력 텍스트에 대해 용어 특징을 추출하고; 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하며; 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측하고; 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하며; 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하는 것을 통해, 텍스트 중 엔티티 포커스의 정밀하고 전면적인 추출을 실현하였다.
하기의 도면을 참조하여 진행한 비 제한적인 실시예에 따른 상세한 설명을 통해, 본 발명의 다른 특징, 목적 및 장점은 더욱 뚜렷해진다.
도 1은 본 발명의 실시예가 응용될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 텍스트의 엔티티 포커스의 마이닝 방법의 일 실시예의 흐름도이다.
도 3은 본 발명에 따른 텍스트의 엔티티 포커스의 마이닝 방법의 다른 실시예의 흐름도이다.
도 4는 도 3에 도시된 텍스트의 엔티티 포커스의 마이닝 방법의 일 구현예의 원리 흐름 모식도이다.
도 5는 본 발명의 텍스트의 엔티티 포커스의 마이닝 장치의 일 실시예의 구조 모식도이다.
도 6은 본 발명의 실시예를 구현하기 위한 전자 기기의 컴퓨터 시스템의 구조 모식도이다.
아래 첨부 도면 및 실시예를 참조하여 본 발명을 더 상세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.
모순되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 첨부 도면을 참조하고 실시예를 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 텍스트의 엔티티 포커스의 마이닝 방법 또는 텍스트의 엔티티 포커스의 마이닝 장치를 구현할수 있는 예시적 시스템 아키텍처(100)이다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에서 통신 링크의 매체를 제공한다. 네트워크(104)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션함으로써 메시지 등을 송수신할 수 있다. 단말 기기(101, 102, 103)는 사용자 기기일 수 있고, 다양한 통신 클라이언트 애플리케이션이 설치될 수 있는 바, 예를 들면, 소셜 플랫폼 애플리케이션, 뉴스 정보 애플리케이션, 전자 상거래 애플리케이션 등이다.
단말 기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿PC, 전자책 리더기, 휴대형 랩톱 및 데스크톱 등을 포함하나 이에 한정되는 것은 아니다. 단말 기기(101, 102, 103)가 소프트웨인 경우 상기 열거된 전자 기기에 설치될 수 있다. 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공하기 위한 복수의 소프트웨어 또는 소프트웨어 모듈)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
서버(105)는 소셜 플랫폼 애플리케이션의 백스테이지 서버와 같은 다양한 서비스를 제공하는 서버일 수 있다. 소셜 플랫폼 애플리케이션의 백스테이지 서버는 단말 기기(101, 102, 103)에서의 소셜 플랫폼 애플리케이션에서 생성된 소셜 플랫폼 데이터를 획득할 수 있으며, 사용자가 발표한 내용 데이터, 사용자가 발표한 내용에 대한 동작 데이터 등을 포함한다. 예를 들어 소셜 플랫폼 애플리케이션의 백스테이지 서버는 획득된 데이터에 대해 데이터 마이닝을 진행하여, 관건 정보를 추출할 수 있다.
서버(105)는 예를 들어 네트워크 데이터 마이닝 처리 서비스를 제공하는, 검색 엔진 서버와 같은 서버일 수도 있다. 서버(105)는 네트워크에서 각 발신국의 웹 페이지 내용을 획득하여, 웹 페이지 내용에 대해 데이터 마이닝을 진행하여, 관건 정보를 추출할 수 있다.
본 발명의 응용 시나리오에서, 서버(105)는 단말 기기(101, 102, 103)에서 획득되거나, 또는 웨페이지의 발신국에서 획득되는 텍스트 데이터에 대해 엔티티 포커스 마이닝을 진행할 수 있다.
설명해야 할 것은, 본 발명의 실시예가 제공하는 텍스트의 엔티티 포커스의 마이닝 방법은 일반적으로 서버(105)에 의해 수행될 수 있고, 상응하게는, 텍스트의 엔티티 포커스의 마이닝 장치는 일반적으로 서버(105)에 설치될 수도 있다.
일부 시나리오에서, 서버(105)는 데이터 베이스, 메모리 또는 다른 서버(예컨대 웹 사이트 서버)에서 처리될 텍스트 데이터를 획득할 수 있고, 이때, 예시적 시스템 아키텍처(100)는 단말 기기(101, 102, 103)에 존재하지 않을 수 있다.
설명해야 할 것은, 서버(105)는 하드웨어 또는 소프트웨어일 수 있다. 서버(105)가 하드웨어인 경우 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공기 위한 복수의 소프트웨어 또는 소프트웨어 모듈)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
이해해야 할 것은 도 1 중의 단말 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐이며, 실제 필요에 따라 임의의 개수의 단말 기기, 네트워크 및 서버를 구비할 수 있다.
계속하여 도 2를 참조하면, 본 발명에 따른 텍스트의 엔티티 포커스의 마이닝 방법의 실시예의 흐름(200)을 도시하였다. 상기 텍스트의 엔티티 포커스의 마이닝 방법은 하기와 같은 단계를 포함한다.
단계(201)에서, 입력 텍스트에 대해 용어(word and phrase) 특징을 추출한다.
텍스트 중의 엔티티 포커스는 텍스트에서 주요하게 기술하는 엔티티 및 엔티티의 속성, 관련 엔티티, 관련 화제 또는 사건 등 어느 한 측면의 정보이다. 본 실시예에 있어서, 텍스트의 엔티티 포커스의 마이닝 방법의 수행 주체는 마이닝될 텍스트를 획득하여 입력 텍스트로 할 수 있다. 입력 텍스트는 소셜 플랫폼에서 사용자가 발표한 텍스트 내용일 수 있거나, 또는 네트워크 웹 페이지 중의 텍스트 내용일 수 있다. 선택 가능하게, 본 발명의 실시예에서 입력 텍스트는 인스턴트 메시지, 게시판 또는 소셜 플랫폼의 댓글 등 타입의 숏 텍스트일 수 있다.
본 실시예에 있어서, 입력 텍스트를 글자 시퀀스로 분해하고, 그 다음 입력 텍스트의 글자 시퀀스에 대해 특징 추출 및 특징의 수학적 표시를 진행하며, 입력 텍스트를 대응되는 벡터 시퀀스로 전환할 수 있다. 구체적으로 입력 텍스트의 글자 시퀀스에 대해 단어 임베딩하여 입력 텍스트에 대응되는 벡터 시퀀스를 획득할 수 있다. 또는, 토픽 모델, TF-IDF(term frequency-inverse document frequency, 단어 빈도-역 문서 빈도)등 방법을 사용하여 입력 텍스트의 특징을 추출할 수 있다.
선택 가능하게, 하기의 방식에 따라 입력 텍스트에 대해 용어 특징을 추출할 수 있는 바,
우선, 입력 텍스트에 대응되는 글자 시퀀스에 대해 용어 혼합 임베딩을 진행하여 대응되는 글자 특징 벡터를 획득한다. 엔티티 포커스 라벨링에 있어서, 텍스트에 대해 엔티티 및 포커스의 경계 세그먼테이션을 정밀하게 진행해야 하고, 경계 세그먼테이션에 착오가 발생하는 것을 최대한 방지하기 위해, 글자를 단위로 특징 추출 및 코딩을 진행한다. 아울러, 한 글자는 유효한 시맨틱 정보를 저장하기 어렵기에, 단어 결합 임베딩의 방법에 의해 입력 텍스트의 특징을 추출해야 한다.
구체적으로, 먼저 입력 텍스트의 글자 시퀀스에 대해 글자를 단위로 글자 임베딩 처리를 진행하여, 글자 벡터 시퀀스를 얻고, 그 후 입력 텍스트를 분사하고, Word2Vec 모델을 사용하여 대응되는 글자 벡터를 추출한 후 각각의 단어의 단어 벡터를 N 번 반복한다. N은 단어에 포함되는 글자 수이다. 단어 벡터를 매트릭스에 의해 글자 벡터와 동일한 차원으로 변환하고, N개 단어 벡터를 각각 대응되는 N개 글자 벡터와 혼합한다.
예를 들어 설명하자면, 입력 텍스트를 분사한 후 그 중의 하나의 단어가 "창장대교(
Figure 112021004901056-pat00001
)"이고, 이에 대해 글자 임베딩하여 각각 "창(
Figure 112021004901056-pat00002
)", "장(江)", "대(大)", "교(
Figure 112021004901056-pat00003
)" 네 개 글자의 글자 임베딩 벡터를 얻으며, 단어 임베딩하여 "창장대교"의 단어 임베딩 벡터를 얻고, "창장대교"의 단어 임베딩 벡터를 네 번 중복하고, "창", "장", "대", "교" 네 개 글자의 글자 임베딩 벡터를 이용하여 각각 "창장대교"의 단어 임베딩 벡터와 혼합한 후 상기 단어 "창장대교"에 대응되는 글자 벡터 시퀀스를 생성할 수 있다.
그 다음, 입력 텍스트에 대응되는 글자 시퀀스 중의 각 문자에 대해 위치 임베딩을 진행하여, 대응되는 위치 특징 벡터를 획득한다. 여기서, 위치 임베딩은 각각의 단어의 입력 텍스트에서의 위치를 표시한다. 예를 들어 하나의 숏 텍스트가 10개 글자를 포함하고, 단어 X는 3, 4, 5 번째 글자에 나타나면, 대응되는 위치 임베딩 결과는 10차원 벡터로 표시될 수 있고, 여기서 제3, 4, 5 차원의 벡터 값은 1이며, 다른 차원의 벡터 값은 0이다.
이후, 입력 텍스트를 개체명 인식하고, 개체명 인식의 결과에 따라 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성한다.
개체명 라이브러리에 기반하여, NER(Named Entity Recognition, 개체명 인식) 모델을 사용하여 입력 텍스트 중의 개체명의 타입을 인식할 수 있다. 그 다음 개체명의 타입을 대응되는 특징 벡터로 전환한다.
개체명 인식은 텍스트 중의 일부 표시 인물, 조직, 위치, 시간 수량 등 동사 또는 명사를 분류 라벨링할 수 있다. 일부 시나리오에 있어서, 텍스트에서 예를 들어 "농구를 치다(
Figure 112021004901056-pat00004
)"와 같이 개체명으로 타입 라벨링 불가한 일부 단어가 존재할 수 있다. 본 실시예의 일부 선택 가능한 실시형태에서, 입력 텍스트 중의 타깃 단어의 개체명의 타입이 인식되지 않은 것에 응답하여, 타깃 단어에 대해 품사 라벨링을 진행할 수 있다. 입력 텍스트에 NER 모델을 사용하여 엔티티 타입을 인식할 수 없는 타깃 단어가 존재한다면, "동사", "명사", "동명사" 등으로 이를 품사 라벨링할 수 있다. 이때 입력 텍스트에서 인식된 개체명의 타입 및 타깃 단어의 품사 라벨링 결과에 기반하여 개체명 타입 특징 벡터를 생성할 수 있다. 개체명 인식 및 품사 라벨링을 통해 각각의 단어의 시맨틱 특징을 추출할 수 있다.
최종적으로, 입력 텍스트에 대응되는 글자 특징 벡터, 위치 특징 벡터 및 개체명 타입 특징 벡터를 스플라이싱하여 입력 텍스트의 용어 특징 벡터를 형성한다.
상기 입력 텍스트에 대응되는 글자 특징 벡터, 위치 특징 벡터, 및 개체명 타입 특징 벡터를 스플라이싱할 수 있으며, 구체적으로는 상기 입력 텍스트에 대응되는 글자 특징 벡터, 위치 특징 벡터, 및 개체명 타입 특징 벡터를 동일한 차원으로 전환한 후 스플라이싱하여 입력 텍스트의 용어 특징 벡터를 형성한다.
설명해야 할 것은, 상기 용어 혼합 임베딩 방법과 유사하게, 본 실시예에 있어서, 개체명 인식 및 품사 라벨링을 통해 추출한 특징 벡터를 N번 반복하여(여기서 N은 대응되는 단어에서 포함되는 글자수임), 단어 중의 N개 글자의 글자 벡터와 얼라인먼팅한 후, 각각 대응되는 단어 중 각 단어의 단어 벡터와 혼합하여, 입력 텍스트의 대응되는 글자 특징 벡터를 개체명 타입 특징 벡터와 혼합 스플라이싱한다.
입력 텍스트의 용어 특징 벡터가 각 글자 위치를 표시하는 위치 특징 벡터 및 개체명 타입 특징 벡터를 포함하기에, 입력 텍스트의 용어 특징 벡터는 풍부한 시맨틱 특징 정보를 포함하였다. 이로써 후속적으로 엔티티 포커스 라벨링을 진행할 경우 단어 사이의 시맨틱 관련성을 정확하게 분석할 수 있고, 엔티티 포커스의 위치를 정확하게 라벨링할 수 있다.
단계(202)에서, 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득한다.
텍스트 코딩 네트워크는 콘볼루션 신경망, 순환 신경망 등에 기반하여 구축된 텍스트의 특징을 코딩으로 전환하는 신경망 모델일 수 있다. 본 실시예에 있어서, 확장 콘볼루션 신경망을 사용하여 텍스트 코딩 네트워크로 할 수 있다. 확장 콘볼루션 신경망은 각각의 신경원의 수용양을 확대함으로써, 각 층의 신경원이 이전 층의 더욱 큰 범위의 신경원의 출력을 확보할 수 있고, 각각의 신경원의 출력이 모두 큰 범위의 정보를 포함하여, 비교적 긴 시퀀스 정보에서 거리가 비교적 먼 시퀀스 요소 사이의 의존 관계를 효과적으로 추출할 수 있다. 애플리케이션 확장 콘볼루션 신경망을 텍스트 코딩 네트워크로 하는 것에 의해, 입력 텍스트에서 거리가 비교적 먼 글자 또는 단어 사이의 의존 관계를 정확하게 추출할 수 있다.
실제 응용에서, 상기 텍스트 코딩 네트워크는 샘플 트레이닝 완료된 신경망일 수 있다. 본 실시예의 방법을 텍스트 코딩 네트워크를 포함하는 엔티티 포커스 라벨링 모델의 트레이닝에 응용할 경우, 상기 텍스트 코딩 네트워크는 트레이닝을 거쳐 네트워크 파라미터를 최적화할 신경망일 수 있다.
단계(203)에서, 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측한다.
코어 엔티티 라벨링 네트워크는 입력 텍스트 중의 코어 엔티티의 위치라벨링에 응용된다. 단계(202)에서 입력 텍스트의 용어 특징을 코딩하여 획득된 코딩 시퀀스를 코어 엔티티 네트워크에 입력하여, 코어 엔티티의 위치를 라벨링할 수 있다. 여기서, 코어 엔티티의 위치는 코어 엔티티의 시작 위치를 포함하거나, 또는 코어 엔티티의 시작 위치 및 종료 위치를 포함하거나, 또는 코어 엔티티에 커버되는 모든 글자 위치를 포함할 수 있다.
실제 응용에서, 코어 엔티티 라벨링 네트워크는 미리 트레이닝되는 신경망일 수 있다. 본 실시예의 방법을 코어 엔티티 라벨링 네트워크를 포함하는 엔티티 포커스 라벨링 모델의 트레이닝에 응용할 경우, 코어 엔티티 라벨링 네트워크는 트레이닝을 통해 네트워크 파라미터를 최적화할 신경망일 수 있다.
입력 텍스트 중의 코어 엔티티는, 입력 텍스트가 기술하는 주제의 주요 엔티티를 표시한다. 예를 들면, 주강아오대교(
Figure 112021004901056-pat00005
) 개통을 기술하는 뉴스 텍스트에서, "주강아오대교", "대교", "광둥" 등 엔티티를 포함할 수 있고, 그 중 "주강아오대교"는 코어 엔티티이다.
본 실시예의 일부 선택 가능한 실시형태에서, 단계 203에서는 하기의 방식으로 입력 텍스트 중의 코어 엔티티의 위치를 예측하는 바, 입력 텍스트의 코딩 시퀀스를 코어 엔티티 라벨링 네트워크에 입력하여, 입력 텍스트중 각 스트링을 코어 엔티티로 하는 확률을 예측하고, 입력 텍스트 중 각 스트링을 코어 엔티티로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 시작 위치 및 종료 위치를 각각 라벨링한다.
여기서, 더블 포인터는 시작 위치를 라벨링하기 위한 포인터 및 종료 위치를 라벨링하기 위한 포인터를 포함한다. 구체적으로, 상기 코어 엔티티 라벨링 네트워크를 이용하여, 입력 텍스트 중 각 글자가 코어 엔티티의 시작 위치로 되는 확률 및 코어 엔티티의 종료 위치로 되는 확률을 예측한다. 그 다음 각 글자가 코어 엔티티의 시작 위치로 되는 확률 및 코어 엔티티의 종료 위치로 되는 확률에 따라, 코어 엔티티인 스트링을 확정한다. 하나의 2분류 모델을 사용하여 각각의 글자가 코어 엔티티의 시작 위치인 지의 여부를 판정하고, 다른 하나의 2분류 모델을 사용하여 각각의 글자가 코어 엔티티의 종료 위치인 지의 여부를 판정한다.
더블 포인터를 사용하여 코어 엔티티의 시작 위치 및 종료 위치를 라벨링하여 내포 엔티티를 효과적으로 라벨링할 수 있는 바, 예를 들면 입력 텍스트 중의 하나의 스트링 "북경시 해정구의 학군이 좋은 집"에 대해, 코어 엔티티 라벨링 네트워크는 "북경시", "북경시 해정구", "북경시 해정구의 학군이 좋은 집" 3개의 엔티티를 라벨링할 수 있고, 이로써 라벨링 시 중요한 엔티티가 누락되는 것을 방지할 수 있으며, 비교적 긴 엔티티 예측 결과는 더욱 정확해질 수 있다.
선택 가능하게, 상기 코어 엔티티 라벨링 네트워크는 어텐션 레이어를 포함할 수 있고, 상기 어텐션 레이어는 Self Attention(셀프 어텐션) 레이어일 수 있으며, 어텐션 레이어는 입력 텍스트의 코딩 시퀀스에 어텐션 정보를 추가할 수 있으며, 구체적으로 각 글자 또는 각 단어 사이의 어텐션 점수 정보를 추가할 수 있다. 상기 코어 엔티티 라벨링 네트워크는 적어도 하나의 완전 연결 레이어로 형성된 Dense 네트워크 또는 콘볼루션 신경망을 포함할 수도 있다. 어텐션 레이어의 출력 결과는 상기 Dense 네트워크 또는 콘볼루션 신경망에 유입되어 코어 엔티티의 위치를 예측한다.
단계(204)에서, 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출한다.
코어 엔티티가 라벨링한 코어 엔티티의 위치에 기반하여, 단계(202)에서 획득된 입력 텍스트의 코딩 시퀀스에서 코어 엔티티 중 각 글자에 대응되는 코딩을 추출하여, 코어 엔티티에 대응되는 서브 시퀀스로 할 수 있다.
단계(205)에서, 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측한다.
본 실시예에 있어서, 상기 코어 엔티티에 대응되는 서브 시퀀스는 코어 엔티티의 코딩 정보를 휴대하고, 입력 텍스트의 코딩 시퀀스 및 상기 입력 텍스트에서 예측된 코어 엔티티에 대응되는 서브 시퀀스를 포커스 라벨링 네트워크에 입력할 수 있으며, 포커스 라벨링 네트워크는 입력 텍스트 중 각 스트링을 코어 엔티티에 대응되는 포커스로 하는 확률를 산출하고, 확률에 따라 2분류하여 각 스트링이 코어 엔티티에 대응되는 포커스인지의 예측 결과를 획득하여, 코어 엔티티에 대응되는 포커스의 위치를 라벨링할 수 있다.
선택 가능하게, 상기 포커스 라벨링 네트워크는 더블 포인터 방법을 사용하여 상기 예측된 코어 엔티티의 포커스의 시작 위치 및 종료 위치를 라벨링할 수 있다.
포커스 라벨링 네트워크는 미리 트레이닝된, 포커스 위치를 라벨링하기 위한 신경망일 수 있다. 트레이닝할 경우, 이미 라벨링된 코어 엔티티 및 대응되는 포커스의 텍스트를 샘플로 할 수 있고, 포커스 라벨링 네트워크는 트레이닝 과정에서 코어 엔티티와 코어 엔티티의 포커스 사이의 관계를 러닝할 수 있다.
이로써, 포커스 라벨링 네트워크를 통해 입력 텍스트 중의 코어 엔티티의 포커스의 위치를 라벨링하여, 입력 텍스트의 코어 엔티티 포커스 마이닝을 실현하였다.
상기 텍스트 중의 코어 엔티티 포커스를 마이닝하는 방법은, 우선 입력 텍스트에 대해 용어 특징을 추출하고, 그 다음 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하며, 다음 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측하고, 그 후 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하며, 최종적으로 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하여, 텍스트에서 엔티티 포커스의 정밀하고 신속한 추출을 실현하였고, 상기 방법은 엔티티 키워드 라이브러리의 구축에 의존하지 않으며, 텍스트 중의 엔티티를 효과적으로 커버하여, 엔티티와 포커스 사이의 관계를 효과적으로 추출함으로써, 텍스트 내용의 정밀한 추출을 실현하였다.
일부 실시예에 있어서, 단계(205)이전에, 상기 방법은, 입력 텍스트의 코딩 시퀀스를 어텐션 네트워크에 입력하여 어텐션 정보를 첨가하여, 입력 텍스트의 어텐션 코딩 시퀀스를 획득하는 단계를 더 포함한다. 여기서, 어텐션 네트워크는 Self Attention(셀프 어텐션) 네트워크일 수 있고, 상기 어텐션 네트워크는 입력 텍스트의 코딩 시퀀스에 입력 텍스트 중 각 글자 또는 각 단어 사이의 관계를 표시하는 어텐션 특징을 추가하여, 입력 텍스트의 어텐션 코딩 시퀀스를 획득할 수 있다.
일부 실시예에 있어서, 상기 단계(205)는 하기의 방식으로 구현될 수 있다.
우선, 상기 코어 엔티티의 포커스 지식 베이스에 기반하여 입력 텍스트 중의 코어 엔티티를 구축하는 포커스 선험 특징을 획득하고, 여기서 코어 엔티티의 포커스 선험 특징은 코어 엔티티의 포커스 지식 베이스에서 상기 입력 텍스트의 코어 엔티티의 관련 지식을 선별하고 특징을 추출하여 획득될 수 있다. 선택 가능하게, 상기 입력 텍스트에서 코어 엔티티의 포커스 선험 특징은 코어 엔티티 라벨링 네트워크를 통해 예측될 수 있다.
그 다음, 입력 텍스트의 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징, 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여 입력 텍스트의 제1 포커스 특징을 생성하고, 입력 텍스트의 제1 포커스 특징을 상기 포커스 라벨링 네트워크에 입력하여, 상기 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측할 수 있다.
구체적으로, 코어 엔티티의 포커스 선험 특징을 코딩하고, 코어 엔티티 코딩 네트워크를 사용하여 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 코딩하여, 입력 텍스트 중의 코어 엔티티의 코딩 시퀀스를 획득한다. 선택 가능하게, 입력 텍스트의 코딩 시퀀스를 어텐션 네트워크에 입력하여 어텐션 정보를 추가하여, 입력 텍스트의 어텐션 코딩 시퀀스를 획득한 이후, 입력 텍스트의 코딩 시퀀스 또는 입력 텍스트의 어텐션 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징을 코딩하여 획득한 코딩 시퀀스, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스를 스플라이싱하여 형성된 시퀀스를 입력 텍스트로 하여 제1 포커스 특징을 생성하거나, 또는 상기 입력 텍스트의 코딩 시퀀스 또는 입력 텍스트의 어텐션 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징을 코딩하여 획득한 코딩 시퀀스, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스의 가중합을 입력 텍스트의 제1 포커스 특징으로 하고, 입력 텍스트의 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측할 수 있다.
코어 엔티티의 포커스 선험 특징은, 지식 베이스 및 대규모의 데이터에 따라 마이닝한 일부 엔티티 포커스의 특징을 표시할 수 있는 바, 예컨대 일부 엔티티와 일부 포커스 사이가 어떠한 의존 관계에 기반한다면, 이러한 포커스를 이러한 엔티티의 포커스로 하여 비교적 높은 신뢰도를 성립한다. 예를 들면, "영화 뮬란의 예고편"에서 만약 입력 텍스트에서 코어 엔티티가 "영화 뮬란"임을 예측하고, 입력 텍스트에 "예고편"이 나타났다면, 선험 특징에 따라 "예고편"이 "영화 뮬란"에 대응되는 포커스임을 판정할 확률이 비교적 높다.
상기 코어 엔티티의 포커스 선험 특징은 구체적으로 지식 베이스를 통해 마이닝된 코어 엔티티의 각각의 포커스의 출현 확률을 포함할 수 있다.
코어 엔티티 코딩 네트워크는 코어 엔티티에 대응되는 서브 시퀀스를 다시 코딩하기 위한 신경망일 수 있다. 실제 응용 시나리오에서, 코어 엔티티 코딩 네트워크는 미리 트레이닝된 네트워크일 수 있고, 코어 엔티티 코딩 네트워크를 포함하는 코어 엔티티 포커스 라벨링 모델을 트레이닝하는 시나리오에 응용될 경우, 코어 엔티티 코딩 네트워크는 트레이닝을 거쳐 최적화될 파라미터를 포함하는 신경망일 수 있다. 선택 가능하게, 코어 엔티티 코딩 네트워크는 양방향 LSTM(Long Short-Term Memory, 장단기 메모리)일 수 있다.
코어 엔티티 코딩 네트워크가 코어 엔티티에 대응되는 서브 시퀀스를 코딩한 후 획득한, 코어 엔티티에 대응되는 코딩 시퀀스를 상기 입력 텍스트의 어텐션 코딩 시퀀스와 스플라이싱한 후, 제1 스플라이싱 시퀀스를 생성한다. 상기 포커스 라벨링 네트워크는 상기 제1 스플라이싱 시퀀스에 기반하여 코어 엔티티에 대응되는 포커스의 위치를 예측할 수 있다.
선택 가능하게, 상기 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여 입력 텍스트 중 각 스트링을 코어 엔티티의 포커스로 하는 확률을 예측하고, 입력 텍스트 중 각 스트링을 코어 엔티티의 포커스로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 포커스의 시작 위치 및 종료 위치를 각각 라벨링할 수 있다.
상기 포커스 라벨링 네트워크는 두 개의 2분류 모델을 포함할 수 있고, 두 개의 2분류 모델은 각각 입력 텍스트 중의 각 글자가 코어 엔티티의 포커스 시작 위치 및 종료 위치인 지의 여부를 분류한다.
상기 포커스 라벨링 네트워크는, 예를 들면 Dense네트워크, 콘볼루션 신경망 등과 같은 적어도 하나의 완전 연결층으로 형성된 신경망을 포함할 수도 있다.
본 실시예에서 포커스 라벨링 네트워크의 입력에서 코어 엔티티의 포커스 선험 지식을 추가하는 것을 통해, 코어 엔티티 포커스 결과의 정확도를 보다 향상시킬 수 있다. 또한 한 단락의 텍스트에서 코어 엔티티의 복수의 포커스를 포함할 경우 복수의 포커스를 동시에 라벨링할 수 있으며, 키워드 라이브러리에 의존하지 않는 상황에서 더욱 많은 엔티티 포커스를 커버하여, 텍스트 내용의 전면적인 추출을 실현하였다.
일부 실시예에 있어서, 상기 텍스트의 엔티티 포커스의 마이닝 방법은 코어 엔티티 포커스를 라벨링하기 위한 모델의 트레이닝에 응용될 수 있다. 이때, 상기 텍스트의 엔티티 포커스의 마이닝 방법 중의 코어 엔티티 예측 및 대응되는 포커스 예측 동작을 수차례 반복 수행하여, 코어 엔티티 예측 네트워크 및 포커스 예측 네트워크를 포함하는 코어 엔티티 포커스를 라벨링하기 위한 모델을 트레이닝할 수 있다.
도 3을 참조하면, 본 발명에 따른 텍스트의 엔티티 포커스의 마이닝 방법의 다른 한 실시예의 흐름도이다. 도 3에 도시된 바와 같이, 본 실시예의 텍스트의 엔티티 포커스의 마이닝 방법의 흐름(300)은 하기의 단계를 포함한다.
단계(301)에서, 입력 텍스트에 대해 용어 특징을 추출한다.
본 실시예에 있어서, 텍스트의 엔티티 포커스의 마이닝 방법의 수행 주체는 입력 텍스트를 획득할 수 있다. 여기서, 입력 텍스트는 코어 엔티티 포커스를 라벨링하기 위한 모델의 트레이닝 샘플로 될 수 있으며, 코어 엔티티 및 대응되는 포커스의 라벨링 정보를 포함한다.
텍스트 중의 코어 엔티티 및 대응되는 포커스를 인공 라벨링하는 것을 통해, 코어 엔티티 및 대응되는 포커스 라벨링 정보를 포함하는 입력 텍스트를 획득하여, 코어 엔티티 포커스를 라벨링하기 위한 모델의 트레이닝 샘플로 할 수 있다.
본 실시예에 있어서, 코어 엔티티 포커스를 라벨링하기 위한 모델은 상기 텍스트 코딩 네트워크, 코어 엔티티 라벨링 네트워크, 포커스 라벨링 네트워크를 포함할 수 있다. 선택 가능하게, 어텐션 네트워크, 코어 엔티티 코딩 네트워크를 포함할 수도 있다.
본 실시예에서 입력 텍스트에 대해 용어 특징을 추출하는 방법과 전술한 실시예 중 단계(201)의 방법은 동일한 바, 입력 텍스트에 대해 단어 임베딩 등 방법을 사용하여 벡터로 전환시킬 수 있다. 선택 가능하게, 단계(201)에서 기술되는 용어 혼합 임베딩, 위치 임베딩, 개체명 타입 임베딩의 방법을 사용하여 입력 텍스트의 용어 혼합 특징, 위치 특징, 개체명 타입 특징을 추출할 수도 있다.
단계(302)에서, 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득한다.
단계(303)에서, 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측한다.
단계(304)에서, 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출한다.
단계(305)에서, 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측한다.
본 실시예 중의 단계(302) 내지 단계(305)와 전술한 실시예 중의 단계(202) 내지 단계(205)는 일치하고, 단계(302) 내지 단계(305)의 구체적인 실시형태는 전술한 실시예 중 단계(202) 내지 단계(205)의 기술을 참조 가능하기에, 여기서 서술하지 않는다.
단계(306)에서, 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 따라, 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 위치의 예측 오차를 확정하고, 역전파법을 사용하여 코어 엔티티 포커스를 라벨링하기 위한 모델 중의 파라미터를 반복 조절하여, 트레이닝 완료된 코어 엔티티 포커스를 라벨링하기 위한 모델을 획득한다.
반복할 때마다, 코어 엔티티 라벨링 네트워크가 예측한 입력 텍스트의 코어 엔티티와 입력 텍스트가 포함하는 라벨링 정보가 지시하는 코어 엔티티 사이의 편차, 및 포커스 라벨링 네트워크가 예측한 입력 텍스트의 코어 엔티티의 포커스와 입력 텍스트가 포함하는 라벨링 정보가 지시하는 대응되는 포커스 사이의 편차를 산출하여, 현재의 코어 엔티티 포커스를 라벨링하기 위한 모델의 예측 오차로 하며, 예측 오차가 기설정된 수렴 조건에 도달하지 않는 것으로 판정되면, 경사 하강법을 사용하여 코어 엔티티 포커스를 라벨링하기 위한 모델의 파라미터를 조절할 수 있고, 예측 오차를 모델의 예측에 역전파하며, 파라미터를 조절한 후의 코어 엔티티 포커스를 라벨링하기 위한 모델을 이용하여 단계 (301) 내지 단계(305)를 다시 수행함으로써, 새로운 예측 오차를 획득하며, 이렇게 모델의 파라미터를 부단히 수차례 반복 조절하고, 모델의 예측 오차가 기설정된 수렴 조건에 도달할 때 반복을 종료하며, 모델의 파라미터를 고정하여, 트레이닝 완료된 코어 엔티티 포커스를 라벨링하기 위한 모델을 획득한다. 설명해야 할 것은, 코어 엔티티 포커스를 라벨링하기 위한 모델의 파라미터는 코어 엔티티 포커스를 라벨링하기 위한 모델에 포함되는 각 네트워크의 파라미터를 포함할 수 있고, 모델 파라미터를 매번 업데이트할 때, 아울러 모델에서 각 네트워크의 파라미터를 업데이트할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 방법 흐름(300)은, 입력 텍스트 중의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 기반하여 코어 엔티티와 대응되는 포커스의 상대 위치 특징을 추출하고 코딩하여 상대 위치 특징 시퀀스를 획득하는 단계를 더 포함할 수 있다.
구체적으로, 상대 위치 임베딩 방법을 사용하여, 입력 텍스트의 라벨링 정보가 지시하는 코어 엔티티와 대응되는 포커스 사이의 상대 위치 관계를 벡터화하고, 콘볼루션 신경망 등에 기반하여 구축된 코딩 네트워크를 이용하여, 상기 상대 위치 관계를 표시하는 벡터를 코딩하여 상대 위치 특징 시퀀스를 획득할 수 있다.
이때, 하기의 방식에 따라 상기 단계(305)를 수행할 수 있는 바,
우선, 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 상기 입력 텍스트 중의 코어 엔티티의 포커스 선험 특징을 획득하고, 여기서 코어 엔티티의 포커스 선험 특징은 코어 엔티티의 포커스 지식 베이스에서 상기 입력 텍스트의 코어 엔티티의 관련 지식을 선별하고 특징을 추출하여 획득될 수 있다. 선택 가능하게, 상기 입력 텍스트에서 코어 엔티티의 포커스 선험 특징은 트레이닝될 코어 엔티티 라벨링 네트워크를 통해 예측될 수 있다.
그 다음, 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 대해 코딩한 결과를 상대 위치 특징 시퀀스와 스플라이싱하여, 입력 텍스트 중의 코어 엔티티의 코딩 시퀀스를 획득할 수 있다.
선택 가능하게, 상기 코어 엔티티 포커스를 라벨링하기 위한 모델은 코어 엔티티 코딩 네트워크를 포함할 수도 있다. 코어 엔티티 코딩 네트워크는 코어 엔티티에 대응되는 서브 시퀀스를 재차 코딩하기 위한 신경망일 수 있다. 선택 가능하게, 코어 엔티티 코딩 네트워크는 양방향 LSTM일 수 있다.
최종적으로, 입력 텍스트의 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스에 기반하여 입력 텍스트의 제2 포커스 특징을 생성하고, 입력 텍스트의 제2 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측한다.
선택 가능하게, 상기 코어 엔티티 포커스를 라벨링하기 위한 모델은 어텐션 네트워크를 더 포함할 수 있다. 어텐션 네트워크는 입력 텍스트의 코딩 시퀀스에 어텐션 정보를 추가하기 위한 것이며, 어텐션 정보는 입력 텍스트에서 각 글자 또는 각 단어 사이의 잠재적인 의존 관계를 표시한다. 이때, 상기 입력 텍스트의 코딩 시퀀스를 어텐션 네트워크에 입력하여 어텐션 정보를 추가하여, 입력 텍스트의 어텐션 코딩 시퀀스를 획득할 수도 있다. 입력 텍스트의 코딩 시퀀스 또는 입력 텍스트의 어텐션 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징을 코딩하여 획득한 코딩 시퀀스, 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스로 코딩된 결과와 상대 위치 특징 시퀀스를 스플라이싱하여 형성된 상기 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스를 스플라이싱하여, 획득된 시퀀스를 입력 텍스트의 제2 포커스 특징로 하거나, 또는 입력 텍스트의 코딩 시퀀스 또는 입력 텍스트의 어텐션 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징을 코딩하여 획득한 코딩 시퀀스, 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스로 코딩된 결과와 상대 위치 특징 시퀀스를 스플라이싱하여 획득한 코어 엔티티에 대응되는 코딩 시퀀스의 가중합을 상기 입력 텍스트의 제2 포커스 특징으로 할 수 있다.
실천에서, 입력 텍스트에서 예측된 코어 엔티티의 코딩 시퀀스를 상기 상대 위치 특징 시퀀스와 스플라이싱하여, 입력 텍스트의 코딩 시퀀스와 동일한 길이의 벡터 시퀀스를 획득하고, 그 후 다시 입력 텍스트의 어텐션 코딩 시퀀스, 상기 코어 엔티티의 포커스 선험 특징에 대해 코딩하여 획득한 코딩 시퀀스와 스플라이싱하여, 제2 스플라이싱 시퀀스를 획득한다. 이로써 획득된 제2 스플라이싱 시퀀스는 입력 텍스트의 특징, 코어 엔티티의 위치 특징을 포함할 뿐만 아니라, 코어 엔티티와 대응되는 포커스의 상대 위치 특징, 코어 엔티티의 포커스의 선험 특징을 더 포함하여, 포커스 라벨링 네트워크에서 제2 스플라이싱 시퀀스를 처리한 후 더욱 정확한 포커스 예측 결과를 획득할 수 있다.
상기 실시형태에서, 코어 엔티티 포커스를 라벨링하기 위한 모델에 포함되는 각 네트워크에 기반하여 손실 함수의 표현식을 구축할 수 있고, 상기 손실 함수는 코어 엔티티 포커스를 라벨링하기 위한 모델의 예측 오차를 표시한다. 코어 엔티티 포커스를 라벨링하기 위한 모델 중 각 네트워크의 파라미터를 반복 조절하여 손실 함수의 값을 수렴함으로써, 트레이닝에서 각 네트워크의 파라미터를 점차 최적화한다.
계속하여 도 4를 참조하면, 도 3에 도시된 텍스트의 엔티티 포커스의 마이닝 방법의 일 구현예의 구현 원리 흐름 모식도로서, 구체적으로 코어 엔티티 포커스를 라벨링하기 위한 모델이 입력 텍스트에 대한 처리 흐름을 도시하였다.
도 4에 도시된 바와 같이, 먼저 입력 텍스트에 대해 용어 혼합 임베딩, 위치 임베딩 및 개체명 타입 임베딩을 진행하고, 그 다음 확장 콘볼루션 네트워크를 이용하여, 임베딩하여 획득된 특징 및 역방향 코딩하여 코딩한 후의 시퀀스 E를 획득한다. 그 후, 시퀀스 E를 하나의 어텐션 네트워크에 유입시킨 후 출력 결과를 완전 접속망(Dense Net)에 유입시키고, 더블 포인터 라벨링 방법을 사용하여 코어 엔티티 s의 시작 위치 및 종료 위치를 라벨링한다. 시퀀스 E를 코어 엔티티 s의 서브 시퀀스에 대응되게 양방향 LSTM에 유입시켜 코어 엔티티 s의 코딩 시퀀스를 획득하고, 그 다음 코어 엔티티 s의 코딩 시퀀스에, 포커스가 엔티티에 대한 상대 위치 특징을 추가하여, 입력 텍스트의 코딩 시퀀스 E와 동일한 길이의 벡터 시퀀스를 획득하며, 그 후 시퀀스 E를 다른 한 어텐션 네트워크에 유입시켜, 상기 어텐션 네트워크의 출력과 이전에 획득한, 시퀀스 E와 동일한 길이의 벡터 시퀀스, 및 엔티티 포커스 지식 베이스를 통해 구축된 엔티티 포커스 선험 특징을 코딩 스플라이싱한다. 스플라이싱 결과를 완전 접속망(Dense Net)에 입력하고, 더블 포인터 라벨링법을 사용하여 포커스의 시작 위치 및 종료 위치를 라벨링하며, 최종적으로 코어 엔티티 포커스의 결과를 출력한다.
본 실시예의 텍스트의 엔티티 포커스의 마이닝 방법은 코어 엔티티 포커스를 정확하게 라벨링하는 신경망 모델을 획득할 수 있다. 또한 일부 실시형태에서 상기 신경망 모델은 코어 엔티티와 포커스의 상대 위치를 입력된 특징으로 하여 러닝하여, 트레이닝하여 획득한 코어 엔티티 포커스를 라벨링하기 위한 모델의 정확도를 향상시킬 수 있으며, 아울러 트레이닝 효율을 향상시킨다.
도 5를 참조하면, 상기 텍스트의 엔티티 포커스의 마이닝 방법에 대한 구현으로서, 본 발명은 텍스트의 엔티티 포커스의 마이닝 장치의 일 실시예를 제공하며, 상기 장치 실시예는 도 2 및 도 3에 도시된 방법 실시예와 서로 대응되고, 상기 장치는 구체적으로 여러 가지 전자 기기에 응용될 수 있다.
도 5에 도시된 바와 같이, 본 실시예의 텍스트의 엔티티 포커스의 마이닝 장치(500)는 제1 추출 유닛(501), 코딩 유닛(502), 제1 라벨링 유닛(503), 제2 추출 유닛(504) 및 제2 라벨링 유닛(505)을 포함한다. 여기서 제1 추출 유닛(501)은 입력 텍스트에 대해 용어 특징을 추출하도록 구성되고; 코딩 유닛(502)은 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하도록 구성되며; 제1 라벨링 유닛(503)은 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측하도록 구성되고; 제2 추출 유닛(504)은 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하도록 구성되며; 제2 라벨링 유닛(505)은 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성된다.
일부 실시예에 있어서, 상기 제1 추출 유닛(501)은 하기의 방식으로 입력 텍스트에 대해 용어 특징을 추출하도록 구성되는 바, 입력 텍스트에 대응되는 글자 시퀀스에 대해 용어 혼합 임베딩을 진행하여 대응되는 글자 특징 벡터를 획득하고; 입력 텍스트에 대응되는 글자 시퀀스 중의 각 문자에 대해 위치 임베딩을 진행하여, 대응되는 위치 특징 벡터를 획득하며; 입력 텍스트를 개체명 인식하고, 개체명 인식의 결과에 따라 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하는 단계; 입력 텍스트에 대응되는 글자 특징 벡터, 위치 특징 벡터 및 개체명 타입 특징 벡터를 스플라이싱하여 입력 텍스트의 용어 특징 벡터를 형성한다.
일부 실시예에 있어서, 상기 제1 추출 유닛(501)은 또한 하기의 방식으로 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하도록 구성되는 바, 입력 텍스트 중의 타깃 단어의 개체명의 타입이 인식되지 않은 것에 응답하여, 타깃 단어에 대해 품사 라벨링을 진행하고, 입력 텍스트에서 인식된 개체명의 타입 및 타깃 단어의 품사 라벨링 결과에 기반하여 개체명 타입 특징 벡터를 생성한다.
일부 실시예에 있어서, 상기 제1 라벨링 유닛(503)은 하기의 방식으로 입력 텍스트 중의 코어 엔티티의 위치를 예측하도록 구성되는 바, 입력 텍스트의 코딩 시퀀스를 코어 엔티티 라벨링 네트워크에 입력하여 입력 텍스트중 각 스트링을 코어 엔티티로 하는 확률을 예측하고, 입력 텍스트 중 각 스트링을 코어 엔티티로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 시작 위치 및 종료 위치를 각각 라벨링한다.
일부 실시예에 있어서, 상기 제2 라벨링 유닛(505)은 하기의 방식으로 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 바, 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 코어 엔티티의 포커스 선험 특징을 획득하고, 입력 텍스트의 어텐션 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 서브 시퀀스에 기반하여 입력 텍스트의 제1 포커스 특징을 생성하고, 입력 텍스트의 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측한다.
일부 실시예에 있어서, 상기 제2 라벨링 유닛(505)은 또한 하기의 방식으로 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 바, 입력 텍스트의 제1 포커스 특징을 포커스 라벨링 네트워크에 입력하여 입력 텍스트 중 각 스트링을 코어 엔티티의 포커스로 하는 확률을 예측하고, 입력 텍스트에서 각 스트링을 코어 엔티티의 포커스로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 포커스의 시작 위치 및 종료 위치를 각각 라벨링한다.
일부 실시예에 있어서, 상기 입력 텍스트는 코어 엔티티 및 대응되는 포커스의 라벨링 정보를 포함하고, 상기 장치(500)는 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 따라, 입력 텍스트의 코어 엔티티와 대응되는 포커스의 위치의 예측 오차를 확정하고, 역전파법을 사용하여 코어 엔티티 포커스를 라벨링하기 위한 모델 중의 파라미터를 반복 조절하여, 트레이닝 완료된 코어 엔티티 포커스를 라벨링하기 위한 모델을 획득하도록 구성되는 반복 조절 유닛을 더 포함하고, 여기서, 코어 엔티티 포커스를 라벨링하기 위한 모델은 텍스트 코딩 네트워크, 코어 엔티티 라벨링 네트워크 및 포커스 라벨링 네트워크를 포함한다.
일부 실시예에 있어서, 상기 장치는 입력 텍스트 중의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 기반하여 코어 엔티티와 대응되는 포커스의 상대 위치 특징을 추출하고 코딩하여 상대 위치 특징 시퀀스를 획득하도록 구성되는 제3 추출 유닛을 더 포함하고; 상기 제2 라벨링 유닛(505)은 또한 하기의 방식으로 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 바, 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 코어 엔티티의 포커스 선험 특징을 획득하고; 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 대해 코딩한 결과를 상대 위치 특징 시퀀스와 스플라이싱하여 입력 텍스트 중의 코어 엔티티의 코딩 시퀀스를 획득하며, 입력 텍스트의 어텐션 코딩 시퀀스, 코어 엔티티의 포커스 선험 특징, 및 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스에 기반하여 입력 텍스트의 제2 포커스 특징을 생성하고, 입력 텍스트의 제2 포커스 특징을 포커스 라벨링 네트워크에 입력하여, 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측한다.
상기 장치(500) 중의 유닛은 도 2 및 도 3에 기술된 방법 중의 단계와 대응된다. 이로써, 상기 내용은 텍스트의 엔티티 포커스의 마이닝 방법에 기술된 동작, 특징 및 달성되는 기술 효과에 한하여 마찬가지로 장치(500) 및 이에 포함되는 유닛에 적용되기에, 여기서 서술하지 않는다.
아래 도 6을 참조하면 본 발명의 실시예에 따른 전자 기기(예를 들면 도 1의 서버)(600)를 구현할 수 있는 구조 모식도이다. 도 6에 도시된 전자 기기는 하나의 예시일 뿐, 본 발명의 실시예의 기능 또는 사용범위에 대한 어떠한 한정도 아니다.
도 6에 도시된 바와 같이, 전자 기기(600)는 판독 전용 메모리(ROM)(602)에 저장된 프로그램 또는 저장 장치(608)로부터 랜덤 액세스 메모리(RAM)(603)로 로딩된 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예를 들면 중앙 처리 장치, 그래픽 처리 장치 등)(601)를 포함한다. RAM(603)에는 또한 전자 기기(600)의 조작에 필요한 다양한 프로그램 및 데이터가 저장된다. 처리 장치(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(605) 역시 버스(604)에 연결된다.
일반적으로, 예를 들어 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 마이크, 가속도계, 자이로스코프 등을 포함하는 입력 장치(606); 예를 들어 액정 디스플레이(LCD), 스피커, 진동기 등을 포함하는 출력 장치(607); 예를 들어 자기 테이프, 하드 드라이버 등을 포함하는 저장 장치(608); 및 통신 장치(609)는 I/O 인터페이스(605)에 연결될 수 있다. 통신 장치(609)는 전자 기기(600)가 무선 또는 유선으로 다른 기기와 통신하여 데이터를 교환하도록 허용할 수 있다. 비록 도 6에서 다양한 장치를 갖는 전자 기기(600)를 나타냈지만, 모든 도시된 장치를 실시하거나 구비할 필요는 없음을 이해해야 한다. 보다 많거나 보다 적은 장치를 대체적으로 실시하거나 구비할 수 있다. 도 6에 도시된 각각의 블록은 하나의 장치를 대표할 수도 있고 수요에 따라 복수의 장치를 대표할 수도 있다.
특히, 본 발명의 실시예에 따르면, 앞에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로서 구현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 판독 가능 매체에 베어링된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이런 실시예에서, 상기 컴퓨터 프로그램은 통신 장치(609)를 통해 네트워크로부터 다운로드 및 설치될 수 있거나 및/또는 저장 장치(608), 또는 ROM(602)로부터 설치될 수 있다. 상기 컴퓨터 프로그램이 처리 장치(601)에 의해 실행될 때, 본 발명의 방법에 한정된 상기 기능들이 수행된다. 본 발명에 기재된 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 매체 또는 이 양자의 임의의 조합 일 수 있음에 유의해야 한다. 컴퓨터 판독 가능 매체는 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합일 수 있지만, 이에 한정되지 않는다. 컴퓨터 판독 가능 매체의 보다 구체적인 예는 하나 또는 복수의 도선에 의해 전기적으로 연결되는, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함 할 수 있지만, 이에 한정되지 않는다. 본 발명에서, 컴퓨터 판독 가능 저장 매체는 명령 실행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 타입의 매체일 수 있다. 본 발명에서, 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드를 베어링하는 베이스 밴드 또는 캐리어의 일부로 전파되는 데이터 신호를 포함 할 수 있다. 이러한 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 다양한 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 전송, 전파 또는 전송할 수 있는 컴퓨터 판독 가능 매체 이외의 임의의 컴퓨터 판독 가능 매체일 수 있다. 컴퓨터 판독 가능 매체에 포함된 프로그램 코드는 무선, 유선, 광섬유 케이블, RF 등, 또는 상기의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 임의의 적절한 매체에 의해 전송 될 수 있다.
상기 컴퓨터 판독 가능한 매체는 상기 전자 기기에 포함될수 있거나 상기 전자 기기에 조립되지 않고 별도로 존재할 수 있다. 상기 컴퓨터 판독 가능한 매체에는 하나 또는 복수의 프로그램이 베어링되어, 상기 하나 또는 복수의 프로그램이 상기 전자 기기에 의해 실행될 경우, 상기 전자 기기: 입력 텍스트에 대해 용어 특징을 추출하고; 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하며; 코어 엔티티 라벨링 네트워크를 이용하여 입력 텍스트의 코딩 시퀀스를 처리하여, 입력 텍스트 중의 코어 엔티티의 위치를 예측하고; 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 입력 텍스트의 코딩 시퀀스에서 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하며; 입력 텍스트의 코딩 시퀀스 및 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 한다.
본 발명의 실시예의 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 하나 이상의 프로그래밍 언어, 또는 그들의 조합으로 작성 될 수 있다. 상기 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우 원격 컴퓨터는 LAN 또는 WAN을 포함한 모든 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결)
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 지정된 논리적 기능을 구현하기 위한 하나 또는 하나 이상의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 표기된 기능은 또한 도면에 도시된 것과 다른 순서로 구현될 수 있음에 유의해야 한다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 병렬 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합하여 구현할 수도 있음에 유의해야 한다.
본 발명의 실시예들에 설명된 유닛들은 소프트웨어 또는 하드웨어에 의해 구현될 수 있다. 설명된 유닛은 또한 프로세서, 예를 들어 제1 추출 유닛, 코딩 유닛, 제1 라벨링 유닛, 제2 추출 유닛 및 제2 라벨링 유닛을 포함하는 프로세서에 설치될 수도 있다. 여기서 이들 유닛의 명칭은 경우에 따라서는 상기 유닛 자체로 한정되지 않으며, 예를 들어, 제1 추출 유닛은 “입력 텍스트에 대해 용어 특징을 추출하는 유닛”으로 기술될 수도 있다.
상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명에 언급된 본 발명의 범위는 상기 기술적 특징의 특정 조합에 따른 기술적 해결수단에 한정되지 않으며, 동시에 본 발명의 사상을 벗어나지 않으면서 상기 기술적 특징 또는 그 등가 특징에 대해 임의로 조합하여 형성된 다른 기술적 해결수단, 예를 들어, 상기 특징과 본 발명에 공개된(단 이에 한정되지 않음) 유사한 기능을 구비하는 기술적 특징을 서로 교체하여 형성된 기술적 해결수단을 포함함을 이해하여야 한다.

Claims (18)

  1. 텍스트의 엔티티 포커스의 마이닝 장치의 동작 방법으로서,
    제1 추출 유닛이 입력 텍스트에 대해 용어 특징을 추출하는 단계;
    코딩 유닛이 추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하는 단계;
    제1 라벨링 유닛이 코어 엔티티 라벨링 네트워크를 이용하여 상기 입력 텍스트의 코딩 시퀀스를 처리하여, 상기 입력 텍스트 중의 코어 엔티티의 위치를 예측하는 단계;
    제2 추출 유닛이 상기 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 상기 입력 텍스트의 코딩 시퀀스에서 상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하는 단계; 및
    제2 라벨링 유닛이 상기 입력 텍스트의 코딩 시퀀스 및 상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 상기 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계를 포함하고,
    상기 제2 라벨링 유닛이 입력 텍스트의 코딩 시퀀스 및 상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 상기 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계는,
    상기 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 상기 코어 엔티티의 포커스 선험 특징을 획득하는 단계;
    상기 입력 텍스트의 코딩 시퀀스, 상기 코어 엔티티의 포커스 선험 특징, 및 상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여 상기 입력 텍스트의 제1 포커스 특징을 생성하고, 상기 입력 텍스트의 제1 포커스 특징을 상기 포커스 라벨링 네트워크에 입력하여, 상기 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계를 포함하는 텍스트의 엔티티 포커스의 마이닝 방법.
  2. 제1항에 있어서,
    상기 제1 추출 유닛이 입력 텍스트에 대해 용어 특징을 추출하는 단계는,
    상기 입력 텍스트에 대응되는 글자 시퀀스에 대해 용어 혼합 임베딩을 진행하여, 대응되는 글자 특징 벡터를 획득하는 단계;
    상기 입력 텍스트에 대응되는 글자 시퀀스 중의 각 문자에 대해 위치 임베딩을 진행하여, 대응되는 위치 특징 벡터를 획득하는 단계;
    상기 입력 텍스트를 개체명 인식하고, 개체명 인식의 결과에 따라, 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하는 단계; 및
    상기 입력 텍스트에 대응되는 글자 특징 벡터, 위치 특징 벡터 및 개체명 타입 특징 벡터를 스플라이싱하여 상기 입력 텍스트의 용어 특징 벡터를 형성하는 단계를 포함하는 텍스트의 엔티티 포커스의 마이닝 방법.
  3. 제2항에 있어서,
    상기 개체명 인식의 결과에 따라, 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하는 단계는,
    상기 입력 텍스트 중의 타깃 단어의 개체명의 타입이 인식되지 않은 것에 응답하여, 상기 타깃 단어에 대해 품사 라벨링을 진행하고, 상기 입력 텍스트에서 인식된 개체명의 타입 및 상기 타깃 단어의 품사 라벨링 결과에 기반하여 상기 개체명 타입 특징 벡터를 생성하는 단계를 포함하는 텍스트의 엔티티 포커스의 마이닝 방법.
  4. 제1항에 있어서,
    상기 제1 라벨링 유닛이 코어 엔티티 라벨링 네트워크를 이용하여 상기 입력 텍스트의 코딩 시퀀스를 처리하여, 상기 입력 텍스트 중의 코어 엔티티의 위치를 예측하는 단계는,
    상기 입력 텍스트의 코딩 시퀀스를 상기 코어 엔티티 라벨링 네트워크에 입력하여 상기 입력 텍스트중 각 스트링을 코어 엔티티로 하는 확률을 예측하고, 상기 입력 텍스트 중 각 스트링을 코어 엔티티로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 시작 위치 및 종료 위치를 각각 라벨링하는 단계를 포함하는 텍스트의 엔티티 포커스의 마이닝 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 입력 텍스트의 제1 포커스 특징을 상기 포커스 라벨링 네트워크에 입력하여, 상기 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계는,
    상기 입력 텍스트의 제1 포커스 특징을 상기 포커스 라벨링 네트워크에 입력하여 상기 입력 텍스트 중 각 스트링을 코어 엔티티의 포커스로 하는 확률을 예측하고, 상기 입력 텍스트에서 각 스트링을 코어 엔티티의 포커스로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 포커스의 시작 위치 및 종료 위치를 각각 라벨링하는 단계를 포함하는 텍스트의 엔티티 포커스의 마이닝 방법.
  7. 제1항 내지 4항 및 6항 중 어느 한 항에 있어서,
    상기 입력 텍스트는 코어 엔티티 및 대응되는 포커스의 라벨링 정보를 포함하고;
    상기 방법은,
    반복 조절 유닛이 상기 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 따라, 상기 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 위치의 예측 오차를 확정하고, 역전파법을 사용하여 코어 엔티티 포커스를 라벨링하기 위한 모델 중의 파라미터를 반복 조절하여, 트레이닝 완료된 코어 엔티티 포커스를 라벨링하기 위한 모델을 획득하는 단계를 더 포함하고, 상기 코어 엔티티 포커스를 라벨링하기 위한 모델은 상기 텍스트 코딩 네트워크, 상기 코어 엔티티 라벨링 네트워크 및 상기 포커스 라벨링 네트워크를 포함하는 텍스트의 엔티티 포커스의 마이닝 방법.
  8. 제7항에 있어서,
    상기 방법은,
    제3 추출 유닛이 상기 입력 텍스트 중의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 기반하여 코어 엔티티와 대응되는 포커스의 상대 위치 특징을 추출하고 코딩하여 상대 위치 특징 시퀀스를 획득하는 단계를 더 포함하고;
    상기 제2 라벨링 유닛이 입력 텍스트의 코딩 시퀀스 및 상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 상기 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계는,
    상기 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 상기 코어 엔티티의 포커스 선험 특징을 획득하는 단계;
    상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 대해 코딩한 결과를 상기 상대 위치 특징 시퀀스와 스플라이싱하여 상기 입력 텍스트 중의 코어 엔티티의 코딩 시퀀스를 획득하는 단계; 및
    상기 입력 텍스트의 코딩 시퀀스, 상기 코어 엔티티의 포커스 선험 특징, 및 상기 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스에 기반하여 상기 입력 텍스트의 제2 포커스 특징을 생성하고, 상기 입력 텍스트의 제2 포커스 특징을 상기 포커스 라벨링 네트워크에 입력하여, 상기 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하는 단계를 포함하는 텍스트의 엔티티 포커스의 마이닝 방법.
  9. 텍스트의 엔티티 포커스의 마이닝 장치로서,
    입력 텍스트에 대해 용어 특징을 추출하도록 구성되는 제1 추출 유닛;
    추출된 용어 특징을 텍스트 코딩 네트워크에 입력하여 코딩함으로써, 입력 텍스트의 코딩 시퀀스를 획득하도록 구성되는 코딩 유닛;
    코어 엔티티 라벨링 네트워크를 이용하여 상기 입력 텍스트의 코딩 시퀀스를 처리하여, 상기 입력 텍스트 중의 코어 엔티티의 위치를 예측하도록 구성되는 제1 라벨링 유닛;
    상기 입력 텍스트 중의 코어 엔티티의 위치에 기반하여, 상기 입력 텍스트의 코딩 시퀀스에서 상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스를 추출하도록 구성되는 제2 추출 유닛; 및
    상기 입력 텍스트의 코딩 시퀀스 및 상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여, 포커스 라벨링 네트워크를 이용하여 상기 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 제2 라벨링 유닛을 포함하고,
    상기 제2 라벨링 유닛은,
    상기 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 상기 코어 엔티티의 포커스 선험 특징을 획득하고;
    상기 입력 텍스트의 코딩 시퀀스, 상기 코어 엔티티의 포커스 선험 특징, 및 상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 기반하여 상기 입력 텍스트의 제1 포커스 특징을 생성하고, 상기 입력 텍스트의 제1 포커스 특징을 상기 포커스 라벨링 네트워크에 입력하여, 상기 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측함으로써,
    상기 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는,
    텍스트의 엔티티 포커스의 마이닝 장치.
  10. 제9항에 있어서,
    상기 제1 추출 유닛은,
    상기 입력 텍스트에 대응되는 글자 시퀀스에 대해 용어 혼합 임베딩을 진행하여, 대응되는 글자 특징 벡터를 획득하고;
    상기 입력 텍스트에 대응되는 글자 시퀀스 중의 각 문자에 대해 위치 임베딩을 진행하여, 대응되는 위치 특징 벡터를 획득하며;
    상기 입력 텍스트를 개체명 인식하고, 개체명 인식의 결과에 따라, 개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하고;
    상기 입력 텍스트에 대응되는 글자 특징 벡터, 위치 특징 벡터 및 개체명 타입 특징 벡터를 스플라이싱하여 상기 입력 텍스트의 용어 특징 벡터를 형성함으로써,
    입력 텍스트에 대해 용어 특징을 추출하도록 구성되는 텍스트의 엔티티 포커스의 마이닝 장치.
  11. 제10항에 있어서,
    상기 제1 추출 유닛은,
    상기 입력 텍스트 중의 타깃 단어의 개체명의 타입이 인식되지 않은 것에 응답하여, 상기 타깃 단어에 대해 품사 라벨링을 진행하고, 상기 입력 텍스트에서 인식된 개체명의 타입 및 상기 타깃 단어의 품사 라벨링 결과에 기반하여 개체명 타입 특징 벡터를 생성함으로써,
    개체명의 타입을 나타내는 개체명 타입 특징 벡터를 생성하도록 구성되는 텍스트의 엔티티 포커스의 마이닝 장치.
  12. 제9항에 있어서,
    상기 제1 라벨링 유닛은,
    상기 입력 텍스트의 코딩 시퀀스를 상기 코어 엔티티 라벨링 네트워크에 입력하여 상기 입력 텍스트중 각 스트링을 코어 엔티티로 하는 확률을 예측하고, 상기 입력 텍스트 중 각 스트링을 코어 엔티티로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 시작 위치 및 종료 위치를 각각 라벨링함으로써,
    상기 입력 텍스트 중의 코어 엔티티의 위치를 예측하도록 구성되는 텍스트의 엔티티 포커스의 마이닝 장치.
  13. 삭제
  14. 제9항에 있어서,
    상기 제2 라벨링 유닛은,
    상기 입력 텍스트의 제1 포커스 특징을 상기 포커스 라벨링 네트워크에 입력하여 상기 입력 텍스트 중 각 스트링을 코어 엔티티의 포커스로 하는 확률을 예측하고, 상기 입력 텍스트에서 각 스트링을 코어 엔티티의 포커스로 하는 확률에 따라, 더블 포인터를 사용하여 코어 엔티티의 포커스의 시작 위치 및 종료 위치를 각각 라벨링함으로써,
    상기 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 텍스트의 엔티티 포커스의 마이닝 장치.
  15. 제9항 내지 제 12항 및 제14항 중 어느 한 항에 있어서,
    상기 입력 텍스트는 코어 엔티티 및 대응되는 포커스의 라벨링 정보를 포함하고;
    상기 장치는,
    상기 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 따라, 상기 입력 텍스트의 코어 엔티티 및 대응되는 포커스의 위치의 예측 오차를 확정하고, 역전파법을 사용하여 코어 엔티티 포커스를 라벨링하기 위한 모델 중의 파라미터를 반복 조절하여, 트레이닝 완료된 코어 엔티티 포커스를 라벨링하기 위한 모델을 획득하도록 구성되는 반복 조절 유닛을 더 포함하며, 상기 코어 엔티티 포커스를 라벨링하기 위한 모델은 상기 텍스트 코딩 네트워크, 상기 코어 엔티티 라벨링 네트워크 및 상기 포커스 라벨링 네트워크를 포함하는 텍스트의 엔티티 포커스의 마이닝 장치.
  16. 제15항에 있어서,
    상기 장치는,
    상기 입력 텍스트 중의 코어 엔티티 및 대응되는 포커스의 라벨링 정보에 기반하여 코어 엔티티와 대응되는 포커스의 상대 위치 특징을 추출하고 코딩하여 상대 위치 특징 시퀀스를 획득하도록 구성되는 제3 추출 유닛을 더 포함하고;
    상기 제2 라벨링 유닛은,
    상기 코어 엔티티의 포커스 지식 베이스에 기반하여 구축된 상기 코어 엔티티의 포커스 선험 특징을 획득하고;
    상기 입력 텍스트 중의 코어 엔티티에 대응되는 서브 시퀀스에 대해 코딩한 결과를 상기 상대 위치 특징 시퀀스와 스플라이싱하여 상기 입력 텍스트 중의 코어 엔티티의 코딩 시퀀스를 획득하며;
    상기 입력 텍스트의 코딩 시퀀스, 상기 코어 엔티티의 포커스 선험 특징, 및 상기 입력 텍스트 중의 코어 엔티티에 대응되는 코딩 시퀀스에 기반하여 상기 입력 텍스트의 제2 포커스 특징을 생성하고, 상기 입력 텍스트의 제2 포커스 특징을 상기 포커스 라벨링 네트워크에 입력하여, 상기 코어 엔티티 라벨링 네트워크에 의해 예측된 코어 엔티티에 대응되는 포커스의 위치를 예측함으로써,
    상기 입력 텍스트 중의 코어 엔티티에 대응되는 포커스의 위치를 예측하도록 구성되는 텍스트의 엔티티 포커스의 마이닝 장치.
  17. 전자 기기로서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함하고,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행되어, 상기 하나 또는 복수의 프로세서가 제1항 내지 제4항 및 제6항 중 어느 한 항에 따른 방법을 구현하도록 하는 전자 기기.
  18. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 매체로서,
    상기 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제4항 및 제6항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 판독 가능한 매체.
KR1020210005121A 2020-01-15 2021-01-14 텍스트의 엔티티 포커스의 마이닝 방법 및 장치 KR102554121B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010042233.3 2020-01-15
CN202010042233.3A CN111274815B (zh) 2020-01-15 2020-01-15 用于挖掘文本中的实体关注点的方法和装置

Publications (2)

Publication Number Publication Date
KR20210092147A KR20210092147A (ko) 2021-07-23
KR102554121B1 true KR102554121B1 (ko) 2023-07-10

Family

ID=71002187

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210005121A KR102554121B1 (ko) 2020-01-15 2021-01-14 텍스트의 엔티티 포커스의 마이닝 방법 및 장치

Country Status (5)

Country Link
US (1) US11775761B2 (ko)
EP (1) EP3852002A1 (ko)
JP (1) JP7112536B2 (ko)
KR (1) KR102554121B1 (ko)
CN (1) CN111274815B (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090987B (zh) * 2019-12-27 2021-02-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111460083B (zh) * 2020-03-31 2023-07-25 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN111813828B (zh) * 2020-06-30 2024-02-27 北京百度网讯科技有限公司 一种实体关系挖掘方法、装置、电子设备及存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN112069821A (zh) * 2020-09-10 2020-12-11 北京明略昭辉科技有限公司 一种命名实体的提取方法、装置、电子设备及存储介质
CN112487812B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN114548102A (zh) * 2020-11-25 2022-05-27 株式会社理光 实体文本的序列标注方法、装置及计算机可读存储介质
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112836052B (zh) * 2021-02-19 2023-04-07 中国第一汽车股份有限公司 一种汽车评论文本观点挖掘方法、设备及存储介质
CN113051926B (zh) * 2021-03-01 2023-06-23 北京百度网讯科技有限公司 文本抽取方法、设备和存储介质
CN116089602B (zh) * 2021-11-04 2024-05-03 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质和程序产品
CN114595686B (zh) * 2022-03-11 2023-02-03 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
US11615247B1 (en) * 2022-04-24 2023-03-28 Zhejiang Lab Labeling method and apparatus for named entity recognition of legal instrument
CN116629387B (zh) * 2023-07-24 2023-10-27 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统
CN117251650B (zh) * 2023-11-20 2024-02-06 之江实验室 地理热点中心识别方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377748A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 实体关注点挖掘方法、装置、计算机设备及存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478420B2 (en) * 2006-07-12 2013-07-02 Cyberonics, Inc. Implantable medical device charge balance assessment
KR101009924B1 (ko) 2010-06-25 2011-01-20 한국과학기술정보연구원 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 개체명 사전 또는 마이닝 규칙 데이터베이스 갱신 장치 및 방법
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
US10963782B2 (en) * 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
CN106570179B (zh) * 2016-11-10 2019-11-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN106776555B (zh) * 2016-12-09 2019-11-15 中国科学院信息工程研究所 一种基于字模型的评论文本实体识别方法及装置
US10467510B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
CN108334490B (zh) * 2017-04-07 2021-05-07 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN109388793B (zh) * 2017-08-03 2023-04-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
JP6961725B2 (ja) * 2017-10-16 2021-11-05 イルミナ インコーポレイテッド 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習
KR102017227B1 (ko) * 2017-11-02 2019-09-02 서강대학교산학협력단 과학문서의 핵심어구 추출방법 및 장치
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置
KR102075505B1 (ko) * 2018-03-29 2020-02-10 네이버 주식회사 핵심 키워드 추출 방법 및 시스템
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109299457B (zh) * 2018-09-06 2023-04-28 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
US20200104726A1 (en) * 2018-09-29 2020-04-02 VII Philip Alvelda Machine learning data representations, architectures, and systems that intrinsically encode and represent benefit, harm, and emotion to optimize learning
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN110162749B (zh) * 2018-10-22 2023-07-21 哈尔滨工业大学(深圳) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN109582975B (zh) * 2019-01-31 2023-05-23 北京嘉和海森健康科技有限公司 一种命名实体的识别方法及装置
CN110008469B (zh) * 2019-03-19 2022-06-07 桂林电子科技大学 一种多层次命名实体识别方法
CN109933801B (zh) * 2019-03-25 2022-03-29 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN109918510B (zh) * 2019-03-26 2022-10-28 中国科学技术大学 跨领域关键词提取方法
CN110046350B (zh) * 2019-04-12 2023-04-07 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质
CN110110330B (zh) * 2019-04-30 2023-08-11 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110263323B (zh) * 2019-05-08 2020-08-28 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110210038B (zh) * 2019-06-13 2023-01-10 北京百度网讯科技有限公司 核心实体确定方法及其系统、服务器和计算机可读介质
CN110263174B (zh) * 2019-06-27 2020-10-23 成都冰鉴信息科技有限公司 —基于焦点关注的主题类别分析方法
CN110399616A (zh) * 2019-07-31 2019-11-01 国信优易数据有限公司 命名实体检测方法、装置、电子设备及可读存储介质
CN110472242A (zh) * 2019-08-05 2019-11-19 腾讯科技(深圳)有限公司 一种文本处理方法、装置和计算机可读存储介质
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377748A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 实体关注点挖掘方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Simone Magnolini 외 4명, 'How to Use Gazetteers for Entity Recognition with Neural Models', Proceedings of the 5th Workshop on Semantic Deep Learning, 2019.08., pp.40-49. 1부.*

Also Published As

Publication number Publication date
US11775761B2 (en) 2023-10-03
CN111274815A (zh) 2020-06-12
KR20210092147A (ko) 2021-07-23
JP7112536B2 (ja) 2022-08-03
US20210216715A1 (en) 2021-07-15
JP2021111413A (ja) 2021-08-02
EP3852002A1 (en) 2021-07-21
CN111274815B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
KR102554121B1 (ko) 텍스트의 엔티티 포커스의 마이닝 방법 및 장치
KR102401942B1 (ko) 번역품질 평가 방법 및 장치
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN107491534B (zh) 信息处理方法和装置
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111382228B (zh) 用于输出信息的方法和装置
CN111563390B (zh) 文本生成方法、装置和电子设备
WO2020182123A1 (zh) 用于推送语句的方法和装置
CN114385780B (zh) 程序接口信息推荐方法、装置、电子设备和可读介质
CN111340220A (zh) 用于训练预测模型的方法和装置
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN111104796B (zh) 用于翻译的方法和装置
CN115640815A (zh) 翻译方法、装置、可读介质及电子设备
CN113408507B (zh) 基于履历文件的命名实体识别方法、装置和电子设备
CN113627197B (zh) 文本的意图识别方法、装置、设备及存储介质
CN112651231B (zh) 口语信息处理方法、装置和电子设备
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN111459959B (zh) 用于更新事件集合的方法和装置
CN113221514A (zh) 文本处理方法、装置、电子设备和存储介质
CN112328751A (zh) 用于处理文本的方法和装置
KR20210084641A (ko) 정보를 송신하는 방법 및 장치
CN110442767A (zh) 一种确定内容互动平台标签的方法、装置及可读存储介质
CN117131152B (zh) 信息存储方法、装置、电子设备和计算机可读介质
CN111562864B (zh) 显示图片方法、电子设备和计算机可读介质
CN113032527B (zh) 用于问答系统的信息生成方法、装置、终端设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant