KR20210154705A - 시맨틱 매칭 방법, 장치, 기기 및 저장 매체 - Google Patents

시맨틱 매칭 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210154705A
KR20210154705A KR1020200173524A KR20200173524A KR20210154705A KR 20210154705 A KR20210154705 A KR 20210154705A KR 1020200173524 A KR1020200173524 A KR 1020200173524A KR 20200173524 A KR20200173524 A KR 20200173524A KR 20210154705 A KR20210154705 A KR 20210154705A
Authority
KR
South Korea
Prior art keywords
text
vector
determining
semantic matching
target
Prior art date
Application number
KR1020200173524A
Other languages
English (en)
Inventor
홍지안 시
웬빈 장
신웨이 펑
먀오 위
환위 저우
멍 티안
수에치안 우
순차오 송
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210154705A publication Critical patent/KR20210154705A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 지식 그래프, 자연어 처리, 심층학습 기술 분야에 관한 것으로, 시맨틱 매칭 방법, 장치, 기기 및 저장 매체를 개시한다. 구체적인 구현방안으로, 제1 텍스트 및 제2 텍스트를 획득하고, 제1 텍스트 및 제2 텍스트에 관련되는 언어 지식을 획득하고, 제1 텍스트, 제2 텍스트 및 언어 지식에 따라 대상 임베딩 벡터를 결정하고, 대상 임베딩 벡터에 기반하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정한다. 본 구현방식은 외부 언어 지식을 이용하여 텍스트 시맨틱 매칭 과정에서 정보량을 증가시킬 수 있으므로, 텍스트의 의미(시맨틱)을 정확하게 특성화할 수 있고 시맨틱 매칭의 정확률을 향상시킬 수 있다.

Description

시맨틱 매칭 방법, 장치, 기기 및 저장 매체{METHOD, APPARATUS, DEVICE AND STORAGE MEDIUM FOR MATCHING SEMANTICS}
본 출원은 컴퓨터 기술분야에 관한 것으로, 구체적으로 지식 그래프, 자연어 처리, 심층학습 기술분야에 관한 것이고, 특히 시맨틱 매칭 방법, 장치, 기기 및 저장 매체에 관한 것이다.
시맨틱(어의) 매칭 기술은 자연어 처리 분야의 중요한 기술 방향으로, 업무에도 광범위하게 응용되고 있고 응용의 초석 역할을 하고 있다. 시맨틱 매칭 기술은 간단히 말하면 2개의 문자열을 어의 이해를 거쳐, 그 어의에 따라 유사도 매칭을 수행하는 기술이다. 시맨틱 매칭 기술은 자연어 처리 분야에서 줄곧 상당히 중요한 위치를 차지할 뿐만 아니라, 랭킹, 추천 및 질문-응답 등 다양한 업무 분야에 광범위하게 응용되는 바, 연구 및 업무에 있어서 없어서는 안되는 부분이다.
시맨틱 매칭 기술은 통상적으로 시맨틱 매칭 모델을 적용하여 구현한다. 시맨틱 매칭 모델을 구축하는 목적은 간단히 말해 2개의 텍스트 사이의 어의 유사도를 특성화하고 시맨틱 유사도에 따라 2개의 문자열이 매칭되는지 여부를 판단하기 위한 것이다. 시맨틱 매칭 모델의 핵심 단계는 텍스트의 시맨틱 특성화에 있으나, 당해 과정은 늘, 텍스트에 포함되는 정보에만 의해 텍스트에 포함되는 어의를 정확하게 특성화할 수 없어 시맨틱 매칭이 정확하지 않는 문제를 봉착하고 있다.
시맨틱 매칭 방법, 장치, 기기 및 저장 매체를 제공한다.
첫 번째 측면에 따르면, 시맨틱 매칭 방법이 제공되는 바, 제1 텍스트 및 제2 텍스트를 획득하는 단계; 제1 텍스트 및 제2 텍스트에 관련되는 언어 지식을 획득하는 단계; 제1 텍스트, 제2 텍스트 및 언어 지식에 따라 대상 임베딩 벡터를 결정하는 단계; 및 대상 임베딩 벡터에 기반하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정하는 단계를 포함한다.
두 번째 측면에 따르면, 시맨틱 매칭 장치가 제공되는 바, 제1 텍스트 및 제2 텍스트를 획득하도록 구성되는 제1 획득 유닛; 제1 텍스트 및 제2 텍스트에 관련되는 언어 지식을 획득하도록 구성되는 제2 획득 유닛; 제1 텍스트, 제2 텍스트 및 언어 지식에 따라 대상 임베딩 벡터를 결정하도록 구성되는 벡터 결정 유닛; 및 대상 임베딩 벡터에 기반하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정하도록 구성되는 시맨틱 매칭 유닛을 포함한다.
세 번째 측면에 따르면, 시맨틱 매칭을 위한 전자 기기가 제공되는 바, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신적으로 연결되는 메모리를 포함하고, 여기서, 메모리에는 적어도 하나의 프로세서에 의해 실행가능한 명령어가 저장되어 있고, 상기 명령어는 적어도 하나의 프로세서에 의해 실행됨으로써 적어도 하나의 프로세서가 첫 번째 측면에 따른 방법을 수행할 수 있도록 한다.
네 번째 측면에 따르면, 컴퓨터 명령어가 저장되어 있는 비일시적 컴퓨터 판독 가능한 저장 매체가 제공되는 바, 상술한 컴퓨터 명령어는 컴퓨터가 첫 번째 측면에 따른 방법을 수행하도록 한다.
본 출원에 따른 기술은 외부 언어 지식을 이용하여 텍스트 시맨틱 매칭 과정에서 정보량을 증가시킬 수 있으며, 따라서 텍스트의 시맨틱을 정확하게 특성화할 수 있고 시맨틱 매칭의 정확률을 향상시킬 수 있다.
상기 부분에서 설명하는 내용은 본 개시의 실시예의 핵심 또는 중요한 특징을 표식하고자 하는 것이 아니며 본 개시의 범위를 한정하고자 하는 것도 아님을 이해하여야 한다. 본 개시의 기타의 특징은 아래의 명세서를 통해 이해하기 용이해질 것이다.
첨부도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 제한하지 않는다. 여기서,
도 1은 본 출원의 일 실시예가 응용될 수 있는 예시적인 시스템 아키텍처도이다.
도 2는 본 출원에 따른 시맨틱 매칭 방법의 일 실시예의 흐름도이다.
도 3은 본 출원에 따른 시맨틱 매칭 방법의 일 응용 시나리오의 개략도이다.
도 4는 본 출원에 따른 시맨틱 매칭 방법의 다른 일 실시예의 흐름도이다.
도 5는 본 출원에 따른 시맨틱 매칭 장치의 일 실시예의 개략적인 구조도이다.
도 6은 본 출원의 실시예의 시맨틱 매칭 방법을 구현하기 위한 전자 기기의 블록도이다.
아래, 첨부한 도면을 참고하여 본 출원의 예시적인 실시예에 대해 설명하며, 상기 도면에는 본 출원의 실시예에 대한 이해를 위해 다양한 세부사항들이 포함되어 있으나, 이는 단지 예시적인 것으로만 이해하여야 한다. 따라서, 당업자라면 본 출원의 범위와 사상에 위배되지 않는 한, 여기서 설명하는 실시예에 대해 다양한 변경 및 수정이 가능하다는 것을 이해할 것이다. 또한, 명확하고 간단명료한 설명을 위해, 이하 설명에서는 공지된 기능과 구조에 대한 설명을 생략하기로 한다.
부연하면, 상충되지 않는 상황하에, 본 출원의 실시예 및 실시예에서의 특징은 서로 조합될 수 있다. 아래, 첨부도면을 참조하고 실시예를 결부하여 본 출원을 상세히 설명하고자 한다.
도 1은 본 출원의 시맨틱 매칭 방법 또는 시맨틱 매칭 장치의 실시예를 응용 가능한 예시적인 시스템 아키텍처(100)를 도시한다.
도 1에 도시한 바와 같이, 시스템 아키텍처(100)는 단말기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기(101, 102, 103)와 서버(105)사이에서 통신링크를 제공하는 매체이다. 네트워크(104)는 다양한 연결 유형, 예컨대 유선, 무선 통신링크 또는 광 케이블 등을 포함할 수 있다.
사용자는 단말기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션함으로써 메세지 등을 수신 또는 송신할 수 있다. 단말기(101, 102, 103)에는 다양한 메시징 클라이언트 애플리케이션, 예컨대 텍스트 입력 애플리케이션, 음성 인식 애플리케이션 등이 설치될 수 있다.
단말기(101, 102, 103)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 단말기(101, 102, 103)가 하드웨어인 경우, 다양한 전자 기기일 수 있는 바, 스마트폰, 태블릿 컴퓨터, 전자책 리더, 차량 탑재 컴퓨터, 랩톱 휴대형 컴퓨터 및 데스크톱 컴퓨터 등을 포함하나 이에 한정되지 않는다. 단말기(101, 102, 103)가 소프트웨어인 경우, 상기 나열한 전자 기기에 설치될 수 있다. 이는 복수의 소프트웨어 또는 소프트웨어 모듈(예컨대 분산 서비스를 제공함)로 구현될 수도 있고 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서 이에 대해 구체적으로 제한하지 않는다.
서버(105)는 다양한 서비스를 제공하는 서버, 예컨대 단말기(101, 102, 103)에서 송신되는 텍스트에 대해 시맨틱 매칭을 진행하는 백스테이지 서버일 수 있다. 백스테이지 서버는 수신되는 텍스트를 처리하고 시맨틱 매칭 결과를 결정하여 시맨틱 매칭 결과를 단말기(101, 102, 103)에 피드백할 수 있다.
부연하면, 서버(105)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 서버(105)가 하드웨어인 경우, 복수의 서버로 구성되는 분산식 서버 클러스터로 구현될 수도 있고 하나의 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈(예컨대 분산 서비스를 제공함)로 구현될 수도 있고 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서 이에 대해 구체적으로 제한하지 않는다.
부연하면, 본 출원의 실시예에 의해 제공되는 시맨틱 매칭 방법은 일반적으로 서버(105)에 의해 수행된다. 따라서, 시맨틱 매칭 장치는 일반적으로 서버(105)에 설치된다.
도 1에서의 단말기, 네트워크 및 서버의 수량은 단지 예시적인 것임을 이해하여야 한다. 구현의 필요에 따라, 임의 수량의 단말기, 네트워크 및 서버를 갖출 수 있다.
계속하여 도 2를 참조하면, 본 출원에 따른 시맨틱 매칭 방법의 일 실시예의 흐름(200)을 도시한다. 본 실시예의 시맨틱 매칭 방법은 하기의 단계들을 포함한다.
단계 201, 제1 텍스트 및 제2 텍스트를 획득한다.
본 실시예에서, 시맨틱 매칭 방법의 수행 주체(예컨대 도 1에 도시한 서버(105))는 우선 제1 텍스트와 제2 텍스트를 획득할 수 있다. 여기서, 제1 텍스트와 제2 텍스트는 매칭하고자 하는 텍스트이다. 예컨대 제1 텍스트는 "어디에서 발송되나요"일 수 있고 제2 텍스트는 "발송지가 어디인가요"일 수 있다.
단계 202, 제1 텍스트 및 제2 텍스트에 관련되는 언어 지식을 획득한다.
수행 주체는 제1 텍스트와 제2 텍스트를 획득한 후, 제1 텍스트 및 제2 텍스트에 관련되는 언어 지식을 획득할 수 있다. 구체적으로, 수행 주체는 지식 베이스에서의 모든 언어 지식을 관련되는 언어 지식으로 할 수 있다. 또는, 수행 주체는 제1 텍스트, 제2 텍스트를 포함하는 문서 또는 웹페이지를 검색하여 이러한 문서 또는 웹페이지를 관련되는 언어 지식으로 할 수 있다.
본 실시예의 일부 선택적인 구현방식에서, 수행 주체는 도 2에 도시하지 않은 단계인, 제1 텍스트 및 제2 텍스트 내의 엔티티 멘션을 결정하는 단계; 및 사전 설정된 지식 베이스 및 엔티티 멘션에 따라 언어 지식을 결정하는 단계를 통해 관련되는 언어 지식을 획득할 수 있다.
본 구현방식에서, 수행 주체는 우선 제1 텍스트 및 제2 텍스트 내의 엔티티 멘션을 결정할 수 있다. 예컨대 수행 주체는 타깃 텍스트를 분리(Segmentation) 처리하여 획득한 명사를 엔티티 멘션으로 할 수 있다. 또는, 수행 주체는 타깃 텍스트에 대해 개체명 인식(Named Entity Recognition)을 수행하여 획득한 이름을 가진 개체(named entity)를 엔티티 멘션으로 할 수 있다. 여기서, 엔티티 멘션은 엔티티의 텍스트 표현형식을 가리키는 바, 이름을 가진 개체, 일반 명사구, 대명사 등일 수 있다. 예컨대, 엔티티 "푸단대학"에 있어서, 그 엔티티 멘션은 "푸단대학", "푸단", "단대" 등을 포함할 수 있다.
그 다음, 수행 주체는 사전 설정된 지식 베이스 및 엔티티 멘션에 따라 언어 지식을 결정할 수 있다. 여기서 언어 지식은 엔티티 멘션의 설명 텍스트, 대응되는 후보 엔티티, 엔티티 멘션에 대응되는 후보 엔티티 등을 포함할 수 있다.
단계 203, 제1 텍스트, 제2 텍스트 및 언어 지식에 따라 대상 임베딩 벡터를 결정한다.
수행 주체는 제1 텍스트, 제2 텍스트 및 언어 지식에 따라 대상 임베딩 벡터를 결정할 수 있다. 구체적으로, 수행 주체는 제1 텍스트, 제2 텍스트 및 언어 지식을 사전 트레이닝된 임베딩 벡터 결정 모델에 입력하여 대상 임베딩 벡터(embedding)를 획득할 수 있다. 상술한 임베딩 벡터 결정 모델은 제1 텍스트, 제2 텍스트 및 언어 지식과 대상 임베딩 벡터 사이의 대응관계를 특징짓는다. 상술한 임베딩 벡터 결정 모델은 종래의 복수의 언어 모델, 예컨대 Bert(Bidirectional Encoder Representation from Transformers, 변환기의 양방향 인코더 표현), Ernie(Ernie는 바이두의 심층학습 프레임워크 패들을 기반으로 구축된 것임) 등일 수 있다.
상술한 대상 임베딩 벡터는 제1 텍스트와 제2 텍스트의 시맨틱 정보를 포함한다는 것을 이해할 수 있다.
단계 204, 대상 임베딩 벡터에 기반하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정한다.
수행 주체는 대상 임베딩 벡터를 획득한 후, 제1 텍스트와 제2 텍스트의 시맨틱 매칭 관계를 결정할 수 있다. 구체적으로, 수행 주체는 대상 임베딩 벡터를 사전 트레이닝된 분류 모델에 입력하여 대상 임베딩 벡터의 분류결과를 결정하여 분류결과에 따라 제1 텍스트와 제2 텍스트가 매칭되는지 여부를 결정할 수 있다.
계속하여 도 3을 참조하면, 이는 본 출원에 따른 시맨틱 매칭 방법의 일 응용 시나리오의 개략도를 도시한다. 도 3에 도시한 응용 시나리오에서, 사용자는 단말기(301)를 통해 제1 텍스트인 "발송지가 어디인가요"를 입력한다. 서버(302)는 상술한 제1 텍스트를 수신한 후, 질문-응답 쌍 집합으로부터 복수의 제2 텍스트를 선택하고, 그 다음 제1 텍스트가 각 제2 텍스트에 매칭되는지 여부를 각각 분석한다. 제1 텍스트에 매칭되는 제2 텍스트(어디에서 발송되나요)가 결정된 후, 제2 텍스트에 대응되는 답(XX시 XX구 XX로 XX호)을 단말기(301)로 반송한다.
본 출원의 상술한 실시예에 의해 제공되는 시맨틱 매칭 방법은, 외부 언어 지식을 이용하여 텍스트 시맨틱 매칭 과정에서 정보량을 증가시킬 수 있으며, 따라서 텍스트의 시맨틱을 정확하게 특성화할 수 있고 시맨틱 매칭의 정확률을 향상시킬 수 있다.
계속하여 도 4를 참조하면, 이는 본 출원에 따른 시맨틱 매칭 방법의 다른 일 실시예의 흐름400을 도시한다. 본 실시예에서, 시맨틱 매칭 방법은 하기 단계들을 포함할 수 있다.
단계 401, 제1 텍스트 및 제2 텍스트를 획득한다.
단계 402, 제1 텍스트 및 제2 텍스트에 관련되는 언어 지식을 획득한다.
단계 403, 언어 지식에 따라 제1 텍스트, 제2 텍스트의 시맨틱 정보를 추출하고 시맨틱 정보에 따라 대상 임베딩 벡터를 결정한다.
본 실시예에서는, 우선 언어 지식에 따라 제1 텍스트, 제2 텍스트의 시맨틱 정보를 각각 추출할 수 있다. 여기서, 시맨틱 정보는 제1 텍스트와 제2 텍스트 내의 중요 정보를 포함할 수 있고 제1 텍스트 및 제2 텍스트와 외부 언어 지식 사이의 관련정보를 더 포함할 수 있다. 여기서, 중요 정보는 불용어, 문장부호, 이모티콘 등을 제외한 정보로 이해할 수 있다. 그 다음, 수행 주체는 시맨틱 정보에 따라 대상 임베딩 벡터를 결정할 수 있다. 구체적으로, 수행 주체는 시맨틱 정보를 다양한 벡터 생성 알고리즘에 입력하여 대상 임베딩 벡터를 획득할 수 있다. 상술한 벡터 생성 알고리즘은 언어 모델, 신경망 등을 포함할 수 있다.
일부 응용 시나리오에서, 마스크를 통해 시맨틱 정보를 추출할 수도 있고 지식 그래프를 통해 시맨틱 정보를 추출할 수도 있다. 구체적으로, 수행 주체는 단계 40311~40314의 구현방식1을 통해 대상 임베딩 벡터를 결정할 수도 있고 단계 40321~40325의 구현방식2를 통해 대상 임베딩 벡터를 결정할 수도 있다.
구현방식1:
단계 40311, 제1 텍스트, 제2 텍스트, 언어 지식 및 사전 설정된 마스크 생성 모델에 따라 타깃 마스크를 결정한다.
본 실시예에서, 수행 주체는 상술한 제1 텍스트, 제2 텍스트 및 언어 지식을 사전 설정된 마스크 생성 모델에 입력하여 타깃 마스크를 획득할 수 있다. 상술한 마스크 생성 모델은 트레이닝 샘플 집합에서의 트레이닝 샘플에 따라 사전 트레이닝으로 획득될 수 있다. 상술한 트레이닝 샘플은 2개의 텍스트 및 언어 지식을 포함할 수 있고 레이블링된 마스크를 더 포함할 수 있다. 트레이닝할 시, 트레이닝 샘플인 2개의 텍스트 및 언어 지식을 입력으로 하고 대응되는 마스크를 출력으로 하여 마스크 생성 모델을 획득할 수 있다.
여기서, 마스크의 길이는 2개의 텍스트의 길이에 대응될 수 있고 마스크는 1과 0을 포함할 수 있다. 예컨대 마스크는 11111000111100일 수 있다. 1~5번째 비트, 9~12번째 비트는 가려지지 않은 텍스트임을 표시하고, 6~8번째 비트, 13~14번째 비트는 가려진 텍스트임을 표시한다. 본 실시예는 타깃 마스크를 이용함으로써 제1 텍스트와 제2 텍스트 내의 중요하지 않은 문자를 가릴 수 있다. 이러한 중요하지 않은 문자는 불용어, 문장부호, 이모티콘 등을 포함함으로써, 추출된 임베딩 벡터가 제1 텍스트와 제2 텍스트를 더욱 정확하게 표현하도록 할 수 있다.
단계 40312, 타깃 마스크 및 제1 텍스트에 따라 제1 업데이트 텍스트를 결정한다.
타깃 마스크가 획득한 후, 타깃 마스크 및 제1 텍스트에 따라 제1 업데이트 텍스트를 결정할 수 있다. 제1 업데이트 텍스트에서 일부 문자가 가려졌다는 것을 이해할 수 있다.
단계 40313, 타깃 마스크 및 제2 텍스트에 따라 제2 업데이트 텍스트를 결정한다.
마찬가지로, 수행 주체는 또한 타깃 마스크 및 제2 텍스트에 따라 제2 업데이트 텍스트를 결정할 수 있다.
단계 40314, 제1 업데이트 텍스트 및 제2 업데이트 텍스트에 따라 대상 임베딩 벡터를 결정한다.
제1 업데이트 텍스트와 제2 업데이트 텍스트를 획득한 후, 수행 주체는 제1 업데이트 텍스트와 제2 업데이트 텍스트를 조합(splicing)한 후, 조합된 텍스트를 언어 모델에 입력하여 대상 임베딩 벡터를 획득할 수 있다. 조합된 텍스트는 제1 업데이트 텍스트와 제2 업데이트 텍스트를 구별하기 위한 표식을 포함할 수 있다는 것을 이해할 수 있다.
구현방식1을 통해, 수행 주체는 언어 지식을 결합하여 제1 텍스트와 제2 텍스트 내의 중요한 어휘를 학습함으로써, 임베딩 벡터가 제1 텍스트와 제2 텍스트의 함의를 더욱 정확하게 표현할 수 있도록 할 수 있다.
구현방식2:
단계 40321, 제1 텍스트, 제2 텍스트 및 언어 지식에 따라 지식 그래프를 생성한다.
수행 주체는 제1 텍스트, 제2 텍스트 및 언어 지식을 획득한 후, 지식 그래프를 생성할 수 있다. 구체적으로, 수행 주체는 우선 제1 텍스트와 제2 텍스트를 단어 분리 처리하여 복수의 어휘를 획득할 수 있다. 그 다음 각 어휘에 대하여, 수행 주체는 당해 어휘에 관련되는 지식에 따라 당해 어휘를 중심으로 하는 서브 그래프를 구축할 수 있다. 당해 어휘는 각 서브 그래프의 중심 어휘로 지칭될 수도 있다. 각 서브 그래프의 구축이 완료된 후, 각 서브 그래프를 조합한다. 조합 시, 각 중심 어휘 사이의 관계에 따라 조합하여야 한다. 조합된 도면은 지식 그래프로 구축될 수 있다. 지식 그래프는 제1 텍스트, 제2 텍스트 및 언어 지식에서의 모든 지식을 포함한다는 것을 이해할 수 있다.
단계 40322, 지식 그래프 속의 복수의 엣지를 인코딩하여 제1 벡터 집합을 획득한다.
수행 주체는 지식 그래프를 구축 완료한 후, 지식 그래프 속의 복수의 엣지를 인코딩하여 제1 벡터 집합을 획득할 수 있다. 인코딩 시, 임의의 인코딩 알고리즘을 적용하여 구현할 수 있다. 여기서, 제1 벡터 집합에서의 각 벡터는 하나의 엣지에 대응된다.
단계 40323, 지식 그래프 속의 복수의 노드를 인코딩하여 제2 벡터 집합을 획득한다.
마찬가지로, 수행 주체는 또한 지식 그래프 속의 복수의 노드를 인코딩하여 제2 벡터 집합을 획득할 수 있다. 제2 벡터 집합에서의 각 벡터는 하나의 노드에 대응된다.
단계 40324, 제1 벡터 집합, 제2 벡터 집합 및 지식 그래프에 따라 제3 벡터 집합을 결정한다.
수행 주체는 지식 그래프에서 노드와 엣지의 관계에 따라 제1 벡터 집합에서의 각 벡터를 제2 벡터 집합에서의 대응되는 각 벡터와 조합하여 제3 벡터 집합을 획득할 수 있다. 제3 벡터 집합에서의 각 벡터는 지식 그래프를 구축할 시 생성되는 서브 그래프에 대응된다. 조합 시, 수행 주체는 2개의 벡터 사이에 구분 기호를 삽입하여 조합된 2개의 벡터를 구별할 수 있다.
단계 40325, 제3 벡터 집합에 따라 대상 임베딩 벡터를 결정한다.
수행 주체는 제3 벡터 집합에서의 각 벡터를 조합하여 대상 임베딩 벡터를 획득할 수 있다. 조합 시, 제3 벡터 집합에서의 각 벡터를 완전 연결층에 입력하여 대상 임베딩 벡터를 획득할 수 있다.
본 구현방식으로 결정된 대상 임베딩 벡터는 지식 그래프에 제1 텍스트, 제2 텍스트 및 언어 지식의 모든 정보를 포함함으로써 임베딩 벡터에 제1 텍스트와 제2 텍스트에 관한 더 풍부한 정보가 포함되게 된다.
단계 404, 획득한 대상 임베딩 벡터를 사전 트레이닝된 분류 모델에 입력하고 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정한다.
수행 주체는 상술한 구현방식1로 대상 임베딩 벡터를 획득할 수도 있고 상술한 구현방식2로 대상 임베딩 벡터를 획득할 수도 있는 바, 동시에 두 가지 구현방식으로 대상 임베딩 벡터를 획득할 수도 있다. 단일 구현방식으로 대상 임베딩 벡터를 획득한 후, 대상 임베딩 벡터를 사전 트레이닝된 분류 모델에 입력하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정할 수 있다. 동시에 두 가지 구현방식으로 대상 임베딩 벡터를 획득하는 경우, 우선 2개의 임베딩 벡터를 조합하거나 또는 가중하여 하나의 임베딩 벡터 획득할 수 있다. 그 다음, 당해 임베딩 벡터를 사전 트레이닝된 분류 모델에 입력하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정한다.
당해 분류 모델은 하나의 이진 분류 모델일 수 있다. 여기서, 제1 텍스트와 제2 텍스트의 매칭 문제는 본질적으로 분류 문제로 볼 수 있다. 2개의 텍스트가 매칭되는 경우, 카탈로그 1로 분류할 수 있다. 2개의 텍스트가 매칭되지 않는 경우, 카탈로그 0으로 분류할 수 있다. 당해 분류 모델은 사전에 매칭되는 복수의 텍스트 쌍과 매칭되지 않는 복수의 텍스트 쌍을 통해 트레이닝될 수 있다.
본 실시예의 일부 선택적인 구현방식에서, 수행 주체가 적어도 두 가지 방식으로 적어도 2개의 대상 임베딩 벡터를 획득하는 경우에는, 획득한 각 대상 임베딩 벡터를 조합(splice)하여 스플라이스 벡터(spliced vector)를 획득하는 단계; 및 스플라이스 벡터를 분류 모델에 입력하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정하는 단계를 통해 시맨틱 매칭 결과를 결정할 수 있다.
본 실시예에서, 수행 주체는 획득한 적어도 2개의 대상 임베딩 벡터를 조합하여 스플라이스 벡터를 획득할 수 있다. 조합 시, 각 대상 임베딩 벡터를 직접 조합하고 사전 설정된 표식을 통해 각 대상 임베딩 벡터를 구분할 수 있다. 또는, 수행 주체는 또한 우선 각 대상 임베딩 벡터가 동일한 길이를 갖도록 각 대상 임베딩 벡터를 절단한 후, 사전 설정된 순서에 따라 각 대상 임베딩 벡터를 조합할 수 있다. 그 다음, 수행 주체는 스플라이스 벡터를 분류 모델에 입력하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정할 수 있다.
본 출원의 상술한 실시예에 의해 제공되는 시맨틱 매칭 방법은, 두 가지 방식으로 제1 텍스트와 제2 텍스트의 임베딩 벡터를 획득할 수 있는 바, 획득한 임베딩 벡터는 외부 언어 지식을 학습함으므로써 제1 텍스트와 제2 텍스트의 의미를 정확하게 특성화할 수 있고, 따라서 시맨틱 매칭의 정확률을 향상시킬 수 있다.
나아가 도 5를 참조하면, 상술한 각 도에 도시한 방법의 구현으로, 본 출원은 시맨틱 매칭 장치의 일 실시예를 제공하는 바, 당해 장치 실시예는 도 2에 도시한 방법 실시예에 대응되므로, 당해 장치는 구체적으로 각종 전자 기기에 응용될 수 있다.
도 5에 도시한 바와 같이, 본 실시예의 시맨틱 매칭 장치(500)는 제1 획득 유닛(501), 제2 획득 유닛(502), 벡터 결정 유닛(503) 및 시맨틱 매칭 유닛(504)을 포함한다.
제1 획득 유닛(501)은 제1 텍스트 및 제2 텍스트를 획득하도록 구성된다.
제2 획득 유닛(502)은 제1 텍스트 및 제2 텍스트에 관련되는 언어 지식을 획득하도록 구성된다.
벡터 결정 유닛(503)은 제1 텍스트, 제2 텍스트 및 언어 지식에 따라 대상 임베딩 벡터를 결정하도록 구성된다.
시맨틱 매칭 유닛(504)은 대상 임베딩 벡터에 기반하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정하도록 구성된다.
본 실시예의 일부 선택적인 구현방식에서, 벡터 결정 유닛(503)은 나아가, 언어 지식에 따라 제1 텍스트, 제2 텍스트의 시맨틱 정보를 추출하고 시맨틱 정보에 따라 대상 임베딩 벡터를 결정하도록 구성될 수 있다.
본 실시예의 일부 선택적인 구현방식에서, 벡터 결정 유닛(503)은 나아가, 제1 텍스트, 제2 텍스트, 언어 지식 및 사전 설정된 마스크 생성 모델에 따라 타깃 마스크를 결정하고, 타깃 마스크 및 제1 텍스트에 따라 제1 업데이트 텍스트를 결정하고, 타깃 마스크 및 제2 텍스트에 따라 제2 업데이트 텍스트를 결정하고, 제1 업데이트 텍스트 및 제2 업데이트 텍스트에 따라 대상 임베딩 벡터를 결정하도록 구성될 수 있다.
본 실시예의 일부 선택적인 구현방식에서, 벡터 결정 유닛(503)은 나아가, 제1 텍스트, 제2 텍스트 및 언어 지식에 따라 지식 그래프를 생성하고, 지식 그래프 속의 복수의 엣지를 인코딩하여 제1 벡터 집합을 획득하고, 지식 그래프 속의 복수의 노드를 인코딩하여 제2 벡터 집합을 획득하고, 제1 벡터 집합, 제2 벡터 집합 및 지식 그래프에 따라 제3 벡터 집합을 결정하고, 제3 벡터 집합에 따라 대상 임베딩 벡터를 결정하도록 구성될 수 있다.
본 실시예의 일부 선택적인 구현방식에서, 시맨틱 매칭 유닛(504)은 나아가, 획득한 대상 임베딩 벡터를 사전 트레이닝된 분류 모델에 입력하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정하도록 구성될 수 있다.
본 실시예의 일부 선택적인 구현방식에서, 시맨틱 매칭 유닛(504)은 나아가, 적어도 두 가지 방식으로 적어도 2개의 대상 임베딩 벡터를 획득하는 것에 응답하여, 획득한 각 대상 임베딩 벡터를 조합하여 스플라이스 벡터를 획득하고, 스플라이스 벡터를 분류 모델에 입력하여 제1 텍스트와 제2 텍스트의 시맨틱 매칭 결과를 결정하도록 구성될 수 있다.
본 실시예의 일부 선택적인 구현방식에서, 제2 획득 유닛(502)은 나아가, 제1 텍스트 및 제2 텍스트 내의 엔티티 멘션을 결정하고, 사전 설정된 지식 베이스 및 엔티티 멘션에 따라 언어 지식을 결정하도록 구성될 수 있다.
시맨틱 매칭 장치(500)에 기재된 유닛(501) 내지 유닛(504)은 각각 도 2를 참조하여 설명한 방법의 각 단계에 대응된다는 것을 이해하여야 한다. 따라서, 전술한 시맨틱 매칭 방법에 대하여 설명한 동작과 특징은 마찬가지로 장치(500) 및 그에 포함되는 유닛에 적용되는 바, 이에 대한 상세한 설명은 생략하기로 한다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기와 판독 가능한 저장 매체를 더 제공한다.
도 6에 도시한 바와 같이, 본 출원의 실시예의 시맨틱 매칭 방법을 수행하는 전자 기기의 블록도이다. 전자 기기는 다양한 형태의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 스테이션, 개인 휴대 정보 단말기(PDA), 서버, 블레이드 서버, 대형 컴퓨터 및 기타의 적합한 컴퓨터를 나타내고자 하는 것이다. 전자 기기는 또한 다양한 형태의 이동 장치, 예컨대, 개인 휴대 정보 단말기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 기타의 유사한 컴퓨팅 장치를 나타낼 수 있다. 본 명세서에서 제시하는 부품, 이들의 연결 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 설명 및/또는 요구하는 본 출원의 구현을 제한하고자 하는 것이 아니다.
도 6에 도시한 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(601), 메모리(602) 및 각 부품을 연결하는 인터페이스(고속 인터페이스 및 저속 인터페이스를 포함함)를 포함한다. 각 부품은 서로 다른 버스를 이용하여 서로 연결되고 공통 메인보드에 설치되거나 또는 필요에 따라 기타의 방식으로 설치될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령어를 처리할 수 있는 바, 메모리 내에 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 결합되는 디스플레이 기기)에 GUI의 그래픽 정보를 표시하는 명령어를 포함한다. 기타의 구현 방식에서, 필요에 따라 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있는 바, 각 전자 기기는 일부 필요한 동작을 제공한다(예컨대, 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티프로세서 시스템으로서). 도 6은 하나의 프로세서(601)를 예로 든다.
메모리(602)는 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능한 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어, 상기 적어도 하나의 프로세서에 의해 본 출원에 의해 제공되는 시맨틱 매칭 방법이 수행되도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능한 저장 매체는 컴퓨터 명령어를 저장하고, 당해 컴퓨터 명령어는 컴퓨터가 본 출원에 의해 제공되는 시맨틱 매칭 방법을 수행하도록 한다.
메모리(602)는 비일시적 컴퓨터 판독 가능한 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들어 본 출원의 실시예의 시맨틱 매칭 방법에 대응되는 프로그램 명령/모듈(예컨대 도9에 도시한 제1 획득 유닛(501), 제2 획득 유닛(502), 벡터 결정 유닛(503) 및 시맨틱 매칭 유닛(504))을 저장할 수 있다. 프로세서(601)는 메모리(602)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 즉 상술한 방법 실시예의 시맨틱 매칭 방법을 구현한다.
메모리(602)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 있어서 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 시맨틱 매칭을 수행하는 전자 기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 이 외에도, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수도 있고, 비일시적 저장 장치, 예컨대 적어도 하나의 자기 디스크 저장 디바이스, 플래시 메모리 디바이스, 또는 기타의 비일시적 고체 상태 저장 디바이스를 더 포함할 수도 있다. 일부 실시예에서, 메모리(602)는 선택적으로 프로세서(601)에 대해 원격으로 설치되는 저장 장치를 포함할 수 있고, 이러한 원격 저장 장치는 네트워크를 통해 시맨틱 매칭을 수행하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 제한되지 않는다.
시맨틱 매칭 방법을 수행하는 전자 기기는 입력 장치(603)와 출력 장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력 장치(603) 및 출력 장치(604)는 버스 또는 기타의 방식으로 연결될 수 있는 바, 도 6에서는 버스를 통한 연결을 예로 든다.
입력 장치(603)는 입력되는 숫자 또는 문자(character) 정보를 수신하고 시맨틱 매칭을 수행하는 전자 기기의 사용자 설정 및 기능 제어에 관련되는 키 신호 입력을 발생시킬 수 있는 바, 예컨대 숫자 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 스틱 등 입력 장치가 있다. 출력 장치(604)는 디스플레이 기기, 보조 조명 장치(예컨대, LED) 및 촉각 피드백 장치 (예컨대, 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이 (LCD), 발광 다이오드 (LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나, 이에 제한되지 않는다. 일부 실시예에서 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템과 기술의 다양한 구현 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC (주문형 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이러한 다양한 구현 방식은 하나 또는 복수의 컴퓨터 프로그램에서 구현되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행되거나 및/또는 분석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령어를 수신하고, 데이터와 명령어를 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령어를 포함하며, 고차원 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리어/기계어를 이용하여, 이러한 컴퓨팅 프로그램을 구현할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 '기계 판독 가능한 매체'와 '컴퓨터 판독 가능한 매체'는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예컨대, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키는 바, 기계 판독 가능 신호로서의 기계 명령어를 수신하는 기계 판독 가능 매체를 포함한다. 용어 '기계 판독 가능 신호'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 인터랙션을 제공하기 위해, 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있는 바, 당해 컴퓨터는 사용자한테 정보를 디스플레이하기 위한 디스플레이 장치(예컨대, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예컨대, 마우스 또는 트랙볼)를 포함하고, 사용자는 당해 키보드와 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 종류의 장치도 사용자와의 인터랙션을 제공하는 데 사용될 수 있는 바; 예를 들어, 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백(예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함함)으로 사용자로부터의 입력이 수신될 수 있다.
여기서 설명하는 시스템과 기술을 백스테이지 부품을 포함하는 컴퓨팅 시스템(예컨대, 데이터 서버로서), 미들웨어를 포함하는 컴퓨팅 시스템(예컨대, 애플리케이션 서버), 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예컨대, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터일 수 있는 바, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통하여, 여기서 설명하는 시스템 및 기술의 구현 방식과 인터랙션할 수 있음) 또는 이러한 백스테이지 부품, 미들웨어 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 구현할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예컨대, 통신 네트워크)으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트 - 서버 관계를 이루는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 구성한다.
본 출원의 실시예에 따른 기술 방안은, 외부 언어 지식을 이용하여 텍스트 시맨틱 매칭 과정에 정보량을 증가시킴으로써 시맨틱 매칭의 정확률을 향상시킬 수 있다.
위에서 제시한 다양한 형식의 흐름을 적용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해하여야 한다. 예컨대, 본 출원에 기재된 각 단계는 병행으로 실행될 수도 있고, 순차로 실행될 수도 있고, 서로 다른 순서로 실행될 수도 있는 바, 본 출원에서 개시하는 기술 방안에 대한 기대 효과를 구현할 수만 있다면 되는 것으로, 본 명세서는 이에 대해 제한하지 않는다.
상술한 구체적인 구현 방식은 본 출원의 보호 범위를 제한하지 않는다. 설계 요구와 기타 요소에 따른 다양한 수정, 조합, 서브 조합 및 치환이 가능하다는 점은 당업자에 있어서 자명할 것이다. 본 출원의 사상과 원칙 이내에 있는 임의의 수정, 등가 치환 및 개량 등은 모두 본 출원의 보호 범위에 포함되어야 한다.

Claims (16)

  1. 제1 텍스트 및 제2 텍스트를 획득하는 단계;
    상기 제1 텍스트, 상기 제2 텍스트에 관련되는 언어 지식을 획득하는 단계;
    상기 제1 텍스트, 상기 제2 텍스트 및 상기 언어 지식에 따라 대상 임베딩 벡터를 결정하는 단계; 및
    상기 대상 임베딩 벡터에 기반하여 상기 제1 텍스트와 상기 제2 텍스트의 시맨틱 매칭 결과를 결정하는 단계;
    를 포함하는 것을 특징으로 하는 시맨틱 매칭 방법.
  2. 제1항에 있어서,
    상기 제1 텍스트, 상기 제2 텍스트 및 상기 언어 지식에 따라 대상 임베딩 벡터를 결정하는 단계는,
    상기 언어 지식에 따라 상기 제1 텍스트, 상기 제2 텍스트의 시맨틱 정보를 추출하여 상기 시맨틱 정보에 따라 상기 대상 임베딩 벡터를 결정하는 단계를 포함하는 것을 특징으로 하는 시맨틱 매칭 방법.
  3. 제1항에 있어서,
    상기 언어 지식에 따라 상기 제1 텍스트, 상기 제2 텍스트의 시맨틱 정보를 추출하여 상기 시맨틱 정보에 따라 상기 대상 임베딩 벡터를 결정하는 단계는,
    상기 제1 텍스트, 상기 제2 텍스트, 상기 언어 지식 및 사전 설정된 마스크 생성 모델에 따라 타깃 마스크를 결정하는 단계;
    상기 타깃 마스크 및 상기 제1 텍스트에 따라 제1 업데이트 텍스트를 결정하는 단계;
    상기 타깃 마스크 및 상기 제2 텍스트에 따라 제2 업데이트 텍스트를 결정하는 단계; 및
    상기 제1 업데이트 텍스트 및 상기 제2 업데이트 텍스트에 따라 상기 대상 임베딩 벡터를 결정하는 단계;
    를 포함하는 것을 특징으로 하는 시맨틱 매칭 방법.
  4. 제1항에 있어서,
    상기 언어 지식에 따라 상기 제1 텍스트, 상기 제2 텍스트의 시맨틱 정보를 추출하여 상기 시맨틱 정보에 따라 상기 대상 임베딩 벡터를 결정하는 단계는,
    상기 제1 텍스트, 상기 제2 텍스트 및 상기 언어 지식에 따라 지식 그래프를 생성하는 단계;
    상기 지식 그래프 속의 복수의 엣지를 인코딩하여 제1 벡터 집합을 획득하는 단계;
    상기 지식 그래프 속의 복수의 노드를 인코딩하여 제2 벡터 집합을 획득하는 단계;
    상기 제1 벡터 집합, 상기 제2 벡터 집합 및 상기 지식 그래프에 따라 제3 벡터 집합을 결정하는 단계; 및
    상기 제3 벡터 집합에 따라 상기 대상 임베딩 벡터를 결정하는 단계;
    를 포함하는 것을 특징으로 하는 시맨틱 매칭 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 대상 임베딩 벡터에 기반하여 상기 제1 텍스트와 상기 제2 텍스트의 시맨틱 매칭 결과를 결정하는 단계는,
    획득한 대상 임베딩 벡터를 사전 트레이닝된 분류 모델에 입력하여 상기 제1 텍스트와 상기 제2 텍스트의 시맨틱 매칭 결과를 결정하는 단계를 포함하는 것을 특징으로 하는 시맨틱 매칭 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 대상 임베딩 벡터에 기반하여 상기 제1 텍스트와 상기 제2 텍스트의 시맨틱 매칭 결과를 결정하는 단계는,
    적어도 두 가지 방식으로 적어도 2개의 대상 임베딩 벡터를 획득하는 것에 응답하여, 획득한 각 대상 임베딩 벡터를 조합하여 스플라이스 벡터를 획득하는 단계; 및
    상기 스플라이스 벡터를 상기 분류 모델에 입력하여 상기 제1 텍스트와 상기 제2 텍스트의 시맨틱 매칭 결과를 결정하는 단계;
    를 포함하는 것을 특징으로 하는 시맨틱 매칭 방법.
  7. 제1항에 있어서,
    상기 제1 텍스트, 상기 제2 텍스트에 관련되는 언어 지식을 획득하는 단계는,
    상기 제1 텍스트 및 상기 제2 텍스트 내의 엔티티 멘션을 결정하는 단계; 및
    사전 설정된 지식 베이스 및 상기 엔티티 멘션에 따라 상기 언어 지식을 결정하는 단계;
    를 포함하는 것을 특징으로 하는 시맨틱 매칭 방법.
  8. 제1 텍스트 및 제2 텍스트를 획득하도록 구성되는 제1 획득 유닛;
    상기 제1 텍스트, 상기 제2 텍스트에 관련되는 언어 지식을 획득하도록 구성되는 제2 획득 유닛;
    상기 제1 텍스트, 상기 제2 텍스트 및 상기 언어 지식에 따라 대상 임베딩 벡터를 결정하도록 구성되는 벡터 결정 유닛; 및
    상기 대상 임베딩 벡터에 기반하여 상기 제1 텍스트와 상기 제2 텍스트의 시맨틱 매칭 결과를 결정하도록 구성되는 시맨틱 매칭 유닛;
    을 포함하는 것을 특징으로 하는 시맨틱 매칭 장치.
  9. 제8항에 있어서,
    상기 벡터 결정 유닛은 나아가,
    상기 언어 지식에 따라 상기 제1 텍스트, 상기 제2 텍스트의 시맨틱 정보를 추출하여 상기 시맨틱 정보에 따라 상기 대상 임베딩 벡터를 결정하도록 구성되는 것을 특징으로 하는 시맨틱 매칭 장치.
  10. 제9항에 있어서,
    상기 벡터 결정 유닛은 나아가,
    상기 제1 텍스트, 상기 제2 텍스트, 상기 언어 지식 및 사전 설정된 마스크 생성 모델에 따라 타깃 마스크를 결정하고,
    상기 타깃 마스크 및 상기 제1 텍스트에 따라 제1 업데이트 텍스트를 결정하고,
    상기 타깃 마스크 및 상기 제2 텍스트에 따라 제2 업데이트 텍스트를 결정하고,
    상기 제1 업데이트 텍스트 및 상기 제2 업데이트 텍스트에 따라 상기 대상 임베딩 벡터를 결정하도록 구성되는 것을 특징으로 하는 시맨틱 매칭 장치.
  11. 제9항에 있어서,
    상기 벡터 결정 유닛은 나아가,
    상기 제1 텍스트, 상기 제2 텍스트 및 상기 언어 지식에 따라 지식 그래프를 생성하고,
    상기 지식 그래프 속의 복수의 엣지를 인코딩하여 제1 벡터 집합을 획득하고,
    상기 지식 그래프 속의 복수의 노드를 인코딩하여 제2 벡터 집합을 획득하고,
    상기 제1 벡터 집합, 상기 제2 벡터 집합 및 상기 지식 그래프에 따라 제3 벡터 집합을 결정하고,
    상기 제3 벡터 집합에 따라 상기 대상 임베딩 벡터를 결정하도록 구성되는 것을 특징으로 하는 시맨틱 매칭 장치.
  12. 제8항에 있어서,
    상기 시맨틱 매칭 유닛은 나아가,
    획득한 대상 임베딩 벡터를 사전 트레이닝된 분류 모델에 입력하여 상기 제1 텍스트와 상기 제2 텍스트의 시맨틱 매칭 결과를 결정하도록 구성되는 것을 특징으로 하는 시맨틱 매칭 장치.
  13. 제12항에 있어서,
    상기 시맨틱 매칭 유닛은 나아가,
    적어도 두 가지 방식으로 적어도 2개의 대상 임베딩 벡터를 획득하는 것에 응답하여, 획득한 각 대상 임베딩 벡터를 조합하여 스플라이스 벡터를 획득하고,
    상기 스플라이스 벡터를 상기 분류 모델에 입력하여 상기 제1 텍스트와 상기 제2 텍스트의 시맨틱 매칭 결과를 결정하도록 구성되는 것을 특징으로 하는 시맨틱 매칭 장치.
  14. 제8항에 있어서,
    상기 제2 획득 유닛은 나아가,
    상기 제1 텍스트 및 상기 제2 텍스트 내의 엔티티 멘션을 결정하고,
    사전 설정된 지식 베이스 및 상기 엔티티 멘션에 따라 상기 언어 지식을 결정하도록 구성되는 것을 특징으로 하는 시맨틱 매칭 장치.
  15. 시맨틱 매칭을 위한 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신적으로 연결되는 메모리를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행됨으로써 상기 적어도 하나의 프로세서가 제1항에 따른 방법을 수행할 수 있도록 하는 것을 특징으로 하는 시맨틱 매칭을 위한 전자 기기.
  16. 컴퓨터 명령어가 저장되어 있는 비일시적 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 명령어는 상기 컴퓨터가 제1항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능한 저장 매체.
KR1020200173524A 2020-06-12 2020-12-11 시맨틱 매칭 방법, 장치, 기기 및 저장 매체 KR20210154705A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010532484.XA CN111428514A (zh) 2020-06-12 2020-06-12 语义匹配方法、装置、设备以及存储介质
CN202010532484.X 2020-06-12

Publications (1)

Publication Number Publication Date
KR20210154705A true KR20210154705A (ko) 2021-12-21

Family

ID=71551472

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200173524A KR20210154705A (ko) 2020-06-12 2020-12-11 시맨틱 매칭 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210390260A1 (ko)
EP (1) EP3923159A1 (ko)
JP (1) JP7108675B2 (ko)
KR (1) KR20210154705A (ko)
CN (1) CN111428514A (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035609B (zh) * 2020-08-20 2024-04-05 出门问问创新科技有限公司 一种智能对话方法、装置以及计算机可读存储介质
CN112052825B (zh) * 2020-09-18 2024-04-16 北京百度网讯科技有限公司 用于处理图像的方法、装置、设备以及存储介质
CN113780006B (zh) * 2021-09-27 2024-04-09 广州金域医学检验中心有限公司 医学语义匹配模型的训练方法、医学知识匹配方法及装置
CN114218381B (zh) * 2021-12-08 2022-08-30 北京中科闻歌科技股份有限公司 立场识别方法、装置、设备及介质
CN114218961A (zh) * 2021-12-14 2022-03-22 北京百度网讯科技有限公司 文本检测方法、装置和电子设备
CN113971407B (zh) * 2021-12-23 2022-03-18 深圳佑驾创新科技有限公司 语义特征提取方法及计算机可读存储介质
CN114398136A (zh) * 2022-01-17 2022-04-26 北京达佳互联信息技术有限公司 对象提及方法、装置、终端及存储介质
CN115456176B (zh) * 2022-10-10 2023-07-21 延边大学 一种基于知识增强的文本匹配方法及系统
CN115345152B (zh) * 2022-10-19 2023-03-14 北方健康医疗大数据科技有限公司 模板库更新方法、报告解析方法、装置、设备及介质
CN117555644B (zh) * 2024-01-11 2024-04-30 之江实验室 一种基于自然语言交互的前端页面构建方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2406738A4 (en) * 2009-03-13 2012-08-15 Invention Machine Corp SYSTEM AND METHOD FOR RESPONSE TO QUESTIONS THAT INVOLVE THE APPOSITION OF SEMANTIC MARKS ON TEXT DOCUMENTS AND USER QUESTIONS
US8468160B2 (en) * 2009-10-30 2013-06-18 International Business Machines Corporation Semantic-aware record matching
US10489393B1 (en) * 2016-03-30 2019-11-26 Amazon Technologies, Inc. Quasi-semantic question answering
CN107977676A (zh) * 2017-11-24 2018-05-01 北京神州泰岳软件股份有限公司 文本相似度计算方法及装置
WO2019208222A1 (ja) * 2018-04-27 2019-10-31 日本電信電話株式会社 回答選択装置、回答選択方法、回答選択プログラム
CN110609902B (zh) * 2018-05-28 2021-10-22 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
US11269943B2 (en) * 2018-07-26 2022-03-08 JANZZ Ltd Semantic matching system and method
CN109871428B (zh) * 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质
US11080491B2 (en) * 2019-10-14 2021-08-03 International Business Machines Corporation Filtering spurious knowledge graph relationships between labeled entities

Also Published As

Publication number Publication date
JP2021197133A (ja) 2021-12-27
EP3923159A1 (en) 2021-12-15
CN111428514A (zh) 2020-07-17
JP7108675B2 (ja) 2022-07-28
US20210390260A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
KR20210154705A (ko) 시맨틱 매칭 방법, 장치, 기기 및 저장 매체
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR102448129B1 (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
EP3923160A1 (en) Method, apparatus, device and storage medium for training model
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
US11907671B2 (en) Role labeling method, electronic device and storage medium
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
US20230023789A1 (en) Method for identifying noise samples, electronic device, and storage medium
JP2021108098A (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
CN111522944A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN114021548A (zh) 敏感信息检测方法、训练方法、装置、设备以及存储介质
US20210312308A1 (en) Method for determining answer of question, computing device and storage medium
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
CN113051895A (zh) 语音识别的方法、装置、电子设备、介质和程序产品
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
US12033615B2 (en) Method and apparatus for recognizing speech, electronic device and storage medium
US20230135536A1 (en) Method and Apparatus for Processing Table
US20220028370A1 (en) Method and apparatus for recognizing speech, electronic device and storage medium
US20230116268A1 (en) System and a method for phonetic-based transliteration
US20230084438A1 (en) Method of generating text, method of training model, electronic device, and medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application
E801 Decision on dismissal of amendment