KR102564144B1

KR102564144B1 - 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체

Info

Publication number: KR102564144B1
Application number: KR1020190163710A
Authority: KR
Inventors: 예 수; 지판 펭; 조우 팡; 양 장; 용 주
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2019-01-30
Filing date: 2019-12-10
Publication date: 2023-08-08
Also published as: EP3690672A1; CN109871428B; US11520812B2; KR20200094627A; CN109871428A; US20200242140A1; JP2020123318A; JP6975377B2

Abstract

본 개시의 실시형태에 따르면, 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체가 제공된다. 텍스트 관련도를 확정하는 방법은 미리 정의된 지식 베이스로부터 제1 텍스트와 관련되는 제1 지식 요소 세트 및 제2 텍스트와 관련되는 제2 지식 요소 세트를 식별하는 단계를 포함한다. 지식 베이스는 지식 요소로 구성된 지식 표현을 포함한다. 상기 방법은, 제1 지식 요소 세트와 제2 지식 요소 세트 간의 지식 요소 관련도를 확정하고, 적어도 지식 요소 관련도에 기초하여 제1 텍스트에 대한 제2 텍스트의 텍스트 관련도를 확정하는 단계를 더 포함한다. 이러한 방식으로, 지식 베이스에 있어서 지식 요소 레벨의 관련도를 통해 텍스트 관련도의 확정을 향상시킬 수 있다.

Description

텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체{METHOD, APPARATUS, DEVICE AND MEDIUM FOR DETERMINING TEXT RELEVANCE}

본 개시의 실시형태는 주로 컴퓨터 분야에 관한 것으로서, 보다 구체적으로는 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.

텍스트의 관련도는 텍스트의 일치 정도라고도 한다. 많은 응용 프로그램에 있어서 서로 다른 텍스트 간의 관련도를 확정해야 한다. 가장 전형적인 경우는 검색 응용 프로그램이다. 일반적으로, 검색 실행시, 각 문서에 있어서의 텍스트와 검색 쿼리에 있어서의 텍스트 간의 관련도를 확정해야 하며, 또한 관련도의 높고 낮음에 기초하여 반환된 쿼리 결과로부터 매개 문서의 순위를 확정할 수 있다, 즉 관련도가 순위에 기초하여 배열된다. 텍스트 관련도는 텍스트에 대한 이해를 기초로 확정되며, 두 텍스트의 의미적인 유사도뿐만 아니라 텍스트 간의 일치 정도와도 연관된다. 대량의 연구를 진행하여 왔지만 현재 텍스트 관련도를 확정하기 위한 방법은 여전히 정확성 등 방면에서 개선이 필요하다.

본 개시의 예시적인 실시예에 따라, 텍스트 관련도를 확정하기 위한 방법이 제공된다.

본 개시의 제1 양태에서, 텍스트 관련도를 확정하는 방법이 제공된다. 상기 방법은, 미리 정의된 지식 베이스로부터 제1 텍스트와 관련되는 제1 지식 요소 세트 및 제2 텍스트와 관련되는 제2 지식 요소 세트를 식별하는 단계에 있어서, 지식 베이스는 지식 요소로 구성된 지식 표현을 포함하는 단계와, 제1 지식 요소 세트와 제2 지식 요소 세트 사이의 지식 요소 관련도를 확정하는 단계와, 적어도 지식 요소 관련도에 기초하여 제1 텍스트에 대한 제2 텍스트의 텍스트 관련도를 확정하는 단계를 포함한다.

본 개시의 제2 양태에서, 텍스트 관련도를 확정하기 위한 장치가 제공된다. 상기 장치는, 미리 정의된 지식 베이스로부터 제1 텍스트와 관련되는 제1 지식 요소 세트 및 제2 텍스트와 관련되는 제2 지식 요소 세트를 식별하도록 구성되고, 지식 베이스는 지식 요소로 구성된 지식 표현을 포함하는 지식 요소 관련 모듈과, 제1 지식 요소 세트와 제2 지식 요소 세트 간의 지식 요소 관련도를 확정하도록 구성되는 요소 관련도 확정 모듈과, 적어도 지식 요소 관련도에 기초하여, 제1 텍스트에 대한 제2 텍스트의 텍스트 관련도를 확정하도록 구성되는 텍스트 관련도 확정 모듈을 포함한다.

본 개시의 제3 양태에서는 전자 기기가 제공되며, 상기 전자 기기는 하나 이상의 프로세서와, 하나 이상의 프로세서에 의해 실행될 경우, 하나 이상의 프로세서가 본 개시의 제1 양태의 방법을 구현하도록 하는 하나 이상의 프로그램을 저장하기 위한 저장 장치를 포함한다.

본 개시의 제4 양태에서는 컴퓨터 판독 가능 저장 매체가 제공되며, 상기 컴퓨터 판독 가능 저장 매체는 프로세서에 의해 실행시, 본 개시의 제1 양태에 의한 방법을 구현하는 컴퓨터 프로그램이 저장된다.

본 발명의 개시부분에서 설명된 내용은 본 발명의 실시예의 핵심 또는 중요한 특징들에 대한 제한이 아니며 또한 본 개시의 범위에 대한 제한도 아님을 이해해야 한다. 본 개시의 기타 특징들은 다음의 설명에 의해 용이하게 이해될 것이다.

첨부 도면에 결합하여 다음의 상세한 설명을 참조함으로써, 본 개시의 다양한 실시예의 상기 내용, 기타 특징, 장점 및 양태가 보다 명백해질 것이다. 도면에서 동일하거나 유사한 참조 부호는 동일하거나 유사한 요소를 나타낸다.
도1은 종래의 방식에 있어서 텍스트 유사도를 확정하는 예시적인 환경의 개략도를 도시한다.
도2는 본 개시의 다양한 실시예에 따른 텍스트 유사도를 확정하는 예시적인 환경의 개략도를 도시한다.
도3은 본 개시의 일부 실시예에 따른 학습 네트워크에 기초한 텍스트 관련도 확정 시스템의 개략적인 블록도를 도시한다.
도4는 본 개시의 일부 실시예에 따른 도3의 시스템에 있어서의 표현 확정 모듈의 예시적인 블록도를 도시한다.
도5는 본 개시의 일부 실시예에 따른 도3의 시스템에 있어서의 특징 추출 모듈의 예시적인 블록도를 도시한다.
도6은 본 개시의 일부 실시예에 따른 텍스트 관련도를 확정하는 방법의 흐름도를 도시한다.
도7은 본 개시의 실시예에 따른 텍스트 관련도를 확정하기 위한 장치의 개략적인 블록도를 도시한다.
도8은 본 개시의 다양한 실시예들을 구현할 수 있는 컴퓨팅 기기의 블록도를 도시한다.

이하, 첨부 도면을 참조하면서 본 개시의 실시예를 보다 상세하게 설명한다. 본 개시의 특정 실시예가 첨부 도면에 도시되어 있지만, 본 개시는 다양한 형태로 구현될 수 있음을 이해해야 하며, 여기에 설명된 실시예에 한정하여 해석되어서는 안된다. 반대로 이러한 실시예들은 본 개시의 보다 투철하고 완전한 이해를 도모하기 위해 제공된다. 본 개시의 첨부 도면 및 실시예는 본 개시의 보호 범위를 제한하기 위한 것이 아니라 단지 예시적인 작용임을 이해해야 한다.

본 개시의 실시예들의 설명에 있어서 "포함한다” 및 이와 유사한 용어는 개방성적인 포함 즉 "포함하지만 이에 제한되지 않는다"로 이해되어야 한다. "기반"이라는 용어는 "적어도 일부 기반"을 의미하는 것으로 이해되어야 한다. "일 실시예” 또는 "해당 실시예"라는 용어는 "적어도 하나의 실시예"를 의미하는 것으로 이해되어야 한다. "제1", "제2” 등의 용어는 상이한 또는 동일한 대상을 지칭할 수 있다. 기타 명시적 및 암시적인 정의가 아래에 포함될 수 있다.

본문에 사용된 용어 "문서"는 전자 문서로도 지칭되는 임의의 격식의 텍스트를 포함하는 컴퓨터 판독 가능 파일을 가리킨다. 문서의 예로서 하이퍼 텍스트 마크 업 언어(HTML) 파일(웹 페이지라고도 함), 워드 문서, 프리젠 테이션 문서, PDF(Portable Document Format) 문서, 스프레드 시트 문서, 일반 텍스트 문서 등이 포함된다.

상술한 바와 같이, 많은 응용에서 텍스트 간의 관련도를 확정하여야 한다. 도1은 종래의 방식에 있어서 텍스트 유사도를 확정하는 예시적인 환경(100)의 개략도를 도시한다. 환경(100)에 있어서, 컴퓨팅 기기(110)는 2개의 텍스트 간의 관련도를 확정하도록 구성되고, 문서 라이브러리(120)는 각각의 문서가 대응하는 텍스트를 갖는 복수의 문서를 저장하도록 구성된다. 텍스트(102) "화자이

의 아내는 누구입니까?"는 사용자가 입력한 검색 쿼리(102)로서 컴퓨팅 기기(110)에 제공된다. 컴퓨팅 기기(110)는 문서 라이브러리(120)로부터 텍스트(102)와 관련된(또는 일치되는) 텍스트를 검색한다. 예를 들어, 컴퓨팅 기기(110)는 문서 라이브러리(120)로부터 문서(130)를 획득하고 문서(130)의 일부 예를 들어, "주리첸의 남편이 유덕화이다"와 같은 문장을 추출하여 텍스트(132)로 한다. 이어서, 컴퓨팅 기기(110)는 텍스트(132) 및 (102)의 관련도를 출력(104)으로 확정한다. 검색 쿼리의 애플리케이션에 있어서, 확정된 관련도는 문서(130)가 검색 쿼리에 대한 검색 결과로서 사용자에게 제시될 수 있는지 및/또는 검색 결과에 있어서의 문서(130)의 순위에 영향을 줄 수 있다.

수많은 관련도 확정 기술에 있어서, 텍스트 간의 문자 또는 단어 레벨에서의 공동 출현

, 즉 동일한 문자 또는 단어가 두개의 텍스트에 나타나는 경우가 주로 고려되어 왔다. 그러나, 이러한 명시적인 문자 또는 단어 레벨의 정보는 텍스트의 심층 의미를 포착하기 어렵기 때문에 관련도 확정의 정확도가 만족스럽지 못하다. 문서 순위를 고려하는 애플리케이션에 있어서, 사용자의 점프관계와 웹 페이지의 품질을 사용하여 웹 페이지 유형의 문서를 배열하는 방안(전형적인 방안은 "PageRank"모델이라고 함)이 제기되어 있지만, 이러한 방안은 웹 페이지와 검색 쿼리 간의 관련도가 정확하게 측정되어 있지 않다. 딥 러닝 알고리즘의 지속적인 발전을 통해, 텍스트 관련도 계산 문제를 분류 또는 순서 배열 문제로 모델링하고, 수동으로 부동한 양상의 특징을 구성하거나, 알고리즘을 사용하여 심층 특징을 학습한 다음 특징을 기반으로 관련도 혹은 매칭정도를 확정하는 방안도 제출되어 있다. 그러나 인공 구성 특징은 대량의 인력을 소모하고 쿼리 텍스트를 심도있게 이해하기가 어려우며, 단어 레벨상의 특징 학습도 텍스트에 대한 정확한 이해를 해결하는 문제 및 일치성 문제에 직면하고 있다.

본 개시의 실시예에 따라 개선된 텍스트 관련도 확정 방안 제안된다. 해당 방안에서는 관련도 확정의 정확성을 향상시키기 위해 지식 베이스가 도입된다. 구체적으로, 엔티티 연관 수단에 의해 두개의 텍스트를 지식 베이스에 있어서의 대응되는 엔티티와 연관시킨 후, 두 텍스트에 대응하는 엔티티 사이의 엔티티 관련도에 기초하여 텍스트 사이의 텍스트 관련도를 확정한다. 이러한 방식으로, 지식 베이스에 있어서 지식 요소 레벨의 관련도에 의해 텍스트 관련도에 대한 확정의 정확도를 향상시킬 수 있다.

이하, 첨부 도면을 참조하면서 본 개시의 실시형태를 구체적으로 설명한다. 도2는 본 개시의 실시예에 따른 텍스트 유사도를 확정하는 예시적인 환경(200)의 개략도를 도시한다. 도1에 도시된 환경(100)과 비교하여, 환경(200)에 있어서의 컴퓨팅 기기(210)는 텍스트(102) "화자이의 아내는 누구입니까?"와 텍스트(132) "주리첸의 남편이 유덕화입니다"와의 텍스트 관련도를 확정할 시, 미리 정의된 지식 베이스(240)도 참조함으로써 텍스트(102)와 텍스트(132) 사이의 엔티티 레벨의 관련도를 확정할 수 있다. 도2의 예에 있어서, 텍스트(102) 및 (132)는 특정적인 내용으로 제공되었지만, 이는 단지 발명을 설명하기 위한 것임을 이해해야 한다. 다른 실시예에 있어서, 컴퓨팅 기기(210)는 임의의 두 텍스트 사이의 텍스트 관련도를 확정할 수 있다.

이해를 돕기 위해 먼저 지식 베이스(240)를 간단하게 소개하기로 한다. 명세서에서 사용된 "지식 베이스"(KB)는 "지식 맵” 또는 "지식도"라고도 불리우며 이러한 용어는 본 명세서에서 상호 교환하여 사용된다. 지식 베이스는 대량의 지식의 집합이다. 지식 베이스는 복수의 지식 요소를 포함할 수 있으며, 이러한 지식 요소 중 둘 이상의 지식 요소가 지식 표현을 구성한다. 지식의 예로는 예를 들어 "유덕화의 아내는 주리첸이다", "유덕화의 직업은 가수이다", "유덕화의 생일은 1961년 9월 27일이다” 등과 같은 사실 또는 현상이다.

지식 베이스에 있어서 지식 요소에는 엔티티, 엔티티 간의 관계 및 엔티티 간의 속성이 포함된다. 본 명세서에서 사용되는 "엔티티"는 진실 세계에 존재하는 각종 대상 및 개념, 예컨대 인물, 지리적 위치, 조직, 브랜드, 직업, 날짜 등을 가리킨다. 상기 지식의 예에 있어서, "엔티티"는 인물 "유덕화” 및 "주리첸", 직업 "가수”, 날짜 "1961.9.27"을 포함한다. 본 명세서에서 사용되는 용어 "관계"는 두 엔티티 사이의 연관을 지칭하며, 예를 들어 유덕화와 주리첸 간의 관계는 부부이다. 본 명세서에서 사용되는 용어 "속성"은 엔티티 자체의 성질을 지칭한다. 인물을 예로 들어, 그 속성에는 직업, 생일, 대표 작품, 나이, 신장, 체중, 성별 등이 포함될 수 있다. 엔티티의 속성은 경우에 따라 엔티티의 일종 명사성 관계로 간주될 수 있으므로, 지식 베이스는 매개 엔티티의 하나 이상의 관계를 설명한다.

컴퓨터의 처리 및 이해를 용이하게 하기 위해, 지식 베이스에 있어서의 지식은 예를 들어(제1 엔티티, 관계 / 속성, 제2 엔티티) 트리플(triple)형태로 표현될 수 있다. 예를 들어, "유덕화의 아내는 주리첸입니다"라는 지식은 트리플(Liu Dehua, Wife, Zhu Liqian)로 표현될 수 있다. 본 명세서에 있어서 관계 또는 특성(예를 들어 아내)을 "술어"라고 할 수 있으며, 해당 관계 또는 속성을 가진 두 엔티티를 "주어” 또는 "보어"라고 할 수 있다. 하나의 엔티티를 노드로 간주하고 엔티티 간의 관계 및 속성 등을 에지로 간주하면 대량의 트리플이 포함된 지식 베이스는 거대한 지식도를 형성한다. 엔티티, 관계/속성 등과 같은 지식 요소를 연관시킴으로써 지식 베이스로부터 상응한 지식을 쉽게 얻을 수 있다.

도2의 지식 베이스(240)는 Freebase, DBpedia, YAGO, 개방형 정보 추출(Open Information Extraction, Open IE) 및 논스톱 언어 학습(Never-Ending Language Learning，NELL)을 포함하지만 이에 제한되지 않는 임의의 개발되었거나 개발될 지식 베이스일 수 있다. 도2에는 또한, 지식 베이스(240) 중 엔티티 "유덕화”와 관련된 지식 부분(240)도 도시되어 있으며, 엔티티 "유덕화”(201)와 기타 엔티티와의 관계/속성이 도시되어 있다. 예를 들어, 엔티티 "유덕화"(201)의 속성 "대표작"(202)은 영화 엔티티 "As Tears Go by"(203)의 관계가 대표작임을 가리키며, 이는 "유덕화의 대표작은 As Tears Go by"이라는 지식을 나타내며, 엔티티 "유덕화"(201)와 인물 엔티티 "주리첸"(205) 사이의 관계는 "부부"(204)이며, 이는 "유덕화와 주리첸은 부부관계이다"라는 지식을 나타내며, 엔티티 "유덕화"(201)의 "직업"속성(206) 및 "생일” 속성(208)은 엔티티 "가수"(207) 및 엔티티 "1961.9.27”(209)을 각각 가리키며, "유덕화의 직업은 가수이다", "유덕화의 생일은 1961년 9월 27일이다"라는 지식을 나타낸다. 도2에 도시된 지식 부분(240) 및 그 배열방식은 단지 하나의 특정적인 예라는 것을 이해해야 한다. 다른 예에 있어서, 엔티티 "유덕화"와 관련된 지식은 부동하게 배열될 수도 있으며, 지식 베이스(240)는 보다 많은, 보다 적은 또는 부동한 지식 및/또는 기타 방식으로 배열되고 제시된 지시를 포함할 수 있다.

지식 베이스에 있어서, 쉽게 구별하기 위해 부동한 지식 요소에는 그에 대응하는 식별자(ID)가 할당될 수 있으며, 이러한 식별자는 대응하는 지식 요소를 유일하게 식별할 수 있다. 또한, 매개 지식 요소는 대응하는 지식 요소를 지시하기 위한 하나 이상의 지칭(명칭이라고도 함)을 가질 수 있다. 도2의 예시적인 지식 부분(242)에 있어서 매개 엔티티, 관계 및 속성에는 단일 지칭이 도시되어 있지만, 하나 이상의 요소는 기타 지칭을 가질 수 있다. 여러 지칭을 가진 지식 요소의 경우 이러한 지칭은 동의어, 동일한 대상의 부동한 칭호 등일 수 있다. 예를 들어, 엔티티 "유덕화"의 경우, "유덕화"라는 지칭 외에 해당 가수의 다른 명칭을 갖고 있으며, 애칭 "華仔”, 영어 이름 "Andy Lau" 등과 같이 모두 해당 엔티티의 지칭으로 사용될 수 있다. 어떤 경우에는, 예를 들어, 가수 LiNa에 대응하는 엔티티 및 테니스 선수 LiNa에 대응하는 엔티티가 모두 "LiNa"라고 지칭을 갖는 것과 같이, 부동한 지식 요소는 동일한 지칭을 가질 수도 있다.

지식 베이스(240)는 임의의 저장 시스템, 저장 디바이스, 데이터베이스에 저장될 수 있음을 이해해야 한다. 문서 라이브러리(120)와 분리된 것으로 도시되어 있지만, 지식 베이스(240)는 문서 라이브러리(120)와 동일한 데이터베이스에 저장될 수도 있다. 지식 베이스(240)의 지식은 부단히 확장, 삭제, 수정 및/또는 업데이트될 수 있다.

본 개시의 실시예에 따르면, 컴퓨팅 기기(210)는 텍스트(102)와 텍스트(132) 간의 텍스트 관련도(214)를 확정하도록 구성된다. 텍스트 관련도(214)의 확정 결과는 예를 들어, 기타 디바이스에 제공되어 사용 또는 저장되거나 사용자에게 프리젠테이션될 수 있다. 컴퓨팅 기기(210)는 또한 확정된 텍스트 관련도(214)를 국부적으로 저장할 수도 있다. 텍스트(102) 및 텍스트(132)는 각각 하나 이상의 문자, 단어 등으로 구성된 임의의 소스로부터의 텍스트일 수 있다. 도2의 예에서, 텍스트(102)는 사용자의 검색 쿼리에 포함되고, 텍스트(132)는 문서(130)의 일부 또는 전부이다. 이러한 예에서, 문서(130)는 검색 쿼리에 대한 후보 문서이고, 컴퓨팅 기기(210)는 문서(130) 중의 텍스트(132)가 검색 쿼리 중의 텍스트(102)와 관련되어 있는지 또는 일치한지를 확정하도록 구성된다. 텍스트 관련도의 크기는 문서(130)가 검색 쿼리에 대한 검색 결과로서 사용자에게 반환될 수 있는지를 확정하는데 사용될 수 있으며, 또한 모든 검색 결과에 있어서의 문서(130)의 순위를 확정할 수 있다. 예를 들어, 텍스트(132)가 검색 쿼리에 있어서의 텍스트(102)와 높은 관련도를 갖고 있을 경우, 대응되는 문서(130)는 검색 결과에 있어서 보다 높은 순위를 가질 수 있다. 지식 베이스 도입을 통해 사용자의 요구를 보다 잘 이해할 수 있게 되어 보다 일치한 결과를 사용자에게 제공할 수 있다.

일부 예에 있어서, 텍스트(102)는 전체 검색 쿼리를 포함하고, 텍스트(132)는 문서(130)의 한 단락, 한 문장 또는 다른 세분성으로 나누어진 문서 단편을 포함할 수 있다. 문서(130)는 문서 라이브러리(120)에 있는 임의의 문서일 수 있으며, 컴퓨팅 기기(210)는 문서(130) 중의 각 세그먼트에 대해 텍스트(102)와의 텍스트 관련도 확정을 수행할 수 있으며, 문서 라이브러리(120)의 하나 이상의 문서에 대해 각각 텍스트 관련도 확정을 수행할 수 있다.

검색 애플리케이션에서 텍스트 관련도를 확정하는 외에도, 컴퓨팅 기기(210)는 임의의 두 문서를 래원으로 하는 텍스트(102)와 텍스트(132) 간의 텍스트 관련도를 확정할 수 있다. 예를 들어, 문서 피드 애플리케이션, 예를 들어, 뉴스, 핫스팟 또는 사용자 관심사 기반 추천과 같은 애플리케이션에 있어서, 임의의 두 후보 문서 중의 텍스트 간의 관련도를 확정할 수 있다. 이러한 애플리케이션에 있어서, 텍스트(102) 및 텍스트(132)는 문서로부터 제공된 예를 들어, 문서의 일부분(한개 문장 또는 한개 단락 등)일수 있다. 확정된 텍스트 관련도 또는 두 문서의 전체적인 텍스트 관련도를 사용하여 문서 피드시 대응하는 두 문서의 순위를 확정할 수 있다. 예를 들어, 컨텐츠 피드의 다양화를 실현하기 위해, 텍스트 관련성이 높은 문서 사이의 거리가 증가할 수 있으며, 이에 따라 사용자는 보다 많은 부동한 문서를 얻을수 있게 된다. 대안적으로, 수요에 따라 텍스트 관련성이 높은 문서를 집중적으로 제공할 수도 있다.

텍스트(102) 및 텍스트(132)의 래원에 관계없이, 두 텍스트의 관련도를 확정함에 있어서, 본 개시의 실시예에 따라, 컴퓨팅 기기(210)는 지식 베이스(240)로부터 텍스트(102)(설명의 편리를 위해 텍스트에 있어서 때로는 “제1 텍스트”로도 지칭됨)와 서로 연관되는 지식 요소(설명의 편리를 위해 텍스트에 있어서 때로는 "제1 지식 요소 세트"로도 지칭됨)를 확정한다. 유사하게, 텍스트(132)에 대해, 컴퓨팅 기기(210)는 또한 지식 베이스(240)로부터 텍스트(132)(설명의 편리를 위해 텍스트에 있어서 때로는 “제2 텍스트”로도 지칭됨)와 서로 연관되는 지식 요소(설명의 편리를 위해 텍스트에 있어서 때로는 "제2 지식 요소 세트"로도 지칭됨)를 확정한다. 이상에서 설명한 바와 같이, 지식 베이스에 있어서의 지식 요소는 엔티티, 엔티티 간의 관계 및/또는 속성 등을 포함할 수 있다. 텍스트(102) 및 텍스트(132)에 구체적으로 포함되는 컨텐츠에 따라, 제1 세트 및/또는 제2 세트의 지식 요소는 하나 이상의 엔티티, 엔티티 간의 관계 및/또는 엔티티의 속성 등을 포함할 수 있다.

텍스트에 나타나는 지식 요소를 확정하는 프로세스는 지식 요소 또는 엔티티 연결, 링크 또는 식별이라고도 불리우며, 텍스트에 설명된 오브젝트가 실제로 지식 베이스 중의 해당 지식 요소에 대응하는지 식별하기 위해서이다. 컴퓨팅 기기(210)는 각종 연관 / 링크 / 라벨링 기술을 이용하여, 지식 베이스(240)에 있어서의 지식 요소와 텍스트(102) 및 텍스트(132) 간의 연관을 확정할 수 있으며, 본 개시의 실시예의 범위는 이에 대해서는 한정하지 않는다. 도2의 예시에서, 컴퓨팅 기기(210)는 엔티티 연관을 수행한 후, 텍스트(102)에 나타나는 "화자이” 및 "아내"가 지식베이스(240)에 있어서의 엔티티 "유덕화"(201) 및 관계 "부부"(204)와 연관될 수 있다고 확정할 수 있다. 이외에, 텍스트(132)에 나타나는 "주리첸", "남편", "유덕화"는 지식베이스(240)에 있어서의 엔티티 "주리첸"(205), 관계 "부부"(204) 및 엔티티 "유덕화"와 연관될 수 있다고 확정할 수 있다.

컴퓨팅 기기(210)는 텍스트(102)와 관련되는 제1 지식 요소 세트와 텍스트(132)와 관련되는 제2 지식 요소 세트 간의 지식 요소 관련도를 확정하고, 적어도 유사도에 기초하여 텍스트(132)와 텍스트(102)의 텍스트 관련도를 확정하도록 구성된다. 지식 베이스의 지식 요소가 합리적으로 구성되고, 지식 요소의 모호성 제거, 지식 요소의 관계 / 속성 추출 등이 실현되어 있어 지식 베이스의 보조로 텍스트의 관련도를 보다 정확하게 확정할 수 있다. 따라서, 지식 요소의 유사도가 보다 높거나 보다 강한 관련도를 갖는 경우, 두 텍스트 간의 관련도도 보다 높다는 것을 나타낼 수 있다.

일부 실시예에서, 지식 요소 간의 지식 요소 관련도는 미리 정해진 규칙으로 추출된 커스텀 특징에 의해 확정될 수 있고 / 혹은 기계 학습 방법에 의해 추출된 딥러닝 특징에 기초하여 확정될 수 있다. 일부 실시예에서, 예를 들어, 관련도를 확정하는 텍스트에 지식 베이스의 지식 요소가 아무도 포함되어 있지 않은 상황에서 여전히 실행할 경우, 애플리케이션의 안정성을 보장하기 위해, 텍스트(102) 및 (132) 자체에 기초하여 텍스트 관련도를 확정할 수도 있다. 이 방면에서, 미리 확정된 규칙에 의해 텍스트(102) 및 (132)의 커스텀 특징을 추출하고 / 혹은 기계 학습 방법에 의해 텍스트(102) 및 (132)의 딥러닝 특징을 확정하는 것도 고려할 수 있다.

커스텀 특징은 지식 요소 및/또는 텍스트의 모종 방면을 나타내기 위한, 간단한 규칙에 따라 확정되는 특성을 가리킨다. 딥러닝 특징에 비해, 커스텀 특징은 얕은 지식 특징이라고도 할수 있다. 지식 요소에 대해, 일부 실시예에서, 텍스트(102)와 관련된 제1 지식 요소 세트와 텍스트(132)와 관련된 제2 지식 요소 세트 간의 유사도를 확정할 수 있다. 상기 유사도는 제1 지식 요소 세트와 제2 지식 요소 세트에 있어서, 지식베이스(240)에서 동일한 지식 요소(예를 들어, 엔티티, 관계 및/또는 속성)가 포함되는 비율 및/또는 동일한 지식 요소를 사용하는 지칭의 비율을 나타낸다. 일 실시예에서, 컴퓨팅 기기(210)는 제1 지식 요소 세트 및 제2 지식 요소 세트에 있어서, 지식베이스에서 동일한 식별자를 갖는 지식 요소의 수를 확정할 수 있다. 지식 요소의 지칭과는 달리, 지식 요소의 식별은 지식베이스에 있어서 지식 요소를 유일하게 식별하므로, 동일한 식별자에 의해 동일한 지식 요소를 확정함으로써, 부동한 지식 요소가 동일한 지칭을 갖고 있어 관련도 확정의 정확성이 하강하는 것을 회피할 수 있다.

컴퓨팅 기기(210)는 지식 요소 관련도를 확정하기 위해, 동일한 식별자를 갖는 지식 요소 수에 기초하여 두 지식 요소 세트 간의 유사도를 확정할 수 있다. 두 지식 요소 세트 간의 유사도는 동일하게 식별된 지식 요소의 수로 표시될 수 있으며, 동일한 식별자를 갖는 지식 요소의 수와 제1 지식 요소 세트의 총 요소 수와의 비, 또는 제2 지식 요소 세트의 총 요소 수와의 비, 또는 두 세트의 총 요소 수의 합과의 비로 표시될 수 있다. 이하, 동일하게 식별된 지식 요소 수와 제1 지식 요소 세트의 요소 수 간의 비에 기초하여 확정된 지식 요소 간의 유사도의 일예를 나타낸다.

id_q_i는 제1 지식 요소 세트의 i번째 지식 요소의 식별자(ID)를 나타내고, 제1 지식 요소 세트는 n개의 지식 요소를 포함하고, id_d_j는 제2 지식 요소 세트의 j번째 지식 요소의 식별자를 나타내고, 제2 지식 요소 세트는 m개의 지식 요소를 포함하고, 식(1)은 제1 지식 요소 세트 중의 임의의 것에 대해, 제2 지식 요소 세트에 동일한 식별자를 갖는 지식 요소가 존재하는지 여부를 확정할 수 있다. 제1 세트의 총 요소 수 n에 대한 제1 지식 요소 세트 중 동일한 식별자를 갖는 요소 수의 비는 지식 요소의 관련도를 확정하기 위한 지식 요소의 유사도 표시에 사용된다. 두 지식 요소 세트 간의 식별 레벨 상의 유사도는 다른 방식으로도 확정될 수 있음을 이해할 수 있다.

이상 지식 요소의 유일한 식별자를 이용하여 제1 지식 요소 세트 및 제2 지식 요소 세트가 지식베이스(240)중의 동일한 요소를 가리키는지 여부를 확정한다. 대안적으로 또는 추가적으로, 컴퓨팅 기기(210)는 지식 요소 관련도를 확정하는데 사용하기 위해, 제1 지식 요소 세트 및 제2 지식 요소 세트의 지칭 측면의 유사도를 확정할 수 있다. 구체적으로, 컴퓨팅 기기(210)는 텍스트(102)에서 제1 지식 요소 세트와 연관시키기 위한 제1 텍스트 아이템 세트를 식별하고, 텍스트(132)에서 제2 지식 요소 세트와 연관시키기 위한 제2 텍스트 아이템 세트를 식별하고, 이 두 텍스트 아이템 세트 간의 텍스트 유사도를 확정한다. 이 텍스트 아이템들은 텍스트(102) 및 (132)로부터 지식베이스(240)의 지식 요소를 링크하기 위한 텍스트 세그먼트들이다. 매개 텍스트 아이템은 하나 이상의 문자, 단어 등을 포함할 수 있다. 예를 들어, 도2의 예에서, 텍스트(102)의 텍스트 아이템은 "화자이" 및 "아내", 텍스트(132)의 텍스트 아이템은 "주리첸", "남편” 및 "유덕화"이며, 이들 텍스트 아이템은 각각 해당하는 지식 요소( 예를 들어, 엔티티, 관계 또는 특성)의 지칭이기도 하다. 컴퓨팅 기기(210)는 텍스트 유사도 레벨에 기초하여 두 지식 요소 세트의 관련도를 확정할 수 있다.

텍스트 유사도 확정시, 컴퓨팅 기기(210)는 제1 텍스트 아이템 세트의 제1 텍스트 벡터 표현 세트를 확정하고, 제2 텍스트 아이템 세트의 제2 텍스트 벡터 표현 세트를 확정한 다음, 제1 텍스트 벡터 표현 세트의 매개 벡터 표현과 제2 텍스트 벡터 표현 세트의 매개 벡터 표현 간의 거리를 확정할 수 있다. 텍스트 아이템의 "벡터 표현"은 텍스트 아이템의 벡터 코딩 또는 임베딩(embedding)으로 불리울 수도 있다. 매개 텍스트 아이템의 벡터 표현은 일정한 차원의 여러 수치들로 구성될 수 있다. 부동한 텍스트 아이템의 벡터 표현은 동일한 차원일 수 있지만 포함된 수치는 부동하다. 텍스트 아이템의 벡터 표현들 간의 거리, 차이 또는 유사도는 또한 부동한 텍스트 아이템들 간의 시맨틱 유사도를 나타낼 수 있다. 텍스트 아이템을 벡터 표현으로 매핑하여 처리함으로써 언어들 사이의 차이를 효과적으로 피면하고 애플리케이션 프로그램 국한성을 줄일 수 있다. 본 명세서에서 언급된 텍스트 아이템은 지식베이스(240)의 일부 지식 요소의 지칭을 가리키므로, 일부 실시예에 있어서, 지식베이스(240)의 매개 지식 요소의 하나 이상의 지칭에 대응하는 벡터 표현을 미리 정의할 수있다. 컴퓨팅 기기(210)는 지칭과 벡터 표현 간의 소정 매핑 관계에 기초하여 제1 및 제2 텍스트 아이템 세트의 벡터 표현을 확정할 수 있다.

일부 실시예들에서, 제1 텍스트 벡터 표현 세트에 기초하여, 해당 세트의 매개 텍스트 벡터 표현과 제2 세트의 매개 텍스트 벡터 표현 간의 거리의 최대치, 평균치 또는 중간치를 확정한 다음, 제1 세트의 모든 텍스트 벡터 표현에 대해 확정된 최대 또는 평균 거리로부터 다시 평균치를 계산하거나 또는 최대치 또는 중간치를 취하여 두 세트의 텍스트 벡터 표현 간의 유사도로서 표시할 수 있다. 이하 공식(2)는 두 세트의 텍스트 벡터 표현 간의 텍스트 유사도를 확정하는 하나의 예시를 나타낸다.

여기서 mention_q_i은 제 1 텍스트 아이템 세트 중 i 번째 텍스트 아이템(제1 지식 요소 세트의 i 번째의 지식 요소 지칭에도 대응한다)의 벡터 표현을 나타내고, mention_d_j은 제 2 텍스트 아이템 세트의 j 번째 텍스트 아이템(제2 지식 요소 세트의 j 번째의 지식 요소 지칭에도 대응한다)의 벡터 표현을 나타낸다. 식(2)는 제1 텍스트 아이템 세트의 벡터 표현 중 어느 하나에 대해 제2 텍스트 아이템 세트의 매개 벡터 표현 사이의 차이를 확정한 후, 최대 차이 값을 선택하는 것을 나타낸다. 제1 텍스트 아이템 세트의 모든 텍스트 아이템의 벡터 표현에 대해, 선택된 대응하는 최대 차이 값의 합을 통계하고, 제1 텍스트 아이템 세트 수의 평균을 취한다. 평균하여 얻은 값을 두 텍스트 아이템 세트 간의 텍스트 유사도를 지식 요소 관련도 확정에 이용한다.

위의 논의는 지식 요소의 동일한 식별자 및/또는 지식 요소에 대응하는 텍스트 아이템의 텍스트 유사도에 따라 지식 요소 관련도를 확정하는 것을 설명하였다. 이러한 방면의 특징은 통계, 간단한 계산 등을 통해 얻을 수 있기 때문에, 지식 요소의 커스텀 특징으로 할 수있다. 다른 실시예에서는 상술한 바와 같이, 컴퓨팅 기기(210)는 대안적으로 또는 추가적으로 기계 학습 방법으로 딥러닝 특징을 확정하고 있다. 텍스트(102) 및 (132) 자체에 대해서도 마찬가지로 커스텀 특징 및 딥러닝 특징을 확정할 수 있다. 기계 학습 방법의 도입은 모델에 대한 학습 및 사용이 연관된다. 이러한 예시적인 형태를 전면적으로 설명하기 위해 도3을 참조하면서 설명하기로 한다. 도3은 본 발명의 일부 실시예에 따른 학습 네트워크를 기반으로 텍스트 관련도를 확정하는 시스템(300)의 개략적인 블록도를 나타낸다.

본 명세서에서 사용되는 용어 "학습 네트워크"는 학습 데이터로부터 상응한 입력과 출력 사이의 매핑 관계를 학습할 수 있고, 이에 의해 훈련으로부터 얻은 파라미터 세트 기초하여 주어진 입력을 처리하여 대응하는 출력을 생성하는 모델을 말한다. "학습 네트워크"는 "신경망", "학습 모델", "네트워크" 또는 "모델"로 불리는 경우도 있다. 이러한 용어는 본 명세서에서 호환적으로 사용될 수 있다.

도3에 표시된 시스템(300)은 도2의 컴퓨팅 기기(210)에 구현될 수 있다. 설명을 용이하게 하기 위해, 도2를 참조하면서 도3의 예시적인 구조를 설명하기로 한다. 시스템(300)은 학습 네트워크 부분(302)을 포함하며, 학습 네트워크(302) 이전의 처리 부분도 포함한다. 구체적으로는, 텍스트(102) 및 (132)에 대해, 단어 분할 모듈(310-1) 및 (310-2)(단어 분할 모듈 310로 총칭할 수 있음)은 텍스트(102) 및 (132)를 각각 단어 분할하여 텍스트 아이템 사이가 공백으로 구분되어 있는 단어 분할 결과(312) 및 (314)를 얻도록 구성된다. 텍스트의 단어 분할은 현재 기존하는 또는 미래에 개발되는 다양한 단어 분할 기술을 사용하여 수행할 수 있다. 일부 실시예에서, 영어문 등 문자 구분 기호를 갖는 언어는 단어 분할 모듈(310)을 사용하지 않아도 된다. 다른 실시예에서 텍스트(102) 및/또는 텍스트(132)의 매개 단어 또는 매개 문자들은 특별한 단어 분할 기술이 필요없이 다음 계층의 입력으로 사용될 수도 있다. 본 발명의 범위는 이에 대해 한정하지 않는다.

시스템(300)은 또한, 텍스트(102) 및 (132)를 지식베이스(240)의 지식 요소에 각각 연관시켜 관련 결과(322) 및 (324)를 얻도록 구성되는 지식 요소 연관 모듈(320-1) 및 (320-2)(지식 요소 관리 모듈(320)로 총칭할 수 있음)을 더 포함하고, 텍스트(102)가 지식베이스(240)의 제1 지식 요소 세트, 즉 엔티티(201) 및 관계(204)와 관련되고, 텍스트(132)가 지식베이스(240)의 제2 지식 요소 세트, 즉 엔티티(205), 관계(204) 및 엔티티(201)와 관결되는 것을 나타낸다.

시스템(300)은 지식 요소 관리 모듈(320)에 의해 확정된 제1 지식 요소 세트와 제2 지식 요소 세트 간의 얕은 커스텀 특징에 사용되는 커스텀 특징 확정 모듈(330)을 포함하며, 커스텀 특징은 제1 지식 요소 세트와 제2 지식 요소 세트 간의 지식 요소 관련도를 특성화하기 위해 사용되는 식별 레벨상의 유사도 및 지칭방면의 텍스트 유사도를 포함한다. 이 두 방면의 유사도는 예를 들어 텍스트(102)와 텍스트(132) 간의 텍스트 관련도(214)를 확정하기 위해 커스텀 특징(332)으로서 후속의 관련도 확정 모듈(360)에 제공된다.

커스텀 특징 확정 모듈(330)은 지식 요소에 연관되는 커스텀 특징을 추출 하는 외에, 텍스트(102)과(132)의 커스텀 특징을 얕은 텍스트 관련도로서 확정할 수 있다. 일부 실시예에서는 커스텀 특징 확정 모듈(330)은 텍스트(102) 및 (132)에 나타나는 동일한 또는 유사한 단어의 수 또는 빈도를 확정할 수 있다. 유사한 단어는 동의어, 동일한 내용의 다른 표현방식(예를 들어, 약어, 부동한 언어의 표현 등)일 수 있다. 일반적으로 텍스트(102)의 단어가 텍스트(132)에 많이 출현할수록 텍스트(132)와 텍스트(102)와의 관련도가 높은 것을 설명한다. 일부 실시예에서, 텍스트(102) 및 (132)에 나타나는 동일한 / 유사한 단어의 수를 계산한 후, 상기 수와 텍스트(102)의 단어의 총 수와의 비율, 텍스트(132)의 단어의 총 수와의 비율을 동일한 / 유사한 단어가 출현하는 빈도로 확정할 수 있다. 일부 실시예에서는 커스텀 특징 확정 모듈(330)은 또한 텍스트(102) 및/또는 텍스트(132) 자체의 통계 정보를 확정할 수 있으며, 여기에는 텍스트(102) 및/또는 텍스트(132)의 문자 수, 단어 수, 소스 신뢰도 등, 텍스트(102)의 분류와 텍스트(132)의 분류 간의 유사도 등이 포함되지만 이에 한정되지 않는다. 이러한 통계 정보 및/또는 동일한 / 유사한 단어의 수 및/또는 빈도는 커스텀 특징(332)으로서 후속 관련도 확정 모듈(360)에 제공된다.

지식 요소 및/또는 텍스트의 딥러닝 특징을 추출하기 전에 일반적으로 지식 요소 및/또는 텍스트가 벡터 표현에 매핑된다. 시스템(300)은 텍스트(102)에 관련된 제1 지식 요소 세트(즉, 관련 결과(322))에 대응하는 제1 결합 벡터 표현(342-1)와 텍스트(132)에 관련된 제2 지식 요소 세트(즉 관련 결과(324))에 대응하는 제2 결합 벡터 표현(342-4)을 각각 확정하기 위한 표현 확정 모듈(340-2) 및 (340-4)을 포함한다. 시스템(300)은 텍스트(102)의 제1 텍스트 벡터 표현(342-1) 및 텍스트(132)의 제2 텍스트 벡터 표현(342-3)을 각각 확정하기 위한, 특히 텍스트(132)의 단어 분할 결과(312) 및 (314)에 기초하여 제1 텍스트 벡터 표현(342-1) 및 제2 텍스트 벡터 표현(342-3)을 확정하기 위한 표현 확정 모듈(340-1) 및 (340-3)을 포함한다. 설명의 편의상 표현 확정 모듈(340-1),(340-2),(340-3) 및 (340-4)는 표현 확정 모듈(340)로 총칭할 수 있다.

일반적으로 벡터 표현을 확정할 때, 표현 확정 모듈(340)은 소정의 매핑 관계에 따라 벡터 표현을 확정한다. 도4는 표현 확정 모듈(340)의 일례를 나타낸다. 표현 확정 모듈(340)은 핫코드 모듈(410) 및 벡터화 모듈(420)을 포함한다. 핫코드 모듈(410)은 입력된 각 텍스트 아이템(예를 들어, 단어 분할 결과(312),(314)중 단어 분할된 텍스트 아이템 또는 관련 결과(322),(324)중 매개 지식 요소의 지칭에 대응하는 텍스트 아이템)을 핫코드 또는 원 핫코드(one-hot code)에 매핑하도록 구성된다. 원 핫코드의 차원은 데이터베이스 또는 코퍼스 내의 다른 텍스트 아이템의 수와 관련되며, 해당 텍스트 아이템에 대응하는 요소는 1, 기타 다른 요소는 0으로 표기된다.

벡터화 모듈(420)은 핫코드 모듈(410)에 의해 출력된 각 텍스트 아이템의 원 핫코드를 더욱 축소한다. 구체적으로, 벡터화 모듈(420)은 입력된 지식 요소(표현 확정 모듈(340-2) 및 (340-4)에 대해) 또는 텍스트 아이템(표현 확정 모듈(340-1) 및 (340-3)에 대해)과 벡터 표현과의 소정의 매핑 관계를 나타내며, 매개 지식 요소 및/또는 텍스트 아이템에 대응하는 원 핫코드를 소정의 벡터 표현에 매핑하는 소정의 벡터화 모델로 구성되어 있다. 벡터화 모듈(420)은 매개 지식 요소 또는 텍스트 아이템에 대응하는 벡터 표현을 확정한 후, 매개 지식 요소가 대응 텍스트(102) 또는(132) 에서 출현하는 순서를 결합(예를 들어, 캐스케이드) 할 수 있다. 예를 들어, 표현 확정 모듈(340-2)에 대해 지식 요소 "화자이" 및 "아내"에 대응하는 벡터 표현을 결합하여 제1 결합 벡터 표현을 얻을 수 있다. 표현 확정 모듈(340-4)에 관해서는 마찬가지로 제2 결합 벡터 표현을 확정할 수 있다. 표현 확정 모듈(340-1)에 관해서는 단어 분할 후의 단어 분할 결과(312)에 있어서의 매개 텍스트 아이템에 대응하는 벡터 표현을 대응하는 텍스트에 있어서의 텍스트 아이템의 순서에 따라 조합(예를 들어, 케스케이드)하여 제1 텍스트 벡터 표현을 확정할 수 있다. 마찬가지로, 표현 확정 모듈(340-1)에 대해 제2 텍스트 벡터 표현을 확정할 수 있다.

일부 실시예에서, 지식 요소의 벡터 표현을 확정하는데 사용되는 표현 확정 모듈(예를 들어 모듈(340-2) 또는(340-4)), 특히 벡터화 모듈(420)에 의해 사용되는 소정 매핑 관계(때로는 "제1 소정 매핑 관계"라고도 함)는 텍스트의 인접 표현을 확정하는데 사용되는 표현 확정 모듈(예를 들어 모듈(340-1) 또는(340-3))의 벡터화 모듈(420)에 의해 사용되는 소정 매핑 관계(때로는 "제2 소정 매핑 관계"라고도 함)와 다를 수 있다.

일부 실시예에서, 제1 소정 매핑 관계는 지식 요소 레벨에서 벡터화를 실현하고 지식 요소로부터 벡터 표현까지의 매핑을 실현하여 지식베이스(240)에서 동일한 식별자를 갖는 지식 요소가 해당 지식 요소의 지칭(예를 들어, 텍스트에서 대응하는 텍스트 아이템)에 상관없이 동일한 벡터 표현에 매핑되도록 한다. 일부 실시예에서, 제1 소정 매핑 관계는 지식베이스(240)의 지식 요소의 주어, 술어, 보어(SPO) 정보에 기초하여 확정될 수 있다. 구체적으로는 TransE 모델을 이용하여 제1 소정 매핑 관계를 모델링할 수 있으며, 해당 모델은 지식 요소의 SPO 관계가 성립되도록 하는 방법, 예를 들면, S + P = O로 표현되도록 모델화한다. TransE 모델의 입력은 어느 한 지식 요소의 주어(S)의 벡터 표현 및 술어(P)의 벡터 표현이며, 출력은 보어(O)의 벡터 표현이다. 모델 훈련의 목표는 S 및 P의 벡터 표현이 O의 벡터 표현에 사용 가능하도록 하는 것이다. 모델을 지속적으로 훈련함으로써 각 지식 요소를 대응하는 벡터 표현에 매핑하는 제1 매핑 관계를 확정할 수 있다.

일부 실시예에서, 제2 소정 매핑 관계는 지식베이스(240)의 지식 요소의 SPO 정보에 따라 확정할 수도 있다. 제2 소정 매핑 관계는 텍스트 아이템에서 벡터 표현에의 매핑을 실현해야 하기에 예를 들어, cbow(continuous bag-of-word) 모델 등으로 확정할 수 있다. cbow 모델의 입력은 중심 텍스트 아이템의 컨텍스트 텍스트 아이템의 원 핫코드이며, 출력은 해당 중심 텍스트 아이템의 원 핫코드이다. 컨텍스트 텍스트 아이템의 윤곽 묘사는 소정의 단어 창에 의해 한정된다. 일부 실시예에서, SPO 정보를 고려하기때문에 중심 텍스트 아이템과 SPO 관계를 갖는 컨텍스트 텍스트 아이템과 중심 텍스트 아이템 사이의 거리가 예를 들어 최대 한개의 텍스트 아이템 거리로 짧다. 따라서 소정 단어 창을 1로 설정할 수 있다. 지식 요소의 SPO 정보를 이용함으로써 동일한 관계를 가지는 지식 요소의 벡터 표현을 보다 접근시키는 목적을 달성할 수 있다.

이상은 벡터 표현 확정의 일부 예시적인 실시형태만이 주어진 것임을 이해해야 한다. 다른 실시예에서, 지식 요소 및 텍스트 아이템에 대한 벡터 표현은 다른 방법으로 확정될 수 있다. 일부 실시예에서, 지식 요소 및 텍스트 아이템의 벡터 표현은 동일한 매핑 관계를 이용하여 확정될 수 있다. 이 방면에 관해 본 발명의 실시예는 한정하지 않는다.

표현 확정 모듈(340)에 의해 텍스트(102)에 대응하는 텍스트 벡터 표현(342-1), 결합 벡터 표현(342-2)은 각각 특징 추출 모듈(350-1),(350-2)에 제공되고, 텍스트(132)에 대응하는 텍스트 벡터 표현(342-3), 결합 벡터 표현(342-2) 및 (342-4)은 각각 특징 추출 모듈(350-3),(350-4)에 제공된다. 설명을 용이하게 하기 위해, 특징 추출 모듈(350-1),(350-2),(350-3),(350-4)을 특징 추출 모듈(350)로 총칭할 수 있다. 4개의 특징 추출 모듈(350)은 각각 대응하는 특징 표현으로부터 특징(352-1),(352-2),(352-3) 및 (352-4)(특징(352)로 총칭)을 추출한다. 이러한 특징은 훈련된 특징 추출 모듈(350)이 훈련에 의해 얻어진 파라미터에 기초하여 벡터 표현을 처리한 후 확정한 특징 표현이며, 이러한 특징 표현은 대응하는 지식 요소 및/또는 텍스트 아이템 중 텍스트 관련도 확정에 도움이 되는 특징 정보를 주목하는데 도움이 된다.

도5는 특징 추출 모듈(350)의 일례를 도시한다. 특징 추출 모듈(350)은 하나 이상의 재귀 신경망(RNN) 층(512)을 포함하는 제1 네트워크 부분(510)을 포함할 수 있다. RNN 층의 사용은 텍스트의 어순을 포착하는데 도움이 된다. 예를 들어, "사정봉의 아들은 누구입니까", "사정봉은 누구의 아들입니까"라는 두개의 텍스트에 포함된 텍스트 아이템은 같지만 표달한 의미는 전혀 다르므로, 이는 어순에 의한 텍스트의 의미 변화를 RNN의 도움으로 구별하여야 한다. 특징 추출 모듈(350)은 제1 네트워크 부분(510)에 의해 추출된 중간 표현(514)을 계속하여 처리하여 특징(528)을 출력하는 제2 네트워크 부분(520)을 더 포함할 수 있다. 제2 네트워크 부분(520)은 전체적인 특징 표현 능력을 향상시키기 위해 하나 이상의 심층 컨볼루션 신경망(DNN) 층을 포함할 수 있다. 도5에는 제2 네트워크 부분(520)중의 세개의 DNN 층(522),(524) 및 (526)이 도시되어 있다. 각 네트워크 층은 특징 함수와 관련 파라미터에 기초하여 입력을 처리하고 출력을 다음의 네트워크 층에 제공하기 위한 대응하는 처리 유닛 세트(뉴런이라고도 함)를 포함할 수 있다.

특징 추출 모듈(350)은 텍스트 특징 추출의 목적을 달성하기 위해 어떤한 방식으로도 구성될 수 있음을 이해해야 한다. 도5는 특징 추출 모듈(350)의 구체적인 예가 도시되어 있다. 다른 실시예에서, 특징 추출 모듈(350)은 부동한 방식으로 배치될 수도 있다. 예를 들어, 제1 부분(510)과 제2 부분(520)의 위치가 서로 교환될 수도 있고, 보다 많은 RNN 층, DNN 층, 기타 네트워크 층을 포함할 수도 있고, 또는 하나 이상의 RNN 층, DNN 층 등을 포함하지 않을 수도 있다.

일부 실시예에서는 텍스트 자체의 특징 추출을 위한(즉, 단어 분할 결과(312) 및 (314)의 벡터 표현에 대한 특징 추출) 특징 추출 모듈(350-1) 및 (350-3)의 파라미터 세트를 공유할 수 있다. 즉 동일한 네트워크 구성 및 파라미터 세트 값을 사용한다. 일부 실시예에서, 지식 요소의 특징 추출을 위한(즉, 단어 분할 결과(322) 및 (324)의 벡터 표현에 대한 특징 추출) 특징 추출 모듈(350-2) 및 (350-4)의 파라미터 세트는 공유할 수 있다. 즉 동일한 네트워크 구성 및 파라미터 세트 값을 사용한다. 일부 실시예에서, 특징 추출 모듈(350-1),(350-3)은 지식 요소가 텍스트 아이템의 표현, 사용 단어 등 방면과의 차이를 고려하여 특징 추출 모듈(350-2),(350-4)의 파라미터 세트를 공유하지 않을 수 있다. 즉 파라미터 세트의 값이 각각 훈련된다. 이 때, 이러한 특징 추출 모듈의 네트워크 구성(예를 들어, 네트워크 층의 유사성, 수량, 연결 방식 등)은 동일할 수도 있고 상이할 수도 있다. 물론 일부의 실현 형태는 4가지 특징 추출 모듈(350)이 동일한 파라미터 세트를 갖는 값으로 훈련될 수 있다.

계속해서 도3을 참조하면, 각 특징 추출 모듈(350)에 의해 확정된 특징(352)은 관련도 확정 모듈(360)에 제공된다. 관련도 확정 모듈(360)은 매개 특징 추출 모듈(350)과 함께 학습 네트워크(302)를 구성한다. 커스텀 특징 확정 모듈(330)에 의해 확정된 지식 요소 및/또는 텍스트 자체에 대한 얕은 수준 특징(332)도 텍스트(102) 및 텍스트(132) 간의 텍스트 관련도를 확정하기 위해 특징(352)과 함께 사용될 수 있다. 커스텀 특징 확정 모듈(330)에 의한 특징(332)은 관련도 확정 모듈(360) 입력으로서 특징(352)와 스플라이싱 / 캐스케이드될 수 있다. 일부 실시예에서, 관련도 확정 모듈(360)은 텍스트(102) 텍스트(132) 간의 텍스트 관련도(104)를 확정하기 위해, 예를 들어 softmax 함수에 기초하여 입력(즉, 캐스케이드 특징)을 처리할 수 있다. 일부 실시예에서, 관련도 확정 모듈(360)에 의해 출력되는 텍스트 관련도(104)는 텍스트(132)와 텍스트(102)와의 일치 혹은 관련 정도를 나타낼 수 있으며, 및/또는 두 텍스트가 어떠한 정도로 일치 / 관련되지 않는지 여부를 나타낼 수 있다. 지식 요소에 기초하여 취득한 특징 / 유사도 등은 지식 요소 레벨에서 텍스트(102) 및 (132)의 관련도를 나타낼 수 있다. 지식 요소 관련도가 높을수록 텍스트 유사도가 높음을 보여줄 수 있다.

일부 실시예에서는 텍스트 관련도 타스크에 대해, 학습 네트워크(302)는 매개 모듈 파라미터 세트의 값을 확정하기 위해 훈련할 필요가 있다. 훈련 과정의 목적은 학습 네트워크의 파라미터 세트가 초기 값으로부터 부단히 최적화되어 일정한 수렴 조건(즉, 학습 목표)에 도달하도록 하는 것이다. 학습 네트워크(302) 훈련은 컴퓨팅 기기(210)에 의해 실현될 수도 있고, 또는 컴퓨팅 기기(210)의 사용을 위해 컴퓨팅 기기(210) 이외의 다른 기기에 의해 네트워크(302)를 훈련할 수도 있다.

훈련 과정에서 양성 샘플 및 음성 샘플은 지식베이스(240) 또는 기타 지식베이스의 지식을 이용하여 생성할 수 있으며, 양성 샘플은 지식베이스(240)의 지식에 대한 쿼리 및 정확한 지식에 대한 텍스트 표현일 수 있으며, 음성 샘플은 상응한 쿼리 및 오류 또는 무관한 지시의 텍스트 표현일 수 있다. 훈련 과정에서 파라미터 세트 공유가 필요한 특징 추출 모듈(350)에 대해서는 파라미터 업데이트를 동기화하여 수행할 수 있다.

도3은 텍스트 자체와 지식 요소 대한 커스텀 특징 계산과 딥러닝 특징 추출을 실행하는 예를 도시하고 있다. 일부 실시예에서는 도3의 하나 이상의 모듈이 생략 될수도 있다. 예를 들어 텍스트(102) 및/또는(132)에 대해 커스텀 특징 계산 또는 심층 특징 추출을 실행하지 않을 경우 상응한 처리 모듈은 생략할 수 있다.

도6은 본 개시의 일부 실시예에 따른 텍스트 관련도를 확정하는 방법(600)의 흐름도를 나타낸다. 방법(600)은 도2의 컴퓨팅 기기(210)에 의해 실현될 수 있다. 설명을 용이하게 하기 위해, 방법(600)은 도2를 참조하여 설명하기로 한다. 특정 순서로 나타내고 있지만, 방법(600)의 일부 단계는 도시된 것과 다른 순서로 또는 병렬적으로 수행될 수 있음을 이해해야 한다. 이 점에 대해서 본 개시의 실시예는 한정하지 않는다.

610에서 컴퓨팅 기기(210)는 미리 정의된 지식베이스에서 제1 텍스트와 연관된 제1 지식 요소 세트와 제2 텍스트와 연관된 제2 지식 요소 세트를 식별한다. 지식베이스는 지식 요소로 구성된 지식 표현을 포함한다. 620에서 컴퓨팅 기기(210)는 제1 지식 요소 세트와 제2 지식 요소 세트 간의 지식 요소 관련도를 확정한다. 630에서 컴퓨팅 기기(210)는 적어도 지식 요소 관련도에 기초하여 제1 텍스트에 대한 제2 텍스트의 텍스트 관련도를 확정한다.

일부 실시예에서, 제1 텍스트는 검색 쿼리를 포함하고, 제2 텍스트는 후보 문서의 적어도 일부를 포함하며, 관련도는 검색 쿼리에 대한 쿼리 결과에 있어서의 후보 문서의 순위를 확정하는데 사용된다.

일부 실시예에서, 제1 지식 요소 세트 또는 제2 지식 요소 세트는 지식베이스에 있어서의 엔티티, 엔티티 간의 관계 및 엔티티의 속성 중 적어도 하나를 포함한다.

일부 실시예에서, 지식 요소 관련도를 확정하는 단계는 제1 지식 요소 세트 및 제2 지식 요소 세트에 있어서, 지식베이스의 지식 요소를 고유하게 식별하는 동일한 식별자를 갖는 지식 요소의 수를 확정하는 단계와, 동일한 식별자를 가지는 지식 요소의 수에 기초하여 지식 요소 관련도를 확정하는 단계를 포함한다.

일부 실시예에서, 지식 요소 관련도를 확정하는 단계는 제1 지식 요소 세트에 연관시키기 위한 제1 텍스트의 제1 텍스트 아이템 세트와 제2 지식 요소 세트에 연관시키기 위한 제2 텍스트의 제2 텍스트 아이템 세트 간의 텍스트 유사도를 확정하는 단계와, 텍스트 유사도에 기초하여 지식 요소 관련도를 확정하는 단계를 포함한다.

일부 실시예에서, 지식 요소 관련도를 확정하는 단계는 또한, 제1 지식 요소 세트에 대응하는 제1 결합 벡터 표현 및 제2 지식 요소 세트에 대응하는 제2 결합 벡터 표현을 확정하는 단계와, 제1 결합 벡터 표현의 제1 특징 및 제2 결합 벡터 표현의 제2 특징을 추출하는 단계와, 또한 제1 특징 및 제2 특징에 기초하여 지식 요소 관련도를 확정하는 단계를 더 포함한다.

일부 실시예에서, 제1 결합 벡터 표현 및 제2 결합 벡터 표현을 확정하는 단계는 지식 요소와 벡터 표현 간의 제1 소정 매핑 관계에 기초하여 제1 지식 요소 세트의 제1 벡터 표현 세트 및 제2 지식 요소 세트의 제2 벡터 표현 세트를 확정하고, 제1 지식 요소 세트 및 제2 지식 요소 세트에 있어서 지식베이스에서의 동일한 식별자를 갖는 지식 요소가 동일한 벡터 표현에 매핑되는 단계와, 제1 지식 요소 세트가 제1 텍스트 내에서 출현하는 순서에 따라 제1 벡터 표현 세트를 결합하여 제1 결합 벡터 표현을 확정하는 단계와, 제2 지식 요소 세트가 제2 텍스트에서 출현하는 순서에 따라 제2 벡터 표현 세트를 결합하여 제2 결합 벡터 표현을 확정하는 단계를 포함한다.

일부 실시예에서, 제1 소정 매핑 관계는 지식베이스 중의 지식 요소의 주어, 술어, 보어(SPO) 정보에 기초하여 확정된다.

일부 실시예에서, 텍스트 관련도를 확정하는 단계는 또한, 텍스트 아이템 및 벡터 표현 간의 제2 소정 매핑 관계에 기초하여 제1 텍스트와 대응하는 제1 텍스트 벡터 표현 및 제2 텍스트와 대응하는 제2 텍스트 벡터 표현을 확정하는 단계와, 제1 텍스트 벡터 표현의 제3 특징 및 제2 텍스트 벡터 표현의 제4 특징을 추출하는 단계와, 또한 제3 특징 및 제4 특징에 기초하여 텍스트 관련도를 확정하는 단계를 더 포함한다.

일부 실시예에서, 제2 소정 매핑 관계는 텍스트 아이템이 지식베이스에서 서로 관련된 지식 요소의 주어, 술어, 보어(SPO) 정보에 기초하여 확정된다.

도7은 본 개시의 실시예에 따른 텍스트 관련도를 확정하기 위한 장치(700)의 개략적인 블록도를 나타낸다. 장치(700)는 도2의 컴퓨팅 기기(210)에 포함될 수도 있고, 또는 컴퓨팅 기기(210)로 실현될 수도 있다. 도7에 나타낸 바와 같이, 장치(700)는 지식 요소로 구성된 지식 표현을 포함한 미리 정의된 지식베이스로부터 제1 텍스트와 연관되는 제1 지식 요소 세트와 제2 텍스트와 연관되는 제2 지식 요소 세트를 식별하도록 구성된 지식 요소 관련 모듈(710)을 포함한다. 장치(700)는 제1 지식 요소 세트와 제2 지식 요소 세트 간의 지식 요소 관련도를 확정하도록 구성된 요소 관련도 확정 모듈(720)을 더 포함한다. 장치(700)는 적어도 지식 요소 관련도에 기초하여 제2 텍스트의 제1 텍스트에 대한 텍스트 관련도를 확정하도록 구성된 텍스트 관련도 확정 모듈(730)을 더 포함한다.

일부 실시예에서, 제1 지식 요소 세트 또는 제2 지식 요소 세트는 지식베이스의 엔티티, 엔티티 간의 관계 및 엔티티의 속성 중 적어도 하나를 포함한다.

일부 실시예에서, 요소 관련도 확정 모듈(720)은 제1 지식 요소 세트 및 제2 지식 요소 세트 중 지식 요소를 고유하게 식별하는 지식베이스에서 동일한 식별자를 갖는 지식 요소의 수를 확정 하도록 구성된 동일한 식별 모듈과, 동일한 식별자를 가지는 지식 요소의 수에 기초하여 지식 요소 관련도를 확정하도록 구성되어있는 식별자 기반 관련도 확정 모듈을 포함한다.

일부 실시예에서, 요소 관련도 확정 모듈(720)은 제1 텍스트에서 제1 지식 요소 세트와 연관시키기 위한 제1 텍스트 아이템 세트와 제2 텍스트에서 제2 지식 요소 세트와 연관시키기 위한 제2 텍스트 아이템 세트와의 텍스트 유사도를 확정하도록 구성된 텍스트 유사도 확정 모듈과, 텍스트 유사도에 기초하여 지식 요소 관련도를 확정하도록 구성된 유사도 기반 관련도 확정 모듈을 포함한다.

일부 실시예에서, 요소 관련도 확정 모듈(720)은 또한, 제1 지식 요소 세트에 대응하는 제1 결합 벡터 표현 및 제2 지식 요소 세트에 대응하는 제2 결합 벡터 표현을 확정하도록 구성된 제1 표현 확정 모듈과, 제1 결합 벡터 표현의 제1 특징 및 제2 결합 벡터 표현의 제2 특징을 추출하도록 구성된 제1 특징 추출 모듈과, 또한 제1 특징 및 제2 특징에 기초하여 지식 요소 관련도를 확정하도록 구성된 특징 기반 관련도 확정 모듈을 더 포함한다.

일부 실시예에서, 표현 확정 모듈은 지식 요소와 벡터 표현 간의 제1 소정 매핑 관계에 기초하여 제1 지식 요소 세트의 제1 벡터 표현 세트 및 제2 지식 요소 세트의 제2 벡터 표현 세트를 확정하고, 제1 지식 요소 세트 및 제2 지식 요소 세트 중, 지식베이스에서 동일한 식별자를 갖는 지식 요소가 동일한 벡터 표현에 매핑되도록 구성된 개별 표현 확정 모듈과, 제1 지식 요소 세트가 제1 텍스트에서 출현하는 순서에 따라 제1 벡터 표현 세트를 결합하여 제1 결합 벡터 표현을 확정하도록 구성된 제1 결합 모듈과, 제2 지식 요소 세트가 제2 텍스트에서 출현하는 순서에 따라 제2 벡터 표현 세트를 결합하여 제2 결합 벡터 표현을 확정하도록 구성된 제2 결합 모듈을 포함한다.

일부 실시예에서, 제1 소정 매핑 관계는 지식베이스에 있어서의 지식 요소의 주어, 술어, 보어(SPO) 정보에 기초하여 확정된다.

일부 실시예에서 텍스트 관련도 확정 모듈(730)은 또한, 텍스트 아이템과 벡터 표현 간의 제2 소정 매핑 관계에 기초하여 제1 텍스트에 대응하는 제1 텍스트 벡터 표현 및 제2 텍스트에 대응하는 제2 텍스트 벡터 표현을 확정하도록 구성된 제2 표현 확정 모듈과, 제1 텍스트 벡터 표현의 제3 특징 및 제2 텍스트 벡터 표현의 제4 특징을 추출하도록 구성된 제2 특징 추출 모듈과, 또한 제3 특징 및 제4 특징에 기초하여 텍스트 관련도를 확정하도록 구성된 특징 기반 관련도 확정 모듈을 더 포함한다.

도8은 본 개시의 실시예를 실시하는데 적용되는 예시적인 기기(800)의 개략적인 블록도를 나타낸다. 기기(800)는 도2의 컴퓨팅 기기(210)를 구현하는데 적용될 수 있다. 도시된 바와 같이, 기기(800)는 읽기 전용 메모리(ROM)(802)에 저장된 컴퓨터 프로그램 명령, 또는 저장 유닛(808)에서 랜덤 액세스 메모리(RAM)(803)에 로드된 컴퓨터 프로그램 명령에 따라 각종 적당한 작동 및 처리를 수행할 수 있는 컴퓨팅 기기(801)를 구비한다. RAM(803)에는 기기(800)의 조작에 필요한 각종 프로그램 및 데이터도 저장될 수 있다. 컴퓨팅 기기(801), ROM(802) 및 RAM(803)은 버스(804)를 통해 서로 연결되어 있다. 입력 / 출력(I / O) 인터페이스(805)도 버스(804)에 연결되어 있다.

기기(800) 중 I / O 인터페이스(805)에 연결되어 있는 여러 부품으로 키보드, 마우스 등의 입력 유닛(806), 각종 유형의 표시 장치, 스피커 등의 출력 유닛(807), 자기 디스크, 콤팩트 디스크 등 저장 유닛(808), 및 네트워크 카드, 모뎀, 무선 통신 트랜시버 등의 통신 유닛(809)이 포함된다. 통신 유닛(809)은 기기(800)가 인터넷 등의 컴퓨터 네트워크 및/또는 각종 통신 네트워크를 통해 다른 기기와 정보 / 데이터를 교환하도록 허용한다.

컴퓨팅 유닛(801)은 처리 및 계산 기능을 가진 다양한 범용 및/또는 전용 처리 구성 요소일 수 있다. 컴퓨팅 유닛(801)의 몇가지 예는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 각종 전용 인공 지능(AI) 계산 칩, 각종 기계 학습 모델 알고리즘을 수행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하나 이에 한정되지 않는다. 컴퓨팅 유닛(801)은 전술한 매개 방법 및 처리 예를 들어, 방법(600)을 실행한다. 예를 들어, 일부 실시예에서, 방법(600)은 컴퓨터 소프트웨어 프로그램으로 실현될 수 있는 기계 판독 가능 매체, 예를 들면, 저장 유닛(808)에 유형적으로 포함되어 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(802) 및/또는 통신 유닛(809)을 통해 기기(800)에 로드 및/또는 설치할 수 있다. 컴퓨터 프로그램은 RAM(803)에 로드된 컴퓨팅 유닛(801)에 의해 실행될 때, 전술한 방법(600)의 하나 이상의 단계를 수행할 수 있다. 선택적으로 다른 실시예에서, 컴퓨팅 유닛(801)은 기타 모든 적절한 방법으로(예를 들어, 펌웨어를 통해) 방법(600)을 실행하도록 구성될 수 있다.

본 명세서에서 앞서 설명한 기능은 적어도 부분적으로 하나 또는 다수의 하드웨어 로직 부재에 의해 수행될 수 있다. 예를 들어, 사용 가능한 시범 유형의 하드웨어 로직 부재는 필드 프로그래머블 게이트 어레이(FPGA), 응용 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그래머블 로직소자(CPLD) 등을 포함하나, 이에 한정되지 않는다.

본 개시의 방법을 실시하기 위한 프로그램 코드는 하나 또는 다수의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서 또는 제어장치에 제공되어, 프로그램 코드가 프로세서 또는 제어장치에 의해 실행될 경우, 흐름도 및/또는 블록도 중 규정된 기능/조작이 실시되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 부분적으로 기계에서 실행되고 부분적으로 원격 기계에서 실행되거나, 또는 완전히 원격 기계 또는 서버에서 실행될 수 있다.

본 개시의 문맥에 있어서, 기계 판독 가능한 매체는 유형한 매체일 수 있으며, 명령 실행 시스템, 장치 또는 기기에서 사용하거나, 명령 실행 시스템, 장치 또는 기기와 결합하여 사용될 프로그램을 포함하거나 저장할 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능한 신호 매체 또는 컴퓨터 판독 가능한 저장 매체일 수 있다. 기기 판독 가능 매체는 전기, 자기, 광학, 전자기, 적외선 또는 반도체의 시스템, 장치 또는 소자, 또는 상기의 임의의 조합일 수 있으나, 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더욱 구체적인 예시는 하나 또는 다수의 도선을 구비하는 전기적 연결된 휴대용 컴퓨터 자기 디스크, 하드 디스크, 랜덤 액세스 메모리 장치(RAM), 읽기 전용 메모리 장치(ROM), 소거 및 프로그램 가능한 읽기 전용 메모리 장치(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리 장치(CD-ROM), 광 메모리 장치, 자기 메모리 장치 또는 상기의 임의의 적합한 조합을 포함할 수 있으나, 이에 한정되지 않는다.

또한, 각 조작은 특정 순서로 설명되었으나, 이러한 조작이 표시된 특정 순서 또는 순차적 순서에 따라 실행되도록 요구하거나, 원하는 결과를 달성하기 위하여 도시된 모든 조작이 반드시 실행되도록 요구하는 것으로 이해하여서는 아니된다. 일정한 환경에서, 멀티 태스킹 및 병행 처리는 유리할 수 있다. 마찬가지로, 위의 기재에는 여러 구체적인 구현 세부사항이 포함되었으나, 이는 본 개시의 범위를 한정하는 것으로 해석하여서는 아니된다. 별개의 실시예의 문맥에 기재된 일부 특징은 조합되어 단일 구현에 구현될 수 있다. 반대로, 단일 구현의 문맥에 설명된 각종의 특징도 단독으로 또는 임의의 적절한 서브 조합의 방식으로 다수의 구현에 구현될 수 있다.

본원의 주제는 구조적 특징 및/또는 방법 로직 동작에 특정된 언어를 이용하여 설명되었으나, 첨부된 특허 청구범위에 한정된 주제는 반드시 앞서 설명한 특정의 특징 또는 동작에 한정되는 것은 아님을 이해하여야 한다. 반대로, 앞서 설명한 특정 특징 및 동작은 단지 특허 청구 범위를 실현하는 예시적 형태일 뿐이다.

Claims

텍스트 관련도를 확정하기 위한 방법에 있어서,
지식 요소로 구성된 지식 표현을 포함하는 미리 정의된 지식 베이스로부터, 제1 텍스트와 관련되는 제1 지식 요소 세트 및 제2 텍스트와 관련되는 제2 지식 요소 세트를 식별하는 단계 - 상기 지식 표현은 상기 지식 요소 중 둘 이상의 지식 요소에 의해 구성됨 - 와,
상기 제1 지식 요소 세트와 상기 제2 지식 요소 세트 간의 지식 요소 관련도를 확정하는 단계와,
적어도 상기 지식 요소 관련도에 기초하여 상기 제1 텍스트와 상기 제2 텍스트간의 텍스트 관련도를 확정하는 단계를 포함하고,
상기 지식 요소 관련도를 확정하는 단계는,
상기 지식 베이스에 있어서 동일한 식별자를 갖는 상기 제1 지식 요소 세트 및 제2 지식 요소 세트의 지식 요소 수량을 확정하는 단계 - 지식 요소의 식별자는 상기 지식 베이스에 있어서 상기 지식 요소를 유일하게 식별함 - 와,
동일한 식별자를 갖는 상기 지식 요소의 수량에 기초하여 상기 지식 요소 관련도를 확정하는 단계를 포함하고,
상기 지식 요소 관련도를 확정하는 단계는,
상기 제1 지식 요소 세트에 대응하는 제1 결합 벡터 표현 및 상기 제2 지식 요소 세트에 대응하는 제2 결합 벡터 표현을 확정하는 단계와,
상기 제1 결합 벡터 표현의 제1 특징 및 상기 제2 결합 벡터 표현의 제2 특징을 추출하는 단계와,
또한 상기 제1 특징 및 상기 제2 특징에 기초하여 상기 지식 요소 관련도를 확정하는 단계를 더 포함하고,
상기 제1 결합 벡터 표현 및 상기 제2 결합 벡터 표현을 확정하는 단계는,
지식 요소와 벡터 표현 간의 제1 소정 매핑 관계에 기초하여, 상기 제1 지식 요소 세트의 제1 벡터 표현 세트 및 상기 제2 지식 요소 세트의 제2 벡터 표현 세트를 확정하는 단계 - 상기 제1 지식 요소 세트 및 상기 제2 지식 요소 세트 중, 상기 지식 베이스에 있어서 동일한 식별자를 갖는 지식 요소가 동일한 벡터 표현에 매핑됨 - 와,
상기 제1 텍스트에서 나타나는 상기 제1 지식 요소 세트의 순서에 따라 상기 제1 벡터 표현 세트를 결합함으로써 상기 제1 결합 벡터 표현을 확정하는 단계와,
상기 제2 텍스트에서 나타나는 상기 제2 지식 요소 세트의 순서에 따라 상기 제2 벡터 표현 세트를 결합함으로써 상기 제2 결합 벡터 표현을 확정하는 단계를 포함하는,
텍스트 관련도를 확정하기 위한 방법.
제1항에 있어서,
상기 제1 텍스트는 검색 쿼리를 포함하고, 상기 제2 텍스트는 후보 문서의 적어도 일부를 포함하며, 상기 관련도는 상기 검색 쿼리에 대한 검색 결과에 있어서의 상기 후보 문서의 순서 배열을 확정하는데 사용되는,
텍스트 관련도를 확정하기 위한 방법.
제1항에 있어서,
상기 제1 지식 요소 세트 또는 상기 제2 지식 요소 세트는, 상기 지식 베이스에 있어서의 엔티티, 상기 엔티티간의 관계 및 상기 엔티티의 속성 중 적어도 하나를 포함하는,
텍스트 관련도를 확정하기 위한 방법.
삭제
제1항에 있어서,
상기 지식 요소 관련도를 확정하는 단계는,
상기 제1 텍스트에 있어서 상기 제1 지식 요소 세트와 연관시키기 위한 제1 텍스트 아이템 세트와 상기 제2 텍스트에 있어서 상기 제2 지식 요소 세트와 연관시키기 위한 제2 텍스트 아이템 세트 간의 텍스트 유사도를 확정하는 단계와,
상기 텍스트 유사도에 기초하여 상기 지식 요소 관련도를 확정하는 단계를 포함하는,
텍스트 관련도를 확정하기 위한 방법.
삭제
삭제
제1항에 있어서,
상기 제1 소정 매핑 관계는 상기 지식 베이스에 있어서의 지식 요소의 주어, 술어, 보어(SPO) 정보에 기초하여 확정되는,
텍스트 관련도를 확정하기 위한 방법.
제1항에 있어서,
상기 텍스트 관련도를 확정하는 단계는,
텍스트 아이템과 벡터 표현 간의 제2 소정 매핑 관계에 기초하여, 상기 제1 텍스트에 대응하는 제1 텍스트 벡터 표현 및 상기 제2 텍스트에 대응하는 제2 텍스트 벡터 표현을 확정하는 단계와,
상기 제1 텍스트 벡터 표현의 제3 특징 및 상기 제2 텍스트 벡터 표현의 제4 특징을 추출하는 단계와,
또한 상기 제3 특징 및 상기 제4 특징에 기초하여 상기 텍스트 관련도를 확정하는 단계를 더 포함하는,
텍스트 관련도를 확정하기 위한 방법.
제9항에 있어서,
상기 제2 소정 매핑 관계는 상기 지식 베이스에 있어서 텍스트 아이템과 관련된 지식 요소의 주어, 술어, 보어(SPO) 정보에 기초하여 확정되는,
텍스트 관련도를 확정하기 위한 방법.
텍스트 관련도를 확정하기 위한 장치에 있어서,
지식 요소로 구성된 지식 표현을 포함하는 미리 정의된 지식 베이스로부터, 제1 텍스트와 관련되는 제1 지식 요소 세트 및 제2 텍스트와 관련되는 제2 지식 요소 세트를 식별하도록 구성되는 지식 요소 관련 모듈 - 상기 지식 표현은 상기 지식 요소 중 둘 이상의 지식 요소에 의해 구성됨 - 과,
상기 제1 지식 요소 세트와 상기 제2 지식 요소 세트 간의 지식 요소 관련도를 확정하도록 구성되는 요소 관련도 확정 모듈과,
적어도 상기 지식 요소 관련도에 기초하여, 상기 제1 텍스트와 상기 제2 텍스트간의 텍스트 관련도를 확정하도록 구성되는 텍스트 관련도 확정 모듈을 포함하고,
상기 요소 관련도 확정 모듈은,
상기 제1 지식 요소 세트 및 제2 지식 요소 세트에 있어서, 상기 지식 베이스에 동일한 식별자를 갖는 지식 요소의 수량을 확정하도록 구성되는 동일한 식별 모듈 - 지식 요소의 식별자는 상기 지식 베이스에 있어서 상기 지식 요소를 유일하게 식별함 - 과,
동일한 식별자를 갖는 상기 지식 요소의 수량에 기초하여 상기 지식 요소 관련도를 확정하도록 구성되는 식별자 기반 관련도 확정 모듈과,
상기 제1 지식 요소 세트가 대응하는 제1 결합 벡터 표현 및 상기 제2 지식 요소 세트가 대응하는 제2 결합 벡터 표현을 확정하도록 구성되는 제1 표현 확정 모듈과,
상기 제1 결합 벡터 표현의 제1 특징 및 상기 제2 결합 벡터 표현의 제2 특징을 추출하도록 구성되는 제1 특징 추출 모듈과,
또한 상기 제1 특징 및 상기 제2 특징에 기초하여 상기 지식 요소 관련도를 확정하도록 구성되는 특징 기반 관련도 확정 모듈을 포함하고,
상기 표현 확정 모듈은,
지식 요소와 벡터 표현 간의 제1 소정 매핑 관계에 기초하여, 상기 제1 지식 요소 세트의 제1 벡터 표현 세트 및 상기 제2 지식 요소 세트의 제2 벡터 표현 세트를 확정하도록 구성되는 개별 표현 확정 모듈 - 상기 제1 지식 요소 세트 및 상기 제2 지식 요소 세트 중 상기 지식 베이스에 동일한 식별자를 갖는 지식 요소가 동일한 벡터 표현에 매핑됨 - 과,
상기 제1 텍스트에서 나타나는 상기 제1 지식 요소 세트의 순서에 따라 상기 제1 벡터 표현 세트를 결합함으로써 상기 제1 결합 벡터 표현을 확정하는 제1 결합 모듈과,
상기 제2 텍스트에서 나타나는 상기 제2 지식 요소 세트의 순서에 따라 상기 제2 벡터 표현 세트를 결합함으로써 상기 제2 결합 벡터 표현을 확정하는 제2 결합 모듈을 포함하는, 장치.
제11항에 있어서,
상기 제1 텍스트는 검색 쿼리를 포함하고, 상기 제2 텍스트는 후보 문서의 적어도 일부를 포함하며, 상기 관련도는 상기 검색 쿼리에 대한 쿼리 결과에 있어서의 상기 후보 문서의 순위를 확정하는데 사용되는, 장치.
제11항에 있어서,
상기 제1 지식 요소 세트 또는 상기 제2 지식 요소 세트는, 상기 지식 베이스에 있어서의 엔티티, 상기 엔티티 간의 관계 및 상기 엔티티의 속성 중 적어도 하나를 포함하는, 장치.
삭제
제11항에 있어서,
상기 요소 관련도 확정 모듈은,
상기 제1 텍스트에 있어서 상기 제1 지식 요소 세트와 연관시키기 위한 제1 텍스트 아이템 세트와 상기 제2 텍스트에 있어서 상기 제2 지식 요소 세트와 연관시키기 위한 제2 텍스트 아이템 세트 간의 텍스트 유사도를 확정하도록 구성되는 텍스트 유사도 확정 모듈과,
상기 텍스트 유사도에 기초하여 상기 지식 요소 관련도를 확정하도록 구성되는 유사도 기반 관련도 확정 모듈을 포함하는, 장치.
삭제
삭제
제11항에 있어서,
상기 제1 소정 맵핑 관계는 상기 지식 베이스에 있어서의 지식 요소의 주어, 술어, 보어(SPO) 정보에 기초하여 확정되는, 장치.
제11항에 있어서,
상기 텍스트 관련도 확정 모듈은,
텍스트 아이템과 벡터 표현 간의 제2 소정 매핑 관계에 기초하여, 상기 제1 텍스트와 대응하는 제1 텍스트 벡터 표현 및 상기 제2 텍스트와 대응하는 제2 텍스트 벡터 표현을 확정하도록 구성되는 제2 표현 확정 모듈과,
상기 제1 텍스트 벡터 표현의 제3 특징 및 상기 제2 텍스트 벡터 표현의 제4 특징을 추출하도록 구성되는 제2 특징 추출 모듈과,
또한 상기 제3 특징 및 상기 제4 특징에 기초하여 상기 텍스트 관련도를 확정하도록 구성되는 특징 기반 관련도 확정 모듈을 더 포함하는, 장치.
하나 이상의 프로세서와,
하나 이상의 프로그램을 저장하기 위한 저장 장치를 포함하는 전자 기기에 있어서,
상기 하나 이상의 프로그램이 상기 하나 이상의 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 제1항 내지 제3항, 제5항 및 제8항 내지 제10항 중 어느 한 항의 방법을 구현하도록 하는, 전자 기기.
프로세서에 의해 실행시, 제1항 내지 제3항, 제5항 및 제8항 내지 제10항 중 어느 한 항의 방법을 구현하는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체.