KR102441475B1

KR102441475B1 - 질문 분석 방법, 장치, 지식 기반 질문 응답 시스템 및 전자 기기

Info

Publication number: KR102441475B1
Application number: KR1020200156881A
Authority: KR
Inventors: 원빈 강; 환위 주; 몽 전; 잉 이; 신우의 풍; 슌차오 송; 차오 송; 펑청 원; 야젼 려; 융 주
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-04-08
Filing date: 2020-11-20
Publication date: 2022-09-06
Also published as: KR20210125405A; EP3893142A1; US20210319335A1; CN111488441B; CN111488441A; JP7064554B2; JP2021168107A

Abstract

본 출원은 질문 분석 방법, 장치, 지식 기반 질문 응답 시스템 및 전자 기기를 개시한 것으로, 지식 기반 질문 응답 기술분야에 관한 것이다. 상기 방법은, 질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻는 단계; 상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키는 단계; 상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하는 단계; 및 상기 N개의 토폴로지 맵에서, 상기 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 상기 질문의 쿼리 그래프로서 선택하는 단계; 를 포함한다. 본 출원의 기술에 따르면, 질문의 쿼리 그래프를 비교적 정확하게 얻을 수 있어, 질문-투-쿼리 그래프의 정확성을 향상시키는바, 따라서 질문 분석의 정확성을 향상시킨다. 본 출원은 종래 기술에서 단어 시퀀스 융합 방식을 기반으로 생성된 쿼리 그래프의 정확성이 낮은 문제점을 해결한다.

Description

질문 분석 방법, 장치, 지식 기반 질문 응답 시스템 및 전자 기기{Question analysis method, apparatus, knowledge graph question-answering system and electronic equipment}

본 출원은 데이터 처리 기술에 관한 것으로, 특히 지식 기반 질문 응답 기술분야에 관한 것이며, 구체적으로는 질문 분석 방법, 장치, 지식 기반 질문 응답 시스템 및 전자 기기에 관한 것이다.

지식 기반 질문 응답(Knowledge Base Question Answering, KBQA로 약칭)은 지식 그래프(Knowledge Graph, KG로 약칭)를 지식 베이스로 하는 질문 응답으로서, 사용자가 자연 언어 형태로 제기하는 질문에 직접 답할 수 있다.

지식 기반 질문 응답 기술에서, 통상적으로 시맨틱 분석 기술을 적용하는데, 쿼리 그래프는, 명료하고 간결한 시맨틱 표현 특성으로 인해, 지식 기반 질문 응답 기술에서 점점 더 많이 사용되고 있다. 그러나, 현재 질문 쿼리 그래프를 획득하는 방식은 대체적으로 질문의 단어 시퀀스를 간단하게 융합하여, 질문의 쿼리 그래프를 얻는 것이다. 비교적 복잡한 질문의 경우, 단어 시퀀스의 융합 방식이 비교적 많을 수 있는데, 이에 따라 융합에 의해 생성된 쿼리 그래프의 정확성이 떨어질 수 있다.

본 출원의 기술에 따르면, 질문의 쿼리 그래프를 비교적 정확하게 얻을 수 있어, 질문-투-쿼리 그래프의 정확성을 향상시키는바, 따라서 질문 분석의 정확성을 향상시킨다. 본 출원은 종래 기술에서 단어 시퀀스 융합 방식을 기반으로 생성된 쿼리 그래프의 정확성이 낮은 문제점을 해결한다.

본 출원은 질문 분석 방법, 장치, 지식 기반 질문 응답 시스템 및 전자 기기를 제공한다.

제1 측면에 따르면, 본 출원은 질문 분석 방법을 제공한다. 상기 방법은,

질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻는 단계;

상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키는 단계;

상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하는 단계; 및

상기 N개의 토폴로지 맵에서, 상기 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 상기 질문의 쿼리 그래프로서 선택하는 단계; 를 포함한다.

제2 측면에 따르면, 본 출원은 질문 분석 장치를 제공한다. 상기 장치는,

질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻기 위한 분석 모듈;

상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키기 위한 변환 모듈;

상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하기 위한 산출 모듈; 및

상기 N개의 토폴로지 맵에서, 상기 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 상기 질문의 쿼리 그래프로서 선택하기 위한 선택 모듈; 을 포함한다.

제3 측면에 따르면, 본 출원은 질문 분석 장치를 제공한다. 상기 장치는,

질문을 획득하고, 상기 질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻는 번역 모델;

입력단이 상기 번역 모델의 출력단에 연결되며, 상기 N개의 선형 시퀀스를 획득하고, 상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키는 시퀀스-투-그래프 변환 모델;

입력단이 상기 시퀀스-투-그래프 변환 모델의 출력단에 연결되며, 상기 질문 및 상기 N개의 토폴로지 맵을 획득하고; 상기 질문에 대해 제1 인코딩을 진행하여, 상기 질문의 시맨틱 표현 벡터를 얻고; 그리고 상기 N개의 토폴로지 맵의 각 토폴로지 맵에 대해 제2 인코딩을 진행하여, 각 토폴로지 맵의 시맨틱 표현 벡터를 얻는 인코딩 네트워크; 및

입력단이 상기 인코딩 네트워크의 출력단에 연결되며, 상기 질문의 시맨틱 표현 벡터 및 각 토폴로지 맵의 시맨틱 표현 벡터를 획득하고, 상기 질문의 시맨틱 표현 벡터 및 각 토폴로지 맵의 시맨틱 표현 벡터에 근거하여, 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 산출하는 매칭 네트워크; 를 포함한다.

제4 측면에 따르면, 본 출원은 지식 기반 질문 응답 시스템을 제공한다. 상기 지식 기반 질문 응답 시스템은 제2 측면에 따른 질문 분석 장치를 포함하거나; 또는

상기 지식 기반 질문 응답 시스템은 제3 측면에 따른 질문 분석 장치를 포함한다.

제5 측면에 따르면, 본 출원은 전자 기기를 제공한다. 상기 전자 기기는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1 측면에 따른 방법을 수행가능하도록 한다.

제6 측면에 따르면, 본 출원은 컴퓨터 명령이 저장되어 있는 비-일시적 컴퓨터-판독가능 저장 매체를 제공한다. 상기 컴퓨터 명령은 상기 컴퓨터가 제1 측면에 따른 방법을 수행하도록 하기 위한 것이다.

본 섹션에서 설명되는 내용은 본 개시의 실시예들의 관건적 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 개시의 범위를 제한하기 위한 것도 아님을 이해해야 할 것이다. 본 개시의 기타 특징들은 하기의 명세서를 통해 이해하기 용이해질 것이다.

본 출원에서, 질문 분석 과정은, 러프에서 파인으로의 두 개의 과정을 포함하는데, 첫번째 과정은, 질문-투-후보 쿼리 그래프의 변환을 실현하고, 두번째 과정은 후보 쿼리 그래프에서 쿼리 그래프를 확정하는 것을 실현한다. 전자는 시퀀스-투-시퀀스의 방식으로 질문의 단어 시퀀스에서 선형 시퀀스로의 변환을 빠르고 효율적으로 실현하고, 선형 시퀀스에서 토폴로지 맵으로의 변환을 빠르고 효율적으로 실현하는바, 따라서 질문을 위해 복수 개의 후보 쿼리 그래프를 생성하는 것을 빠르고 효율적으로 실현하고; 후자는 질문과 쿼리 그래프 사이의 정확한 매칭을 실현하여, 질문-투-쿼리 그래프의 정확성을 향상시키는바, 따라서 질문 분석의 정확성을 향상시킨다. 상기의 기술 수단을 적용하기 때문에, 종래 기술에서 단어 시퀀스 융합 방식을 기반으로 생성된 쿼리 그래프의 정확성이 비교적 낮은 문제점을 양호하게 해결한다.

도면은 본 방안을 더 잘 이해하도록 하기 위한 것으로, 본 출원에 대한 한정을 구성하지 않는다.
도 1은 본 출원의 제1 실시예에 따른 질문 분석 방법의 플로우 개략도이다.
도 2 내지 도 4는 본 출원의 제1 실시예에 따른 토폴로지 개략도이다.
도 5는 본 출원의 제1 실시예에 따른 질문-투-쿼리 그래프의 전체적 플로우 개략도이다.
도 6은 본 출원의 제1 실시예에 따른 질문-투-후보 쿼리 그래프의 개략도이다.
도 7은 본 출원의 제1 실시예에 따른 후보 쿼리 그래프에서 쿼리 그래프를 확정하는 것을 나타내는 개략도이다.
도 8은 본 출원의 제1 실시예에 따른 후보 쿼리 그래프에서 쿼리 그래프를 확정하는 것을 나타내는 개략도이다.
도 9 내지 도 10은 도 8의 두 가지 선택적인 실시형태를 나타내는 개략도이다.
도 11은 도 9의 어텐션 메커니즘 도입을 나타내는 개략도이다.
도 12는 도 10의 어텐션 메커니즘 도입을 나타내는 개략도이다.
도 13은 본 출원의 제2 실시예에 따른 질문 분석 장치의 구조 개략도이다.
도 14는 본 출원의 제3 실시예에 따른 질문 분석 장치의 구조 개략도이다.
도 15는 본 출원의 실시예에 따른 질문 분석 방법을 구현하기 위한 전자 기기의 블록도이다.

이하, 도면을 결부시켜 본 출원의 예시적인 실시예를 설명하며, 그 중에, 이해를 돕도록, 본 출원의 실시예의 각종 세부 사항을 포함하는데, 이러한 세부 사항들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 당업자들은, 본 출원의 범위 및 사상을 이탈하지 않고, 본 명세서에서 설명되는 실시예에 대해 각종 변경 및 수정을 실시할 수 있음을 인식해야 할 것이다. 마찬가지로, 명확성과 간결성을 위해, 아래의 설명에서 공지된 기능 및 구조에 대한 설명은 생략되었다.

제1 실시예

도 1이 도시하는 바와 같이, 본 출원은 질문 분석 방법을 제공한다. 상기 방법은 하기 단계들을 포함한다.

단계 101은 질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻는다.

용어 '질문'은 사용자가 자연 언어 형태로 제기한 질문으로 이해될 수 있는데, 상기 질문은 사용자 인터페이스를 통해 사용자에 의해 질문 분석 장치로 입력될 수 있다. 질문 분석 장치에 대해, 상기 질문은 '정보'라고 칭할 수도 있다.

용어 '선형(Linearized) 시퀀스'는 질문의 관련 단어와 보조 심볼이 선형화 방식으로 순서 배열되어 형성된 시퀀스로 이해될 수 있는데, 선형 시퀀스는 심볼 시퀀스라고 칭할 수도 있다.

선형 시퀀스의 의미는, 심볼 시퀀스의 방식에 의해 그래프 형상의 구조를 표현하거나, 또는, 선형 또는 1차원 표현 방식으로 2차원의 구조를 표현하는데 있다. 예를 들어, 선형 시퀀스 '(A(B, C))'는, 'A를 부친으로 하고, B 및 C를 자식으로 하는 유향 그래프 구조'를 나타낼 수 있는데, A, B, C는 그래프에서의 노드를 나타내고, 괄호는 보조 심볼이고, A에서 각각 B와 C를 지향하는 유향 에지가 나가고, 에지의 방향은 혈연관계의 전승 방향을 나타내고, A는 선형 시퀀스의 응답 노드로 이해될 수 있으며， B 및 C는 선형 시퀀스의 엔티티 노드로 이해될 수 있다. 선형 시퀀스의 엔티티 노드는 질문의 관련 단어로 이해될 수 있다.

사용자가 자연 언어 형태로 제기한 질문에서, 가장 작은 시맨틱 유닛은 단어(또는 캐릭터)이다. 당해 단계에서, 질문을 분석하여 선형 시퀀스를 얻는 과정은, 질문에서 질문으로의 단어 시퀀스(또는 캐릭터 시퀀스)로, 그리고 나서 질문의 단어 시퀀스에서 선형 시퀀스로의 과정으로 이해될 수 있다.

질문을 분석하여 선형 시퀀스를 얻는 과정에서, 질문의 단어 시퀀스에서 선형 시퀀스로의 변환 규칙을 학습함으로써, 질문에서 N개의 선형 시퀀스로의 목적을 달성할 수 있다. 예를 들어, 적절한 규칙을 통해 특정 보조 심볼을 추가하여, 질문의 단어 시퀀스를 각종 심볼 시퀀스의 선형화 형태로 나타낼 수 있다.

본 출원에서, 질문의 단어 시퀀스와 선형 시퀀스는 모두 시퀀스인 것으로, 즉, 소스단은 질문을 구성하는 단어 시퀀스이고, 타겟단은 선형화된 후의 단어와 보조 심볼 시퀀스이므로, 시퀀스-투-시퀀스 신경망을 적용하여, 기계 번역에 의해 질문에서 선형 시퀀스로의 변환을 실현될 수 있다. 바꾸어 말하면, 시퀀스-투-시퀀스 신경망에 번역 모델을 구성하여, 번역 모델에 의해 질문에서 선형 시퀀스로의 변환을 실현할 수 있다. 시퀀스-투-시퀀스 신경망은 대량의 질문-선형 시퀀스 짝으로 구성된 트레이닝 코퍼스를 트레이닝하여 얻을 수 있다.

복잡한 질문일수록, 관련된 단어의 수량이 많아지는데, 단일 질문의 경우, 기계에 의해 여러 가지 가능한 단어 시퀀스로 이해될 수 있으므로, 시퀀스-투-시퀀스 신경망은 복수의 가능한 선형 시퀀스를 출력할 수 있는바, 즉, 시퀀스-투-시퀀스 신경망은 질문을 분석하여 N개의 선형 시퀀스를 얻을 수 있다. 질문을 분석하여 N개의 선형 시퀀스를 얻음으로써, 질문의 분석을 보다 전면적이게 할 수 있다. 또한, 질문을 분석하여 N개의 선형 시퀀스를 얻는 처리 과정은 비교적 간단하고, 빠르며, 처리 시간이 비교적 짧다. 따라서, 질문을 분석함으로써, 질문의 모든 가능한 선형 시퀀스를 빠르고 전면적으로 얻을 수 있다.

단계 102는 상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시킨다.

질문을 분석하여 N개의 선형 시퀀스를 얻은 후, 당해 단계는 N개의 선형 시퀀스를 N개의 토폴로지 맵으로 변환하는 것을 실현할 수 있다.

토폴로지 맵은 유향 비순환 그래프라고 칭할 수도 있다. 앞서 언급했듯이, 선형 시퀀스의 의미는 심볼 시퀀스의 방식에 의해 그래프 형상의 구조를 표현하거나, 또는, 선형 또는 1차원 표현 방식으로 2차원 구조를 표현하는데 있다. 이로부터 알 수 있는 바와 같이, 선형 시퀀스는 실제로 토폴로지 맵의 일 표현 형태이다. 따라서, N개의 선형 시퀀스와 N개의 토폴로지 맵은 일대일 대응되는 관계인 것으로, 바꾸어 말하면, 각각의 선형 시퀀스는 유일한 토폴로지 맵으로 변환될 수 있다.

간단한 규칙을 통해 선형 시퀀스를 토폴로지 맵으로 변환시킬 수 있거나, 또는, 간단한 규칙을 통해 토폴로지 맵을 선형 시퀀스로 변환시킬 수 있다. 양자의 변환 과정은 대체적으로 하기와 같다: 먼저, 선형 시퀀스의 각 유향 에지에 역방향 에지를 추가하는데, 에지의 방향은 반대이고, 구별됨을 나타내기 위해, 에지의 라벨에 예컨대'reversed(반대)'와 같은 특정 표기를 부가한다. 그리고 나서, 선형 시퀀스의 응답 노드를 루트 노드로 하여, 응답 노드를 루트로 하고, 선형 시퀀스 중의 엔티티 노드를 리프로 하며, 선형 시퀀스의 모든 노드를 포괄하는 하나의 유향 비순환 연결 그래프(또는 '스패닝 트리'라고 칭함)를 생성한다. 첫 번째 단계에서의 역방향 에지를 추가하는 조작은, 두 번째 단계에서의 스패닝 트리 알고리즘을 위해 더 많은 순회 경로를 제공한다. 두 번째 단계의 스패닝 트리 알고리즘은, 클래식 데이터 구조에서의 스패닝 트리 알고리즘에 의해 개편될 수 있는데, 진행되는 개편 조작은 객체를 처리하여 무향 그래프에서 유향 그래프로 확장하고, 생성 과정에서 루트 노드 및 리프 노드를 고정해 두는것을 포함한다. 일례로, 선형 시퀀스(A(B, C))는 도 2가 도시하는 바와 같은 토폴로지 맵으로 변환될 수 있다.

본 출원은, 시퀀스-투-그래프 변환 모델을 구성함으로써, 시퀀스-투-그래프 변환 모델에 의해 선형 시퀀스에서 토폴로지 맵으로의 변환을 실현할 수 있다.

토폴로지 맵에서의 토폴로지 정보는 질문의 시맨틱 표현을 명확하고 간결하며 직관적으로 구현할 수 있고, 기계는 토폴로지 맵을 더 잘 이해할 수 있는데, 앞서 언급된 쿼리 그래프는 토폴로지 맵에 속한다.

여기에 이르기까지, 단계 101 내지 단계102를 통해, 질문에 대응되는 N개의 토폴로지 맵을 얻었으나, 이 N개의 토폴로지 맵은 최종 쿼리 그래프가 아닌바, 이 N개의 토폴로지 맵은 질문의 후보 쿼리 그래프로 이해될 수 있다.

본 출원에서, 질문에 대응되는 N개의 토폴로지 맵을 얻었을 경우, 토폴로지 맵과 질문 사이의 시맨틱 매칭도에 기초하여, N개의 토폴로지 맵에서 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 확정하여, 이를 질문의 쿼리 그래프로 할 수 있는데, 그 과정은 단계 103 내지 단계 104를 통해 구현된다.

설명해야 할 것은, N개의 선형 시퀀스를 N개의 토폴로지 맵으로 변환시키는 처리 과정은 비교적 간단하고 빠르며 처리 시간이 짧기 때문에, 질문의 모든 가능한 후보 쿼리 그래프를 빠르고 전면적으로 얻을 수 있다.

단계 103은 상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출한다.

시맨틱 매칭도는 시맨틱 이해 측면에서의 질문과 토폴로지 맵의 매칭 정도를 비교적 잘 구현할 수 있고, 질문과 토폴로지 맵 간의 관련 정도를 비교적 잘 나타낼 수 있다.

본 출원은, 매칭 네트워크를 구성함으로써, 매칭 네트워크에 의해 토폴로지 맵과 질문의 시맨틱 매칭도의 산출을 실현할 수 있다.

단계 104는 상기 N개의 토폴로지 맵에서, 상기 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 상기 질문의 쿼리 그래프로서 선택한다.

N개의 토폴로지 맵에서 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 선택함으로써, 확정된 질문의 쿼리 그래프가 비교적 높은 정확성을 갖도록 한다.

일례로, 사용자가 입력한 질문이 '세계에서 가장 긴 강은 무엇인가요?'이라고 가정하면, 당해 질문에 대응되는 선형 시퀀스는 '(A(길이(순서 1))(강 이다)(세계에 위치하다))'일 수 있으며, 당해 선형 시퀀스는 도 3이 도시하는 바와 같은 토폴로지 맵으로 변환될 수 있거나; 또는, 당해 질문에 대응되는 선형 시퀀스는 'A(시간(순서 1))(강 이다)(세계에 위치))'일 수도 있으며, 당해 선형 시퀀스는 도 4가 도시하는 바와 같은 토폴로지 맵으로 변환될 수 있다. 상기의 도 3 및 도 4에 나타내는 토폴로지 맵을 얻은 후, 도 3 및 도 4에 나타내는 토폴로지 맵과 질문의 시맨틱 매칭도를 각각 산출할 수 있다. 도 3에 나타내는 토폴로지 맵과 질문의 시맨틱 매칭도가 도 4에 나타내는 토폴로지 맵과 질문의 시맨틱 매칭도보다 높으면, 도 3에 나타내는 토폴로지 맵을 질문의 쿼리 그래프로 한다.

상기의 질문-투-쿼리 그래프의 전반 과정은, 러프에서 파인으로의 두 개의 과정을 포함하는데, 첫번째 과정은, 질문-투-후보 쿼리 그래프의 변환을 실현하고, 두번째 과정은 후보 쿼리 그래프에서 쿼리 그래프를 확정하는 것을 실현한다. 전자는 시퀀스-투-시퀀스의 방식으로 질문의 단어 시퀀스에서 선형 시퀀스로의 변환을 빠르고 효율적으로 실현하고, 선형 시퀀스에서 토폴로지 맵으로의 변환을 빠르고 효율적으로 실현하는바, 따라서 질문을 위해 복수 개의 후보 쿼리 그래프를 생성하는 것을 빠르고 효율적으로 실현하고; 후자는 질문과 쿼리 그래프 사이의 정확한 매칭을 실현하여, 질문-투-쿼리 그래프의 정확성을 향상시키는바, 따라서 질문 분석의 정확성을 향상시킨다. 상기의 기술 수단을 적용하기 때문에, 종래 기술에서 단어 시퀀스 융합 방식을 기반으로 생성된 쿼리 그래프의 정확성이 비교적 낮은 문제점을 양호하게 해결한다.

상기의 질문-투-쿼리 그래프의 전반 과정을 더 잘 이해하기 위해, 본 출원은 도 5 내지 도 7에 의해 질문-투-쿼리 그래프의 전체 플로우(도 5를 참조), 질문-투-후보 쿼리 그래프의 변환 플로우(도 6), 및 후보 쿼리 그래프에서 쿼리 그래프를 확정하는 플로우(도 7을 참조)를 각각 나타내었다. 도 6에서, 토폴로지 맵 1, …, 토폴로지 맵 n은 모두 후보 쿼리 그래프이다.

아래에서는, 토폴로지 맵과 질문 사이의 시맨틱 매칭도를 산출하는 관련 실시형태를 설명하기로 한다.

선택적으로, 상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하는 단계는,

상기 질문의 시맨틱 표현 벡터를 획득하는 단계;

상기 N개의 토폴로지 맵의 각 토폴로지 맵의 시맨틱 표현 벡터를 획득하는 단계; 및

상기 질문의 시맨틱 표현 벡터 및 각 토폴로지 맵의 시맨틱 표현 벡터에 근거하여, 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하는 단계; 를 포함한다.

본 출원에서, 질문의 시맨틱 표현 벡터 및 토폴로지 맵의 시맨틱 표현 벡터를 획득하도록, 질문 및 토폴로지 맵의 시맨틱 표현을 각각 산출하고 나서, 이 두 시맨틱 표현 벡터 간의 매칭 정도를 산출할 수 있다. 설명해야 할 것은, 상술한 상기 질문의 시맨틱 표현 벡터를 획득하는 단계와 상술한 상기 N개의 토폴로지 맵의 각 토폴로지 맵의 시맨틱 표현 벡터를 획득하는 단계에 대해서는, 수행의 선후 순서를 한정하지 않는다.

도 8이 도시하는 바와 같이, 본 출원은 인코딩 네트워크를 구성함으로써, 인코딩 네트워크에 의해 질문 및 토폴로지 맵의 시맨틱 표현의 산출을 실현할 수 있다. 도 8에서, 제1 시맨틱 표현 벡터는 질문의 시맨틱 표현 벡터이고, 제2 시맨틱 표현 벡터는 토폴로지 맵의 시맨틱 표현 벡터이다.

본 출원은, 통일적인 인코딩 네트워크를 구성함으로써, 인코딩 네트워크에 의해 질문 및 토폴로지 맵의 시맨틱 표현의 산출을 통일적으로 실현하여, 질문 및 토폴로지 맵의 시맨틱 표현 벡터를 얻을 수도 있고; 상이한 인코딩 네트워크를 구성하여, 상이한 인코딩 네트워크에 의해 질문 및 토폴로지 맵의 시맨틱 표현의 산출을 각각 실현하여, 질문 및 토폴로지 맵의 시맨틱 표현 벡터를 얻을 수도 있다.

당해 실시형태에서, 시맨틱 표현 벡터는 질문 또는 토폴로지 맵의 시맨틱 표현을 비교적 정확하게 구현할 수 있기 때문에, 질문 및 토폴로지 맵의 시맨틱 표현 벡터를 획득하고, 양자의 시맨틱 표현 벡터에 근거하여 양자의 시맨틱 매칭도를 산출할 수 있어, 질문과 토폴로지 맵 사이의 관련 정도를 보다 정확하게 나타내는데 유리하다.

진일보하여, 본 출원은, 코사인 방식으로 두 시맨틱 표현 벡터 간의 매칭 정도를 산출할 수도 있고, 신경망을 적용하여 두 시맨틱 표현 벡터 간의 매칭 정도를 산출할 수도 있는바, 본 출원은 이에 대해 한정하지 않기로 한다.

토폴로지 맵의 시맨틱 표현에 있어서, 본 출원은 그래프 신경망(또는 그래프 신경망 인코더로 칭함)을 적용하여 토폴로지 맵의 시맨틱 표현을 산출할 수 있는바, 즉 그래프 신경망에 의해 토폴로지 맵을 위해 시맨틱 표현 벡터를 생성할 수 있다.

질문의 시맨틱 표현에 있어서, 본 출원은 두 가지 방식에 의해 처리를 진행할 수 있는데, 첫째로는 시퀀스 신경망, 예컨대 RNN(Recurrent Neural Network, 순환 신경망), BERT(Bidirectional Encoder Representations from Transformers, 트랜스포머의 양방향 인코더 표현), ERNIE(Enhanced Representation from kNowledge IntEgration, 지식의 통합을 통해 향상된 표현) 등을 적용하여 질문의 시맨틱 표현을 산출하는 것으로, 즉 시퀀스 신경망(또는 직렬화 인코더라고 칭함)을 통해 질문을 위해 그 시맨틱 표현 벡터를 생성하는 방식이고; 둘째로는 질문의 단어 시퀀스도 그래프 구조로 간주하여 그래프 신경망을 이용하여 그 시맨틱 표현을 산출하는 것으로, 즉 그래프 신경망을 통해 질문을 위해 시맨틱 표현 벡터를 생성하는 방식이다. 아래에서는 이 두 가지 방식을 각각 설명하기로 한다.

선택적으로, 상기 질문의 시맨틱 표현 벡터를 획득하는 단계는,

상기 질문의 단어 시퀀스에 대응되는 시맨틱 표현 벡터를 획득하는 단계; 또는

상기 질문의 단어 시퀀스를 그래프 구조로 변환시키고, 상기 그래프 구조의 시맨틱 표현 벡터를 획득하는 단계; 를 포함한다.

일 실시형태로서, 도 9가 도시하는 바와 같이, 시퀀스 신경망(또는 직렬화 인코더(serialization encoder)라고 칭함)을 통해 질문의 단어 시퀀스를 하나의 시맨틱 표현 벡터로 나타낼 수 있다.

당해 실시형태에서, 질문의 단어 시퀀스에 대응되는 시맨틱 표현 벡터를 획득함에 있어서, 그 처리 과정이 비교적 간단하고, 직접적이며 빠르기 때문에, 질문의 단어 시퀀스에 대응되는 시맨틱 표현 벡터를 획득함에 있어서, 효율이 비교적 높다는 특점을 갖는다.

다른 일 실시형태로서, 도 10이 도시하는 바와 같이, 질문의 단어 시퀀스를 먼저 그래프 구조로 표현하고 나서, 그래프 신경망(또는 그래프 신경망 인코더라고 칭함)을 통해 그래프 구조의 시맨틱 표현 벡터를 획득할 수 있다.

당해 실시형태에서, 하기와 같은 방식에 의해 질문의 단어 시퀀스를 그래프 구조로 표현할 수 있다: 단어 시퀀스 중의 임의의 두 단어 사이에 모두 하나의 에지가 있다고 가정하여, 질문의 단어 시퀀스를 하나의 완전 연결 그래프로 변환시켜, 질문 중의 단어 간의 시맨틱 관련을 설명할 수 있다. 즉, 상기 그래프 구조는 완전 연결 그래프이고, 상기 완전 연결 그래프에서, 상기 질문의 단어 시퀀스 중의 임의의 단어는 모두 노드로 간주되며, 임의의 두 노드는 모두 서로 연결된다.

당해 실시형태에서, 자연 언어 처리 의존 분석의 결과에 의해 질문의 단어 시퀀스를 그래프 구조로 표현할 수도 있는데, 당해 방식에서는, 의존성 분석에 의해 얻어진 트리 구조를 질문 단어 시퀀스를 나타내는 그래프 구조로 한다.

설명해야 할 것은, 그래프 신경망을 통해 질문의 시맨틱 표현 벡터를 획득하고, 그래프 신경망을 통해 토폴로지 맵의 시맨틱 표현 벡터를 획득하는 실시형태에서, 통일적인 그래프 신경망을 구성하고, 그래프 신경망에 의해 질문 및 토폴로지 맵의 시맨틱 표현의 산출을 통일적으로 실현하여, 질문 및 토폴로지 맵의 시맨틱 표현 벡터를 얻을 수도 있고; 상이한 그래프 신경망을 구성하여, 상이한 그래프 신경망에 의해 질문 및 토폴로지 맵의 시맨틱 표현의 산출을 각각 실현하여, 질문 및 토폴로지 맵의 시맨틱 표현 벡터를 얻을 수도 있다.

상기의 어느 한 실시형태와 관계없이, 모두 질문에 대응되는 시맨틱 표현 벡터를 효과적으로 획득할 수 있다. 실제 응용에서는, 실제 필요에 따라, 임의의 하나의 적절한 방식을 선택하여 실시할 수 있다.

본 출원에서, 질문 및 토폴로지 맵의 시맨틱 표현 벡터를 획득하는 과정에서, 어텐션 메커니즘을 도입하여 획득 과정을 개량할 수 있다. 다음은, 어텐션 메커니즘 도입에 관련된 설명이다.

선택적으로, 상기 방법은,

상기 질문의 시맨틱 표현 벡터 및 상기 토폴로지 맵의 시맨틱 표현 벡터를 획득하는 과정에서, 어텐션 메커니즘에 기초하여 상기 질문과 상기 토폴로지 맵 사이에서 정보 인터랙션을 진행하여, 상기 질문의 시맨틱 표현 벡터 및 상기 토폴로지 맵의 시맨틱 표현 벡터를 생성하는 단계; 를 더 포함한다.

당해 실시형태에서, 질문 및 토폴로지 맵의 시맨틱 표현의 학습 과정에서, 어텐션 메커니즘을 도입함으로써, 질문과 토폴로지 맵 간의 보다 충분한 정보 인터랙션을 실현할 수 있다.

구체적으로, 상기의 질문의 단어 시퀀스에 대응하는 시맨틱 표현 벡터를 획득하는 실시형태에 있어서, 질문 단어 시퀀스 중의 각 단어에서 토폴로지 맵 중의 각 노드를 주목할 수 있으며, 토폴로지 맵 중의 각 노드에서도 질문 단어 시퀀스의 각 단어를 주목할 수 있다.

상술한 질문의 단어 시퀀스를 그래프 구조로 변환시키고, 그래프 구조의 시맨틱 표현 벡터를 획득하는 실시형태에 있어서, 질문 그래프 구조에서의 각 노드에서 모두 토폴로지 맵 중의 각 노드를 주목할 수 있으며, 토폴로지 맵 중의 각 노드에서도 질문 그래프 구조에서의 각 단어를 주목할 수 있다.

도 11 내지 도 12는 각각 도 9 내지 도 10의 어텐션 메커니즘 도입을 나타내는 개략도이다.

이와 같이, 어텐션 메커니즘을 도입함으로써, 질문의 시맨틱 표현 학습 과정에서, 토폴로지 맵으로부터의 시맨틱 표현 정보를 이용할 수도 있고, 상응하게, 토폴로지 맵의 시맨틱 표현 학습 과정에서, 질문으로부터의 시맨틱 표현 정보을 이용하여, 각자의 시맨틱 표현 학습 효과의 향상을 보조할 수도 있다.

따라서, 어텐션 메커니즘을 도입함으로써, 보다 광범위하고 충분한 정보 인터랙션에 의해 질문과 토폴로지 맵 사이의 시맨틱 매칭 효과를 향상시킬 수 있으며, 이에 따라 질문-투-쿼리 그래프의 정확성을 한층 더 향상시키고, 질문 분석의 정확성을 한층 더 향상시킬 수 있다.

설명해야 할 것은, 본 출원에 따른 질문 분석 방법의 다양한 선택적인 실시형태들은 서로 결합하여 구현될 수도 있고, 별도로 구현될 수도 있는바, 본 출원에서는 이에 대해 한정하지 않는다.

본 출원의 상기의 실시예는 적어도 하기와 같은 이점 또는 유익한 효과를 갖는다.

제2 실시예

도 13이 도시하는 바와 같이, 본 출원은 질문 분석 장치(200)를 제공한다. 질문 분석 장치(200)는,

질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻기 위한 분석 모듈(201);

상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키기 위한 변환 모듈(202);

상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하기 위한 산출 모듈(203); 및

상기 N개의 토폴로지 맵에서, 상기 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 상기 질문의 쿼리 그래프로서 선택하기 위한 선택 모듈(204); 을 포함한다.

선택적으로, 산출 모듈(203)은,

상기 질문의 시맨틱 표현 벡터를 획득하기 위한 제1 획득 서브 모듈;

상기 N개의 토폴로지 맵의 각 토폴로지 맵의 시맨틱 표현 벡터를 획득하기 위한 제2 획득 서브 모듈; 및

상기 질문의 시맨틱 표현 벡터 및 각 토폴로지 맵의 시맨틱 표현 벡터에 근거하여, 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하기 위한 산출 서브 모듈; 을 포함한다.

선택적으로, 상기 제1 획득 서브 모듈은 구체적으로,

상기 질문의 단어 시퀀스에 대응되는 시맨틱 표현 벡터를 획득하거나; 또는

상기 질문의 단어 시퀀스를 그래프 구조로 변환시키고, 상기 그래프 구조의 시맨틱 표현 벡터를 획득하기 위한 것이다.

선택적으로, 상기 그래프 구조는 완전 연결 그래프이고, 상기 완전 연결 그래프에서, 상기 질문의 단어 시퀀스 중의 임의의 단어는 모두 노드로 간주되며, 임의의 두 노드는 모두 서로 연결된다.

선택적으로, 질문 분석 장치(200)는,

상기 질문의 시맨틱 표현 벡터 및 상기 토폴로지 맵의 시맨틱 표현 벡터를 획득하는 과정에서, 어텐션 메커니즘에 기초하여 상기 질문과 상기 토폴로지 맵 사이에서 정보 인터랙션을 진행하여, 상기 질문의 시맨틱 표현 벡터 및 상기 토폴로지 맵의 시맨틱 표현 벡터를 생성하기 위한 인터랙션 모듈; 을 더 포함한다.

본 출원에 따른 질문 분석 장치(200)는 상기의 질문 분석 방법 실시예에서의 질문 분석 장치에 의해 구현되는 각각의 과정을 구현가능하며, 동일하게 유익한 효과를 달성할 수 있고, 중복되는 설명을 피하기 위해, 여기서 더이상 상세하게 기술하지 않기로 한다.

제3 실시예

도 14가 도시하는 바와 같이, 본 출원은 질문 분석 장치(300)를 제공한다. 질문 분석 장치(300)는,

질문을 획득하고, 상기 질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻는 번역 모델(301);

입력단이 번역 모델(301)의 출력단에 연결되며, 상기 N개의 선형 시퀀스를 획득하고, 상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키는 시퀀스-투-그래프 변환 모델(302);

입력단이 시퀀스-투-그래프 변환 모델(302)의 출력단에 연결되며, 상기 질문 및 상기 N개의 토폴로지 맵을 획득하고; 상기 질문에 대해 제1 인코딩을 진행하여, 상기 질문의 시맨틱 표현 벡터를 얻고; 그리고 상기 N개의 토폴로지 맵의 각 토폴로지 맵에 대해 제2 인코딩을 진행하여, 각 토폴로지 맵의 시맨틱 표현 벡터를 얻는 인코딩 네트워크(303); 및

입력단이 인코딩 네트워크(303)의 출력단에 연결되며, 상기 질문의 시맨틱 표현 벡터 및 각 토폴로지 맵의 시맨틱 표현 벡터를 획득하고, 상기 질문의 시맨틱 표현 벡터 및 각 토폴로지 맵의 시맨틱 표현 벡터에 근거하여, 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 산출하는 매칭 네트워크(304); 를 포함한다.

선택적으로, 도 14가 나타내는 바와 같이, 인코딩 네트워크(303)는,

상기 질문을 획득하고, 상기 질문에 대해 인코딩을 진행하여, 상기 질문의 시맨틱 표현 벡터를 얻는 제1 인코더(3031); 및

입력단이 시퀀스-투-그래프 변환 모델(302)의 출력단에 연결되며, 상기 N개의 토폴로지 맵을 획득하고, 상기 N개의 토폴로지 맵의 각 토폴로지 맵에 대해 인코딩을 진행하여, 각 토폴로지 맵의 시맨틱 표현 벡터를 얻는 제2 인코더(3032); 를 포함하고,

제1 인코더(3031)의 출력단과 제2 인코더(3032)의 출력단은 모두 매칭 네트워크(304)의 입력단에 연결된다.

선택적으로, 제1 인코더(3031)는 직렬화 인코더이고, 제2 인코더(3032)는 제1 그래프 신경망 인코더인 것; 또는

제1 인코더(3031)는 제2 그래프 신경망 인코더이고, 제2 인코더(3032)는 제3 그래프 신경망 인코더이다.

선택적으로, 제1 인코더(3031)와 제2 인코더(3032)는 어텐션 메커니즘에 기초하여 정보 인터랙션을 진행한다.

본 출원에 따른 질문 분석 장치(300)는 상기의 질문 분석 방법 실시예에서의 질문 분석 장치에 의해 구현되는 각각의 과정을 구현가능하며, 동일하게 유익한 효과를 달성할 수 있고, 중복되는 설명을 피하기 위해, 여기서 더이상 상세하게 기술하지 않기로 한다.

제4 실시예

본 출원은 지식 기반 질문 응답 시스템을 더 제공한다. 상기 지식 기반 질문 응답 시스템은 제2 실시예에 따른 질문 분석 장치를 포함하거나; 또는

상기 지식 기반 질문 응답 시스템은 제3 실시예에 따른 질문 분석 장치를 포함한다.

본 출원에 따른 지식 기반 질문 응답 시스템은 상기의 질문 분석 방법 실시예에서의 각각의 과정을 구현가능하며, 동일하게 유익한 효과를 달성할 수 있고, 중복되는 설명을 피하기 위해, 여기서 더이상 상세하게 기술하지 않기로 한다.

본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독가능 저장 매체를 더 제공한다.

도 15가 도시하는 바와 같이, 본 출원의 실시예에 따른 질문 분석 방법의 전자 기기의 블록도를 나타내고 있다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터와 같은 각종 형태의 디지털 컴퓨터 및 기타 적합한 컴퓨터를 나타내는 것을 의도한다. 전자 기기는 개인 디지털 프로세서, 셀룰러폰, 스마트폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 각종 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에 도시된 컴포넌트, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것일 뿐이며, 본 명세서에서 설명 및/또는 요구되는 본 출원의 구현을 제한하는 것을 의도하지 않는다.

도 15가 도시하는 바와 같이, 당해 전자 기기는 하나 또는 복수 개의 프로세서(501), 메모리(502), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 컴포넌트를 연결하기 위한 인터페이스를 포함한다. 각 컴포넌트는 상이한 버스를 이용하여 서로 연결되며, 공통 마더 보드에 장착되거나 필요에 따라 기타 방식으로 장착될 수 있다. 프로세서는, 메모리 내에 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함하는, 전자 기기내에서 실행되는 명령을 처리할 수 있다. 기타 실시형태에서, 필요한 경우, 복수 개의 프로세서 및/또는 복수 개의 버스가 복수 개의 메모리와 함께 사용될 수 있다. 마찬가지로, 복수 개의 전자 기기가 연결되어, 각각의 기기에 의해 일부 필요한 조작들을 제공할 수 있다(예컨대, 서버 어레이, 일 그룹의 블레이드 서버, 또는 멀티 프로세서 시스템으로서). 도 15에서는 하나의 프로세서(501)을 예로 한다.

메모리(502)는 본 출원에 따른 비-일시적 컴퓨터-판독가능 저장 매체이다. 상기 메모리는 적어도 하나의 프로세서에 의해 실행가능한 명령이 저장되어 있어, 상기 적어도 하나의 프로세서가 본 출원에 따른 질문 분석 방법을 실행하도록 한다. 본 출원의 비-일시적 컴퓨터-판독가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터가 본 출원에 따른 질문 분석 방법을 수행하도록 하기 위한 것이다.

메모리(502)는 비-일시적 컴퓨터-판독가능 저장 매체로서, 비-일시적 소프트웨어 프로그램, 비-일시적 컴퓨터-실행가능 프로그램 및 모듈, 예컨대 본 출원의 실시예에 따른 질문 분석 방법에 대응되는 프로그램 명령/모듈(예컨대, 도 13에 나타내는 분석 모듈(201), 변환 모듈(202), 산출 모듈(203) 및 선택 모듈(204))을 저장하기 위한 것일 수 있다. 프로세서(501)는 메모리(502)에 저장된 비-일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 질문 분석 장치의 각종 기능 응용 및 데이터 처리를 수행하여, 상기의 방법 실시예에 따른 질문 분석 방법을 구현한다.

메모리(502)는 저장 프로그램 영역 및 저장 데이터 영역을 포함할 수 있으며, 저장 프로그램 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있고; 저장 데이터 영역은 질문 분석 방법의 전자 기기의 사용에 따라 작성된 데이터 등을 저장할 수 있다. 또한, 메모리(502)는, 고속 랜덤 액세스 메모리를 포함할 수 있으며, 비-일시적 메모리, 예컨대 적어도 하나의 자기 디스크 저장 장치, 플래시 저장 장치, 또는 기타 비-일시적 솔리드 스테이트 저장 장치를 더 포함할 수 있다. 일부 실시예들에 있어서, 메모리(502)는 선택적으로 프로세서(501)에 대해 원격 설치된 메모리를 포함하며, 이러한 원격 메모리들은 네트워크를 통해 질문 분석 방법의 전자 기기에 연결될 수 있다. 상기의 네트워크의 예로서, 인터넷, 기업 인트라넷, 근거리 통신망(LAN), 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

질문 분석 방법의 전자 기기는, 입력 장치(503) 및 출력 장치(504)를 더 포함할 수 있다. 프로세서(501), 메모리(502), 입력 장치(503) 및 출력 장치(504)는 버스 또는 기타 방식에 의해 연결될 수 있는데, 도 15에서는 버스에 의한 연결을 예로 하고 있다.

입력 장치(503)는 입력된 숫자 또는 캐릭터 정보를 수신하고, 질문 분석 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력, 예컨대 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수 개의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치의 입력을 생성할 수 있다. 출력 장치(504)는 표시 기기, 보조 조명 장치(예컨대, LED) 및 촉각 피드백 장치(예컨대, 진동 모터) 등을 포함할 수 있다. 당해 표시 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태들에 있어서, 표시 기기는 터치 스크린일 수 있다.

여기서 설명되는 시스템 및 기술의 각종 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(특정 용도 지향 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 각종 실시형태는, 하나 또는 복수 개의 컴퓨터 프로그램에서 실시되는 실시형태를 포함 할 수 있다. 당해 하나 또는 복수 개의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템에서 실행 및/또는 해석될 수 있다. 당해 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치, 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 칭함)은 프로그래머블 프로세서의 기계 명령을 포함하며, 고급 과정 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용된 바와 같은 용어 '기계 판독 가능 매체' 및 '컴퓨터 판독가능 매체'는, 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 포함하는, 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예컨대, 자기 디스크, 광 디스크, 메모리, 프로그래머블 논리 장치(PLD))를 가리킨다. 용어 '기계 판독가능 신호'는 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하기 위한 임의의 신호를 가리킨다.

사용자와의 인터랙션을 제공하기 위해, 여기에서 설명되는 시스템 및 기술을 컴퓨터 상에서 실시할 수 있다. 당해 컴퓨터는, 사용자에게 정보를 표시하기 위한 디스플레이 장치(예컨대, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 및 포인팅 장치(예컨대, 마우스 또는 트랙볼)을 갖는다. 사용자는 당해 키보드 및 당해 포인팅 장치에 의해 입력을 컴퓨터에 제공할 수 있다. 기타 종류의 장치를 사용자와의 인터랙션을 제공하는데 사용할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예컨대, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있으며; 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력을 포함)로 사용자로부터의 입력을 수신할 수 있다.

여기에 설명되는 시스템 및 기술은 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예컨대, 데이터 서버로서), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예컨대, 애플리케이션 서버), 프런트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 사용자가 여기서 설명되는 시스템 및 기술의 실시형태와 인터랙션가능한 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 사용자 컴퓨터), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프런트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예컨대, 통신 네트워크)에 의해 시스템의 컴포넌트를 서로 연결할 수 있다. 통신 네트워크의 예로는, 근거리 통신망 (LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로를 멀리하며 통상적으로 통신 네트워크를 통해 인터랙션을 진행한다. 상응하는 컴퓨터에서 실행되며 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 클라이언트와 서버의 관계를 생성한다.

본 출원의 실시예의 기술방안에 따르면, 질문 분석 과정은, 러프에서 파인으로의 두 개의 과정을 포함하는데, 첫번째 과정은, 질문-투-후보 쿼리 그래프의 변환을 실현하고, 두번째 과정은 후보 쿼리 그래프에서 쿼리 그래프를 확정하는 것을 실현한다. 전자는 시퀀스-투-시퀀스의 방식으로 질문의 단어 시퀀스에서 선형 시퀀스로의 변환을 빠르고 효율적으로 실현하고, 선형 시퀀스에서 토폴로지 맵으로의 변환을 빠르고 효율적으로 실현하는바, 따라서 질문을 위해 복수 개의 후보 쿼리 그래프를 생성하는 것을 빠르고 효율적으로 실현하고; 후자는 질문과 쿼리 그래프 사이의 정확한 매칭을 실현하여, 질문-투-쿼리 그래프의 정확성을 향상시키는바, 따라서 질문 분석의 정확성을 향상시킨다. 상기의 기술 수단을 적용하기 때문에, 종래 기술에서 단어 시퀀스 융합 방식을 기반으로 생성된 쿼리 그래프의 정확성이 비교적 낮은 문제점을 양호하게 해결한다.

위에 나타낸 각종 형태의 플로우를 사용하여, 단계를 재정렬, 추가 또는 삭제할 수 있음을 이해해야 할 것이다. 예를 들어, 본 출원에 기재된 각 단계들은 병행하여 수행될 수도 있고, 순차적으로 수행될 수도 있으며, 상이한 차례로 수행될 수도 있는바, 본 출원에 개시된 기술방안의 소망하는 결과를 실현할 수 있는 한, 본 명세서에서는 여기서 한정하지 않기로 한다.

상기의 구체적인 실시형태들은 본 출원의 보호 범위에 대한 제한을 구성하지 않는다. 당업자들은, 설계 요구 및 기타 요인에 따라 각종 수정, 조합, 서브조합 및 대체가 이루어질 수 있음을 이해해야 할 것이다. 본 출원의 정신 및 원칙 내에서 이루어지는 모든 수정, 균등물에 의한 치환 및 개량 등은 모두 본 출원의 보호 범위내에 포함되어야 한다.

Claims

질문 분석 방법에 있어서,
상기 방법은,
질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻는 단계;
상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키는 단계;
상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하는 단계; 및
상기 N개의 토폴로지 맵에서, 상기 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 상기 질문의 쿼리 그래프로서 선택하는 단계;
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하는 단계는,
상기 질문의 시맨틱 표현 벡터를 획득하는 단계;
상기 N개의 토폴로지 맵의 각 토폴로지 맵의 시맨틱 표현 벡터를 획득하는 단계; 및
상기 질문의 시맨틱 표현 벡터 및 상기 각 토폴로지 맵의 시맨틱 표현 벡터에 근거하여, 상기 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하는 단계; 를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 질문의 시맨틱 표현 벡터를 획득하는 단계는,
상기 질문의 단어 시퀀스에 대응되는 시맨틱 표현 벡터를 획득하는 단계; 또는
상기 질문의 단어 시퀀스를 그래프 구조로 변환시키고, 상기 그래프 구조의 시맨틱 표현 벡터를 획득하는 단계; 를 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 그래프 구조는 완전 연결 그래프이고, 상기 완전 연결 그래프에서, 상기 질문의 단어 시퀀스 중의 임의의 단어는 모두 노드로 간주되며, 임의의 두 노드는 모두 서로 연결되는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 방법은,
상기 질문의 시맨틱 표현 벡터 및 상기 토폴로지 맵의 시맨틱 표현 벡터를 획득하는 과정에서, 어텐션 메커니즘에 기초하여 상기 질문과 상기 토폴로지 맵 사이에서 정보 인터랙션을 진행하여, 상기 질문의 시맨틱 표현 벡터 및 상기 토폴로지 맵의 시맨틱 표현 벡터를 생성하는 단계; 를 더 포함하는 것을 특징으로 하는 방법.
질문 분석 장치에 있어서,
질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻기 위한 분석 모듈;
상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키기 위한 변환 모듈;
상기 N개의 토폴로지 맵의 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 각각 산출하기 위한 산출 모듈; 및
상기 N개의 토폴로지 맵에서, 상기 질문과의 시맨틱 매칭도가 가장 높은 토폴로지 맵을 상기 질문의 쿼리 그래프로서 선택하기 위한 선택 모듈;
을 포함하는 것을 특징으로 하는 질문 분석 장치.
질문 분석 장치에 있어서,
질문을 획득하고, 상기 질문을 분석하여 1보다 큰 정수인 N개의 선형 시퀀스를 얻는 번역 모델;
입력단이 상기 번역 모델의 출력단에 연결되며, 상기 N개의 선형 시퀀스를 획득하고, 상기 N개의 선형 시퀀스를 각각 N개의 토폴로지 맵으로 변환시키는 시퀀스-투-그래프 변환 모델;
입력단이 상기 시퀀스-투-그래프 변환 모델의 출력단에 연결되며, 상기 질문 및 상기 N개의 토폴로지 맵을 획득하고; 상기 질문에 대해 제1 인코딩을 진행하여, 상기 질문의 시맨틱 표현 벡터를 얻고; 그리고 상기 N개의 토폴로지 맵의 각 토폴로지 맵에 대해 제2 인코딩을 진행하여, 각 토폴로지 맵의 시맨틱 표현 벡터를 얻는 인코딩 네트워크; 및
입력단이 상기 인코딩 네트워크의 출력단에 연결되며, 상기 질문의 시맨틱 표현 벡터 및 상기 각 토폴로지 맵의 시맨틱 표현 벡터를 획득하고, 상기 질문의 시맨틱 표현 벡터 및 상기 각 토폴로지 맵의 시맨틱 표현 벡터에 근거하여, 상기 각 토폴로지 맵과 상기 질문의 시맨틱 매칭도를 산출하는 매칭 네트워크;
를 포함하는 것을 특징으로 하는 질문 분석 장치.
제7항에 있어서,
상기 인코딩 네트워크는,
상기 질문을 획득하고, 상기 질문에 대해 인코딩을 진행하여, 상기 질문의 시맨틱 표현 벡터를 얻는 제1 인코더; 및
입력단이 상기 시퀀스-투-그래프 변환 모델의 출력단에 연결되며, 상기 N개의 토폴로지 맵을 획득하고, 상기 N개의 토폴로지 맵의 각 토폴로지 맵에 대해 인코딩을 진행하여, 상기 각 토폴로지 맵의 시맨틱 표현 벡터를 얻는 제2 인코더; 를 포함하고,
상기 제1 인코더의 출력단 및 상기 제2 인코더의 출력단은 모두 상기 매칭 네트워크의 입력단에 연결되는 것을 특징으로 하는 질문 분석 장치.
제8항에 있어서,
상기 제1 인코더는 직렬화 인코더이고, 상기 제2 인코더는 제1 그래프 신경망 인코더인 것; 또는
상기 제1 인코더는 제2 그래프 신경망 인코더이고, 상기 제2 인코더는 제3 그래프 신경망 인코더인 것을 특징으로 하는 질문 분석 장치.
제8항에 있어서,
상기 제1 인코더와 상기 제2 인코더는 어텐션 메커니즘에 기초하여 정보 인터랙션을 진행하는 것을 특징으로 하는 질문 분석 장치.
지식 기반 질문 응답 시스템에 있어서,
상기 지식 기반 질문 응답 시스템은 제6항에 따른 질문 분석 장치를 포함하거나; 또는
상기 지식 기반 질문 응답 시스템은 제7항 내지 제10항 중 어느 한 항에 따른 질문 분석 장치를 포함하는 것을 특징으로 하는 지식 기반 질문 응답 시스템.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제5항 중 어느 한 항에 따른 방법을 수행가능하도록 하는 것을 특징으로 하는 전자 기기.
비-일시적 컴퓨터-판독가능 저장 매체에 있어서,
컴퓨터 명령이 저장되어 있고,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제5항 중 어느 한 항에 따른 방법을 수행하도록 하기 위한 것인 것을 특징으로 하는 비-일시적 컴퓨터-판독가능 저장 매체.
컴퓨터 명령으로 구성된 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제5항 중 어느 한 항에 따른 방법을 수행하도록 하기 위한 것인 것을 특징으로 하는 프로그램.