KR20170045135A

KR20170045135A - 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법

Info

Publication number: KR20170045135A
Application number: KR1020160133767A
Authority: KR
Inventors: 레이 리; 웨이 수; 지항 다이
Original assignee: 바이두 유에스에이 엘엘씨
Priority date: 2015-10-16
Filing date: 2016-10-14
Publication date: 2017-04-26
Also published as: EP3156949A2; US10606846B2; JP6348554B2; EP3156949A3; CN106649514A; JP2017076403A; CN106649514B; US20170109355A1; KR101950985B1

Abstract

본 명세서에는 "해리 포터는 어디에서 학교를 다니나요"와 같은 질문에 대해 어떻게 자동적으로 응답해야 할 것인가를 확정하기 위한 시스템 및 방법이 논술된다. 주도면밀하게 구축된 지식 그래프는 풍부한 사실 자원을 제공하나, 질문이 엄청나게 다양한 방식들로 제기될 수 있으므로 자연 언어로 사실 기반의 질문에 대해 응답함에 있어서 여전히 어려움이 있다. 본 명세서에는 휴먼 인스파이어드된 간단한 질문 응답(HISQA)을 위한 시스템 및 방법의 실시예, 즉, 지식 그래프를 이용하여 자동적으로 질문에 대해 응답하기 위한 딥 신경망 기반의 방법이 기재된다. 실시예에서는, 이러한 타스크 중의 인간 행위에서 영감을 받아 먼저, 개체 연결을 통해 정확한 개체를 검색한 후, 적절한 관계를 모색하여 상기 질문에 대해 응답하며, 상기 2개의 단계는 모두 딥 케이트된 순환 네트워크 및 신경 임베딩 메카니즘으로 실현된다.

Description

휴먼 인스파이어드된 간단한 질문 응답(HISQA)을 위한 시스템 및 방법{SYSTEMS AND METHODS FOR HUMAN INSPIRED SIMPLE QUESTION ANSWERING (HISQA)}

본 개시는 대체로 컴퓨터 기술에 관한 것으로, 특히, 자연 언어로 제기된 질문에 대한 응답을 자동화시키고 인간과 컴퓨터 간의 인터페이싱을 개선시키기 위한 시스템 및 방법에 관한 것이다.

어떻게 "해리 포터는 어디에서 학교를 다니나요"와 같은 질문을 자동 응답하는가에 관한 문제가 존재한다. 주도면밀하게 구축된 지식 그래프는 풍부한 사실 자원을 제공한다. 그러나, 질문을 제기할 수 있는 방식이 엄청나게 다양하므로, 자연 언어로 사실 기반의 질문을 응답함에 있어서 여전히 어려운 과제들이 존재하고 있다.

따라서, 더 효율적이고 정확한 방식으로 질문을 자동 응답하는 시스템 및 방법이 요구되고 있다.

본 출원은 쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법 및 질문 속의 화제를 식별하기 위한 컴퓨터 실현 방법을 제공하는데 그 목적이 있다.

일 측면에 있어서, 쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법을 제공하고, 상기 방법은 하나 또는 다수의 단어들을 구비한 쿼리를 접수하되, 상기 하나 또는 다수의 단어는 상기 쿼리의 화제를 묘사하는 주제 청크를 포함하는 단계와, 적어도 하나의 후보 주제를 검색하도록 데이터 베이스에 대해 쿼리하되, 상기 적어도 하나의 후보 주제의 명칭 또는 가명은 상기 주제 청크와 동일한 표면 형식을 구비하는 단계와, 하나 또는 다수의 관계 벡터들을 검색하도록 데이터 베이스에 대해 쿼리하되, 상기 하나 또는 다수의 관계 벡터들은 상기 적어도 하나의 후보 주제에 연관된 하나 또는 다수의 관계들을 표시하는 단계와, 상기 하나 또는 다수의 관계들의 랭킹 스코어를 확정하되, 상기 랭킹 스코어 중의 각각은 상기 쿼리와 상응한 관계 사이의 어의적 유사성을 가리키는 단계와, 예측된 관계로서 상기 하나 또는 다수의 관계들 중에서 가장 높은 랭킹 스코어를 구비한 관계를 선택하고, 예측된 화제로서 상기 적어도 하나의 후보 주제를 선택하는 단계와, 상기 쿼리에 대한 응답을 검색하도록 상기 예측된 관계 및 상기 예측된 화제를 이용하여 데이터 베이스에 대해 쿼리하는 단계를 포함할 수 있다.

다른 일 측면에 있어서, 질문 속의 화제를 식별하기 위한 컴퓨터 실현 방법을 제공하고, 상기 방법은 하나 또는 다수의 단어들을 구비한 쿼리를 접수하되, 상기 하나 또는 다수의 단어는 상기 쿼리 질문의 화제를 포함하는 단계와, 상기 하나 또는 다수의 단어들을 하나 또는 다수의 임베딩들로 전환하되, 각 임베딩은 대응되는 단어를 표시하는 벡터인 단계와, 상기 하나 또는 다수의 임베딩들 중의 각각이 상기 화제의 일부분일 확률을 예측하는 단계와, 상기 화제로서 상기 하나 또는 다수의 임베딩들 중에서 확률이 역치보다 큰 일부 임베딩들을 선택하는 단계와, 상기 화제로서 상기 선택된 임베딩에 대응되는 하나 또는 다수의 단어들을 연결하는 단계를 포함할 수 있다.

또 다른 일 측면에 있어서, 쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법을 제공하고, 상기 방법은하나 또는 다수의 단어들을 구비한 입력된 쿼리를 접수하는 단계와, 신경망 모델을 이용하여 상기 입력된 쿼리의 주제 청크를 식별하되, 상기 주제 청크는 상기 입력된 쿼리의 화제를 묘사하는 단계와, 명칭 또는 가명이 상기 주제 청크와 동일한 표면 형식을 구비한 적어도 하나의 후보 주제를 식별하도록, 상기 주제 청크를 이용하여 데이터 베이스에 대해 쿼리하는 단계와, 상기 적어도 하나의 후보 주제에 연관된 하나 또는 다수의 관계들 중에서 예측된 관계를 선택하고, 예측된 화제로서 상기 적어도 하나의 후보 주제를 선택하는 단계와, 상기 쿼리에 대한 응답을 검색하도록 상기 예측된 관계 및 상기 예측된 화제를 이용하여 데이터 베이스에 대해 쿼리하는 단계를 포함할 수 있다.

본 발명의 실시예들을 참고로 하되, 이러한 실시예들의 예시들은 첨부된 도면에 도시될 수 있다. 첨부된 도면들은 오직 예시적인 것일 뿐, 본 발명을 한정하기 위한 것이 아니다. 본 발명은 이러한 실시예들에 관한 콘텍스트에서 전반적으로 설명되나, 이러한 설명들은 본 발명의 범위를 이러한 구체적인 실시예들에 한정하기 위한 것이 아님을 이해하여야 한다. 도면 중의 항목들은 비율에 맞춰 도시된 것은 아니다.
도 1은 본 개시의 실시예에 따른 시스템의 일 예시를 요약한다. 실시예에 있어서, 시스템은 1) 주제 라벨링; 2) 후보 주제 검색; 3) 후보 관계 랭킹; 4) 개체 모호성 해소; 및 5) 쿼리 생성 및 실행의 5개의 단계를 포함한다.
도 2는 본 개시의 실시예에 따른 주제 라벨링을 위한 완전한 모델을 나타내고, 본 개시의 실시예에서는 단어 임베딩(word embedding) 및 회귀 신경망(기본 RNN 및 양방향 RNN, 양방향 장단기 기억 장치(LSTM) 및 적층형 양방향 게이트된 순환 유닛(GRU)과 같은 기본 RNN의 변형들을 포함함)에 기반한 순차적인 라벨링 모델을 이용하여 주제 문자열을 식별한다.
도 3은 본 개시의 실시예에 따른 주제 라벨링을 위한 예시적 과정의 흐름도를 나타낸다.
도 4는 본 개시의 실시예에 따른 입력된 질문의 화제를 묘사하는 주제 청크를 식별하기 위한 예시적 과정의 흐름도를 나타낸다.
도 5는 본 개시의 실시예에 따른 질문에 대응되는 지식 베이스로부터의 후보 관계를 랭킹하기 위한 모델의 예시를 나타낸다. 적층형 양방향 GRU를 이용하는 예시적 모델은 질문에 대해 연속된 값의 벡터 표현을 산출(질문-임베딩)에 사용된다. 본 단계에서 양방향 RNN 및 양방향 LSTM과 같은 기타 RNN 유닛들도 사용될 수 있다.
도 6은 본 개시의 실시예에 따른 관계 랭킹을 위한 예시적 과정의 흐름도를 나타낸다.
도 7은 본 개시의 실시예에 따른 k차원 벡터 공간에서 입력된 질문을 표시하는 질문 벡터를 생성하기 위한 예시적 과정의 흐름도를 나타낸다.
도 8은 본 개시의 실시예에 따른 예측된 주제 및 관계를 생성하도록 후보 주제들에 대해 모호성 해소를 진행하여 예측된 주제 및 관계를 생성하기 위한 예시적 과정의 흐름도를 나타낸다.
도 9는 본 개시의 실시예에 따른 예시적 시스템 다이어그램을 보여준다.
도 10은 본 개시의 실시예에 따른 휴먼 인스파이어드된 간단한 질문 응답(HISQA) 주제 및 관계 모델의 예시적 다이어그램을 보여준다.
도 11은 본 개시의 실시예에 따른 입력된 쿼리에 대한 응답을 제공하기 위한 예시적 과정의 흐름도를 나타낸다.
도 12는 본 개시의 실시예에 따른 컴퓨팅 기기/정보 처리 시스템의 간략한 블록도를 보여준다.

이하의 명세서에서, 해석의 목적으로, 본 발명에 대한 이해를 제공하기 위하여 구체적인 세부 사항들에 대한 설명을 진행하기로 한다. 그러나, 해당 기술분야에서 통상의 지식을 가진 자는 이러한 세부 사항들이 없이 본 발명을 구현할 수 있음을 자명할 것이다. 또한, 이하 설명되는 것과 같이, 해당 기술분야에서 통상의 지식을 가진 자는 본 발명의 실시예들을 유형적인 컴퓨터 판독 가능한 매체 상에서 과정, 장치, 시스템, 기기 또는 방법 등 여러가지 방식으로 구현할 수 있음을 자명할 것이다.

첨부된 도면에 도시된 부재 또는 모듈들은 본 발명의 예시적 실시예들을 설명하기 위한 것이며, 본 발명이 흐려지는 것을 피면하기 위한 것이다. 또한, 명세서 전반에 걸쳐 부재는 서브 유닛을 포함할 수 있는 별도의 기능성 유닛으로 설명될 수 있으나, 해당 기술분야에서 통상의 지식을 가진 자는, 각 부재 또는 그의 부분들을 별개의 부재들로 구분하거나, 단일 시스템 또는 부재에 통합되는 것을 포함하여 함께 통합될 수 있음을 자명할 것이다. 본 명세서에서 언급되는 기능 또는 조작들이 부재들로 구현될 수 있음을 유의해야 한다. 부재들은 소프트웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다.

또한, 첨부된 도면 중의 부재 또는 시스템 사이의 연결은 직접적인 연결에 한정되는 것이 아니다. 더 정확하게, 이러한 부재들 사이의 데이터는 중간 부재에 의해 변경되거나 리포맷되거나 또는 기타 방식으로 변화될 수 있다. 이외, 추가 연결을 사용하거나 더 적은 연결을 사용할 수 있다. "결합된 (coupled)", "연결된 (connected)" 또는 "통신 연결된 (communicatively coupled)"과 같은 용어들은 직접적인 연결, 하나 또는 다수의 중간 기기를 통해 구현된 간접적인 연결 및 무선 연결을 포함하는 것으로 이해해야 됨을 유의해야 한다.

"일 실시예", "바람직한 실시예", "실시예" 또는 "각 실시예들"이 본 명세서에 언급되는 것은 실시예에 결부하여 설명한 구체적인 특징, 구조, 특성 및 기능들이 본 발명의 적어도 하나의 실시예에 포함되고, 하나 이상의 실시예들에 존재할 수 있음을 의미한다. 또한, 상기 관용구들이 본 명세서의 각 부분에 나타날 경우, 모두 동일한 실시예를 참조해야만 하는 것은 아니다.

명세서의 각 부분에서, 일부 용어들의 사용은 예시적인 것일 뿐, 한정적인 것으로 해석해서는 안된다. 서비스, 기능 또는 자원은 단일 서비스, 기능 또는 자원에 한정되지 않으며, 이러한 용어들의 사용은 관련 서비스, 기능 또는 자원들의 조합을 가리킬 수 있으며, 관련 서비스, 기능 또는 자원들의 조합은 분산형 또는 응집형일 수 있다.

"포함하다(include)", "포함하는(including)", "포함하다(comprise)" 및 "포함하는(comprising)" 등 용어들은 개방형 용어로 이해되어야 하고, 그 뒤에 나열된 임의의 리스트들은 예시적일 것일 뿐, 나열된 항목들에 한정됨을 의미하는 것은 아니다. 본 명세서에서 사용되는 임의의 제목들은 구성상의 목적으로만 사용될 뿐, 본 명세서 또는 특허 청구항의 범위를 한정하기에 사용되어서는 아니된다.

본 특허문헌에서 언급되는 각 인용문헌의 전체 내용은 참조로서 본 명세서에 원용된다.

해당 기술분야에서 통상의 지식을 가진 자는, (1) 일부 단계들이 선택적으로 실행될 수 있고, (2) 단계들이 본 명세서에 기재된 구체적인 순서에 한정되지 않을 수 있고, (3) 일부 단계들은 상이한 순서로 실행될 수 있으며, (4) 일부 단계들은 동시에 실행될 수 있음을 자명할 것이다.

A. 소개

오픈 도메인 질문 응답(QA)은 도메인의 제한이 없이 자연 언어로 표현된 질문에 대해 정확한 응답을 제공하는데 그 목적이 있다. 근래에, Freebase와 같이 모든 도메인들로부터 추출한 사실들(facts)을 통합 삼중항(unified triplet)으로서 저장하는 성숙된 대규모 지식 그래프(KG)는 QA시스템에 구조화된 데이터를 이용하여 응답을 추론하는 기회를 제공한다. 이러한 경우, QA시스템의 핵심 과제는 자연 언어로 제기된 질문을 KG 중의 정보적 삼중항들(informative triple(s))에 매칭시키고, 이러한 삼중항들에 기반하여 응답을 추론하도록 구상될 수 있다.

온갖 종류의 질문들 중에서, 응답의 증거로서 KG 중의 하나의 사실(삼중항)만 요구하는 질문 유형이 존재하며, 본 문서에서는 이러한 유형의 질문을 간단한 질문이라고 지칭한다. 예를 들어, "프란 드레셔는 어디에서 태어났어요?(Where was Fran Drescher born?)"가 전형적인 예시일 수 있다.

이러한 질문들은 충분히 간단하나, 이를 응답하는데 여전히 해결되지 않은 문제가 남아 있다. 오히려, 간단한 질문은 커뮤니티 사이트에서 나타나는 가장 흔한 종류의 질문이다.

본 문서에서는, 이러한 타스크 중의 인간 행위에서 영감을 받아 간단한 질문을 응답하기 위한 새로운 시스템의 실시예를 제기한다. 일반적으로 전체적인 청크의 생성 및 개체 연결(entity linking)을 수행하는 기존의 대부분 방식과 달리, 본 명세서의 시스템의 실시예는 우선 사람이 새로운 질문에 대면할 경우 가장 먼저 하는 것과 같이, 질문 중의 관심 개체를 묘사하는 부분을 정확히 식별하도록 학습한다. 시스템은 식별된 언어 청크에 기반하여, KG에서 동일한 표면 형식의 가명(alias)을 가지는 후보 개체들을 검색한다. 이외, 직접 상이한 개체들에 대해 모호성 해소를 진행하도록 시스템을 트레이닝하는 것이 아니라, 각 개체가 구비한 관계들을 이용하여 어느 개체가 질문의 맥락에 나타날 가능성이 더 큰지를 결정한다. 직관적으로, 사람들은 질문에서 무엇(관계)이 언급되었는지 그리고 개체가 그러한 방식(상기 관계를 구비함)으로 언급될 수 있는지를 인식함으로써 동일한 명칭을 가지는 개체들에 대해 모호성 해소를 진행한다. 인간이 "프란 드레셔는 어디에서 태어났어요?"라는 질문을 처리하는 과정을 예로 들기로 한다. 비록 피질문자는 "프란 드레셔"가 누구인지 또는 무엇인지를 모를 수도 있으나, "프란 드레셔"가 틀림없이 해당 질문 속의 관심 개체라는 것을 알 수 있다. 다음, 데이터 베이스에서 "프란 드레셔"라는 이름을 검색할 수 있다. 해당 이름을 가지는 2개의 개체가 존재한다고 가정한다. 즉, 한 개체는 작가이고, 다른 한 개체는 TV쇼이다. 피질문자는 해당 질문이 한 사람이 태어난 곳에 대해 묻고 있다는 것을 확신할 수 있으므로, 작가 개체를 선택하고 이에 대응되는 속성(관계)를 체크할 수 있다.

해당 시스템의 실시예에서 연속적인 임베딩 및 적층형 양방향 게이트된 순환 유닛 회귀 신경망(GRU-RNN)을 서브 모듈로서 광범위하게 이용함으로써, 모든 서브 모듈들 상에서 우수한 성능을 획득하여 공동으로 간단한 질문 응답에 대해 강력하면서도 직관적인 뉴럴 파이프라인(pipeline)을 형성한다.

본 문서의 나머지 부분들은 아래와 같이 구성된다. 섹션 B에서 이전 작업에 대해 설명한 후, 섹션 C에서 공식적으로 질문을 정의하고 해당 시스템의 실시예를 소개한다. 다음, 섹션 D에서 각 서브 모듈에 대해 상세히 설명하고, 섹션 E에서 트레이닝 기법이 그 뒤를 잇는다. 섹션 F에서 지식 그래프의 세부 사항들을 보여준다. 섹션 G에서 일부 결론들을 제공하고, 섹션 H에서는 일부 예시적인 시스템 실시예들을 개시한다.

B. 관련 작업

지식 베이스(KB)로 지원되는 QA에 대한 연구는 조기의 특정 도메인 QA로부터 대규모 KG에 기반한 오픈 도메인QA까지 발전해 왔다. 하나의 중요한 연구 라인은, KG에 대조하여 자연 언어 질문을 구조화된 쿼리로 전환하는 질문의 어의적 분석에 중점을 두고 있다. 최근 연구 동향은 원거리 감독법(distant supervision)을 이용하는 것, 의역(paraphrasing)을 이용하는 것 및 소량의 질문-응답 쌍을 요구하는 것을 포함한다. 이에 대비하여, 다른 한 연구 라인으로서, 연속적인 임베딩으로 질문 및 KG 요소 양자를 표시한 후, 유사성 측정을 이용하여 최적의 매치를 결정하는 것이 제기되였다. 여러 방식들 사이의 주요한 차이점은 질문 및 KG요소를 임베딩하기 위한 모델에 있다. 질문 임베딩 및 지식 임베딩을 형성하기 위해 적어도 하나의 방식이 더욱 간단한 모델(기본적으로 단층 구조임)을 사용하고 있으나, 적어도 하나의 기타 방식은 상기 과제를 수행하기 위해 딥 컨볼루션 신경망(CNN)을 제기하였다. 본 명세서의 방식의 실시예들은 상기 부류에 속하나, RNN 기반의 모델을 이용하여 질문 임베딩을 구축한다. 더 중요한 것은, 실시예에서 새로운 개체 연결 방안(scheme)이 사용된다. 이전 작업에서는, 먼저 질문으로부터 모든 가능한 N-그램(N-Gram)을 생성한 후, 랭킹 모델을 이용하여 임의의 생성된 N-그램에 매칭되는 모든 개채들에 대해 랭킹을 진행한다. 반대로, 실시예에 있어서, 후보 개체의 수량을 현저히 줄이는 순차적인 라벨링을 적용하여 정확한 주제 문자열의 위치를 확정한 후, 주제와 관계 사이의 연루(implicate)제약을 이용하여 경험적으로(heuristically) 후보들에 대해 랭킹을 진행한다.

표현 학습(representation learning)의 관점에서, 실시예들은 컴포지셔널 뉴럴 임베딩(compositional neural embedding) 및 연속적인 지식 베이스 임베딩에도 관련된다. 컴포지셔널 뉴럴 임베딩에 대한 연구는 발디(Baldi)등 저자들이 명칭이 "Exploiting the past and the future in protein secondary structure prediction(단백질 이차 구조 예측에서의 과거와 미래에 대한 탐구 )", Bioinformatics(생물정보학), 15(11): 937 -946, 1999 인 학술논문에서 논술한 신경확률 언어 모델로부터 시작되였고, 그 뒤로 CNN 기반의 모델, 재귀 신경망 기반의 모델 및 RNN 기반의 모델이 있다. 연속적인 지식 베이스 임베딩에 있어서, 대부분 작업들은 지식 베이스를 완성하는 과제에 주력하였고, 여기서 임베딩 공간에서의 전환은 수학 연산으로 모델링될 수 있다.

C. 개술

실시예에 있어서, 외부적으로 구축된 지식 그래프κ가 이용되고, 해당 지식 그래프 κ는 주제-관계-대상 삼중항(s, r, o)의 형식으로 지식을 정리하며, 여기서 s, o∈ε는 개체이고, r∈R는 이진 관계이다. κ에 대한 (s,r ,?)형식의 쿼리는 (s,r,o _i )이 κ 중의 유효한 삼중항이도록 하는 모든 대상 o_i∈ε을 반환한다. 따라서, 간단한 질문 q에 대한 응답은 쿼리 (s,r ,?)가 질문 q에 대한 정확한 응답을 제공하도록 하는 s∈ε, r∈R를 검색한다. 동일한 예시로서, "프란드레셔는 어디에서 태어났어요"를 예로 들 경우, 상기 질문은 쿼리 (프란 드레셔 , 출생지, ?)에 매칭될 수 있다. 하나의 예시적인 지식 그래프로서 공개적으로 이용 가능한 Freebase가 있다.

상기 수학식에 기반하여, 본 시스템의 실시예의 핵심은 s 및r 양자의 최적의 매치를 찾기 위한 뉴럴 파이프라인에 있다. 간단하게 말하면, 시스템은 2개의 트레이닝 가능한 모듈(주제 라벨링 및 관계 랭킹) 및 하나의 규칙 기반의 모듈(합동 모호성 해소)을 포함한다. 2개의 트레이닝 가능한 모듈은 비구조적 언어와 구조적 지식 사이의 격차를 줄이도록 학습하고, 규칙 기반 모듈은 이전의 결과에 기반하여 최종의 결정을 짓는다. 도 1은 상기 시스템의 실시예를 요약하였다. 도 1의 실시예에 도시된 바와 같이, 시스템은 (1) 주제 라벨링하는 단계에서 시작되어, 먼저 (2) 후보 주제를 생성한 후, (3) 후보 관계에 대해 랭킹을 진행하고, 이러한 결과들을 조합하여 합동 (4) 모호성 해소를 수행하고, 최종적으로 (5) 예측 및 응답 생성을 진행한다.

실시예에 있어서, 파이프라인은 트레이닝 가능한 주제 라벨링 시스템에서 시작되고, 상기 시스템은 질문 속의 화제를 묘사하는 청크 c를 식별한다. 언어 청크 c에 기반하여, 시스템은 쿼리를 제기하여 식별된 청크와 같은 표면 형식을 가지는 가명을 구비한 모든 개체들을 획득한다. 이러한 세트의 개체 z를 후보 주제라고 지칭하고

로 표시한다. 기본적으로, 정확한 주제의 가명 중의 하나는 질문에 나타나야 된다고 가정할 수 있다. 이러한 가정이 합리적인 이유는 근래의 KG가 사람들이 가명으로 한 개체를 언급하는 대부분의 방식들을 포함하기 때문이다(다만, 이러한 과정을 개선할 수 있는 더 복잡한 근사 매칭 방안들이 사용될 수 있다는 것을 유의해야 한다). 상기 가정 하에서, 주제 라벨링이 정확할 경우, 정확한 주제는 반드시 후보 주제 중에 있을 것이고, 공식적으로

이다.

실시예에 있어서, 시스템은 정확한 관계 r에 대한 식별을 시도한다. 획득한 후보 주제가 관계 검색 공간을 후보 주제에 관련되는 관계들로 한정하였기에 시스템은 모든 가능한 관계 R로부터 r을 검색할 필요가 없음을 유의해야 한다. 따라서, 시스템은 각 후보 주제

에 대해 주제에 관련되는 모든 관계들을 쿼리하여,

로 표시하며, 이러한 모든 관계들을 후보 관계 리스트

로 집계한다. 예를 들어, 지식 그래프에서, 각 후보 주제는 하나의 노드로 표시되고, 관계들은 후보 주제에 관련되는 에지(edge)로 표시된다. 이로써, 정확한 관계가 후보 관계들 중에 있다는 것이 확인되고, 공식적으로

이다. 다음, 관계 랭킹 시스템은

중의 관계들에 대해 스코어를 하고, 여기서, 더울 높은 스코어는 더욱 높은 정확한 관계일 가능성을 가리킨다.

마지막으로, 다른 한 모듈은 후보 주제 및 관계 랭킹 스코어 양자에 기반하여, 시스템의 최종 예측을 생성하는 간단하고 경험적인 합동 모호성 해소를 적용한다.

D. 모델 실시예

1. 주제 라벨링

실시예에 있어서, 주제 라벨링은 자연 질문에서 관심 주제를 묘사하는 단어 청크를 식별하는데 그 목적이 있다. 실시예에 있어서, 주제 라벨링은 순차적인 라벨링 문제로 구상된다. 기본적으로, 질문 중의 각 토큰(token)에 대해, 해당 토큰이 주제 청크의 일부분인지 아닌지에 관한 이진 분류를 진행한다. 완성도를 위해, 상기 모듈의 핵심 모델인 적층형 양방향 GRU-RNN에 대해 간략하게 검토해 보도록 한다.

먼저, 양방향 RNN은 2개의 분리된 회귀 은닉층에 앞뒤 방향으로 각 입력 서열을 표시하는 변형된 회귀 신경망이고, 상기 2개의 분리된 회귀 은닉층은 동일한 출력층에 연결된다. 유익하게, 양방향 RNN은 예측을 진행하기 위한 과거 및 미래의 완전한 콘텍스트 정보를 포획할 수 있다. 다음으로, 장단기 기억 장치(LSTM)와 매우 유사하게, 게이트된 순환 유닛(GRU)은 RNN에 대한 스패셜 셀 디자인이다. 트레이닝 가능한 게이트 및 정 오차 캐러셀(Constant Error Carousel; CEC)을 이용함으로써, GRU는 기울기가 사라지는 문제의 영향을 비교적 적게 받고, 장기 의존성(long-term dependence)을 학습할 수 있다. LSTM에 대비하면, GRU는 더 간단한 디자인과 더 적은 파라미터로 유사한 성능을 실현할 수 있다. 마지막으로, 깊이가 이미 이론상으로나 경험적으로 모두 신경망의 성공에 대해 결정적인 것으로 나타났기에, 이전 층의 출력을 입력으로 하는 RNN에 더 많은 층을 추가함으로써 RNN의 성능을 향상시킬 수 있다. RNN의 깊이를 증가시키는 수많은 가능한 방식들 중에서, 광범위하게 사용되는 관용기법으로서 간단하게 여러 층들을 적층하는 것이 있다.

실시예에 있어서, 위에서 언급된 3개의 아이디어는 조합되어 적층형 양방향 GRU-RNN을 형성할 수 있다. 이러한 구조는 그레이브(Graves) 등 저자들이 명칭이 "Speech recognition with deep recurrent neural networks(딥 회귀 신경망을 이용한 음성 인식)"인, Acoustics, Speech and Signal Processing(음향학, 음성 및 신호처리)(ICASSP), IEEE 국제 회의 , 제6645-6649 페이지, IEEE, 2013 학술논문 및 황(Huang) 등 저자들이 명칭이 "Bidirectional lstm - crf models for sequence tagging(서열 태깅을 위한 양방향 LSTM - CRF 모델)"인, ArXiv 견본 인쇄본, ArXiv:1508.01991,2015 학술논문에서 논술한 구조와 어느 정도 유사하나, 다만 LSTM 대신에 GRU를 사용한 것에서 차이가 있다. 본 문서의 나머지 부분에서, 적층형 양방향 GRU-RNN은 S-Bi-GRU으로 약칭된다.

도 2는 본 개시의 실시예에 따른 주제 라벨링(200)의 완전한 모델(도 1의 주제 모델링(105)과 동일함）을 나타내고, 본 개시의 실시예에서, 주제 문자열을 식별하기 위해 단어 임베딩 및 회귀 신경망(기본 RNN 및 양방향RNN, 양방향 LSTM 및 적층형 양방향 GRU와 같은 기본 RNN의 변형들을 포함함）에 기반한 순차적인 라벨링 모델이 사용된다. 실시예에 있어서, 상기 모델은 이산형 입력 서열을 연속적인 벡터 서열로 전환(단어 입베딩)하는 임베딩층(210), 분류를 위한 특징들을 생성하도록 학습하는 S-Bi-GRU(212) 및 상기 S-Bi-GRU층(212)으로 생성된 특징들에 기반하여 각 토큰이 주제 청크의 일부분일 확률을 예측하기 위한 로지스틱 회귀(이진 분류)층(214)을 포함한다. 실시예에 있어서, 표준 네거티브 로그 손실(Negative Log Loss, NLL)을 이용함으로써, 상기 모델이 충분히 도출 가능하고, 따라서 역전파법으로 직접 트레이닝될 수 있다.

상기 모델이 트레이닝된 후, 각 토큰이 주제 청크의 일부분일 확률을 획득하도록 질문을 제공한다. 실시예에 있어서, 상기 확률에 기반하여 역치를 설정하고 확률이 역치보다 큰 모든 토큰들을 예측된 주제 문자열로 연결(concatenated)된다. 상기 시스템의 실시예에 있어서, 절대 역치 대신에 비교 측정을 사용할 수 있다. 실시예에 있어서, 먼저, 가장 큰 확률을 가지는 토큰을 선택한 후, 인접된 내부 토큰에 대비하여 일정한 비율 이상 저하될 때까지, 선택을 양측으로 확장한다. 경험적으로, 이러한 방법은 조금 더 우수하다.

선택된 주제 청크에 기반하여, KG에서 명칭 또는 가명이 동일한 표면 형식(즉, 같은 스펠링)을 구비한 개체들을 쿼리함으로써 후보 주제들을 획득할 수 있다. 그러나, 실시예에 있어서, 매칭되는 개체가 검색이 안 될 경우(5%), 단순히 Freebase Suggest API로 상기 선택된 청크를 이용하여 개체를 건의한다. 이러한 과정을 거쳐, 후보 주제로서 하나 또는 다수의 개체가 존재할 수 있다. 더 쉽게 참조할 수 있도록, 하나의 개체만 존재하는 경우를 단일 주제 경우라고 지칭하고, 다수의 개체가 존재하는 기타 경우를 다중 주제 경우라고 지칭한다.

도 3은 본 개시의 실시예에 따른 주제 라벨링을 위한 예시적 과정의 흐름도(240)을 나타낸다. 단계(242)에서, 하나 또는 다수의 단어들을 구비한 입력된 쿼리를 접수한다. 본 예시에서, 입력된 쿼리 속에 문장 "프란 드레셔는 어디에서 태어났어요?"가 포함될 수 있다. 다음, 단계(244)에서, 입력된 쿼리를 5개의 단어들(202)(프란, 드레셔, 는, 어디에서, 태어났어요)로 분석(parse)할 수 있고, 각 단어들을 임베딩층(210), 적층형 양방향 GRU-RNN(212) 및 로지스틱 회귀층(214)을 포함한 주제 라벨링 모델(201)에 입력할 수 있다. 실시예에 있어서, 주제 라벨링 모델(201)은 주제 청크를 식별한다. 본 예시에서, 도 1에 도시된 바와 같이, 주제 라벨링(200)은 "프란 드레셔"를 주제 청크로 식별한다. 다음, 단계(246)에서, 도 1의 화살표(109)로 표시된 바와 같이, 주제 청크를 구비한 쿼리를 지식 베이스(예를 들어, 지식 그래프)에 발송하여 하나 또는 다수의 후보 주제 개체들(또는, 후보 주제)을 획득한다. 실시예에 있어서, 각 후보 주제의 명칭 또는 가명은 주제 청크와 동일한 표면 형식(즉, 스펠링)을 가진다. 본 예시에서, 후보 주제로서 2개의 개체(배우 및 TV 드라마)가 검색된다.

도 4는 본 개시의 실시예에 따른 단계(244)의 상세한 과정을 나타낸다. 단계(2442)에서, 임베딩층(210)은 입력된 쿼리 속의 하나 또는 다수의 단어들을 각각 대응되는 단어를 표시하는 벡터인 하나 또는 다수의 임베딩들로 전환한다. 다음, 단계(2444)에서, 적층형 양방향GRU-RNN(212)을 이용하여 상기 하나 또는 다수의 임베딩들에 대응되는 하나 또는 다수의 토큰들 각각 및 각 토큰이 주제의 일부분인지 아닌지에 대한 이진 분류 특징들을 생성한다. 다음, 단계(2446)에서, 로지스틱 회귀층(214)은 상기 분류 특징들에 기반하여 각 토큰이 주제 청크의 일부분일 확률을 예측한다. 본 예시에서, 입력된 질문 속의 5개의 단어들 "프란", "드레셔", "는", "어디에서", "태어났어요"는 각각 0.986, 0.975, 0.002, 0.003 및 0.103의 확률을 가진다. 단계(2448)에서, 확률이 역치보다 큰 토큰들 중의 일부는 주제 청크로서 연결될 수 있다. 이하에서, 용어 "토큰들 중의 일부"는 토큰들 중의 하나 또는 다수의 토큰을 가리킨다. 본 예시에서, 2개의 토큰 "프란" 및 "드레셔"는 주제 청크로서 연결된다.

2. 관계 랭킹

실시예에 있어서, 관계 랭킹 모듈은 자연 언어로 제기된 질문에 함축된 정확한 관계를 식별하는데 그 목적이 있다. 실시예에 있어서, 모듈의 명칭이 가리키는 바와 같이, 상기 문제는 분류를 이용하여 베스트 관계를 선택하는 것이 아니라, 랭킹 문제로 구상된다. 기본적으로, 후보 관계가 어의적으로 질문과 더 유사하다면, 해당 관계는 더 높은 순위를 가져야 한다. 본 개시의 실시예에 있어서, 관계와 질문 사이의 어의적 유사성을 측정하기 위해 임베딩 방식이 채용된다. 먼저, KG 중의 각 관계 r는 k 연속 벡터 E(r)로 표시된다. 다음, 각 질문 q에 대해, 다른 한 S-Bi-GRU 기반의 모델을 이용하여 상기 질문 q을 E(q)로 동일한 k차원 벡터 공간에 임베딩한다. 관계 및 질문이 모두 동일한 차원의 벡터로 표시되므로, 일부 거리 매트릭(distance metric)을 이용하여 이들의 어의적 유사성을 직접 산출할 수 있다. 여기서, 단순히 점적(dot product)을 이용한다.

도 5는 본 개시의 실시예에 따른 지식 베이스로부터의, 질문에 대응되는 후보 관계에 대해 랭킹을 진행하기 위한 모델(300)의 예시를 나타낸다. 도시된 바와 같이, 임베딩층(302)은 질문 속의 단어들을 벡터에 임베딩한다. 본 예시에서, 임베딩(303a-303n)은 각각 5개의 단어들 "프란", "드레셔", "는", "어디에서", "태어났어요"의 벡터 표현이다. S-Bi-GRU 기반의 모델(304)의 모든 층들의 최종 상태들을 조합하여 질문 임베딩(308, 또는, 질문 벡터)을 형성한다. S-Bi-GRU은 복잡(clutter)을 피면하도록 간소화되었다. 첨부된 도면의 하반부에 도시된 바와 같이, S-Bi-GRU 기반의 모델(304)이 질문의 임베딩 서열을 처리한 후, 모든 적층된 층들의 최종 단계의 은닉 출력 벡터들은 함께 연결되어 기본적으로 질문의 신경 표현인 긴 벡터(306)를 형성한다.

양방향 RNN의 경우에 있어서, 최종 단계는 첫 단계와 마지막 단계 양자를 가리킨다. 그러나, S-Bi-GRU(304)의 층들의 은닉 크기 또는 수량이 변할 수 있으므로, 긴 벡터(306)의 차원은 관계 임베딩의 차원과 동일하지 않을 수 있고, 따라서 직접 질문 임베딩으로 사용될 수 없다. 실시예에 있어서, 한가지 해결책으로서 다른 한 선형 투영층(307)을 추가함으로써 이들의 차원의 매치를 확보한다. 따라서, 질문 q와 관계 r 사이의 랭킹 스코어(어의적 유사성 스코어)는 RS (q, r) =E(q)TE(r)로 작성될 수 있다. 실시예에 있어서, KG 중의 각 관계 r는 k차원 연속 벡터E(r)(314)로 표시된다. 선형 투영층(307)은 질문 벡터E(q)(308)와 관계 벡터E(r)(314)가 동일한 차원을 갖도록 각 질문 q에 대해 긴벡터(306)를 k차원 질문 벡터E(q)(308)에 투영한다. 실시예에 있어서, 관계 벡터E(r)(314)와 질문 벡터E (q)(308) 사이에서 점적(316) 연산을 수행하여 랭킹 스코어를 획득한다.

마지막으로, 실시예에 있어서, 랭킹 모델을 트레이닝하기 위해, 포저티브 매치 및 네거티브 매치가 모두 요구된다. 포저티브 매치는 직접 데이터 세트와 함께 나타나므로, 네거티브 샘플링을 이용하여 네거티브 매치를 획득한다. 본 문서의 섹션 E.1에서 네거티브 샘플링에 대해 상세히 설명하였다. 따라서, 일부 랭킹 손실을 이용하여 포저티브 쌍 및 네거티브 쌍 양자로S-Bi-GRU 기반의 모델(304)을 트레이닝할 수 있다. 실시예에 있어서, 아래와 같은 마진(margin) 랭킹 손실이 사용된다.

여기서, r는 포저티브 매치를 표시하고, r′는 네거티브 매치를 표시하며, γ는 기정 마진이다.

도 6은 본 개시의 실시예에 따른 관계 랭킹을 위한 예시적 과정의 흐름도(340)를 나타낸다. 단계(342)에서, 하나 또는 다수의 단어들을 구비한 질문을 포함한 쿼리를 접수한다. 다음, 단계(344)에서, 질문 임베딩 모델(301)은 입력된 쿼리를 이용하여 k차원 벡터 공간에서 질문 벡터E(q)(308)를 생성할 수 있다.

단계(346)에서, k차원 벡터 공간에서 후보 관계를 표시하는 관계 벡터(314)를 획득하도록 데이터 베이스에 대해 쿼리한다. 실시예에 있어서, 단계(246)에서 확정된 각 후보 주제에 대해, 데이터 베이스에서 후보 주제에 연관된 모든 관계들을 표시하는 관계 벡터들(314)을 검색한다. 본 예시에서, 도 1에 도시된 바와 같이, 후보 주제인 개체1의 후보 관계는 "출생지", "국적", "부모", "영화" 등을 포함한다. 마찬가지로, 후보 주제인 개체2의 후보 관계는 "명칭", "유형", "회수", "시즌" 등을 포함한다. 다음, 단계(348)에서 질문 벡터(308)와 각 관계 벡터(314) 사이의 점적에 기반하여 각 후보 관계의 랭킹 스코어(318)를 확정한다. 실시예에 있어서, 각 랭킹 스코어(318)는 스칼라(scalar) 수치일 수 있고, 질문과 대응되는 관계 사이의 어의적 유사성을 표시할 수 있다.

도 7은 본 개시의 실시예에 따른 단계(344)의 상세한 과정을 나타낸다. 단계(3442)에서, 임베딩층(302)은 입력된 질문 속의 하나 또는 다수의 단어들을 각각 대응되는 단어를 표시하는 벡터인 하나 또는 다수의 임베딩들(303)로 전환한다. 단계(3444)에서, S-Bi-GRU는 쿼리 질문의 신경 표현인 벡터(306)를 생성한다. 다음, 단계(3446)에서, 벡터(306)가 k차원 벡터가 아닐 경우, 선형 투영층(307)은 벡터(306)를 k차원 벡터 공간에 투영하여 질문 벡터(308)를 획득한다.

다시 도 1을 참조하면, 단계(346)에서 화살표(110) 각각은 후보 관계에 대한 쿼리를 데이터 베이스에 발송하는 것을 표시한다. 본 예시에서, 도 1에 도시된 바와 같이, 개체1의 후보 관계 "출생지"의 랭킹 스코어는 0.543이고, 개체1의 후보 관계 "국적"의 랭킹 스코어는 0.404이다. 도 1에서, 관계 랭킹(115)은 각 개체에 대한 관계 및 해당 관계의 랭킹 스코어의 리스트를 나타낸다.

3. 합동 모호성 해소

실시예에 있어서, 후보 관계의 랭킹 스코어를 획득한 후, 상기 모듈을 이용하여 후보 주제들(다수의 후보 주제들이 존재할 경우)를 명확히 하고, 주제 및 관계의 최종 예측을 생성한다.

실시예에 있어서, 단일 주제 경우에는, 명확히 해야 할 후보 주제가 존재하지 않으므로, 예측된 주제로서 직접 유일한 주제를 선택하고, 그 다음 가장 높은 스코어를 가지는 관계는 예측된 관계가 된다.

실시예에 있어서, 다중 주제 경우에는, 발견적(heuristic) 기반의 모델을 이용하여 합동 모호성 해소를 수행한다. 합동 모호성 해소의 핵심 사상은 어느 한 관계가 어의상 질문과 더 유사할 경우, 정확한 주제가 이러한 관계를 가질 확률이 더 크다. 개념적으로, 개체의 어의를 한정하는 것은 해당 개체에 관련된 관계들의 어의이다. 이러한 사상에 기반하여, 주제에 수반된 모든 관계들의 랭킹 스코어를 이용하여 어느 후보 주제가 더우 정확한지를 결정한다. 예를 들어, 후보 주제

의 랭킹 스코어는

으로 정의될 수 있다. 그러나, 이는 더 많은 외부 관련성을 가지는 후보 주제에 편향될수 있다. 또한, 낮은 스코어를 가지는 관계들은 원치 않는 노이즈를 초래할 수 있다. 따라서, 실시예에 있어서, 최상위 N개의 랭킹 스코어를 가지는 후보 관계들만 고려한다. 여기서, N은 선택될 하이퍼 파라미터(hyper-parameter)이다.

을 이용하여 최상위 N개의 후보 관계를 표시함으로써, 후보 주제

의 랭킹 스코어는

으로 재작성될 수 있다.

실시예에서 예측함에 있어서, 가장 높은 랭킹 스코어를 가지는 후보 주제가 정확한 주제로 예측될 수 있다. 즉,

다음, 정확한 관계로서 예측된 주제

에 연관된 모든 후보 관계들 중의 가장 높은 랭킹 스코어를 가지는 후보 관계를 예측한다.

N ≥ 3일 경우, 모든 후보 관계들 중에서 가장 높은 스코어를 가지는 관계가 예측된 주제에 관련되지 않을 수 있기 때문에 예측의 순서가 중요할 수 있음을 유의해야 한다.

도 1을 참조하면, 화살표(120)가 가리키는 바와 같이, 본 예시에서는 하이퍼 파라미터 N을 2로 가정한 전제하에서 합동 모호성 해소를 수행한다. 후보 주제인 개체 1 및 개체 2의 랭킹 스코어(130)는 각각 0.947 및 0.239이다. 화살표(125)가 가리키는 바와 같이, 개체 1이 가장 높은 랭킹 스코어를 가지므로, 개체 1이 정확한 주제로 예측된다. 또한, 후보 관계 "출생지"가 가장 높은 랭킹 스코어를 가지므로, 상기 관계가 정확한 관계로 예측된다.

실시예에 있어서, 예측된 주제 및 예측된 관계에 기반하여 구조화된 쿼리를 생성하고 KG 서버에 발송한다. 다음, KG 서버는 구조화된 쿼리를 실행하여 질문에 대한 응답으로서의 대상을 획득한다. 실시예에 있어서, KG는 N-삼중항 RDF 형식의 데이터를 포함하고, 각 RDF 삼중항은 (주제, 관계, 대상)의 형식을 구비한다.

도 8은 본 개시의 실시예에 따른 예측된 주제 및 예측된 관계를 생성하도록 후보 주제들을 명확히 하기 위한 예시적 과정의 흐름도(370)를 나타낸다. 단계(372)에서, 입력된 쿼리에 대한 하나 이상의 후보 주제가 존재하는지를 확정한다. 오직 하나의 후보 주제만 존재할 경우, 단계(374)에서 예측된 주제로서 해당 후보 주제를 선택한다. 다음, 단계(376)에서, 예측된 관계로서 예측된 주제에 연관된 모든 관계들 중에서 가장 높은 랭킹 스코어를 가지는 관계를 선택한다.

입력된 쿼리에 대한 하나 이상의 후보 주제가 존재할 경우, 단계(380)를 실행한다. 단계(380)에서, 각 후보 주제에 대해 최상위 N개의 랭킹 스코어를 합산한다. 다음, 예측된 주제로서 최상위 N개의 랭킹 스코어의 합계값이 가장 큰 후보 주제를 선택한다. 그 다음, 단계(376)를 수행하여, 예측된 관계를 선택한다.

E. 트레이닝

섹션 D에서 논술된 바와 같이, 실시예에서 2개의 트레이닝 가능한 모델은 모두 충분히 도출 가능하고, 표준(미니 배치, mini-batch) 확률 기울기 하강(SGD) 기법으로 트레이닝될 수 있다. 그러나, 본 명세서에 개시된 시스템의 실시예의 능력을 충분히 발휘하기 위해, 추가의 기법을 이용하여 트레이닝을 가속화하고 수렴(convergence)을 개선할 수 있다. 본 섹션에서는 실시예에서 최종 성능을 향상시키는 일부 트레이닝 기법들이 소개된다.

1. 미니 배치 네거티브 샘플링

실시예에 있어서, 관계 랭킹 모델을 트레이닝하는 과정에서, 시스템은 먼저 각 (q,r,r ′)삼중항에 대해 이들의 임베딩 E(q), E(r) 및 E(r′)을산출한후, 대응되는 점적 E(q) ^T E(r),E(q) ^T E(r′)을 산출한다. 그러나, 각 질문이 오직 하나의 포저티브 매치와 수천개의 네거티브 매치들을 구비할 수 있으므로, 시스템은 가능한 (q,r,r′)각각에 대해 단순히 상기한 산출을 실행할 경우, 동일한 E(q) ^T E(r) 및 E(q)^TE(r′)을반복적으로산출함으로써수많은자원들이낭비될것이다. 그 결과, 많은 (또는 심지어 모든) 네거티브 샘플들을 사용하기를 원할 경우, 트레이닝 시간이 실현 불가능할 정도로 길 수 있다. 실시예에서, 통상적으로 네거티브 샘플들이 많을수록 더 좋은 성능을 실현하므로, 반복적인 산출 문제를 완화하기 위해 미니 배치 네거티브 샘플링을 이용하는 것이 제기되였다. 기본적으로, 각 포저티브 질문 관계 쌍 (q,r)에 대해, 매 번 하나의 네거티브 관계를 샘플링하는 것이 아니라, b개의 네거티브 관계 {r ₁ ′,…, r _b ′}의 미니 배치를 샘플링한다. 다음, b개의 네거티브 샘플에 대해 포저티브 부분을 한번만 산출한다. 또한, 효율적인 메모리 조작에 의하여, 상이한 네거티브 샘플들로 순환을GPU에 더 친화적인 고밀도 매트릭스 곱셈으로 전환한다. 또한, 실시예에 있어서, 이러한 기법은 벡터화 산출에 결합되고, 여기서, (q,r,{r ₁ ′,…,r _b ′})삼중항의 미니 배치는 병행으로 산출된다. 따라서, 제한된 네거티브 샘플링으로 모델을 트레이닝하는 것은 실현 가능할 뿐만 아니라 쾌속적이기도 하다.

2. 운동량 스케줄(Momentum Schedule)을 구비한 AdaGrad

딥 신경망의 디폴트 최적화 알고리즘으로서, 확률 기울기 하강(SGD) 기법은 이미 성공적으로 다양한 문제들에 적용되고 있다. 그러나, SGD를 충분히 이용하기 위해, 실시예에서는 초기 학습률 및 어닐링(annealing) 스케줄 양자를 수동으로 조정할 수 있다.

이에 대비하여, SGD 변형인 AdaGrad는 이전 기울기에 기반하여 학습률을 자동으로 조정(절감)하는 장점을 가지고 있다. 따라서, AdaGrad의 전반적인 학습률만 조정하면 되고, 이는 실천에서 휠씬 더 쉽다. 이외에, AdaGrad는 파라미터 공간의 기하학적 구조에 기반하여 요소별로 학습률을 조정함으로써 모델로 하여금 빈도가 낮은(희소한) 특징들에 특별히 주의하도록 한다. 따라서, AdaGrad로 SGD를 대체할 경우, 주제 라벨링 모델 및 관계 랭킹 모델은 모두 더 우수한 그리고 더욱 일관된 성능(예를 들어, 실험에서, 수차례의 실험 사이의 성능 차이는 0.5% 내로 나타남)을 안정적으로 실현할 수 있다.

비록 AdaGrad가 매우 강력하나, 이는 이전 기울기의 크기(magnitude)에 기반하여 지속적으로 학습률을 하강시킨다. 그 결과, 모델이 더 빠르게 학습할수록, 학습률이 더 빠르게 하강한다. 따라서, 트레이닝은 흔히 신속하게 느려진다. 이러한 단점을 극복하기 위해, 실시예에서는, AdaGrad와 운동량을 결합하는 것을 제기하는 바, 이는 AdaGrad로 하여금 누적하는 방식으로 정확한 방향에서 더 나아갈 수 있도록한다. 각 프라미터의 업데이트 과정에서, 조정된 기울기를 이용하여 속도를 누적한다.

여기서,

는 각각 시간 단계 t에서의 기울기, 누적된 속도 및 운동량률이고, 여기서 모든 수학적 연산은 요소별로 진행된다. 다음, 누적된 속도를 이용하여 업데이트를 수행한다.

여기서, θ _t 는 시간 단계 t에서의 파라미터이다.

경험적으로, 주제 라벨링 모델에 대해, AdaGrad와 운동량을 결합하는 것은 훨씬 적은 트레이닝 시간으로 동일한 성능을 실현한다. 그러나, 관계 랭킹에 있어서, 직접 운동량을 추가하는 것은 트레이닝의 시작부터 손실이 격렬하게 진동하는 것을 초래한다. 그 결과, 트레이닝 손실이 매우 느리게 저감되고, 성능을 악화시킨다. 이는 시작 부분에서의 노이즈 기울기(noisy gradients)때문일 것이라고 추측된다. 해결책으로서, 실시예에서는 운동량 스케줄을 이용할 것을 제기하였고, 이는 시작 부분에서 운동량을 비활성화하고, 일부 시기(a few epochs)가 지난후 또는 트레이닝 손실이 일정한 레벨에 도달할 경우에 점차적으로 운동량을 증가시킨다. 직감적으로, 초기 단계에서 상기 노이즈 기울기를 피면하고, 나중에 더욱 유효한 기울기를 사용하여 운동량을 형성하는 것이 바람직하다. 본 작업에서, 이러한 책략을 운동량 스케줄을 구비한 AdaGrad라고 지칭한다.

운동량 스케줄을 구비한 AdaGrad을 사용할 경우, 동일한 트레이닝 시간으로 관계 랭킹 모델에 대해 훨씬 더 낮은 트레이닝 손실을 실현함으로써 검증 세에 대해 3.0%+의 성능 향상을 실현한다.

3. 드롭 아웃(Dropout)

유익한 것으로 알려진 다른 한 기법은 수직 드롭 아웃을 S-Bi-GRU에 적용하는 것이다. 실시예에 있어서, 드롭 아웃은 각 Bi-GRU 층의 입력 신호에 적용되고, 이러한 적용은 도 2에서 "RNN" 부재 앞의 도트-대시(dot-dash) 라인으로 표시된다. 발명자가 진행한 실험에 있어서, 드롭 아웃을 이용할 경우, 동일한 손실 레벨에 수렴되도록 트레이닝하는데 일반적으로 더 오랜 시간이 소요된다. 그러나, 수렴된 후, 모델은 검증 세트에 대해 더 우수한 성능을 발휘한다. 따라서, 실시예에서는 주제 라벨링 모델 및 관계 랭킹 모델에 모두 드롭 아웃을 통합시킨다.

4. 사전 트레이닝된 단어 임베딩

상기 논술과 유사하게, 사전 트레이닝된 단어 임베딩을 사용하는 것은 더 우수한 성능을 실현하기에 유익하다. 발명자가 진행한 실험에 있어서, 단어 임베딩을 초기화하기 위해, 캘리포니아 주 스탠퍼드 시 스탠퍼드 대학(Stanford University, Stanford, CA)에서 개발한, 단어에 대한 벡터 표현을 획득하기 위한 비지도 학습 알고리즘(unsupervised learning algorithm)인 300d Glove를 사용할 경우(nlp.stanford.edu/projects/glove/에서 획득 가능함), 성능은 무작위로 초기화된 임베딩의 성능보다 일관적으로 더 우수하게 되는 경향이 있다.

5. 조정 모델 구조 및 하이퍼 파라미터

본 작업의 실시예에 있어서, 주제 라벨링 모델의 서브 구조에 대해 상이한 세팅을 사용한다. 아래의 내용은 실제 데이터 세트 상에서 모델을 트레이닝하는 가이드라인이다. 기타 데이터 세트를 이용할 경우, 미세하게 상이한 하이퍼 파라미터 세팅(예들 들어, 학습률)을 가지는 유사한 보정 단계들을 적용할 수 있다.

실시예에 있어서, 단어 임베딩층에 대해 초기화로서 사전 트레이닝된 GloVe를 사용하므로, 파라미터에 대해 소량의 미세 조정을 진행하였다. 따라서, 실시예에서는 운동량을 구비한 강력한 AdaGrad 대신에, 낮은 초기 학습률(0.001) 및 각 시기(epoch)가 지날때마다 학습률(0.85를 곱함)을 어닐링하는 표준 SGD를 사용한다. S-Bi-GRU에 있어서, 각 층에서 128개의 셀을 가지는 2개의 층을 사용한다. 실시예에 있어서, 트레이닝하는 동안, S-Bi-GRU의 파라미터 및 로지스틱 회귀층은 모두 무작위로 초기화되고, 운동량 (ρt = 0.8）을 구비한 AdaGra (η = 0.01)로 트레이닝된다. 또한, 수직 드롭 아웃(0.5)은 S-Bi-GRU에 적용될 수 있다.

실시예에 있어서, 관계 랭킹 모델을 트레이닝하기 위해, 단어 임베딩층에 대해 주제 라벨링 모델 중에서와 동일한 세팅(즉, 본 실시예에서, 두 모델은 단어 임베딩을 공유하지 않음)을 사용한다. 실시예에 있어서, S-Bi-GRU에 대해 256개의 셀을 가진 2개의 층을 구비한 조금 더 큰 구조를 사용한다. 트레이닝하는 동안, S-Bi-GRU 및 선형 투영층은 모두 운동량 스케줄을 구비한 AdaGrad (η = 0.005)으로 트레이닝될 수 있고, 이때 운동량률은 3개의 시기(epochs)를 경과한 후 0.9에 도달할 때까지 0.3씩 증가한다. 또한, 실시예에 있어서, S-Bi-GRU에 더 약한 드롭 아웃(0.3)을 적용한다. 실시예에 있어서, 관계 임베딩에 대해, 오직 128개의 벡터만 사용한다. 트레이닝하는 동안, 각 관계 임베딩을 유닛 볼(unit-ball) 내에 머물러 있도록 제약한다. 즉,

이다. 제약으로 인하여, 더 작은 학습률(0.001)을 이용하여 더 세밀한 검색을 확보할 수 있다.

F. 지식 그래프

본 작업의 실시예에 있어서, 최신 Freebase 덤프 데이터는 KG의 데이터 자원으로 사용된다. 덤프 데이터는 3B개 이상의 사실들을 포함하고, 각 사실은 N-삼중항 RDF의 형식으로 준비된다. 섹션 A에서 소개된 바와 같이, 각 RDF 삼중항은 (주제, 관계, 대상)의 형식을 구비한다.

본 섹션에서 일 예시적인 데이터 소스인 Freebase가 언급되었으나, 본 개시가 기타 지식 그래프에도 사용될 수 있음을 유의해야 한다. 예를 들어, 기타 언어의 지식 그래프(예를 들어, 중국어 지식 그래프)로 Freebase 지식 그래프를 대체하고, 이러한 언어의 질문/응답 쌍으로 트레이닝할 경우, 결과적인 시스템도 상기 언어로 질문에 응답할 수 있다.

실시예에 있어서, KG를 저장하기 위해, N-삼중항 RDF 데이터를 직접 저장 장치에 로딩할 수 있는 그래프 데이터 베이스(예를 들어, 오픈 소스 소프트웨어인 Cayley 또는 Virtuoso)가 사용된다. 또한, Cayley는 Gremlin 인스파이어드 방식으로 쉽게 쿼리될 수 있다. Virtuoso는 SPARQL(SPARQL는 www.w3.org/TR/rdf-sparql-query에서 지정된 그래프 데이터 베이스에 대한 쿼리 언어이고, 월드 와이드 웹 컨소시엄(World Wide Web Consortium)에 의해 표준화되였음)로 쉽게 쿼리될 수 있다. 동일한 능력을 구비한 기타 임의의 그래프 데이터 베이스가 대체용으로 사용될 수 있다.

G. 일부 결론

본 명세서에는 간단한 질문 응답에 대한 새롭고 뻔하지 않는 체계의 시스템 및 방법의 실시예들이 제기되였다. 독보적인 주제 라벨링 모듈을 이용함으로써, 이전 시스템에서 나타난 대부분의 노이즈 정보를 제거하고 개체 연결 문제를 모호성 해소 문제로 단순화한다. 적절한 트레이닝 기법을 이용함으로써, 자연 언어를 구조적 관계에 매칭시키기 위한 강력한 S-Bi-GRU 기반의 랭킹 모델을 획득할 수 있다. 또한, 실시예에 있어서, 주제와 관계 사이에 내포된 규칙을 이용함으로써, 발견적인 모호성 해소 방법에 대해 경쟁력이 뛰어난 성능을 실현하도록 한다. 서브 모듈들을 함께 조합함으로써, 뉴럴 파이프라인의 실시예들이 "간단한 질문" 데이터 세트에 대해 이전 시스템을 능가하도록 한다.

H. 시스템 실시예

도 9는 본 개시의 실시예에 따른 예시적 시스템 다이어그램을 보여준다. 도 9의 실시예에 도시된 바와 같이, 시스템(400)은 입력된 쿼리를 접수하기 위한 자연 언어 쿼리 인터페이스(406), 입력된 쿼리의 토큰화 및 색인, 즉, "프란 드레셔는 어디에서 태어났어요"와 같은 쿼리를 각 단어가 사전 구축된 사전(해당 사전은 단어들 또는 토큰들로부터 정수 색인들으로의 맵핑임)에 의해 정수 값에 맵핑되는 수열로 번역하는 것을 수행하기 위한 전처리 장치 스테이지(408), 본 명세서(섹션 D)에 개시된 실시예에 따른 HISQA 주제 및 관계 모델(410), 이전 단계의 모델로 검색된 주제 및 관계에 따라 Gremlin과 같은 그래프 순회 언어(graph traversal language)를 이용하여 구조화된 쿼리를 생성하기 위한 쿼리 생성 장치(416), 응답을 획득하도록 상기 쿼리 생성 장치(416) 및 모델(410)에 접속되어 구조화된 쿼리를 실행하는(섹션 F를 참조) 지식 그래프 서버(414), 및 텍스트 또는 html 페이지 형식으로 결과를 나타내는 응답 렌더링 모듈(412)을 포함할 수 있다. 실시예에 있어서, 시스템(400)은 트레이닝 시스템(이는 오프라인으로 구현될 수 있음)을 더 포함할 수 있고, 상기된 바와 같이(섹션 E), 트레이닝 시스템은 라벨링된 Q/A 데이터 세트(402)에 접근하여 HISQA 모델(410)을 트레이닝할 수 있다. 예를 들어, 상기 쿼리 생성 장치(416)로 생성된 예시적 질문에 대한 예시적인 구조화된 쿼리는 "SELECT ? object WHERE {<entity_for_fran_drescher> <place_of_birth_for_person> ? object}"일 수 있다.

도 10은 본 개시의 실시예에 따른 휴먼 인스파이어드된 간단한 질문 응답(HISQA) 주제 및 관계 모델(410)의 예시적 다이어그램을 보여준다. 도시된 바와 같이, 입력된 질문(449)은 주제 라벨링 모델(450)에 발송되고, 주제 라벨링 모델(450)은 입력된 질문의 화제를 묘사하는 주제 청크를 식별한다. 실시예에 있어서, 질문(449)은 토큰화 및 색인될 수 있다. 즉, "프란 드레셔는 어디에서 태어났어요?"와 같은 질문은 각 단어가 사전 구축된 사전에 의해 정수 값에 맵핑되는 수열로 번역된다.주제 청크와 같은 표면 형식을 가지는 명칭 또는 가명을 구비한 하나 또는 다수의 후보 주제 개체들을 검색하도록, 주제 청크를 이용하여 데이터 베이스(452)에 대해 쿼리한다.

관계 랭킹 모델(454)은 질문(449)을 이용하여 질문 벡터를 생성한다. 관계 랭킹 모델(454)은 후보 주제 개체에 연관된 하나 또는 다수의 관계들을 표시하는 하나 또는 다수의 관계 벡터들도 검색하고, 질문 벡터와 하나 또는 다수의 관계 벡터들 사이에서 점적 연산을 수행함으로써 하나 또는 다수의 관계들의 랭킹 스코어를 확정한다.

컴퓨터 소프트웨어, 하드웨어 또는 펌웨어일 수 있는 합동 모호성 해소(456)는 후보 주제 개체들 및 하나 또는 다수의 관계들 중에서 예측된 주제 개체 및 관계를 선택한다. 질문(449)에 대한 응답(460)을 검색하도록, 예측된 주제 개체 및 관계를 이용하여 데이터 베이스(458)에 대해 쿼리한다.

도 11은 본 개시의 실시예에 따른 입력된 쿼리에 대한 응답(또는, 대상)을 제공하기 위한 예시적 과정의 흐름도(500)를 나타낸다. 단계(502)에서, 휴먼 인스파이어드된 질문을 포함할 수 있는 입력된 쿼리를 접수한다. 다음, 단계 (504)에서, 주제 라벨링 모델(204)은 상기 쿼리의 주제 청크를 식별한다. 다음, 단계(506)에서, 하나 또는 다수의 후보 주제들을 검색하도록, 상기 주제 청크를 이용하여 데이터 베이스에 대해 쿼리한다.

단계(508)에서, 각 후보 주제에 대해, 관계의 랭킹 스코어를 생성한다. 실시예에 있어서, 질문 임베딩 모델(301)은 k차원 벡터일 수 있는 질문 임베딩(308)을 생성한다. 각 후보 주제에 대해, 데이터 베이스로부터 후보 주제에 연관된 모든 관계들에 대응되는 관계 벡터들(314)을 검색한다. 다음, 각 후보 주제에 대해, 후보 주제에 연관된 관계 벡터들(314)과 질문 임베딩(308) 사이에서 점적 연산을 수행하여 관계 벡터의 랭킹 스코어를 확정한다. 실시예에 있어서, 각 후보 주제에 대해, 가장 높은 랭킹 스코어를 가지는 관계가 상기 후보 주제의 정확한 관계로 식별된다.

단계(510)에서, 하나 이상의 후보 주제가 존재할 경우, 최종 예측된 주제로서 후보 주제들 중의 하나를 선택하도록 후보 주제들을 명확히 한다. 실시예에 있어서, 각 후보 주제에 대해, 최상위 N개의 랭킹 스코어를 합산한다. 다음, 예측된 주제로서 최상위 N개의 랭킹 스코어의 합계값이 가장 큰 후보 주제를 선택한다. 단계(512)에서, 최종 예측된 관계로서 예측된 주제에 연관된 관계들 중에서 가장 높은 랭킹 스코어를 가지는 관계를 선택한다.

단계(514)에서, 예측된 주제 및 예측된 관계에 연관된 대상을 검색하도록 데이터 베이스에 대해 쿼리한다. 실시예에 있어서, 데이터 베이스 중의 데이터는 주제-관계-대상 삼중항 형식으로 정리된다.

실시예에 있어서, 본 특허문서의 각 측면들은 정보 처리 시스템/컴퓨팅 기기에 관한 것일 수 있다. 본 개시를 목적으로, 컴퓨팅 시스템은 상업, 과학, 제어 또는 기타 목적으로 임의의 형식의 정보, 기밀 정보 또는 데이터를 컴퓨팅, 연산, 확정, 분류, 처리, 전송, 접수, 검색, 발생, 라우팅, 전환, 저장, 표시, 통신, 표출, 감지, 기록, 복사, 핸들링 또는 이용하는 임의의 장치 또는 장치의 집합일 수 있다. 예를 들어, 컴퓨팅 시스템은 개인용 컴퓨터(예를 들어, 랩톱 컴퓨터), 태블릿 컴퓨터, 태블릿 핸드폰, 개인 휴대 정보 단말기(PDA), 스마트 폰, 스마트 시계, 스마트 포장, 서버(예를 들어, 고밀도 서버 또는 랙 서버), 네트워크 저장 장치, 또는 임의의 기타 적합한 장치일 수 있고, 크기, 형태, 성능, 기능 및 가격 상 상이할 수 있다. 컴퓨팅 시스템은 랜덤 액세스 메모리 장치(RAM), 하나 또는 다수의 처리 자원(예를 들어, 중앙 처리 장치(CPU) 또는 하드웨어 또는 소프트웨어 제어 로직), ROM 및/또는 기타 유형의 메모리 장치를 포함할 수 있다. 컴퓨팅 시스템의 기타 부재들은 하나 또는 다수의 디스크 드라이브, 외부 기기와 통신하기 위한 하나 또는 다수의 네트워크 포트, 및 키보드, 마우스, 터치 스크린 및/또는 영상 표시 장치와 같은 각종 입력 및 출력(I/O) 장치를 포함할 수 있다. 컴퓨팅 시스템은 각종 하드웨어 부재들 사이에서 통신을 전달하도록 작동될 수 있는 하나 또는 다수의 버스들을 더 포함할 수 있다.

도 12는 본 개시의 실시예에 따른 컴퓨팅 기기/정보 처리 시스템(또는 컴퓨팅 시스템)의 간략 블록도를 도시한다. 비록 정보 처리 시스템이 상이한 구성을 가질 수 있고, 상이한 부재들을 포함할 수 있으나, 시스템(600)에 도시된 기능들이 정보 처리 시스템의 각 실시예들을 지원하도록 작동될 수 있음을 이해할 것이다.

도 12에 도시된 바와 같이, 컴퓨팅 자원을 제공하고 컴퓨터를 제어하는 하나 또는 다수의 중앙 처리 장치(CPU; 601)를 포함한다. CPU(601)는 마이크로프로세서 등을 이용하여 구현될 수 있고, 하나 또는 다수의 그래픽 처리 장치(GPU; 617) 및/또는 수학적 산출을 위한 부동 소수 보조 프로세서를 더 포함할 수 있다. 시스템(600)은 시스템 메모리 장치(602)를 더 포함할 수 있고, 시스템 메모리 장치(602)는 랜덤 액세스 메모리 장치(RAM) 또는 읽기 전용 메모리 장치(ROM)의 형태를 구비할 수 있거나, RAM과 ROM의 형태를 동시에 구비할 수도 있다.

도 12에 도시된 바와 같이, 다수의 제어 장치 및 주변 장치가 더 제공될 수 있다. 입력 제어 장치(603)는 키보드, 마우스 또는 스타일러스와 같은 각종 입력 기기(604)에 통하는 인터페이스를 표시한다. 스캐너(606)와 통신하는 스캐너 제어 장치(605)가 더 구비될 수 있다. 시스템(600)은 하나 또는 다수의 저장 장치(608)에 접속하기 위한 메모리 제어 장치(607)를 더 포함할 수 있고, 하나 또는 다수의 저장 장치(608) 중 각각은 자기 테이프 또는 디스크와 같은 저장 매체 또는 운영 체제, 실용 프로그램 및 응용의 명령 프로그램에 대한 기록에 사용될 수 있는 광학 매체를 포함할 수 있으며, 여기서 명령 프로그램은 본 발명의 각 측면들을 구현하는 프로그램의 실시예들을 포함할 수 있다. 본 발명에 따르면, 저장 장치(608)는 이미 처리된 데이터 또는 처리될 데이터를 저장하도록 더 구성될 수 있다. 시스템(600)은 표시 장치(611)에 인터페이스를 제공하기 위한 표시 제어 장치(609)를 더 포함할 수 있고, 표시 장치(611)는 음극 선관(CRT), 박막 트랜지스터(TFT) 표시 장치, 또는 기타 유형의 표시 장치일 수 있다. 컴퓨팅 시스템(600)은 프린터(613)와 통신하기 위한 프린터 제어 장치(612)를 더 포함할 수 있다. 통신 제어 장치(614)는 하나 또는 다수의 통신 장치(615)에 접속될 수 있고, 통신 장치(615)는 시스템(600)이 인터넷, 클라우드 리소스(예를 들어, 이더넷 클라우드, 이더넷 상의 광섬유 채널(FCoE)/데이터 센터 브리징(DCB) 클라우드 등), 근거리 통신망(LAN), 광역 통신망(WAN), 저장 영역 네트워크(SAN)를 포함한 다양한 네트워크 중의 임의의 네트워크, 또는 적외선 신호를 포함한 임의의 적합한 전자기 캐리어 신호를 통해 원격 장치에 연결되도록 할 수 있다.

도시된 시스템에서, 모든 메이저 시스템 부재들은 하나 이상의 물리적 버스를 표시할 수 있는 버스(616)에 연결될 수 있다. 그러나, 각종 시스템 부재들은 물리적으로 근접할 수도 있고, 근접하지 않을 수도 있다. 예를 들어, 입력 데이터 및/또는 출력 데이터는 일 물리적 위치에서 다른 일 물리적 위치에 원격으로 전송될 수 있다. 또한, 본 발명의 각 측면들을 구현하는 프로그램들은 네트워크 상에서 원격 위치(예를 들어, 서버)로부터 방문될 수 있다. 해당 데이터 및/또는 프로그램은 다양한 기계 판독 가능한 매체 중의 임의의 매체를 통해 전송될 수 있고, 기계 판독 가능한 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 홀로그래픽 장치와 같은 광학 매체, 광 자기 매체, 및 프로그램 코드를 저장하거나 저장 및 실행하도록 특별히 구성된 예를 들어 응용 주문형 집적 회로(ASIC), 프로그램 가능 논리 소자(PLD), 플래시 메모리 장치 및 ROM 및 RAM 장치와 같은 하드웨어 장치를 포함하나 이에 한정되지 않는다.

본 발명의 실시예는 각 단계를 수행하도록 하나 또는 다수의 프로세서 또는 처리 유닛에 대한 명령을 이용하여 하나 또는 다수의 비휘발성 컴퓨터 판독 가능한 매체에 코딩될 수 있다. 하나 또는 다수의 비휘발성 컴퓨터 판독 가능한 매체는 휘발성 및 비휘발성 메모리 장치를 포함해야 함을 유의해야 한다. 하드웨어 구현방식 또는 소프트웨어/하드웨어 구현방식을 포함한 대체 가능한 실시예도 가능함을 유의해야 한다. 하드웨어로 구현되는 기능은 ASIC, 프로그램 가능 배열, 디지털 신호 처리 등을 이용하여 실현될 수 있다. 따라서, 임의의 청구항에 있어서, 용어 "장치"는 소프트웨어 구현방식과 하드웨어 구현방식을 모두 포함하는 것을 목적으로 한다. 마찬가지로, 본 명세서에 사용되는 용어 "컴퓨터 판독 가능한 매체"는 각자 상에서 실행되는 명령 프로그램을 구비한 소프트웨어 및/또는 하드웨어, 또는 소프트웨어와 하드웨어의 조합을 포함한다. 이러한 실시예들의 대체 방안에 관하여, 첨부된 도면 및 그에 따른 설명에는 해당 기술분야의 통상의 지식을 가진 자가 프로그램 코드(즉, 소프트웨어)의 작성 및/또는 회로(즉, 하드웨어)의 제조에 필요한 처리를 수행함에 있어서 필요되는 기능성 정보가 제공된다.

본 발명의 실시예는 다양한 컴퓨터 실행 조작을 수행하기 위한 컴퓨터 코드를 포함한 비휘발성 유형(tangible) 컴퓨터 판독 가능한 매체를 구비한 컴퓨터 제품에 관한 것일 수도 있음을 유의해야 한다. 매체 및 컴퓨터 코드는 본 발명을 목적으로 특별히 디자인 및 구성된 매체 및 컴퓨터 코드일 수 있거나, 또는 관련 분야의 기술자들에게 알려진 또는 이들이 획득할 수 있는 유형일 수 있다. 유형 컴퓨터 판독 가능한 매체의 예시로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 홀로그래픽 장치와 같은 광학 매체, 광 자기 매체, 및 프로그램 코드를 저장하거나 저장 및 실행하도록 특별히 구성된, 예를 들어 응용 주문형 집적 회로(ASIC), 프로그램 가능 논리 소자(PLD), 플래시 메모리 장치 및 ROM 및 RAM장치와 같은 하드웨어 장치를 포함하나 이에 한정되지 않는다. 컴퓨터 코드의 예시로는 컴파일러로 생성된 기계 코드, 및 컴퓨터가 인터프리터를 이용하여 실행한 고차원 코드를 포함한 파일을 포함한다. 본 발명의 실시예는 전체적으로 또는 부분적으로 처리 장치로 실행되는 프로그램 모듈에 위치할 수 있는 기계 실행 가능한 명령어로 구현될 수 있다. 프로그램 모듈의 예시로는 라이브러리, 프로그램, 루틴, 대상, 부재 및 데이터 구조를 포함한다. 분산형 컴퓨팅 환경에서, 프로그램 모듈은 물리적으로 로컬, 리모트 또는 로컬과 리모트를 겸비한 설정속에 위치될 수 있다.

해당 기술분야의 통상의 지식을 가진 자는 어떠한 컴퓨팅 시스템 또는 프로그래밍 언어도 본 발명의 실시에 대해 결정적인 것이 아님을 인정할 것이다. 해당 기술분야의 통상의 지식을 가진 자는 상기한 여러 요소들이 물리적으로 및/또는 기능적으로 서브 모듈로 분리될 수 있거나 또는 함께 조합될 수 있다는 것도 이해할 것이다.

해당 기술분야의 통상의 지식을 가진 자는 전술한 예시 및 실시예들이 예시적인 것일 뿐, 본 개시의 범위를 한정하는 것이 아님을 이해할 것이다. 이는 명세서에 대한 열독과 첨부 도면에 대한 연구를 거쳐 해당 기술분야에서 통상의 지식을 가진 자에게 명확한 모든 치환, 보강, 균등, 조합 및 그에 대한 개선들이 본 개시의 참된 정신과 범위 내에 포함되도록 하는데 목적이 있다. 하기 청구항 중의 요소들은 다수의 종속항, 구성 및 조합을 포함하여 상이하게 배치될 수 있다는 것도 유의하여야 한다. 예를 들어, 실시예에 있어서, 각 청구항의 주제는 기타 청구항들과 조합될 수 있다.

Claims

하나 또는 다수의 단어들을 구비한 쿼리를 접수하되, 상기 하나 또는 다수의 단어는 상기 쿼리의 화제를 묘사하는 주제 청크를 포함하는 단계;
적어도 하나의 후보 주제를 검색하도록 데이터 베이스에 대해 쿼리하되, 상기 적어도 하나의 후보 주제의 명칭 또는 가명은 상기 주제 청크와 동일한 표면 형식을 구비하는 단계;
하나 또는 다수의 관계 벡터들을 검색하도록 데이터 베이스에 대해 쿼리하되, 상기 하나 또는 다수의 관계 벡터들은 상기 적어도 하나의 후보 주제에 연관된 하나 또는 다수의 관계들을 표시하는 단계;
상기 하나 또는 다수의 관계들의 랭킹 스코어를 확정하되, 상기 랭킹 스코어 중의 각각은 상기 쿼리와 상응한 관계 사이의 어의적 유사성을 가리키는 단계;
예측된 관계로서 상기 하나 또는 다수의 관계들 중에서 가장 높은 랭킹 스코어를 구비한 관계를 선택하고, 예측된 화제로서 상기 적어도 하나의 후보 주제를 선택하는 단계; 및
상기 쿼리에 대한 응답을 검색하도록 상기 예측된 관계 및 상기 예측된 화제를 이용하여 데이터 베이스에 대해 쿼리하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제1항에 있어서,
상기 하나 또는 다수의 단어들을 하나 또는 다수의 임베딩들로 전환하되, 상기 임베딩들 중의 각각은 대응되는 단어를 표시하는 벡터인 단계;
상기 하나 또는 다수의 임베딩들 중의 각각이 상기 주제 청크의 일부분일 확률을 예측하는 단계; 및
상기 예측된 화제로서 상기 하나 또는 다수의 임베딩들 중에서 확률이 역치보다 큰 일부 임베딩들을 선택하는 단계; 및
상기 주제 청크로서 상기 선택된 임베딩에 대응되는 하나 또는 다수의 단어들을 연결하는 단계를 더 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제2항에 있어서,
상기 확률을 예측하는 단계는,
상기 하나 또는 다수의 임베딩들에 대응되는 하나 또는 다수의 토큰들 각각 및 각 토큰이 상기 주제 청크의 일부분인지에 대한 이진 분류 특징들을 생성하는 단계; 및
상기 이진 분류 특징에 기반하여, 각 토큰이 상기 주제 청크의 일부분일 확률을 예측하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제1항에 있어서,
상기 하나 또는 다수의 단어들을 하나 또는 다수의 임베딩들로 전환하되, 상기 각 임베딩은 대응되는 단어를 표시하는 벡터인 단계; 및
상기 하나 또는 다수의 임베딩들을 이용하여 상기 쿼리의 신경 표현인 질문 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제4항에 있어서,
상기 질문 벡터의 차원이 상기 하나 또는 다수의 관계 벡터들의 차원과 상이할 경우, 상기 질문 벡터를 차원이 상기 하나 또는 다수의 관계 벡터들의 차원과 동일한 벡터에 투영하는 단계를 더 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제4항에 있어서,
상기 하나 또는 다수의 관계들의 랭킹 스코어를 확정하는 단계는,
상기 질문 벡터와 상기 하나 또는 다수의 관계 벡터들 사이의 점적 연산을 수행하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제1항에 있어서,
상기 적어도 하나의 후보 주제는 다수의 후보 주제들을 포함하고,
상기 다수의 후보 주제들 중에서 상기 예측된 주제를 선택하도록 상기 다수의 후보 주제들을 명확히 하는 단계를 더 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제7항에 있어서,
상기 다수의 후보 주제들을 명확히 하는 단계는,
각 후보 주제에 대해, 상기 랭킹 스코어 중의 최상위 N개의 랭킹 스코어들을 합산하되, N은 정수인 단계; 및
상기 예측된 화제로서 최상위 N개의 랭킹 스코어들의 합계값이 가장 큰 후보 주제를 선택하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
하나 또는 다수의 단어들을 구비한 쿼리를 접수하되, 상기 하나 또는 다수의 단어는 상기 쿼리 질문의 화제를 포함하는 단계;
상기 하나 또는 다수의 단어들을 하나 또는 다수의 임베딩들로 전환하되, 각 임베딩은 대응되는 단어를 표시하는 벡터인 단계;
상기 하나 또는 다수의 임베딩들 중의 각각이 상기 화제의 일부분일 확률을 예측하는 단계;
상기 화제로서 상기 하나 또는 다수의 임베딩들 중에서 확률이 역치보다 큰 일부 임베딩들을 선택하는 단계; 및
상기 화제로서 상기 선택된 임베딩에 대응되는 하나 또는 다수의 단어들을 연결하는 단계를 포함하는 것을 특징으로 하는
질문 속의 화제를 식별하기 위한 컴퓨터 실현 방법.
제9항에 있어서,
상기 확률을 예측하는 단계는,
상기 하나 또는 다수의 임베딩들에 대응되는 하나 또는 다수의 토큰들 각각 및 각 토큰이 상기 화제의 일부분인지에 대한 이진 분류 특징들을 생성하는 단계; 및
상기 이진 분류 특징에 기반하여, 각 토큰이 상기 화제의 일부분일 확률을 예측하는 단계를 포함하는 것을 특징으로 하는
질문 속의 화제를 식별하기 위한 컴퓨터 실현 방법.
제10항에 있어서,
상기 하나 또는 다수의 토큰들을 생성하는 단계는 기본 회귀 신경망, 양방향 회귀 신경망, 양방향 장단기 기억 장치 및 적층형 양방향 게이트된 순환 유닛 회귀 신경망 중의 적어도 하나로 수행되는 것을 특징으로 하는
질문 속의 화제를 식별하기 위한 컴퓨터 실현 방법.
제9항에 있어서,
상기 역치는 상기 선택된 가장 큰 확률에 대비하여 확정되는 것을 특징으로 하는
질문 속의 화제를 식별하기 위한 컴퓨터 실현 방법.
하나 또는 다수의 단어들을 구비한 입력된 쿼리를 접수하는 단계;
신경망 모델을 이용하여 상기 입력된 쿼리의 주제 청크를 식별하되, 상기 주제 청크는 상기 입력된 쿼리의 화제를 묘사하는 단계;
명칭 또는 가명이 상기 주제 청크와 동일한 표면 형식을 구비한 적어도 하나의 후보 주제를 식별하도록, 상기 주제 청크를 이용하여 데이터 베이스에 대해 쿼리하는 단계;
상기 적어도 하나의 후보 주제에 연관된 하나 또는 다수의 관계들 중에서 예측된 관계를 선택하고, 예측된 화제로서 상기 적어도 하나의 후보 주제를 선택하는 단계; 및
상기 쿼리에 대한 응답을 검색하도록 상기 예측된 관계 및 상기 예측된 화제를 이용하여 데이터 베이스에 대해 쿼리하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제13항에 있어서,
상기 주제 청크를 식별하는 단계는,
상기 하나 또는 다수의 단어들을 하나 또는 다수의 임베딩들로 전환하되, 상기 임베딩들 중의 각각은 대응되는 단어를 표시하는 벡터인 단계;
상기 하나 또는 다수의 임베딩들 중의 각각이 상기 주제 청크의 일부분일 확률을 예측하는 단계;
상기 예측된 화제로서 상기 하나 또는 다수의 임베딩들 중에서 확률이 역치보다 큰 일부 임베딩들을 선택하는 단계; 및
상기 주제 청크로서 상기 선택된 임베딩에 대응되는 하나 또는 다수의 단어들을 연결하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제14항에 있어서,
상기 확률을 예측하는 단계는,
상기 하나 또는 다수의 임베딩들에 대응되는 하나 또는 다수의 토큰들 각각 및 각 토큰이 상기 주제 청크의 일부분인지에 대한 이진 분류 특징들을 생성하는 단계; 및
상기 이진 분류 특징에 기반하여, 각 토큰이 상기 주제 청크의 일부분일 확률을 예측하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제15항에 있어서,
상기 하나 또는 다수의 관계들 중에서 예측된 관계를 선택하는 단계는,
상기 적어도 하나의 후보 주제에 연관된 하나 또는 다수의 관계들을 검색하도록 데이터 베이스에 대해 쿼리하는 단계; 및
상기 하나 또는 다수의 관계들의 랭킹 스코어를 확정하되, 상기 랭킹 스코어 중의 각각은 상기 입력된 쿼리와 상응한 관계 사이의 어의적 유사성을 가리키는 단계; 및
상기 예측된 관계로서 상기 하나 또는 다수의 관계들 중에서 가장 높은 랭킹 스코어를 가지는 관계를 선택하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제16항에 있어서,
상기 하나 또는 다수의 관계들의 랭킹 스코어를 확정하는 단계는,
상기 하나 또는 다수의 관계들을 각각 표시하는 하나 또는 다수의 관계 벡터들을 검색하도록 데이터 베이스에 대해 쿼리하는 단계;
상기 입력된 쿼리를 표시하고 상기 하나 또는 다수의 관계 벡터들과 동일한 차원을 구비한 질문 벡터를 생성하는 단계; 및
상기 하나 또는 다수의 관계들의 랭킹 스코어를 확정하도록, 상기 질문 벡터와 상기 하나 또는 다수의 관계 벡터들 사이의 점적 연산을 수행하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제17항에 있어서,
상기 질문 벡터를 생성하는 단계는,
상기 하나 또는 다수의 단어들을 하나 또는 다수의 임베딩들로 전환하되, 각 임베딩은 대응되는 단어를 표시하는 벡터인 단계;
상기 하나 또는 다수의 임베딩들 및 회귀 신경망(RNN)을 이용하여 상기 쿼리의 신경 표현인 벡터를 생성하는 단계;
상기 쿼리의 신경 표현인 상기 벡터의 차원이 상기 하나 또는 다수의 관계 벡터들의 차원과 상이할 경우, 상기 벡터를 차원이 상기 하나 또는 다수의 관계 벡터들의 차원과 동일한 상기 질문 벡터에 투영하는 단계; 및
상기 쿼리의 신경 표현인 상기 벡터의 차원이 상기 하나 또는 다수의 관계 벡터들의 차원과 동일할 경우, 상기 벡터를 상기 질문 벡터로 간주하는 단계를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제18항에 있어서,
상기 회귀 신경망 은 기본 회귀 신경망, 양방향 회귀 신경망, 양방향 장단기 기억 장치 및 적층형 양방향 게이트된 순환 유닛 회귀 신경망 중의 적어도 하나를 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.
제16항에 있어서,
상기 주제 청크를 이용하여 데이터 베이스에 대해 쿼리하는 단계에서 다수의 후보 주제들이 검색될 경우,
상기 후보 주제들 중의 각각에 대해, 상기 랭킹 스코어 중의 최상위 N개의 랭킹 스코어들을 합산하되, N은 정수인 단계; 및
상기 예측된 화제로서 최상위 N개의 랭킹 스코어들의 합계값이 가장 큰 후보 주제를 선택하는 단계를 더 포함하는 것을 특징으로 하는
쿼리에 대한 응답을 제공하기 위한 컴퓨터 실현 방법.