KR20210105803A

KR20210105803A - 스트리밍 데이터에서 선택적 정보 저장이 가능한 메모리 기반 강화 학습 방법 및 그 시스템

Info

Publication number: KR20210105803A
Application number: KR1020200171181A
Authority: KR
Inventors: 황성주; 한문수; 강민기; 정현우
Original assignee: 한국과학기술원
Priority date: 2020-02-19
Filing date: 2020-12-09
Publication date: 2021-08-27
Also published as: KR102558861B1

Abstract

스트리밍 데이터에서 선택적 정보 저장이 가능한 메모리 기반 강화 학습 방법 및 그 시스템이 개시된다. 본 발명의 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 방법은 에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 단계; 상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장하는 단계; 및 상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 단계를 포함한다.

Description

스트리밍 데이터에서 선택적 정보 저장이 가능한 메모리 기반 강화 학습 방법 및 그 시스템 {MEMORY-BASED REINFORCEMENT LEARNING METHOD FOR STORING OPTIONAL INFORMATION IN STREAMING DATA AND SYSTEM THEREFORE}

본 발명은 스트리밍 데이터에서 선택적 정보 저장이 가능한 메모리 기반 강화 학습 기술에 관한 것으로, 보다 상세하게는 하드웨어에 제약받지 않고 대용량의 데이터를 읽기/쓰기가 가능한 스트리밍 데이터에서 선택적 정보 저장이 가능한 메모리 기반 강화 학습 모델을 제공할 수 있는 메모리 기반 강화 학습 방법 및 그 시스템에 관한 것이다.

최근 몇 년 동안 질의응답(QA; Question-Answering)이 급속도로 진전된 것은 심층 학습의 진전뿐 아니라 대규모 데이터세트의 가용성에 힘입은 것이다. 가장 인기 있는 대규모 QA 데이터세트 중 하나는 100K 질의응답 쌍을 포함하는 Stanford Question Answering Dataset(SQuAD)이다. 다중 선택 QA 쌍을 제공하는 기존 기술과는 달리, SQuAD는 정확한 답의 위치를 제공하고 예측해야 한다. 이 스팬 예측 태스크(task)에서 주의 모델(attention medel)은 문맥과 질의 양방향 주의 메커니즘을 사용하는 양방향 주의 플로우(BiDAF; Bi-Directional Attention Flow)로 인상적인 성과를 거두었다. TriviaQA는 950K QA 쌍을 포함하는 또 다른 대규모 QA 데이터세트이다. Trivia의 각 문서의 길이는 문서당 평균 3K 문장으로 SQuAD보다 훨씬 길기 때문에 기존의 스팬 예측 모델은 메모리 제한으로 인해 작동하지 않고, 단순히 문서 자르기에 의존한다. QA의 문맥으로서 비디오 프레임을 제공하는 비디오 질의응답도 확장성이 문제가 되는 중요한 주제이다. 종래 일부 모델은 비디오와 텍스트에 대한 복합 추론을 수행하기 위해 주의와 메모리 향상 네트워크를 사용하여 비디오 QA를 해결할 것을 제안하지만, 이들은 짧은 길이의 비디오에만 초점을 맞춘다. QA에 관한 대부분의 기존 작업은 메모리 제한으로 인한 소규모 문제에 초점을 맞추고 있다.

최근 몇 가지 모델은 전체 문맥을 사용하지 않고 확장성을 위해 질의에 답할 때 주어진 문서에서 최소한의 문맥을 선택할 것을 제안한다. 종래 일 실시예 기술은 적대적 입력에 대한 확장성과 견고성을 달성하기 위해 문맥 벡터에 주의를 기울이는 문맥 선택기를 제안하였다. 종래 다른 일 실시예 기술 또한 비슷한 방법을 제안하지만 선형 분류기 대신 REINFORCE를 사용한다. 종래 또 다른 일 실시예 기술은 TF-IDF 매칭을 사용하여 쿼리와 관련한 위키백과 데이터베이스에서 가장 관련성이 높은 문서를 선택하며, 종래 또 다른 일 실시예 기술은 RL 에이전트와 문서 순위 문제를 해결할 것을 제안하였다. 이러한 문맥/문서 선택 방법은 QA 과제를 해결하기 위해 확장성을 달성하고 가장 유용한 정보를 선별하는 동기를 공유한다.

메모리 증강 뉴럴 네트워크(MANN; memoryaugmented neural network)는 기본적으로 RL 기반 스케줄러를 사용한은 것으로, MANN에 대한 대부분의 기존 작업은 메모리가 모든 데이터 인스턴스를 저장할 수 있을 만큼 충분히 크다고 가정하지만, 몇몇은 확장성을 높이기 위해 메모리 스케줄링을 고려하려고 했다. 종래 일 실시예의 기술은 쿼리를 기반으로 덮어쓸 메모리를 동적으로 결정하기 위해 보강 학습을 이용하여 어드레스 에이전트를 교육할 것을 제안하였으며, 종래 다른 일 실시예의 기술인 Differentiable Neural Computer(DNC)는 메모리가 가득 찼을 때 가장 적게 사용된 메모리를 교체하여 이 문제를 해결하기 위해 NTM을 확장하지만, 이 방법은 주어진 과제에서 성능을 최대화할 수 없는 규칙 기반 방식이다.

본 발명의 실시예들은, 하드웨어에 제약받지 않고 대용량의 데이터를 읽기/쓰기가 가능한 스트리밍 데이터에서 선택적 정보 저장이 가능한 메모리 기반 강화 학습 모델을 제공할 수 있는 메모리 기반 강화 학습 방법 및 그 시스템을 제공한다.

본 발명의 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 방법은 에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 단계; 상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장하는 단계; 및 상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 단계를 포함한다.

상기 저장하는 단계는 상기 스트리밍 데이터를 포함하는 각 데이터 인스턴스를 메모리 벡터 표현으로 인코딩하고, 상기 인코딩된 메모리 벡터 표현을 이용하여 상기 외부 메모리에 저장된 데이터와의 상대적 중요도를 획득하며, 상기 획득된 상대적 중요도가 상기 외부 메모리에 저장된 특정 데이터보다 높은 경우 상기 특정 데이터를 상기 유의미한 정보에 대한 데이터로 대체하여 저장할 수 있다.

상기 저장하는 단계는 상기 외부 메모리의 메모리 항목이 비어 있는 경우 상기 유의미한 정보를 상기 비어있는 메모리 항목에 매핑하여 저장하고, 상기 외부 메모리의 메모리 항목이 가득찬 경우 상기 외부 메모리에 저장된 데이터와 상기 유의미한 정보 간의 상대적 중요도를 계산하여 상기 유의미한 정보에 비해 상대적 중요도가 가장 낮은 메모리 항목에 저장된 특정 데이터를 상기 유의미한 정보로 대체하여 저장할 수 있다.

상기 저장하는 단계는 미리 설정된 메모리 스케쥴링 에이전트 정책에 기초하여 상기 유의미한 정보와 상기 외부 메모리의 각 메모리 항목 간의 대체 확률을 계산하고, 상기 계산된 대체 확률에 기초하여 메모리 항목들 중 어느 하나의 메모리 항목에 저장된 데이터를 상기 유의미한 정보로 대체하여 저장할 수 있다.

상기 저장하는 단계는 미리 설정된 트레이닝 데이터세트를 이용한 강화 학습을 통해 학습된 강화 학습 모델을 통해 상기 유의미한 정보를 상기 외부 메모리에 저장할 수 있다.

본 발명의 다른 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 방법은 에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 단계; 상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 획득하고, 외부 메모리에 저장된 데이터 중 어느 하나의 특정 데이터를 상기 유의미한 정보로 대체하여 저장하는 단계; 및 상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 단계를 포함한다.

본 발명의 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 시스템은 에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 수신부; 상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장하는 저장부; 및 상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 결정부를 포함한다.

상기 저장부는 상기 스트리밍 데이터를 포함하는 각 데이터 인스턴스를 메모리 벡터 표현으로 인코딩하고, 상기 인코딩된 메모리 벡터 표현을 이용하여 상기 외부 메모리에 저장된 데이터와의 상대적 중요도를 획득하며, 상기 획득된 상대적 중요도가 상기 외부 메모리에 저장된 특정 데이터보다 높은 경우 상기 특정 데이터를 상기 유의미한 정보에 대한 데이터로 대체하여 저장할 수 있다.

상기 저장부는 상기 외부 메모리의 메모리 항목이 비어 있는 경우 상기 유의미한 정보를 상기 비어있는 메모리 항목에 매핑하여 저장하고, 상기 외부 메모리의 메모리 항목이 가득찬 경우 상기 외부 메모리에 저장된 데이터와 상기 유의미한 정보 간의 상대적 중요도를 계산하여 상기 유의미한 정보에 비해 상대적 중요도가 가장 낮은 메모리 항목에 저장된 특정 데이터를 상기 유의미한 정보로 대체하여 저장할 수 있다.

상기 저장부는 미리 설정된 메모리 스케쥴링 에이전트 정책에 기초하여 상기 유의미한 정보와 상기 외부 메모리의 각 메모리 항목 간의 대체 확률을 계산하고, 상기 계산된 대체 확률에 기초하여 메모리 항목들 중 어느 하나의 메모리 항목에 저장된 데이터를 상기 유의미한 정보로 대체하여 저장할 수 있다.

상기 저장부는 미리 설정된 트레이닝 데이터세트를 이용한 강화 학습을 통해 학습된 강화 학습 모델을 통해 상기 유의미한 정보를 상기 외부 메모리에 저장할 수 있다.

본 발명의 또 다른 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 방법은 에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 단계; 상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여, 미리 설정된 트레이닝 데이터세트를 이용한 강화 학습을 통해 학습된 강화 학습 모델을 이용하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장하는 단계; 및 상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 단계를 포함한다.

본 발명의 실시예들에 따르면, 스트리밍 데이터에서 선택적 정보 저장이 가능한 메모리 기반 강화 학습 모델을 제공함으로써, 하드웨어에 제약받지 않고 대용량의 데이터를 읽기/쓰기가 가능할 수 있다.

본 발명의 실시예들에 따르면, 사용자가 제공하는 방대한 데이터 중 유의미한 정보를 메모리에 저장하므로 사용자와 실시간으로 상호작용 가능한 대화 모델에서 활용 가능하고, 데이터를 스트리밍 형식으로 입력 받기 때문에 데이터의 양에 무관하게 처리 가능하므로 하드웨어 메모리를 효율적으로 사용할 수 있다.

이러한 본 발명은 미래 실시간으로 사용자와 상호작용 하는 모델 혹은 실시간 데이터 처리가 필요한 모델 개발 시, GPU 기반 하드웨어 뿐만 아니라 엣지-디바이스에서도 제안된 모델을 활용할 수 있다. 예컨대, 본 발명은 인공지능 기반 실시간 서비스 제공에서 적용/응용 가능하고, 하드웨어의 성능이 제한적인 엣지 디바이스 환경에서 제안된 모델을 이용하여 효율적인 메모리 사용과 해당 환경에서의 구동이 가능하며, 사용자와 실시간으로 상호작용 가능한 대화 모델에서, 사용자로부터 주어지는 방대한 양의 데이터를 효율적으로 처리 가능한 기술로 적용/응용 가능하고, 점진적 학습과 결합하여 개인 사용자에 특성에 맞춰 관련 정보를 메모리에 저장함으로써 개인화된 대화 모델 혹은 장치 예를 들어, 가정 자동화, 사물 인터넷 등에서 적용/응용 가능할 수 있다.

도 1은 본 발명의 일 실시예에 따른 에피소드 메모리 리더를 설명하기 위한 일 예시도를 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 방법에 대한 동작 흐름도를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 에피소드 메모리 리더의 개요를 나타낸 것이다.
도 4는 메모리 인코더에 대한 일 실시예의 아키텍처를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 시스템에 대한 구성을 나타낸 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

질의응답(QA; Question-Answering) 문제는 자연 언어 이해(NLU; Natural Language Understanding)에서 가장 중요한 과제 중 하나이다. 최근 몇 년 동안, QA 모델을 기반으로 한 심층 학습의 성공으로 인해 이 주제에 대한 급격한 진전이 있었다. 주어진 단락 내에서 응답의 범위를 찾는 것이 문제인 기계 판독 이해(MRC)와 같은 특정 과제에서는 심층 학습 기반의 QA 모델이 인간 수준의 성과까지 능가하였다.

이러한 성과에도 불구하고, 장기적 의존성 모델링의 어려움과 컴퓨터 비용 등의 문제로 인해 문맥이 많은 긴 문서를 포함할 수 있는 문서 수준 문맥으로 답변하는 것을 모델링하는 것은 여전히 어렵다. 이러한 확장성 문제를 극복하기 위해, 종래 기술들은 문서 수준 모델을 얻기 위해 단락 수준 모델을 결합하는 파이프라인 또는 신뢰 기반 선택 방법을 제안하였다. 이러한 모델은 사전에 질의를 하고 문서의 모든 문장을 메모리에 저장할 수 있을 때만 적용할 수 있으나 현실적인 설정에서는 문맥의 양이 너무 커서 시스템 메모리에 맞지 않을 수 있다.

본 발명은 질의 기반 문맥 선택 방법을 고려할 수 있지만, 많은 경우 문맥에서 읽을 때 질의가 주어지지 않을 수 있기 때문에 질의에 근거한 문맥을 선택하기는 어려울 수 있다. 예를 들어, 대화 에이전트는 장기간에 걸쳐 수많은 대화를 나눈 후 질의에 답해야 할 수 있으며, 비디오 QA 모델은 질의에 답하기 전에 영화 전체, 스포츠 게임 또는 보안 카메라에서 비디오를 스트리밍하는 나날들을 시청해야 할 수 있다. 이 경우 기존 QA 모델은 메모리 제한으로 인해 문제 해결에 실패하게 된다.

본 발명의 실시예들은, 보이지 않는 질의에 응답하는 데 덜 중요한 메모리를 대체하면서 입력 문맥을 순차적으로 외부 메모리로 에피소드 메모리 리더(EMR; Episodic Memory Reader)라고 부르는 읽기 이해를 위한 새로운 엔드투엔드 심층 네트워크 모델을 제공하는 것을 그 요지로 한다.

구체적으로는, 본 발명은 미래 시점에서 QA 정확도를 최대화하기 위해 메모리 입력을 대체하는 RL 에이전트를 트레이닝하는 동시에, GRU나 Transformer 아키텍처를 사용하여 메모리 입력 간의 상대적 중요성을 고려하는 표현을 학습하기 위해 외부 메모리를 인코딩할 수 있다.

본 발명에서는, 도 1에 도시된 바와 같이 문맥의 크기가 메모리가 수용할 수 있는 것보다 상당히 클 수 있는 문맥으로서 스트리밍 데이터의 질의응답 문제를 해결하는 새로운 문제를 목표로 한다. 이 경우 모델은 미래에 보이지 않는 질의에 답하기 위해 메모리에 가장 유용한 문맥 인스턴스가 포함되도록 이 스트리밍 데이터에서 기억해야 할 사항을 주의 깊게 관리할 필요가 있다. 본 발명은 이러한 메모리 관리 문제를 학습 문제로 제기하고 강화 학습을 사용하여 메모리 표현과 스케줄링 에이전트를 모두 트레이닝시킨다. 즉, 도 1에 도시된 바와 같이, 본 발명은 QA 모델이 무제한의 문맥에서 읽은 후에 주어진 질문에 대답해야 할 수도 있는 스트리밍 데이터 학습의 새로운 문제를 고려한다. 이 문제를 해결하기 위하여 EMR을 외부 메모리에 가장 중요한 문맥 벡터를 유지하기 위하여 학습하고, 미래 타임스텝에서 주어진 보이지 않는 질의에 대한 정확도를 극대화하기 위하여 메모리 입력을 교체한다.

구체적으로는, 본 발명은 주어진 태스크에 대한 보상을 극대화하기 위해 가장 비정보적인 메모리 입력을 대체하는 강화 학습을 이용하여 메모리 모듈 자체를 트레이닝시킬 것을 제안한다. 그러나 대부분의 경우 다음에 어떤 질의가 나올지 모르는 상태에서 스케쥴링을 수행해야 하기 때문에 이것은 좋지 않은 문제이다. 이 과제를 해결하기 위해, 본 발명은 문장과 쿼리 사이의 관계뿐만 아니라 문장들 사이의 상대적 중요성도 배우는 정책 네트워크와 가치 네트워크를 미래의 시점에서 그것의 질의에 대한 응답 정확도를 극대화하기 위해 구현한다. 본 발명은 이 네트워크를 에피소드 메모리 리더(EMR)라고 부른다. 여기서, EMR은 평생 학습 시나리오에서 미래 작업에 유용할 중요한 문맥의 콤팩트한 세트를 유지하기 위해 선택적 기억을 수행할 수 있다. 본 발명의 EMR은 기본적으로 RL 기반 스케줄러를 사용하는 메모리 증강 뉴럴 네트워크(MANN; memoryaugmented neural network)이다.

본 발명은 메모리 간의 상대적 중요도를 고려하지 않고 규칙 기반 및 RL 기반 스케줄링 방법에 대해 외부 메모리에 맞추기에는 문맥이 너무 큰 대규모 QA 과제(TriviaQA) 및 비디오 질의응답 과제(TVQA)에서 제안된 메모리 네트워크 등에 적용할 수 있다.

본 발명의 기여는 다음과 같을 수 있다.

1) 본 발명은 메모리 크기가 데이터 스트림의 길이보다 상당히 작은 질의 응답 작업을 위해 데이터 스트리밍에서 중요한 인스턴스를 기억하는 것을 배우는 새로운 작업을 고려한다.

2) 본 발명은 스트리밍 데이터에서 QA를 해결하기 위한 새로운 엔드투엔드 메모리 향상 신경 아키텍처를 제안한다. 여기서 우리는 미래 QA 과제를 해결하기 위한 가장 중요한 메모리 항목을 저장하기 위해 보강 학습을 통해 스케줄링 에이전트를 트레이닝한다.

이러한 본 발명은 문맥의 크기가 메모리보다 큰 도전적인 시나리오를 고려할 수 있으며, 본 발명의 문제 설정은 질의가 언제 주어질지 모르고, 문맥의 크기가 메모리보다 훨씬 크고 선택 모듈을 트레이닝할 때 보이지 않는 문제를 스트리밍 데이터로부터 배우는 도전적인 문제를 고려하기 때문에 그들의 문제 설정과는 완전히 다르다.

본 발명에 대하여, 스트리밍 데이터로 질의응답 과제를 해결하는 방법을 문맥으로 설명한다. 보다 일반적인 의미에서, 이것은 메모리가 제한된 중요하지 않고 노이즈가 심한 데이터 예를 들어, 대화, 충분한 정보를 알려주지 않는 비디오 프레임의 일상적인 인사의 상당 부분을 포함하는 긴 데이터 스트림에서 학습하는 문제이다. 데이터 스트림은 한 시간 간격으로 무제한의 데이터 인스턴스가 도착하여 그 후에 접근할 수 없게 되는 일시적 방식이다. 또한, 미래 어느 시점에 어떤 과제 예를 들어, QA 문제의 경우 도 1에 도시된 바와 같이 질의가 주어질 것인지 모델은 미리 알 수 없다는 점을 고려한다.

이 문제를 해결하기 위해 모델은 데이터 스트림에서 중요한 데이터 인스턴스를 식별하여 외부 메모리에 저장해야 한다. 형식적으로, x^(t) ∈ R^d를 입력으로 하는 경우 데이터 스트림 예를 들어, 문장 또는 이미지 X = {x⁽¹⁾,...,x^(T)}가 주어질 때, 모델은 그것을 m_i ∈ R^k와 T ≫ N인 메모리 항목 M = {m₁,...,m_N}의 세트에 매핑하는 기능 F : X → M을 학습해야 한다. 그렇다면 어떤 문제가 언제 닥칠지 모르는 사이에 눈에 보이지 않는 미래의 과제에 대한 성과를 극대화하는 그런 기능을 어떻게 배울 수 있는지에 대한 문제가 있으며, 본 발명은 이 문제를 강화 학습 문제로서 메모리 스케줄링 에이전트를 트레이닝시킬 수 있다.

도 2는 본 발명의 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 방법에 대한 동작 흐름도를 나타낸 것이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 방법은 에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 단계(S210), 상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장하는 단계(S220)와 상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 단계(S230)를 포함한다.

여기서, 유의미한 정보는 질의응답 수행이 가능한 문맥을 포함할 수 있으며, 예를 들어, 대화 상황 시 사용자의 미래 질문을 해결할 수 있는 사용자 정보를 포함할 수 있다.

단계 S220은 상기 스트리밍 데이터를 포함하는 각 데이터 인스턴스를 메모리 벡터 표현으로 인코딩하고, 상기 인코딩된 메모리 벡터 표현을 이용하여 상기 외부 메모리에 저장된 데이터와의 상대적 중요도를 획득하며, 상기 획득된 상대적 중요도가 상기 외부 메모리에 저장된 특정 데이터보다 높은 경우 상기 특정 데이터를 상기 유의미한 정보에 대한 데이터로 대체하여 저장할 수 있다.

나아가, 단계 S220은 상기 외부 메모리의 메모리 항목이 비어 있는 경우 상기 유의미한 정보를 상기 비어있는 메모리 항목에 매핑하여 저장하고, 상기 외부 메모리의 메모리 항목이 가득찬 경우 상기 외부 메모리에 저장된 데이터와 상기 유의미한 정보 간의 상대적 중요도를 계산하여 상기 유의미한 정보에 비해 상대적 중요도가 가장 낮은 메모리 항목에 저장된 특정 데이터를 상기 유의미한 정보로 대체하여 저장할 수 있다.

더 나아가, 단계 S220은 미리 설정된 메모리 스케쥴링 에이전트 정책에 기초하여 상기 유의미한 정보와 상기 외부 메모리의 각 메모리 항목 간의 대체 확률을 계산하고, 상기 계산된 대체 확률에 기초하여 메모리 항목들 중 어느 하나의 메모리 항목에 저장된 데이터를 상기 유의미한 정보로 대체하여 저장할 수 있다.

더 나아가, 단계 S220은 미리 설정된 트레이닝 데이터세트를 이용한 강화 학습을 통해 학습된 강화 학습 모델을 통해 상기 유의미한 정보를 상기 외부 메모리에 저장할 수 있다.

이러한 본 발명의 방법에 대한 도 3 내지 도 4를 참조하여 설명하면 다음과 같다.

모델 개요

이제 앞에서 설명한 문제를 해결하기 위한 본 발명의 모델인 에피소드 메모리 리더(EMR; Episodic Memory Reader)에 대해 설명하면 다음과 같다. 본 발명의 모델에는 (1) EMR에 기초한 에이전트 A, (2) 외부 메모리 M = [m₁,...,m_N], (3) 주어진 과제(예를 들어, QA)를 외부 메모리로 해결하는 솔버(solver) 예를 들어, QA 모델 세 가지 구성 요소가 있다.

도 3은 본 발명의 일 실시예에 따른 EMR의 개요를 나타낸 것으로, 기본적으로 시스템을 통해 스트리밍되는 데이터 인스턴스 X = {x⁽¹⁾,...,x^(T)}의 시퀀스를 고려할 때, 에이전트는 각 메모리 항목의 상대적 중요성을 인코딩하는 외부 메모리와 상호 작용하여 메모리에서 가장 유용한 서브셋을 유지하는 방법을 학습한다. t ≤ N일 때 에이전트는 x^(t)를 m^(t)에 매핑하기만 하면 된다. 그러나 t > N일 때에는, 메모리가 가득 차면 삭제할 기존 메모리 항목을 선택한다. 구체적으로는 삭제할 i번째 메모리 항목의 선택을 나타내는 π(j|S^(t))에 근거한 액션을 출력한다. 여기서, 상태는 메모리의 연결을 의미하고, 데이터 인스턴스 S^(t) = [M^(t),e^(t)]를 의미하는데, e^(t)는 타임스텝 t에서 인코딩된 입력을 의미할 수 있다. 미래 QA 과제에서 성능을 극대화하기 위해 에이전트는 가장 중요하지 않은 메모리 항목을 교체해야 한다. 에이전트가 T+1에서 과제 T(QA 문제)를 만나면 타임스텝 T, M^(T)의 메모리와 과제 정보(예를 들어, 질의)를 모두 활용하여 과제를 해결할 수 있다. 각 액션에 대해 환경(QA 모듈)은 F1-점수 또는 정확도로 주어지는 보상 R^(t)를 제공할 수 있다.

Episodic Memory Reader(EMR)

EMR은 (1) 각 데이터 인스턴스를 메모리 벡터 표현으로 인코딩하는 데이터 인코더(data encoder), (2) 메모리 입력에 대한 대체 확률을 생성하는 메모리 인코더(memory encoder), (3) 전체적으로 메모리 값을 추정하는 가치 네트워크(value network) 등 세 가지 요소로 구성된다. 경우에 따라, 본 발명은 정책 그래디언트(policy gradient) 방법을 사용할 수 있는데, 이 경우 가치 네트워크는 불필요해진다.

데이터 인코더에 대해 설명하면, t 시간에 도착하는 데이터 인스턴스 x^(t)는 어떤 데이터 형식도 될 수 있으므로, 인코더를 사용하여 k차원 메모리 벡터 표현 e^(t) ∈ R^k로 변환할 수 있으며, 메모리 벡터 표현은 아래 <수학식 1>과 같이 나타낼 수 있다.

[수학식 1]

여기서, ψ(·)는 데이터 인코더로서, 입력 데이터의 유형에 근거한 어떤 신경 아키텍처를 의미할 수 있다. 예를 들어, x^(t)가 순차 데이터로 구성된 경우(예를 들어, 단어 x^(t) = {w₁,w₂,w₃,...w_s}) RNN을 사용할 수 있고 x^(t)가 이미지인 경우 CNN을 사용할 수 있다. 메모리 항목 m_i ^(t)를 삭제한 후, 본 발명은 메모리의 끝에 e^(t)를 추가하고, 그 다음에는 m_N ^(t+1)이 된다.

메모리 인코더에 대해 설명하면, 데이터 인코더에서 생성된 메모리 벡터 표현들 M^(t) = [m₁ ^(t),...m_N ^(t)] 및 e^(t)를 이용하면, 메모리 인코더는 상대적인 중요성을 고려하여 각 메모리 입력에 대한 확률을 출력한 후 덜 중요한 입력을 대체한다. 이 구성요소는 actor-critic 방법의 정책 네트워크에 해당한다.

EMR-Independent: 본 발명은 새로운 문제 설정에 대한 기존 작업을 기준 가지고 있지 않기 때문에 우선 새로운 데이터 인스턴스에 대해 각각의 메모리 입력의 상대적 중요도를 독립적으로 포착하는 메모리 인코더를 고려한다. 본 발명에서는 이 인코더를 EMR-Independent라고 지칭할 수 있다. 이 스케줄링 메커니즘은 종래 기술에서 소개된 Dynamic Least Recently Use(LRU) 주소에서 채택되지만, 메모리 항목을 덮어쓰기보다는 대체한다는 점에서 LRU와는 다르며, 보이지 않는 미래 쿼리에 대한 성능을 극대화하기 위해 쿼리 없이 교육한다. EMR-Independent는 새로운 데이터 인스턴스의 임베딩 x^(t)를 ai^(t)= softmax(mi^(t)ψ(x^(t))^T와 비교하여 각 메모리 항목에 대한 중요성을 출력할 수 있다. 본 발명은 각 메모리 항목의 전체적인 중요성을 계산하기 위해, 지수 이동 평균을 v_i ^(t) = 0.1v_i ^(t-1) + 0.9a_i ^(t)로 계산할 수 있다. 그런 다음 각 메모리 항목의 대체 확률을 아래 <수학식 2>에 나타낸 바와 같이 LRU 계수 γ^(t)로 계산한다.

[수학식 2]

여기서, i ∈ [1,N]은 메모리 인덱스를 의미하고, Wγ ∈ R^1Хd와 bγ ∈ R은 가중치 매트릭스와 바이어스 항목을 의미하며, σ(·)와 softmax(·)는 각각 sigmoid와 softmax 함수를 의미하고, π는 메모리 스케줄링 에이전트 정책을 의미할 수 있다.

EMR-biGRU: EMR-Independent의 주요 단점은 각 메모리의 평가가 입력 x^(t)에만 의존한다는 것이다. 즉, 중요성은 메모리의 다른 항목과 관계없이 각 메모리 항목과 새 데이터 인스턴스 간에 계산된다. 그러나 이 계획은 다른 메모리 항목에 대한 각 메모리 항목의 상대적 중요성을 모형화할 수 없으며, 이는 가장 덜 중요한 메모리를 결정하는 데 더 중요하다. 메모리 항목 간의 상대적 관계를 고려하는 한 가지 방법은 아래 <수학식 3>에 나타낸 바와 같이 양방향 GRU(biGRU)를 사용하여 인코딩하는 것이다.

[수학식 3]

여기서, i ∈ [1,N +1]은 인코딩된 입력 m_N+1 ^(t) = e^(t)의 인덱스를 포함하는 메모리 인덱스를 의미하며, GRU_θ는 θ에 의해 파라미터화된 Gated Recurrent Unit르 의미하고,

는 기능 연결을 의미하며, MLP는 ReLU 활성화 기능을 가진 3 계층의 다층 퍼셉트론(perceptron)을 의미할 수 있다. 따라서 EMR-biGRU는 쿼리와 관련하여 각 입력의 중요성을 독립적으로 계산하는 대신 인접 네트워크와 관련하여 각 메모리 입력의 일반적인 중요성을 학습하는데, 이는 매우 유사한 데이터 인스턴스(예를 들어, 비디오 프레임) 중에서 가장 중요한 항목을 선택할 때 유용하다. 그러나 모델은 RNN의 내재적 제한 때문에 먼 슬롯에 있는 메모리 항목 간의 장거리 관계를 효과적으로 모델링하지 못할 수 있다.

EMR-Transformer: 본 발명은 이러한 RNN 기반 모델링의 하위 최적성을 극복하기 위해 자기 주의 메커니즘을 추가로 채택할 수 있다. 본 발명은 쿼리 Q^(t), 키 K^(t) 및 가치 V^(t)를 사용하여 위치 인코딩으로 m^(t)를 취하는 선형 계층으로 입력의 상대적 중요성을 생성한다. 다중 헤드 주의에 의해, 각 구성요소는 다차원 공간에 투사된다. 각 구성요소의 차원은 Q^(t) ∈ R^HХNХk/H, K^(t) ∈ R^HХNХk/H, V(t) ∈ R^HХNХk/H이고, 여기서 N은 메모리의 크기를 의미하고, H는 주의 헤드의 수를 의미할 수 있다. 이를 활용하면 아래 <수학식 4>와 같이 자기 주의 및 메모리 인코딩을 사용하여 검색된 출력을 공식화할 수 있다.

[수학식 4]

여기서, i는 메모리 인덱스를 의미하고, o_i ^(t)∈ R^NХd/h, [o₁ ^(t),o₂ ^(t) ,...,o_h ^(t)] ∈ R^NХk는 o_i ^(t)의 연결(concatenation)을 의미하며, π는 에이전트 정책을 의미하고, MLP는 EMR-biGRU에서 사용되는 동일한 3계층 다층 perceptron을 의미할 수 있다.

메모리 인코딩 h^(t)은 입력으로 h^(t)를 가지는 W₀ ∈ R^dХd를 이용하여 계산될 수 있다. 도 4는 메모리 인코더에 대한 일 실시예의 아키텍처를 나타낸 것으로, EMR-Independent 및 EMR-biGRU/Transformer 용 메모리 인코더의 상세 아케텍처에 대한 일 예시도를 나타낸 것이다.

가치 네트워크에 대해 설명하면, 특정 QA 문제를 해결하기 위해서는 각 메모리 입력의 미래 중요성을 고려해야 한다. 특히 텍스트 QA 과제(예를 들어, TriviaQA)에서는 단어 앞에 있는 증거 문장을 저장하는 것이 유용한 문맥을 제공할 수 있으므로 유용할 수 있다. 그러나, 본 발명은 별개의 정책 그래디언트 방법만을 사용하여 그러한 문맥 사례를 보존할 수 없다. 이 문제를 극복하기 위해, 본 발명은 가치 네트워크를 이용하여 각 상태에서 미래 보상의 합계를 추정하기 위해 actor-critic RL 방법(A3C)을 사용할 수 있다. 정책과 가치의 차이는 각 단계마다 가치를 다르게 추정할 수 있으며, 메모리 전체를 고려할 필요가 있다는 것이다. 본 발명은 기억의 총체적 표현을 얻기 위해 Deep Set(Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnab´as P´oczos, Ruslan R. Salakhutdinov, and Alexander J. Smola. 2017. Deep sets. In Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017.)를 사용할 수 있다. 본 발명은 Deep Set을 따라 모든 hi^(t)를 요약하고 2개의 선형 계층과 ReLU 활성화 함수로 구성된 MLP(ρ)에 입력하여 설정된 표현을 구할 수 있다. 그런 다음 이전 시간 단계에서 히든 상태의 GRU에 의한 설정 표현 ρ(∑_i=1 ^Nh_i ^(t))을 추가로 처리한다. 마지막으로, 본 발명은 GRU의 출력을 다층 perceptron에 공급하여 현재 타임스텝에 대한 V^(t) 값을 추정한다.

트레이닝 및 테스트

본 발명의 모델은 과제를 해결하기 위해 모델과 공동으로 메모리 스케줄링 정책을 학습한다. EMR 트레이닝을 위해 A3C 또는 REINFORCE를 선택할 수 있다. 트레이닝 시간에 과제가 주어지기 때문에, 본 발명은 매 시간마다 에이전트에게 질의를 제공한다. 각 단계에서, 에이전트는 π(i|[M^(t), e^(t)];θ)에 근거한 다항 분포에서 액션을 확률적으로 선택하여 다양한 상태를 탐색하고 행동을 취한다. 그런 다음, QA 모델은 에이전트에 보상 R_t를 제공한다. 본 발명은 비동기식 다중 처리 방법을 사용하여 여러 모델을 한번에 트레이닝할 수 있다.

테스트 시 에이전트는 학습된 정책인 π: arg max_i(i|[M^(t), e^(t)];θ)에 따라 메모리 인덱스를 삭제한다. 트레이닝 단계와는 대조적으로, 모델은 데이터 스트림의 끝에서만 질의를 관찰한다. 문제가 발생할 경우 모델은 외부 메모리에 저장된 데이터 인스턴스를 사용하여 과제를 해결한다.

이와 같이, 본 발명의 실시예에 따른 방법은 스트리밍 데이터에서 선택적 정보 저장이 가능한 메모리 기반 강화 학습 모델을 제공함으로써, 하드웨어에 제약받지 않고 대용량의 데이터를 읽기/쓰기가 가능할 수 있다.

또한, 본 발명의 실시예에 따른 방법은 사용자가 제공하는 방대한 데이터 중 유의미한 정보를 메모리에 저장하므로 사용자와 실시간으로 상호작용 가능한 대화 모델에서 활용 가능하고, 데이터를 스트리밍 형식으로 입력 받기 때문에 데이터의 양에 무관하게 처리 가능하므로 하드웨어 메모리를 효율적으로 사용할 수 있다.

도 5는 본 발명의 일 실시예에 따른 메모리 기반 강화 학습을 이용한 질의응답 시스템에 대한 구성을 나타낸 것이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 시스템(500)은 수신부(510), 저장부(520) 및 결정부(530)를 포함한다.

수신부(510)는 에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신한다.

저장부(520)는 상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장한다.

이 때, 저장부(520)는 상기 스트리밍 데이터를 포함하는 각 데이터 인스턴스를 메모리 벡터 표현으로 인코딩하고, 상기 인코딩된 메모리 벡터 표현을 이용하여 상기 외부 메모리에 저장된 데이터와의 상대적 중요도를 획득하며, 상기 획득된 상대적 중요도가 상기 외부 메모리에 저장된 특정 데이터보다 높은 경우 상기 특정 데이터를 상기 유의미한 정보에 대한 데이터로 대체하여 저장할 수 있다.

이 때, 저장부(520)는 상기 외부 메모리의 메모리 항목이 비어 있는 경우 상기 유의미한 정보를 상기 비어있는 메모리 항목에 매핑하여 저장하고, 상기 외부 메모리의 메모리 항목이 가득찬 경우 상기 외부 메모리에 저장된 데이터와 상기 유의미한 정보 간의 상대적 중요도를 계산하여 상기 유의미한 정보에 비해 상대적 중요도가 가장 낮은 메모리 항목에 저장된 특정 데이터를 상기 유의미한 정보로 대체하여 저장할 수 있다.

이 때, 저장부(520)는 미리 설정된 메모리 스케쥴링 에이전트 정책에 기초하여 상기 유의미한 정보와 상기 외부 메모리의 각 메모리 항목 간의 대체 확률을 계산하고, 상기 계산된 대체 확률에 기초하여 메모리 항목들 중 어느 하나의 메모리 항목에 저장된 데이터를 상기 유의미한 정보로 대체하여 저장할 수 있다.

이 때, 저장부(520)는 미리 설정된 트레이닝 데이터세트를 이용한 강화 학습을 통해 학습된 강화 학습 모델을 통해 상기 유의미한 정보를 상기 외부 메모리에 저장할 수 있다.

결정부(530)는 상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정한다.

비록, 도 5의 시스템에서 그 설명이 생략되었더라도, 도 5의 시스템 도 1 내지 도 4의 방법에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에서 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 단계;
상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장하는 단계; 및
상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 단계
를 포함하는 메모리 기반 강화 학습을 이용한 질의응답 방법.
제1항에 있어서,
상기 저장하는 단계는
상기 스트리밍 데이터를 포함하는 각 데이터 인스턴스를 메모리 벡터 표현으로 인코딩하고, 상기 인코딩된 메모리 벡터 표현을 이용하여 상기 외부 메모리에 저장된 데이터와의 상대적 중요도를 획득하며, 상기 획득된 상대적 중요도가 상기 외부 메모리에 저장된 특정 데이터보다 높은 경우 상기 특정 데이터를 상기 유의미한 정보에 대한 데이터로 대체하여 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 방법.
제1항에 있어서,
상기 저장하는 단계는
상기 외부 메모리의 메모리 항목이 비어 있는 경우 상기 유의미한 정보를 상기 비어있는 메모리 항목에 매핑하여 저장하고, 상기 외부 메모리의 메모리 항목이 가득찬 경우 상기 외부 메모리에 저장된 데이터와 상기 유의미한 정보 간의 상대적 중요도를 계산하여 상기 유의미한 정보에 비해 상대적 중요도가 가장 낮은 메모리 항목에 저장된 특정 데이터를 상기 유의미한 정보로 대체하여 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 방법.
제1항에 있어서,
상기 저장하는 단계는
미리 설정된 메모리 스케쥴링 에이전트 정책에 기초하여 상기 유의미한 정보와 상기 외부 메모리의 각 메모리 항목 간의 대체 확률을 계산하고, 상기 계산된 대체 확률에 기초하여 메모리 항목들 중 어느 하나의 메모리 항목에 저장된 데이터를 상기 유의미한 정보로 대체하여 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 방법.
제1항에 있어서,
상기 저장하는 단계는
미리 설정된 트레이닝 데이터세트를 이용한 강화 학습을 통해 학습된 강화 학습 모델을 통해 상기 유의미한 정보를 상기 외부 메모리에 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 방법.
에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 단계;
상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 획득하고, 외부 메모리에 저장된 데이터 중 어느 하나의 특정 데이터를 상기 유의미한 정보로 대체하여 저장하는 단계; 및
상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 단계
를 포함하는 메모리 기반 강화 학습을 이용한 질의응답 방법.
제6항에 있어서,
상기 저장하는 단계는
상기 스트리밍 데이터를 포함하는 각 데이터 인스턴스를 메모리 벡터 표현으로 인코딩하고, 상기 인코딩된 메모리 벡터 표현을 이용하여 상기 외부 메모리에 저장된 데이터와의 상대적 중요도를 획득하며, 상기 획득된 상대적 중요도가 상기 외부 메모리에 저장된 상기 어느 하나의 특정 데이터보다 높은 경우 상기 특정 데이터를 상기 유의미한 정보에 대한 데이터로 대체하여 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 방법.
제6항에 있어서,
상기 저장하는 단계는
상기 외부 메모리의 메모리 항목이 비어 있는 경우 상기 유의미한 정보를 상기 비어있는 메모리 항목에 매핑하여 저장하고, 상기 외부 메모리의 메모리 항목이 가득찬 경우 상기 외부 메모리에 저장된 데이터와 상기 유의미한 정보 간의 상대적 중요도를 계산하여 상기 유의미한 정보에 비해 상대적 중요도가 가장 낮은 메모리 항목에 저장된 특정 데이터를 상기 유의미한 정보로 대체하여 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 방법.
에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 수신부;
상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장하는 저장부; 및
상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 결정부
를 포함하는 메모리 기반 강화 학습을 이용한 질의응답 시스템.
제9항에 있어서,
상기 저장부는
상기 스트리밍 데이터를 포함하는 각 데이터 인스턴스를 메모리 벡터 표현으로 인코딩하고, 상기 인코딩된 메모리 벡터 표현을 이용하여 상기 외부 메모리에 저장된 데이터와의 상대적 중요도를 획득하며, 상기 획득된 상대적 중요도가 상기 외부 메모리에 저장된 특정 데이터보다 높은 경우 상기 특정 데이터를 상기 유의미한 정보에 대한 데이터로 대체하여 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 시스템.
제9항에 있어서,
상기 저장부는
상기 외부 메모리의 메모리 항목이 비어 있는 경우 상기 유의미한 정보를 상기 비어있는 메모리 항목에 매핑하여 저장하고, 상기 외부 메모리의 메모리 항목이 가득찬 경우 상기 외부 메모리에 저장된 데이터와 상기 유의미한 정보 간의 상대적 중요도를 계산하여 상기 유의미한 정보에 비해 상대적 중요도가 가장 낮은 메모리 항목에 저장된 특정 데이터를 상기 유의미한 정보로 대체하여 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 시스템.
제9항에 있어서,
상기 저장부는
미리 설정된 메모리 스케쥴링 에이전트 정책에 기초하여 상기 유의미한 정보와 상기 외부 메모리의 각 메모리 항목 간의 대체 확률을 계산하고, 상기 계산된 대체 확률에 기초하여 메모리 항목들 중 어느 하나의 메모리 항목에 저장된 데이터를 상기 유의미한 정보로 대체하여 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 시스템.
제9항에 있어서,
상기 저장부는
미리 설정된 트레이닝 데이터세트를 이용한 강화 학습을 통해 학습된 강화 학습 모델을 통해 상기 유의미한 정보를 상기 외부 메모리에 저장하는 것을 특징으로 하는 메모리 기반 강화 학습을 이용한 질의응답 시스템.
에피소드 메모리 리더(Episodic Memory Reader)에서 사용자로부터 입력된 입력 문맥에 대한 스트리밍 데이터를 수신하는 단계;
상기 에피소드 메모리 리더에서 상기 수신된 스트리밍 데이터를 분석하여, 미리 설정된 트레이닝 데이터세트를 이용한 강화 학습을 통해 학습된 강화 학습 모델을 이용하여 질의응답에 사용되는 미리 설정된 유의미한 정보를 외부 메모리에 저장하는 단계; 및
상기 사용자로부터 질의가 입력되는 경우 미리 학습된 질의응답 모델에서 상기 외부 메모리에 저장된 유의미한 정보에 기초하여 상기 입력된 질의에 대한 응답을 결정하는 단계
를 포함하는 메모리 기반 강화 학습을 이용한 질의응답 방법.