KR102430442B1

KR102430442B1 - 에이전트 학습 보상 시스템

Info

Publication number: KR102430442B1
Application number: KR1020200103967A
Authority: KR
Inventors: 김인철; 오선택
Original assignee: 경기대학교 산학협력단
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2022-08-09
Also published as: KR20220022700A; WO2022039351A1

Abstract

에이전트 학습 보상 시스템이 개시된다. 이 시스템은 실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리부, 및 입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정부, 및 에이전트의 결정 행동 이행에 따라 변화된 상태마다 소정의 보상 함수를 통해 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상부를 포함한다.

Description

에이전트 학습 보상 시스템{Agent learing reward system with region based alignment}

본 발명은 공간 탐색 기술에 관련된 것으로, 특히 심층 신경망을 이용한 시각 및 언어 기반의 공간 탐색 기술에 관련된 것이다.

에이전트의 복합 지능에 관한 관심이 높아지면서 시각-언어 이동(Vision-and-Language Navigation, VLN) 문제가 주목받고 있다. VLN이란 3차원 실내 공간에 놓인 에이전트가 실시간 입력 영상(input image)과 자연어 지시(natural language instruction)에 따라 스스로 이동 행동(navigation action)을 결정함으로써 미지의 목적지까지 도달해야 하는 작업이다. 도 1은 VLN 작업의 한 예를 보여준다. 도 1의 왼쪽은 에이전트에 주어진 자연어 지시와 이 지시에 따른 에이전트의 행동 시퀀스를 보여주며, 오른쪽은 에이전트의 위치에 따라 입력되는 순차적인 파노라마 영상(panoramic image)을 보여준다. VLN 작업에서 중요한 문제 중 하나는 한정된 학습 데이터(seen data)를 이용하여 비학습 작업(unseen task)에서 얼마나 좋은 성능을 갖는 에이전트로 학습시키느냐 하는 학습의 일반화(generalization) 및 지식 전이(knowledge transfer) 문제이다. 이러한 VLN 에이전트의 일반화 능력을 향상시키고자 모방 학습 방법이나 강화 학습 방법 등이 연구되어 왔다.

국내공개특허공보 제10-2019-0104587호 (2019년 9월 10일 공개)

본 발명은 삼차원 공간에서 목적지까지의 경로를 탐색하여 자율 이동 행동을 결정하는 에이전트가 자연어 지시에 부합하는 경로를 학습할 수 있게 한다. 특히, 본 발명은 새로 제안된 보상 함수 RBA(Region Based Alighnment)를 통해 에이전트로 하여금 자연어 지시에 맞춰 최적 경로를 지나 목적지에 도달할 수 있게 하는 효과를 창출한다.

일 양상에 따른 에이전트 학습 보상 시스템은 실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리부, 및 입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정부, 및 에이전트의 결정 행동 이행에 따라 변화된 상태마다 소정의 보상 함수를 통해 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상부를 포함할 수 있다.

보상 함수는 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리 내이면서 결정 행동 이행 전의 정지 위치보다 목적지에 가까워지는지 아니면 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리를 벗어나거나 결정 행동 이행 전의 정지 위치보다 목적지에서 멀어지는지에 따라 서로 다른 보상을 부여하기 위한 함수일 수 있다.

입력 처리부는 특징 추출부와 시각-언어 정렬부를 포함할 수 있다. 특징 추출부는 초기 입력된 자연어 지시를 인코딩하여 특징을 추출하는 지시 특징 추출부와, 입력 영상인 파노라마 영상에 대해 합성곱 신경망 알고리즘을 이용하여 시각 특징을 추출하는 시각 특징 추출부를 포함할 수 있다. 그리고 시각-언어 정렬부는 특징 추출부에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하되 에이전트의 직전 상황 정보가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성하는 주의 집중부와, 주의 집중된 특징들을 입력받아 순환신경망을 이용하여 멀티 모달 특징을 생성하는 멀티 모달 특징 정렬부를 포함할 수 있다.

행동 결정부는 멀티 모달 특징에 기초하여 에이전트의 현 상황 정보인 맥락 특징을 추출하며, 추출된 맥락 특징을 토대로 행동을 결정할 수 있다.

에이전트 학습 보상 방법은 실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리 단계, 입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정 단계, 및 에이전트의 결정 행동 이행에 따라 변화된 상태마다 소정의 보상 함수를 통해 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상 단계를 포함할 수 있다.

본 발명은 VLN 에이전트의 작업 성공률뿐만 아니라 목적지까지 이동 경로의 품질을 향상시키는 효과를 창출한다. 또한, 본 발명은 에이전트 학습 과정에서 데이터에 주어진 지시를 따르는 경로를 확장함으로써, 부족한 데이터를 효율적으로 사용하여 데이터 증가 효과를 이루어낸다. 이는 데이터 확장이 어려운 VLN 문제에서 큰 이점으로 적용될 수 있다.

도 1은 VLN 작업의 예를 나타낸 도면이다.
도 2는 일 실시예에 따른 에이전트 학습 보상 시스템 블록도이다.
도 3은 VLN 에이전트를 위한 모델 구조 예시도이다.
도 4는 수학식 5에 따른 함수의 조건 만족 영역을 예시한 도면이다.

전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 통상의 기술자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.

도 2는 일 실시예에 따른 에이전트 학습 보상 시스템 블록도이다. 본 시스템은 입력 처리부(100)와 행동 결정부(400) 및 학습 보상부(500)를 포함한다. 이들 중 입력 처리부(100)와 행동 결정부(400)는 에이전트에 구성되며, 학습 보상부(500)는 에이전트에 구성되거나 에이전트와 데이터 통신이 가능한 별도의 컴퓨팅 시스템에 구성될 수 있다. 그리고 이들 모두 소프트웨어적으로 구현 가능하며, 컴퓨팅 시스템에 속하는 하나 이상의 프로세서에 의해 실행되어 해당 역할을 수행할 수 있다.

입력 처리부(100)는 자연어 지시와 실시간 영상을 입력받아 행동 결정부(400)에서의 행동 결정을 위한 처리를 수행한다. 여기서 실시간 영상은 에이전트에 의해 촬영된 영상, 즉 관찰 영상을 말한다. 일 실시예에 있어서, 입력 처리부(100)는 특징 추출부(200)와 시각-언어 정렬부(300)를 포함한다. 특징 추출부(200)는 자연어 지시(지시 정보)와 실시간 영상(시각 정보)에 대해 딥러닝 알고리즘을 이용하여 특징을 추출하는 구성으로서, 시각 특징 추출부(210)와 지시 특징 추출부(220)를 포함한다. 시각 특징 추출부(210)는 파노라마 형태의 RGB 영상을 입력받아 합성곱 신경망(Convolutional Neural Network, CNN) 알고리즘을 이용하여 시각 특징을 추출할 수 있다. 일 실시예에 있어서, 시각 특징 추출부(210)는 합성곱 신경망(CNN) 중에서 ResNet 신경망을 사용하여 파노라마 영상으로부터 시각 특징을 추출한다. 추출된 시각 특징은 영상 내의 장소나 물체 등의 정보를 함축하고 있는 것으로, 에이전트의 현재 상황을 파악할 수 있는 필수적인 특징으로 활용될 수 있다. 그리고 지시 특징 추출부(220)는 순차적인 특징을 갖는 자연어 지시를 순환 신경망(Recurrent Neural Network, RNN) 중 하나인 LSTM(Long Short-Term Memory)로 인코딩하여 특징을 추출할 수 있다.

시각-언어 정렬부(300)는 주의 집중부(310)와 멀티 모달 특징 정렬부(320)를 포함한다. 주의 집중부(310)는 특징 추출부(200)에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하는데, 에이전트의 직전 상황 정보(

)가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성한다. 이 같은 주의 집중부(310)는 시각 주의 집중부(311)와 지시 주의 집중부(312)를 포함한다. 시각 주의 집중부(311)와 지시 주의 집중부(312)는 각각 주의 집중(attention) 메커니즘에 따라 주의 집중된 특징(attended)들을 산출하는데, 먼저 시각 주의 집중부(311)가 주의 집중된 특징들을 산출하는 과정은 수학식 1과 같다.

수학식 1에서

는 파노라마 영상에서 ResNet을 거쳐 특징이 추출된 벡터이다. 이는 파노라마 영상을 가로 12개 세로 3개로 나누어 각 부분마다 특징 벡터를 갖는 형태이다.

는 시각 특징 벡터에 적용할 주의 집중 가중치를 나타낸다.

는 하나의 다층 신경망(Multi-Layer Perceptron)으로 계산을 위해 벡터의 크기를 조절하는 역할을 한다. 이때 주의 집중을 가하는 직전 상황에 대한 정보

를 통해

에 주의 집중을 가하게 된다.

다음으로, 지시 주의 집중부(312)가 주의 집중된 특징들을 산출하는 과정은 수학식 2와 같다.

수학식 2에서

는 임베딩된 지시 특징 벡터이다.

는 지시 특징 벡터에 적용할 주의 집중 가중치를 나타낸다. 이때 주의 집중을 가하는 직전 상황 정보

를 통해

에 주의 집중을 가하게 된다.

이와 같이 주의 집중 과정을 거친 지시 특징

, 시각 특징

은 직전에 수행한 에이전트의 행동 정보와 함께 통합되어 멀티 모달 특징 정렬부(320)로 입력된다. 멀티 모달 특징 정렬부(320)는 주의 집중된 특징들과 에이전트의 직전 행동 정보를 입력받아 순환신경망을 통해 시각 정보와 지시 정보의 정렬에 대한 정보를 함축하고 있는 멀티 모달 특징 벡터

를 생성한다.

행동 결정부(400)는 입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는데, 멀티 모달 특징

에 기초하여 에이전트의 현 상황 정보인 맥락 특징을 추출한 후에 그 추출된 맥락 특징을 토대로 행동을 결정한다. 먼저, 행동 결정부(400)는 멀티 모달 특징

을 지시 특징과 함께 고려하여 수학식 3을 통해 맥락(상황) 정보를 담은 특징 벡터

를 생성한다.

다음으로, 행동 결정부(400)는 맥락 정보를 담은 특징 벡터

를 토대로 에이전트가 현재 수행할 수 있는 행동들에 대한 확률 분포를 생성한 후에 그 생성된 확률 분포를 통해 에이전트가 실제 수행할 행동을 결정한다. 행동 확률 분포는 수학식 4를 통해 생성될 수 있다.

수학식 4에서

는 현재 수행 가능한 각 행동에 대한 확률 분포를 나타낸다. 따라서, 행동 결정부(400)는 현재 수행 가능한 행동들(

) 중에서 가장 높은 평가치를 갖는 행동을 선택한다. 즉, 가장 높은 점수를 받은 행동을 에이전트가 현수행할 행동으로 결정하는 것이다. 이후, 학습 보상부(500)는 에이전트의 결정 행동 이행을 통해 변화된 에이전트의 상태마다 그 상태를 토대로 목적지까지의 정답 영역을 기준으로 지시 이행 적정 여부를 평가하기 위한 새로운 보상 함수에 기반하여 에이전트의 행동을 보상한다. 또한, 학습 보상부(500)는 새로운 보상 함수로 얻게 되는 보상에 따른 강화 학습을 통해 보상을 높이는 방향으로 에이전트가 학습되도록 함으로써, 결과적으로 에이전트는 지시를 잘 따른 다양한 정답 경로를 학습할 수 있게 된다.

이하에서는 상술한 시스템에 대해 보다 구체적으로 설명한다. 상술한 시스템에는 인코더-디코더(encoder) 기반의 VLN 에이전트 모델이 채용될 수 있다. VLN 에이전트 모델의 구조도는 도 3과 같다. VLN 에이전트는 환경으로부터 현재 위치에서 관측된 파노라마 영상

와 이동 가능한 방향 정보

,

를 입력받고, 환경 외적으로는 지시(instruction)를 입력받는다. 파노라마 영상과 이동 가능한 방향 정보는 상태 인코더(state encoder)에 의해 하나의 연결된(concatenated) 특징 벡터

로 변환된다. 특징 벡터

는 수학식 5를 통해 계산된다.

지시는 지시 인코딩(instruction encoding)에 의해 단어 임베딩(word embedding) 벡터

로 변환된다. 여기서

은 단어의 수를 의미한다.

와

는 시각-언어 정렬(vision-language alignment, VLA)에 의해 주의 집중 벡터

와

로 계산된다.

는 주의 집중 벡터

와

를 연결(concatenation)한 값이다.

는 에이전트가 매시간 단계(time step)마다 지시의 어느 부분을 따르고 있는지를 표현하는 벡터이다.

는 LSTM(Long Short-Term Memory) 기반의 경로 인코딩(trajectory encoding)을 통해 생성된다. 가치 디코딩(value decoding)은

로부터 상태 가치

를 계산한다. 행위 디코딩(action decoding)은

와

로부터 행동

를 계산한다.

한편, 본 모델에서는 행동을 수행한 후 변화된 에이전트의 상태를 토대로 지시를 잘 따르고 있는지 평가할 수 있는 새로운 보상 함수 RBA(Region Based Alignment)를 통해 보상을 행하고 그에 따라 강화 학습이 이루어지도록 하여 지시를 잘 따른 다양한 경로를 학습할 수 있게 한다. 새로운 보상 함수 RBA는 정답 경로를 기준으로 특정 거리

m 내에서 목적 위치에 가까워지면 양의 보상(+1)을 받고 그렇지 않으면 음의 보상(-1)을 부여하는 것으로, 이를 수식으로 표현하면 수학식 6과 같다.

수학식 6은 매 순간 변화된 상태에 따라 에이전트가 얻는 보상을 계산하는 과정을 나타낸다.

는 t 순간에서 위치(position)를 의미하며,

는 그 순간 위치에서의 보상(reward)을 의미한다. 첫 번째 조건식과 두 번째 조건식은 에이전트가 정지 행동을 수행하여 위치 변화가 없을 때 다익스트라 알고리즘(Dijkstra algorithm)을 이용하여 목적 위치와의 거리가 3m 이내인지 판단하는 식이다. 세 번째 조건식에서

는 현재 위치

가 정답 경로에서 특정 거리

m 이내에 있으면 참(true)을 반환하며 그렇지 않으면 거짓(false)을 반환하는 함수로서 수학식 7과 같다.

수학식 7에서 P는 정답 경로상의 모든 노드의 집합,

는 정답 경로상의

번째 노드,

는 에이전트의 위치,

는

에서 선분

에 내린 수선의 발을 의미한다. 따라서,

는

와의 거리가

m 이내인

또는

가 존재하면 참을 반환한다. 예를 들어, 도 4의 (a)에서

는

와의 거리가

m 이내이기 때문에 참이다. 나머지

,

는 정답 경로의 모든 노드와의 거리가

m 이내가 아니다. 하지만 도 4의 (b)에서와 같이

에서 정답 경로상에 내린 수선의 발

가 존재하고

의 길이가

m 이내이기 때문에 참이다. 한편,

는 정답 경로상에 내린 수선의 발

이 존재하지만

의 길이가

m보다 크기 때문에 결국 거짓이고

는 정답 경로상에 내릴 수 있는 수선의 발이 존재하지 않기 때문에 결국 거짓이다.

수학식 6에서

는 수학식 8와 같이 에이전트의 위치가 이전 위치보다 목적지에 더 가까워지면 참, 그렇지 않으면 거짓을 반환한다.

이러한 보상 함수 RBA는 에이전트가 목적지와 가까워지도록 이동하게 할 뿐만 아니라, 정답 경로를 벗어나지 않으면서 이동할 수 있도록 한다. 또한, RBA는 하나의 지시에 하나의 정답 경로만 제시하는 기존 기술들과는 달리 하나의 지시에 여러 정답 경로를 제시해주는 정답 영역을 사용한다. 따라서, 정답 경로를 증강시켜 에이전트의 일반화 성능을 높일 수 있다.

한편, 본 시스템에는 낮은 데이터 효율성을 갖는 강화 학습의 문제와 데모 데이터에 편향될 수 있는 모방 학습의 문제를 상호 보완하기 위해 두 학습 방법을 결합한 새로운 학습 모델 CIR(Combining Imitation learning and Reinforcement learnin)이 구성될 수 있으며, 예를 들어 학습 보상부(500)에 RBA와 함께 구성된다. CIR의 학습 과정을 나타내는 의사 코드(pseudo code)는 표 1과 같다.

표 1에서 1번 줄은 정책 매개변수

를 무작위로 초기화한다. 2-8번 줄은 모방 학습과 강화 학습을 동시에 진행하는 학습 반복(iterations) 과정을 나타낸다. 3-5번 줄은 모방 학습 손실

을 계산한다.

은 수학식 9와 같이 매시간 단계마다 교차 엔트로피 손실(cross entropy loss)을 계산하고 이를 합하여 얻어낸다.

은 정책 네트워크

가 최적 행동

를 결정할 확률을 높이도록 학습을 유도한다.

6-8번 줄은 강화 학습 손실

을 계산한다.

은 수학식 10과 같이 A2C(advantage actor-critic) 알고리즘을 기반으로 강화 학습 손실

을 계산한다. 누적 보상

는 매 스텝마다 RBA를 통해 얻어지는

를 통해 계산되고 critic을 통해 예측된

를 통해

를 평가하게 된다. 참고로, 수학식 10에서

는 우세 함수(advantage function)를 나타내며,

는 다양한 행동을 결정할 수 있도록 장려하는 엔트로피 함수를 나타낸다.

9번 줄은

과

을 더하여 혼합 손실

를 계산한다. 한편,

보다

의 값이 훨씬 크기 때문에 학습의 불균형이 발생한다. 이를 위해 CIR은

을 통해서

을 정규화한다. 마지막 10번 줄은

를 토대로

를 갱신한다.

이상의 학습 방법 CIR은 낮은 데이터 효율성의 갖는 강화 학습과 데모 데이터에 편향될 수 있는 모방 학습의 문제를 상호 보완할 수 있으며,

정규화를 통해 모방 학습과 강화 학습의 불균형 문제를 해결할 수 있다.

이하에서는 본 모델에 대한 구현 및 실험 결과에 대해 서술한다. R2R 데이터 집합을 이용하여 본 모델의 성능을 분석하기 위한 실험을 수행한다. 이를 위해 본 모델은 Python 3.7, Pytorch 1.2.0 라이브러리를 이용하여 구현하였다. 한편, 모델 학습과 실험에 사용된 R2R 데이터 집합은 Matterport3D 가상 환경의 시작 위치에서 목적 위치로 가는 최단 경로와 이를 설명하는 세 가지의 자연어 지시들의 집합으로 구성되어 있다. R2R 데이터 집합에서 학습 데이터(seen training data)는 14,025개, 학습 검증 데이터(seen validation data)는 1,020개, 비-학습 검증 데이터(unseen validation data)는 2,349개, 비-학습 테스트 데이터(unseen test data)는 2,349개의 지시로 각각 구성된다. 입력 영상으로부터 시각 특징 추출을 위해서는 미리 학습된 ResNet-152 모델을 이용하였다. 모델 학습을 위해 엔트로피 함수의 반영 비율

는 0.01로, 모방 학습과 강화 학습의 손실을 정규화하기 위한

는 0.05로, 학습률(learning rate)

는 0.0001로 각각 설정하였다.

본 모델에서 채택한 RBA 보상 함수의 효과를 분석하고, 기존 모델들과의 비교를 통해 본 모델의 우수성을 입증하기 위한 실험을 수행하였다. 실험에 사용된 성능 평가 척도는 SC(Success rate)와 SPL(Success rate weighted by Path Length)이다. SC는 VLN 에이전트의 작업 성공률을 나타낸다. VLN 작업은 에이전트의 마지막 위치가 목적지와의 거리가 3ｍ 이내일 때 성공으로 간주한다. 반면, SPL은 정답 경로 길이를 에이전트가 실제 이동한 경로 길이로 나눈 값이다. 따라서 VLN 에이전트가 실제 이동한 경로가 짧을수록 높은 SPL 점수를 받을 수 있다.

본 모델에서 채택한 보상 함수의 효과를 분석하기 위한 비교 실험에 대해 서술한다. 이 실험에서는 목적지까지의 거리 변화만을 고려한 보상 함수 DBA(Destination Based Alignment), 에이전트가 진행해온 경로와 정답 경로와의 유사도 변화를 DTW(Dynamic Time Warping) 알고리즘으로 계산하는 보상 함수 SBA(Similarity Based Alignment), 그리고 본 모델에서 제안된 보상 함수 RBA에 따른 VLN 작업 성능을 비교하였다. RBA의 임계 거리

는 1m로 설정하였다. 이 실험을 위해 매시간 단계마다 에이전트에게 즉각적인 보상이 부여되는 밀집 보상(dense reward) 방식과 순수 강화 학습만을 이용해 학습하였고 학습 반복 횟수는 8만 번으로 설정하였다.

이 실험의 결과는 표 2와 같다. RBA와 SBA가 각각 학습 데이터(seen)와 비-학습 데이터(unseen)에서 높은 성능을 보였고, DBA는 좋지 못한 성능을 보였다. DBA는 에이전트의 위치와 목적 위치와의 차이만을 고려하였기 때문에, 지시를 따르지 않는 잘못된 경로를 학습하게 되는 문제점이 있다. SBA와 RBA는 보상 함수의 설계는 다르지만 정답 경로와 유사한 경로를 학습하려는 같은 목적을 갖는 보상 함수이다. 그러나 SBA는 에이전트가 지나온 이전 경로의 길이가 길수록 계산량이 커지는 문제가 존재하는 반면에, RBA는 비교적 적은 계산량으로도 에이전트가 최적 경로를 따라 목적지에 가까워지는 방향으로 이동할 수 있도록 한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100 : 입력 처리부 200 : 특징 추출부
210 : 시각 특징 추출부 220 : 지시 특징 추출부
300 : 시각-언어 정렬부 310 : 주의 집중부
311 : 시각 주의 집중부 312 : 지시 주의 집중부
320 : 멀티 모달 특징 정렬부 400 : 행동 결정부
500 : 학습 보상부

Claims

실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리부; 및
입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정부; 및
에이전트의 결정 행동 이행에 따라 변화된 상태마다 그 상태를 토대로 목적지까지의 정답 영역을 기준으로 지시 이행 적정 여부를 평가하기 위한 보상 함수를 통해 에이전트가 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상부;를 포함하되,
학습 보상부는 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리 내이면서 결정 행동 이행 전의 정지 위치보다 목적지에 가까워지면 양의 보상을 부여하고 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리를 벗어나거나 결정 행동 이행 전의 정지 위치보다 목적지에서 멀어지면 음의 보상을 부여하도록 하는 보상 함수를 통해 보상하는 에이전트 학습 보상 시스템.
제 1 항에 있어서, 입력 처리부는 :
초기 입력된 자연어 지시를 인코딩하여 특징을 추출하는 지시 특징 추출부와, 입력 영상인 파노라마 영상에 대해 합성곱 신경망 알고리즘을 이용하여 시각 특징을 추출하는 시각 특징 추출부를 포함하는 특징 추출부; 및
특징 추출부에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하되 에이전트의 직전 상황 정보가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성하는 주의 집중부와, 주의 집중된 특징들을 입력받아 순환신경망을 이용하여 멀티 모달 특징을 생성하는 멀티 모달 특징 정렬부를 포함하는 시각-언어 정렬부;
를 포함하는 에이전트 학습 보상 시스템.
제 2 항에 있어서,
행동 결정부는 멀티 모달 특징에 기초하여 에이전트의 현 상황 정보인 맥락 특징을 추출하며, 추출된 맥락 특징을 토대로 행동을 결정하는 에이전트 학습 보상 시스템.
실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리 단계;
입력 처리 단계에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정 단계; 및
에이전트의 결정 행동 이행에 따라 변화된 상태마다 그 상태를 토대로 목적지까지의 정답 영역을 기준으로 지시 이행 적정 여부를 평가하기 위한 보상 함수를 통해 에이전트가 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상 단계;를 포함하되,
학습 보상 단계는 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리 내이면서 결정 행동 이행 전의 정지 위치보다 목적지에 가까워지면 양의 보상을 부여하고 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리를 벗어나거나 결정 행동 이행 전의 정지 위치보다 목적지에서 멀어지면 음의 보상을 부여하도록 하는 보상 함수를 통해 보상하는 에이전트 학습 보상 방법.
삭제
삭제