KR102430442B1 - 에이전트 학습 보상 시스템 - Google Patents

에이전트 학습 보상 시스템 Download PDF

Info

Publication number
KR102430442B1
KR102430442B1 KR1020200103967A KR20200103967A KR102430442B1 KR 102430442 B1 KR102430442 B1 KR 102430442B1 KR 1020200103967 A KR1020200103967 A KR 1020200103967A KR 20200103967 A KR20200103967 A KR 20200103967A KR 102430442 B1 KR102430442 B1 KR 102430442B1
Authority
KR
South Korea
Prior art keywords
agent
reward
learning
unit
destination
Prior art date
Application number
KR1020200103967A
Other languages
English (en)
Other versions
KR20220022700A (ko
Inventor
김인철
오선택
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Priority to KR1020200103967A priority Critical patent/KR102430442B1/ko
Priority to PCT/KR2021/006633 priority patent/WO2022039351A1/ko
Publication of KR20220022700A publication Critical patent/KR20220022700A/ko
Application granted granted Critical
Publication of KR102430442B1 publication Critical patent/KR102430442B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3407Route searching; Route guidance specially adapted for specific applications
    • G01C21/3415Dynamic re-routing, e.g. recalculating the route when the user deviates from calculated route or after detecting real-time traffic data or accidents
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3647Guidance involving output of stored or live camera images or video streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

에이전트 학습 보상 시스템이 개시된다. 이 시스템은 실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리부, 및 입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정부, 및 에이전트의 결정 행동 이행에 따라 변화된 상태마다 소정의 보상 함수를 통해 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상부를 포함한다.

Description

에이전트 학습 보상 시스템{Agent learing reward system with region based alignment}
본 발명은 공간 탐색 기술에 관련된 것으로, 특히 심층 신경망을 이용한 시각 및 언어 기반의 공간 탐색 기술에 관련된 것이다.
에이전트의 복합 지능에 관한 관심이 높아지면서 시각-언어 이동(Vision-and-Language Navigation, VLN) 문제가 주목받고 있다. VLN이란 3차원 실내 공간에 놓인 에이전트가 실시간 입력 영상(input image)과 자연어 지시(natural language instruction)에 따라 스스로 이동 행동(navigation action)을 결정함으로써 미지의 목적지까지 도달해야 하는 작업이다. 도 1은 VLN 작업의 한 예를 보여준다. 도 1의 왼쪽은 에이전트에 주어진 자연어 지시와 이 지시에 따른 에이전트의 행동 시퀀스를 보여주며, 오른쪽은 에이전트의 위치에 따라 입력되는 순차적인 파노라마 영상(panoramic image)을 보여준다. VLN 작업에서 중요한 문제 중 하나는 한정된 학습 데이터(seen data)를 이용하여 비학습 작업(unseen task)에서 얼마나 좋은 성능을 갖는 에이전트로 학습시키느냐 하는 학습의 일반화(generalization) 및 지식 전이(knowledge transfer) 문제이다. 이러한 VLN 에이전트의 일반화 능력을 향상시키고자 모방 학습 방법이나 강화 학습 방법 등이 연구되어 왔다.
국내공개특허공보 제10-2019-0104587호 (2019년 9월 10일 공개)
본 발명은 삼차원 공간에서 목적지까지의 경로를 탐색하여 자율 이동 행동을 결정하는 에이전트가 자연어 지시에 부합하는 경로를 학습할 수 있게 한다. 특히, 본 발명은 새로 제안된 보상 함수 RBA(Region Based Alighnment)를 통해 에이전트로 하여금 자연어 지시에 맞춰 최적 경로를 지나 목적지에 도달할 수 있게 하는 효과를 창출한다.
일 양상에 따른 에이전트 학습 보상 시스템은 실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리부, 및 입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정부, 및 에이전트의 결정 행동 이행에 따라 변화된 상태마다 소정의 보상 함수를 통해 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상부를 포함할 수 있다.
보상 함수는 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리 내이면서 결정 행동 이행 전의 정지 위치보다 목적지에 가까워지는지 아니면 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리를 벗어나거나 결정 행동 이행 전의 정지 위치보다 목적지에서 멀어지는지에 따라 서로 다른 보상을 부여하기 위한 함수일 수 있다.
입력 처리부는 특징 추출부와 시각-언어 정렬부를 포함할 수 있다. 특징 추출부는 초기 입력된 자연어 지시를 인코딩하여 특징을 추출하는 지시 특징 추출부와, 입력 영상인 파노라마 영상에 대해 합성곱 신경망 알고리즘을 이용하여 시각 특징을 추출하는 시각 특징 추출부를 포함할 수 있다. 그리고 시각-언어 정렬부는 특징 추출부에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하되 에이전트의 직전 상황 정보가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성하는 주의 집중부와, 주의 집중된 특징들을 입력받아 순환신경망을 이용하여 멀티 모달 특징을 생성하는 멀티 모달 특징 정렬부를 포함할 수 있다.
행동 결정부는 멀티 모달 특징에 기초하여 에이전트의 현 상황 정보인 맥락 특징을 추출하며, 추출된 맥락 특징을 토대로 행동을 결정할 수 있다.
에이전트 학습 보상 방법은 실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리 단계, 입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정 단계, 및 에이전트의 결정 행동 이행에 따라 변화된 상태마다 소정의 보상 함수를 통해 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상 단계를 포함할 수 있다.
본 발명은 VLN 에이전트의 작업 성공률뿐만 아니라 목적지까지 이동 경로의 품질을 향상시키는 효과를 창출한다. 또한, 본 발명은 에이전트 학습 과정에서 데이터에 주어진 지시를 따르는 경로를 확장함으로써, 부족한 데이터를 효율적으로 사용하여 데이터 증가 효과를 이루어낸다. 이는 데이터 확장이 어려운 VLN 문제에서 큰 이점으로 적용될 수 있다.
도 1은 VLN 작업의 예를 나타낸 도면이다.
도 2는 일 실시예에 따른 에이전트 학습 보상 시스템 블록도이다.
도 3은 VLN 에이전트를 위한 모델 구조 예시도이다.
도 4는 수학식 5에 따른 함수의 조건 만족 영역을 예시한 도면이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 통상의 기술자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 2는 일 실시예에 따른 에이전트 학습 보상 시스템 블록도이다. 본 시스템은 입력 처리부(100)와 행동 결정부(400) 및 학습 보상부(500)를 포함한다. 이들 중 입력 처리부(100)와 행동 결정부(400)는 에이전트에 구성되며, 학습 보상부(500)는 에이전트에 구성되거나 에이전트와 데이터 통신이 가능한 별도의 컴퓨팅 시스템에 구성될 수 있다. 그리고 이들 모두 소프트웨어적으로 구현 가능하며, 컴퓨팅 시스템에 속하는 하나 이상의 프로세서에 의해 실행되어 해당 역할을 수행할 수 있다.
입력 처리부(100)는 자연어 지시와 실시간 영상을 입력받아 행동 결정부(400)에서의 행동 결정을 위한 처리를 수행한다. 여기서 실시간 영상은 에이전트에 의해 촬영된 영상, 즉 관찰 영상을 말한다. 일 실시예에 있어서, 입력 처리부(100)는 특징 추출부(200)와 시각-언어 정렬부(300)를 포함한다. 특징 추출부(200)는 자연어 지시(지시 정보)와 실시간 영상(시각 정보)에 대해 딥러닝 알고리즘을 이용하여 특징을 추출하는 구성으로서, 시각 특징 추출부(210)와 지시 특징 추출부(220)를 포함한다. 시각 특징 추출부(210)는 파노라마 형태의 RGB 영상을 입력받아 합성곱 신경망(Convolutional Neural Network, CNN) 알고리즘을 이용하여 시각 특징을 추출할 수 있다. 일 실시예에 있어서, 시각 특징 추출부(210)는 합성곱 신경망(CNN) 중에서 ResNet 신경망을 사용하여 파노라마 영상으로부터 시각 특징을 추출한다. 추출된 시각 특징은 영상 내의 장소나 물체 등의 정보를 함축하고 있는 것으로, 에이전트의 현재 상황을 파악할 수 있는 필수적인 특징으로 활용될 수 있다. 그리고 지시 특징 추출부(220)는 순차적인 특징을 갖는 자연어 지시를 순환 신경망(Recurrent Neural Network, RNN) 중 하나인 LSTM(Long Short-Term Memory)로 인코딩하여 특징을 추출할 수 있다.
시각-언어 정렬부(300)는 주의 집중부(310)와 멀티 모달 특징 정렬부(320)를 포함한다. 주의 집중부(310)는 특징 추출부(200)에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하는데, 에이전트의 직전 상황 정보(
Figure 112020087063763-pat00001
)가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성한다. 이 같은 주의 집중부(310)는 시각 주의 집중부(311)와 지시 주의 집중부(312)를 포함한다. 시각 주의 집중부(311)와 지시 주의 집중부(312)는 각각 주의 집중(attention) 메커니즘에 따라 주의 집중된 특징(attended)들을 산출하는데, 먼저 시각 주의 집중부(311)가 주의 집중된 특징들을 산출하는 과정은 수학식 1과 같다.
Figure 112020087063763-pat00002
수학식 1에서
Figure 112020087063763-pat00003
는 파노라마 영상에서 ResNet을 거쳐 특징이 추출된 벡터이다. 이는 파노라마 영상을 가로 12개 세로 3개로 나누어 각 부분마다 특징 벡터를 갖는 형태이다.
Figure 112020087063763-pat00004
는 시각 특징 벡터에 적용할 주의 집중 가중치를 나타낸다.
Figure 112020087063763-pat00005
는 하나의 다층 신경망(Multi-Layer Perceptron)으로 계산을 위해 벡터의 크기를 조절하는 역할을 한다. 이때 주의 집중을 가하는 직전 상황에 대한 정보
Figure 112020087063763-pat00006
를 통해
Figure 112020087063763-pat00007
에 주의 집중을 가하게 된다.
다음으로, 지시 주의 집중부(312)가 주의 집중된 특징들을 산출하는 과정은 수학식 2와 같다.
Figure 112020087063763-pat00008
수학식 2에서
Figure 112020087063763-pat00009
는 임베딩된 지시 특징 벡터이다.
Figure 112020087063763-pat00010
는 지시 특징 벡터에 적용할 주의 집중 가중치를 나타낸다. 이때 주의 집중을 가하는 직전 상황 정보
Figure 112020087063763-pat00011
를 통해
Figure 112020087063763-pat00012
에 주의 집중을 가하게 된다.
이와 같이 주의 집중 과정을 거친 지시 특징
Figure 112020087063763-pat00013
, 시각 특징
Figure 112020087063763-pat00014
은 직전에 수행한 에이전트의 행동 정보와 함께 통합되어 멀티 모달 특징 정렬부(320)로 입력된다. 멀티 모달 특징 정렬부(320)는 주의 집중된 특징들과 에이전트의 직전 행동 정보를 입력받아 순환신경망을 통해 시각 정보와 지시 정보의 정렬에 대한 정보를 함축하고 있는 멀티 모달 특징 벡터
Figure 112020087063763-pat00015
를 생성한다.
행동 결정부(400)는 입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는데, 멀티 모달 특징
Figure 112020087063763-pat00016
에 기초하여 에이전트의 현 상황 정보인 맥락 특징을 추출한 후에 그 추출된 맥락 특징을 토대로 행동을 결정한다. 먼저, 행동 결정부(400)는 멀티 모달 특징
Figure 112020087063763-pat00017
을 지시 특징과 함께 고려하여 수학식 3을 통해 맥락(상황) 정보를 담은 특징 벡터
Figure 112020087063763-pat00018
를 생성한다.
Figure 112020087063763-pat00019
다음으로, 행동 결정부(400)는 맥락 정보를 담은 특징 벡터
Figure 112020087063763-pat00020
를 토대로 에이전트가 현재 수행할 수 있는 행동들에 대한 확률 분포를 생성한 후에 그 생성된 확률 분포를 통해 에이전트가 실제 수행할 행동을 결정한다. 행동 확률 분포는 수학식 4를 통해 생성될 수 있다.
Figure 112020087063763-pat00021
수학식 4에서
Figure 112020087063763-pat00022
는 현재 수행 가능한 각 행동에 대한 확률 분포를 나타낸다. 따라서, 행동 결정부(400)는 현재 수행 가능한 행동들(
Figure 112020087063763-pat00023
) 중에서 가장 높은 평가치를 갖는 행동을 선택한다. 즉, 가장 높은 점수를 받은 행동을 에이전트가 현수행할 행동으로 결정하는 것이다. 이후, 학습 보상부(500)는 에이전트의 결정 행동 이행을 통해 변화된 에이전트의 상태마다 그 상태를 토대로 목적지까지의 정답 영역을 기준으로 지시 이행 적정 여부를 평가하기 위한 새로운 보상 함수에 기반하여 에이전트의 행동을 보상한다. 또한, 학습 보상부(500)는 새로운 보상 함수로 얻게 되는 보상에 따른 강화 학습을 통해 보상을 높이는 방향으로 에이전트가 학습되도록 함으로써, 결과적으로 에이전트는 지시를 잘 따른 다양한 정답 경로를 학습할 수 있게 된다.
이하에서는 상술한 시스템에 대해 보다 구체적으로 설명한다. 상술한 시스템에는 인코더-디코더(encoder) 기반의 VLN 에이전트 모델이 채용될 수 있다. VLN 에이전트 모델의 구조도는 도 3과 같다. VLN 에이전트는 환경으로부터 현재 위치에서 관측된 파노라마 영상
Figure 112020087063763-pat00024
와 이동 가능한 방향 정보
Figure 112020087063763-pat00025
,
Figure 112020087063763-pat00026
를 입력받고, 환경 외적으로는 지시(instruction)를 입력받는다. 파노라마 영상과 이동 가능한 방향 정보는 상태 인코더(state encoder)에 의해 하나의 연결된(concatenated) 특징 벡터
Figure 112020087063763-pat00027
로 변환된다. 특징 벡터
Figure 112020087063763-pat00028
는 수학식 5를 통해 계산된다.
Figure 112020087063763-pat00029
지시는 지시 인코딩(instruction encoding)에 의해 단어 임베딩(word embedding) 벡터
Figure 112020087063763-pat00030
로 변환된다. 여기서
Figure 112020087063763-pat00031
은 단어의 수를 의미한다.
Figure 112020087063763-pat00032
Figure 112020087063763-pat00033
는 시각-언어 정렬(vision-language alignment, VLA)에 의해 주의 집중 벡터
Figure 112020087063763-pat00034
Figure 112020087063763-pat00035
로 계산된다.
Figure 112020087063763-pat00036
는 주의 집중 벡터
Figure 112020087063763-pat00037
Figure 112020087063763-pat00038
를 연결(concatenation)한 값이다.
Figure 112020087063763-pat00039
는 에이전트가 매시간 단계(time step)마다 지시의 어느 부분을 따르고 있는지를 표현하는 벡터이다.
Figure 112020087063763-pat00040
는 LSTM(Long Short-Term Memory) 기반의 경로 인코딩(trajectory encoding)을 통해 생성된다. 가치 디코딩(value decoding)은
Figure 112020087063763-pat00041
로부터 상태 가치
Figure 112020087063763-pat00042
를 계산한다. 행위 디코딩(action decoding)은
Figure 112020087063763-pat00043
Figure 112020087063763-pat00044
로부터 행동
Figure 112020087063763-pat00045
를 계산한다.
한편, 본 모델에서는 행동을 수행한 후 변화된 에이전트의 상태를 토대로 지시를 잘 따르고 있는지 평가할 수 있는 새로운 보상 함수 RBA(Region Based Alignment)를 통해 보상을 행하고 그에 따라 강화 학습이 이루어지도록 하여 지시를 잘 따른 다양한 경로를 학습할 수 있게 한다. 새로운 보상 함수 RBA는 정답 경로를 기준으로 특정 거리
Figure 112020087063763-pat00046
m 내에서 목적 위치에 가까워지면 양의 보상(+1)을 받고 그렇지 않으면 음의 보상(-1)을 부여하는 것으로, 이를 수식으로 표현하면 수학식 6과 같다.
Figure 112020087063763-pat00047
수학식 6은 매 순간 변화된 상태에 따라 에이전트가 얻는 보상을 계산하는 과정을 나타낸다.
Figure 112020087063763-pat00048
는 t 순간에서 위치(position)를 의미하며,
Figure 112020087063763-pat00049
는 그 순간 위치에서의 보상(reward)을 의미한다. 첫 번째 조건식과 두 번째 조건식은 에이전트가 정지 행동을 수행하여 위치 변화가 없을 때 다익스트라 알고리즘(Dijkstra algorithm)을 이용하여 목적 위치와의 거리가 3m 이내인지 판단하는 식이다. 세 번째 조건식에서
Figure 112020087063763-pat00050
는 현재 위치
Figure 112020087063763-pat00051
가 정답 경로에서 특정 거리
Figure 112020087063763-pat00052
m 이내에 있으면 참(true)을 반환하며 그렇지 않으면 거짓(false)을 반환하는 함수로서 수학식 7과 같다.
Figure 112020087063763-pat00053
수학식 7에서 P는 정답 경로상의 모든 노드의 집합,
Figure 112020087063763-pat00054
는 정답 경로상의
Figure 112020087063763-pat00055
번째 노드,
Figure 112020087063763-pat00056
는 에이전트의 위치,
Figure 112020087063763-pat00057
Figure 112020087063763-pat00058
에서 선분
Figure 112020087063763-pat00059
에 내린 수선의 발을 의미한다. 따라서,
Figure 112020087063763-pat00060
Figure 112020087063763-pat00061
와의 거리가
Figure 112020087063763-pat00062
m 이내인
Figure 112020087063763-pat00063
또는
Figure 112020087063763-pat00064
가 존재하면 참을 반환한다. 예를 들어, 도 4의 (a)에서
Figure 112020087063763-pat00065
Figure 112020087063763-pat00066
와의 거리가
Figure 112020087063763-pat00067
m 이내이기 때문에 참이다. 나머지
Figure 112020087063763-pat00068
,
Figure 112020087063763-pat00069
,
Figure 112020087063763-pat00070
는 정답 경로의 모든 노드와의 거리가
Figure 112020087063763-pat00071
m 이내가 아니다. 하지만 도 4의 (b)에서와 같이
Figure 112020087063763-pat00072
에서 정답 경로상에 내린 수선의 발
Figure 112020087063763-pat00073
가 존재하고
Figure 112020087063763-pat00074
의 길이가
Figure 112020087063763-pat00075
m 이내이기 때문에 참이다. 한편,
Figure 112020087063763-pat00076
는 정답 경로상에 내린 수선의 발
Figure 112020087063763-pat00077
이 존재하지만
Figure 112020087063763-pat00078
의 길이가
Figure 112020087063763-pat00079
m보다 크기 때문에 결국 거짓이고
Figure 112020087063763-pat00080
는 정답 경로상에 내릴 수 있는 수선의 발이 존재하지 않기 때문에 결국 거짓이다.
수학식 6에서
Figure 112020087063763-pat00081
는 수학식 8와 같이 에이전트의 위치가 이전 위치보다 목적지에 더 가까워지면 참, 그렇지 않으면 거짓을 반환한다.
Figure 112020087063763-pat00082
이러한 보상 함수 RBA는 에이전트가 목적지와 가까워지도록 이동하게 할 뿐만 아니라, 정답 경로를 벗어나지 않으면서 이동할 수 있도록 한다. 또한, RBA는 하나의 지시에 하나의 정답 경로만 제시하는 기존 기술들과는 달리 하나의 지시에 여러 정답 경로를 제시해주는 정답 영역을 사용한다. 따라서, 정답 경로를 증강시켜 에이전트의 일반화 성능을 높일 수 있다.
한편, 본 시스템에는 낮은 데이터 효율성을 갖는 강화 학습의 문제와 데모 데이터에 편향될 수 있는 모방 학습의 문제를 상호 보완하기 위해 두 학습 방법을 결합한 새로운 학습 모델 CIR(Combining Imitation learning and Reinforcement learnin)이 구성될 수 있으며, 예를 들어 학습 보상부(500)에 RBA와 함께 구성된다. CIR의 학습 과정을 나타내는 의사 코드(pseudo code)는 표 1과 같다.
Figure 112020087063763-pat00083
표 1에서 1번 줄은 정책 매개변수
Figure 112020087063763-pat00084
를 무작위로 초기화한다. 2-8번 줄은 모방 학습과 강화 학습을 동시에 진행하는 학습 반복(iterations) 과정을 나타낸다. 3-5번 줄은 모방 학습 손실
Figure 112020087063763-pat00085
을 계산한다.
Figure 112020087063763-pat00086
은 수학식 9와 같이 매시간 단계마다 교차 엔트로피 손실(cross entropy loss)을 계산하고 이를 합하여 얻어낸다.
Figure 112020087063763-pat00087
은 정책 네트워크
Figure 112020087063763-pat00088
가 최적 행동
Figure 112020087063763-pat00089
를 결정할 확률을 높이도록 학습을 유도한다.
Figure 112020087063763-pat00090
6-8번 줄은 강화 학습 손실
Figure 112020087063763-pat00091
을 계산한다.
Figure 112020087063763-pat00092
은 수학식 10과 같이 A2C(advantage actor-critic) 알고리즘을 기반으로 강화 학습 손실
Figure 112020087063763-pat00093
을 계산한다. 누적 보상
Figure 112020087063763-pat00094
는 매 스텝마다 RBA를 통해 얻어지는
Figure 112020087063763-pat00095
를 통해 계산되고 critic을 통해 예측된
Figure 112020087063763-pat00096
를 통해
Figure 112020087063763-pat00097
를 평가하게 된다. 참고로, 수학식 10에서
Figure 112020087063763-pat00098
는 우세 함수(advantage function)를 나타내며,
Figure 112020087063763-pat00099
는 다양한 행동을 결정할 수 있도록 장려하는 엔트로피 함수를 나타낸다.
Figure 112020087063763-pat00100
9번 줄은
Figure 112020087063763-pat00101
Figure 112020087063763-pat00102
을 더하여 혼합 손실
Figure 112020087063763-pat00103
를 계산한다. 한편,
Figure 112020087063763-pat00104
보다
Figure 112020087063763-pat00105
의 값이 훨씬 크기 때문에 학습의 불균형이 발생한다. 이를 위해 CIR은
Figure 112020087063763-pat00106
을 통해서
Figure 112020087063763-pat00107
을 정규화한다. 마지막 10번 줄은
Figure 112020087063763-pat00108
를 토대로
Figure 112020087063763-pat00109
를 갱신한다.
이상의 학습 방법 CIR은 낮은 데이터 효율성의 갖는 강화 학습과 데모 데이터에 편향될 수 있는 모방 학습의 문제를 상호 보완할 수 있으며,
Figure 112020087063763-pat00110
정규화를 통해 모방 학습과 강화 학습의 불균형 문제를 해결할 수 있다.
이하에서는 본 모델에 대한 구현 및 실험 결과에 대해 서술한다. R2R 데이터 집합을 이용하여 본 모델의 성능을 분석하기 위한 실험을 수행한다. 이를 위해 본 모델은 Python 3.7, Pytorch 1.2.0 라이브러리를 이용하여 구현하였다. 한편, 모델 학습과 실험에 사용된 R2R 데이터 집합은 Matterport3D 가상 환경의 시작 위치에서 목적 위치로 가는 최단 경로와 이를 설명하는 세 가지의 자연어 지시들의 집합으로 구성되어 있다. R2R 데이터 집합에서 학습 데이터(seen training data)는 14,025개, 학습 검증 데이터(seen validation data)는 1,020개, 비-학습 검증 데이터(unseen validation data)는 2,349개, 비-학습 테스트 데이터(unseen test data)는 2,349개의 지시로 각각 구성된다. 입력 영상으로부터 시각 특징 추출을 위해서는 미리 학습된 ResNet-152 모델을 이용하였다. 모델 학습을 위해 엔트로피 함수의 반영 비율
Figure 112020087063763-pat00111
는 0.01로, 모방 학습과 강화 학습의 손실을 정규화하기 위한
Figure 112020087063763-pat00112
는 0.05로, 학습률(learning rate)
Figure 112020087063763-pat00113
는 0.0001로 각각 설정하였다.
본 모델에서 채택한 RBA 보상 함수의 효과를 분석하고, 기존 모델들과의 비교를 통해 본 모델의 우수성을 입증하기 위한 실험을 수행하였다. 실험에 사용된 성능 평가 척도는 SC(Success rate)와 SPL(Success rate weighted by Path Length)이다. SC는 VLN 에이전트의 작업 성공률을 나타낸다. VLN 작업은 에이전트의 마지막 위치가 목적지와의 거리가 3m 이내일 때 성공으로 간주한다. 반면, SPL은 정답 경로 길이를 에이전트가 실제 이동한 경로 길이로 나눈 값이다. 따라서 VLN 에이전트가 실제 이동한 경로가 짧을수록 높은 SPL 점수를 받을 수 있다.
본 모델에서 채택한 보상 함수의 효과를 분석하기 위한 비교 실험에 대해 서술한다. 이 실험에서는 목적지까지의 거리 변화만을 고려한 보상 함수 DBA(Destination Based Alignment), 에이전트가 진행해온 경로와 정답 경로와의 유사도 변화를 DTW(Dynamic Time Warping) 알고리즘으로 계산하는 보상 함수 SBA(Similarity Based Alignment), 그리고 본 모델에서 제안된 보상 함수 RBA에 따른 VLN 작업 성능을 비교하였다. RBA의 임계 거리
Figure 112020087063763-pat00114
는 1m로 설정하였다. 이 실험을 위해 매시간 단계마다 에이전트에게 즉각적인 보상이 부여되는 밀집 보상(dense reward) 방식과 순수 강화 학습만을 이용해 학습하였고 학습 반복 횟수는 8만 번으로 설정하였다.
Figure 112020087063763-pat00115
이 실험의 결과는 표 2와 같다. RBA와 SBA가 각각 학습 데이터(seen)와 비-학습 데이터(unseen)에서 높은 성능을 보였고, DBA는 좋지 못한 성능을 보였다. DBA는 에이전트의 위치와 목적 위치와의 차이만을 고려하였기 때문에, 지시를 따르지 않는 잘못된 경로를 학습하게 되는 문제점이 있다. SBA와 RBA는 보상 함수의 설계는 다르지만 정답 경로와 유사한 경로를 학습하려는 같은 목적을 갖는 보상 함수이다. 그러나 SBA는 에이전트가 지나온 이전 경로의 길이가 길수록 계산량이 커지는 문제가 존재하는 반면에, RBA는 비교적 적은 계산량으로도 에이전트가 최적 경로를 따라 목적지에 가까워지는 방향으로 이동할 수 있도록 한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 입력 처리부 200 : 특징 추출부
210 : 시각 특징 추출부 220 : 지시 특징 추출부
300 : 시각-언어 정렬부 310 : 주의 집중부
311 : 시각 주의 집중부 312 : 지시 주의 집중부
320 : 멀티 모달 특징 정렬부 400 : 행동 결정부
500 : 학습 보상부

Claims (6)

  1. 실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리부; 및
    입력 처리부에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정부; 및
    에이전트의 결정 행동 이행에 따라 변화된 상태마다 그 상태를 토대로 목적지까지의 정답 영역을 기준으로 지시 이행 적정 여부를 평가하기 위한 보상 함수를 통해 에이전트가 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상부;를 포함하되,
    학습 보상부는 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리 내이면서 결정 행동 이행 전의 정지 위치보다 목적지에 가까워지면 양의 보상을 부여하고 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리를 벗어나거나 결정 행동 이행 전의 정지 위치보다 목적지에서 멀어지면 음의 보상을 부여하도록 하는 보상 함수를 통해 보상하는 에이전트 학습 보상 시스템.
  2. 제 1 항에 있어서, 입력 처리부는 :
    초기 입력된 자연어 지시를 인코딩하여 특징을 추출하는 지시 특징 추출부와, 입력 영상인 파노라마 영상에 대해 합성곱 신경망 알고리즘을 이용하여 시각 특징을 추출하는 시각 특징 추출부를 포함하는 특징 추출부; 및
    특징 추출부에 의해 추출된 특징마다 소프트 어텐션(soft-attention) 기법을 통해 주의 집중된 특징을 생성하되 에이전트의 직전 상황 정보가 반영되어 결정된 가중치를 적용하여 주의 집중된 특징을 생성하는 주의 집중부와, 주의 집중된 특징들을 입력받아 순환신경망을 이용하여 멀티 모달 특징을 생성하는 멀티 모달 특징 정렬부를 포함하는 시각-언어 정렬부;
    를 포함하는 에이전트 학습 보상 시스템.
  3. 제 2 항에 있어서,
    행동 결정부는 멀티 모달 특징에 기초하여 에이전트의 현 상황 정보인 맥락 특징을 추출하며, 추출된 맥락 특징을 토대로 행동을 결정하는 에이전트 학습 보상 시스템.
  4. 실시간 영상과 자연어 지시를 입력받아 처리하는 입력 처리 단계;
    입력 처리 단계에 의해 처리된 정보들에 기반하여 삼차원 실내 공간에서 에이전트의 목적지 도달을 위한 자율 이동 행동을 결정하는 행동 결정 단계; 및
    에이전트의 결정 행동 이행에 따라 변화된 상태마다 그 상태를 토대로 목적지까지의 정답 영역을 기준으로 지시 이행 적정 여부를 평가하기 위한 보상 함수를 통해 에이전트가 에이전트가 정답 경로를 유지하는지 여부를 판별하여 보상하는 학습 보상 단계;를 포함하되,
    학습 보상 단계는 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리 내이면서 결정 행동 이행 전의 정지 위치보다 목적지에 가까워지면 양의 보상을 부여하고 에이전트의 결정 행동 이행을 통해 변화된 정지 위치가 정답 경로로부터 특정 거리를 벗어나거나 결정 행동 이행 전의 정지 위치보다 목적지에서 멀어지면 음의 보상을 부여하도록 하는 보상 함수를 통해 보상하는 에이전트 학습 보상 방법.
  5. 삭제
  6. 삭제
KR1020200103967A 2020-08-19 2020-08-19 에이전트 학습 보상 시스템 KR102430442B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200103967A KR102430442B1 (ko) 2020-08-19 2020-08-19 에이전트 학습 보상 시스템
PCT/KR2021/006633 WO2022039351A1 (ko) 2020-08-19 2021-05-28 에이전트 학습 보상 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200103967A KR102430442B1 (ko) 2020-08-19 2020-08-19 에이전트 학습 보상 시스템

Publications (2)

Publication Number Publication Date
KR20220022700A KR20220022700A (ko) 2022-02-28
KR102430442B1 true KR102430442B1 (ko) 2022-08-09

Family

ID=80322918

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200103967A KR102430442B1 (ko) 2020-08-19 2020-08-19 에이전트 학습 보상 시스템

Country Status (2)

Country Link
KR (1) KR102430442B1 (ko)
WO (1) WO2022039351A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956212A (zh) * 2023-06-27 2023-10-27 四川九洲视讯科技有限责任公司 一种多源视觉信息特征识别与提取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200103911A1 (en) * 2018-09-27 2020-04-02 Salesforce.Com, Inc. Self-Aware Visual-Textual Co-Grounded Navigation Agent

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101647061B1 (ko) * 2014-04-02 2016-08-10 서강대학교산학협력단 무인자율주행 차량의 주행경로 생성방법 및 장치
JP2017107276A (ja) * 2015-12-07 2017-06-15 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム
KR102241404B1 (ko) 2017-02-09 2021-04-16 구글 엘엘씨 시각 입력을 이용한 에이전트 네비게이션
KR20200001246A (ko) * 2018-06-26 2020-01-06 경기대학교 산학협력단 심층 신경망을 이용한 캡션 생성 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200103911A1 (en) * 2018-09-27 2020-04-02 Salesforce.Com, Inc. Self-Aware Visual-Textual Co-Grounded Navigation Agent

Also Published As

Publication number Publication date
KR20220022700A (ko) 2022-02-28
WO2022039351A1 (ko) 2022-02-24

Similar Documents

Publication Publication Date Title
Nguyen et al. Help, anna! visual navigation with natural multimodal assistance via retrospective curiosity-encouraging imitation learning
Sadeghian et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints
EP3814865B1 (en) Self-aware visual-textual co-grounded navigation agent
Lazaridou et al. Emergence of linguistic communication from referential games with symbolic and pixel input
Suhr et al. Executing instructions in situated collaborative interactions
KR102449842B1 (ko) 언어 모델 학습 방법 및 이를 사용하는 장치
Wu et al. Self-supervised dialogue learning
KR20180065498A (ko) 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법
CN114047764B (zh) 路径规划模型的训练方法和路径规划方法、装置
KR102430442B1 (ko) 에이전트 학습 보상 시스템
CN115186147B (zh) 对话内容的生成方法及装置、存储介质、终端
Krantz et al. Sim-2-sim transfer for vision-and-language navigation in continuous environments
CN115661842A (zh) 一种基于动态自适应推理的指称目标检测定位方法
Mahsuli et al. English to Persian transliteration using attention-based approach in deep learning
Luo et al. I4R: Promoting Deep Reinforcement Learning by the Indicator for Expressive Representations.
CN113670310B (zh) 视觉语音导航方法、装置、设备及存储介质
KR20210054355A (ko) 시각 및 언어 기반 공간 탐색 시스템
CN112560507A (zh) 用户模拟器构建方法、装置、电子设备及存储介质
KR20210074713A (ko) 양방향 언어 모델을 이용한 문장 평가 방법 및 장치
KR20220160391A (ko) Rnn 기반 멀티에이전트 심층강화학습을 활용한 충돌없는 경로 생성 방법
CN116772886B (zh) 虚拟场景中虚拟角色的导航方法、装置、设备及存储介质
Mandai et al. Alternative multitask training for evaluation functions in game of Go
CN114970714B (zh) 一种考虑移动目标不确定行为方式的轨迹预测方法及系统
CN116011505B (zh) 基于特征对比的多模块动态模型训练方法、装置
CN118083808B (zh) 一种面向天车系统的动态路径规划方法和装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant