KR102266620B1 - 로봇 물체 조작 학습 시스템 - Google Patents

로봇 물체 조작 학습 시스템 Download PDF

Info

Publication number
KR102266620B1
KR102266620B1 KR1020190159196A KR20190159196A KR102266620B1 KR 102266620 B1 KR102266620 B1 KR 102266620B1 KR 1020190159196 A KR1020190159196 A KR 1020190159196A KR 20190159196 A KR20190159196 A KR 20190159196A KR 102266620 B1 KR102266620 B1 KR 102266620B1
Authority
KR
South Korea
Prior art keywords
data
robot
learning
object manipulation
state
Prior art date
Application number
KR1020190159196A
Other languages
English (en)
Other versions
KR20210069410A (ko
Inventor
김인철
정은진
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Priority to KR1020190159196A priority Critical patent/KR102266620B1/ko
Publication of KR20210069410A publication Critical patent/KR20210069410A/ko
Application granted granted Critical
Publication of KR102266620B1 publication Critical patent/KR102266620B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/029Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • G06N3/0427

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

로봇 물체 조작 학습 시스템이 개시된다. 이 시스템은 로봇에 주어지는 상태마다 생성자 네트워크(generator network)를 기반으로 로봇의 물체 조작을 위한 로봇 행동 데이터를 생성하는 데이터 생성부, 로봇에 주어지는 상태마다 로봇의 물체 조작을 위한 전문가 데모 데이터를 선택하는 데이터 선택부, 및 로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터에 대해 데이터 선택부에 의해 선택된 전문가 데모 데이터들을 이용한 판별자 네트워크(discriminator network)를 기반으로 최적의 행동 정책인지를 판별하는 데이터 판별부를 포함한다.

Description

로봇 물체 조작 학습 시스템{Learning system for robotic object manipulation}
본 발명은 로봇의 물체 조작에 관한 것으로, 특히 로봇의 물체 조작 작업을 위한 지시을 학습하는 기술에 관한 것이다.
로봇 행위 학습 분야에는 강화 학습(reinforcement learning) 기술들이 주로 많이 적용되어 왔다. 하지만 이들 대부분이 저차원(low-dimension)의 이산 상태-동작 공간(discrete state-action space)을 가정함으로써, 실제 로봇의 자율 행위를 학습하는데 한계가 있다. 최근 들어서는 강력한 일반화 능력과 특징 학습 기능을 가진 심층 신경망(deep neural network)과 결합된 다양한 심층 강화 학습(deep reinforcement learning) 알고리즘들이 개발되어 영상이나 비디오와 같은 고차원(high-dimension)의 연속 입력 센서 데이터(continuous input sensory data)로부터 직접 행동 정책(policy)을 학습할 수 있는 수준까지 도달해 있다. 그러나 아직도 9-자유도(Degree of Freedom) 로봇 팔과 손을 이용한 물체 조작 작업 학습에는 여러가지 난관들이 존재하고 있다.
먼저, 다관절 로봇의 물체 조작 작업은 각 관절의 회전 모터(torque motor)의 회전력을 이용한 물리적인 행동 제어를 요구하기 때문에, 매우 높은 고차원의 연속 상태-행동 공간(continuous state-action space)을 갖는다. 또한 이러한 고차원의 연속 상태-행동 공간에서 최적의 행동 정책(optimal policy)을 학습하려면 대용량의 학습 데이터와 오랜 학습 시간을 필요로 한다. 하지만 로봇의 물리적인 특성상 시뮬레이션 환경이 아닌 실세계에서는 수많은 시행착오 경험을 통한 대용량의 학습 데이터의 확보는 사실상 불가능하다. 따라서, 로봇 조작 학습을 위해서는 데이터 효율성(data efficiency)이 매우 높은 학습 알고리즘이 요구되며, 대부분 실세계가 아닌 시뮬레이션 환경에서 오랜 시간 시행착오 경험을 통해 조작 지식을 학습한 후에 실세계 로봇에 지식을 전이(knowledge transfer)하는 방식을 이용한다.
이와 같이 심층 강화 학습 기술은 로봇 스스로 시행착오 경험을 통해 필요한 조작 지식을 학습할 수 있다는 장점은 있다. 그러나 대부분 데이터의 효율성이 낮아 의미 있는 조작 작업 지식을 습득하기까지 너무 오랜 학습 시간을 요구한다는 단점이 있다.
국내등록특허공보 제10-2023149호 (2019년 11월 22일 공고)
본 발명은 로봇의 물체 조작 행위들을 효율적으로 학습할 수 있게 하는 기술적 방안을 제공함을 목적으로 한다.
일 양상에 따른 로봇 물체 조작 학습 시스템은 로봇에 주어지는 상태마다 생성자 네트워크(generator network)를 기반으로 로봇의 물체 조작을 위한 로봇 행동 데이터를 생성하는 데이터 생성부, 로봇에 주어지는 상태마다 로봇의 물체 조작을 위한 전문가 데모 데이터를 선택하는 데이터 선택부, 및 로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터에 대해 데이터 선택부에 의해 선택된 전문가 데모 데이터들을 이용한 판별자 네트워크(discriminator network)를 기반으로 최적의 행동 정책인지를 판별하는 데이터 판별부를 포함할 수 있다.
로봇 물체 조작 학습 시스템은 GAIL(Generative Adversarial Imitation Learning) 학습 체계를 토대로 한 것일 수 있다.
데이터 선택부는 복수의 전문가 데모 데이터를 상태 기준으로 군집화하는 데이터 군집부, 및 로봇에 주어지는 상태마다 군집들과 비교하여 유사 군집을 선택하고 그 선택된 유사 군집에서 전문가 데모 데이터를 선택하는 유사 상태 선택부를 포함할 수 있다.
데이터 선택부는 k-평균 군집화 알고리즘을 이용할 수 있다.
데이터 판별부는 로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터에 대해 판별자 네트워크를 통해 최적의 행동 정책인지를 판별하기 위한 판별 점수를 산출하는 최적 행동 판별부, 및 산출된 판별 점수를 이용하여 모방 보상 함수를 생성하는 모방 보상 생성부를 포함할 수 있다.
데이터 판별부는 로봇에 주어지는 상태마다 데이터 생성부에 의해 생성된 로봇 행동 데이터와 데이터 선택부에 의해 선택된 전문가 데모 데이터를 가지고 판별자 네트워크를 학습시킬 수 있다.
데이터 생성부는 모방 보상 함수와 로봇의 물체 조작 작업 완성도에 따라 결정되는 작업 보상 함수를 결합하여 복합 보상 함수를 생성하는 복합 보상 생성부, 및 복합 보상 함수를 반영하여 생성자 네트워크를 학습시키는 생성자 학습부를 포함할 수 있다.
생성자 학습부는 근위 정책 최적화(Proximal Policy Optimization) 알고리즘을 이용하여 생성자 네트워크를 학습시킬 수 있다.
한편, 일 양상에 따른 GAIL(Generative Adversarial Imitation Learning) 학습 체계를 토대로 한 로봇 물체 조작 학습 방법은 로봇에 주어지는 상태마다 생성자 네트워크(generator network)를 기반으로 로봇의 물체 조작을 위한 로봇 행동 데이터를 생성하는 데이터 생성 단계, 로봇에 주어지는 상태마다 로봇의 물체 조작을 위한 전문가 데모 데이터를 선택하는 데이터 선택 단계, 및 로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터에 대해 데이터 선택 단계에서 선택된 전문가 데모 데이터들을 이용한 판별자 네트워크(discriminator network)를 기반으로 최적의 행동 정책인지를 판별하는 데이터 판별 단계를 포함할 수 있다.
본 발명에 따르면, 전문가의 데모 데이터를 활용해 보다 효율적으로 물체 조작 행위들의 학습이 가능해진다. 구체적으로, 본 발명은 GAIL(Generative Adversarial Imitation Learning)을 토대로 PPO(Proximal Policy Optimization) 기반 강화 학습 단계의 도입, 보상 함수의 확장, 상태 유사도 기반 데모 선택 전략의 채용을 통해 물체 조작 행위들의 학습 효율을 향상시키는 효과를 창출한다.
도 1은 다관절 로봇의 물체 조작 작업들을 예시한 도면이다.
도 2는 일 실시예에 따른 로봇 물체 조작 학습 시스템 블록도이다.
도 3은 일 실시예에 따른 PPO 기반의 생성적 적대 모방 학습 프레임워크 구조도이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
일 양상에 따른 로봇 물체 조작 학습 시스템은 GAIL(Generative Adversarial Imitation Learning) 학습 체계를 토대로 로봇의 물체 조작을 학습한다. GAIL 학습 체계는 서로 적대 관계를 이루는 생성자 네트워크(generator network)와 판별자 네트워크(discriminator network)를 포함한다. 생성자 네트워크, 즉 정책 네트워크는 보상을 최대로 높일 수 있도록 행동을 결정하는데 반해, 판별자 네트워크는 생성자가 결정한 행동이 전문가 데모와 얼마나 일치하는지를 판별한다. 이 같은 GAIL은 소량의 사람 전문가 데모 데이터를 토대로 로봇(학습 에이전트) 스스로 일정한 정도의 시행착오 경험을 통해 자신의 고유한 행동 정책을 학습할 수 있는 특징이 있다. 따라서, GAIL은 행위 복제와는 달리 대용량의 데모 데이터 집합을 요구하지 않음으로써 비교적 높은 데이터 효율성을 보이며, 역 강화 학습과는 달리 비용 함수의 역 추정을 위한 높은 계산 비용도 요구하지 않는다는 장점이 있다. 한편, 물체 조작을 학습하는 로봇은 다관절 팔을 갖는 것으로, 예를 들어 9-자유도를 갖는 다관절 팔을 갖는다. 도 1에 예시된 바와 같이, 로봇은 물체 pick up, pick and place, stack 등 다양한 물체 조작 작업들을 학습한다.
도 2는 일 실시예에 따른 로봇 물체 조작 학습 시스템 블록도이다. 도 2에 도시된 바와 같이, 로봇 물체 조작 학습 시스템은 데이터 생성부(100)와 데이터 선택부(200) 및 데이터 판별부(300)를 포함한다. 이들은 모두 소프트웨어적으로 구현 가능하며, 로봇(학습자 에이전트)에 마련된 하나 이상의 프로세서에 의해 실행되어 해당 프로세스를 수행할 수 있다. 데이터 생성부(100)는 로봇의 환경에서 주어진 상태에 대한 로봇 행동 데이터(행동 정책)를 생성하는데, 구체적으로 각 관절의 위치와 목표 물체의 위치 등을 포함하는 상태가 입력으로 주어지면 인공 신경망 모델인 생성자 네트워크(generator network)을 기반으로 로봇의 물체 조작을 위한 행동 정책인 로봇 행동 데이터(로봇 상태-행동 쌍 데이터)를 생성한다. 즉, 데이터 생성부(100)는 매번 입력으로 주어지는 상태마다 그에 적합한 행동 시퀀스(action sequence)를 생성하는 것이다. 데이터 선택부(200)는 상태가 입력으로 주어지면 미리 확보된 복수의 전문가 데모 데이터(전문가 상태-행동 쌍 데이터) 중에서 그와 유사한 전문가 데모 데이터를 선택한다. 즉, 데이터 선택부(200)는 매번 입력으로 주어지는 상태마다 그와 유사한 상태를 갖는 전문가 데모 데이터를 선택하는 것이다.
데이터 판별부(300)는 로봇의 현재 상태에서 물체 조작을 위해 데이터 생성부(100)에 의해 생성된 로봇 행동 데이터(A)에 대해 인공 신경망 기반의 회귀 모델인 판별자 네트워크(discriminator network)를 기반으로 최적의 행동 정책인지를 판별한다. 즉, 데이터 판별부(300)는 데이터 생성부(100)로부터 로봇의 현재 상태에 대한 로봇 행동 데이터(A)가 입력되면 판별자 네트워크를 통해 전문가 데모 데이터와 얼마나 유사한지를 판별한다. 이때, 판별자 네트워크는 사전에 데이터 선택부(200)에 의해 선택된 전문가 데모 데이터들을 가지고 로봇 행동 데이터(A)에 대한 판별을 수행한다.
도 2에 도시된 바와 같이, 데이터 선택부(200)는 데이터 군집부(210)와 유사 상태 선택부(220)를 포함할 수 있다. 데이터 군집부(210)는 사전에 입력으로 주어지는 복수의 전문가 데모 데이터에 대해 상태를 기준으로 군집화한다. 즉, 데이터 군집부(210)는 소정의 군집화 알고리즘을 이용하여 복수의 전문가 데모 데이터를 상태에 따라 군집화한다. 일 실시예에 있어서, 데이터 군집부(210)는 k-평균 군집화 알고리즘을 이용하여 상태를 기준으로 전문가 데모 데이터들을 군집화한다. 즉, 유사 상태별로 전문가 데모 데이터들을 군집화하는 것이다. 유사 상태 선택부(220)는 입력으로 주어지는 로봇의 상태에 해당되는 군집을 선택한 뒤에 그 군집에서 전문가 데모 데이터를 선택한다. 일 실시예에 있어서, 유사 상태 선택부(220)는 k-평균 군집화 알고리즘을 통해 로봇의 상태에 해당되는 군집을 선택하는데, 이 경우 각 군집의 중심값과의 거리만을 비교하기 때문에 계산량을 대폭 감소시킬 수 있다. 그 다음 선택된 군집에서 하나 이상의 전문가 데모 데이터를 선택하는데, 무작위로 선택할 수 있다.
데이터 판별부(300)는 최적 행동 판별부(310)와 모방 보상 생성부(320) 및 판별자 학습부(330) 중에서 적어도 일부를 포함할 수 있다. 최적 행동 판별부(310)는 로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터(A)에 대해 판별자 네트워크를 통해 최적의 행동 정책인지를 판별하기 위한 판별 점수를 산출한다. 즉, 로봇 행동 데이터(A)가 데이터 선택부(200)에 의해 선택된 모든 전문가 데모 데이터들 중에서 가장 상관도가 높은 전문가 데모 데이터와 얼마나 일치하는지를 나타내는 판별 점수를 산출한다. 모방 보상 생성부(320)는 산출된 판별 점수를 이용하여 모방 보상 함수를 생성한다.
판별자 학습부(330)는 로봇의 상태들에 대해 데이터 생성부(100)에 의해 생성된 로봇 행동 데이터들과 과 데이터 선택부(200)에 의해 선택된 전문가 데모 데이터들을 가지고 판별자 네트워크를 학습시키는데, 각각의 로봇 행동 데이터에는 ‘0’이라는 정답을 지정하고 각각의 로봇 행동 데이터에는 ‘1’이라는 정답을 지정한 뒤 학습시켜 판별자 네트워크가 로봇 행동 데이터와 전문가 데모 데이터를 구별할 수 있도록 한다. 즉, 판별자 학습부(330)는 데이터 생성부(100)에서 로봇 행동 데이터들과 데이터 선택부(200)에서 선택된 전문가 데모 데이터들에 대해 각각 0과 1로 라벨링을 하여 얻어지는 손실값(loss)을 통해 판별자 네트워크를 학습시킨다. 판별자 네트워크의 학습 자체는 잘 알려진 바와 같다.
데이터 생성부(100)는 복합 보상 생성부(110)와 생성자 학습부(120)를 포함할 수 있다. 복합 보상 생성부(110)는 모방 보상 생성부(320)의 출력인 모방 보상 함수와 로봇의 물체 조작 작업 완성도에 따라 결정되는 작업 보상 함수를 결합하여 복합 보상 함수를 생성한다. 그리고 생성자 학습부(120)는 복합 보상 함수를 기반으로 생성자 네트워크를 학습시켜 생성자 네트워크로 하여금 최적의 행동 정책을 생성할 수 있도록 한다. 일 실시예에 있어서, 생성자 학습부(120)는 복합 보상 함수를 기반으로 근위 정책 최적화(Proximal Policy Optimization, PPO) 알고리즘을 이용하여 생성자 네트워크를 학습시킨다.
이하에서는 본 시스템의 로봇 물체 조작 학습 방법에 대해 보다 구체적으로 설명한다. 본 시스템은 사람 전문가의 데모 데이터를 활용해 보다 효율적으로 물체 조작 작업들을 학습할 수 있는 모방 학습과 강화 학습의 통합 프레임워크를 갖는다. 이 통합 프레임워크는 학습의 효율성을 향상시기키 위해 GAIL 학습 체계를 토대로 한 ① PPO 기반의 생성적 적대 모방 학습, ② 보상 함수 확장, ③ 상태 유사도 기반 데모 선택(State Similarity-based Sampling, SSS) 전략 중에서 적어도 일부 특징을 포함한다. 이하에서는 각각에 대해 구체적으로 설명한다.
① PPO 기반의 생성적 적대 모방 학습
GAIL은 전문가의 데모 데이터를 효과적으로 활용함으로써, 강화 학습이 탐사해야 할 넓은 상태-행동 공간을 줄이고 최적 행동 정책을 효율적으로 학습할 수 있는 일종의 혼합 학습 체계(hybrid learning system)이다. 이 학습 체계에서는 사람 전문가의 데모가
Figure 112019124968936-pat00001
와 같이 상태-행동 쌍들로 주어진다고 가정할 때, 이들을 효과적으로 활용하여 최적의 행동 정책
Figure 112019124968936-pat00002
을 효율적으로 학습하는 것이 목표이다. GAIL 학습 체계에서는 두 개의 적대 관계 네트워크를 포함하는데, 하나는 행동을 결정하는 생성자 네트워크
Figure 112019124968936-pat00003
이고, 다른 하나는 데모 데이터와의 일치도를 판별하는 판별자 네트워크
Figure 112019124968936-pat00004
이다. 이 두 네트워크의 학습에는 수학식 1과 같은 최소-최대 목적 함수(min-max objective function)를 이용한다.
Figure 112019124968936-pat00005
수학식 1에서
Figure 112019124968936-pat00006
는 데모 경로들을 생성해놓은 전문가 정책(expert policy)을 나타낸다. GAIL의 학습 과정 동안에는 매번의 에피소드마다 판별자 네트워크의 파라미터를 갱신하는 단계와 TRPO(Trust Region Optimization Policy) 알고리즘에 따라 생성자 네트워크의 파라미터를 갱신하는 단계를 교대로 수행한다.
Figure 112019124968936-pat00007
한편, TRPO 강화 학습 알고리즘은 수학식 2와 같이 현재 정책과 새로운 정책 간의 확률 비(probability ratio)
Figure 112019124968936-pat00008
에 우세 함수(advantage function)의 추정값
Figure 112019124968936-pat00009
을 곱하여 목적함수로 사용한다. 또 매개변수의 갱신량에 쿨백-레이블러 발산(Kullback-Leibler divergence, KL)값
Figure 112019124968936-pat00010
로 제약을 부과하여 기존 정책 기울기 알고리즘들이 매개변수 미세변화에 따른 높은 변량(high variance) 문제를 해결한다. 그러나 TRPO는 구현의 어려움, KL 분산값의 높은 계산량 등의 문제가 존재한다. 이를 해결하기 위해, 본 시스템에서는 PPO 알고리즘을 채택한다. PPO는 TRPO의 KL 분산값의 계산을 없애고 수학식 3과 같이 목적 함수를 클리핑시킴으로써, 목적 함수에 일정한 제약을 부과한다.
Figure 112019124968936-pat00011
PPO는 KL 분산값을 통해 제약을 하는 대신 확률 비
Figure 112019124968936-pat00012
가 하이퍼 파라미터
Figure 112019124968936-pat00013
에 의해 정해진 범위
Figure 112019124968936-pat00014
안의 값을 갖도록 클리핑함으로써 TRPO의 높은 계산 복잡도 문제와 구현의 어려움을 해결하고 높은 성능을 보인다. 따라서, 본 시스템에서는 PPO 알고리즘을 채용하여 학습의 효율성을 향상시킨다.
도 3은 PPO 기반의 생성적 적대 모방 학습 프레임워크(PGAIL)를 나타낸다. 도 3에서 행동 정책을 나타내는 생성 네트워크의 파라미터들은 새로 채택한 PPO 알고리즘에 의해 매번 갱신된다. 또한 PPO 강화 학습 단계에 이용되는 보상 함수도 GAIL의 경우와는 달리 데모 데이터와의 일치도 뿐만 아니라 작업 수행에 따른 누적 보상도 반영될 수 있도록 확장된다. 그리고 데이터 선택부(200)는 GAIL의 임의 선택 전략에서 벗어나 에피소드별로 로봇의 작업 상태와 유사한 로봇의 데모 데이터를 골라 효과적으로 활용하는 상태 유사도 기반의 데모 선택 전략을 채택한다.
② 보상 함수 확장
보상 함수는 넓은 상태-행동 공간에서 탐사를 유도하는 강화 학습의 매우 중요한 요소이다. GAIL 학습 체계에서는 행동 정책을 나타내는 생산자 네트워크를 학습할 때 수학식 4에 정의된 보상 함수
Figure 112019124968936-pat00015
를 이용한다. 이 보상 함수는 판별자 네트워크의 출력인 데모 데이터와의 일치도
Figure 112019124968936-pat00016
에만 의존하여 보상을 결정한다.
Figure 112019124968936-pat00017
본 시스템에 따른 통합 학습 프레임워크에서는 GAIL에서 적용한 보상 함수를 확장하여 수학식 5와 같은 새로운 보상 함수
Figure 112019124968936-pat00018
를 채택한다.
Figure 112019124968936-pat00019
새로운 보상 함수
Figure 112019124968936-pat00020
에는 데모 데이터와의 일치도를 반영하는 모방 보상
Figure 112019124968936-pat00021
외에 작업 보상
Figure 112019124968936-pat00022
이 새로 추가된다. 그리고
Figure 112019124968936-pat00023
는 두 보상 값의 규모를 맞추기 위한 상수로 임의의 값(예를 들어, 0.5)으로 설정 가능하다. 작업 보상은 데모 데이터와의 일치도와는 무관하게, 수행하고자 하는 작업의 완성도에 따라 결정되는 보상을 의미한다. 이러한 작업 보상은 일반적으로 순수 강화 학습에서 주로 채용하는 보상들과 같은 것으로 해석할 수 있다. 예컨대, 로봇 손을 물체에 접근하기 위한 reach 작업에서는 로봇 손이 물체에 근접한 정도에 따라 결정되는 보상이 작업 보상의 한 예가 될 수 있다.
모방 보상 외에 작업 보상 요소를 포함한 보상 함수
Figure 112019124968936-pat00024
는 학습을 전문가의 데모에 근접하도록 유도할 뿐만 아니라, 스스로 작업 성과를 높일 수 있는 방향으로도 유도할 수 있다. 이러한 두 보상 요소의 보완적 기능은 전문가 데모에 오류가 있거나 품질이 낮은 경우에 이러한 데모를 단순히 모방하기보다는 학습자인 로봇으로 하여금 스스로 전문가 데모를 뛰어넘는 양질의 행동 정책을 학습할 수 있게 한다.
③ 상태 유사도 기반 데모 선택(SSS) 전략
모방 학습에서는 현재 작업 상태에 도움을 줄 수 있는 전문가의 데모 데이터를 어떤 방식으로 선택하는지가 학습 성능에 큰 영향을 미친다. 그러나 GAIL 학습 체계에서는 현재 작업 상태와는 무관하게 전문가 데모 데이터를 무작위(random) 방식으로 선택하여 학습에 활용한다. 이러한 무작위 데모 선택 전략으로 인해 GAIL은 학습 성능과 확장성에 한계가 있다. 이에 도 3에서는 k-평균 군집화(k-means clustering)를 이용하여 현재 상태에 가장 유사한 데모 데이터들만을 선택해 활용하는 상태 유사도 기반의 데모 선택 전략(State Similarity-based Demo Sampling Strategy)을 구현한다. 상태 유사도 기반 데모 선택 전략은 판별자 네트워크의 학습 성능을 향상시킴으로써 궁극적으로 생성자 네트워크의 학습 성능을 향상시키고자 함이다. 상태 유사도 기반의 데모 선택 전략은 환경에서 학습자가 방문한 상태들과 유사한 데모 데이터들을 선택하는 데이터 선택 전략이다.
먼저, 전문가 데모 데이터를 사전에 군집의 개수 k만큼 군집화시켜 전문가 데모 데이터의 군집을 구한다. 그 후, 매 학습 주기마다 학습자가 방문한 상태들과 가상 유사한 군집들을 선택한 뒤 선택된 군집에 속한 전문가 데모 데이터를 무작위로 선택한다. 선택된 전문가 데모 데이터를 학습 데이터로 삼아 판별자 네트워크를 학습한다. 이러한 SSS는 학습자가 방문한 상태와 유사한 데모 데이터를 사용함으로써 학습자의 작업 수준과 유사한 데모 데이터에 집중하여 학습하기 때문에 판별자 네트워크의 학습 성능을 향상시킬 수 있다. 이에 따라, 학습 성능이 향상된 판별자 네트워크로부터 모방 보상을 제공 받는 생성자 네트워크의 성능 또한 향상시킬 수 있다. 뿐만 아니라, SSS는 학습자의 작업 환경, 데모 데이터에 대한 정보 등의 별도의 사전 지식 없이 데모 데이터를 군집화하여 데모 데이터를 선택한다는 점에서 높은 확장성을 가지며 매 학습 주기에 방문한 상태들과 유사한 군집들을 선택하기 때문에 비교적 매우 적은 계산량을 갖는다는 장점이 있다.
참고로, 도 3에서 판별 점수는 판별자 네트워크로 피드백되어 학습에 이용되며, 생성자 네트워크 측으로는 판별 점수가 아니라 판별 점수로부터 구해진 모방 보상
Figure 112019124968936-pat00025
이 피드백된다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 데이터 생성부 110 : 복합 보상 생성부
120 : 생성자 학습부 200 : 데이터 선택부
210 : 데이터 군집부 220 : 유사 상태 선택부
300 : 데이터 판별부 310 : 최적 행동 판별부
320 : 모방 보상 생성부 330 : 판별자 학습부

Claims (14)

  1. GAIL(Generative Adversarial Imitation Learning) 학습 체계를 토대로 하는 로봇 물체 조작 학습 시스템에 있어서,
    로봇에 주어지는 상태마다 생성자 네트워크(generator network)를 기반으로 로봇의 물체 조작을 위한 로봇 행동 데이터를 생성하는 데이터 생성부;
    로봇에 주어지는 상태마다 로봇의 물체 조작을 위한 전문가 데모 데이터를 선택하는 데이터 선택부; 및
    로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터에 대해 데이터 선택부에 의해 선택된 전문가 데모 데이터들을 이용한 판별자 네트워크(discriminator network)를 기반으로 최적의 행동 정책인지를 판별하는 데이터 판별부;를 포함하되,
    데이터 선택부는 복수의 전문가 데이터를 상태 기준으로 군집화하되 k-평균 군집화 알고리즘을 이용하여 군집화하는 데이터 군집부와, 로봇에 주어지는 상태마다 데이터 군집부에 의해 군집화된 군집들과 비교하여 유사 군집을 선택하고 그 선택된 유사 군집에서 전문가 데모 데이터를 무작위로 선택하는 유사 상태 선택부를 포함하고,
    데이터 판별부는 로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터에 대해 판별자 네트워크를 통해 최적의 행동 정책인지를 판별하기 위한 판별 점수를 산출하는 최적 행동 판별부와, 산출된 판별 점수를 이용하여 모방 보상 함수를 생성하는 모방 보상 생성부, 및 로봇에 주어지는 상태마다 데이터 생성부에 의해 생성된 로봇 행동 데이터와 데이터 선택부에 의해 선택된 전문가 데모 데이터를 가지고 판별자 네트워크를 학습시키는 판별자 학습부를 포함하며,
    데이터 생성부는 모방 보상 함수와 로봇의 물체 조작 작업 완성도에 따라 결정되는 작업 보상 함수를 결합하여 복합 보상 함수를 생성하는 복합 보상 생성부와, 복합 보상 함수를 반영하여 생성자 네트워크를 학습시키되 근위 정책 최적화(Proximal Policy Optimization) 알고리즘을 이용하여 생성자 네트워크를 학습시키는 생성자 학습부를 포함하는 로봇 물체 조작 학습 시스템.
  2. GAIL(Generative Adversarial Imitation Learning) 학습 체계를 토대로 하는 로봇 물체 조작 학습 방법에 있어서,
    로봇에 주어지는 상태마다 생성자 네트워크(generator network)를 기반으로 로봇의 물체 조작을 위한 로봇 행동 데이터를 생성하는 데이터 생성 단계;
    로봇에 주어지는 상태마다 로봇의 물체 조작을 위한 전문가 데모 데이터를 선택하는 데이터 선택 단계; 및
    로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터에 대해 데이터 선택 단계에서 선택된 전문가 데모 데이터들을 이용한 판별자 네트워크(discriminator network)를 기반으로 최적의 행동 정책인지를 판별하는 데이터 판별 단계;를 포함하되,
    데이터 선택 단계는 복수의 전문가 데이터를 상태 기준으로 군집화하되 k-평균 군집화 알고리즘을 이용하여 군집화하는 데이터 군집 단계와, 로봇에 주어지는 상태마다 군집들과 비교하여 유사 군집을 선택하고 그 선택된 유사 군집에서 전문가 데모 데이터를 무작위로 선택하는 유사 상태 선택 단계를 포함하고,
    데이터 판별 단계는 로봇의 현재 상태에서 물체 조작을 위해 생성된 로봇 행동 데이터에 대해 판별자 네트워크를 통해 최적의 행동 정책인지를 판별하기 위한 판별 점수를 산출하는 최적 상태 판별 단계와, 산출된 판별 점수를 이용하여 모방 보상 함수를 생성하는 모방 보상 생성 단계, 및 로봇에 주어지는 상태마다 데이터 생성 단계에서 생성된 로봇 행동 데이터와 데이터 선택 단계에서 선택된 전문가 데모 데이터를 가지고 판별자 네트워크를 학습시키는 판별자 학습 단계를 포함하며,
    데이터 생성 단계는 모방 보상 함수와 로봇의 물체 조작 작업 완성도에 따라 결정되는 작업 보상 함수를 결합하여 복합 보상 함수를 생성하는 복합 보상 생성 단계와, 복합 보상 함수를 반영하여 생성자 네트워크를 학습시키되 근위 정책 최적화(Proximal Policy Optimization) 알고리즘을 이용하여 생성자 네트워크를 학습시키는 생성자 학습 단계를 포함하는 로봇 물체 조작 학습 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
KR1020190159196A 2019-12-03 2019-12-03 로봇 물체 조작 학습 시스템 KR102266620B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190159196A KR102266620B1 (ko) 2019-12-03 2019-12-03 로봇 물체 조작 학습 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190159196A KR102266620B1 (ko) 2019-12-03 2019-12-03 로봇 물체 조작 학습 시스템

Publications (2)

Publication Number Publication Date
KR20210069410A KR20210069410A (ko) 2021-06-11
KR102266620B1 true KR102266620B1 (ko) 2021-06-18

Family

ID=76376710

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190159196A KR102266620B1 (ko) 2019-12-03 2019-12-03 로봇 물체 조작 학습 시스템

Country Status (1)

Country Link
KR (1) KR102266620B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102549744B1 (ko) * 2021-07-12 2023-06-29 숭실대학교 산학협력단 심층강화학습기반 자율주행차를 이용한 도로정보시스템에서의 도로 흐름 제어 방법, 이를 수행하기 위한 기록 매체 및 장치
US20230274168A1 (en) * 2022-02-28 2023-08-31 Advanced Micro Devices, Inc. Quantifying the human-likeness of artificially intelligent agents using statistical methods and techniques

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017151926A1 (en) 2016-03-03 2017-09-08 Google Inc. Deep machine learning methods and apparatus for robotic grasping

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yuke Zhu 외 10명, Reinforcement and Imitation Learning for Diverse Visuomotor Skills (2018.3.27.) 1부.*

Also Published As

Publication number Publication date
KR20210069410A (ko) 2021-06-11

Similar Documents

Publication Publication Date Title
Hanna et al. Grounded action transformation for robot learning in simulation
Ghadirzadeh et al. Deep predictive policy training using reinforcement learning
Wang et al. Robust imitation of diverse behaviors
Sharma et al. Third-person visual imitation learning via decoupled hierarchical controller
EP3480741A1 (en) Reinforcement and imitation learning for a task
Wu et al. Prioritized experience-based reinforcement learning with human guidance for autonomous driving
Wang et al. Decision making for autonomous driving via augmented adversarial inverse reinforcement learning
Xu et al. Bits: Bi-level imitation for traffic simulation
KR102266620B1 (ko) 로봇 물체 조작 학습 시스템
KR101912918B1 (ko) 학습 로봇, 그리고 이를 이용한 작업 솜씨 학습 방법
Celemin et al. Coach: Learning continuous actions from corrective advice communicated by humans
Cichosz et al. Imitation learning of car driving skills with decision trees and random forests
Jin et al. Robot eye-hand coordination learning by watching human demonstrations: a task function approximation approach
O’Dowd et al. The distributed co-evolution of an on-board simulator and controller for swarm robot behaviours
Hafez et al. Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space
Bongard Innocent until proven guilty: Reducing robot shaping from polynomial to linear time
Allen et al. Complex networks of simple neurons for bipedal locomotion
Ennen et al. Learning robust manipulation skills with guided policy search via generative motor reflexes
Samant et al. Adaptive learning of dynamic movement primitives through demonstration
Contardo et al. Learning states representations in pomdp
Jiang et al. Motion sequence learning for robot walking based on pose optimization
Guan et al. Review of the techniques used in motor‐cognitive human‐robot skill transfer
Gawali et al. Development of improved coyote optimization with deep neural network for intelligent skill knowledge transfer for human to robot interaction
Sharma et al. Ch-marl: A multimodal benchmark for cooperative, heterogeneous multi-agent reinforcement learning
Chen et al. C 2: Co-design of Robots via Concurrent-Network Coupling Online and Offline Reinforcement Learning

Legal Events

Date Code Title Description
GRNT Written decision to grant