KR20190088093A - 로봇을 위한 학습 방법 - Google Patents

로봇을 위한 학습 방법 Download PDF

Info

Publication number
KR20190088093A
KR20190088093A KR1020170183707A KR20170183707A KR20190088093A KR 20190088093 A KR20190088093 A KR 20190088093A KR 1020170183707 A KR1020170183707 A KR 1020170183707A KR 20170183707 A KR20170183707 A KR 20170183707A KR 20190088093 A KR20190088093 A KR 20190088093A
Authority
KR
South Korea
Prior art keywords
learning
robot
posture
target
result
Prior art date
Application number
KR1020170183707A
Other languages
English (en)
Inventor
서일홍
박영빈
박창만
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020170183707A priority Critical patent/KR20190088093A/ko
Publication of KR20190088093A publication Critical patent/KR20190088093A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Manipulator (AREA)

Abstract

로봇을 위한 심층 강화 학습 방법이 개시된다. 개시된 학습 방법은 로봇에서 촬영된 이미지 및 상기 로봇의 타겟 자세에 대한 평가 학습 결과에 기반하여, 상기 로봇의 현재 자세로부터 타겟 물체에 대한 상기 타겟 자세를 강화 학습하는 단계; 및 상기 이미지에 기반하여, 상기 타겟 자세를 강화 학습한 결과로부터 출력되는 상기 로봇의 행동에 대한 평가를 강화 학습하는 단계를 포함하며, 상기 타겟 자세를 학습하는 단계는 상기 이미지에 기반하여, 상기 타겟 물체의 위치에 대한 상기 로봇의 엔드 이펙터(end effector) 위치를 감독 학습한 결과를 이용하여, 상기 타겟 자세를 학습한다.

Description

로봇을 위한 학습 방법{LEARNING METHOD FOR ROBOT}
본 발명은 로봇을 위한 학습 방법에 관한 발명으로서, 더욱 상세하게는 로봇을 위한 심층 강화 학습(Deep Reinforcement Learning) 방법에 관한 것이다.
최근 알파고(AlphaGo)가 프로 바둑 기사에게 승리한 사건이 굉장한 이슈가 있다. 알파고는 구글이 개발한 인공지능 바둑 프로그램으로서, 심층 강화 학습을 통해 바둑을 학습한 프로그램이다. 심층 강화 학습이란 심층 학습(Deep learning)과 강화 학습 Reinforcement learning)이 결합한 형태의 기계 학습 방법이다.
심층 학습이란 신경 세포의 기능을 모방한 인공 신경망을 이용한 기계 학습 방법이며, 강화 학습이란 에이전트가 주어진 환경(state)에 대해 어떠한 행동을 취하고 이로부터 어떠한 보상(reward)를 얻으면서 학습하는 방법이다.
특히, 로봇을 위한 심층 강화 학습 방법으로서 DPPG(Deep Deterministic Policy Gradient)가 제안된 바 있다. DDPG 방법은 액터-크리틱(Actor-Critic) 모델 기반의 학습 방법으로서, 배우(actor)의 행동에 대해 비평가(critic)가 평가를 수행하는 것과 유사하게 학습을 수행하는 방법이다. DDPG 방법은 비특허 문헌인 "Lillicrap, T., Hunt, J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D., and Wierstra, D. Continuous control with deep reinforcement learning. arXiv:1509.02971, 2015"에서 제시된 바 있다.
인공 신경망을 통해 학습을 수행하는 방법과 관련 선행문헌으로, 대한민국 등록특허 제10-1795952호가 있다.
본 발명은 로봇을 위한 심층 강화 학습 방법을 제공하기 위한 것이다.
특히 본 발명은, 기존 로봇 학습을 위해 제안된 DDPG의 성능을 개선하여 보다 학습 효과를 높일 수 있는 심층 강화 학습 방법을 제공하기 위한 것이다.
상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따르면, 로봇에서 촬영된 이미지 및 상기 로봇의 타겟 자세에 대한 평가 학습 결과에 기반하여, 상기 로봇의 현재 자세로부터 타겟 물체에 대한 상기 타겟 자세를 강화 학습하는 단계; 및 상기 이미지에 기반하여, 상기 타겟 자세를 강화 학습한 결과로부터 출력되는 상기 로봇의 행동에 대한 평가를 강화 학습하는 단계를 포함하며, 상기 타겟 자세를 학습하는 단계는 상기 이미지에 기반하여, 상기 타겟 물체의 위치에 대한 상기 로봇의 엔드 이펙터(end effector) 위치를 감독 학습한 결과를 이용하여, 상기 타겟 자세를 학습하는 로봇을 위한 학습 방법이 제공된다.
또한 상기한 목적을 달성하기 위한 본 발명의 다른 실시예에 따르면, 로봇에서 촬영된 이미지 및 상기 로봇의 타겟 자세에 대한 평가 학습 결과에 기반하여, 상기 로봇의 현재 자세로부터 타겟 물체에 대한 상기 타겟 자세를 제1학습 주기로 강화 학습하는 단계; 및 상기 이미지에 기반하여, 상기 타겟 자세를 강화 학습한 결과로부터 출력되는 상기 로봇의 행동에 대한 평가를 제2학습 주기로 강화 학습하는 단계를 포함하며, 상기 제2학습 주기는 상기 제1학습 주기보다 짧은 로봇을 위한 학습 방법이 제공된다.
본 발명에 따르면, 사전 감독 학습 결과를 이용하여 로봇의 행동에 대한 학습을 수행함으로써, 학습 효과가 향상될 수 있다.
또한 본 발명에 따르면, 액터 뉴럴 네트워크와 크리틱 뉴럴 네트워크에 대한 학습 주기에 차이를 두어 학습을 수행함으로써, 학습 효과가 향상될 수 있다.
도 1 및 도 2는 DDPG 학습 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 로봇을 위한 학습 방법을 설명하는 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 로봇을 위한 학습 방법을 설명하는 흐름도이다.
도 5는 본 발명을 시뮬레이션하기 위해 이용된 로봇을 도시하는 도면이다.
도 6은 사전 감독 학습을 이용한 실시예에 따른 시뮬레이션 결과를 나타내는 도면이다.
도 7은 학습 주기를 달리한 실시예에 따른 시뮬레이션 결과를 나타내는 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
로봇을 위한 강화 학습 방법의 하나인 DDPG는 매니퓰레이터(manipulator)와 같이, 복수의 관절로 이루어진 로봇 등에 대해서 적용이 쉽지 않은 문제가 있다. 카트-폴(cart-pole) 균형 문제와 같이, 카트에 세워진 막대의 균형을 유지하기 위한 카트 학습에서 DDPG는 준수한 성능을 나타낸다. 하지만 매니퓰레이터의 경우 복수의 관절의 각도의 제어가 필요하기 때문에, DDPG를 이용한 학습을 통해 매니퓰레이터를 제어하기 용이하지 않다.
이에 본 발명은 DDPG에 기반하여, 복수의 관절을 포함하는 매니퓰레이터와 같은 로봇에 대한 학습 효과를 높일 수 있는 학습 방법을 제안한다. 본 발명은 사전 감독 학습과 DDP에 이용되는 액터 뉴럴 네트워크(actor neural network)와 크리틱 뉴럴 네트워크(critic neural network)에 대한 학습 주기에 차등을 주어 로봇을 학습시키는 방법을 제안한다. 실시예에 따라서, 사전 감독 학습과 학습 주기를 조절하는 방법은 함께 이용되거나 또는 선택적으로 이용될 수 있다.
본 발명에 따른 학습 방법은, 프로세서를 포함하는 학습 장치에서 수행될 수 있으며, 학습 장치는 일실시예로서, 로봇의 제어 장치나 또는 별도의 컴퓨팅 장치일 수 있다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1 및 도 2는 DDPG 학습 방법을 설명하기 위한 도면으로서, 6 자유도를 가진 로봇에 대한 액터-크리틱 모델을 나타낸다. 도 1은 액터 뉴럴 네트워크를 나타내며, 도 2는 크리틱 뉴럴 네트워크를 나타낸다.
DDPG는 로봇의 행동을 학습하고 학습 결과 출력되는 로봇의 행동 정책에 대한 평가를 통해 로봇의 학습 효과를 강화한다. 로봇은 액터 뉴럴 네트워크를 이용하여 타겟 물체에 대한 타겟 자세를 학습하고, 크리틱 뉴럴 네트워크를 이용하여, 학습된 행동에 대한 평가를 학습할 수 있다.
로봇은 외부 환경에 대한 이미지를 획득하기 위한 카메라를 포함하며, 액터 뉴럴 네트워크는 카메라를 통해 촬영된 이미지(110, external state)와, 로봇의 타겟 자세에 대한 평가 학습 결과에 기반하여 로봇의 현재 자세(internal state)로부터 타겟 물체에 대한 타겟 자세를 강화 학습한다. 액터 뉴럴 네트워크는 CNN 알고리즘과 같은 컨벌루션 레이어(120)를 이용하여 입력 이미지(110)에 대한 특징값을 추출하고, 이러한 특징값에 기반하여 강화 학습을 수행함으로써, 완전 연결된(fully connected) 인공 신경망(130)의 가중치를 학습한다. 액터 뉴럴 네트워크의 가중치는 최초 초기값으로 설정되며, 로봇의 현재 자세로부터 연속되는 다양한 타겟 자세에 따라 크거나 작은 보상이 제공됨으로써, 가중치가 갱신된다.
예컨대, 로봇이 현재 제1자세에서, 타겟 물체에 대해 제2자세를 취했을 때 로봇의 엔드 이펙터와 타겟 물체의 거리가 가까우면 큰 보상이 제공되고, 로봇이 현재 제3자세에서, 타겟 물체에 대해 제4자세를 취했을 때 로봇의 엔드 이펙터와 타겟 물체의 거리가 멀면 작은 보상이 제공될 수 있다.
다시 말해, 액터 뉴럴 네트워크는 입력 이미지의 특징값과 로봇의 현재 자세에 따라 타겟 물체에 로봇의 엔드 이펙터(end effector), 예컨대 손이 도달할 수 있는 로봇의 타겟 자세를 학습하는 것이다.
액터 뉴럴 네트워크는 학습 결과를 이용하여 입력 이미지(110)로부터, 로봇의 현재 자세에 대한 타겟 자세, 즉 행동(140)을 출력하는데, 크리틱 뉴럴 네트워크는 이러한 행동에 대한 평가를 강화 학습한다. 크리틱 뉴럴 네트워크의 구조는 액터 뉴럴 네트워크와 동일하며, 크리틱 뉴럴 네트워크는 입력 이미지(110)에 기반하여, 로봇의 타겟 자세를 강화 학습한 결과로부터 출력되는 로봇의 행동(140)에 대한 평가를 강화 학습한다.
예컨대, 로봇의 타겟 자세에 대해 높거나 낮은 점수를 부여함으로써 로봇의 행동에 대한 평가가 학습될 수 있다. 학습 이후 크리틱 뉴럴 네트워크는 로봇의 타겟 자세에 대한 평가 결과를 출력할 수 있으며, 이러한 평가 결과는 액터 뉴럴 네트워크를 학습하는데 활용된다.
도 3은 본 발명의 일실시예에 따른 로봇을 위한 학습 방법을 설명하는 흐름도이다.
본 발명에 따른 학습 장치는 로봇에서 촬영된 이미지 및 로봇의 타겟 자세에 대한 평가 학습 결과에 기반하여, 로봇의 현재 자세로부터 타겟 물체에 대한 상기 타겟 자세를 강화 학습(S310)한다. 그리고, 로봇에서 촬영된 이미지에 기반하여, 타겟 자세를 강화 학습한 결과로부터 출력되는 로봇의 행동에 대한 평가를 강화 학습(S320)한다. 단계 S310은 액터 뉴럴 네트워크를 통해 수행되고, 단계 S320은 크리틱 뉴럴 네트워크를 통해 수행된다.
여기서, 로봇은 복수의 관절을 포함하는 매니퓰레이터일 수 있으며, 타겟 자세는 타겟 물체로부터 미리 설정된 거리 내에 로봇의 엔드 이펙터가 위치하기 위한 관절의 자세일 수 있다. 관절의 자세는 일실시예로서, 관절의 각도 및 위치일 수 있다. 그리고 타겟 자세를 강화 학습한 결과로부터 출력되는 로봇의 행동은 타겟 자세를 강화 학습한 결과로부터 출력되는 관절의 자세일 수 있다.
이 때, 단계 S310에서 학습 장치는 로봇에서 촬영된 이미지에 기반하여, 타겟 물체의 위치에 대한 로봇의 엔드 이펙터(end effector) 위치를 감독 학습한 결과를 이용하여, 타겟 자세를 학습한다. 감독 학습(Supervised learning)이란 강화 학습과 달리, 명시적인 정답이 주어진 상태에서 이루어지는 학습 방법이다. 감독 학습의 결과는 컨벌루션 레이어에 대한 파라미터를 포함하며, 예컨대 컨벌루션에 이용되는 필터의 가중치일 수 있다.
액터 뉴럴 네트워크는 전술된 바와 같이 컨벌루션 레이어를 이용하여 이미지에 대한 특징값을 추출하는데, 이 때, 사전에 감독 학습된 결과를 이용하는 것이다.
다시 말해, 촬영된 이미지로부터 추출되는 특징값에 따라서, 타겟 물체의 위치에 대한 로봇의 엔드 이펙터 위치를 감독 학습시키면, 컨벌루션 레이어에서 이용되는 필터의 가중치 역시 학습되는데, 타겟 물체와 로봇의 엔드 이펙터의 위치가 가까워지도록 사전에 감독 학습시킨 필터의 가중치를, 액터 뉴럴 네트워크의 컨벌루션 레이어에 적용하면, 보다 빠르고 효율적으로 로봇의 엔드 이펙터가 타겟 자세에 가까워지도록 학습이 이루어질 수 있다.
도 4는 본 발명의 다른 실시예에 따른 로봇을 위한 학습 방법을 설명하는 흐름도이다.
본 발명에 따른 학습 장치는 로봇에서 촬영된 이미지 및 로봇의 타겟 자세에 대한 평가 학습 결과에 기반하여, 로봇의 현재 자세로부터 타겟 물체에 대한 타겟 자세를 제1학습 주기로 강화 학습(S410)한다. 그리고 로봇에서 촬영된 이미지에 기반하여, 타겟 자세를 강화 학습한 결과로부터 출력되는 로봇의 행동에 대한 평가를 제2학습 주기로 강화 학습(S420)한다. 단계 S410은 액터 뉴럴 네트워크를 통해 수행되고, 단계 S420은 크리틱 뉴럴 네트워크를 통해 수행된다.
제1학습 주기와 제2학습 주기는 서로 상이하며, 본 발명의 일실시예에 따르면, 제2학습 주기는 제1학습 주기보다 짧다. 이 때, 제2학습 주기는 실험적으로 결정될 수 있으며, 제2학습 주기가 지나치게 짧을 경우, 오히려 학습 효과가 반감될 수 있으므로, 제2학습 주기는 제1학습 주기와 미리 설정된 임계 주기 사이에서 결정될 수 있다. 다시 말해, 제2학습 주기는 제1학습 주기보다 짧으며, 임계 주기보다는 길도록 결정될 수 있다.
전술된 바와 같이 단계 S410에서는 타겟 자세를 강화 학습하기 위해, 단계 S420의 평가에 대한 강화 학습 결과를 이용하는데, 제2학습 주기를 제1학습 주기보다 짧게 설정함으로써, 보다 개선된 평가에 대한 학습 결과를 타겟 자세를 학습하는데 이용할 수 있다. 예컨대, S420의 학습이 20번 이루어질 때마다, 단계 S410의 학습이 1번 이루어질 수 있다. S420의 학습이 반복되면서 로봇 행동의 평가에 대한 학습 결과가 개선될 수 있기 때문에, 제2학습 주기를 제1학습 주기보다 짧게 설정함으로써, 단계 S410의 학습 성능 역시 개선될 수 있다.
한편, 로봇은 복수의 관절을 포함하는 매니퓰레이터일 수 있으며, 타겟 자세는 타겟 물체로부터 미리 설정된 거리 내에 로봇의 엔드 이펙터가 위치하기 위한 관절의 자세일 수 있다. 관절의 자세는 일실시예로서, 관절의 각도 및 위치일 수 있다. 그리고 타겟 자세를 강화 학습한 결과로부터 출력되는 로봇의 행동은 타겟 자세를 강화 학습한 결과로부터 출력되는 관절의 자세일 수 있다.
도 5는 본 발명을 시뮬레이션하기 위해 이용된 로봇을 도시하고 있으며, 도 6은 사전 감독 학습을 이용한 실시예에 따른 시뮬레이션 결과를 나타내는 도면이다. 그리고 도 7은 학습 주기를 달리한 실시예에 따른 시뮬레이션 결과를 나타내는 도면이다.
도 6 및 도 7에서는 3차원 가상 환경에서, 실제 타겟 물체를 스캔한 3D 오브젝트에 로봇의 엔드 이펙트가 얼마나 가까이 접근하는지가 시뮬레이션되었다. 그리고 도 6 및 도 7에서 y축은 로봇의 엔드 이펙터(510)와 타겟 물체 사이의 거리를 나타내며, x축은 학습 횟수를 나타낸다. 도 6에서, 파란색 그래프가 본 발명에 따른 결과를 나타내며, 녹색 그래프는 기존 DDPG에 다른 결과를 나타낸다. 마지막으로 도 7에서 K는, 액터 뉴럴 네트워크에 대해 1회 학습이 이루어질 때, 크리틱 뉴럴 네트워크에 대한 학습 횟수를 나타낸다. K가 커질수록 크리틱 뉴럴 네트워크의 학습 주기가 액터 뉴럴 네트워크에 대한 학습 주기보다 짧아진다.
도 6을 참조하면, 본 발명에 따라서 사전 감독 학습 결과를 이용하여 학습이 수행되었을 때, 로봇의 엔드 이펙터와 타겟 물체 사이의 거리가 보다 가까워짐을 확인할 수 있다.
또한 도 7을 참조하면, 크리틱 뉴럴 네트워크의 학습 주기가 액터 뉴럴 네트워크에 대한 학습 주기보다 짧을 경우, 로봇의 엔드 이펙터와 타겟 물체 사이의 거리가 가까위지며, 특히, K가 20일 때, 가장 우수한 학습 효과를 나타냄을 알 수 있다.
앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (8)

  1. 로봇에서 촬영된 이미지 및 상기 로봇의 타겟 자세에 대한 평가 학습 결과에 기반하여, 상기 로봇의 현재 자세로부터 타겟 물체에 대한 상기 타겟 자세를 강화 학습하는 단계; 및
    상기 이미지에 기반하여, 상기 타겟 자세를 강화 학습한 결과로부터 출력되는 상기 로봇의 행동에 대한 평가를 강화 학습하는 단계를 포함하며,
    상기 타겟 자세를 학습하는 단계는
    상기 이미지에 기반하여, 상기 타겟 물체의 위치에 대한 상기 로봇의 엔드 이펙터(end effector) 위치를 감독 학습한 결과를 이용하여, 상기 타겟 자세를 학습하는
    로봇을 위한 학습 방법.
  2. 제 1항에 있어서,
    상기 강화 학습하는 단계는
    컨벌루션 레이어를 이용하여 상기 이미지에 대한 특징값을 추출하며,
    상기 감독 학습 결과는
    상기 컨벌루션 레이어에 대한 파라미터를 포함하는
    로봇을 위한 학습 방법.
  3. 제 1항에 있어서,
    상기 로봇은 복수의 관절을 포함하는 매니퓰레이터이며,
    상기 타겟 자세는
    상기 타겟 물체로부터 미리 설정된 거리 내에 상기 로봇의 엔드 이펙터가 위치하기 위한 상기 관절의 자세인
    로봇을 위한 학습 방법.
  4. 제 3항에 있어서,
    상기 로봇의 행동은
    상기 타겟 자세를 강화 학습한 결과로부터 출력되는 상기 관절의 자세인
    로봇을 위한 학습 방법.
  5. 로봇에서 촬영된 이미지 및 상기 로봇의 타겟 자세에 대한 평가 학습 결과에 기반하여, 상기 로봇의 현재 자세로부터 타겟 물체에 대한 상기 타겟 자세를 제1학습 주기로 강화 학습하는 단계; 및
    상기 이미지에 기반하여, 상기 타겟 자세를 강화 학습한 결과로부터 출력되는 상기 로봇의 행동에 대한 평가를 제2학습 주기로 강화 학습하는 단계를 포함하며,
    상기 제2학습 주기는 상기 제1학습 주기보다 짧은
    로봇을 위한 학습 방법.
  6. 제 5항에 있어서,
    제2학습 주기는
    상기 제1학습 주기와 임계 주기 사이에서 결정되는
    로봇을 위한 학습 방법.
  7. 제 5항에 있어서,
    상기 로봇은 복수의 관절을 포함하는 매니퓰레이터이며,
    상기 타겟 자세는
    상기 타겟 물체로부터 미리 설정된 거리 내에 상기 로봇의 엔드 이펙터가 위치하기 위한 상기 관절의 자세인
    로봇을 위한 학습 방법.
  8. 제 7항에 있어서,
    상기 로봇의 행동은
    상기 타겟 자세를 강화 학습한 결과로부터 출력되는 상기 관절의 자세인
    로봇을 위한 학습 방법.
KR1020170183707A 2017-12-29 2017-12-29 로봇을 위한 학습 방법 KR20190088093A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170183707A KR20190088093A (ko) 2017-12-29 2017-12-29 로봇을 위한 학습 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170183707A KR20190088093A (ko) 2017-12-29 2017-12-29 로봇을 위한 학습 방법

Publications (1)

Publication Number Publication Date
KR20190088093A true KR20190088093A (ko) 2019-07-26

Family

ID=67469830

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170183707A KR20190088093A (ko) 2017-12-29 2017-12-29 로봇을 위한 학습 방법

Country Status (1)

Country Link
KR (1) KR20190088093A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210106222A (ko) * 2020-02-20 2021-08-30 한국과학기술원 딥러닝 강화학습 가속기
WO2022097855A1 (ko) * 2020-11-06 2022-05-12 코가플렉스 주식회사 로봇의 파지를 위한 학습 방법 및 훈련 데이터 생성 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210106222A (ko) * 2020-02-20 2021-08-30 한국과학기술원 딥러닝 강화학습 가속기
WO2022097855A1 (ko) * 2020-11-06 2022-05-12 코가플렉스 주식회사 로봇의 파지를 위한 학습 방법 및 훈련 데이터 생성 방법

Similar Documents

Publication Publication Date Title
Dasari et al. Robonet: Large-scale multi-robot learning
US11429854B2 (en) Method and device for a computerized mechanical device
Chebotar et al. Closing the sim-to-real loop: Adapting simulation randomization with real world experience
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
WO2020065001A1 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
JP2021065955A (ja) ロボット制御システム及びその制御方法及びプログラム
Lober et al. Multiple task optimization using dynamical movement primitives for whole-body reactive control
CN110977966B (zh) 一种基于虚拟场景训练的机器人避障方法
KR20190088093A (ko) 로봇을 위한 학습 방법
Rana et al. Learning generalizable robot skills from demonstrations in cluttered environments
Luo et al. Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty
Jiang et al. Vision-based deep reinforcement learning for UR5 robot motion control
Liu et al. Sim-and-real reinforcement learning for manipulation: A consensus-based approach
Gupta et al. Learning autonomous marine behaviors in MOOS-IvP
CN113887708A (zh) 基于平均场的多智能体学习方法、存储介质及电子设备
Revell et al. Sim2real: Issues in transferring autonomous driving model from simulation to real world
Choudhary et al. Spatial and temporal features unified self-supervised representation learning networks
Rybak et al. Development of an algorithm for managing a multi-robot system for cargo transportation based on reinforcement learning in a virtual environment
Jin et al. Generalizable task representation learning from human demonstration videos: a geometric approach
Xiang et al. Rmbench: Benchmarking deep reinforcement learning for robotic manipulator control
Liu et al. Real-world robot reaching skill learning based on deep reinforcement learning
KR20210065827A (ko) 로봇의 파지 방법 및 이를 위한 학습 방법
Censi et al. The ai driving olympics: An accessible robot learning benchmark
Li et al. Robot arm simulation based on model-free reinforcement learning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application