KR102213061B1 - 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치 - Google Patents

로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치 Download PDF

Info

Publication number
KR102213061B1
KR102213061B1 KR1020180153423A KR20180153423A KR102213061B1 KR 102213061 B1 KR102213061 B1 KR 102213061B1 KR 1020180153423 A KR1020180153423 A KR 1020180153423A KR 20180153423 A KR20180153423 A KR 20180153423A KR 102213061 B1 KR102213061 B1 KR 102213061B1
Authority
KR
South Korea
Prior art keywords
robot
hole
learning
model
peck
Prior art date
Application number
KR1020180153423A
Other languages
English (en)
Other versions
KR20200072592A (ko
Inventor
이상형
서일홍
조남준
Original Assignee
한국생산기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국생산기술연구원 filed Critical 한국생산기술연구원
Priority to KR1020180153423A priority Critical patent/KR102213061B1/ko
Publication of KR20200072592A publication Critical patent/KR20200072592A/ko
Application granted granted Critical
Publication of KR102213061B1 publication Critical patent/KR102213061B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Abstract

본 발명은 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치에 관한 것이다. 본 발명의 일 실시예에 따르면, (a) 시연자의 시연 정보와 모방 학습을 통해 로봇이 초기 모터 스킬을 학습하는 단계, 및 (b) 강화 학습을 통해 로봇의 초기 모터 스킬을 향상시키고 일반화하는 단계를 포함하는, 로봇용 학습 프레임워크 설정방법을 제공한다.

Description

로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치{LEARNING FRAMEWORK SETTING METHOD FOR ROBOT AND DIGITAL CONTROL DEVICE}
본 발명은 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치에 관한 것이다.
그동안, 많은 연구원들이 인간의 시연으로부터 로봇의 모터 스킬을 얻기 위한 다양한 접근법을 제안해왔다. 최근, 로봇은 모방 학습과 강화 학습을 결합하여 작업을 수행하기 위한 모터 스킬을 획득해 오고 있다.
여기서, 로봇은 일반적으로 모방 학습을 기반으로 획득한 정보를 사용하여 초기 모터 스킬을 표현하기 위한 초기 파라미터를 모델링한다. 그러나, 이 초기 파라미터는 최적화된 모터 스킬의 파라미터가 아니며, 로봇이 목표 달성에 최적화된 모터 스킬을 습득하는 것을 보장하지 않는다.
또한, 초기 파라미터를 모델링하는 방법으로는 인간 시연자가 모터 스킬을 실행하는 동안 발생하는 모든 상황을 포함하는 데이터를 제공하기 어렵다.
따라서, 로봇의 자가 학습과 함께 모터 스킬을 향상시키고 일반화하는 방법이 필요하다.
한국 등록특허공보 제10-1577711호(2015.12.09.)
본 발명은 모방 학습과 강화 학습의 혼합을 이용하여 모터 스킬의 학습, 개선 및 일반화를 위한 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치를 제공하는 것이다.
또한, 본 발명은 물리적 상호작용을 인식하고, 상황에 맞게 로봇의 행동을 생성하도록 물리적 상호작용에 의해 발생하는 반발력/반발토크를 모델링하기 위한 은닉 마르코프 모델과 상황에 적합한 로봇 행동 생성을 위한 동적 행동 프리미티브을 결합하는 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치를 제공하는 것이다.
또한, 본 발명은 최적의 경로뿐만 아니라 수행 시간을 동시에 최적화 시킬 수 있는 강화학습 알고리즘과 보상함수를 이용하여 로봇이 시간과 경로가 동시에 최적화된 모터 스킬을 획득할 수 있는 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치를 제공하는 것이다.
본 발명의 일 실시예에 따르면, (a) 시연자의 시연 정보와 모방 학습을 통해 로봇이 초기 모터 스킬을 학습하는 단계, 및 (b) 강화 학습을 통해 로봇의 초기 모터 스킬을 향상시키고 일반화하는 단계를 포함하는, 로봇용 학습 프레임워크 설정방법을 제공한다.
또한, 상기 로봇용 학습 프레임워크 설정방법은, 로봇의 모터 스킬을 학습, 개선 및 일반화하기 위해 펙인홀(Peg-In-Hole) 작업에서 홀-탐색(hole-serch) 모터 스킬 및 펙-삽입(peg-insert) 모터 스킬에 프레임워크를 적용할 수 있다.
또한, 상기 (a) 단계에서는, (a-1) 물리적 상호작용에 의해 발생하는 반발력 및 반발토크를 모델링하기 위하여 시연자의 시연 정보를 은닉 마르코프 모델(hidden Markov models)로 모델링하는 단계, (a-2) 상황에 적합한 로봇 행동 생성을 위하여 작업을 수행하도록 로봇 제어를 위한 동적 행동 프리미티브 모델(dynamic movement primitives models)로 모델링하는 단계, 및 (a-3) 상기 은닉 마르코프 모델과 상기 동적 행동 프리미티브 모델을 하나의 초기 모터 스킬로 결합하는 단계를 포함할 수 있다.
또한, 상기 (a) 단계에서는 상기 은닉 마르코프 모델을 통해 반발력 신호 및 반발토크 신호를 인식하고, 상기 동적 행동 프리미티브 모델을 통해 시연자의 시연에 해당하는 모션 경로를 생성하기 위하여 상기 은닉 마르코프 모델 및 상기 동적 행동 프리미티브 모델의 파라미터를 결합시킬 수 있다.
또한, 상기 (a-1) 단계에서는, 작업에 부적합한 반발력 신호 및 반발토크 신호를 제거하기 위하여 로봇은 일련의 시연에 기초한 자기 재현을 통해 작업에 적합한 반발력 신호 및 반발토크 신호 및 해당 제어 신호를 추출할 수 있다.
또한, 상기 (a-1) 단계에서는, 물리적 상호작용을 인식하기 위하여 펙을 기울여 홀을 탐색하는 틸트 서치 모션, 펙을 홀의 제1 지점에 접촉시키는 싱글 포인트 컨택 모션, 펙을 홀의 제1 지점 및 제2 지점에 접촉시키는 투 포인트 컨택 모션, 펙을 기울여 펙과 홀을 정렬시키는 정렬 모션, 및 펙을 홀에 밀어넣는 푸시 모션을 포함할 수 있다.
또한, 상기 홀-탐색(hole-serch) 모터 스킬은 펙과 홀의 부정확한 현재 위치를 기준으로 홀이 있는 방향을 찾는 동작일 수 있다.
또한, 상기 펙-삽입(peg-insert) 모터 스킬은 홀 방향에 따라 홀에 펙을 삽입하는 동작일 수 있다.
또한, 상기 (b) 단계는, (b-1) 상기 은닉 마르코프 모델을 사용하여 최대 가능성을 갖는 초기 모터 스킬을 선택하는 단계, (b-2) 강화학습을 통해 해당 동적 행동 프리미티브 모델의 파라미터를 재평가하는 단계, 및 (b-3) 재평가된 동적 행동 프리미티브 모델에 의해 생성된 모션 경로로부터 상기 은닉 마르코프 모델의 파라미터를 재평가하는 단계를 포함할 수 있다.
또한, 상기 (b) 단계에서는 모터 스킬을 개선하고 일반화하기 위한 새로운 보상 기능을 설계하여 실행 시간 스텝이나 시간을 줄이고 반환 알고리즘으로 탐색을 가중시켜 정책 학습의 확장에 기초하여 모션 경로를 최적화할 수 있다.
또한, 상기 (b) 단계에서는 반환을 통한 탐색 가중에 따른 정책 학습 알고리즘을 이용하여 해당 정책 파라미터에서 롤아웃의 예상 반환값을 최대화하는 정책 파라미터를 추정할 수 있다.
또한, 상기 (b) 단계에서는 개선 및 일반화 과정을 구분하기 위하여 상기 은닉 마르코프 모델로부터 생성된 임계값 모델을 사용할 수 있다.
본 발명은 모방 학습과 강화 학습의 혼합을 이용하여 모터 스킬의 학습, 개선 및 일반화를 위한 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치를 제공할 수 있다.
또한, 본 발명은 경로와 수행 시간을 동시에 최적화하도록 개선하고, 두 개의 서로 다른 모델(즉, 인식 모델과 행동생성 모델) 파라미터를 결합하고, 강화 학습을 통해 행동생성 모델 파라미터와 인식 모델 파라미터를 순차적이고, 반복적으로 최적화하도록 개선할 수 있다.
또한, 본 발명에 따르면, 로봇은 물리적 상호작용을 필요로 하는 작업을 대상으로 인간의 시연 데이터로부터 초기 파라미터를 배우고, 이를 강화 학습을 통해 시간과 경로 모두 최적화할 수 있다.
또한, 본 발명에 따르면, 로봇이 로봇의 하드웨어적 구성 및 환경에 맞게 작업을 수행할 수 있는 경로와 상황들을 배울 수 있게 됨은 물론 동시에 로봇의 작업 시간을 최소화할 수 있도록 경로를 최적화하는 것이 가능해진다.
또한, 본 발명에 따르면, 로봇이 반발력/반발토크를 인식하는 것과 상황에 맞게 로봇 경로를 제어할 수 있도록 모터 스킬을 모델링하였기 때문에 즉각적인 반응 행동이 가능해진다.
도 1은 본 발명에 따른 로봇용 학습 프레임워크 설정방법을 나타내는 순서도이다.
도 2는 물리적 상호작용이 필요한 로봇의 작업 예시를 나타내는 도면이다.
도 3은 로봇의 작업 실행 시간과 작업 경로를 동시에 최적화시키는 강화학습 알고리즘을 나타내는 테이블이다.
도 4는 강화학습용 보상함수를 나타내는 테이블이다.
도 5는 본 발명에 따른 프레임워크를 평가하기 위한 실험 설정을 나타내는 도면이다.
도 6은 다양한 모양의 펙과 홀을 나타내는 도면이다.
도 7은 본 발명의 실시예에 따라 강화학습 과정에서 펙인홀 작업의 실행시간 실험결과를 종래의 방법과 대비하여 나타내는 도면이다.
도 8은 본 발명의 실시예에 따른 개선 및 일반화 실험 결과를 나타내는 테이블이다.
이하에서는, 본 발명의 바람직한 실시예에 기초하여 본 발명을 보다 구체적으로 설명한다. 그러나, 하기 실시예는 본 발명의 이해를 돕기 위한 일 예에 불과한 것으로 이에 의해 본 발명의 권리범위가 축소되거나 한정되는 것은 아니다.
본 발명은 로봇이 물리적 상호작용을 필요로 하는 작업을 수행하기 위해 인간의 시연으로부터 모터 스킬을 배우는 모방 학습과 스스로 트라이얼 및 에러를 통해 모터 스킬을 배우는 강화 학습을 결합하여 모터 스킬을 배우고, 향상시키고, 일반화하는 하나의 프레임워크를 제안하고자 한다.
먼저, 모방 학습을 기반으로 인간의 시연 데이터로부터 반발력과 반발토크를 모델링하기 위해 은닉 마르코프 모델(hidden Markov models)을 모델링할 수 있다. 동시에 작업을 수행하기 위한 로봇 제어를 위한 동적 모터 프리미티브(dynamic movement primitives)를 모델링하여 이 두 모델을 하나의 초기 모터 스킬로 결합할 수 있다.
로봇은 자가 학습 과정에서 초기 은닉 마르코프 모델을 이용하여 인식을 수행할 수 있다. 인식 중에 경험한 반발력/반발토크의 경우 강화학습 알고리즘을 통해 파라미터를 업데이터를 수행하고, 경험하지 못한 반발력/반발토크의 경우 강화학습 알고리즘을 통해 새로운 모터 스킬로 일반화시킬 수 있다.
경험한 경우와 경험하지 않은 경우는 은닉 마르코프 모델과 그들의 파라미터로 생성된 경계치 모델(threshold model)에 의해 판별될 수 있다. 더욱이, 기존의 강화학습 알고리즘들이 로봇 경로만을 최적화하는 것에 관심을 가졌던 것에 비해 본 발명은 경로와 수행 시간을 동시에 최적화할 수 있다.
도 1은 본 발명의 일 실시예에 따른 로봇용 학습 프레임워크 설정방법을 나타내는 순서도이다.
도 1을 참조하면, 본 발명에 따른 로봇용 학습 프레임워크 설정방법은 (a) 시연자의 시연 정보와 모방 학습을 통해 로봇이 초기 모터 스킬을 학습하는 단계, 및 (b) 강화 학습을 통해 로봇의 초기 모터 스킬을 향상시키고 일반화하는 단계를 포함할 수 있다.
본 발명에 따른 로봇용 학습 프레임워크 설정방법은, 로봇의 모터 스킬을 학습, 개선 및 일반화하기 위해 펙인홀(Peg-In-Hole) 작업에서 홀-탐색(hole-serch) 모터 스킬 및 펙-삽입(peg-insert) 모터 스킬에 프레임워크를 적용할 수 있다.
구체적으로, (a) 단계에서는, (a-1) 물리적 상호작용에 의해 발생하는 반발력 및 반발토크를 모델링하기 위하여 시연자의 시연 정보를 은닉 마르코프 모델(hidden Markov models, 이하 HMM)로 모델링하는 단계, (a-2) 상황에 적합한 로봇 행동 생성을 위하여 작업을 수행하도록 로봇 제어를 위한 동적 행동 프리미티브 모델(dynamic movement primitives models, 이하 DMP)로 모델링하는 단계, 및 (a-3) 은닉 마르코프 모델과 동적 행동 프리미티브 모델을 하나의 초기 모터 스킬로 결합하는 단계를 포함할 수 있다.
즉, (a) 단계에서는 은닉 마르코프 모델을 통해 반발력 신호 및 반발토크 신호를 인식하고, 동적 행동 프리미티브 모델을 통해 시연자의 시연에 해당하는 모션 경로를 생성하기 위하여 은닉 마르코프 모델 및 동적 행동 프리미티브 모델의 파라미터를 결합시킬 수 있다.
여기서, 시연자의 시연은 운동감각적 티칭법을 사용하여 이루어질 수 있다. 이러한 운동감각적 티칭법은 시연자의 모터 스킬을 로봇에게 쉽고 빠르게 전달할 수 있다. 그러나, 시연자에 의해 작업에 부적합한 반발력 신호 및 반발토크 신호가 반영될 수 있기 때문에 대응 인식이 목표 달성에 중요한 작업에는 적합하지 않을 수 있다.
이에 따라, (a-1) 단계에서는, 작업에 부적합한 반발력 신호 및 반발토크 신호를 제거하기 위하여 로봇은 일련의 시연에 기초한 자기 재현을 통해 작업에 적합한 반발력 신호 및 반발토크 신호 및 해당 제어 신호를 추출할 수 있다.
특히, (a-1) 단계에서는, 물리적 상호작용을 인식하기 위하여 펙을 기울여 홀을 탐색하는 틸트 서치 모션, 펙을 홀의 제1 지점에 접촉시키는 싱글 포인트 컨택 모션, 펙을 홀의 제1 지점 및 제2 지점에 접촉시키는 투 포인트 컨택 모션, 펙을 기울여 펙과 홀을 정렬시키는 정렬 모션, 및 펙을 홀에 밀어넣는 푸시 모션을 포함할 수 있다.
홀-탐색 모터스킬은 도 2(a)에 도시된 바와 같이 펙과 홀의 부정확한 현재 위치를 기준으로 홀이 있는 방향을 찾는 동작이다. 여기서, 펙을 기울여 홀을 탐색하는 틸트 서치 모션을 포함할 수 있다. 이때, 홀에 대해 펙이 작은 경사각을 이룰 경우, 홀이 발견되지 않을 수 있고, 홀에 대해 펙이 큰 경사각을 이룰 경우, 펙이 홀에 끼여 다음 단계의 움직임이 제한될 수 있으므로, 적절한 경사각을 찾는 것이 바람직하다.
펙-삽입 모터스킬은 도 2(b)-2(e)에 도시된 바와 같이 홀 방향에 따라 홀에 펙을 삽입하는 동작이다. 여기서, 펙-삽입 모터스킬은 싱글 포인트 컨택 모션, 투 포인트 컨택 모션, 정렬 모션, 및 푸시 모션을 포함할 수 있다.
이러한 반응 인식 및 모션 생성은 로봇이 펙인홀 작업의 목표를 달성하기 위해 필요하다. 따라서, 반응 인식 및 그에 상응하는 모션 생성을 허용하도록 데모 데이터 세트를 모델링해야 한다.
이를 위해, HMM과 DMP의 파라미터를 하나의 초기 모터 스킬로 결합시키며, 초기 모터 스킬로의 결합은 파라미터 튜플(parameter tuple)로 나타낼 수 있다. 여기서, 초기 모터 스킬이라는 용어는 로봇이 학습한 파라미터가 개선 및 일반화 과정에서 초기 정책 파라미터(initial policy parameter)로 사용되기 때문에 모터 스킬과 구분을 위해 사용한다.
HMM은 시간에 따라 변하는 신호를 인식하기에 적합한 모델 중 하나이다.
여기서, HMM의 파라미터는
Figure 112018120675813-pat00001
로 정의할 수 있으며,
Figure 112018120675813-pat00002
는 HMM의 i번째 은닉 스테이트의 초기 확률 분포(initial probability distribution),
Figure 112018120675813-pat00003
는 HMM의 i번째 은닉 스테이트로부터 j번째 은닉 스테이트로의 전이 확률 분포(transition probability distribution),
Figure 112018120675813-pat00004
는 j번째 은닉 스테이트의 관측 확률 분포(observation probability distribution)로 정의될 수 있다. 이때, i 및 j는 자연수이다.
여기서, HMM의 은닉 스테이트의 수인 K는 베이시안 정보 기준(Bayesian Information Criteria, 이하 BIC)를 사용하여 결정될 수 있다.
또한,
Figure 112018120675813-pat00005
는 BIC와 기대치 최대화 알고리즘(expectation-maximization algorithms)을 기반으로 한 지속적인 반발력 및 반반토크의 경로를 나타내는 가우시안 혼합 모델(Gaussian mixture model)로 모델링할 수 있다.
또한, HMM의 파라미터는 트레이닝 데이터 Xm n 사용한 바움-웰치 알고리즘(Baum-Welch algorithms)을 채용하여 추정할 수 있다. 여기서, m = 1, 2, 3, ...,M 및 n = 1, 2, 3,..., N이고, M 및 N은 시연의 전체 횟수 및 데이터 포인트의 수를 나타낼 수 있다.
HMM의 파라미터는 이미 공지된 기술이므로, 보다 상세한 설명은 생략한다.
DMP는 외부 힘 조건에 따라 달라지는 선형 스프링-댐퍼 시스템과 유사한 역할을 하며, 최종 목표와의 통합을 보장할 수 있다.
이러한, DMP는 아래의 수학식 1 및 2로 나타낼 수 있다.
Figure 112018120675813-pat00006
Figure 112018120675813-pat00007
수학식 1 및 2에서, x, v, v0 및 xg는 위치, 속도, 초기 위치 및 대상 위치로 정의할 수 있다. 또한, 수학식 1 및 2에서, τ, K 및 D 각각은 시간 스케일, 스프링 및 댐핑을 조정하기 위한 상수를 나타낼 수 있다.
외부 힘
Figure 112018120675813-pat00008
는 시연 데이터로부터 학습되어야 하며, 아래의 수학식 3으로 나타낼 수 있다.
Figure 112018120675813-pat00009
수학식 3에서
Figure 112018120675813-pat00010
는 센터 ci, 폭 hi, 중량 wi의 가우시안 기본 함수이다. 또한, 파라미터 L은 가우시안 기본 함수의 수를 나타낼 수 있다.
또한, 외부 힘
Figure 112018120675813-pat00011
는 시간에 관계없이 1에서 0으로 단조적으로 감소하는 위상 변수 s에 직접 의존한다. 여기서, 외부 힘
Figure 112018120675813-pat00012
를 추정하는 것은 선형 회기 문제이다. 또한, 중량 wi의 를 추정하면, 트레이닝 데이터 Xm n 의 오류를 최소화할 수 있다. 이때, m = 1, 2, 3, ...,M 및 n = 1, 2, 3,..., N이고, M 및 N은 시연의 전체 횟수 및 데이터 포인트의 수를 나타낼 수 있다.
실험을 통해, DMP는 복수의 시연의 평균 경로로 학습될 수 있다.
마지막으로, 이러한 파라미터들을 사용한 초기 모터 기술의 파라미터 튜플은 아래의 수학식 4와 같이 결합될 수 있다.
Figure 112018120675813-pat00013
수학식 4에서 Θ는 초기 모터 기술의 파라미터 튜플, λ 및 Ω 각각은 HMM 및 DMP의 파라미터를 나타낼 수 있다.
여기서 HMM의 파라미터는 반발력 신호 및 반발토크 신호를 수신하는 동안의 가능성을 추정하는데 사용되며, 최대 가능성과 함게 HMM에 연관된 DMP의 파라미터는 로봇 모션 경로를 생성하는데 사용될 수 있다.
다음, (b) 단계에서는 모터 스킬을 개선하고 일반화하기 위한 새로운 보상 기능을 설계하여 실행 시간 스텝이나 시간을 줄이고 반환 알고리즘으로 탐색을 가중시켜 정책 학습의 확장에 기초하여 모션 경로를 최적화할 수 있다.
본 발명에서는 초기 모터 스킬을 개선하고 일반화하기 위해 (b) 단계에서 반환을 통한 탐색 가중에 따른 정책 학습(Policy learning by Weighting Exploration with the Returns, 이하 PoWER) 알고리즘을 수행할 수 있다.
PoWER 알고리즘을 사용하여 해당 정책 파라미터에서 롤아웃(rollout)(즉, 시행 또는 에피소드)의 예상 반환 값을 최대화하는 정책 파라미터를 추정하는데 사용될 수 있다. 이러한 PoWER 알고리즘은 이미 공지된 기술이므로, 보다 상세한 설명은 생략한다.
또한, (b) 단계에서는, 도 3을 참조하여 PoWER 알고리즘의 확장을 사용할 수 있다.
PoWER 알고리즘은 해당 DMP의 다른 타겟과 다른 길이를 사용할 수 있다.
또한, (b) 단계에서는 개선을 위해 어떤 변화나 업데이트 없이 초기 모터 스킬의 타겟 xg를 사용할 수 있다.
그러나 정책의 길이 T는 홀-탐색 모터 스킬용 tF 및 펙-삽입 모터 스킬용 tF를 사용하여 업데이트될 수 있다. 여기서, 홀-탐색 모터 스킬용 tF 및 펙-삽입 모터 스킬용 tF 각각은 아래의 수학식 5 및 6를 참조한다.
한편, 초기 모터 스킬의 DMP가 목표를 충족하지 못하기 때문에 일반화 과정에서 xg 및 T를 모두 업데이트되어야 하고, 수정되어야 한다.
이를 위해, T는 모든 롤아웃에서 가장 높은 보상값을 가지는 시간 스텝으로 설정되고 xg는 시간 스텝에서 동작으로 설정될 수 있다.
또한, (b) 단계에서는 개선 및 일반화 과정을 구분하기 위하여 HMM로부터 생성된 임계값 모델을 사용할 수 있다. 여기서, HMM은 입력 신호의 가능성 임계값을 계산하기 위하여 사용될 수 있다. 이는, 기존의 HMM들 중 하나와 비교하여 현재 반발력 및 반발토크가 경험한 경우인지, 경험하지 않은 경우인지 구분하는데 사용될 수 있다.
이러한, 임계값 모델은 모든 HMM에 포함된 모든 은닉 스테이트를 전부 연결할 수 있다. 즉, 모든 HMM에 포함된 은닉 스테이트의 관측 확률 분포가 어떤 수정없이 사용되고, 해당 전이 확률 분포는 균일하게 할당될 수 있다.
이러한 임계값 모델은 이미 공지된 기술이므로, 보다 상세한 설명은 생략한다.
한편, 홀-탐색 모터 스킬 및 펙-삽입 모터 스킬의 예상 반환값을 계산하기 위한 보상 함수 각각은 아래의 수학식 5 및 6와 같이 나타낼 수 있다.
Figure 112018120675813-pat00014
Figure 112018120675813-pat00015
수학식 5 및 6에서
Figure 112018120675813-pat00016
,
Figure 112018120675813-pat00017
, R, P는 각각 로봇에서 측정한 반발력, 반발토크, 회전 및 위치를 나타내고, 특히, 변수 R과 P는 툴 좌표계의 기준 축에서 발생하는 변화의 양을 나타낼 수 있다.
또한, 심볼
Figure 112018120675813-pat00018
및 대문자 S는 지정된 작업에 따라 각 변수의 목표값과 시작값을 각각 나타낼 수 있고, T는 초기 모터 스킬의 총 길이를 나타낼 수 있다.
또한, α, β, γ, δ는 상수(즉, 메타파라미터)이며, 각 항목에 대한 반사 각도를 조정하는데 사용될 수 있다. 특히, 수학식 5의 홀-탐색 모터 스킬용 tF 및 수학식 6의 펙-삽입 모터 스킬용 tF 각각은 작업 실패가 감지되는 시간과 모터 스킬의 작업목표가 달성된 시간을 나타낼 수 있다.
이러한 파라미터는 임계값 모델을 사용하여 측정할 수 있다. 여기서, 홀-탐색 모터 스킬용 tF는 다른 HMM와 비교할 때 임계값 모델의 (목표도달) 가능성이 가장 높을 때의 시간을 나타낼 수 있다. 또한, 펙-삽입 모터 스킬용 tF는 로봇이 매우 작은 마진으로 작업 목표
Figure 112018120675813-pat00019
에 도달할까지의 임계값보다 HMM 중 하나의 가능성이 더 높을 때의 시간을 나타낼 수 있다.
한편, 수학식 5 및 6은
Figure 112018120675813-pat00020
의 형식을 갖도록 설정될 수 있으며, 이에 따라, 각 항목의 낮은 가치는 더 높은 보상을 제공할 수 있다.
일반적으로, 초기 모터 스킬은 시연자의 시연에 달려있다. 본 발명에서는 강화 학습을 기반으로 초기 모터 스킬을 개선하거나 일반화시키려 한다. 본 발명에서 홀-탐색 모터 스킬에서 펙이 기울어져 홀을 감지하는 각도는 그림 2(a)와 같이 시연자의 시연에 따라 달라질 수 있다. 또한, 본 발명에서는 홀-탐색 모터 스킬을 최적화하는 동안 홀의 존재 여부를 신속하게 구별할 수 있는 최소 기울기 각도를 찾는 기술을 개선할 수 있다.
수학식 5는 홀-탐색 모터 스킬에 대한 보상 함수이다. 반발력 및 반발토크 항목에서, 매 시간 스텝마다
Figure 112018120675813-pat00021
Figure 112018120675813-pat00022
의 모든 축이 목표
Figure 112018120675813-pat00023
Figure 112018120675813-pat00024
에 근접할 때 보상이 증가한다. 또한, 회전 항목에서,
Figure 112018120675813-pat00025
의 모든 축이 초기 포즈
Figure 112018120675813-pat00026
로부터 멀어질 경우, 예컨대 펙의 경사각이 증가할 경우 보상이 증가한다. 또한, 시간 항목에서 고장이 감지되는 시간(즉, tF)이 감소하면 보상이 증가한다. 시간 항목은 강화 학습에 기반한 정책의 실행 시간 단계를 줄이기 위하여 설정될 수 있다.
본 발명에서는 로봇이 홀의 존재 여부를 알아내기 위하여 홀-프리 지역에서 시행착오를 반복할 수 있다. 또한, 로봇은 짧은 시간 내에 반발력 및 반발토크를 경험하기 시작하는 최소 기울기 각도를 찾을 수 있다.
또한, 로봇은 도 2(b)-2(e)를 참조하여 연속해서 불연속 운동을 수행하는 방법을 학습할 수 있다.
본 발명에서는 펙-삽입 모터 기술용 보상 함수인 수학식 6을 이용하여 최적의 삽입 경로를 찾는 모터 스킬을 개선하고 일반화할 수 있다.
수학식 5에서와 같이, 반발력 및 반발토크 항목에서, 매 시간 스텝마다
Figure 112018120675813-pat00027
Figure 112018120675813-pat00028
의 모든 축이 목표
Figure 112018120675813-pat00029
Figure 112018120675813-pat00030
에 근접할 때 보상이 증가한다. 또한, Z축의 위치는 홀에 펙을 삽입하기 위한 보상으로 간주될 수 있다. 수학식 6의 위치 항목에서, 매 시간 스텝마다 z축 위치
Figure 112018120675813-pat00031
가 목표
Figure 112018120675813-pat00032
에 근접할 때마다 보상이 증가한다. 또한, 시간 항목에서 홀에 펙을 삽입하기 위한 실행 시간을 단축하는 것으로 간주되고, 목표의 성공이 감지되는 시간(즉, tA)이 감소될 때 보상이 증가한다. 이를 통해, 로봇은 불연속적인 모션 경로 대신에 최적 모션을 찾을 수 있다.
수학식 5 및 6에서
Figure 112018120675813-pat00033
,
Figure 112018120675813-pat00034
,
Figure 112018120675813-pat00035
는 펙인홀 작업을 위하여 0으로 설정될 수 있다. 또한, HMM의 파라미터 λ는 개선 및 일반화된 DMP로부터 생성된 모션 경로를 사용하여 재평가될 수 있다.
홀-탐색 모터 스킬 및 펙-삽입 모터 스킬의 스테이트는 반발력 및 반발토크를 인식하기 위한 HMM용
Figure 112018120675813-pat00036
로 정의될 수 있다. 또한, DMP에서 홀-탐색 모터 스킬의 스테이트는 틸트 탐색이 펙의 위치 변화없이 수행되기 때문에
Figure 112018120675813-pat00037
로 정의될 수 있다. 반면에, 펙-삽입 모터 스킬의 스테이트는 힘과 회전을 제어하기 위하여
Figure 112018120675813-pat00038
로 정의될 수 잇다.
또한, 강화학습용 두 보상 함수의 스테이트는 도 4에 도시된 바와 같이 해당 보상 및 반환값을 계산하기 위하여 정의될 수 있다.
본 발명에 따른 프레임워크를 평가하기 위해 도 5에 도시된 실험 설정을 사용하여 펙인홀(pick-in-hole) 작업을 수행한다. 본 실시예에서는 유니버셜 로봇이 개발한 로봇팔과 F/T센서, 로비크(Robotiq)에서 개발한 FT300과 그리퍼-2-핑거 그리퍼(Gripper-2-Finger Gripper)를 사용했다. 또한, 도 6(a)-6(e)와 같이 5개의 펙과 5개의 직사각형, 육각형, 오각형, 삼각형 및 별 모양의 홀을 이용하여 실험을 수행했다. 펙와 홀 사이의 간격은 약 200 um이다.
본 실시예에서는 모방 학습에 기초한 초기 모터 스킬을 배우고 습득하기 위해 도 6(a)에 나타난 직사각형의 홀을 이용하여 시연을 실시했다. 도 6(b)-6(e)처럼 다양한 형태의 홀과 펙이 모터 스킬의 일반화를 평가하는데 사용되었다.
홀-탐색 및 펙-삽입에 대한 시연은 4가지 방향으로 진행되었으며, 그 결과, 로봇은 홀-탐색의 경우 네 가지 모터 스킬과, 펙-삽입의 경우 네 가지 모터 스킬을 습득했습니다. 교육용 데이터셋을 사용하여 8개의 HMM(반응 인식용)과 8개의 DMP(운동 생성용)를 로봇에게 학습시켰다.
본 실시예에서는 강화 학습 구현에 있어서 합리적인 작업 실행을 위하여 독립적으로 반응 인식 및 모션 생성 과정를 설정했다. 강화 학습 과정를 이용하여 8개의 초기 모터 스킬이 개선되었다.
홀-탐색 모터 스킬의 개선을 위해 다음의 두 단계를 통해 강화 학습에 대한 롤아웃((즉, 시험)과 그 보상을 생성 및 계산하였다.
(1) 스텝 1: (홀이 없는 장소에서 롤아웃을 획득하고 보상을 계산하는) 로봇은 홀이 없는 곳에서 롤아웃을 획득하고 보상을 계산했다.
(2) 스텝 2: (홀 위치에서 롤아웃 확인 및 정책 파라미터 업데이트) 로봇은 수집된 롤아웃이 실제로 홀 위치에서 홀을 찾을 수 있는 위치를 확인하고, 획득한 모든 롤아웃을 사용하여 정책 파라미터를 업데이트했다.
롤아웃과 보상은 홀이 없는 위치에서 획득되기 때문에 2단계의 검증 과정이 필요하다. 홀-탐색 모터 스킬을 개선하기 위한 목적은 최소한으로 펙을 기울여 홀이 있는지 확인하는 것이다. 이는, 홀의 존재 여부를 결정하기 위하여 로봇이 최소 기울기 각도를 찾는 좋은 방법이다.
펙-삽입 모터 스킬의 개선을 홀의 위치에서 수행했다. 다만, 펙-삽입 모터 스킬의 개선은 홀 위치에서 수행되므로 획득된 롤아웃의 특정 검증 단계가 필요하지 않다.
로봇은 짧은 시간 안에 홀에 펙를 삽입할 수 있는 최적의 경로를 찾을 수 있었다. 반환 값은 반복 횟수에 따라 증가했고, 보상 기능을 사용하여 실행 시간 단계를 줄일 수 있었다. 도 7은 보상 기능이 시간과 경로 최적화 측면에서 잘 설계되어 있음을 보여준다. 도 7은 강화학습 과정에서 펙인홀 작업시 실행 시간을 고려한 경우와 고려하지 않은 경우를 대비하여 보여주며, 도 7(a)는 홀-탐색 동작의 결과이고, 도 7(b)는 펙-삽입 동작의 결과이다. 도 7에서 (i)는 본 발명에 따른 결과를 나타내고, (ii)는 기존의 방법에 따른 결과를 나타낸다.
보상 기능에서, 반발력 및 반발토크, 회전 및 포지션의 항목은 모터 스킬의 성공과 직접적으로 관련이 있었다. 반대로, 시간 항목은 로봇의 실행 시간 단계를 줄이는데 사용된다. 도 7의 하단에 도시된 바와 같이, 실행 시간 단계는 시간 항목을 사용하지 않았을 때와 비교했을 때 더 적었다.
직사각형 모양에 대해 학습된 모터 스킬의 일반화는 다른 모양에 대해서도 수행하였다. 여기서 직사각형 모양에 대해 학습된 일부 모터 스킬을 수정 없이 다른 모양에 사용할 수 있다. 대조적으로, 학습된 다른 모터 스킬은 다른 모양에 적용될 수 없다.
일반적으로 다른 형태의 홀의 방향을 찾을 때 고장이 발생한다. 본 실시예에서 펙-삽입 모터 스킬은 다른 형태에서도 아무런 수정 없이 사용될 수 있다. 이러한 문제를 해결하기 위해 도 3에 제시된 일반화 과정이 요구된다.
한편, 도 8은 개선 및 일반화의 필요성을 보여준다. 초기 모터 스킬은 개선 과정에서 35~41회 반복하여 통합되었다.(라인 2~4 참조) 개선된 운동 능력의 일반화(개선 포함)를 수행하는 것이 초기 모터 스킬(라인 5와 6 비교, 라인 7과 8 비교)보다 더 빠르게 융합되었다. 이 경우 개선된 모터 스킬을 사용하는 것이 초기 모터 스킬을 사용하는 것보다 약 2~3배 더 빠르게 융합되었다. 게다가, 개선된 운동 능력의 일반화는 시연자의 시연에 의해 습득된 초기 모터 스킬이 없는 경우에도 효율적으로 사용될 수 있다.( 라인 3과 6 비교, 라인 4와 8 비교) 본 실시예에 따르면, 로봇이 펙인홀 작업에 익숙하지 않은 모양에서도 모터 스킬을 일반화할 수 있다는 것을 확인할 수 있다.
본 발명은 모방 학습과 강화 학습의 혼합을 이용하여 모터 스킬의 학습, 개선 및 일반화를 위한 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치를 제공할 수 있다.
또한, 본 발명은 경로와 수행 시간을 동시에 최적화하도록 개선하고, 두 개의 서로 다른 모델(즉, 인식 모델과 행동생성 모델) 파라미터를 결합하고, 강화 학습을 통해 행동생성 모델 파라미터와 인식 모델 파라미터를 순차적이고, 반복적으로 최적화하도록 개선할 수 있다.
또한, 본 발명에 따르면, 로봇은 물리적 상호작용을 필요로 하는 작업을 대상으로 인간의 시연 데이터로부터 초기 파라미터를 배우고, 이를 강화 학습을 통해 시간과 경로 모두 최적화할 수 있다.
또한, 본 발명에 따르면, 로봇이 로봇의 하드웨어적 구성 및 환경에 맞게 작업을 수행할 수 있는 경로와 상황들을 배울 수 있게 됨은 물론 동시에 로봇의 작업 시간을 최소화할 수 있도록 경로를 최적화하는 것이 가능해진다.
또한, 본 발명에 따르면, 로봇이 반발력/반발토크를 인식하는 것과 상황에 맞게 로봇 경로를 제어할 수 있도록 모터 스킬을 모델링하였기 때문에 즉각적인 반응 행동이 가능해진다.
한편, 본 발명은 상술한 단계들이 하나 이상의 전자 또는 디지털 제어 장치 상에서 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합에 의해 수행될 수 있음이 이해될 것이다. 소프트웨어는 하나 이상의 기능적 시스템, 컨트롤러, 장치, 컴포넌트, 모듈, 또는 서브 모듈과 같은 적절한 전자 프로세싱 컴포넌트 또는 시스템 내의 소프트웨어 메모리(도시되지 않음) 내에 상주할 수 있다. 소프트웨어 메모리는 논리 기능(즉, 디지털 회로 또는 소스 코드와 같은 디지털 형태로 또는 아날로그 전기, 소리, 또는 비디오 신호와 같은 아날로그 소스와 같은 아날로그 형태로 구현될 수 있는 "로직")을 구현하는 실행 가능한 명령어의 정렬된 목록을 포함할 수 있다.
실행 가능한 명령어는 전자 시스템의 프로세싱 모듈에 의해 실행될 때, 전자 시스템이 명령어를 수행하게 하는, 저장된 명령어를 가진 컴퓨터 프로그램 프로덕트로 구현될 수 있다. 컴퓨터 프로그램 프로덕트는 명령어 실행 시스템, 장치, 또는 디바이스로부터 명령어를 선택적으로 불러들이고(fetch) 그 명령어를 실행할 수 있는 전자식 컴퓨터 기반 시스템, 프로세서 내장 시스템, 또는 다른 시스템과 같은, 명령어 실행 시스템, 장치, 또는 디바이스에 의해, 또는 이들에 연결되어 사용하기 위한 임의의 비일시적(non-transitory) 컴퓨터 판독 가능한 저장 매체에 선택적으로 내장될 수 있다.
본 명세서의 맥락에서, 컴퓨터 판독 가능한 저장 매체는 명령어 실행 시스템, 장치 또는 디바이스에 의해 또는 이들에 연결되어 사용하기 위한, 프로그램을 저장할 수 있는 임의의 비일시적 수단이다. 비일시적 컴퓨터 판독 가능한 저장 매체는 선택적으로, 예컨대, 전자, 자성, 광, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스일 수 있다. 비일시적 컴퓨터 판독 가능한 매체의 더 구체적인 예의 개괄적인 목록은 하나 이상의 와이어를 가진 전기적 연결(전자), 휴대용 컴퓨터 디스켓(자성); 랜덤 액세스, 즉, 휘발성 메모리(전자), 판독 전용 메모리(전자), 예컨대, 플래시 메모리와 같은 삭제 가능하고 프로그래밍 가능한 판독 전용 메모리(전자), 예컨대, CD-ROM, CD-R, CD-RW와 같은 컴팩트 디스크 메모리(광), 및 디지털 다기능 디스크 메모리, 즉, DVD(광)를 포함한다. 프로그램이, 예컨대, 종이 또는 다른 매체의 광 스캐닝을 통해 전자적으로 캡처 된 후, 컴파일되거나, 해석되거나, 또는 필요하다면 적절한 방식으로 프로세싱된 다음 컴퓨터 메모리 또는 기계 메모리에 저장될 수 있으므로, 비일시적 컴퓨터 판독 가능한 저장 매체가 심지어 그 위에 프로그램이 인쇄될 수 있는 종이 또는 다른 적절한 매체일 수도 있음을 이해해야 한다.
이상에서 본 발명에 대한 기술 사상을 첨부 도면과 함께 서술하였지만, 이는, 본 발명의 바람직한 실시예을 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술 분야의 통상의 지식을 가진 자라면 누구나 본 발명의 기술 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.

Claims (14)

  1. 로봇의 디지털 제어장치를 통해 로봇의 모터 스킬을 학습, 개선 및 일반화하기 위해 펙인홀(Peg-In-Hole) 작업에서 홀-탐색(hole-search) 모터 스킬 및 펙-삽입(peg-insert) 모터 스킬에 적용되는 학습 프레임워크 설정방법으로서,
    (a) 로봇이 물리적 상호작용을 필요로 하는 작업을 수행하기 위해 시연자의 시연 정보로부터 모터 스킬을 배우는 모방 학습을 통해 로봇이 모터 스킬을 학습하기 위해 하기 단계를 포함하도록 이루어지는 단계; 및
    (a-1) 물리적 상호작용에 의해 발생하는 반발력 및 반발토크를 모델링하기 위하여 시연자의 시연 정보를 은닉 마르코프 모델(hidden Markov models)로 모델링하는 단계;
    (a-2) 상황에 적합한 로봇 행동 생성을 위하여 작업을 수행하도록 로봇 제어를 위한 동적 행동 프리미티브 모델(dynamic movement primitives models)로 모델링하는 단계;
    (a-3) 상기 은닉 마르코프 모델과 상기 동적 행동 프리미티브 모델을 하나의 모터 스킬로 결합하는 단계
    (b) 상기 단계(a)에서 상기 은닉 마르코프 모델의 파라미터 및 동적 행동 프리미티브 모델의 파라미터를 로봇이 스스로 트라이얼 및 에러를 통한 강화학습을 통해 최적화함으로써 로봇이 모터 스킬을 향상시키고 일반화하는 단계로 이루어지는, 로봇용 학습 프레임워크 설정방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 (a) 단계에서는 상기 은닉 마르코프 모델을 통해 반발력 신호 및 반발토크 신호를 인식하고, 상기 동적 행동 프리미티브 모델을 통해 시연자의 시연에 해당하는 모션 경로를 생성하기 위하여 상기 은닉 마르코프 모델 및 상기 동적 행동 프리미티브 모델의 파라미터를 결합시키는, 로봇용 학습 프레임워크 설정방법.
  5. 제4항에 있어서,
    상기 (a-1) 단계에서는, 작업에 부적합한 반발력 신호 및 반발토크 신호를 제거하기 위하여 로봇은 일련의 시연에 기초한 자기 재현을 통해 작업에 적합한 반발력 신호 및 반발토크 신호 및 해당 제어 신호를 추출하는, 로봇용 학습 프레임워크 설정방법.
  6. 제5항에 있어서,
    상기 (a-1) 단계에서는, 물리적 상호작용을 인식하기 위하여 펙을 기울여 홀을 탐색하는 틸트 서치 모션, 펙을 홀의 제1 지점에 접촉시키는 싱글 포인트 컨택 모션, 펙을 홀의 제1 지점 및 제2 지점에 접촉시키는 투 포인트 컨택 모션, 펙을 기울여 펙과 홀을 정렬시키는 정렬 모션, 및 펙을 홀에 밀어넣는 푸시 모션을 포함하는, 로봇용 학습 프레임워크 설정방법.
  7. 제1항에 있어서,
    상기 홀-탐색(hole-serch) 모터 스킬은 펙과 홀의 부정확한 현재 위치를 기준으로 홀이 있는 방향을 찾는 동작인, 로봇용 학습 프레임워크 설정방법.
  8. 제1항에 있어서,
    상기 펙-삽입(peg-insert) 모터 스킬은 홀 방향에 따라 홀에 펙을 삽입하는 동작인, 로봇용 학습 프레임워크 설정방법.
  9. 제1항에 있어서,
    상기 (b) 단계는,
    (b-1) 상기 은닉 마르코프 모델을 사용하여 최대 가능성을 갖는 모터 스킬을 선택하는 단계;
    (b-2) 강화학습을 통해 해당 동적 행동 프리미티브 모델의 파라미터를 재평가하는 단계; 및
    (b-3) 재평가된 동적 행동 프리미티브 모델에 의해 생성된 모션 경로로부터 상기 은닉 마르코프 모델의 파라미터를 재평가하는 단계;
    를 포함하는, 로봇용 학습 프레임워크 설정방법.
  10. 제9항에 있어서,
    상기 (b) 단계에서는 모터 스킬을 개선하고 일반화하기 위한 새로운 보상 기능을 설계하여 실행 시간 스텝이나 시간을 줄이고 반환 알고리즘으로 탐색을 가중시켜 정책 학습의 확장에 기초하여 모션 경로를 최적화하는, 로봇용 학습 프레임워크 설정방법.
  11. 제10항에 있어서,
    상기 (b) 단계에서는 반환을 통한 탐색 가중에 따른 정책 학습 알고리즘을 이용하여 해당 정책 파라미터에서 롤아웃의 예상 반환값을 최대화하는 정책 파라미터를 추정하는, 로봇용 학습 프레임워크 설정방법.
  12. 제10항에 있어서
    상기 (b) 단계에서는 개선 및 일반화 과정을 구분하기 위하여 상기 은닉 마르코프 모델로부터 생성된 임계값 모델을 사용하는, 로봇용 학습 프레임워크 설정방법.
  13. 삭제
  14. 삭제
KR1020180153423A 2018-12-03 2018-12-03 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치 KR102213061B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180153423A KR102213061B1 (ko) 2018-12-03 2018-12-03 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180153423A KR102213061B1 (ko) 2018-12-03 2018-12-03 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치

Publications (2)

Publication Number Publication Date
KR20200072592A KR20200072592A (ko) 2020-06-23
KR102213061B1 true KR102213061B1 (ko) 2021-02-09

Family

ID=71137994

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180153423A KR102213061B1 (ko) 2018-12-03 2018-12-03 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치

Country Status (1)

Country Link
KR (1) KR102213061B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897289B (zh) * 2020-08-05 2022-02-18 上海柏楚电子科技股份有限公司 电机驱动机构的力矩信息处理方法、装置、设备与介质
KR102644164B1 (ko) * 2020-09-16 2024-03-07 한국생산기술연구원 단위행동 딥러닝 모델의 학습 방법과 이를 이용한 로봇 제어 방법
CN112549028A (zh) * 2020-12-02 2021-03-26 中国科学院自动化研究所 基于动态运动基元和人工势场的双臂机器人轨迹规划方法
CN113485380B (zh) * 2021-08-20 2022-04-12 广东工业大学 一种基于强化学习的agv路径规划方法及系统
WO2023177131A1 (ko) * 2022-03-15 2023-09-21 네이버랩스 주식회사 로봇 스킬 학습을 위한 방법, 컴퓨터 시스템, 및 컴퓨터 프로그램
JP2023165307A (ja) * 2022-05-02 2023-11-15 三菱重工業株式会社 学習装置、学習方法及び学習プログラム
KR102551333B1 (ko) * 2022-12-30 2023-07-04 주식회사 아이브 계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치 및 그 방법
CN116985151B (zh) * 2023-09-28 2024-01-26 西北工业大学太仓长三角研究院 一种约束桁架内机械臂强化学习避障规划与训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101307521B1 (ko) * 2012-04-13 2013-09-12 재단법인대구경북과학기술원 로봇의 직접 교시 방법, 교시 데이터의 보정 방법 및 로봇 제어 장치
WO2018042730A1 (ja) * 2016-08-30 2018-03-08 本田技研工業株式会社 ロボットの制御装置およびロボットの制御方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2637594A4 (en) * 2010-11-11 2015-05-06 Univ Johns Hopkins ROBOT SYSTEMS FOR HUMAN MACHINE COLLABORATION
CN105009027B (zh) * 2012-12-03 2018-09-04 纳维森斯有限公司 用于估计对象的运动的系统和方法
KR101577711B1 (ko) 2014-05-23 2015-12-15 한양대학교 산학협력단 시간 및 공간적 관계를 이용한 작업 솜씨 학습 방법
KR102106684B1 (ko) * 2018-02-22 2020-05-04 한국과학기술원 동적인 피쳐 획득과 분류를 위한 공동 학습 프레임워크

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101307521B1 (ko) * 2012-04-13 2013-09-12 재단법인대구경북과학기술원 로봇의 직접 교시 방법, 교시 데이터의 보정 방법 및 로봇 제어 장치
WO2018042730A1 (ja) * 2016-08-30 2018-03-08 本田技研工業株式会社 ロボットの制御装置およびロボットの制御方法

Also Published As

Publication number Publication date
KR20200072592A (ko) 2020-06-23

Similar Documents

Publication Publication Date Title
KR102213061B1 (ko) 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치
US20240017405A1 (en) Viewpoint invariant visual servoing of robot end effector using recurrent neural network
US20220105624A1 (en) Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
JP7196279B2 (ja) 傾きが未知のペグ・イン・ホール・タスクの実行
Fu et al. One-shot learning of manipulation skills with online dynamics adaptation and neural network priors
Hsiao et al. Grasping pomdps
Zaremba et al. Reinforcement learning neural turing machines-revised
Tan et al. Simulation-based design of dynamic controllers for humanoid balancing
CN112631128B (zh) 一种多模异构信息融合的机器人装配技能学习方法及系统
KR101577711B1 (ko) 시간 및 공간적 관계를 이용한 작업 솜씨 학습 방법
Hou et al. Knowledge-driven deep deterministic policy gradient for robotic multiple peg-in-hole assembly tasks
CN112720453A (zh) 用于训练机器人系统的操纵技能的方法和设备
Ewerton et al. Assisting movement training and execution with visual and haptic feedback
US20220402140A1 (en) Learning to acquire and adapt contact-rich manipulation skills with motion primitives
Nikandrova et al. Towards informative sensor-based grasp planning
Jha et al. Design of adaptive compliance controllers for safe robotic assembly
US20230241772A1 (en) Method for controlling a robotic device
KR101676541B1 (ko) 작업 솜씨를 학습하는 방법 및 이를 이용하는 로봇
Prescott Explorations in reinforcement and model-based learning
KR20140133417A (ko) 시간 및 공간적 엔트로피를 이용한 작업 솜씨 학습 방법
Pérez-Dattari et al. Deep Metric Imitation Learning for Stable Motion Primitives
US20210326754A1 (en) Storage medium, learning method, and information processing apparatus
Lee et al. Skill learning using temporal and spatial entropies for accurate skill acquisition
Danielsen Vision-based robotic grasping in simulation using deep reinforcement learning
Santos et al. Cognitive skills models: Towards increasing autonomy in underwater intervention missions

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant