KR102551333B1

KR102551333B1 - 계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치 및 그 방법

Info

Publication number: KR102551333B1
Application number: KR1020220190046A
Authority: KR
Inventors: 김원철
Original assignee: 주식회사 아이브
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-07-04

Abstract

본 개시는 계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치 및 그 방법에 관한 것이다. 본 개시에 따른 장치는, 로봇 팔 및 적어도 하나의 센서와 통신하도록 설정된 통신부; 및 상기 로봇 팔 및 상기 센서의 동작을 제어하는 프로세서를 포함하고, 상기 프로세서는, DMP(dynamic movement primitive) 알고리즘을 이용하여 신경망을 프리-트레이닝(pre-training)하고, 상기 신경망으로부터 경로 데이터를 도출하고, 상기 센서로부터 물체의 이미지를 획득하고, 상기 물체의 이미지에 기반하여 상기 물체의 위치 데이터를 계산하고, 상기 경로 데이터에 기반하여 계산된 보상(reward) 및 상기 물체의 위치 데이터에 기초하여 상기 보상이 최대치가 되는 파라미터를 계산하며, 상기 파라미터를 이용하여 상기 신경망을 강화 학습(reinforce learning)하는 것을 특징으로 한다.

Description

계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치 및 그 방법 {APPARATUS AND METHOD FOR LEARNING THE OPTIMAL PATH OF A ROBOT ARM USING HIERARCHICAL REINFORCEMENT LEARNING}

본 개시는 최적 경로 학습 장치에 관한 것이다. 보다 상세하게는, 본 개시는 계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치 및 그 방법에 관한 것이다.

로봇 팔이 일정한 동작을 수행하도록 학습시킴에 있어 DMP(Dynamic Movement Primitive) 알고리즘이 이용될 수 있다. DMP 알고리즘은 데모(demonstration)로부터 복잡한 동작을 모방하기 위한 알고리즘일 수 있다. DMP 알고리즘에 기반하여 데모는 비선형의 미분방정식으로 표현될 수 있다.

그러나, DMP 알고리즘에 기반한 학습 방법은 데모가 아닌 새로운 동작을 생성하지 못하는 문제가 있다. 또한, 연속되는 일련의 동작을 포함하는 복합 동작(예: 픽 앤 플레이스(pick and place))을 학습시키는 경우, 최적의 경로 데이터를 생성하지 못하는 문제가 있다. 따라서, 복합 동작을 효율적으로 수행하기 위하여 로봇 팔의 최적 경로를 계산하기 위한 강화학습 알고리즘이 고안될 수 있다.

대한민국 등록특허 제10-1712116호 (2017.02.24)

본 개시에 개시된 실시예는 계층적 강화학습에 기반하여 DMP 알고리즘을 학습하고 일반화하는 최적 경로 알고리즘을 제공하는데 그 목적이 있다.

본 개시가 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 기술적 과제를 달성하기 위한 본 개시에 따른 계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치는, 로봇 팔 및 적어도 하나의 센서와 통신하도록 설정된 통신부; 및 상기 로봇 팔 및 상기 센서의 동작을 제어하는 프로세서를 포함하고, 상기 프로세서는, DMP(dynamic movement primitive) 알고리즘을 이용하여 신경망을 프리-트레이닝(pre-training)하고, 상기 신경망으로부터 경로 데이터를 도출하고, 상기 센서로부터 물체의 이미지를 획득하고, 상기 물체의 이미지에 기반하여 상기 물체의 위치 데이터를 계산하고, 상기 경로 데이터에 기반하여 계산된 보상(reward) 및 상기 물체의 위치 데이터에 기초하여 상기 보상이 최대치가 되는 파라미터를 계산하며, 상기 파라미터를 이용하여 상기 신경망을 강화 학습(reinforce learning)하는 것을 특징으로 한다.

이때, 상기 물체의 이미지는, 상기 물체에 대하여 복수의 지정된 각도에서 촬영된 2D(dimensional) 이미지를 포함할 수 있다.

또한, 상기 적어도 하나의 센서는, 깊이 카메라를 포함하고, 상기 물체의 이미지는, 상기 물체에 대한 3D(dimensional) 이미지를 포함할 수 있다.

한편, 상기 강화 학습은, 액터-크리틱(actor-critic) 방식에 기반하고, 상기 프로세서는, 주 제어기 및 보조 제어기를 포함하는 계층적 강화학습 모델 학습부를 포함하고, 상기 주 제어기는, 상기 액터-크리틱 방식에 기반하여 적어도 하나의 목표(goal)을 생성하고, 상기 보조 제어기는, 상기 액터-크리틱 방식에 기반하여 상기 적어도 하나의 목표에 대한 행동(action)을 생성하도록 설정될 수 있다.

이때, 상기 로봇 팔의 작업이 일련의 동작으로 구성된 복합 동작인 경우, 상기 주 제어기는, 복수의 목표를 생성하고, 상기 보조 제어기는, 상기 복수의 목표 각각을 성취하기 위한 복수의 행동을 생성하도록 더 설정될 수 있다.

이때, 상기 프로세서는, 상기 복수의 목표가 지정된 시간 내 성취되지 못한 경우 상기 주 제어기를 리셋할 수 있고, 상기 복합 동작이 지정된 시간 내 수행되지 못한 경우 상기 보조 제어기를 리셋할 수 있다.

또한, 상기 프로세서는, 상기 프리-트레이닝 시, 상기 신경망에 상기 로봇 팔의 설정 값을 입력하고, 상기 로봇 팔의 설정 값은, 상기 로봇 팔의 카르테시안 공간에서의 위치(x, y, z), 쿼터니언 공간에서의 방향(q1, q2, q3), 및 상기 로봇 팔에 부착된 집게의 위치(e)를 포함할 수 있다.

상술한 기술적 과제를 달성하기 위한 본 개시에 따른 계층적 강화학습을 이용한 상기 로봇 팔의 최적 경로 학습 방법은, DMP(dynamic movement primitive) 알고리즘을 이용하여 신경망을 프리-트레이닝(pre-training)하는 단계; 상기 신경망으로부터 경로 데이터를 도출하는 단계; 상기 장치의 적어도 하나의 센서로부터 물체의 이미지를 획득하는 단계; 상기 물체의 이미지에 기반하여 상기 물체의 위치 데이터를 계산하는 단계; 상기 경로 데이터에 기반하여 계산된 보상(reward) 및 상기 물체의 위치 데이터에 기초하여 상기 보상이 최대치가 되는 파라미터를 계산하는 단계; 및 상기 파라미터를 이용하여 상기 신경망을 강화 학습(reinforce learning)하는 단계;를 포함할 수 있다.

이 외에도, 본 개시를 구현하기 위한 실행하기 위한 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 더 제공될 수 있다.

이 외에도, 본 개시를 구현하기 위한 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

본 개시의 전술한 과제 해결 수단에 의하면, 계층적 강화학습에 기반하여 DMP를 학습함으로써, 로봇 팔이 최적의 이동 경로에서 복합 동작을 수행하도록 하는 효과를 제공한다.

본 개시의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 개시의 일 실시 예에 따른, 빈 피킹 로봇 시스템을 도시한 것이다.
도 2는 본 개시의 일 실시 예에 따른, 로봇의 구조를 도시한 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 최적 경로 알고리즘을 도시한 것이다.
도 4는 본 개시의 일 실시 예에 따른 복수의 지정된 각도에서 촬영된 물체를 도시한 것이다.
도 5는 본 개시의 일 실시 예에 따른 계층적 강화 학습 동작을 설명하기 위한 흐름도이다.
도 6은 본 개시의 일 실시 예에 따른 주 제어기 및 보조 제어기의 액터-크리틱 방식에 기반한 강화 학습을 도시한 것이다.
도 7은 본 개시의 일 실시 예에 따른 주 제어기와 보조 제어기의 프레임워크를 도시한 것이다.
도 8은 본 개시의 일 실시 예에 따른, 경유 작업을 도시한 것이다.

본 개시 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 개시가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 개시가 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우 뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 본 개시의 작용 원리 및 실시예들에 대해 설명한다.

본 명세서에서 '본 개시에 따른 장치'는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 본 개시에 따른 장치는, 컴퓨터, 서버 장치 및 휴대용 단말기를 모두 포함하거나, 또는 어느 하나의 형태가 될 수 있다.

여기에서, 상기 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함할 수 있다.

상기 서버 장치는 외부 장치와 통신을 수행하여 정보를 처리하는 서버로써, 애플리케이션 서버, 컴퓨팅 서버, 데이터베이스 서버, 파일 서버, 게임 서버, 메일 서버, 프록시 서버 및 웹 서버 등을 포함할 수 있다.

상기 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.

도 1은 본 개시의 일 실시 예에 따른, 빈 피킹 로봇 시스템을 도시한 것이다.

일 실시 예에서, 빈 피킹 로봇 시스템(10)은 빈 피킹 로봇(이하 로봇, 100) 및 물체(150)를 포함할 수 있다. 도 1에 도시되지는 않았으나, 빈 피킹 로봇 시스템(10)은 로봇(100)을 제어하기 위한 컴퓨팅 장치(예: 최적 경로 학습 장치) 및 물체(150)를 포함한 주변 환경을 인지하기 위한 적어도 하나의 센서(220)를 포함할 수 있다.

일 실시 예에서, 로봇(100)은 물체(150)의 위치 및 형상을 인식하고, 물체(150)를 집을 수 있다. 로봇(100)은 물체(150)를 지정된 위치로 이동시킨 뒤, 지정된 위치에 내려놓을 수 있다. 상술된 로봇(100)의 동작은 연속되는 일련의 동작으로 구성된 복합 동작(예: 픽 앤 플레이스(pick and place))으로 지칭될 수 있다.

일 실시 예에서, 로봇(100)이 지정된 동작을 수행하도록 학습시키기 위하여 DMP(dynamic movement primitive) 알고리즘이 이용될 수 있다. DMP 알고리즘은 아래 수학식 1 및 수학식 2로 나타낼 수 있다.

수학식 1 및 2에서, x, v, v0 및 xg는 위치, 속도, 초기 위치 및 대상 위치로 정의할 수 있다. 또한, 수학식 1 및 2에서, τ, K 및 D 각각은 시간 스케일, 스프링 및 댐핑을 조정하기 위한 상수를 나타낼 수 있다.

그러나, 위와 같은 DMP 알고리즘은 데모를 통해 학습했던 동작을 다시 3차원 공간에서 수행할 뿐이고, 새로운 동작을 생성 및 학습하는 데 한계가 있다. 이하에서, 계층적 강화 학습을 통하여 로봇(100)에게 복합 동작에 있어서 최적 경로를 학습시키기 위한 로봇 팔의 최적 경로 학습 장치를 설명한다.

도 2는 본 개시의 일 실시 예에 따른, 로봇의 구조를 도시한 블록도이다.

도 2를 참고하면, 로봇(100)은 로봇 팔(200), 최적 경로 학습 장치(210), 및/또는 적어도 하나의 센서(220)를 포함할 수 있다. 로봇 팔(200), 최적 경로 학습 장치(210), 및/또는 적어도 하나의 센서(220)은 각각 전기적으로 연결될 수 있다.

일 실시 예에서, 로봇 팔(200)은 최적 경로 학습 장치(210)에 의해 제어될 수 있다. 로봇 팔(200)은 최적 경로 학습 장치(210)의 프로세서(212)에 의해 지정된 동작을 수행하도록 제어될 수 있다. 예를 들어, 로봇 팔(200)은 프로세서(212)의 제어에 따라, 물체(150)를 집거나 이동하거나 내려놓을 수 있다.

일 실시 예에서, 로봇 팔(200)은 적어도 하나의 관절을 포함할 수 있다. 적어도 하나의 관절 각각은 프로세서(212)에 의해 제어될 수 있다. 일 실시 예에서, 로봇 팔(200)은 물체를 집기 위한 집게(end-effector)를 포함할 수 있다.

일 실시 예에서, 최적 경로 학습 장치(210)는 프로세서(212), 통신부(214), 및/또는 메모리(216)를 포함할 수 있다.

일 실시 예에서, 프로세서(212)는 본 장치 내의 구성요소들의 동작을 제어하기 위한 알고리즘 또는 알고리즘을 재현한 프로그램에 대한 데이터를 저장하는 메모리(216), 및 메모리(216)에 저장된 데이터를 이용하여 전술한 동작을 수행하는 적어도 하나의 프로세서로 구현될 수 있다. 이때, 메모리(216)와 프로세서(212)는 각각 별개의 칩으로 구현될 수 있다. 또는, 메모리(216)와 프로세서(212)는 단일 칩으로 구현될 수도 있다.

또한, 프로세서(212)는 이하의 도 2 내지 도 8에서 설명되는 본 개시에 따른 다양한 실시 예들을 본 장치 상에서 구현하기 위하여, 위에서 살펴본 구성요소들을 중 어느 하나 또는 복수를 조합하여 제어할 수 있다.

일 실시 예에서, 프로세서(212)는 계층적 강화학습 모델 학습부(250)를 포함할 수 있다. 계층적 강화학습 모델 학습부(250)는 주 제어기(252) 및 보조 제어기(254)를 포함할 수 있다. 일 실시 예에서, 주 제어기(252)는 내부 목표(goal)에 대한 정책(policy)을 학습할 수 있다. 일 실시 예에서, 보조 제어기(254)는 주어진 목표를 성취하기 위한 행동(action)에 대한 정책을 학습할 수 있다. 계층적 강화학습 모델 학습부(250)의 구체적인 동작은 후술한다.

상기 구성요소들 중 통신부(214)는 외부 장치와 통신을 가능하게 하는 하나 이상의 구성 요소를 포함할 수 있다.

유선 통신 모듈은, 지역 통신(Local Area Network; LAN) 모듈, 광역 통신(Wide Area Network; WAN) 모듈 또는 부가가치 통신(Value Added Network; VAN) 모듈 등 다양한 유선 통신 모듈뿐만 아니라, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), DVI(Digital Visual Interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 다양한 케이블 통신 모듈을 포함할 수 있다.

무선 통신 모듈은 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution), 4G, 5G, 6G 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.

메모리(216)는 본 장치의 다양한 기능을 지원하는 데이터와, 제어부의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들(예를 들어, 음악 파일, 정지영상, 동영상 등)을 저장할 수 있고, 본 장치에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 본 장치의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다.

이러한, 메모리(216)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 메모리는 본 장치와는 분리되어 있으나, 유선 또는 무선으로 연결된 데이터베이스가 될 수도 있다.

일 실시 예에서, 메모리(216)에는 최적 경로 알고리즘(260)이 저장될 수 있다. 계층적 강화학습 모델 학습부(250)는 최적 경로 알고리즘(260)을 학습 및 관리하여 로봇 팔(200)이 복합 동작을 수행하기 위한 최적 경로를 계산할 수 있다.

적어도 하나의 센서(220)는 본 장치의 내 정보, 본 장치를 둘러싼 주변 환경 정보 및 사용자 정보 중 적어도 하나를 센싱하고, 이에 대응하는 센싱 신호를 발생시킨다. 제어부는 이러한 센싱 신호에 기초하여, 본 장치의 구동 또는 동작을 제어하거나, 본 장치에 설치된 응용 프로그램과 관련된 데이터 처리, 기능 또는 동작을 수행할 수 있다.

상기와 같은, 적어도 하나의 센서(220)는 근접센서(proximity sensor), 조도 센서(illumination sensor), 터치 센서(touch sensor), 가속도 센서(acceleration sensor), 자기 센서(magnetic sensor), 중력 센서(G-sensor), 자이로스코프 센서(gyroscope sensor), 모션 센서(motion sensor), RGB 센서, 적외선 센서(IR 센서: infrared sensor), 지문인식 센서(finger scan sensor), 초음파 센서(ultrasonic sensor), 광 센서(optical sensor, 예를 들어, 카메라), 마이크로폰, 환경 센서(예를 들어, 기압계, 습도계, 온도계, 방사능 감지 센서, 열 감지 센서, 가스 감지 센서 중 적어도 하나를 포함함), 화학 센서(예를 들어, 헬스케어 센서, 생체 인식 센서 등) 중 적어도 하나를 포함할 수 있다. 한편, 본 장치는, 이러한 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.

일 실시 예에서, 적어도 하나의 센서(220)는 2D 카메라(예: RGB 카메라) 및 3D 카메라(예: 깊이 카메라)를 포함할 수 있다. 프로세서(212)는 적어도 하나의 센서(220)를 통하여 물체의 이미지를 획득하고, 물체의 이미지에 기반하여 물체를 감지(detection)할 수 있다. 프로세서(212)는 감지된 물체의 위치를 식별할 수 있다.

도 2에 도시된 구성 요소들의 성능에 대응하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성 요소들의 상호 위치는 시스템의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.

한편, 도 2에서 도시된 각각의 구성요소는 소프트웨어 및/또는 Field Programmable Gate Array(FPGA) 및 주문형 반도체(ASIC, Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미한다.

도 3은 본 개시의 일 실시 예에 따른 최적 경로 알고리즘을 도시한 것이다.

일 실시 예에서, 최적 경로 알고리즘(260)은 계층적 강화 학습을 위한 프리-트레이닝(pre-training) 단계(300)를 포함할 수 있다. 이하에서, 프리-트레이닝 단계(300)에 대하여 설명한다.

일 실시 예에서, DMP 알고리즘의 포싱 텀(forcing term) f는 데모로부터 학습된 복잡한 동작을 생성할 수 있도록 하는 비선형 미분 함수이다. f는 로봇 팔(200)의 동작 중 단조적으로(monotonically) 변화하는 위상 변수(s)에 의존적일 수 있다. 위상 변수(s)는 수학식 3을 통해 얻어질 수 있다. α는 기지정된 상수로 정의할 수 있다.

본 개시에서는, 데모로부터 생성되는 비선형 함수를 나타내기 위하여 심층 신경망(deep neural networks, DNN)(310)을 이용한 딥 러닝 방식이 제안될 수 있다.

수학식 1에 기반하여,

은 수학식 4와 같이 표현될 수 있다.

수학식 4에서,

및 g는 각각 x(0) 및 x(T)로 설정될 수 있다.

을 획득하기 위하여, 일련의 동작인 x(t)가 데모로부터 기록되고, 도함수 v(t) 및 v'(t)이 매 시점 계산될 수 있다. 프리-트레이닝 단계(300)는 시스템의 복잡성(complexity)을 제한하기 위하여 표준 시스템(canonical system, 302)을 이용할 수 있다. 이 때, 템포럴 스케일링(temporal scailing) τ가 적절하게 조정될 수 있다.

일 실시 예에서,

이 위상 변수에 의존적임에 따라, DNN(310)의 입력 역시 위상 변수에 의존적이게 되고 DNN(310)은 포싱 팩터(forcing factor, f(s))를 출력할 수 있다. 표준 시스템(302)에서 선형 회귀(linear regression) 알고리즘을 통해

과 f(s) 간의 손실 함수를 최소화되는 방향으로 최적화될 수 있다.

프리-트레이닝 단계(300)에서, 표준 시스템(302)으로부터 도출된 s 및 로봇 팔의 설정 값(340)이 DNN(310)으로 입력될 수 있다. 예를 들어, 로봇 팔의 설정 값은 로봇 팔의 카르테시안 공간에서의 위치(x, y, z), 쿼터니언 공간에서의 방향(q1, q2, q3), 및/또는 로봇 팔에 부착된 집게의 위치(e)을 포함할 수 있다.

이하에서, 본 개시의 계층적 강화학습 방법을 설명한다. 이하에서, 최적 경로 알고리즘(260)은 계층적 강화학습 모델 학습부(250)에 의해 실행되는 것으로 이해될 수 있다.

일 실시 예에서, 프리 트레이닝된 신경망(310)을 통해 비선형 미분 함수 f가 도출될 수 있다. 도출된 f에 기반하여 DMP 알고리즘은 데모에서의 동작을 모방(imitate)할 수 있다. 단지, 데모의 동작을 모방하는데 그치지 않고, 목표(goal)까지의 최적 경로를 스스로 학습하기 위하여 계층적 강화학습 방식이 이용될 수 있다.

본 개시의 계층적 강화학습에서, 정책(policy)은 신경망(310)의 가중치와 파라미터를 최적화함으로써, 수학식 5의 축적된 보상 R(reward, 320)을 최대화하는 방향으로 개선될 수 있다.

수학식 5에서,

는 최종 시점의 보상으로,

는 직접 보상으로 정의될 수 있다.

는 직접 제어 보상(immediate control reward)으로 정의될 수 있다. 수학식 5의 보상 함수는 작업(task)에 의존할 수 있다. 일 실시 예에서, 정책은 반복적인 탐색(exploration)과 파라미터 업데이트를 통해 개선될 수 있다.

일 실시 예에서, 프리 트레이닝 네트워크의 초기화에 따라, 최적 경로 알고리즘(260)은 관찰된 동작을 생성하고, 수차례 반복적인 파라미터 업데이트를 통하여 보상 함수를 최대화하는 동작들을 생성할 것으로 기대될 수 있다. 이 후, 최적 경로 알고리즘(260)은 탐색에 기초하여 새로우 파라미터를 생성할 수 있다. 탐색은 DMP 알고리즘의 결과에 기초하여 수행될 수 있다.

일 실시 예에서, 계층적 강화학습 모델 학습부(250)는 물체의 위치(330)에 기반하여 파라미터를 업데이트할 수 있다. 물체의 위치는 적어도 하나의 센서(220)를 통해 획득될 수 있다. 적어도 하나의 센서(220)는 2D 카메라 및/또는 3D 카메라일 수 있다. 적어도 하나의 센서(220)가 2D 카메라인 경우, 계층적 강화학습 모델 학습부(250)는 물체의 2차원 공간 상의 위치를 획득할 수 있다.

도 4를 참조하면, 적어도 하나의 센서(220)는 복수의 지정된 각도에서 물체를촬영할 수 있다. 예를 들어, 적어도 하나의 센서(220)는 물체를 좌측면, 우측면, 정면에서 촬영할 수 있다. 촬영된 이미지는 각각 이미지(400, 410, 420)과 같이 획득될 수 있다. 계층적 강화학습 모델 학습부(250)는 복수의 이미지에 기반하여 3차원 공간 상에서 물체의 위치를 추정할 수 있다.

도 5는 본 개시의 일 실시 예에 따른 계층적 강화 학습 동작을 설명하기 위한 흐름도이다.

본 개시에 따른 계층적 강화 학습은 시간적 추상화(temporal abstractions)를 SMDP(Semi-Markov Decision Process)로 정의할 수 있다. 최적 경로 알고리즘(260)은 복합 동작에서 발생하는 스파스 피드백(sparse feedback) 문제를 해결하기 위해 도 5에 따른 계층적 강화 학습을 이용할 수 있다. 스파스 피드백 문제는 복합 동작 중 일부를 성공하더라도 나머지를 성공하지 못하면 전체 보상을 경험하지 못하여 일부에 대해서만 학습이 이루어지는 문제로 이해될 수 있다.

참조 번호 500은 액터-크리틱(actor-critic) 알고리즘에 기반한 주 제어기(252) 및 보조 제어기(254)의 동작을 도시한 것이다. 주 제어기(252) 및 보조 제어기(254)는 각각 별개의 액터-크리틱 네트워크로 이해될 수 있다.

도 6을 참조하면, 참조 번호 500의 주 제어기(252) 및 보조 제어기(254)의 동작은 액터-크리틱(actor-critic) 방식에 기반할 수 있다. 단계(510)에서, 주 제어기(252)는 상태(

)를 수신하고, 목표(

)를 선택할 수 있다. 이 때, 주 제어기(252)는 축적된 외부 보상(cumulative extrinsic reward,

)을 최적화하기 위한 것으로, 보조 제어기(254)는 축적된 내부 보상(cumulative intrinsic reward,

)을 최적화하기 위한 것으로 이해될 수 있다. 복합 동작(예: 픽 앤 플레이스)에 있어서,

는 로봇 팔(200)이 지정된 위치에 도착했는지를 기준으로 0 또는 1로 결정될 수 있다. 즉,

는 행동이 각 목표를 완성하는데 얼마나 영향을 끼쳤는지에 의해 결정될 수 있다. 복합 동작(예: 픽 앤 플레이스)에 있어서,

는 로봇 팔(200)이 현재 얼마나 목표 위치에 근접했는지를 기준으로 계산될 수 있다. 즉,

는 행동이 전체 작업(task)(예: 복합 동작)을 완성하는데 영향을 끼쳤는지에 의해 결정될 수 있다.

다시 도 5를 참조하면, 작업을 완성하기 위하여, 주 제어기(252)에 의해 복수의 목표가 생성되고, 각각의 목표는 보조 제어기(254)에 의해 결정된 복수의 행동에 의해 성취될 수 있다. DMP 알고리즘은 시간에 의존적이므로, 모든 목표 및 전체 작업은 지정된 시간 내 수행되어야 한다.

동작 510에서, 계층적 강화학습 모델 학습부(250)는 지정된 시간이 경과하였는지 확인할 수 있다. 지정된 시간이 경과한 경우, 계층적 강화학습 모델 학습부(250)는 보조 제어기(254)를 리셋(reset)할 수 있다. 지정된 시간이 경과되지 않은 경우, 계층적 강화학습 모델 학습부(250)는 동작 520으로 진행할 수 있다.

동작 520에서, 계층적 강화학습 모델 학습부(250)는 목표(g)가 성취되었는지 확인할 수 있다. 목표(g)가 성취되지 않은 경우, 주 제어기(252)를 리셋할 수 있다. 목표(g)가 성취된 경우, 계층적 강화학습 모델 학습부(250)는 동작 530으로 진행할 수 있다.

동작 530에서, 계층적 강화학습 모델 학습부(250)는 작업이 성공적으로 수행되었는지 확인할 수 있다. 작업이 성공적으로 수행되지 않은 경우, 계층적 강화학습 모델 학습부(250)는 보조 제어기(254)를 리셋할 수 있다. 작업이 성공적으로 수행된 경우, 계층적 강화학습 모델 학습부(250)는 학습을 종료할 수 있다.

도 7은 본 개시의 일 실시 예에 따른 주 제어기와 보조 제어기의 프레임워크를 도시한 것이다.

일 실시 예에서, 작업을 수행하기 위하여, 참조 번호 710과 같이 주 제어기(252)에 의해 복수의 목표가 생성되고, 참조 번호 720과 같이 보조 제어기(254)에 의해 각각의 목표를 성취하기 위한 복수의 행동이 생성될 수 있다.

일 실시 예에서, 주 제어기(252) 및 보조 제어기(254) 각각에 있어서 액터 네트워크는 프리-트레이닝을 통해 초기화될 수 있다. 에피소드는 작업을 완료하기 위한 DMP 시퀀스를 나타내며 원자 행동을 실행하는 단계로 구성될 수 있다. 일 실시 예에서, 각각의 목표는 하나의 DMP 시퀀스를 달성하기 위한 행동과 관련된 DMP를 카테고리화할 수 있다. 계층적 강화학습 모델 학습부(250)가 목표를 달성하면, 새로운 목표가 주 제어기(252)의 액터 네트워크로부터 생성될 수 있다.

일 실시 예에서, 주 제어기(252) 및 보조 제어기(254) 각각에 있어서 액터 네트워크는 숨겨진 레이어(hidden layer)를 위해 32개의 유닛으로 완전히 연결된(fully connected) 3개의 레이어로 구성되고 크리틱 네트워크는 128개의 동일한 수의 숨겨진 레이어로 구성될 수 있다. 각각의 학습 과정에서, 액터 네트워크는 가장 높게 예측된 Q 값을 선택하고, 주어진 상태에 대응하는 행동을 획득할 수 있다. 액터 네트워크가 정책(policy)를 결정하므로, 프리-트레이닝은 주 제어기(252) 및 보조 제어기(254) 각각의 액터 네트워크에 대하여만 수행될 수 있다. 프리-트레이닝 모델에 의해, 최적 경로 알고리즘이 초기화될 수 있다.

도 8은 본 개시의 일 실시 예에 따른, 경유 작업을 도시한 것이다.

일 실시 예에서, 계층적 강화학습에서 우월한 성능을 내기 위하여 경유 작업(via-point task)이 도입될 수 있다. 경유 작업에서, 로봇 팔(200)은 복수의 지점(예: 경유 지점(820), 경유 지점(830))을 경유하여 지정된 위치(840)에 도착하도록 제어될 수 있다. 복수의 지점을 경유하는 작업은 복합 동작을 구성할 수 있다. 경유 작업에서의

및

는 수학식 6 및 수학식 7과 같이 나타낼 수 있다.

수학식 7에서, x는 지정된 위치(예: 경유 지점(820), 경유 지점(830))로, C1(t) 및 C2(t)는 각각 현재 위치와 경유 지점(820) 및 경유 지점(830) 사이의 거리로 정의될 수 있다.

는 고속을 면하기 위해 정의될 수 있다.

경유 작업에서, 주 제어기(252)의 액터 네트워크는 상태에 기반하여 목표를 결정할 수 있다. 이 때, 목표는 복수의 지점(예: 위치와 경유 지점(820) 및 경유 지점(830)) 및 지정된 위치(840)를 포함할 수 있다. 또한, 상태는 표준 시스템의 출력일 수 있다.

경유 작업에서, 보조 제어기(254)의 액터 네트워크는 주 제어기(252)의 액터 네트워크의 출력, 복수의 목표들, 및 표준 시스템의 출력으로 구성된 상태에 따라 포싱 텀(forcing term) f를 제공할 수 있다.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 개시가 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.

Claims

로봇 팔 및 적어도 하나의 센서와 통신하도록 설정된 통신부; 및
상기 로봇 팔 및 상기 센서의 동작을 제어하는 프로세서를 포함하고,
상기 프로세서는,
DMP(dynamic movement primitive) 알고리즘을 이용하여 신경망을 프리-트레이닝(pre-training)하고,
상기 신경망으로부터 경로 데이터를 도출하고,
상기 센서로부터 물체에 대하여 복수의 지정된 각도에서 촬영된 2D(dimensional) 이미지를 포함하는 물체의 이미지를 획득하고,
상기 물체의 이미지에 기반하여 상기 물체의 위치 데이터를 계산하고,
상기 경로 데이터에 기반하여 계산된 보상(reward) 및 상기 물체의 위치 데이터에 기초하여 상기 보상이 최대치가 되는 파라미터를 계산하며,
상기 파라미터를 이용하여 상기 신경망을 액터-크리틱(actor-critic) 방식 기반으로 강화 학습(reinforce learning)하고,
주 제어기 및 보조 제어기를 포함하는 계층적 강화학습 모델 학습부를 포함하고,
상기 로봇 팔의 작업이 일련의 동작으로 구성된 복합 동작인 경우,
상기 주 제어기는, 상기 액터-크리틱 방식에 기반하여 복수의 목표(goal)을 생성하고,
상기 보조 제어기는, 상기 액터-크리틱 방식에 기반하여 상기 복수의 목표 각각을 성취하기 위한 복수의 행동(action)을 생성하도록 설정되고,
상기 계층적 강화학습 모델 학습부는, 하기 [수학식 5]를 기반으로 강화 학습하는 것인,
계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치.
[수학식 5]

이때, R은 축적된 보상(reward)이고,
은 최종 시점의 보상이며,
는 직접 보상이고,
는 직접 제어 보상(immediate control reward)임.
삭제
제1 항에 있어서,
상기 적어도 하나의 센서는, 깊이 카메라를 포함하고,
상기 물체의 이미지는, 상기 물체에 대한 3D(dimensional) 이미지를 포함하는,
최적 경로 학습 장치.
삭제
삭제
제1 항에 있어서,
상기 프로세서는, 상기 복수의 목표가 지정된 시간 내 성취되지 못한 경우, 상기 주 제어기를 리셋하는,
계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치.
제6 항에 있어서,
상기 프로세서는, 상기 복합 동작이 지정된 시간 내 수행되지 못한 경우, 상기 보조 제어기를 리셋하는,
계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치.
제7 항에 있어서,
상기 프로세서는, 상기 프리-트레이닝 시, 상기 신경망에 상기 로봇 팔의 설정 값을 입력하고,
상기 로봇 팔의 설정 값은, 상기 로봇 팔의 카르테시안 공간에서의 위치(x, y, z), 쿼터니언 공간에서의 방향(q1, q2, q3), 및 상기 로봇 팔에 부착된 집게의 위치(e)를 포함하는,
계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 장치.
로봇 팔 및 적어도 하나의 센서를 포함한 장치에 의해 수행되는, 계층적 강화학습을 이용한 상기 로봇 팔의 최적 경로 학습 방법에 있어서,
DMP(dynamic movement primitive) 알고리즘을 이용하여 신경망을 프리-트레이닝(pre-training)하는 단계;
상기 신경망으로부터 경로 데이터를 도출하는 단계;
상기 센서로부터 물체에 대하여 복수의 지정된 각도에서 촬영된 2D(dimensional) 이미지를 포함하는 물체의 이미지를 획득하는 단계;
상기 물체의 이미지에 기반하여 상기 물체의 위치 데이터를 계산하는 단계;
상기 경로 데이터에 기반하여 계산된 보상(reward) 및 상기 물체의 위치 데이터에 기초하여 상기 보상이 최대치가 되는 파라미터를 계산하는 단계; 및
상기 파라미터를 이용하여 상기 신경망을 액터-크리틱(actor-critic) 방식 기반으로 강화 학습(reinforce learning)하는 단계;를 포함하고,
주 제어기 및 보조 제어기를 포함하는 계층적 강화학습 모델 학습부를 포함하고,
상기 로봇 팔의 작업이 일련의 동작으로 구성된 복합 동작인 경우,
상기 주 제어기는, 상기 액터-크리틱 방식에 기반하여 복수의 목표(goal)을 생성하고,
상기 보조 제어기는, 상기 액터-크리틱 방식에 기반하여 상기 복수의 목표 각각을 성취하기 위한 복수의 행동(action)을 생성하도록 설정되고,
상기 계층적 강화학습 모델 학습부는, 하기 [수학식 5]를 기반으로 강화 학습하는 것인,
계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 방법.
[수학식 5]

이때, R은 축적된 보상(reward)이고,
은 최종 시점의 보상이며,
는 직접 보상이고,
는 직접 제어 보상(immediate control reward)임.
컴퓨터와 결합되어, 제9항의 계층적 강화학습을 이용한 로봇 팔의 최적 경로 학습 방법을 실행시키기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.