KR20230122443A

KR20230122443A - 사람형 로봇 손의 처리 시스템

Info

Publication number: KR20230122443A
Application number: KR1020220019128A
Authority: KR
Inventors: 김태성; 로페즈 파트리시오 알레한드로 리베라; 오지헌
Original assignee: 경희대학교 산학협력단
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2023-08-22
Also published as: KR102631984B1

Abstract

사람형 로봇 손의 처리 시스템이 개시된다. 본 발명의 일 실시예에 따른 사람형 로봇 손의 처리 시스템은 물체를 파지하기 위한 복수의 집게형 로봇 손 포즈를 기초로 사람형 로봇 손 포즈를 추정하되, 기 형성된 컨택트 포즈 데이터베이스로부터 물체를 파지하기 위한 복수의 집게형 로봇 손 포즈 각각의 손바닥 중심 위치와 매칭되는 손 관절 좌표를 추출하여 사람형 로봇 손 포즈를 생성하는 제1 학습 처리 장치; 및 입력된 물체 위치정보와 제1 학습 처리 장치를 통해 획득된 사람형 로봇 손 포즈를 기초로 사람형 로봇 손을 이용하여 특정 물체에 대한 파지 및 이동 액션을 수행하고, 액션 결과와 사람형 로봇 손 포즈를 비교하여 보상치를 적용하는 사람형 로봇 손 포즈에 대한 강화 학습 처리를 수행하는 제2 학습 처리 장치를 포함한다.

Description

사람형 로봇 손의 처리 시스템{ANTHROPOMORPHIC ROBOT HAND PROCESSING SYSTEM}

개시되는 실시예들은 사람형 로봇 손의 처리 시스템과 관련된다.

오늘날 자동화 공장에서는 노동자를 대신하여 단순 노동을 수행하는 로봇 손이 널리 사용되고 있다. 자동화 공장에 설치된 로봇 손은 지정된 위치와 일정한 형태의 물체를 파지하고 조작하는 작업을 수행한다. 또한, 자동화 공장 로봇은 사용하는 도구가 한정적이고 수행하는 작업도 단순하여 2-JAW 그리퍼가 사용되며 물체를 파지하는 로봇 손의 경로 또한 같은 동작을 반복하여 수행된다.

최근 자동화 공장 이외에 실생활에서도 로봇 손의 수요가 증가하고 있다. 사람-중심환경에 물체들은 공장과 다르게 지정된 위치가 아닌 무작위 위치에 존재하며 형태 또한 다양하고 복잡하다. 이에, 로봇 손의 설정된 움직임을 통해 무작위 물체를 파지하는 작업에는 어려움이 따를 수 있다. 따라서, 로봇 손을 이용하여 물체 위치를 파악하고 자연스럽게 파지하기 위한 접근 경로를 탐색하는 지능이 필요하다.

한편, 물체의 형태가 복잡하고 다양해짐에 따라 2-JAW 그리퍼의 파지 성능으로는 한계가 존재하기 때문에 사람 손과 같이 멀티 핑거(multi-finger) 형태의 로봇 손 사용이 필수적이다. 멀티 핑거(Multi-finger)로 사람 손과 형태 및 기능적으로 유사한 사람형 로봇 손이 각광받고 있지만 관절 수 증가에 따른 움직임 자유도의 증가로 인해 파지 작업을 수행하는데 어려움이 종종 발생하고 있다.

대한민국 등록특허공보 제10-2083866호 (2020. 02. 26.)

개시된 실시예들은 사람형 로봇 손이 실제 사람 손과 유사한 동작으로 다양한 형태와 위치의 사물을 파지 및 이동할 수 있도록 사람형 로봇 손의 파지 성능을 향상시키기 위한 사람형 로봇 손의 처리 시스템을 제공하고자 한다.

일 실시예에 따른 사람형 로봇 손의 처리 시스템은, 물체를 파지하기 위한 복수의 집게형 로봇 손 포즈를 기초로 사람형 로봇 손 포즈를 추정하되, 기 형성된 컨택트 포즈 데이터베이스로부터 상기 물체를 파지하기 위한 상기 복수의 집게형 로봇 손 포즈 각각의 손바닥 중심 위치와 매칭되는 손 관절 좌표를 추출하여 상기 사람형 로봇 손 포즈를 생성하는 제1 학습 처리 장치; 및 입력된 물체 위치정보와 상기 제1 학습 처리 장치를 통해 획득된 상기 사람형 로봇 손 포즈를 기초로 사람형 로봇 손을 이용하여 특정 물체에 대한 파지 및 이동 액션을 수행하고, 액션 결과와 상기 사람형 로봇 손 포즈를 비교하여 보상치를 적용하는 상기 사람형 로봇 손 포즈에 대한 강화 학습 처리를 수행하는 제2 학습 처리 장치를 포함한다.

또한, 상기 사람형 로봇 손의 처리 시스템은 복수의 물체 각각에 대한 촬영을 통해 컬러 이미지 및 깊이(depth) 이미지를 획득하여 출력하기 위한 영상 처리 장치를 더 포함할 수 있다.

상기 제1 학습 처리 장치는, 상기 컬러 이미지 및 상기 깊이 이미지를 기초로 파지하기 위한 상기 물체를 검출하고, 상기 물체에 대한 깊이 맵을 통해 상기 물체의 3차원 표면 정보를 획득하여 상기 물체의 형태에 따른 파지 가능 로봇 손 위치 및 포즈를 포함하는 상기 사람형 로봇 손 포즈를 생성할 수 있다.

상기 제1 학습 처리 장치는, 상기 물체에 대한 컬러 이미지 및 상기 깊이 이미지로부터 추출된 포인트 클라우드를 통하여 상기 물체에 대응되는 복수의 물체 파지 가능점을 생성하고, 생성된 상기 복수의 물체 파지 가능점 중 기 설정된 기준에 따라 파지 가능성이 가장 높은 물체 파지 가능점을 선택하여 상기 사람형 로봇 손 포즈를 생성할 수 있다.

상기 제1 학습 처리 장치는, 상기 사람형 로봇 손 포즈를 생성하기 이전에, 특정 물체에 대해 상기 물체를 파지하기 위한 특정 손 각도의 손바닥 중심 위치를 입력하여 상기 특정 손 각도와 매칭되는 손 관절 좌표를 출력하는 학습 처리를 복수의 물체 각각에 대해 반복 처리하여 상기 컨택트 포즈 데이터베이스를 형성하고, 상기 컨택트 포즈 데이터베이스는 상기 복수의 물체 각각을 파지하기 위한 손 각도별 손 관절 좌표를 매칭하여 저장할 수 있다.

상기 제1 학습 처리 장치는, 상기 집게형 로봇 손 포즈의 손바닥 중심 위치를 기초로 상기 물체를 파지하기 위한 상기 손 각도와 상기 손 관절 좌표 간의 연관성을 기반으로 상기 사람형 로봇 손 포즈의 손 관절 좌표를 추출하되, 상기 파지 가능성이 가장 높은 물체 파지 가능점에 대응되는 데이터 셋으로 상기 컨택트 포즈 데이터를 이용할 수 있다.

상기 제2 학습 처리 장치는, 상기 액션 결과에 포함된 사람형 로봇 손의 손 관절 좌표가 상기 제1 학습 처리 장치로부터 전달된 상기 사람형 로봇 손 포즈의 손 관절 좌표와 일치할수록 상기 보상치를 높게 할당하는 상기 사람형 로봇 손 포즈에 대한 강화 학습 처리를 복수의 물체 각각에 대해 반복 수행할 수 있다.

상기 제2 학습 처리 장치는, 상기 사람형 로봇 손을 이용하여 액션을 반복 수행하되, 상기 액션 시마다 상기 보상치를 적용하여 상기 사람형 로봇 손의 액션 결과를 상기 사람형 로봇 손 포즈의 손 관절 좌표와 일치하도록 강화 학습 처리를 수행할 수 있다.

또한, 상기 사람형 로봇 손의 처리 시스템은 상기 물체에 대한 상기 컬러 이미지 및 상기 깊이 이미지를 통해 상기 물체의 형태와 위치를 파악하여 상기 물체를 파지하는 경로를 탐색한 후 상기 사람형 로봇 손 포즈의 손 관절 좌표를 기초로 상기 사람형 로봇 손을 이용하여 상기 물체를 파지 및 이동시키는 로봇 손 제어 장치를 더 포함할 수 있다.

개시되는 실시예들에 따르면, 개시되는 실시예들에 따르면, RGB-Depth 이미지를 통한 물체 파지 가능 손 포즈 생성 트랜스포머 신경망(Transformer Network)을 적용함에 따라, 사람형 로봇 손을 이용하여 다양한 위치와 형태의 물체를 파지 및 이동할 수 있다는 것이다.

개시되는 실시예들에 따르면, 로봇 손을 이용하여 물체를 파지할 때 사람 손과 같이 자연스러운 동작으로 수행하여 로봇에 대한 친화감을 향상시킬 수 있다는 것이다.

도 1은 일 실시예에 따른 사람형 로봇 손의 처리 시스템을 설명하기 위한 블록도
도 2는 일 실시예에 따른 사람형 로봇 손의 처리 방법을 설명하기 위한 예시도
도 3 내지 도 6은 일 실시예에 따른 사람형 로봇 손 포즈 처리 방법을 설명하기 예시도
도 7은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 일 실시예에 따른 사람형 로봇 손의 처리 시스템을 설명하기 위한 블록도이다.

이하에서는, 일 실시예에 따른 사람형 로봇 손의 처리 방법을 설명하기 위한 예시도인 도 2를 참고하여 설명하기로 한다.

도 1을 참고하면, 사람형 로봇 손의 처리 시스템(1000)은 영상 처리 장치(100), 제1 학습 처리 장치(200), 제2 학습 처리 장치(300) 및 로봇 손 제어 장치(400)를 포함한다.

도 2를 참고하면, 영상 처리 장치(100)는 복수의 물체 각각에 대한 촬영을 통해 컬러 이미지 및 깊이(depth) 이미지(도 2의 A)를 획득하여 출력하기 위한 구성일 수 있다. 이때, 컬러 이미지는 RGB(red green blue) 컬러 이미지일 수 있다.

제1 학습 처리 장치(200)는 물체를 파지하기 위한 복수의 집게형 로봇 손 포즈를 기초로 사람형 로봇 손 포즈를 추정하되, 기 형성된 컨택트 포즈 데이터베이스(contact pose database)(미도시)로부터 상기 물체를 파지하기 위한 상기 복수의 집게형 로봇 손 포즈 각각의 손바닥 중심 위치와 매칭되는 손 관절 좌표를 추출하여 상기 사람형 로봇 손 포즈를 생성하는 구성일 수 있다.

도 2에서 도시하는 바와 같이, 영상 처리 장치(100) 및 제1 학습 처리 장치(200)는 트랜스포머 신경망(transformer network)으로 구현될 수 있다. 또한, 제2 학습 처리 장치(300)는 심층강화학습(deep reinforcement learning)을 처리하는 구성으로, 이에 대한 상세 설명은 후술하기로 한다.

제1 학습 처리 장치(200)는 컬러 이미지 및 깊이 이미지를 기초로 파지하기 위한 상기 물체를 검출하고, 상기 물체에 대한 깊이 맵을 통해 상기 물체의 3차원 표면 정보를 획득하여 상기 물체의 형태에 따른 파지 가능 로봇 손 위치 및 포즈를 포함하는 상기 사람형 로봇 손 포즈를 생성할 수 있다.

도 2를 참고하면, 제1 학습 처리 장치(200)는 물체에 대한 컬러 이미지 및 깊이 이미지(A)로부터 추출된 포인트 클라우드(B)를 통하여 상기 물체에 대응되는 복수의 물체 파지 가능점을 생성하고, 생성된 상기 복수의 물체 파지 가능점 중 기 설정된 기준에 따라 파지 가능성이 가장 높은 물체 파지 가능점을 선택하여 상기 사람형 로봇 손 포즈를 생성할 수 있다.

이때, 제1 학습 처리 장치(200)는 물체에 대한 컬러 이미지 및 깊이 이미지로부터 추출된 포인트 클라우드를 GraspNet에 입력하여 복수의 집게형 로봇 손 포즈(gripper grasp poses)(도 2의 C)를 획득할 수 있다.

한편, 제1 학습 처리 장치(200)는 사람형 로봇 손 포즈를 생성하기 이전에, 특정 물체에 대해 상기 물체를 파지하기 위한 특정 손 각도의 손바닥 중심 위치(center position)를 입력하여 상기 특정 손 각도와 매칭되는 손 관절 좌표(joint position)를 출력하는 학습 처리를 복수의 물체 각각에 대해 반복 처리하여 상기 컨택트 포즈 데이터베이스(미도시)를 형성할 수 있다.

상기 컨택트 포즈 데이터베이스는 복수의 물체 각각을 파지하기 위한 손 각도별 손 관절 좌표를 매칭하여 저장할 수 있다.

제1 학습 처리 장치(200)는 집게형 로봇 손 포즈의 손바닥 중심 위치를 기초로 물체를 파지하기 위한 손 각도와 손 관절 좌표 간의 연관성을 기반으로 사람형 로봇 손 포즈의 손 관절 좌표를 추출할 수 있다. 이때, 제1 학습 처리 장치(200)는 파지 가능성이 가장 높은 물체 파지 가능점에 대응되는 데이터 셋으로 컨택트 포즈 데이터를 이용할 수 있다.

상술한 손바닥 중심 위치(center position)은 복수의 집게형 로봇 손 포즈의 중심점으로, 사람형 로봇 손의 손바닥 중심점일 수 있다. 또한, 손 관절 좌표(joint position)는 사람의 다섯 손가락 관절과 매칭되는 관절 좌표를 의미하는 것일 수 있다.

도 3 내지 도 6은 일 실시예에 따른 사람형 로봇 손 포즈 처리 방법을 설명하기 예시도이다.

도 3의 (a)를 참고하면, 사람형 로봇 손 포즈의 손 관절 좌표는 다섯 손가락 관절의 관절 좌표(D)를 의미할 수 있다.

도 3의 (a)는 각 손가락 마다 서로 다른 관절 색상을 적용한 손을 나타낸 것으로, 빨간색, 보라색, 파란색, 노란색 및 녹색 각각은 엄지, 검지, 중지, 약지 및 새끼 손가락의 관절 좌표를 나타내는 것이다. 도 3의 (b)는 도 3의 (a)와 같은 손가락으로 물체를 파지 했을 때의 손 포즈를 로봇 시뮬레이션 환경에서 나타내는 것일 수 있다. 도 3의 (b) 및 도 3의 (a)에 적용된 동일한 색상은 동일한 손가락 관절 좌표를 의미하는 것일 수 있다.

제1 학습 처리 장치(200)는 사전에 학습 처리를 수행하되, 복수의 물체 각각의 형태에 따라 사람의 다섯 손가락이 물체를 파지하는 것을 학습 처리할 수 있다. 이때, 도 2를 참고하면, 제1 학습 처리 장치(200)는 손바닥 중심 위치 및 손 관절 좌표 모두를 입력으로 하여 복수의 물체 각각에 대해 학습할 수 있다.

예를 들어, 제1 학습 처리 장치(200)는 도 4와 같이, 사과, 바나나, 병, 전구, 카메라 및 해머와 같이 다양한 형태의 복수의 물체에 대해 학습 처리를 통해 도 5와 같은 사람형 로봇 손의 손 포즈를 생성할 수 있다. 이때, 도 5는 트랜스포머 신경망의 정성적 결과를 나타내는 것으로서, 각 물체(사과, 바나나, 병, 전구, 카메라 및 해머)에 대한 왼쪽 도면은 개선이 필요한 손 포즈를 의미하고, 오른쪽 그림은 트랜스포머 신경망을 통해 생성된 사람형 로봇 손의 손 포즈를 나타내는 것이다. 도 5에서 도시하는 바와 같이, 본 실시예에 제1 학습 처리 장치(200)를 통해 생성된 사람형 로봇 손의 손 포즈는 손 관절과 손의 각도가 실제 사람의 손가락으로 물체를 파지하는 경우의 목표와 유사한 것을 확인 할 수 있다. 이에 더해, 본 실시예는 제1 학습 처리 장치(200)를 통해 생성된 사람형 로봇 손의 손 포즈에 대해 보강치가 적용된 강화 학습 처리를 수행하여 보다 실제 사람의 손가락으로 물체를 파지하는 경우와 유사하도록 할 수 있다. 이에 대한 상세 설명은 후술하기로 한다.

상술한 학습 후, 제1 학습 처리 장치(200)는 집게형 로봇 손 포즈의 손바닥 중심 위치를 입력 받으면, 해당 물체에 대해 입력된 집게형 로봇 손 포즈의 손바닥 중심 위치에 매칭되는 손가락 관절 좌표를 사전 학습 결과로부터 파악하여 사람형 로봇 손 포즈를 생성하는 것이다.

본 실시예에서, 자연스러운 물체 파지 지능을 위한 심층강화학습 방법은 사람형 로봇 손의 움직임을 결과로 도출하기 위해 사람-중심환경의 물체 위치정보를 입력 받을 수 있다. 상기 물체 위치정보를 통해 로봇 손의 물체 파지 경로 및 액션을 도출하는 네트워크를 Policy라 하며 Policy의 변수를 업데이트 하는 기준으로 보상함수(Reward)를 사용할 수 있다. 본 실시예에서, 사람형 로봇 손(도 2의 Agent)의 물체 파지 지능은 보상이 최대로 증가하는 방향으로 학습이 진행될 수 있다. 본 실시예에서 적용된 신규 보상함수(도 2의 New Reward)는 트랜스포머 신경망의 결과를 기초로 생성된 특정 물체를 파지하기 위한 사람형 로봇 손 포즈와 실제 로봇 손이 가까워질수록 보상이 증가하도록 구성될 수 있다. 상기 보상함수는 설명의 편의를 위해 보상치로 명명할 수 있다.

보다 상세히 설명하면, 제2 학습 처리 장치(300)는 입력된 물체 위치정보와 제1 학습 처리 장치(200)를 통해 획득된 사람형 로봇 손 포즈를 기초로 사람형 로봇 손을 이용하여 특정 물체에 대한 파지 및 이동 액션을 수행하고, 액션 결과와 사람형 로봇 손 포즈를 비교하여 보상치를 적용하는 사람형 로봇 손 포즈에 대한 강화 학습 처리를 수행하는 구성일 수 있다.

제2 학습 처리 장치(300)는 액션 결과에 포함된 사람형 로봇 손(도 2의 Agent)의 손 관절 좌표가 제1 학습 처리 장치(200)로부터 전달된 사람형 로봇 손 포즈의 손 관절 좌표와 일치할수록 보상치를 높게 할당하는 사람형 로봇 손 포즈에 대한 강화 학습 처리를 복수의 물체 각각에 대해 반복 수행할 수 있다.

한편, 제2 학습 처리 장치(300)는 수학식 1에 따라 보상치를 산출할 수 있다.

[수학식 1]

이때, 은 본 실시예에서 적용되는 보상함수로 기존 DAPG 보상함수()에 신규 보상함수( 도 2의 New Reward)를 추가하여 구성되었다. 은 제1학습처리 장치 (200)을 통해 생성된 손 포즈이고 은 로봇 손의 액션 결과(도 2의 Agent의 액션 결과 손 포즈)로 을 통해 두 손 포즈의 유사성을 평가한다. 또한, 는 사람형 로봇 손의 손바닥의 중심 위치, 는 파지하는 물체의 중심 위치를 의미하며 를 통해 로봇 손과 물체 중심 사이의 거리를 평가한다. 은 단위 계단 함수로 최초부터 기 설정된 횟수(예를 들어, 50회)까지의 학습 반복 동안 보상을 계산하는 과정에서 의 비중을 높이기 위한 함수이다. 상기 relocation points는 추가 포인트로 개체(파지된 물체)가 목표(파지된 물체가 옮겨지는 위치)에 가까워질 때마다 기 설정된 포인트(예를 들어, 2 내지 10 포인트 씩)를 순차적으로 추가한다. 즉, 사람형 로봇 손의 액션 결과가 제1 학습 처리 장치(200)를 통해 생성된 사람형 로봇 손 포즈와 유사해 질수록 또는 파지된 물체가 목표에 가까워질 수록 포인트를 추가할 수 있다는 것이다.

본 실시예에서 적용되는 HPAPG(hand pose augmented policy gradient)는 DAPG(demo augmented policy gradient)를 기반으로 구현된 것으로서 DAPG 보상함수에 신규 보상함수(new reward)를 추가 적용한 를 보상함수로 사용한다.

제2 학습 처리 장치(300)는 사람형 로봇 손을 이용하여 액션을 반복 수행하되, 액션 시마다 보상치를 적용하여 사람형 로봇 손의 액션 결과를 상기 사람형 로봇 손 포즈의 손 관절 좌표와 일치하도록 강화 학습 처리를 수행할 수 있다.

로봇 손 제어 장치(400)는 물체에 대한 컬러 이미지 및 깊이 이미지를 통해 물체의 형태와 위치를 파악하여 물체를 파지하는 경로를 탐색한 후 사람형 로봇 손 포즈의 손 관절 좌표를 기초로 사람형 로봇 손을 이용하여 물체를 파지 및 이동시킬 수 있다. 예를 들어, 도 6과 같이, 로봇 손 제어 장치(400)는 제1 및 제2 학습 처리 장치(300)를 통해 생성된 사람형 로봇 손 포즈를 기초로 사람형 로봇 손을 이용하여 다양한 물체를 실제 사람 손과 같이 자연스럽게 파지할 수 있도록 제어하는 것이다.

도 7은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에 서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 사람형 로봇 손의 처리 시스템(1000)일 수 있다. 또한, 컴퓨팅 장치(12)는 영상 처리 장치(100), 제1 학습 처리 장치(200), 제2 학습 처리 장치(300) 및 로봇 손 제어 장치(400)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.

10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 영상 처리 장치
200: 제1 학습 처리 장치
300: 제2 학습 처리 장치
400: 로봇 손 제어 장치
1000: 사람형 로봇 손의 처리 시스템

Claims

물체를 파지하기 위한 복수의 집게형 로봇 손 포즈를 기초로 사람형 로봇 손 포즈를 추정하되, 기 형성된 컨택트 포즈 데이터베이스로부터 상기 물체를 파지하기 위한 상기 복수의 집게형 로봇 손 포즈 각각의 손바닥 중심 위치와 매칭되는 손 관절 좌표를 추출하여 상기 사람형 로봇 손 포즈를 생성하는 제1 학습 처리 장치; 및
입력된 물체 위치정보와 상기 제1 학습 처리 장치를 통해 획득된 상기 사람형 로봇 손 포즈를 기초로 사람형 로봇 손을 이용하여 특정 물체에 대한 파지 및 이동 액션을 수행하고, 액션 결과와 상기 사람형 로봇 손 포즈를 비교하여 보상치를 적용하는 상기 사람형 로봇 손 포즈에 대한 강화 학습 처리를 수행하는 제2 학습 처리 장치를 포함하는 사람형 로봇 손의 처리 시스템.
청구항 1에 있어서,
복수의 물체 각각에 대한 촬영을 통해 컬러 이미지 및 깊이(depth) 이미지를 획득하여 출력하기 위한 영상 처리 장치를 더 포함하는 사람형 로봇 손의 처리 시스템.
청구항 2에 있어서,
상기 제1 학습 처리 장치는,
상기 컬러 이미지 및 상기 깊이 이미지를 기초로 파지하기 위한 상기 물체를 검출하고, 상기 물체에 대한 깊이 맵을 통해 상기 물체의 3차원 표면 정보를 획득하여 상기 물체의 형태에 따른 파지 가능 로봇 손 위치 및 포즈를 포함하는 상기 사람형 로봇 손 포즈를 생성하는 사람형 로봇 손의 처리 시스템.
청구항 3에 있어서,
상기 제1 학습 처리 장치는,
상기 물체에 대한 컬러 이미지 및 상기 깊이 이미지로부터 추출된 포인트 클라우드를 통하여 상기 물체에 대응되는 복수의 물체 파지 가능점을 생성하고, 생성된 상기 복수의 물체 파지 가능점 중 기 설정된 기준에 따라 파지 가능성이 가장 높은 물체 파지 가능점을 선택하여 상기 사람형 로봇 손 포즈를 생성하는 사람형 로봇 손의 처리 시스템.
청구항 4에 있어서,
상기 제1 학습 처리 장치는,
상기 사람형 로봇 손 포즈를 생성하기 이전에, 특정 물체에 대해 상기 물체를 파지하기 위한 특정 손 각도의 손바닥 중심 위치를 입력하여 상기 특정 손 각도와 매칭되는 손 관절 좌표를 출력하는 학습 처리를 복수의 물체 각각에 대해 반복 처리하여 상기 컨택트 포즈 데이터베이스를 형성하고,
상기 컨택트 포즈 데이터베이스는 상기 복수의 물체 각각을 파지하기 위한 손 각도별 손 관절 좌표를 매칭하여 저장하는 사람형 로봇 손의 처리 시스템.
청구항 5에 있어서,
상기 제1 학습 처리 장치는,
상기 집게형 로봇 손 포즈의 손바닥 중심 위치를 기초로 상기 물체를 파지하기 위한 상기 손 각도와 상기 손 관절 좌표 간의 연관성을 기반으로 상기 사람형 로봇 손 포즈의 손 관절 좌표를 추출하되, 상기 파지 가능성이 가장 높은 물체 파지 가능점에 대응되는 데이터 셋으로 상기 컨택트 포즈 데이터를 이용하는 사람형 로봇 손의 처리 시스템.
청구항 3에 있어서,
상기 제2 학습 처리 장치는,
상기 액션 결과에 포함된 사람형 로봇 손의 손 관절 좌표가 상기 제1 학습 처리 장치로부터 전달된 상기 사람형 로봇 손 포즈의 손 관절 좌표와 일치할수록 상기 보상치를 높게 할당하는 상기 사람형 로봇 손 포즈에 대한 강화 학습 처리를 복수의 물체 각각에 대해 반복 수행하는 사람형 로봇 손의 처리 시스템.
청구항 7에 있어서,
상기 제2 학습 처리 장치는,
상기 사람형 로봇 손을 이용하여 액션을 반복 수행하되, 상기 액션 시마다 상기 보상치를 적용하여 상기 사람형 로봇 손의 액션 결과를 상기 사람형 로봇 손 포즈의 손 관절 좌표와 일치하도록 강화 학습 처리를 수행하는 사람형 로봇 손의 처리 시스템.
청구항 3에 있어서,
상기 물체에 대한 상기 컬러 이미지 및 상기 깊이 이미지를 통해 상기 물체의 형태와 위치를 파악하여 상기 물체를 파지하는 경로를 탐색한 후 상기 사람형 로봇 손 포즈의 손 관절 좌표를 기초로 상기 사람형 로봇 손을 이용하여 상기 물체를 파지 및 이동시키는 로봇 손 제어 장치를 더 포함하는 사람형 로봇 손의 처리 시스템.