KR102346900B1

KR102346900B1 - 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법

Info

Publication number: KR102346900B1
Application number: KR1020210103263A
Authority: KR
Inventors: 팜 투옌 르; 이동현
Original assignee: 주식회사 애자일소다
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2022-01-04
Also published as: JP2023024296A; US20230040623A1; JP7398830B2

Abstract

픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법을 개시한다. 본 발명은 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성한다.

Description

픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법{DEEP REINFORCEMENT LEARNING APPARATUS AND METHOD FOR PICK AND PLACE SYSTEM}

본 발명은 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법에 관한 것이다.

강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.

이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.

즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.

또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.

도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.

즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.

환경(20)은 에이전트(10)가 취할 수 있는 행동, 그에 따른 보상 등 모든 규칙으로서, 상태, 액션, 보상 등은 모두 환경의 구성요소이고, 에이전트(10) 이외의 모든 정해진 것들이 환경이다.

한편, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 되므로, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생한다.

이러한 강화학습은 사람의 개입 없이 로봇을 이용한 공장 자동화를 자동으로 업데이트하기 위한 핵심 기능으로 작용한다.

한편, 픽 앤 플레이스 시스템(Pick and Place System, PPS)은 인력을 대체하기 위한 공장 제조 공정에서 사용되어 왔지만, 시스템의 정확성과 성능을 높이는 통합 시스템의 개발이 어려운 문제점이 있다.

또한, 제조 공정이 자주 변경되는 과정에서 성능을 최적화하기 위해 새로운 공정에 대한 업데이트가 이루어져야 하지만, 이때 고려해야할 많은 매개 변수로 인해 여러 모듈이 구성되어 시스템이 복잡해져 PPS 설계를 위한 프레임 워크의 개발이 어려운 문제점이 있다.

한국 등록특허공보 등록번호 제10-2211012호(발명의 명칭: 로봇 조작을 위한 심층 강화 학습)

이러한 문제점을 해결하기 위하여, 본 발명은 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치로서, 제공된 액션(Action)에 대하여 하나 이상의 로봇의 파킹 위치와 배치 위치 사이의 경로를 요청하되, 수신된 로봇의 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하고, 강화학습에 이용될 상태(State) 정보와 보상(Reward) 정보를 제공하는 렌더링 엔진; 상기 렌더링 엔진으로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 심층 강화 학습을 수행하여 로봇의 움직임이 최적화되도록 액션을 결정하는 강화학습 에이전트; 및 상기 액션에 기반하여 로봇이 움직이도록 제어하고, 상기 렌더링 엔진의 요청에 대응하여 로봇의 움직임에 따른 경로 정보를 상기 렌더링 엔진에 제공하는 제어 엔진;을 포함한다.

또한, 상기 실시 예에 따른 로봇의 움직임에 따른 경로 정보는 실제 환경에서 로봇이 움직인 경로 및 미리 저장된 시뮬레이터 프로그램 상에서 로봇이 움직인 경로 중 어느 하나인 것을 특징으로 한다.

또한, 상기 실시 예에 따른 렌더링 엔진은 웹(Web)을 통해 시각화하는 응용 프로그램이 추가 설치된 것을 특징으로 한다.

또한, 상기 실시 예에 따른 강화학습 에이전트는 로봇의 현재 상태와 선택 가능한 물체들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 강화학습 에이전트는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 강화학습 에이전트는 시뮬레이션 상의 불확실성과 움직이는 물체를 고려하기 위한 LSTM(Long Short Term Memory) 레이어를 구비한 것을 특징으로 한다.

또한, 상기 실시 예에 따른 강화학습 에이전트는 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값을 갖는 개체를 선택하도록 학습하는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법으로서, a) 강화학습 에이전트가 강화학습에 이용될 액션에 대한 상태 정보와 보상 정보를 렌더링 엔진으로 요청하여 수집하는 단계; b) 강화학습 에이전트가 상기 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 심층 강화 학습을 수행하여 로봇의 움직임이 최적화되도록 액션을 결정하는 단계; c) 상기 렌더링 엔진이 결정된 액션을 출력하면, 제어 엔진이 상기 액션에 기반하여 로봇이 움직이도록 제어하는 단계; 및 d) 상기 렌더링 엔진이 로봇의 경로 정보를 수신하여 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하는 단계;를 포함한다.

또한, 상기 실시 예에 따른 a) 단계에서 수집되는 정보는 하나 이상의 로봇의 파킹 위치와 배치 위치 사이의 경로를 포함한 로봇의 움직임 정보인 것을 특징으로 한다.

또한, 상기 실시 예에 따른 상기 b) 단계는 로봇의 현재 상태와 선택 가능한 물체들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 b) 단계는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 b) 단계는 강화학습 에이전트가 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값을 갖는 개체를 선택하도록 학습하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 c) 단계는 제어 엔진이 실제 환경에서 로봇 및 미리 저장된 시뮬레이터 프로그램 상에서 로봇이 움직이도록 제어하고, 그에 대응한 움직임 경로를 추출하는 것을 특징으로 한다.

본 발명은 강화학습 에이전트, 렌더링 엔진, 제어 엔진으로 구성된 시뮬레이션 학습 프레임 워크를 구성하고, 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있다.

이러한 시뮬레이션 학습 프레임 워크의 강화학습을 통해 생성된 인공지능 모델은 픽 앤 플레이스 시스템에 사용되어 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 구현할 수 있다.

도1은 일반적인 강화 학습 장치의 구성을 나타낸 블록도.
도2는 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치를 개략적으로 나타낸 블록도.
도3은 도2의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치의 구성을 나타낸 블록도.
도4는 도2의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치의 픽 앤 플레이스 시스템을 나타낸 예시도.
도5는 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법을 설명하기 위해 나타낸 흐름도.
도6은 도5의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법의 에피소드 설정 과정을 설명하기 위해 나타낸 흐름도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법의 바람직한 실시 예를 상세하게 설명한다.

도2는 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치를 개략적으로 나타낸 블록도이고, 도3은 도2의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치의 구성을 나타낸 블록도이며, 도4는 도2의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치의 픽 앤 플레이스 시스템을 나타낸 예시도이다.

도2 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치(100)는 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성할 수 있도록 렌더링 엔진(110)과, 강화학습 에이전트(120)와, 제어 엔진(130)과, 환경(140)을 포함하여 구성될 수 있다.

렌더링 엔진(110)은 픽 앤 플레이스 환경을 만드는 구성으로서, 로봇(200, 200a, 200b)의 움직임 경로, 즉 픽 앤 플레이스 동작에 따른 궤적을 기반으로 시뮬레이션을 수행할 수 있다.

또한, 렌더링 엔진(110)은 강화학습 에이전트(120)에게 강화학습에 이용될 상태(State) 정보와, 시뮬레이션에 기반한 보상(Reward) 정보를 전달하여 액션을 요청한다.

이에 강화학습 에이전트(120)는 요청된 액션을 렌더링 엔진(110)으로 제공한다.

또한, 렌더링 엔진(110)은 물체(400)의 운동학을 사실적이고 물리적으로 시뮬레이션 할 수 있도록 코어부(111)가 구성될 수 있으며, 물리 엔진이 적용된 시뮬레이터로 이루어질 수도 있다.

여기서, 상태는 로봇(200, 200a, 200b)의 현재 상태, 물체의 위치일 수 있고, 물체의 최대 개수와 현재 로봇(200, 200a, 200b)이 집을 수 있는 물체의 위치를 포함한다.

또한, 보상은 물체의 위치가 변함에 따라 물체를 성공적으로 집었을 때와, 로봇의 경로를 계획했지만, 물체를 잡지 못했을 때의 경우로 나눌 수 있다.

또한, 보상은 강화학습 에이전트(120)가 가능한 빨리 픽 앤 플레이스 하도록 장려하기 위해 보상 함수에는 픽앤 플레이스 시간 주기에 대한 음수 값이 포함될 수 있다.

또한, 로봇이 물체를 선택하지 못한 경우, 보상 함수에 예를 들면, '-10'이 벌점을 추가할 수도 있다.

또한, 렌더링 엔진(110)은 강화학습 에이전트(120)으로부터 제공된 액션(Action)에 대하여 하나 이상의 로봇(200, 200a, 200b)의 파킹 위치와 배치 위치 사이의 경로를 제어 엔진(130)으로부터 요청할 수 있다.

또한, 렌더링 엔진(110)은 제어 엔진(130)과 데이터를 송수신할 수 있도록 프로토콜을 제공할 수 있고, 제어 엔진(130)으로 물체(400)를 집는 위치와 배치 위치 사이의 경로 생성 요청을 전송할 수 있도록 ROS #(112)이 구성될 수 있다.

즉, ROS #(112)은 렌더링 엔진(110)과 제어 엔진(130)이 연동될 수 있도록 한다.

또한, 렌더링 엔진(110)은 강화학습 에이전트(120)의 모델을 훈련하기 위한 강화학습 알고리즘을 적용할 수 있도록 ML(Machine Learning)-에이전트(113)가 구성될 수 있다.

또한, ML-에이전트는 강화학습 에이전트(120)로 정보를 전달할 수 있고, 렌더링 엔진(110)의 시뮬레이터와 예를 들면 'Python' 등의 프로그램 사이의 인터페이스를 수행할 수도 있다.

또한, 렌더링 엔진(110)은 웹(Web)을 통해 시각화 할 수 있도록 웹 기반의 그래픽 라이브러리(WebGL, 114)를 포함하여 구성될 수 있다.

즉, 자바스크립트 프로그래밍 언어를 이용하여 호환성이 있는 웹 브라우저에서 인터랙티브한 3D 그래픽을 사용할 수 있도록 구성할 수 있다.

강화학습 에이전트(120)는 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 로봇(200, 200a, 200b)의 움직임이 최적화되도록 액션을 결정하는 구성으로서, 강화학습 알고리즘을 포함하여 구성될 수 있다.

여기서, 에피소드는 컨베이어 벨트(300)가 작동하면서 움직이는 물체(400)에 대해 로봇(200, 200a, 200b)이 픽 앤 플레이스 동작을 수행하는 환경(140)을 구성하고, 강화학습 에이전트(120)는 어떤 물체(400)를 선택해서 집을 것인지 선택하며, 성공적으로 집은 물체의 개수가 목표에 도달하는 것을 한번의 에피소드로 설정한다.

또한, 강화학습 알고리즘은 보상을 최대화하기 위한 최적의 정책을 찾기 위해, 가치 기반 접근 방식과 정책 기반 접근 방식 중 어느 하나를 이용할 수 있다.

가치 기반 접근 방식에서 최적의 정책은 에이전트의 경험을 기반으로 근사된 최적 가치 함수에서 파생되고, 정책 기반 접근 방식은 가치 함수 근사에서 분리된 최적의 정책을 학습하고 훈련된 정책이 근사치 함수 방향으로 개선된다.

본 실시 예에서는 정책 기반 알고리즘인 PPO(Proximal Policy Optimization) 알고리즘을 사용한다.

PPO 알고리즘을 사용하면, 현재 정책에서 멀어지지 않고, 경사 상승을 통해 정책이 개선되어 정책 개선이 더욱 안정적으로 이루어지고, 정책 개선은 목표를 최대화하여 이루어질 수 있다.

또한, 강화학습 에이전트(120)는 픽 앤 플레이스를 수행하는 로봇(200, 200a, 200b)의 현재 상태와 컨베이어 벨트(300) 상에서 선택 가능한 물체(400)들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정한다.

또한, 강화학습 에이전트(120)는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행할 수 있다.

또한, 강화학습 에이전트(120)는 특징 추출을 위한 입력 상태 뒤에 두 개의 MLP(Multiple Layer Perceptron)를 포함할 수 있고, 시뮬레이션 상의 불확실성과 움직이는 물체(400)를 고려하기 위해 LSTM(Long Short Term Memory) 레이어를 구비할 수 있다.

즉, 시계열 및 시퀀스 데이터에서 스텝 간의 장기 종속성을 학습하고, 긴 시퀀스에 대한 기울기 흐름이 개선될 수 있도록 한다.

또한, 강화학습 에이전트(120)의 강화학습 기반 알고리즘은 낮은 벨트 속도가 아닌 높은 벨트 속도로 도착한 물체를 기다리는데 시간이 덜 걸리기 때문에, 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값이 높은 개체를 선택하도록 학습하여 벨트 속도에 상관 없이 벨트 속도를 높이면 픽 앤 플레이스 시간이 단축될 수 있도록 한다.

한편, 픽 앤 플레이스 시간 주기로 표시되는 총 계획 시간과 로봇 실행 시간은 플레너의 컴퓨팅 시간, 물체의 도착 확률 및 로봇의 실행 시간(실시간 하드웨어 제약)의 불확실성으로 인해 불확실할 수 있다.

이는 각 로봇에 대한 물체 할당 결정에 영향을 줄 수 있어서, 이러한 불확실성 하에서 대상을 적응적으로 선택하도록 에이전트를 학습하는 강화학습 알고리즘을 제공할 수 있다.

따라서, 강화학습 알고리즘은 픽 앤 플레이스 주기 시간을 최소화하고, 선택한 물체의 수를 최대화하는 등의 다양한 측면을 충족할 수 있도록 시스템을 제어하는 강화학습 에이전트(120)의 학습이 이루어질 수 있도록 한다.

제어 엔진(130)은 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어하고, 해당 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보를 추출하여 제공하는 구성으로서, 로봇 제어 시스템(ROS)을 포함하여 구성될 수 있다.

여기서, 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보는 예를 들어, 컨베이어 벨트(300)를 따라 이동하는 물체(400)를 픽 앤 플레이스하는 실제 환경에서 로봇(200, 200a, 200b)이 움직인 경로일 수 있다.

또한, 로봇 제어 시스템(ROS)은 로봇 조작과 경로 플래닝(Path Planning) 등을 이용해 시뮬레이터 상에서 로봇의 움직임이 적용될 수 있도록 하고, 로봇 제어 시스템을 이용하여 제어되는 동작을 시뮬레이션 뿐만 아니라 실제 환경에서도 적용가능하도록 한다.

또한, 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보는 미리 저장된 시뮬레이터 프로그램 상에서 로봇(200, 200a, 200b)이 움직인 경로일 수 있다.

또한, 제어 엔진(130)은 미리 설정된 로봇(200, 200a, 200b)의 경로 계획 정보를 이용하여 로봇(200, 200b, 200b)이 동작하도록 제어할 수 있다.

또한, 제어 엔진(130)은 메니퓰레이터를 위한 통합 라이브러리인 Movelt 패키지를 이용하여 개방형 모션 라이브러리(Open Motion Planning Library)를 사용하여 경로를 생성할 수 있다.

즉, 제어 엔진(130)은 초기 관절 각도와 목표 관절 각도 사이의 유효한 경로(예들 들어, 부드럽고 충돌 없는 경로)를 검색한다.

또한, 메니퓰레이터는 움직이는 컨베이어 벨트를 따라 배치되며, 픽 앤 플레이스 작업을 반복적으로 수행하는 로봇일 수 있다.

또한, 제어 엔진(130)은 현재 위치에서 피킹 위치 및 피킹 위치에서 배치 위치까지의 긴 경로를 생성하는 대신 각각 4개의 계획 단계에 해당하는 4개의 경로를 생성할 수 있다.

즉, 제어 엔진(130)은 현재 위치에서 예를 들어, 로봇의 그리퍼가 대상 물체(400) 위에 있는 대기 위치(또는 동일한 위치)까지의 경로를 생성하는 '사전 파악 과정'과, 물체가 도착하면, 대기 위치에서 파킹 위치까지 경로를 생성하는 '파악 과정'과, 그리퍼를 대기 위치로 다시 들어 올리는 경로를 생성하는 '픽업 과정'과, 대기 위치에서 배치 위치까지 경로를 생성하는 '플레이스 과정'을 통해 4개의 궤적을 획득할 수 있다.

환경(140)은 단일 로봇 환경이거나 또는 다중 로봇 환경일 수 있다.

컨베이어 벨트(300)는 일정 방향을 따라 정렬되고, 임의의 너비(예를 들면, 30cm)를 가질 수 있으며, 로봇(200, 200a, 200b)은 너비를 따라 모든 영역에 도달 할 수 있다.

물체(400)는 조절 가능한 컨베이어 벨트(300)의 속도에 따른 속도로 컨베이어 벨트(300)의 일측(예를 들면, 우측)에서 시작되고, 새로운 물체는 임의의 위치와 시간 간격을 두고 랜덤(무작위)로 도착될 수 있다.

또한, 물체(400)는 쉽게 집을 수 있도록 일정 크기의 큐브 형태로 구성될 수 있다.

다음은 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법을 설명한다.

도5는 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법을 설명하기 위해 나타낸 흐름도이고, 도6은 도5의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법의 에피소드 설정 과정을 설명하기 위해 나타낸 흐름도이다.

도2 내지 도6을 참조하면, 본 발명의 일 실시 예는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법은 강화학습 에이전트(120)가 강화학습에 이용될 액션에 대한 상태 정보와 보상 정보를 렌더링 엔진(110)으로 요청하면, 렌더링 엔진(110)이 제어 엔진(130)으로 상태 정보와 보상 정보를 요청하여 수집(S100)한다.

또한, S100 단계에서 수집되는 정보는 하나 이상의 로봇(200, 200a, 200b)의 파킹 위치와 배치 위치 사이의 경로를 포함한 로봇(200, 200a, 200b)의 움직임 정보일 수 있다.

또한, S100 단계에서 수집된 상태 정보와 보상 정보는 강화학습 에이전트(120)로 제공되고, 강화학습 에이전트(120)는 상태 정보와 보상 정보를 기반으로 로봇(200, 200a, 200b)의 움직임이 최적화되도록 액션을 설정(S200)한다.

여기서 액션은 강화학습 에이전트(120)가 연속된 개체 수에 따라 n개의 선택 항목의 개별 집합에서 액션을 가져올 수 있고, 개체를 선택한 후 현재 개체 위치, 벨트 속도 및 현재 관절 각도 등을 기반으로 선택한 위치를 계산할 수 있다.

또한, S200 단계에서 강화학습 에이전트(120)는 컨베이어 벨트(300)가 작동하면서 움직이는 물체(400)에 대해 로봇(200, 200a, 200b)이 픽 앤 플레이스 동작을 수행하는 환경(140)에서, 어떤 물체(400)를 선택해서 집을 것인지 선택하며, 성공적으로 집은 물체의 개수가 목표에 도달하는 것을 한번의 에피소드로 설정한다.

또한, S200 단계에서 강화학습 에이전트(120)는 픽 앤 플레이스를 수행하는 로봇(200, 200a, 200b)의 현재 상태와 컨베이어 벨트(300) 상에서 선택 가능한 물체(400)들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정한다.

즉, 특정 로봇에 대한 액션 요청을 수신(S210)하면, 로봇의 현재 상태와 선택 가능 정보에 기반하여 액션을 설정(S220)하여 강화학습을 수행할 수도 있다.

또한, S200 단계에서 강화학습 에이전트(120)는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행할 수도 있다.

계속해서, 렌더링 엔진(110)은 S200 단계에서 결정된 액션을 수신하여 제어 엔진(130)으로 출력(S300)한다.

제어 엔진(130)은 S200 단계에서 생성된 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어(S400)한다.

S400 단계에서, 제어 엔진(130)은 액션에 기반한 로봇(200, 200a, 200b)의 동작이 실제 환경에서 연동된 로봇(200, 200a, 200b)이 동작하도록 제어고, 그에 대응한 움직인 경로(또는 궤적)를 추출할 수 있다.

또한, S400 단계에서 제어 엔진(130)은 미리 저장된 시뮬레이터 프로그램 상에서 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어하고, 그에 대응한 움직임 경로를 추출할 수도 있다.

또한, S400 단계는 로봇(200, 200a, 200b)의 경로 정보가 렌더링 엔진(110)로 제공되고, 렌더링 엔진(110)은 로봇(200, 200a, 200b)의 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하는 과정을 수행할 수 있다.

S400 단계의 시뮬레이션을 통해 렌더링 엔진(110)은 물체의 위치가 변함에 따라 물체를 성공적으로 집었을 때와, 로봇의 경로를 계획했지만 물체를 잡지 못했을 때의 경우에 대한 보상을 구분하여 강화학습 에이전트(120)에 제공한다.

다음은 프레임 워크의 검증을 위해 벨트 속도, 배치 및 도3과 같이 로봇(200, 200a, 200b) 개수의 다양한 구성을 통해 에이전트의 동작을 분석한 실험 결과이다.

10개의 개체를 선택한 후 총 작업 시간을 계산한 메트릭을 프레임 워크의 평가에 사용했다.

표3은 평가 결과로서, 세 가지 기준 알고리즘에 대한 제안 알고리즘의 총 작동 시간을 보여준다.

로봇	벨트 속도	위치	랜덤(s)	FSFP(s)	SP(s)	제안된 알고리즘
로봇 1개	0.025	왼쪽	125	118.7	118.5	118.7
로봇 1개	0.05	왼쪽	102.6	88.7	88.6	88.7
로봇 1개	0.1	왼쪽	94	75.4	75.7	75.4
로봇 1개	0.1	오른쪽	90.8	85.1	77.2	74
로봇 2개	0.1	-	79.3	69	66	61.7
로봇 3개	0.1	-	55.2	45.5	45.5	45.2

여기서, 랜덤은 무작위로 개체를 선택하는 것이고, FSFP(First See First Pick)은 항상 관찰 가능한 개체 목록에서 첫번째 개체를 선택하는 것이며, SP(Shortest Path)는 로봇에서 가장 가까운 개체를 선택하는 것이다.

하나의 로봇 시스템으로 구성된 알고리즘으로 훈련된 에이전트는 모든 상황에 적응하려고 시도하며, 그 성능은 랜덤, FSFP, SP에 비해 각각 15%, 2.9%, 2.9% 향상된 것을 알 수 있다.

또한, 하드웨어의 제약과 플래너의 컴퓨팅 시간에 따라 달라지는 경로 계획을 규칙 기반 알고리즘이 고려하지 않는 사실에서 개선될 수 있다.

또한, 강화학습 기반 알고리즘은 에이전트에게 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 가능성이 높은 개체를 선택하도록 학습하여 벨트 속도에 상관 없이 벨트 속도를 높이면 픽 앤 플레이스 시간이 단축될 수 있다.

이는 낮은 벨트 속도가 아닌 높은 벨트 속도로 도착한 물체를 기다리는데 시간이 덜 걸리기 때문이다.

또한, 배치 위치는 에이전트의 행동에도 영향을 줄 수 있다.

특히, 배치가 로봇의 왼쪽에 있는 경우, 에이전트 동작은 항상 배치에 가장 가까운 가장 왼쪽의 개체(예를 들어 배치 위치에 대한 최단 경로)를 선택하는 FSFP 에이전트로 수렴된다.

또한, 로봇의 오른쪽에 배치된 에이전트는 FSFP와 SP가 혼합된 정책을 학습하고, 특히, 첫 번째 결정단계에서 에이전트는 첫 번째로 도착한 개체(FSFP 동작)를 선택하며, 다음 결정 단계에서는 SP 에이전트의 동작에 가장 가까운 가장 가까운 개체(일반적으로 두 번째 또는 세 번째 개체)를 선택한다.

다수의 로봇 시스템을 사용하면, 로봇 수를 늘려 픽 앤 플레이스 시간이 감소될 수 있다.

따라서, 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성할 수 있다.

또한, 행동 기반 시스템을 활성화하고, 컨베이어 벨트 기반 시스템의 타당성과 확장성을 확인할 수 있으며, 강화학습 알고리즘을 사용하기 위해 프레임 워크를 다양한 로봇 시스템으로 확장할 수 있다.

또한, 시뮬레이션 상의 불확실성과 움직이는 물체를 고려함으로써, 시스템에 대한 보다 현실적인 환경을 개선할 수 있게 된다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.

100 : 강화학습 장치
110 : 렌더링 엔진
111 : 코어부
112 : ROS #
113 : ML-에이전트
114 : WebGL
120 : 강화학습 에이전트
130 : 제어 엔진
140 : 환경
200, 200a, 200b : 로봇
300 : 컨베이어 벨트
400 : 물체

Claims

제공된 액션(Action)에 대하여 하나 이상의 로봇(200, 200a, 200b)의 파킹 위치와 배치 위치 사이의 경로를 요청하되, 수신된 로봇(200, 200a, 200b)의 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하고, 강화학습에 이용될 상태(State) 정보와 보상(Reward) 정보를 제공하는 렌더링 엔진(110);
상기 렌더링 엔진(110)으로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 심층 강화 학습을 수행하여 로봇(200, 200a, 200b)의 움직임이 최적화되도록 액션을 결정하는 강화학습 에이전트(120); 및
상기 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어하고, 상기 렌더링 엔진(110)의 요청에 대응하여 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보를 상기 렌더링 엔진(110)에 제공하는 제어 엔진(130);을 포함하고,
상기 강화학습 에이전트(120)는 로봇(200, 200a, 200b)의 현재 상태와 선택 가능한 물체(400)들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
제 1 항에 있어서,
상기 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보는 실제 환경에서 로봇(200, 200a, 200b)이 움직인 경로 및 미리 저장된 시뮬레이터 프로그램 상에서 로봇(200, 200a, 200b)이 움직인 경로 중 어느 하나인 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
제 1 항에 있어서,
상기 렌더링 엔진(110)은 웹(Web)을 통해 시각화하는 응용 프로그램이 추가 설치된 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
삭제
제 1 항에 있어서,
상기 강화학습 에이전트(120)는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
제 1 항에 있어서,
상기 강화학습 에이전트(120)는 시뮬레이션 상의 불확실성과 움직이는 물체(400)를 고려하기 위한 LSTM(Long Short Term Memory) 레이어를 구비한 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
제 1 항에 있어서,
상기 강화학습 에이전트(120)는 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값을 갖는 개체를 선택하도록 학습하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
a) 강화학습 에이전트(120)가 강화학습에 이용될 액션에 대한 상태 정보와 보상 정보를 렌더링 엔진(110)으로 요청하여 수집하는 단계;
b) 강화학습 에이전트(120)가 상기 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 심층 강화 학습을 수행하여 로봇(200, 200a, 200b)의 움직임이 최적화되도록 액션을 결정하는 단계;
c) 상기 렌더링 엔진(110)이 결정된 액션을 출력하면, 제어 엔진(130)이 상기 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어하는 단계; 및
d) 상기 렌더링 엔진(110)이 로봇(200, 200a, 200b)의 경로 정보를 수신하여 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하는 단계;를 포함하고,
상기 b) 단계는 로봇(200, 200a, 200b)의 현재 상태와 선택 가능한 물체(400)들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
제 8 항에 있어서,
상기 a) 단계에서 수집되는 정보는 하나 이상의 로봇(200, 200a, 200b)의 파킹 위치와 배치 위치 사이의 경로를 포함한 로봇(200, 200a, 200b)의 움직임 정보인 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
삭제
제 8 항에 있어서,
상기 b) 단계는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
제 8 항에 있어서,
상기 b) 단계는 강화학습 에이전트(120)가 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값을 갖는 개체를 선택하도록 학습하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
제 8 항에 있어서,
상기 c) 단계는 제어 엔진(130)이 실제 환경에서 로봇(200, 200a, 200b) 및 미리 저장된 시뮬레이터 프로그램 상에서 로봇(200, 200a, 200b)이 움직이도록 제어하고, 그에 대응한 움직임 경로를 추출하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.