KR102346900B1 - 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 - Google Patents

픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 Download PDF

Info

Publication number
KR102346900B1
KR102346900B1 KR1020210103263A KR20210103263A KR102346900B1 KR 102346900 B1 KR102346900 B1 KR 102346900B1 KR 1020210103263 A KR1020210103263 A KR 1020210103263A KR 20210103263 A KR20210103263 A KR 20210103263A KR 102346900 B1 KR102346900 B1 KR 102346900B1
Authority
KR
South Korea
Prior art keywords
reinforcement learning
pick
robots
information
robot
Prior art date
Application number
KR1020210103263A
Other languages
English (en)
Inventor
팜 투옌 르
이동현
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to KR1020210103263A priority Critical patent/KR102346900B1/ko
Application granted granted Critical
Publication of KR102346900B1 publication Critical patent/KR102346900B1/ko
Priority to JP2022110447A priority patent/JP7398830B2/ja
Priority to US17/867,001 priority patent/US20230040623A1/en

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1671Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1682Dual arm manipulator; Coordination of several manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1687Assembly, peg and hole, palletising, straight line, weaving pattern movement
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33034Online learning, training
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39106Conveyor, pick up article, object from conveyor, bring to test unit, place it
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39298Trajectory learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Manipulator (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Numerical Control (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)

Abstract

픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법을 개시한다. 본 발명은 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성한다.

Description

픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법{DEEP REINFORCEMENT LEARNING APPARATUS AND METHOD FOR PICK AND PLACE SYSTEM}
본 발명은 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법에 관한 것이다.
강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.
이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.
즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.
또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.
도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.
즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.
환경(20)은 에이전트(10)가 취할 수 있는 행동, 그에 따른 보상 등 모든 규칙으로서, 상태, 액션, 보상 등은 모두 환경의 구성요소이고, 에이전트(10) 이외의 모든 정해진 것들이 환경이다.
한편, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 되므로, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생한다.
이러한 강화학습은 사람의 개입 없이 로봇을 이용한 공장 자동화를 자동으로 업데이트하기 위한 핵심 기능으로 작용한다.
한편, 픽 앤 플레이스 시스템(Pick and Place System, PPS)은 인력을 대체하기 위한 공장 제조 공정에서 사용되어 왔지만, 시스템의 정확성과 성능을 높이는 통합 시스템의 개발이 어려운 문제점이 있다.
또한, 제조 공정이 자주 변경되는 과정에서 성능을 최적화하기 위해 새로운 공정에 대한 업데이트가 이루어져야 하지만, 이때 고려해야할 많은 매개 변수로 인해 여러 모듈이 구성되어 시스템이 복잡해져 PPS 설계를 위한 프레임 워크의 개발이 어려운 문제점이 있다.
한국 등록특허공보 등록번호 제10-2211012호(발명의 명칭: 로봇 조작을 위한 심층 강화 학습)
이러한 문제점을 해결하기 위하여, 본 발명은 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치로서, 제공된 액션(Action)에 대하여 하나 이상의 로봇의 파킹 위치와 배치 위치 사이의 경로를 요청하되, 수신된 로봇의 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하고, 강화학습에 이용될 상태(State) 정보와 보상(Reward) 정보를 제공하는 렌더링 엔진; 상기 렌더링 엔진으로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 심층 강화 학습을 수행하여 로봇의 움직임이 최적화되도록 액션을 결정하는 강화학습 에이전트; 및 상기 액션에 기반하여 로봇이 움직이도록 제어하고, 상기 렌더링 엔진의 요청에 대응하여 로봇의 움직임에 따른 경로 정보를 상기 렌더링 엔진에 제공하는 제어 엔진;을 포함한다.
또한, 상기 실시 예에 따른 로봇의 움직임에 따른 경로 정보는 실제 환경에서 로봇이 움직인 경로 및 미리 저장된 시뮬레이터 프로그램 상에서 로봇이 움직인 경로 중 어느 하나인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 렌더링 엔진은 웹(Web)을 통해 시각화하는 응용 프로그램이 추가 설치된 것을 특징으로 한다.
또한, 상기 실시 예에 따른 강화학습 에이전트는 로봇의 현재 상태와 선택 가능한 물체들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 강화학습 에이전트는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 강화학습 에이전트는 시뮬레이션 상의 불확실성과 움직이는 물체를 고려하기 위한 LSTM(Long Short Term Memory) 레이어를 구비한 것을 특징으로 한다.
또한, 상기 실시 예에 따른 강화학습 에이전트는 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값을 갖는 개체를 선택하도록 학습하는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법으로서, a) 강화학습 에이전트가 강화학습에 이용될 액션에 대한 상태 정보와 보상 정보를 렌더링 엔진으로 요청하여 수집하는 단계; b) 강화학습 에이전트가 상기 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 심층 강화 학습을 수행하여 로봇의 움직임이 최적화되도록 액션을 결정하는 단계; c) 상기 렌더링 엔진이 결정된 액션을 출력하면, 제어 엔진이 상기 액션에 기반하여 로봇이 움직이도록 제어하는 단계; 및 d) 상기 렌더링 엔진이 로봇의 경로 정보를 수신하여 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하는 단계;를 포함한다.
또한, 상기 실시 예에 따른 a) 단계에서 수집되는 정보는 하나 이상의 로봇의 파킹 위치와 배치 위치 사이의 경로를 포함한 로봇의 움직임 정보인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 상기 b) 단계는 로봇의 현재 상태와 선택 가능한 물체들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 b) 단계는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 b) 단계는 강화학습 에이전트가 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값을 갖는 개체를 선택하도록 학습하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 c) 단계는 제어 엔진이 실제 환경에서 로봇 및 미리 저장된 시뮬레이터 프로그램 상에서 로봇이 움직이도록 제어하고, 그에 대응한 움직임 경로를 추출하는 것을 특징으로 한다.
본 발명은 강화학습 에이전트, 렌더링 엔진, 제어 엔진으로 구성된 시뮬레이션 학습 프레임 워크를 구성하고, 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있다.
이러한 시뮬레이션 학습 프레임 워크의 강화학습을 통해 생성된 인공지능 모델은 픽 앤 플레이스 시스템에 사용되어 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 구현할 수 있다.
도1은 일반적인 강화 학습 장치의 구성을 나타낸 블록도.
도2는 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치를 개략적으로 나타낸 블록도.
도3은 도2의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치의 구성을 나타낸 블록도.
도4는 도2의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치의 픽 앤 플레이스 시스템을 나타낸 예시도.
도5는 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법을 설명하기 위해 나타낸 흐름도.
도6은 도5의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법의 에피소드 설정 과정을 설명하기 위해 나타낸 흐름도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법의 바람직한 실시 예를 상세하게 설명한다.
도2는 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치를 개략적으로 나타낸 블록도이고, 도3은 도2의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치의 구성을 나타낸 블록도이며, 도4는 도2의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치의 픽 앤 플레이스 시스템을 나타낸 예시도이다.
도2 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치(100)는 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성할 수 있도록 렌더링 엔진(110)과, 강화학습 에이전트(120)와, 제어 엔진(130)과, 환경(140)을 포함하여 구성될 수 있다.
렌더링 엔진(110)은 픽 앤 플레이스 환경을 만드는 구성으로서, 로봇(200, 200a, 200b)의 움직임 경로, 즉 픽 앤 플레이스 동작에 따른 궤적을 기반으로 시뮬레이션을 수행할 수 있다.
또한, 렌더링 엔진(110)은 강화학습 에이전트(120)에게 강화학습에 이용될 상태(State) 정보와, 시뮬레이션에 기반한 보상(Reward) 정보를 전달하여 액션을 요청한다.
이에 강화학습 에이전트(120)는 요청된 액션을 렌더링 엔진(110)으로 제공한다.
또한, 렌더링 엔진(110)은 물체(400)의 운동학을 사실적이고 물리적으로 시뮬레이션 할 수 있도록 코어부(111)가 구성될 수 있으며, 물리 엔진이 적용된 시뮬레이터로 이루어질 수도 있다.
여기서, 상태는 로봇(200, 200a, 200b)의 현재 상태, 물체의 위치일 수 있고, 물체의 최대 개수와 현재 로봇(200, 200a, 200b)이 집을 수 있는 물체의 위치를 포함한다.
또한, 보상은 물체의 위치가 변함에 따라 물체를 성공적으로 집었을 때와, 로봇의 경로를 계획했지만, 물체를 잡지 못했을 때의 경우로 나눌 수 있다.
또한, 보상은 강화학습 에이전트(120)가 가능한 빨리 픽 앤 플레이스 하도록 장려하기 위해 보상 함수에는 픽앤 플레이스 시간 주기에 대한 음수 값이 포함될 수 있다.
또한, 로봇이 물체를 선택하지 못한 경우, 보상 함수에 예를 들면, '-10'이 벌점을 추가할 수도 있다.
또한, 렌더링 엔진(110)은 강화학습 에이전트(120)으로부터 제공된 액션(Action)에 대하여 하나 이상의 로봇(200, 200a, 200b)의 파킹 위치와 배치 위치 사이의 경로를 제어 엔진(130)으로부터 요청할 수 있다.
또한, 렌더링 엔진(110)은 제어 엔진(130)과 데이터를 송수신할 수 있도록 프로토콜을 제공할 수 있고, 제어 엔진(130)으로 물체(400)를 집는 위치와 배치 위치 사이의 경로 생성 요청을 전송할 수 있도록 ROS #(112)이 구성될 수 있다.
즉, ROS #(112)은 렌더링 엔진(110)과 제어 엔진(130)이 연동될 수 있도록 한다.
또한, 렌더링 엔진(110)은 강화학습 에이전트(120)의 모델을 훈련하기 위한 강화학습 알고리즘을 적용할 수 있도록 ML(Machine Learning)-에이전트(113)가 구성될 수 있다.
또한, ML-에이전트는 강화학습 에이전트(120)로 정보를 전달할 수 있고, 렌더링 엔진(110)의 시뮬레이터와 예를 들면 'Python' 등의 프로그램 사이의 인터페이스를 수행할 수도 있다.
또한, 렌더링 엔진(110)은 웹(Web)을 통해 시각화 할 수 있도록 웹 기반의 그래픽 라이브러리(WebGL, 114)를 포함하여 구성될 수 있다.
즉, 자바스크립트 프로그래밍 언어를 이용하여 호환성이 있는 웹 브라우저에서 인터랙티브한 3D 그래픽을 사용할 수 있도록 구성할 수 있다.
강화학습 에이전트(120)는 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 로봇(200, 200a, 200b)의 움직임이 최적화되도록 액션을 결정하는 구성으로서, 강화학습 알고리즘을 포함하여 구성될 수 있다.
여기서, 에피소드는 컨베이어 벨트(300)가 작동하면서 움직이는 물체(400)에 대해 로봇(200, 200a, 200b)이 픽 앤 플레이스 동작을 수행하는 환경(140)을 구성하고, 강화학습 에이전트(120)는 어떤 물체(400)를 선택해서 집을 것인지 선택하며, 성공적으로 집은 물체의 개수가 목표에 도달하는 것을 한번의 에피소드로 설정한다.
또한, 강화학습 알고리즘은 보상을 최대화하기 위한 최적의 정책을 찾기 위해, 가치 기반 접근 방식과 정책 기반 접근 방식 중 어느 하나를 이용할 수 있다.
가치 기반 접근 방식에서 최적의 정책은 에이전트의 경험을 기반으로 근사된 최적 가치 함수에서 파생되고, 정책 기반 접근 방식은 가치 함수 근사에서 분리된 최적의 정책을 학습하고 훈련된 정책이 근사치 함수 방향으로 개선된다.
본 실시 예에서는 정책 기반 알고리즘인 PPO(Proximal Policy Optimization) 알고리즘을 사용한다.
PPO 알고리즘을 사용하면, 현재 정책에서 멀어지지 않고, 경사 상승을 통해 정책이 개선되어 정책 개선이 더욱 안정적으로 이루어지고, 정책 개선은 목표를 최대화하여 이루어질 수 있다.
또한, 강화학습 에이전트(120)는 픽 앤 플레이스를 수행하는 로봇(200, 200a, 200b)의 현재 상태와 컨베이어 벨트(300) 상에서 선택 가능한 물체(400)들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정한다.
또한, 강화학습 에이전트(120)는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행할 수 있다.
또한, 강화학습 에이전트(120)는 특징 추출을 위한 입력 상태 뒤에 두 개의 MLP(Multiple Layer Perceptron)를 포함할 수 있고, 시뮬레이션 상의 불확실성과 움직이는 물체(400)를 고려하기 위해 LSTM(Long Short Term Memory) 레이어를 구비할 수 있다.
즉, 시계열 및 시퀀스 데이터에서 스텝 간의 장기 종속성을 학습하고, 긴 시퀀스에 대한 기울기 흐름이 개선될 수 있도록 한다.
또한, 강화학습 에이전트(120)의 강화학습 기반 알고리즘은 낮은 벨트 속도가 아닌 높은 벨트 속도로 도착한 물체를 기다리는데 시간이 덜 걸리기 때문에, 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값이 높은 개체를 선택하도록 학습하여 벨트 속도에 상관 없이 벨트 속도를 높이면 픽 앤 플레이스 시간이 단축될 수 있도록 한다.
한편, 픽 앤 플레이스 시간 주기로 표시되는 총 계획 시간과 로봇 실행 시간은 플레너의 컴퓨팅 시간, 물체의 도착 확률 및 로봇의 실행 시간(실시간 하드웨어 제약)의 불확실성으로 인해 불확실할 수 있다.
이는 각 로봇에 대한 물체 할당 결정에 영향을 줄 수 있어서, 이러한 불확실성 하에서 대상을 적응적으로 선택하도록 에이전트를 학습하는 강화학습 알고리즘을 제공할 수 있다.
따라서, 강화학습 알고리즘은 픽 앤 플레이스 주기 시간을 최소화하고, 선택한 물체의 수를 최대화하는 등의 다양한 측면을 충족할 수 있도록 시스템을 제어하는 강화학습 에이전트(120)의 학습이 이루어질 수 있도록 한다.
제어 엔진(130)은 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어하고, 해당 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보를 추출하여 제공하는 구성으로서, 로봇 제어 시스템(ROS)을 포함하여 구성될 수 있다.
여기서, 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보는 예를 들어, 컨베이어 벨트(300)를 따라 이동하는 물체(400)를 픽 앤 플레이스하는 실제 환경에서 로봇(200, 200a, 200b)이 움직인 경로일 수 있다.
또한, 로봇 제어 시스템(ROS)은 로봇 조작과 경로 플래닝(Path Planning) 등을 이용해 시뮬레이터 상에서 로봇의 움직임이 적용될 수 있도록 하고, 로봇 제어 시스템을 이용하여 제어되는 동작을 시뮬레이션 뿐만 아니라 실제 환경에서도 적용가능하도록 한다.
또한, 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보는 미리 저장된 시뮬레이터 프로그램 상에서 로봇(200, 200a, 200b)이 움직인 경로일 수 있다.
또한, 제어 엔진(130)은 미리 설정된 로봇(200, 200a, 200b)의 경로 계획 정보를 이용하여 로봇(200, 200b, 200b)이 동작하도록 제어할 수 있다.
또한, 제어 엔진(130)은 메니퓰레이터를 위한 통합 라이브러리인 Movelt 패키지를 이용하여 개방형 모션 라이브러리(Open Motion Planning Library)를 사용하여 경로를 생성할 수 있다.
즉, 제어 엔진(130)은 초기 관절 각도와 목표 관절 각도 사이의 유효한 경로(예들 들어, 부드럽고 충돌 없는 경로)를 검색한다.
또한, 메니퓰레이터는 움직이는 컨베이어 벨트를 따라 배치되며, 픽 앤 플레이스 작업을 반복적으로 수행하는 로봇일 수 있다.
또한, 제어 엔진(130)은 현재 위치에서 피킹 위치 및 피킹 위치에서 배치 위치까지의 긴 경로를 생성하는 대신 각각 4개의 계획 단계에 해당하는 4개의 경로를 생성할 수 있다.
즉, 제어 엔진(130)은 현재 위치에서 예를 들어, 로봇의 그리퍼가 대상 물체(400) 위에 있는 대기 위치(또는 동일한 위치)까지의 경로를 생성하는 '사전 파악 과정'과, 물체가 도착하면, 대기 위치에서 파킹 위치까지 경로를 생성하는 '파악 과정'과, 그리퍼를 대기 위치로 다시 들어 올리는 경로를 생성하는 '픽업 과정'과, 대기 위치에서 배치 위치까지 경로를 생성하는 '플레이스 과정'을 통해 4개의 궤적을 획득할 수 있다.
환경(140)은 단일 로봇 환경이거나 또는 다중 로봇 환경일 수 있다.
컨베이어 벨트(300)는 일정 방향을 따라 정렬되고, 임의의 너비(예를 들면, 30cm)를 가질 수 있으며, 로봇(200, 200a, 200b)은 너비를 따라 모든 영역에 도달 할 수 있다.
물체(400)는 조절 가능한 컨베이어 벨트(300)의 속도에 따른 속도로 컨베이어 벨트(300)의 일측(예를 들면, 우측)에서 시작되고, 새로운 물체는 임의의 위치와 시간 간격을 두고 랜덤(무작위)로 도착될 수 있다.
또한, 물체(400)는 쉽게 집을 수 있도록 일정 크기의 큐브 형태로 구성될 수 있다.
다음은 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법을 설명한다.
도5는 본 발명의 일 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법을 설명하기 위해 나타낸 흐름도이고, 도6은 도5의 실시 예에 따른 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법의 에피소드 설정 과정을 설명하기 위해 나타낸 흐름도이다.
도2 내지 도6을 참조하면, 본 발명의 일 실시 예는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법은 강화학습 에이전트(120)가 강화학습에 이용될 액션에 대한 상태 정보와 보상 정보를 렌더링 엔진(110)으로 요청하면, 렌더링 엔진(110)이 제어 엔진(130)으로 상태 정보와 보상 정보를 요청하여 수집(S100)한다.
또한, S100 단계에서 수집되는 정보는 하나 이상의 로봇(200, 200a, 200b)의 파킹 위치와 배치 위치 사이의 경로를 포함한 로봇(200, 200a, 200b)의 움직임 정보일 수 있다.
또한, S100 단계에서 수집된 상태 정보와 보상 정보는 강화학습 에이전트(120)로 제공되고, 강화학습 에이전트(120)는 상태 정보와 보상 정보를 기반으로 로봇(200, 200a, 200b)의 움직임이 최적화되도록 액션을 설정(S200)한다.
여기서 액션은 강화학습 에이전트(120)가 연속된 개체 수에 따라 n개의 선택 항목의 개별 집합에서 액션을 가져올 수 있고, 개체를 선택한 후 현재 개체 위치, 벨트 속도 및 현재 관절 각도 등을 기반으로 선택한 위치를 계산할 수 있다.
또한, S200 단계에서 강화학습 에이전트(120)는 컨베이어 벨트(300)가 작동하면서 움직이는 물체(400)에 대해 로봇(200, 200a, 200b)이 픽 앤 플레이스 동작을 수행하는 환경(140)에서, 어떤 물체(400)를 선택해서 집을 것인지 선택하며, 성공적으로 집은 물체의 개수가 목표에 도달하는 것을 한번의 에피소드로 설정한다.
또한, S200 단계에서 강화학습 에이전트(120)는 픽 앤 플레이스를 수행하는 로봇(200, 200a, 200b)의 현재 상태와 컨베이어 벨트(300) 상에서 선택 가능한 물체(400)들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정한다.
즉, 특정 로봇에 대한 액션 요청을 수신(S210)하면, 로봇의 현재 상태와 선택 가능 정보에 기반하여 액션을 설정(S220)하여 강화학습을 수행할 수도 있다.
또한, S200 단계에서 강화학습 에이전트(120)는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행할 수도 있다.
계속해서, 렌더링 엔진(110)은 S200 단계에서 결정된 액션을 수신하여 제어 엔진(130)으로 출력(S300)한다.
제어 엔진(130)은 S200 단계에서 생성된 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어(S400)한다.
S400 단계에서, 제어 엔진(130)은 액션에 기반한 로봇(200, 200a, 200b)의 동작이 실제 환경에서 연동된 로봇(200, 200a, 200b)이 동작하도록 제어고, 그에 대응한 움직인 경로(또는 궤적)를 추출할 수 있다.
또한, S400 단계에서 제어 엔진(130)은 미리 저장된 시뮬레이터 프로그램 상에서 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어하고, 그에 대응한 움직임 경로를 추출할 수도 있다.
또한, S400 단계는 로봇(200, 200a, 200b)의 경로 정보가 렌더링 엔진(110)로 제공되고, 렌더링 엔진(110)은 로봇(200, 200a, 200b)의 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하는 과정을 수행할 수 있다.
S400 단계의 시뮬레이션을 통해 렌더링 엔진(110)은 물체의 위치가 변함에 따라 물체를 성공적으로 집었을 때와, 로봇의 경로를 계획했지만 물체를 잡지 못했을 때의 경우에 대한 보상을 구분하여 강화학습 에이전트(120)에 제공한다.
다음은 프레임 워크의 검증을 위해 벨트 속도, 배치 및 도3과 같이 로봇(200, 200a, 200b) 개수의 다양한 구성을 통해 에이전트의 동작을 분석한 실험 결과이다.
10개의 개체를 선택한 후 총 작업 시간을 계산한 메트릭을 프레임 워크의 평가에 사용했다.
표3은 평가 결과로서, 세 가지 기준 알고리즘에 대한 제안 알고리즘의 총 작동 시간을 보여준다.
로봇 벨트 속도 위치 랜덤(s) FSFP(s) SP(s) 제안된 알고리즘
로봇 1개 0.025 왼쪽 125 118.7 118.5 118.7
로봇 1개 0.05 왼쪽 102.6 88.7 88.6 88.7
로봇 1개 0.1 왼쪽 94 75.4 75.7 75.4
로봇 1개 0.1 오른쪽 90.8 85.1 77.2 74
로봇 2개 0.1 - 79.3 69 66 61.7
로봇 3개 0.1 - 55.2 45.5 45.5 45.2
여기서, 랜덤은 무작위로 개체를 선택하는 것이고, FSFP(First See First Pick)은 항상 관찰 가능한 개체 목록에서 첫번째 개체를 선택하는 것이며, SP(Shortest Path)는 로봇에서 가장 가까운 개체를 선택하는 것이다.
하나의 로봇 시스템으로 구성된 알고리즘으로 훈련된 에이전트는 모든 상황에 적응하려고 시도하며, 그 성능은 랜덤, FSFP, SP에 비해 각각 15%, 2.9%, 2.9% 향상된 것을 알 수 있다.
또한, 하드웨어의 제약과 플래너의 컴퓨팅 시간에 따라 달라지는 경로 계획을 규칙 기반 알고리즘이 고려하지 않는 사실에서 개선될 수 있다.
또한, 강화학습 기반 알고리즘은 에이전트에게 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 가능성이 높은 개체를 선택하도록 학습하여 벨트 속도에 상관 없이 벨트 속도를 높이면 픽 앤 플레이스 시간이 단축될 수 있다.
이는 낮은 벨트 속도가 아닌 높은 벨트 속도로 도착한 물체를 기다리는데 시간이 덜 걸리기 때문이다.
또한, 배치 위치는 에이전트의 행동에도 영향을 줄 수 있다.
특히, 배치가 로봇의 왼쪽에 있는 경우, 에이전트 동작은 항상 배치에 가장 가까운 가장 왼쪽의 개체(예를 들어 배치 위치에 대한 최단 경로)를 선택하는 FSFP 에이전트로 수렴된다.
또한, 로봇의 오른쪽에 배치된 에이전트는 FSFP와 SP가 혼합된 정책을 학습하고, 특히, 첫 번째 결정단계에서 에이전트는 첫 번째로 도착한 개체(FSFP 동작)를 선택하며, 다음 결정 단계에서는 SP 에이전트의 동작에 가장 가까운 가장 가까운 개체(일반적으로 두 번째 또는 세 번째 개체)를 선택한다.
다수의 로봇 시스템을 사용하면, 로봇 수를 늘려 픽 앤 플레이스 시간이 감소될 수 있다.
따라서, 실시간 환경에서 로봇 운영 체제(ROS)를 이용하여 픽 앤 플레이스 관련 결정을 내리기 위해 강화 학습을 적용할 수 있도록 시뮬레이션 학습 프레임 워크를 구성하여 다양한 하드웨어와 실시간 제약을 충족하는 안정적인 경로 모션을 생성할 수 있다.
또한, 행동 기반 시스템을 활성화하고, 컨베이어 벨트 기반 시스템의 타당성과 확장성을 확인할 수 있으며, 강화학습 알고리즘을 사용하기 위해 프레임 워크를 다양한 로봇 시스템으로 확장할 수 있다.
또한, 시뮬레이션 상의 불확실성과 움직이는 물체를 고려함으로써, 시스템에 대한 보다 현실적인 환경을 개선할 수 있게 된다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
100 : 강화학습 장치
110 : 렌더링 엔진
111 : 코어부
112 : ROS #
113 : ML-에이전트
114 : WebGL
120 : 강화학습 에이전트
130 : 제어 엔진
140 : 환경
200, 200a, 200b : 로봇
300 : 컨베이어 벨트
400 : 물체

Claims (13)

  1. 제공된 액션(Action)에 대하여 하나 이상의 로봇(200, 200a, 200b)의 파킹 위치와 배치 위치 사이의 경로를 요청하되, 수신된 로봇(200, 200a, 200b)의 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하고, 강화학습에 이용될 상태(State) 정보와 보상(Reward) 정보를 제공하는 렌더링 엔진(110);
    상기 렌더링 엔진(110)으로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 심층 강화 학습을 수행하여 로봇(200, 200a, 200b)의 움직임이 최적화되도록 액션을 결정하는 강화학습 에이전트(120); 및
    상기 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어하고, 상기 렌더링 엔진(110)의 요청에 대응하여 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보를 상기 렌더링 엔진(110)에 제공하는 제어 엔진(130);을 포함하고,
    상기 강화학습 에이전트(120)는 로봇(200, 200a, 200b)의 현재 상태와 선택 가능한 물체(400)들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
  2. 제 1 항에 있어서,
    상기 로봇(200, 200a, 200b)의 움직임에 따른 경로 정보는 실제 환경에서 로봇(200, 200a, 200b)이 움직인 경로 및 미리 저장된 시뮬레이터 프로그램 상에서 로봇(200, 200a, 200b)이 움직인 경로 중 어느 하나인 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
  3. 제 1 항에 있어서,
    상기 렌더링 엔진(110)은 웹(Web)을 통해 시각화하는 응용 프로그램이 추가 설치된 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 강화학습 에이전트(120)는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
  6. 제 1 항에 있어서,
    상기 강화학습 에이전트(120)는 시뮬레이션 상의 불확실성과 움직이는 물체(400)를 고려하기 위한 LSTM(Long Short Term Memory) 레이어를 구비한 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
  7. 제 1 항에 있어서,
    상기 강화학습 에이전트(120)는 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값을 갖는 개체를 선택하도록 학습하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치.
  8. a) 강화학습 에이전트(120)가 강화학습에 이용될 액션에 대한 상태 정보와 보상 정보를 렌더링 엔진(110)으로 요청하여 수집하는 단계;
    b) 강화학습 에이전트(120)가 상기 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 심층 강화 학습을 수행하여 로봇(200, 200a, 200b)의 움직임이 최적화되도록 액션을 결정하는 단계;
    c) 상기 렌더링 엔진(110)이 결정된 액션을 출력하면, 제어 엔진(130)이 상기 액션에 기반하여 로봇(200, 200a, 200b)이 움직이도록 제어하는 단계; 및
    d) 상기 렌더링 엔진(110)이 로봇(200, 200a, 200b)의 경로 정보를 수신하여 움직임에 따른 경로를 기반으로 시뮬레이션을 수행하는 단계;를 포함하고,
    상기 b) 단계는 로봇(200, 200a, 200b)의 현재 상태와 선택 가능한 물체(400)들의 정보를 통해 특정 로봇에게 임의의 물체를 집을지 배정하는 액션을 결정하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
  9. 제 8 항에 있어서,
    상기 a) 단계에서 수집되는 정보는 하나 이상의 로봇(200, 200a, 200b)의 파킹 위치와 배치 위치 사이의 경로를 포함한 로봇(200, 200a, 200b)의 움직임 정보인 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
  10. 삭제
  11. 제 8 항에 있어서,
    상기 b) 단계는 보상이 지연(Delay)되는 것에 대응하여 지연 보상(Delayed Reward) 처리를 수행하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
  12. 제 8 항에 있어서,
    상기 b) 단계는 강화학습 에이전트(120)가 가장 짧은 픽 앤 플레이스 시간 주기를 생성할 확률값을 갖는 개체를 선택하도록 학습하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
  13. 제 8 항에 있어서,
    상기 c) 단계는 제어 엔진(130)이 실제 환경에서 로봇(200, 200a, 200b) 및 미리 저장된 시뮬레이터 프로그램 상에서 로봇(200, 200a, 200b)이 움직이도록 제어하고, 그에 대응한 움직임 경로를 추출하는 것을 특징으로 하는 픽 앤 플레이스 시스템을 위한 심층 강화학습 방법.
KR1020210103263A 2021-08-05 2021-08-05 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 KR102346900B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210103263A KR102346900B1 (ko) 2021-08-05 2021-08-05 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법
JP2022110447A JP7398830B2 (ja) 2021-08-05 2022-07-08 ピックアンドプレイスシステムのための深層強化学習装置及び方法
US17/867,001 US20230040623A1 (en) 2021-08-05 2022-07-18 Deep reinforcement learning apparatus and method for pick-and-place system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210103263A KR102346900B1 (ko) 2021-08-05 2021-08-05 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102346900B1 true KR102346900B1 (ko) 2022-01-04

Family

ID=79342648

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210103263A KR102346900B1 (ko) 2021-08-05 2021-08-05 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법

Country Status (3)

Country Link
US (1) US20230040623A1 (ko)
JP (1) JP7398830B2 (ko)
KR (1) KR102346900B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102458105B1 (ko) * 2022-06-21 2022-10-25 주식회사 애자일소다 다중 에이전트 기반의 경로 설정 강화학습 장치 및 방법
KR102464963B1 (ko) * 2022-05-25 2022-11-10 주식회사 애자일소다 데이터 기반의 물체 위치 최적화를 위한 강화학습 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020034994A (ja) * 2018-08-27 2020-03-05 株式会社デンソー 強化学習装置
JP2020082332A (ja) * 2018-11-30 2020-06-04 オムロン株式会社 制御装置、制御方法、及び制御プログラム
KR102211012B1 (ko) 2016-09-15 2021-02-03 구글 엘엘씨 로봇 조작을 위한 심층 강화 학습

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3834088B2 (ja) * 1995-11-10 2006-10-18 ファナック株式会社 複数のロボットにトラッキング動作を行なわせるための視覚センサ・ロボットシステム
JP4699598B2 (ja) * 2000-11-20 2011-06-15 富士通株式会社 問題解決器として動作するデータ処理装置、及び記憶媒体
JP5295828B2 (ja) * 2009-03-11 2013-09-18 本田技研工業株式会社 対象物の把持システム及び同システムにおける干渉検出方法
US10475240B2 (en) * 2010-11-19 2019-11-12 Fanuc Robotics America Corporation System, method, and apparatus to display three-dimensional robotic workcell data
JP5464177B2 (ja) * 2011-06-20 2014-04-09 株式会社安川電機 ピッキングシステム
US8931108B2 (en) * 2013-02-18 2015-01-06 Qualcomm Incorporated Hardware enforced content protection for graphics processing units
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
WO2018110314A1 (ja) * 2016-12-16 2018-06-21 ソニー株式会社 情報処理装置及び情報処理方法
JP6453922B2 (ja) * 2017-02-06 2019-01-16 ファナック株式会社 ワークの取り出し動作を改善するワーク取り出し装置およびワーク取り出し方法
JP7160574B2 (ja) * 2018-06-21 2022-10-25 株式会社日立製作所 処理装置、方法、およびプログラム
WO2020009139A1 (ja) * 2018-07-04 2020-01-09 株式会社Preferred Networks 学習方法、学習装置、学習システム及びプログラム
JP7119828B2 (ja) * 2018-09-21 2022-08-17 トヨタ自動車株式会社 制御装置、その処理方法及びプログラム
JP6632095B1 (ja) * 2019-01-16 2020-01-15 株式会社エクサウィザーズ 学習済モデル生成装置、ロボット制御装置、及び、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102211012B1 (ko) 2016-09-15 2021-02-03 구글 엘엘씨 로봇 조작을 위한 심층 강화 학습
JP2020034994A (ja) * 2018-08-27 2020-03-05 株式会社デンソー 強化学習装置
JP2020082332A (ja) * 2018-11-30 2020-06-04 オムロン株式会社 制御装置、制御方法、及び制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102464963B1 (ko) * 2022-05-25 2022-11-10 주식회사 애자일소다 데이터 기반의 물체 위치 최적화를 위한 강화학습 장치
KR102458105B1 (ko) * 2022-06-21 2022-10-25 주식회사 애자일소다 다중 에이전트 기반의 경로 설정 강화학습 장치 및 방법

Also Published As

Publication number Publication date
JP2023024296A (ja) 2023-02-16
US20230040623A1 (en) 2023-02-09
JP7398830B2 (ja) 2023-12-15

Similar Documents

Publication Publication Date Title
Matulis et al. A robot arm digital twin utilising reinforcement learning
Billard et al. Learning from humans
Sadeghi et al. Sim2real viewpoint invariant visual servoing by recurrent control
KR102346900B1 (ko) 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법
Hussein et al. Deep imitation learning for 3D navigation tasks
CN114952828B (zh) 一种基于深度强化学习的机械臂运动规划方法和系统
Chen et al. Deep reinforcement learning to acquire navigation skills for wheel-legged robots in complex environments
Sadeghi et al. Sim2real view invariant visual servoing by recurrent control
EP1870211B1 (en) Method for controlling a robot by assessing the fitness of a plurality of simulated behaviours
JP6671694B1 (ja) 機械学習装置、機械学習システム、データ処理システム及び機械学習方法
CN104858876A (zh) 机器人任务的可视调试
Franceschetti et al. Robotic arm control and task training through deep reinforcement learning
JP2022549859A (ja) 後知恵モデリングを用いた行動選択ニューラルネットワークの訓練
Shukla et al. Robotic grasp manipulation using evolutionary computing and deep reinforcement learning
KR20240052808A (ko) 그래프 신경망을 이용한 다중 로봇 조정
JP7452657B2 (ja) 制御装置、制御方法及びプログラム
CN111984000A (zh) 用于自动影响执行器的方法和设备
Oguz et al. Hybrid human motion prediction for action selection within human-robot collaboration
Paudel Learning for robot decision making under distribution shift: A survey
Shi et al. Efficient hierarchical policy network with fuzzy rules
Cao et al. Multi-robot learning dynamic obstacle avoidance in formation with information-directed exploration
US20220317659A1 (en) Transfer between Tasks in Different Domains
Matsikis et al. A behaviour coordination manager for a mobile manipulator
Epstein et al. Applying FORR to human/multi-robot teams
Mitić et al. Empirical control system development for intelligent mobile robot based on the elements of the reinforcement machine learning and axiomatic design theory

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant