KR102551039B1 - 팔레타이징 강화학습 장치 및 방법 - Google Patents

팔레타이징 강화학습 장치 및 방법 Download PDF

Info

Publication number
KR102551039B1
KR102551039B1 KR1020220181255A KR20220181255A KR102551039B1 KR 102551039 B1 KR102551039 B1 KR 102551039B1 KR 1020220181255 A KR1020220181255 A KR 1020220181255A KR 20220181255 A KR20220181255 A KR 20220181255A KR 102551039 B1 KR102551039 B1 KR 102551039B1
Authority
KR
South Korea
Prior art keywords
reinforcement learning
box
palletizing
reward
action
Prior art date
Application number
KR1020220181255A
Other languages
English (en)
Inventor
민예린
최규원
이광해
이호현
한범석
채지훈
노철균
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to KR1020220181255A priority Critical patent/KR102551039B1/ko
Application granted granted Critical
Publication of KR102551039B1 publication Critical patent/KR102551039B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/043Optimisation of two dimensional placement, e.g. cutting of clothes or wood

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Stacking Of Articles And Auxiliary Devices (AREA)

Abstract

팔레타이징 강화학습 장치 및 방법을 개시한다. 본 발명은 서울특별시 서울산업진흥원 2022년도 인공지능 기술사업화 지원사업(CY220081) "강화학습 기반의로봇 Palletizing 솔루션 개발"을 통해 개발된 기술로서, 시뮬레이션을 통해 다양한 제약 조건을 만족하면서 특정 크기의 상자들을 팔레트상에 안정적으로 팔레타이징 할 수 있도록 강화학습을 수행할 수 있다.

Description

팔레타이징 강화학습 장치 및 방법{PALLETIZING REINFORCEMENT LEARNING APPARATUS AND METHOD}
본 발명은 팔레타이징 강화학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 시뮬레이션을 통해 다양한 제약 조건을 만족하면서 특정 크기의 상자들을 팔레트상에 안정적으로 팔레타이징 할 수 있도록 강화학습을 수행하는 팔레타이징 강화학습 장치 및 방법에 관한 것이다.
본 발명은 서울특별시 서울산업진흥원 2022년도 인공지능 기술사업화 지원사업(CY220081) "강화학습 기반의로봇 Palletizing 솔루션 개발"을 통해 개발된 기술이다.
강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.
이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.
즉, 정해진 답이 없는 상태에서도 보상을 최대화 시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화 시키는 것을 배우는 과정을 거친다.
또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.
도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.
즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.
환경(20)은 에이전트(10)가 취할 수 있는 행동, 그에 따른 보상 등 모든 규칙으로서, 상태, 액션, 보상 등은 모두 환경의 구성요소이고, 에이전트(10) 이외의 모든 정해진 것들이 환경이다.
한편, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 되므로, 보상을 어떻게 책정하느냐 에 따라 학습 결과에 많은 영향이 발생한다.
이러한 강화학습은 제품 등을 대량으로 배송하는 경우, 제품을 상자에 적재하고, 상자는 팔레트(Pallet)에 어떻게 적재해야 최적의 상태로 적재할 수 있는지에 판단하는 것에 대한 핵심으로 작용할 수 있다.
즉, 상자의 크기, 팔레트의 크기, 박스의 방향, 바코드가 부착된 박스 면 위치, 층 수 등과 같이 다양한 조건을 만족하면서 상자를 팔레트에 최적화된 상태로 적재할 수 있는지가 강화학습 결과에 따라 영향을 받을 수 있다.
한국등록특허 등록번호 제10-1868105호(발명의 명칭: 자동 팔레타이징 시스템)
이러한 문제점을 해결하기 위하여, 본 발명은 시뮬레이션을 통해 다양한 제약 조건을 만족하면서 특정 크기의 상자들을 팔레트상에 안정적으로 팔레타이징 할 수 있도록 강화학습을 수행하는 팔레타이징 강화학습 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 팔레타이징 강화학습 장치로서, 시뮬레이션부로부터 제공받은 현재 팔레트 상태 정보 및 배치할 부품 와, 보상 제어부로부터 제공받은 보상 정보를 기반으로 팔레트 위에 상자의 방향과 위치를 결정하는 강화학습을 수행하여 보상이 최대화될 수 있도록 네 방향의 면(edge)를 기준으로 가까이 배치하게 될 맞닿은 두면과 물품의 회전 방향을 결정하는 복수의 이산화된 액션(Action) 중 하나를 결정하는 강화학습 에이전트; 상기 액션에 대하여 팔레트 위에 상자의 방향과 위치에 따른 상자의 적재(Palletizing) 시뮬레이션을 수행하는 시뮬레이션부; 및 상기 액션에 따른 적재 시뮬레이션을 통해 적재 공간의 이용률, 균형 배치율, 적재물 갯수 중 하나 이상의 변동값을 산출하고, 산출된 변동값을 상기 액션에 대한 보상 정보로 제공하는 보상 제어부;를 포함한다.
또한, 상기 실시 예에 따른 강화학습 에이전트는 보상 정보에 대응하여 보상 처리를 수행하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 상태 정보는 상자의 크기, 팔레트의 크기, 상자를 적재하는 층 수, 상자의 방향 및 바코드가 부착된 박스 면 위치 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예는 팔레타이징 강화학습 방법으로서, a) 강화학습 에이전트가 시뮬레이션부와, 보상 제어부로부터 각각 상태 정보와 보상 정보를 입력받는 단계; b) 상기 강화학습 에이전트가 입력된 상태 정보와 보상 정보를 기반으로 팔레트 위에 상자의 방향과 위치를 결정하는 강화학습을 수행하여 보상이 최대화될 수 있도록 액션(Action)을 결정하는 단계; c) 상기 시뮬레이션부가 결정된 액션에 대하여 팔레트 위에 상자의 방향과 위치에 따른 상자의 적재(Palletizing) 시뮬레이션을 수행하는 단계; 및 d) 상기 보상 제어부가 액션에 따른 적재 시뮬레이션을 통해 적재 공간의 이용률, 균형 배치율, 적재물 갯수 중 하나 이상의 변동값을 산출하고, 산출된 변동값을 상기 액션에 대한 보상 정보로 강화학습 에이전트로 제공하는 단계;를 포함한다.
또한, 상기 실시 예에 따른 b) 단계는 강화학습 에이전트가 보상 정보에 대응하여 보상 처리를 수행하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 상태 정보는 상자의 크기, 팔레트의 크기, 상자를 적재하는 층 수, 상자의 방향 및 바코드가 부착된 박스 면 위치 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 액션은 현재 팔레트 위 상황 및 배치할 부품 정보에 대한 상태(State), 네 방향의 면(edge)을 기준으로 가까이 배치하게 될 맞닿은 두 면과 물품의 회전 방향을 결정하는 복수의 이산화된 액션들 중 선택된 하나인 것을 특징으로 한다.
본 발명은 시뮬레이션을 통해 다양한 제약 조건을 만족하면서 특정 크기의 상자들을 팔레트상에 안정적으로 팔레타이징 할 수 있도록 강화학습을 수행하는 장점이 있다.
도1은 일반적인 강화 학습 장치의 구성을 나타낸 블록도.
도2는 본 발명의 일 실시 예에 따른 팔레타이징 강화학습 장치의 구성을 나타낸 블록도.
도3은 본 발명의 일 실시 예에 따른 팔레타이징 강화학습 방법을 설명하기 위해 나타낸 흐름도.
도4는 도3의 실시 예에 따른 팔레타이징 강화학습 방법의 액션을 설명하기 위해 나타낸 예시도.
도5는 도3의 실시 예에 따른 팔레타이징 강화학습 방법의 시뮬레이션 결과를 나타낸 예시도.
도6은 도3의 실시 예에 따른 팔레타이징 강화학습 방법의 시뮬레이션 결과를 설명하기 위해 나타낸 예시도.
도7은 도3의 실시 예에 따른 팔레타이징 강화학습 방법의 시뮬레이션 결과를 설명하기 위해 나타낸 다른 예시도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 팔레타이징 강화학습 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.
도2는 본 발명의 일 실시 예에 따른 팔레타이징 강화학습 장치의 구성을 나타낸 블록도이다.
도2에 나타낸 바와 같이, 본 발명의 일 실시 예에 따른 팔레타이징 강화학습 장치는 시뮬레이션을 통해 다양한 제약 조건을 만족하면서 특정 크기의 상자들을 팔레트 위에 안정적으로 팔레타이징 하는 강화학습을 수행할 수 있도록 강화학습 에이전트(100)와, 시뮬레이션부(200)와, 보상 제어부(300)를 포함하여 구성될 수 있다.
강화학습 에이전트(100)는 시뮬레이션부(200)로부터 제공받은 상태 정보와, 보상 제어부(300)로부터 제공받은 보상 정보를 기반으로 팔레트(500) 위에 상자(400)의 방향과 위치를 결정하는 강화학습 모델을 학습할 수 있다.
또한, 강화학습 에이전트(100)는 강화학습 모델을 이용한 강화학습을 통해, 입력된 상태 정보와 보상 정보에 따라 선택 가능한 액션에 대한 보상(Reward)이 최대화될 수 있도록 액션(Action)을 결정할 수 있다.
강화학습은 특정 목표(Metric)를 설정하게 되면, 설정된 목표를 달성하기 위한 학습 방향이 설정될 수 있다.
예를 들어, 목표가 적재 공간의 이용률, 적재 시간, 적재 층 수, 적재물 갯수 등을 최대화하기 위한 강화학습 모델의 생성이면, 강화학습을 통해 현재 팔레트 위 상황 및 배치할 부품 정보에 대한 상태(State), 네 방향의 면(edge)을 기준으로 가까이 배치하게 될 맞닿은 두 면과 물품의 회전 방향을 결정하는 복수의 이산화된 액션(Action) 중 선택된 하나에 따른 보상(Reward)을 고려하여 적재 공간의 이용률과, 적재물 갯수 등을 높게 달성할 수 있는 최종 강화학습 모델이 생성될 수 있도록 한다.
여기서, 복수의 이산화된 액션(At)은 At={(edge1, edge2, rotation1),(edge2, edge3, rotation1), …, (edge4, edge1, rotation4)}와 같이 16가지의 이산화된 액션일 수 있다.
즉, 강화학습 에이전트(100)가 강화학습을 통해 달성하고자 하는 궁극적인 목표(Metric)는 적재 공간의 이용률, 적재물 갯수 등의 보상이 최대화되도록 하는 것이다.
또한, 강화학습 에이전트(100)는 임의의 시점에서의 상태 정보와, 보상 정보를 가질 수 있고, 이를 기반으로 강화학습 에이전트(100)는 임의의 액션을 결정하면, 결정된 액션에 대응하여 강화학습 에이전트(100)는 시뮬레이션부(200)에서 새로운 상태 정보, 보상 제어부(300)에서 새로운 보상 정보를 제공 받을 수 있다.
여기서, 상태 정보는 상자의 크기, 팔레트의 크기, 상자를 적재하는 층 수, 상자의 방향 또는 바코드가 부착된 박스 면 위치 등의 제약 조건을 포함할 수 있다.
또한, 액션은 x-y 좌표상에서 팔레트 위에 배치되는 상자의 위치, 각 상자들이 팔레트 위에서 적재되는 방향에 대한 정보일 수 있다.
또한, 상자가 적재되는 방향은 상자에 부착된 바코드의 위치(예를 들어, 상자의 측면 또는 상면 중 어느 하나의 전측, 후측, 좌측 및 우측), 상자의 형상(예를 들어, 직사각형 상자, 정사각형 상자 등)에 따라 상자를 팔레트 위에 가로방향 또는 세로방향으로 배치되도록 할 수 있다.
또한, 이러한 상호 작용에 기반하여 강화학습 에이전트(100)는 시뮬레이션부(200)와 보상 제어부(300)에서 누적된 보상을 최대화하는 정책(Policy)을 학습할 수 있다.
즉, 강화학습 에이전트(100)는 강화학습을 수행하면서, 학습의 수행 여부를 적재 공간의 이용률을 포함한 보상 정보로 이용하여 수행할 수 있다.
예를 들어, 보상 값중 하나인 적재 공간의 이용률이 80% 이상을 달성하면 이전에 수행했던 액션들은 '긍정적'으로 학습된 것을 의미할 수 있어 최적의 정책을 찾아갈 수 있도록 한다.
시뮬레이션부(200)는 강화학습 에이전트(100)에서 결정된 액션에 대하여 팔레트(500) 위에 상자(400)의 방향과 위치에 따른 상자(400)의 적재(Palletizing) 시뮬레이션을 수행할 수 있다.
또한, 시뮬레이션부(200)는 시뮬레이션을 통한 상태 정보를 강화학습 에이전트(100)로 제공할 수 있다.
보상 제어부(300)는 시뮬레이션부(200)가 액션에 따른 적재 시뮬레이션을 수행한 결과를 기반으로 적재 공간의 이용률, 적재 층 수 및 적재물 갯수 중 하나 이상의 변동값을 산출할 수 있다.
또한, 보상 제어부(300)는 각 액션에 대해서 전체 변동률 대비 개별 액션에 따라 변동되는 전체 변동률과의 차이를 산출하고, 산출된 변동값을 액션에 대한 보상 정보로 강화학습 에이전트(100)에 제공할 수 있다.
즉, 보상 제어부(300)는 각 액션에 대해 해당 매트릭에 대한 전체 변동(예를 들어, 적재 공간의 이용률)과 대비하여 개별 변동(예를 들어, 적재 층 수, 적재물 갯수 등)한 것에 대한 차이를 보상으로 제공하는 보상 함수로서, 강화학습 에이전트(100)의 강화학습에서 최적의 정책(Optimal Policy)을 찾기 위한 상태에 따른 액션의 피드백으로 보상 정보를 산출하는 보상 학습을 수행할 수 있다.
또한, 보상 제어부(300)는 변동값에 대하여 미리 설정된 표준화된 값으로 변환하여 동일한 단위의 개별 보상체계를 구성할 수도 있다.
또한, 보상 제어부(300)에서 산출되는 변동값은 강화 학습의 목표(Metric)와 보상이 연계되도록 구성함으로써, 보상 정보에 대한 점수가 직관적인 이해될 수 있도록 구성할 수도 있다.
다음은 본 발명의 일 실시 예에 따른 팔레타이징 강화학습 방법을 설명한다.
도3은 본 발명의 일 실시 예에 따른 팔레타이징 강화학습 방법을 설명하기 위해 나타낸 흐름도이다.
도2 및 도3을 참조하면, 본 발명의 일 실시 예에 따른 팔레타이징 강화학습 방법은 강화학습 에이전트(100)가 시뮬레이션부(200)로부터 상태 정보를 입력 받고, 보상 제어부(300)로부터 보상 정보를 입력(S100)받는다.
S100 단계에서 입력 받는 상태 정보는 상자의 크기, 팔레트의 크기 등의 환경 데이터와, 상자를 적재하는 현재 층 수, 상자의 방향 등의 제약 조건을 포함할 수 있다.
또한, 보상 정보는 액션에 대해 해당 매트릭에 대한 전체 변동(예를 들어, 적재 공간의 이용률)과 대비하여 개별 변동(예를 들어, 적재 층 수, 적재물 갯수 등)한 것에 대한 차이일 수 있다.
계속해서, 강화학습 에이전트(100)는 S100 단계에서 입력된 상태 정보와 보상 정보를 기반으로 팔레트(500) 위에 상자(400)의 방향과 위치를 결정하는 강화학습을 수행하여 보상이 최대화될 수 있도록 액션(Action)을 결정(S200)할 수 있다.
즉, S200 단계에서 강화학습 에이전트(100)는 목표가 적재 공간의 이용률, 적재 층 수, 적재물 갯수 등을 최대화하기 위한 강화학습을 통해, 현재 팔레트 위 상황 및 배치할 부품 정보에 대한 상태(State), 네 방향의 면(edge)을 기준으로 가까이 배치하게 될 맞닿은 두 면과 물품의 회전 방향을 결정하는 복수의 이산화된 액션(Action) 중 선택된 하나에 따른 보상(Reward)을 고려하여 적재 공간의 이용률, 적재 층 수, 적재물 갯수 등을 높게 달성할 수 있는 최종 강화학습 모델이 생성될 수 있도록 한다.
여기서, 복수의 이산화된 액션(At)은 At={(edge1, edge2, rotation1),(edge2, edge3, rotation1), …, (edge4, edge1, rotation4)}와 같이 16가지의 이산화된 액션일 수 있다.
또한, S200 단계에서 강화학습 에이전트(100)가 보상의 최대화를 위해 결정하는 액션은, 도4(a)에 나타낸 바와 같이, x-y 좌표상에서 팔레트(500) 위에 배치되는 상자(400)의 위치와, 도4(b)에 나타낸 바와 같이, 각 상자(400, 400a, 400b, 400c)들이 팔레트 위에서 적재되는 방향에 대한 정보를 포함할 수 있다.
또한, 팔레트(500) 위해 각 상자(400, 400a, 400b, 400c) 들이 적재되는 방향은 상자에 부착된 바코드(410, 410a, 410b, 410c)의 위치, 상자의 형상(예를 들어, 직사각형 상자, 정사각형 상자 등)에 따라 각 상자(400, 400a, 400b, 400c)를 팔레트 위에 가로방향 또는 세로방향으로 배치되도록 할 수 있다.
또한, S200 단계에서 강화학습 에이전트(100)는 시뮬레이션부(200)와 보상 제어부(300)에서 누적된 보상을 최대화하는 정책(Policy)을 학습할 수도 있다.
즉, S200 단계에서 강화학습 에이전트(100)는 강화학습을 수행하면서, 강화학습의 수행 여부는 보상값으로 판단하여, 보상 정보에 대응한 보상 처리를 수행할 수 있다.
계속해서, 시뮬레이션부(200)는 S200 단계에서 결정된 액션에 기반하여 도5와 같이, 팔레트(500) 위에 상자(400)의 방향과 위치에 따른 상자(400)의 적재(Palletizing) 시뮬레이션을 수행(S300)한다.
S300 단계를 수행한 후, 보상 제어부(300)는 시뮬레이션부(200)가 액션에 따른 적재 시뮬레이션을 통해 적재 공간의 이용률, 적재 층 수 및 적재물 갯수 중 하나 이상의 변동값을 산출하고, 산출된 변동값을 S200 단계에서 결정된 액션에 대한 보상 정보로 하여 강화학습 에이전트(100)로 제공(S400)할 수 있다.
즉, S400 단계에서 보상 제어부(300)는 도6에 따른 성능 결과값과, 도7에 따른 시뮬레이션 결과에 기반한 시뮬레이션 결과 이미지(700)를 통해 각 액션에 대한 해당 매트릭의 전체 변동(예를 들어, 적재 공간의 이용률)과 대비하여 개별 변동(예를 들어, 적재 층 수, 적재물 갯수 등)한 것에 대한 차이를 산출하고, 산출된 변동값을 액션에 대한 보상 정보로 강화학습 에이전트(100)에 제공할 수 있다.
여기서, 미설명부호 710은 팔레트 크기이고, 720은 상자의 크기이며, 730은 액션을 통해 팔레트(500) 위에 상자(400, 400a, 400b, 400c) 들을 적재하여 배치한 결과 이미지이다.
또한, S400 단계에서 보상 제어부(300)는 강화학습 에이전트(100)의 강화학습에서 최적의 정책(Optimal Policy)을 찾기 위한 상태 정보에 따른 액션의 피드백으로 보상 정보를 산출하는 보상 학습을 수행할 수 있다.
또한, S400 단계에서 보상 제어부(300)는 변동값에 대하여 미리 설정된 표준화된 값으로 변환하여 동일한 단위의 개별 보상체계를 구성할 수도 있고, 보상 제어부(300)에서 산출되는 변동값을 강화 학습의 목표(Metric)와 보상이 연계되도록 구성하여 보상 정보에 대한 점수가 직관적인 이해될 수 있도록 구성할 수도 있다.
따라서, 시뮬레이션을 통해 다양한 제약 조건을 만족하면서 특정 크기의 상자들을 팔레트상에 안정적으로 팔레타이징할 수 있도록 강화학습을 수행할 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
100 : 강화확습 에이전트
200 : 시뮬레이션부
300 : 보상 제어부
400, 400a, 400b, 400c : 상자
410, 410a, 410b, 410c : 바코드
500 : 팔레트(pallet)
600 : 성능 결과값
700 : 시뮬레이션 결과 이미지
710 : 팔레트 크기
720 : 상자 크기
730 : 상자들의 배치 결과 이미지

Claims (7)

  1. 시뮬레이션부(200)로부터 제공받은 현재 팔레트 상태 및 배치할 부품 정보와, 보상 제어부(300)로부터 제공받은 보상 정보를 기반으로 네 방향의 면(edge)을 기준으로 가까이 배치하게 될 맞닿은 두 면과 물품의 회전 방향을 결정하는 복수의 이산화된 액션(Action) 중 하나를 결정하는 강화학습 에이전트(100);
    상기 액션에 대하여 팔레트(500) 위에 상자(400)의 방향과 위치에 따른 상자(400)의 적재(Palletizing) 시뮬레이션을 수행하는 시뮬레이션부(200); 및
    상기 액션에 따른 적재 시뮬레이션을 통해 적재 공간의 이용률, 적재 층 수 및 적재물 갯수 중 하나 이상의 변동값을 산출하고, 산출된 변동값을 상기 액션에 대한 보상 정보로 제공하는 보상 제어부(300);를 포함하는 팔레타이징 강화학습 장치.
  2. 제 1 항에 있어서,
    상기 강화학습 에이전트(100)는 보상 정보에 대응하여 보상 처리를 수행하는 것을 특징으로 하는 팔레타이징 강화학습 장치.
  3. 제 1 항에 있어서,
    상기 상태 정보는 상자의 크기, 팔레트의 크기, 상자를 적재하는 층 수 및 상자의 방향 중 하나 이상을 포함하는 것을 특징으로 하는 팔레타이징 강화학습 장치.
  4. a) 강화학습 에이전트(100)가 시뮬레이션부(200)와, 보상 제어부(300)로부터 각각 상태 정보와 보상 정보를 입력 받는 단계;
    b) 상기 강화학습 에이전트(100)가 입력된 상태 정보와 보상 정보를 기반으로 팔레트(500) 위에 상자(400)의 방향과 위치를 결정하는 강화학습을 수행하여 보상이 최대화될 수 있도록 액션(Action)을 결정하는 단계;
    c) 상기 시뮬레이션부(200)가 결정된 액션에 대하여 팔레트(500) 위에 상자(400)의 방향과 위치에 따른 상자(400)의 적재(Palletizing) 시뮬레이션을 수행하는 단계; 및
    d) 상기 보상 제어부(300)가 액션에 따른 적재 시뮬레이션을 통해 적재 공간의 이용률, 적재 층 수 및 적재물 갯수 중 하나 이상의 변동값을 산출하고, 산출된 변동값을 상기 액션에 대한 보상 정보로 강화학습 에이전트(100)로 제공하는 단계;를 포함하는 팔레타이징 강화학습 방법.
  5. 제 4 항에 있어서,
    상기 b) 단계는 강화학습 에이전트(100)가 보상 정보에 대응하여 보상 처리를 수행하는 것을 특징으로 하는 팔레타이징 강화학습 방법.
  6. 제 4 항에 있어서,
    상기 상태 정보는 상자의 크기, 팔레트의 크기, 상자를 적재하는 층 수 및 상자의 방향 중 하나 이상을 포함하는 것을 특징으로 하는 팔레타이징 강화학습 방법.
  7. 제 4 항에 있어서,
    상기 액션은 현재 팔레트 위 상황 및 배치할 부품 정보에 대한 상태(State), 네 방향의 면(edge)을 기준으로 가까이 배치하게 될 맞닿은 두 면과 물품의 회전 방향을 결정하는 복수의 이산화된 액션들 중 선택된 하나인 것을 특징으로 하는 팔레타이징 강화학습 방법.
KR1020220181255A 2022-12-22 2022-12-22 팔레타이징 강화학습 장치 및 방법 KR102551039B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220181255A KR102551039B1 (ko) 2022-12-22 2022-12-22 팔레타이징 강화학습 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220181255A KR102551039B1 (ko) 2022-12-22 2022-12-22 팔레타이징 강화학습 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102551039B1 true KR102551039B1 (ko) 2023-07-04

Family

ID=87156655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220181255A KR102551039B1 (ko) 2022-12-22 2022-12-22 팔레타이징 강화학습 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102551039B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101868105B1 (ko) 2016-07-07 2018-07-17 (주)베스테크 자동 팔레타이징 시스템
KR20200115471A (ko) * 2017-11-21 2020-10-07 풀필 솔루션스, 인크. 제품 핸들링 및 포장 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101868105B1 (ko) 2016-07-07 2018-07-17 (주)베스테크 자동 팔레타이징 시스템
KR20200115471A (ko) * 2017-11-21 2020-10-07 풀필 솔루션스, 인크. 제품 핸들링 및 포장 시스템

Similar Documents

Publication Publication Date Title
JP6684404B1 (ja) リアルタイム載置シミュレーションを使用してパッケージをパレタイズするためのロボットシステム
Suykens et al. Optimal control by least squares support vector machines
JP6710400B1 (ja) パッキング機構を有するロボットシステム
Dang et al. Scheduling a single mobile robot for part-feeding tasks of production lines
Chan et al. Integration of expert system with analytic hierarchy process for the design of material handling equipment selection system
CN110175405B (zh) 车辆装载优化方法及系统
KR20200138073A (ko) 비순서적으로 도착하는 패키지를 처리하기 위한 로봇 시스템
Gagliardi et al. A simulation modeling framework for multiple-aisle automated storage and retrieval systems
Gong et al. Robotic mobile fulfilment systems considering customer classes
CN111226239B (zh) 运输操作控制设备、运输操作控制方法和存储有运输操作控制程序的记录介质
Estanjini et al. A least squares temporal difference actor–critic algorithm with applications to warehouse management
KR102551039B1 (ko) 팔레타이징 강화학습 장치 및 방법
Rahman et al. Calibrating intuitive and natural human–robot interaction and performance for power-assisted heavy object manipulation using cognition-based intelligent admittance control schemes
CN110968567A (zh) 起重机货物三维位置信息数据库的智能构建方法及系统
Beyer et al. Flexible agent-based planning and adaptation of material handling systems
KR102641856B1 (ko) 팔레타이징 시스템 및 이의 제어방법
KR102628664B1 (ko) 혼합된 크기의 상자 배치 강화학습 장치 및 방법
Geuna et al. Resilience and Digital Disruption: Regional Competition in the Age of Industry 4.0
Veeke et al. Conceptual design of industrial systems: an approach to support collaboration
Wu et al. Optimization of robust control for the uncertain delta-type parallel manipulator with active constraints: A fuzzy-set theory-based approach
CN111325510B (zh) 确定托盘位置的方法、装置、电子设备和仓库管理系统
Klecker et al. Robotic trajectory tracking: Bio-inspired position and torque control
Weerasinghe et al. Optimal Class-Based Storage System with Diagonal Movements
Ozaki et al. Design of AVS/RS under group constraint
Poss Applications of Object Detection in Industrial Contexts Based on Logistics Robots

Legal Events

Date Code Title Description
GRNT Written decision to grant