KR102461202B1

KR102461202B1 - 화물 적재 및 하역 시스템의 강화학습 장치 및 방법

Info

Publication number: KR102461202B1
Application number: KR1020220087726A
Authority: KR
Inventors: 김동석; 채지훈; 유연상
Original assignee: 주식회사 애자일소다
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-31

Abstract

화물 적재 및 하역 시스템의 강화학습 장치 및 방법을 개시한다. 본 발명은 강화학습을 통해 화물의 하역시 배출 순서 정보가 포함된 화물을 임의의 위치에 순서대로 적재하고, 적재된 화물을 재배치하거나 화물의 반출이 가능하면 화물을 하역시켜 제거함으로써, 화물의 반출시간을 감소시킬 수 있다.

Description

화물 적재 및 하역 시스템의 강화학습 장치 및 방법{APPARATUS AND METHOD FOR REINFORCEMENT LEARNING OF CARGO LOADING AND UNLOADING SYSTEM}

본 발명은 화물 적재 및 하역 시스템의 강화학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 강화학습을 통해 화물의 하역시 배출 순서 정보가 포함된 화물을 임의의 위치에 순서대로 적재하고, 적재된 화물을 재배치하거나 화물의 반출이 가능하면 화물을 하역시켜 제거하는 화물 적재 및 하역 시스템의 강화학습 장치 및 방법에 관한 것이다.

강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.

이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.

즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.

또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.

도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.

즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.

환경(20)은 에이전트(10)가 취할 수 있는 행동, 그에 따른 보상 등 모든 규칙으로서, 상태, 액션, 보상 등은 모두 환경의 구성요소이고, 에이전트(10) 이외의 모든 정해진 것들이 환경이다.

한편, 강화 학습을 통해 에이전트는 미래의 보상이 최대가 되도록 액션을 취하게 되므로, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생한다.

최근 들어, 항만이 대형화 정밀화가 이루어짐에도 불구하고 늘어나는 물동량을 제시간에 처리하지 못하여 항만의 물량 적체는 점차 늘어가고, 거기에 소요되는 인건비를 포함하는 각종 비용이 해가 갈수록 증가하는 추세이다.

그러나, 화물의 하역과 적재는 하역장에서 화물이 하역될 위치의 결정과, 하역된 물량을 차량 또는 선박 등으로의 신속한 반출이 요구되지만, 관리자에 의한 수동적인 스케줄 관리로 인해 하역 및 적재 작업의 처리 시간이 증가하고 작업 효율도 향상되지 못하는 문제점이 있다.

한국 등록특허번호 10-1352991호(발명의 명칭: 랜덤 적재와 반출 가능한 컨테이너 적재 시스템)

이러한 문제점을 해결하기 위하여, 본 발명은 강화학습을 통해 화물의 하역시 배출 순서 정보가 포함된 화물을 임의의 위치에 순서대로 적재하고, 적재된 화물을 재배치하거나 화물의 반출이 가능하면 화물을 하역시켜 제거하는 화물 적재 및 하역 시스템의 강화학습 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 화물 적재 및 하역 시스템의 강화학습 장치로서, 스택 에이전트에서 제공되는 액션(Action)을 기반으로 화물이 임의의 위치에 적재되도록 적재 시뮬레이션을 수행하고, 언로딩 에이전트에서 제공되는 액션을 기반으로 적재된 화물의 재배치 및 반출 가능한 화물이 반출되도록 하역 시뮬레이션을 수행하며, 상기 스택 에이전트와 언로딩 에이전트의 강화학습에 이용될 상태(State) 정보와 보상(Reward) 정보를 제공하는 시뮬레이션 환경부; 상기 시뮬레이션 환경부로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 강화학습을 수행하여 화물의 적재 위치를 결정하는 액션을 제공하는 스택 에이전트; 및 상기 시뮬레이션 환경부로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 강화학습을 수행하여 적재된 화물의 재배치와 반출 가능한 화물을 적재 위치에서 반출하는 액션을 제공하는 언로딩 에이전트;를 포함한다.

또한, 상기 실시 예에 따른 시뮬레이션 환경부는 화물의 하역시 배출 순서를 포함한 1차원 배열의 정보를 스택 에이전트의 상태 정보로 제공하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 시뮬레이션 환경부는 스택 에이전트의 적재 시뮬레이션과 언로딩 에이전트의 하역 시뮬레이션 수행 결과를 기반으로 평가한 시간을 스택 에이전트의 보상 정보로 제공하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 시뮬레이션 환경부는 스택 에이전트로부터 제공된 액션에 기반하여 시뮬레이션을 통해 생성되는 화물의 하역시 배출 순서를 포함한 2차원 배열의 스택 테이블 정보를 상기 언로딩 에이전트의 상태 정보로 제공하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 시뮬레이션 환경부는 시뮬레이션 수행 결과를 기반으로 적재된 화물의 재배치와 적재된 화물을 반출하기 위해 이동한 크레인의 이동 거리를 언로딩 에이전트의 보상 정보로 제공하는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예는 화물 적재 및 하역 시스템의 강화학습 방법으로서, a) 스택 에이전트가 강화학습에 이용될 상태 정보와 보상 정보를 제공하는 시뮬레이션 환경부로 요청하여 수집하고, 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 스택 강화학습을 수행하여 화물의 적재 위치를 결정하는 액션을 제공하는 단계; b) 시뮬레이션 환경부가 제공된 스택 에이전트의 액션(Action)을 기반으로 화물이 임의의 위치에 적재되도록 적재 시뮬레이션을 수행하는 단계; c) 언로딩 에이전트가 강화학습에 이용될 상태 정보와 보상 정보를 상기 시뮬레이션 환경부로부터 수집하고, 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 언로딩 강화학습을 수행하여 적재된 화물의 재배치와 반출 가능한 화물을 적재 위치에서 반출하는 액션을 제공하는 단계; 및 d) 상기 시뮬레이션 환경부가 제공된 언로딩 에이전트의 액션을 기반으로 적재된 화물의 재배치 및 반출 가능한 화물이 반출되도록 하역 시뮬레이션을 수행하고, 시뮬레이션 결과에 따른 보상 정보를 생성하여 상기 스택 에이전트와 언로딩 에이전트로 출력하는 단계;를 포함한다.

또한, 상기 실시 예에 따른 a) 단계는 시뮬레이션 환경부가 화물의 하역시 배출 순서를 포함한 1차원 배열의 정보를 상태 정보로 제공하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 c) 단계는 시뮬레이션 환경부가 스택 에이전트로부터 제공된 액션을 기반으로 시뮬레이션을 수행하여 생성되는 화물의 하역시 배출 순서를 포함한 2차원 배열의 스택 테이블 정보를 상태 정보로 제공하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 d) 단계는 시뮬레이션 환경부가 스택 에이전트의 적재 시뮬레이션과 언로딩 에이전트의 하역 시뮬레이션 수행 결과를 기반으로 평가한 시간을 스택 에이전트의 보상 정보로 제공하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 d) 단계는 시뮬레이션 환경부가 시뮬레이션 수행 결과를 기반으로 적재된 화물의 재배치와 적재된 화물을 반출하기 위해 이동한 크레인의 이동 거리를 언로딩 에이전트의 보상 정보로 제공하는 것을 특징으로 한다.

본 발명은 강화학습을 통해 화물의 하역시 배출 순서 정보가 포함된 화물을 임의의 위치에 순서대로 적재하고, 적재된 화물을 재배치하거나 화물의 반출이 가능하면 화물을 하역시켜 제거함으로써, 화물의 반출 시간을 감소시킬 수 있는 장점이 있다.

도1은 일반적인 강화 학습 장치의 구성을 나타낸 블록도.
도2는 본 발명의 일 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 장치 구성을 설명하기 위해 나타낸 블록도.
도3은 도2의 실시 예에 따른 화물 적재 및 하역 시스템의 동작을 설명하기 위해 나타낸 예시도.
도4는 도2의 실시 예에 따른 화물 적재 및 하역 시스템의 동작을 설명하기 위해 나타낸 다른 예시도.
도5는 본 발명의 일 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 방법을 설명하기 위해 나타낸 흐름도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.

도2는 본 발명의 일 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 장치 구성을 설명하기 위해 나타낸 블록도이고, 도3은 도2의 실시 예에 따른 화물 적재 및 하역 시스템의 동작을 설명하기 위해 나타낸 예시도이며, 도4는 도2의 실시 예에 따른 화물 적재 및 하역 시스템의 동작을 설명하기 위해 나타낸 다른 예시도이다.

도2 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 장치는 강화학습을 통해 화물(400)의 하역시 배출 순서 정보가 포함된 화물(400)을 임의의 위치에 순서대로 적재하고, 적재된 화물을 재배치하거나 반출 가능하면 화물을 하역시켜 제거하는 구성으로서, 시뮬레이션 환경부(100)와, 스택 에이전트(200)와, 언로딩 에이전트(300)를 포함하여 구성될 수 있다.

즉, 본 발명의 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 장치는 2개의 강화학습 에이전트로 구성될 수 있다.

시뮬레이션 환경부(100)는 스택 에이전트(200)에서 제공되는 액션(Action)을 기반으로 화물(400)이 임의의 위치에 적재되도록 적재 시뮬레이션을 수행할 수 있다.

또한, 시뮬레이션 환경부(100)는 언로딩 에이전트(300)에서 제공되는 액션을 기반으로 적재된 화물(400)의 재배치 및 반출 가능한 화물(400)이 반출되도록 하역 시뮬레이션을 수행할 수 있다.

또한, 시뮬레이션 환경부(100)는 스택 에이전트(200)와 언로딩 에이전트(300)의 강화학습에 이용될 상태(State) 정보와 시뮬레이션 결과에 기반한 보상(Reward) 정보를 제공하여 액션을 요청할 수 있다.

시뮬레이션 환경부(100)의 액션 요청에 스택 에이전트(200)와, 언로딩 에이전트(300)는 요청된 액션을 각각 시뮬레이션 환경부(100)로 제공할 수 있다.

여기서, 시뮬레이션 환경부(100)는 실제 항구의 모습과 실제 화물의 적재 및 하역과 관련된 데이터들을 이용하여 가상 현실로 구현하고, 이를 기반으로 시뮬레이션을 수행할 수 있도록 물리 엔진이 적용된 시뮬레이터로 구성될 수도 있다.

또한, 본 발명의 실시 예에서는 항구에서 선박에 실린 컨테이너 기반의 화물(400)을 하역장으로 옮겨 쌓는 적재 및 하역 시스템으로 설명하지만 이에 한정되는 것은 아니고, 트럭과 같은 화물 운송 차량에 실린 박스 기반의 화물을 싣고 내리는 적재 및 하역 시스템을 포함할 수 있다.

또한, 본 발명의 실시 예는 생산 현장에서 생산된 제품의 적재 및 하역과, 물류 현장에서 입고 및 출고되는 배송 물품의 적재 및 하역 시스템을 포함할 수도 있고, 임의의 위치에 화물을 적재하며 적재된 화물의 반출(또는 출고)을 위한 이동이 요구되는 분야는 모두 포함될 수 있다.

또한, 시뮬레이션 환경부(100)는 스택 에이전트(200)로 제공하는 상태 정보에 대하여 화물(400)의 하역시 배출 순서 정보가 포함된 1차원 배열의 정보 또는 화물의 적재 순서 정보가 포함된 1차원 배열의 정보를 스택 에이전트(200)의 상태 정보로 제공할 수 있다.

여기서, 화물(400)의 하역시 배출 순서 정보를 포함한 1차원 배열의 정보는 화물(400)의 적재시에 배출 순서를 반영함으로써, 화물(400)을 하역장에 적재하는 과정에서 최소 시간이 발생될 수 있도록 함과 동시에 하역장에 적재된 화물(400)을 반출하기 위해 화물(400)의 재배치 및 화물(400)의 이동 거리가 최소화 될 수 있도록 할 수 있다.

또한, 시뮬레이션 환경부(100)는 언로딩 에이전트(300)로 제공하는 상태 정보에 대하여 화물(400)의 하역시 배출 순서를 포함하여 적재된 2차원 배열의 정보를 언로딩 에이전트(300)의 상태 정보로 제공할 수 있다.

또한, 언로딩 에이전트(300)로 제공되는 상태 정보는 시물레이션 환경부(100)가 스택 에이전트(200)로부터 제공된 액션에 기반하여 시뮬레이션을 수행하고, 그 시뮬레이션 결과에 기반하여 생성되는 화물(400)의 하역시 배출 순서를 포함한 2차원 배열의 스택 테이블(500)일 수도 있다.

즉, 시뮬레이션 환경부(100)는 도3과 같이 스택 에이전트(200)의 액션에 기반하여 화물(400)을 1차원 배열의 순서대로 하나씩 임의의 위치에 쌓는 시뮬레이션을 수행하여 화물(400)을 쌓고, 다 쌓은 후 이에 대응하는 화물(400)의 하역시 배출 순서를 포함한 2차원 배열의 스택 테이블(500)을 생성하여 언로딩 에이전트(300)의 상태 정보로 제공할 수도 있다.

또한, 시뮬레이션 환경부(100)는 시뮬레이션을 통한 화물(400)의 적재와, 시뮬레이션을 통한 적재된 화물(400)이 모두 반출되면 1회의 시뮬레이션을 완료한 것으로 판단할 수 있다.

또한, 시뮬레이션 환경부(100)는 1회의 시뮬레이션이 완료되면, 보상 정보를 생성하여 스택 에이전트(200)와 언로딩 에이전트(300)로 제공할 수 있다.

즉, 시뮬레이션 환경부(100)는 스택 에이전트(200)로 제공하는 보상 정보에 대하여 스택 에이전트(200)의 적재 시뮬레이션과 언로딩 에이전트(300)의 하역 시뮬레이션 수행 결과를 기반으로 평가하되, 스택 에이전트(200)의 액션을 통해 화물(400)을 쌓는 행위들에 걸리는 시간을 측정해서 스택 에이전트(200)의 보상 정보로 제공하여 스택 에이전트(200)가 최소 시간을 목표로 강화학습을 수행할 수 있도록 한다.

또한, 시뮬레이션 환경부(100)는 언로딩 에이전트(300)로 제공하는 보상 정보에 대하여 스택 에이전트(200)의 적재 시뮬레이션과 언로딩 에이전트(300)의 하역 시뮬레이션 수행 결과를 기반으로 평가하되, 적재된 화물(400)의 재배치와 적재된 화물(400)을 반출하기 위해 이동한 크레인(410)의 이동 거리를 측정해서 언로딩 에이전트(300)의 보상 정보로 제공하여 언로딩 에이전트(300)가 최소 거리를 목표로 강화학습을 수행할 수 있도록 한다.

스택 에이전트(200)는 시뮬레이션 환경부(100)로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 강화학습을 수행하여 화물(400)의 적재 위치를 결정하는 액션을 제공하는 구성으로서, 강화학습 알고리즘으로 몬테카를로 트리 검색 알고리즘(Monte Carlo Tree Search algorithm, MCTS)을 포함하여 구성될 수 있다.

또한, 에피소드는 화물(400)의 하역시 배출 순서를 갖는 1차원 배열의 화물(400)을 2차원 배열로 적재하는 환경을 구성하고, 스택 에이전트(200)는 화물(400)을 어디에 적재하는 것이 최적인지 선택하며, 그에 따른 적재 시간이 최소가 되는 목표에 도달하는 것을 한 번의 에피소드로 설정할 수 있다.

또한, 스택 에이전트(200)는 화물(400)을 모두 적재한 후 화물(400)을 어디에 적재하는 것이 최적인지에 대하여 언로딩 에이전트(300)가 적재된 화물(400)의 재배치와 반출 가능한 화물(400)의 적재 위치에 따른 반출 시간 등을 보상 정보에 반영하여 평가받을 수도 있다.

언로딩 에이전트(300)는 시뮬레이션 환경부(100)로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 강화학습을 수행하여 적재된 화물(400)의 재배치와 반출 가능한 화물(400)을 적재 위치에서 반출하는 액션을 제공하는 구성으로서, 강화학습 알고리즘으로 몬테카를로 트리 검색 알고리즘(MCTS)을 포함하여 구성될 수 있다.

또한, 언로딩 에이전트(300)의 강화학습 알고리즘은 적재된 화물(400)들을 다양한 경우의 수로 시뮬레이션을 수행하고, 크레인(410)을 가장 적게 움직이는 경로를 택하며, 그 경로를 따라 크레인(410)이 이동하도록 언로딩 에이전트(300)의 강호학습을 수행할 수 있다.

즉, 언로딩 에이전트(300)의 강화학습 알고리즘은 도4(a)와 같이 화물이 적재된 스택 테이블 1(500a)에서 '1'번 화물을 반출하기 위해 도4(b)와 같이 '2'번 화물을 재배하여 스택 테이블 2(500b)가 되도록 한다.

또한, 도4(c)와 같이 '4'번 화물을 재배치하여 스택 테이블 3(500c)이 되도록 하고, '1'번, '2'번, '3'번, '4'번을 순차적으로 반출시켜 도4(d)와 같은 스택 테이블 4(500d)가 되도록 한다.

따라서, 언로딩 에이전트(300)는 적재된 화물(400)의 재배치와 반출 가능한 화물(400)을 적재 위치에서 반출하기 위해 크레인(410)의 이동 거리가 최소화되도록 화물(400)을 이동시키고, 그 화물(400)을 운송수단, 예를 들어 화물차로 이동하는 최적의 경로를 학습한다.

또한, 언로딩 에이전트(300)는 적재된 화물(400)의 재배치와 반출 가능한 화물(400)을 적재 위치에서 반출하기 위해 크레인(410)의 이동 거리가 최소화되도록 화물(400)을 이동시키는 과정의 학습을 통해 걸리는 시간을 기반으로 스택 에이전트(200)의 적재 행동에 대한 평가 정보를 제공할 수도 있다.

다음은 본 발명의 일 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 방법을 설명한다.

도5는 본 발명의 일 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 방법을 설명하기 위해 나타낸 흐름도이다.

도2 내지 도5를 참조하면, 본 발명의 일 실시 예에 따른 화물 적재 및 하역 시스템의 강화학습 방법은 스택 에이전트(200)가 강화학습에 이용될 상태 정보와 보상 정보를 제공하는 시뮬레이션 환경부(100)로 요청하여 수집(S100)할 수 있다.

또한, S100 단계에서 수집되는 정보는 화물(400)의 하역시 배출 순서 정보가 포함된 1차원 배열의 정보를 스택 에이전트(200)의 상태 정보일 수 있다.

또한, S100 단계에서 수집되는 정보는 스택 에이전트(200)의 액션을 통해 화물(400)을 쌓는 행동들에 걸리는 시간을 측정한 스택 에이전트(200)의 보상 정보일 수도 있다.

스택 에이전트(200)는 S100 단계에서 수집되는 정보, 즉, 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 강화학습을 스택 강화학습을 수행하여 화물(400)의 적재 위치를 결정하는 액션(Action)이 설정(S200)되도록 한다.

여기서, 스택 에이전트의 액션은 화물(400)의 하역시 배출 순서 정보가 포함된 1차원 배열의 정보에 기반하여 최소 시간에 화물(400)을 어느 위치에 적재할지 결정하는 것일 수 있다.

계속해서, 시뮬레이션 환경부(100)는 S200 단계에서 결정된 스택 에이전트의 액션을 기반으로 화물(400)이 임의의 위치에 적재되도록 적재 시뮬레이션을 수행(S300)할 수 있다.

또한, 시뮬레이션 환경부(100)는 S300 단계의 시뮬레이션을 통해 화물(400)의 하역시 배출 순서를 포함한 2차원 배열의 정보를 생성할 수 있다.

S300 단계의 시뮬레이션을 수행한 후, 언로딩 에이전트(300)는 강화학습에 이용할 상태 정보와 보상 정보를 시뮬레이션 환경부(100)로부터 수집(S400)할 수 있다.

S400 단계에서 수집되는 상태 정보는 2차원 배열의 정보로서, 시물레이션 환경부(100)가 스택 에이전트(200)의 액션에 기반하여 화물(400)을 1차원 배열의 순서대로 하나씩 임의의 위치에 쌓는 시뮬레이션을 통해 생성한 2차원 배열의 화물(400) 적재 정보일 수 있다.

즉, S400 단계의 상태 정보는 시뮬레이션 환경부(100)가 스택 에이전트(200)의 액션에 기반하여 화물(400)을 모두 적재한 후, 이에 대응하여 화물(400)의 하역시 배출 순서를 포함한 2차원 배열의 스택 테이블(500) 정보일 수 있다.

또한, S400 단계에서 수집되는 보상 정보는 스택 테이블(500)에 기반하여 임의의 위치 또는 하역장에 적재된 화물(400)의 재배치를 위해 크레인(410)이 이동한 거리와, 적재된 화물(400)을 화물차로 이동시켜 반출하기 위해 크레인(410)이 이동한 거리의 측정 정보일 수 있다.

계속해서, 언로딩 에이전트(300)는 S400 단계에서 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 언로딩 강화학습을 수행하여 적재된 화물(400)의 재배치와 반출 가능한 화물(400)을 적재 위치에서 반출하되, 크레인(410)의 이동 거리가 최소가 되는 액션을 결정(S500)할 수 있다.

여기서, 언로딩 에이전트(300)의 액션은 화물(400)을 재배치하거나 또는 화물의 반출이 가능하면, 그 화물을 배열에서 제거하는 것일 수 있다.

또한, 시뮬레이션 환경부(100)는 S500 단계에서 결정된 언로딩 에이전트(300)의 액션을 기반으로 적재된 화물(400)의 재배치 및 반출 가능한 화물(400)이 반출되도록 하역 시뮬레이션을 수행(S600)할 수 있다.

또한, 시뮬레이션 환경부(100)는 S600 단계의 시뮬레이션을 수행한 후, 시뮬레이션 결과에 따른 보상 정보를 생성하여 스택 에이전트(200)와 언로딩 에이전트(300)로 출력(S700)할 수 있다.

S700 단계에서, 시뮬레이션 환경부(100)는 스택 에이전트(200)의 적재 시뮬레이션과 언로딩 에이전트(300)의 하역 시뮬레이션 수행 결과를 기반으로 평가한 시간을 스택 에이전트(200)의 보상 정보로 제공할 수 있다.

또한, S700 단계에서 시뮬레이션 환경부(100)는 스택 에이전트(200)의 적재 시뮬레이션과 언로딩 에이전트(300)의 하역 시뮬레이션 수행 결과를 기반으로 적재된 화물(400)의 재배치와 적재된 화물(400)을 반출하기 위해 이동한 크레인(410)의 이동 거리를 산출하여 언로딩 에이전트(300)의 보상 정보로 제공할 수 있다.

또한, 시뮬레이션 환경부(100)는 언로딩 에이전트(300)가 적재된 화물(400)의 재배치와 반출 가능한 화물(400)을 적재 위치에서 반출하기 위해 크레인(410)의 이동 거리가 최소화되도록 화물(400)을 이동시키는 과정의 학습을 통해 걸리는 시간을 기반으로 스택 에이전트(200)의 적재 행동에 대하여 평가 정보를 제공할 수도 있다.

따라서, 강화학습을 통해 화물의 하역시 배출 순서 정보가 포함된 화물을 임의의 위치에 순서대로 적재하고, 적재된 화물을 재배치하거나 화물의 반출이 가능하면 화물을 하역시켜 제거함으로써, 화물의 반출 시간을 감소시킬 수 있다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.

100 : 시뮬레이션 환경부
200 : 스택 에이전트
300 : 언로딩 에이전트
400 : 화물
410 : 크레인
500 : 스택 테이블
500a : 스택 테이블 1
500b : 스택 테이블 2
500c : 스택 테이블 3
500d : 스택 테이블 4

Claims

스택 에이전트(200)에서 제공되는 액션(Action)을 기반으로 화물(400)이 임의의 위치에 적재되도록 적재 시뮬레이션을 수행하고, 언로딩 에이전트(300)에서 제공되는 액션을 기반으로 적재된 화물(400)의 재배치 및 반출 가능한 화물(400)이 반출되도록 하역 시뮬레이션을 수행하며, 상기 스택 에이전트(200)와 언로딩 에이전트(300)의 강화학습에 이용될 상태(State) 정보와 보상(Reward) 정보를 제공하는 시뮬레이션 환경부(100);
상기 시뮬레이션 환경부(100)로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 강화학습을 수행하여 화물의 적재 위치를 결정하는 액션을 제공하는 스택 에이전트(200); 및
상기 시뮬레이션 환경부(100)로부터 제공받은 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 강화학습을 수행하여 적재된 화물(400)의 재배치와 반출 가능한 화물(400)을 적재 위치에서 반출하는 액션을 제공하는 언로딩 에이전트(300);를 포함하는 화물 적재 및 하역 시스템의 강화학습 장치.
제 1 항에 있어서,
상기 시뮬레이션 환경부(100)는 화물의 하역시 배출 순서를 포함한 1차원 배열의 정보를 스택 에이전트(200)의 상태 정보로 제공하는 것을 특징으로 하는 화물 적재 및 하역 시스템의 강화학습 장치.
제 1 항에 있어서,
상기 시뮬레이션 환경부(100)는 스택 에이전트(200)의 적재 시뮬레이션과 언로딩 에이전트(300)의 하역 시뮬레이션 수행 결과를 기반으로 평가한 시간을 스택 에이전트(200)의 보상 정보로 제공하는 것을 특징으로 하는 화물 적재 및 하역 시스템의 강화학습 장치.
제 1 항에 있어서,
상기 시뮬레이션 환경부(100)는 스택 에이전트(200)로부터 제공된 액션에 기반하여 시뮬레이션을 통해 생성되는 하역시 배출 순서를 포함한 2차원 배열의 스택 테이블(500) 정보를 상기 언로딩 에이전트(300)의 상태 정보로 제공하는 것을 특징으로 하는 화물 적재 및 하역 시스템의 강화학습 장치.
제 1 항에 있어서,
상기 시뮬레이션 환경부(100)는 시뮬레이션 수행 결과를 기반으로 적재된 화물(400)의 재배치와 적재된 화물(400)을 반출하기 위해 이동한 크레인(410)의 이동 거리를 언로딩 에이전트(300)의 보상 정보로 제공하는 것을 특징으로 하는 화물 적재 및 하역 시스템의 강화학습 장치.
a) 스택 에이전트(200)가 강화학습에 이용될 상태 정보와 보상 정보를 제공하는 시뮬레이션 환경부(100)로 요청하여 수집하고, 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 스택 강화학습을 수행하여 화물(400)의 적재 위치를 결정하는 액션을 제공하는 단계;
b) 시뮬레이션 환경부(100)가 제공된 스택 에이전트의 액션(Action)을 기반으로 화물(400)이 임의의 위치에 적재되도록 적재 시뮬레이션을 수행하는 단계;
c) 언로딩 에이전트(300)가 강화학습에 이용될 상태 정보와 보상 정보를 상기 시뮬레이션 환경부(100)로부터 수집하고, 수집된 상태 정보와 보상 정보를 이용한 에피소드를 기반으로 언로딩 강화학습을 수행하여 적재된 화물(400)의 재배치와 반출 가능한 화물(400)을 적재 위치에서 반출하는 액션을 제공하는 단계; 및
d) 상기 시뮬레이션 환경부(100)가 제공된 언로딩 에이전트(300)의 액션을 기반으로 적재된 화물(400)의 재배치 및 반출 가능한 화물(400)이 반출되도록 하역 시뮬레이션을 수행하고, 시뮬레이션 결과에 따른 보상 정보를 생성하여 상기 스택 에이전트(200)와 언로딩 에이전트(300)로 출력하는 단계;를 포함하는 화물 적재 및 하역 시스템의 강화학습 방법.
제 6 항에 있어서,
상기 a) 단계는 시뮬레이션 환경부(100)가 화물의 하역시 배출 순서를 포함한 1차원 배열의 정보를 상태 정보로 제공하는 것을 특징으로 하는 화물 적재 및 하역 시스템의 강화학습 방법.
제 6 항에 있어서,
상기 c) 단계는 시뮬레이션 환경부(100)가 스택 에이전트(200)로부터 제공된 액션을 기반으로 시뮬레이션을 수행하여 생성되는 화물의 하역시 배출 순서를 포함한 2차원 배열의 스택 테이블(500) 정보를 상태 정보로 제공하는 것을 특징으로 하는 화물 적재 및 하역 시스템의 강화학습 방법.
제 6 항에 있어서,
상기 d) 단계는 시뮬레이션 환경부(100)가 스택 에이전트(200)의 적재 시뮬레이션과 언로딩 에이전트(300)의 하역 시뮬레이션 수행 결과를 기반으로 평가한 시간을 스택 에이전트(200)의 보상 정보로 제공하는 것을 특징으로 하는 화물 적재 및 하역 시스템의 강화학습 방법.
제 6 항에 있어서,
상기 d) 단계는 시뮬레이션 환경부(100)가 시뮬레이션 수행 결과를 기반으로 적재된 화물(400)의 재배치와 적재된 화물(400)을 반출하기 위해 이동한 크레인(410)의 이동 거리를 언로딩 에이전트(300)의 보상 정보로 제공하는 것을 특징으로 하는 화물 적재 및 하역 시스템의 강화학습 방법.