KR102133737B1 - 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법 - Google Patents

멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법 Download PDF

Info

Publication number
KR102133737B1
KR102133737B1 KR1020190157922A KR20190157922A KR102133737B1 KR 102133737 B1 KR102133737 B1 KR 102133737B1 KR 1020190157922 A KR1020190157922 A KR 1020190157922A KR 20190157922 A KR20190157922 A KR 20190157922A KR 102133737 B1 KR102133737 B1 KR 102133737B1
Authority
KR
South Korea
Prior art keywords
routing
action
emission
reinforcement learning
article
Prior art date
Application number
KR1020190157922A
Other languages
English (en)
Inventor
한연희
최호빈
임현교
허주성
김주봉
황규영
Original Assignee
한국기술교육대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국기술교육대학교 산학협력단 filed Critical 한국기술교육대학교 산학협력단
Priority to KR1020190157922A priority Critical patent/KR102133737B1/ko
Application granted granted Critical
Publication of KR102133737B1 publication Critical patent/KR102133737B1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65GTRANSPORT OR STORAGE DEVICES, e.g. CONVEYORS FOR LOADING OR TIPPING, SHOP CONVEYOR SYSTEMS OR PNEUMATIC TUBE CONVEYORS
    • B65G43/00Control devices, e.g. for safety, warning or fault-correcting
    • B65G43/08Control devices operated by article or material being fed, conveyed or discharged
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B07SEPARATING SOLIDS FROM SOLIDS; SORTING
    • B07CPOSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
    • B07C3/00Sorting according to destination
    • B07C3/003Destination control; Electro-mechanical or electro- magnetic delay memories
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65GTRANSPORT OR STORAGE DEVICES, e.g. CONVEYORS FOR LOADING OR TIPPING, SHOP CONVEYOR SYSTEMS OR PNEUMATIC TUBE CONVEYORS
    • B65G47/00Article or material-handling devices associated with conveyors; Methods employing such devices
    • B65G47/34Devices for discharging articles or materials from conveyor 
    • B65G47/46Devices for discharging articles or materials from conveyor  and distributing, e.g. automatically, to desired points
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65GTRANSPORT OR STORAGE DEVICES, e.g. CONVEYORS FOR LOADING OR TIPPING, SHOP CONVEYOR SYSTEMS OR PNEUMATIC TUBE CONVEYORS
    • B65G2201/00Indexing codes relating to handling devices, e.g. conveyors, characterised by the type of product or load being conveyed or handled
    • B65G2201/02Articles

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 복수의 채널을 통해 복수의 물품을 입고하는 복수의 에미터, 상기 물품을 복수의 채널을 통해 출고하는 복수의 리무버 및 상기 입고된 복수의 물품을 물품의 타입에 따라 사전에 지정된 복수의 리무버로 라우팅하는 복수의 트랜스퍼로 구성되는 물품 분류기를 제어함에 있어서, 상기 복수의 트랜스퍼에 대한 복수의 라우팅 에이전트를 통해 상기 각 트랜스퍼의 물품 이동에 대한 라우팅 액션을 추출하기 위한 라우팅 강화학습모델을 생성하고, 상기 복수의 에미터에 대한 에미션 에이전트를 통해 상기 물품의 입고에 대한 에미션 액션을 추출하기 위한 에미션 강화학습모델을 생성하여, 상기 복수의 라우팅 강화학습모델과, 상기 에미션 강화학습모델에서 추출되는 라우팅 액션과 에미션 액션에 따라 변화되는 물품 분류기상에서 이동하는 물품의 타입과 물품의 상태정보를 이용하여 상기 라우팅 강화학습모델 및 상기 에미션 강화학습모델에 대한 강화학습을 수행하여, 고도화시킴으로써, 복수의 물품을 정확하고 신속하게 분류하여 출고할 수 있도록 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법에 관한 것이다.

Description

멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법{SYSTEM AND METHOD FOR PARCELS SORTER BASED ON MULTI AGENT REINFORCEMENT LEARNING}
본 발명은 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 복수의 채널을 통해 복수의 물품을 입고하는 복수의 에미터, 상기 물품을 복수의 채널을 통해 출고하는 복수의 리무버 및 상기 입고된 복수의 물품을 물품 타입에 따라 사전에 지정된 복수의 리무버로 라우팅하는 복수의 트랜스퍼로 구성되는 물품 분류기를 제어함에 있어서, 상기 복수의 트랜스퍼에 대한 복수의 라우팅 에이전트를 통해 상기 각 트랜스퍼의 물품 이동에 대한 라우팅 액션을 추출하기 위한 라우팅 강화학습모델을 생성하고, 상기 복수의 에미터에 대한 에미션 에이전트를 통해 상기 물품의 입고에 대한 에미션 액션을 추출하기 위한 에미션 강화학습모델을 생성하여, 상기 복수의 라우팅 강화학습모델과, 상기 에미션 강화학습모델에서 추출되는 라우팅 액션과 에미션 액션에 따라 변화되는 물품 분류기의 상태정보를 이용하여 상기 라우팅 강화학습모델 및 상기 에미션 강화학습모델에 대한 강화학습을 수행함으로써, 복수의 물품을 정확하고 신속하게 분류하여 출고할 수 있도록 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법에 관한 것이다.
최근 산업기술과 정보통신기술의 급격한 발전으로 인해, 제품의 전체 생상과정을 자동화하기 위한 스마트 공장에 대한 많은 연구가 진행되고 있다.
스마트 공장은, 공장에 구비되는 복수의 설비에 사물인터넷을 적용하여 상기 각 설비의 공정 데이터를 실시간으로 수집하고, 분석하여 상기 설비를 정확한 공정에 따라 자동으로 제어할 수 있도록 하는 최첨단 공장을 의미한다.
스마트 공장의 효율성을 극대화하기 위해서는, 상기 제품을 생산하는 과정에서 생성되는 복수의 물품을 타입에 따라 정확하고 신속하게 분류하여, 상기 각 물품을 처리하는 각각의 설비로 제공하는 것이 매우 중요한다.
일반적으로 상기 물품을 분류하는 것은, 복수의 채널을 통해서 물품을 입고하는 복수의 에미터(emitter), 상기 복수의 에미터를 통해서 입고되는 물품을 이동시키는 복수의 트랜스퍼(transfer), 상기 트랜스퍼를 통해 이동되는 복수의 물품을 출고하는 복수의 리무버(remover)로 구성되는 물품 분류기를 통해 수행된다.
그러나 종래의 물품 분류기는, 상기 물품을 특정 방향으로 단순 이동시키는 기능만을 수행하고, 상기 이동되는 물품에 대한 타입을 사람이 확인하고, 상기 확인한 결과에 따라 상기 물품을 수동으로 픽업하여 분류하도록 구현된다.
즉, 종래의 물품 분류기는, 복수의 사람이 직접적으로 개입하여, 상기 물품 분류기상에서 이동되는 물품을 수동으로 분류하도록 구성되는 것이다.
이는, 대규모의 스마트 공장에서 대량의 물품을 동시에 분류하고자 하는 경우, 상당히 많은 인력이 필요하며, 많은 시간이 소요되는 문제점이 있으며, 단순 육안으로 상기 물품의 타입을 확인하기 때문에 상기 물품을 정확하게 분류하지 못하는 문제점을 내포하고 있다.
따라서 본 발명에서는, 상기 물품 분류기를 구성하는 복수의 트랜스퍼에 대한 복수의 라우팅 에이전트와, 상기 물품 분류기를 구성하는 복수의 에미터에 대한 에미션 에이전트를 통해 상기 각 트랜스퍼의 라우팅 액션을 추출하는 복수의 라우팅 강화학습모델과, 상기 각 에미터의 물품 입고에 대한 에미션 액션을 추출하는 에미션 강화학습모델을 생성하여, 사전에 설정한 에피소드에 따라 상기 물품 분류기의 상태정보를 이용하여 복수의 트랜스퍼에 대한 라우팅 액션과 상기 에미터에 대한 에미션 액션을 추출하고, 상기 추출한 복수의 라우팅 액션 및 에미터 액션을 토대로 상기 물품 분류기에서 변화된 상태정보와, 상기 변화된 상태정보에 따라 계산되는 상기 각 라우팅 액션 및 에미터 액션에 대한 리워드를 이용하여 상기 복수의 라우팅 강화학습모델 및 상기 에미션 강화학습모델에 대한 강화학습을 수행함으로써, 상기 복수의 에미터와 상기 복수의 트랜스퍼의 동작을 동시에 제어하여 무작위로 입고되는 복수의 물품을 타입에 따라 정확하고 신속하게 분류하여 상기 물품 분류기를 구성하는 리무버를 통해 출고할 수 있도록 하는 방안을 제안하고자 한다.
다음으로 본 발명의 기술분야에 존재하는 선행기술에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행기술에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저 한국공개특허 제2017-0077143호(2017.07.05.)는, 분류 기계에 물품을 공급하기 위한 장치 및 분류 기계에 관한 것으로, 광학장치를 통해 컨베이어 상에서 이동하는 복수의 물품에 대한 3차원 좌표를 획득하여, 상기 컨베이어 상에 새로운 물품을 공급할 때, 복수의 물품이 좁은 간격으로 나란히 배치되거나, 겹쳐지지 않도록 하는 분류 기계에 물품을 공급하기 위한 장치 및 분류 기계에 관한 것이다.
또한 한국등록특허 제10-2010342호(2019.08.07.)는 물품의 배출 위치 조절 기능을 갖는 물품 분류 시스템에 관한 것으로, 트랙을 따라 이동되는 물품이 마련된 표시를 인식하여, 상기 인식한 표시에 따른 물품 정보에 따라 상기 물품이 배출되어야 하는 배출구로 물품을 배출되도록 하는 물품의 매출 위치 조절 기능을 갖는 물품 분류 시스템에 관한 것이다.
상기에서 선행기술을 살펴본 바와 같이, 대부분의 선행기술은 물품에 대한 위치정보를 획득하여 새로운 물품을 기존의 물품과 이격 배치하도록 하거나, 물품의 표시를 인식하는 인식수단을 통해 상기 물품의 정보를 확인하여 특정 배출구로 배출하는 하는 기술적 특징만을 기재하고 있을 뿐, 강화학습을 이용하여 물품의 타입에 따라 복수의 물품을 분류하는 기술은 전무한 실정이다.
이에 따라 본 발명은 상기 물품 분류기를 구성하는 복수의 트랜스퍼에 대응하는 복수의 라우팅 에이전트를 통해 상기 각 트랜스퍼의 라우팅 액션을 추출하기 하기 위한 라우팅 강화학습모델과, 상기 복수의 에미터에 대한 에미션 에이전트를 통해 상기 각 에미터의 에미션 액션을 추출하기 에미션 강화학습모델에 대한 강화학습을 수행하여, 상기 물품 분류기에 위치하는 복수의 물품에 대한 위치와 타입에 따라 정확하고 신속하게 분류할 수 있도록 하는 방안을 제시한 것으로, 상기 선행기술들은 본 발명의 이러한 기술적 특징을 기재하거나 시사하고 있지 않다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 복수의 채널을 통해 복수의 물품을 입고하는 복수의 에미터, 복수의 채널을 통해 상기 복수의 물품을 출고하는 리무버 및 상기 입고된 복수의 물품을 물품의 타입정보에 따라 라우팅하여 상기 리무버로 분류하는 복수의 트랜스퍼로 구성되는 물품 분류기에 있어서, 상기 복수의 트랜스퍼에 대응하는 복수의 라우팅 에이전트를 통해 상기 물품 분류기의 상태정보에 따른 라우팅 액션을 각각 추출하기 위한 라우팅 강화학습모델을 생성하고, 상기 복수의 에미터에 대한 에미션 에이전트를 통해 상기 물품 분류기의 상태정보와, 상기 라우팅 강화학습모델에서 추출되는 복수의 라우팅 액션에 따라 상기 복수의 에미터에 대한 에미션 액션을 각각 추출하기 위한 에미션 강화학습모델을 생성함으로서, 상기 물품 분류기의 상태정보에 따라 상기 물품 분류기에 위치하는 복수의 물품을 최단 경로로 신속하고 정확하게 분류할 수 있도록 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법을 제공하는 것을 그 목적으로 한다.
또한 본 발명은, 상기 복수의 라우팅 에이전트에서, 상기 생성한 복수의 라우팅 학습모델을 이용하여 상기 물품 분류기의 상태정보에 따라 상기 각 트랜스퍼에 대한 라우팅 액션을 추출하고, 상기 에미션 에이전트에서, 상기 생성한 에미션 강화학습모델을 이용하여 상기 물품 분류기의 상태정보와 상기 추출한 복수의 라우팅 액션에 따라 상기 복수의 에미터에 대한 에미션 액션을 추출하여, 상기 물품 분류기를 제어하고, 상기 제어한 결과에 따라 변화되는 물분 분류기의 상태정보를 토대로 상기 각 강화학습모델에 대한 강화학습을 수행하여 고도화함으로서, 상기 물품 분류기를 통한 물품 분류를 정확하고 신속하게 수행할 수 있도록 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법을 제공하는 것을 그 목적으로 한다.
또한 본 발명은, 상기 추출한 복수의 라우팅 액션 및 에미션 액션을 토대로 상기 물품 분류기상에서 이동될 물품간의 충돌을 확인하여, 상기 복수의 라우팅 액션 및 에미션 액션을 조정한 제어정보를 생성하여 상기 물품 분류기를 제어할 수 있도록 함으로써, 물품 이동에 의한 물품간 충돌 없이 복수의 물품을 분류할 수 있도록 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법을 제공하는 것을 그 목적으로 한다.
본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템은, 복수의 채널을 통해서 물품을 입고하는 복수의 에미터, 복수의 채널을 통해서 물품을 출고하는 복수의 리무버, 및 상기 복수의 에미터를 통해서 입고되는 상기 물품을 상기 복수의 리무버로 라우팅하는 복수의 트랜스퍼를 포함하는 물품 분류기에 대해서, 상기 물품 분류기의 상태정보에 따라 상기 각 트랜스퍼의 물품 이동에 대한 라우팅 액션을 추출하여 라우팅 강화학습모델을 생성하는 복수의 라우팅 에이전트, 상기 물품 분류기의 상태정보와 상기 추출한 라우팅 액션에 따라 상기 각 에미터의 물품 입고에 대한 에미션 액션을 추출하여 에미션 강화학습모델을 생성하는 에미션 에이전트를 포함하며, 상기 추출한 복수의 라우팅 액션 및 에미션 액션을 토대로 상기 물품의 이동에 따른 물품간 충돌이 발생하지 않도록 제어정보를 생성하고, 상기 제어정보에 따라 변화된 상기 물품 분류기의 상태정보와 상기 변화된 물품 분류기의 상태정보에 따라 계산되는 상기 추출한 라우팅 액션 및 에미션 액션에 대한 리워드를 이용하여, 상기 생성한 라우팅 강화학습모델 및 상기 에미션 강화학습모델에 대한 강화학습을 수행하는 것을 특징으로 한다.
또한 상기 강화학습은, 상기 복수의 물품을 물품의 타입정보에 따라 복수의 리무버로 라우팅하여 분류하기 위해 사전에 설정한 복수의 에피소드에 따라 진행되고, 상기 에피소드별로 계산되는 상기 분류에 대한 성능지표가 더 이상 증가되지 않을 때까지 수행되는 것을 특징으로 한다.
또한 상기 물품 분류기의 상태정보는, 상기 복수의 에미터와 상기 복수의 트랜스퍼가 각각 소유하는 물품의 타입정보와 상기 물품의 위치정보를 포함하는 상태이미지로 구성되며, 상기 복수의 라우팅 에이전트는, 상기 변화된 물품 분류기의 상태정보에 대한 상태이미지를 라우팅 에이전트용 제1 채널 이미지로 구성하고, 상기 구성한 제1 채널 이미지를 토대로 상기 복수의 트랜스퍼에 대한 위치정보를 나타내는 라우팅 에이전트용 제2 채널 이미지를 구성하여, 상기 구성한 라우팅 에이전트용 제1 채널 이미지, 라우팅 에이전트용 제2 채널 이미지 및 상기 추출한 라우팅 액션에 대해 계산된 리워드를 이용하여 상기 생성한 라우팅 강화학습모델에 대한 강화학습을 각각 수행하며, 상기 라우팅 강화학습모델은, 상기 물품을 소유한 해당 트랜스퍼에서 상기 물품의 타입정보와 상기 물품의 위치정보에 따라 상기 물품을 인접한 트랜스퍼 또는 리무버로 이동시키기 위한 복수의 라우팅 액션 중 누적된 리워드가 제일 높은 라우팅 액션을 추출하도록 강화학습되는 것을 특징으로 한다.
또한 상기 에미션 에이전트는, 상기 변화된 물품 분류기의 상태정보에 대한 상태이미지를 에미션 에이전트용 제1 채널 이미지로 구성하고, 상기 복수의 라우팅 강화학습모델에서 추출되는 복수의 라우팅 액션을 나타내는 에미션 에이전트용 제2 채널 이미지로 구성하고, 상기 구성한 에미션 에이전트용 제1 채널 이미지, 에미션 에이전트용 제2 채널 이미지 및 상기 추출한 에미션 액션에 대해 계산된 리워드를 이용하여 상기 생성한 에미션 강화학습모델에 대한 강화학습을 수행하며, 상기 에미션 강화학습모델은, 상기 물품을 소유한 특정 에미터에서 인접한 트랜스퍼로 이동시키기 위한 복수의 에미션 액션 중 누적된 리워드가 제일 높은 에미션 액션을 출력하도록 강화학습되는 것을 특징으로 한다.
또한 상기 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템은, 상기 물품을 소유한 상기 트랜스퍼 및 에미터에 대해 추출되는 라우팅 액션과 에미션 액션을 각각 검사하여 특정 라우팅 액션 또는 에미션 액션이 물품의 이동정지에 대한 액션이 아닌 경우, 상기 특정 라우팅 액션 또는 에미션 액션의 방향으로 인접한 트랜스퍼에 대한 라우팅 액션을 확인하여, 상기 특정 라우팅 액션 또는 에미션 액션과 상기 확인한 라우팅 액션이 동일하지 않으면, 상기 특정 라우팅 액션 또는 에미션 액션을 상기 소유한 물품에 대한 이동정지 액션으로 조정하는 전처리부, 상기 전처리부를 통해 상기 조정한 결과에 따라, 물품을 소유하지 않은 트랜스퍼에 물품을 이동시키고자하는 라우팅 액션, 에미션 액션 또는 이들의 조합을 포함하는 액션을 검사하여, 상기 검사한 결과 복수의 액션이 존재하는 경우, 상기 물품을 소유하지 않은 트랜스퍼에서 물품의 충돌이 발생될 것으로 인식하여, 사전에 설정한 우선순위에 따라 어느 하나의 액션만을 선택하고, 나머지 액션을 이동정지 액션으로 조정하는 액션 선택부 및 상기 액션 선택부를 통해 상기 조정한 결과에 따라, 상기 전처리부와 동일한 기능을 수행하여 상기 조정을 수행하는 후처리부를 더 포함하며, 상기 조정을 수행하는 것과, 상기 어느 하나의 액션을 선택하는 것을 통해, 상기 물품간 충돌이 발생하지 않도록 상기 제어정보를 생성하는 것을 특징으로 한다.
또한 상기 라우팅 액션에 대한 리워드는, 상기 제어정보에 따라 라우팅 액션을 수행하는 상기 트랜스퍼가 상기 물품을 소유하고 있는지에 대한 여부, 상기 트랜스퍼가 상기 라우팅 액션에 따라 상기 리무버로 상기 물품을 이동시켰을 때 상기 물품의 타입정보에 따른 리무버로 정확하게 라우팅하였는지에 대한 여부, 상기 트랜스퍼가 사전에 설정한 제어횟수를 초과하여 상기 물품을 수신하였는지에 대한 여부 및 상기 물품간의 충돌을 야기하는 복수의 액션에 대한 개수를 토대로 계산되며, 상기 에미션 액션 대한 리워드는, 상기 제어정보에 따라 복수의 리무버에서 분류되어 제거되는 물품의 개수와 상기 복수의 에미터에서 입고되는 물품의 개수를 토대로 계산되는 것을 특징으로 한다.
아울러 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반 물품 분류기 제어 방법은, 복수의 채널을 통해서 물품을 입고하는 복수의 에미터, 복수의 채널을 통해서 물품을 출고하는 복수의 리무버, 및 상기 복수의 에미터를 통해서 입고되는 상기 물품을 상기 복수의 리무버로 라우팅하는 복수의 트랜스퍼를 포함하는 물품 분류기를 제어하기 위한 멀티에이전트 강화학습 기반 물품 분류기 제어 방법에 있어서, 복수의 라우팅 에이전트에서, 상기 물품 분류기의 상태정보에 따라 상기 각 트랜스퍼의 물품 이동에 대한 라우팅 액션을 추출하여 라우팅 강화학습모델을 생성하는 단계, 에미션 에이전트에서, 상기 물품 분류기의 상태정보와 상기 추출한 라우팅 액션에 따라 상기 각 에미터의 물품 입고에 대한 에미션 액션을 추출하여 에미션 강화학습모델을 생성하는 단계를 포함하는 것을 특징으로 한다.
또한 상기 멀티에이전트 강화학습 기반 물품 분류기 제어 방법은, 상기 물품을 소유한 상기 트랜스퍼 및 에미터에 대해 추출되는 라우팅 액션과 에미션 액션을 각각 검사하여 특정 라우팅 액션 또는 에미션 액션이 물품의 이동정지에 대한 액션이 아닌 경우, 상기 특정 라우팅 액션 또는 에미션 액션의 방향으로 인접한 트랜스퍼에 대한 라우팅 액션을 확인하여, 상기 특정 라우팅 액션 또는 에미션 액션과 상기 확인한 라우팅 액션이 동일하지 않으면, 상기 특정 라우팅 액션 또는 에미션 액션을 상기 소유한 물품에 대한 이동정지 액션으로 조정하는 전처리 단계, 상기 전처리 단계를 통해 상기 조정한 결과에 따라, 물품을 소유하지 않은 트랜스퍼에 물품을 이동시키고자하는 라우팅 액션, 에미션 액션 또는 이들의 조합을 포함하는 액션을 검사하여, 상기 검사한 결과 복수의 액션이 존재하는 경우, 상기 물품을 소유하지 않은 트랜스퍼에서 물품의 충돌이 발생될 것으로 인식하여, 사전에 설정한 우선순위에 따라 어느 하나의 액션만을 선택하고, 나머지 액션을 이동정지 액션으로 조정하는 액션 선택 단계 및 상기 액션 선택 단계를 통해 상기 조정한 결과에 따라, 상기 전처리부와 동일한 기능을 수행하여 상기 조정을 수행하는 후처리 단계를 더 포함하며, 상기 조정을 수행하는 것과, 상기 어느 하나의 액션을 선택하는 것을 통해, 상기 물품간 충돌이 발생하지 않도록 상기 제어정보를 생성하는 것을 특징으로 한다.
이상에서와 같이 본 발명의 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법은, 물품 분류기의 물품을 라우팅하는 복수의 트랜스퍼에 대응하는 복수의 라우팅 에이전트와, 물품을 입고하는 복수의 에미터에 대한 에미션 에이전트에서, 상기 각 트랜스퍼에 대한 라우팅 강화학습모델을 및 상기 복수의 에미터에 대한 에미션 강화학습모델 각각 생성하고, 사전에 설정한 복수의 에피소드를 토대로 상기 복수의 라우팅 강화학습모델과 상기 에미션 강화학습모델을 통해 추출되는 복수의 라우팅 액션 및 에미션 액션을 이용하여 상기 복수의 트랜스퍼 및 복수의 에미터가 소유한 물품의 이동을 각각 제어하고, 상기 제어한 결과에 따라 상기 생성한 복수의 라우팅 강화학습모델 및 상기 에미션 강화학습모델 상기 생성한 복수의 라우팅 강화학습모델 및 상기 에미션 강화학습모델에 대한 강화학습을 수행함으로써, 상기 물품 분류기에서 복수의 물품을 정확하고 신속하게 분류할 수 있도록 하는 효과가 있다.
또한 본 발명은, 상기 추출한 복수의 라우팅 액션과 에미션 액션을 토대로 상기 물품 분류기에서 이동될 복수의 물품에 대한 충돌을 확인하여, 상기 충돌이 발생되지 않도록 상기 복수의 라우팅 액션과 에미션 액션을 조정함으로써, 물품간 충돌 없이 상기 물품을 분류할 수 있도록 하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법을 설명하기 위해 나타낸 개념도이다.
도 2는 본 발명의 일 실시예에 따른 복수의 라우팅 에이전트와 에미션 에이전트의 동작을 설명하기 위해 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 라우팅 에이전트용 이미지를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 복수의 라우팅 에이전트의 라우팅 강화학습모델에서 추출되는 라우팅 액션을 설명하기 위해 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 라우팅 강화학습모델의 구조를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 에미션 에이전트용 이미지를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 에미션 에이전트의 에미션 강화학습모델에서 추출되는 에미션 액션을 설명하기 위해 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 에미션 강화학습모델의 구조를 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 물품의 이동에 따른 물품간 충돌을 해결하기 위한 방법을 설명하기 위해 나타낸 도면이다.
도 10은 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반 물품 분류기 제어 장치의 구성을 나타낸 블록도이다.
도 11은 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반으로 물품 분류기를 제어하는 절차를 나타낸 흐름도이다.
이하, 첨부한 도면을 참조하여 본 발명의 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법에 대한 바람직한 실시예를 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 실시예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.
도 1은 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법을 설명하기 위해 나타낸 개념도이다.
도 1에 도시한 바와 같이, 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템(10)은, 물품 분류기(200) 및 상기 물품 분류기(200)를 제어하여 물품의 타입정보에 따라 상기 복수의 물품을 신속하고 정확하게 분류하여 출고하도록 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 장치(100)(이하, 물품 분류기 제어 장치라 칭함)를 포함하여 구성된다.
상기 물품 분류기(200)는, 스마트 공장 등과 같은 다양한 환경에 구비되어 복수의 물품을 분류하는 장치를 의미하는 것으로, 복수의 채널을 통해서 복수의 물품을 입고하는 복수의 에미터, 상기 입고된 복수의 물품을 복수의 채널을 통해 출고하는 복수의 리무버 및 상기 물품을 라우팅하여 상기 물품의 타입정보에 따라 사전에 지정된 리무버로 이동시키는 복수의 트랜스퍼를 포함하여 구성된다.
상기 복수의 에미터는, RFID 라이터(writer) 및 확산광전센서(diffuse photoelectric sensor)를 구비하고 있으며, 상기 확산광전센서를 통해 자신이 소유한 물품의 크기를 감지하고, 사전에 설정한 물품의 크기에 대한 범위에 따라 상기 물품의 타입(예: small, middle, big)을 인식하는 기능을 수행하며, 상기 RFID 라이터를 이용하여 물품에 부착되는 RFID 태그에 상기 인식한 물품의 타입에 대한 타입정보를 태깅(tagging)하여, 상기 물품 분류기 제어 장치(100)의 제어에 따라 상기 물품을 입고하는 기능을 수행한다. 상기 물품의 타입정보는, 사전에 상기 RFID 태그에 태깅되어 있을 수 있으며, 크기 이외에도 물품의 무게 등과 같이 다양한 기준에 따라 설정될 수 있음은 당연하다.
또한 상기 복수의 트랜스퍼는, RFID 리더기를 각각 구비하고 있으면서, 자신이 소유한 물품의 RFID 태그를 읽어 해당 물품의 타입정보를 인식하며, 상기 물품 분류기 제어 장치(100)의 제어에 따라 상기 물품을 라우팅하여 인접한 트랜스퍼 또는 리무버로 이동시키는 기능을 수행한다. 한편 도 1에 도시한 것과 같이, 상기 복수의 트랜스퍼는 n x n의 정사각형 형태로 구성되어 있는 것이 바람직하지만 본 발명은 이에 한정하지 않으며 다양한 형태로 구성될 수 있다.
또한 상기 리무버는, 출고할 물품에 대한 타입정보가 사전에 지정되어 있고, RFID 리더기를 각각 구비하고 있으며, 상기 복수의 트랜스퍼에 의해 이동되어 분류된 물품의 태그를 읽어 해당 물품의 타입정보를 인식하여, 해당 물품이 정확하게 분류되었는지에 대한 여부를 판단하는 기능을 더 포함한다.
또한 상기 물품 분류기(200)는, 상기 복수의 에미터 및 트랜스퍼에서 인식한 물품의 타입정보와 상기 에미터, 트랜스퍼 또는 이들의 조합이 소유한 물품에 대한 위치정보를 포함하는 물품 분류기(200)의 상태정보를 구성하여 상기 물품 분류기 제어 장치(100)로 제공하는 기능을 수행한다. 이때, 상기 상태정보는 상태이미지로 구성되며, 상기 상태이미지는 도 2를 참조하여 설명하도록 한다.
또한 상기 물품 분류기 제어 장치(100)는, 상기 복수의 트랜스퍼에 각각 대응하는 복수의 라우팅 에이전트 및 상기 복수의 에미터에 대한 에미션 에이전트 등을 포함하여 구성된다.
상기 복수의 라우팅 에이전트는, 상기 물품 분류기(200)의 상태정보에 따라 상기 각 트랜스퍼의 물품 이동(즉, 라우팅)에 대한 라우팅 액션을 추출하여, 상기 각 트랜스퍼의 동작을 제어하기 위한 라우팅 강화학습모델을 각각 생성하며, 상기 생성한 라우팅 강화학습모델에 대한 강화학습을 수행함으로써, 상기 라우팅 강화학습모델을 최적화하는 기능을 수행한다. 또한 상기 에미션 에이전트는, 상기 물품 분류기(200)의 상태정보와, 상기 복수의 라우팅 에이전트에서 상기 라우팅 강화학습모델을 통해 추출되는 복수의 라우팅 액션에 따라 상기 각 에미터의 물품 입고에 대한 에미션 액션을 추출하여 에미션 강화학습모델을 생성하며, 상기 생성한 에미션 강화학습모델에 대한 강화학습을 수행함으로써, 상기 에미션 강화학습모델을 최적화하는 기능을 수행한다.
즉, 상기 물품 분류기 제어 장치(100)는 상기 강화학습을 통해 복수의 에미터에서 무작위로 입고되는 복수의 물품을 각 물품의 타입정보에 따라 사전에 지정된 복수의 리무버로 신속하기 이동시켜 정확하게 분류할 수 있도록 하는 것이다.
또한 상기 강화학습은, 사전에 설정된 복수의 에피소드에 따라 수행되며, 상기 라우팅 강화학습모델에 대한 강화학습은, 상기 물품 분류기(100)의 상태정보로 추출되는 복수의 라우팅 액션과, 에미션 액션을 토대로 변화된 상기 물품 분류기(100)의 상태정보와, 상기 변화된 물품 분류기(100)의 상태정보를 토대로 계산되는 상기 각 라우팅 액션에 대한 리워드를 이용하여 수행되며, 상기 에미션 강화학습모델에 대한 강화학습은, 상기 변화된 물품 분류기(100)의 상태정보와, 상기 변화된 물품 분류기(100)의 상태정보를 토대로 계산되는 상기 에미션 액션에 대한 리워드를 이용하여 수행된다.
상기에서 설명한 것과 같이, 본 발명은, 복수의 트랜스퍼에 대한 복수의 라우팅 에이전트, 상기 복수의 에미터에 대한 에미션 에이전트를 포함하는 복수의 에이전트를 구비하고 있으면서, 사전에 설정한 복수의 에피소드에 따라 상기 복수의 에이전트를 통해 상기 각 트랜스퍼 및 에미터에 대한 물품의 이동을 제어하기 위한 강화학습을 각각 수행하여, 실제 물품 분류기(200)에서 복수의 물품에 대한 물품 타입정보에 따라 최단경로로 이동하도록 제어함으로써, 상기 복수의 물품을 신속하고 정확하게 분류할 수 있도록 한다.
도 2는 본 발명의 일 실시예에 따른 복수의 라우팅 에이전트와 에미션 에이전트의 동작을 설명하기 위해 나타낸 도면이다.
도 2에 도시한 바와 같이, 본 발명의 일 실시예에 따른 물품 분류기 제어 장치(100)에 구비되는 복수의 라우팅 에이전트는, 사전에 설정한 복수의 에피소드와 상기 물품 분류기(200)의 상태정보에 따라 복수의 트랜스퍼에 대한 라우팅 액션을 각각 추출하여, 상기 복수의 트랜스퍼에 대한 라우팅 강화학습모델을 각각 생성하며, 상기 에미션 에이전트는, 상기 에피소드에 따라 상기 물품 분류기(200)의 상태정보와 상기 추출한 복수의 라우팅 액션을 토대로 상기 복수의 에미터의 물품 입고 여부에 대한 에미션 액션을 추출함으로써, 상기 복수의 에미터에 대한 에미션 강화학습모델을 생성한다.
또한 상기 물품 분류기 제어 장치(100)는, 상기 복수의 라우팅 에이전트와, 상기 에미션 에이전트를 통해 상기 사전에 설정한 복수의 에피소드별로 상기 생성한 라우팅 강화학습모델 및 에미션 강화학습모델에 대한 강화학습을 수행한다.
이를 위해 우선, 상기 물품 분류기 제어 장치(100)는, 상기 추출한 복수의 라우팅 액션 및 에미션 액션을 토대로 상기 물품 분류기(200)에서 이동될 물품간의 충돌이 발생하지 않도록 상기 복수의 라우팅 액션 및 에미션 액션을 조정한 제어정보를 생성하고, 상기 생성한 제어정보에 따라 변화된 물품 분류기(200)의 상태정보와 상기 변화된 물품 분류기의 상태정보에 따라 계산되는 상기 각 라우팅 액션 및 에미션 액션에 대한 리워드를 계산한다. 한편 상기 리워드를 계산하는 것은, 도 10을 참조하여 상세히 설명하도록 한다.
이때, 상기 트랜스퍼가 총 9개로 구성되는 경우, 상기 복수의 라우팅 에이전트에서 추출되는 라우팅 액션의 개수는 9개가 되며, 상기 에미터가 총 6개로 구성되는 경우, 상기 에미션 에이전트에서 추출되는 에미션 액션의 개수를 6개가 되며, 조정을 통해 생성되는 제어정보는 라우팅 액션 9개와 에미션 액션 6개를 포함하는 총 15개의 액션으로 구성된다.
이후, 상기 물품 분류기 제어 장치(100)는, 상기 변화된 물품 분류기(200)의 상태정보와, 상기 계산한 각각의 라우팅 액션에 대한 리워드를 해당 라우팅 에이전트에 제공하여, 상기 라우팅 에이전트에서 상기 변화된 물품 분류기(200)의 상태정보와, 각 라우팅 액션에 대한 리워드를 이용하여 상기 각 라우팅 강화학습모델에 대한 강화학습을 수행할 수 있도록 한다. 또한 상기 물품 분류기 제어 장치(100)는, 상기 변화된 물품 분류기(200)의 상태정보와, 상기 계산한 에미션 액션에 대한 리워드를 상기 에미션 에이전트에 제공하여, 상기 에미션 에이전트에서 상기 변화된 물품 분류기(200)의 상태정보와, 상기 계산한 에미션 액션에 대한 리워드를 이용하여 상기 에미션 강화학습모델에 대한 강화학습을 수행할 수 있도록 한다.
또한 상기 복수의 라우팅 에이전트는, 상기 제공받은 물품 분류기(200)의 상태정보(즉, 상태이미지)를 토대로 라우팅 에이전트용 이미지를 구성하고, 상기 구성한 라우팅 에이전트용 이미지와, 상기 각 라우팅 액션에 대한 리워드를 이용하여 상기 라우팅 강화학습모델에 대한 강화학습을 수행한다. 한편, 상기 라우팅 에이전트용 이미지는 도 3을 참조하여 상세히 설명하도록 한다.
이때, 상기 상태이미지는, 상기 복수의 에미터, 상기 복수의 리무버 및 상기 복수의 트랜스퍼가 소유한 물품에 대한 타입정보와 해당 물품의 위치정보(즉, 상기 에미터, 리무버 및 트랜스퍼의 위치)를 포함한다.
또한 상기 에미션 에이전트는, 상기 제공받은 물품 분류기(200)의 상태정보와, 상기 추출한 복수의 라우팅 액션을 토대로 에미션 에이전트용 이미지를 구성하고, 상기 구성한 에미션 에이전트용 이미지와, 상기 에미션 액션에 대한 리워드를 이용하여 상기 에미션 강화학습모델에 대한 강화학습을 수행한다. 한편 상기 에미션 에이전트용 이미지는 도 6을 참조하여 상세히 설명하도록 한다.
즉, 상기 각각의 라우팅 에이전트와 상기 에미션 에이전트는, 상기 제어정보를 토대로 변화된 물품 분류기(200)의 상태정보를 이용하여, 해당 상태정보를 토대로 물품 타입정보에 따라 최적의 경로로 상기 물품을 분류할 수 있도록 하기 위해 상기 각 트랜스퍼에 대한 라우팅 액션과 상기 각 에미터에 대한 에미션 액션을 각각 추출하도록 상기 강화학습을 수행하는 것이다.
한편, 상기 에피소드는, 상기 에미터를 통해 무작위로 입고되는 복수의 물품을 분류하기 위한 과정을 의미하는 것으로, 복수개로 구성되며 상기 사전에 설정한 종료조건에 따라 종료된다.
이때, 상기 종료조건은 사전에 설정한 복수개의 물품이 분류(예: 6개의 에미터에서 각각 입고된 전체 36개의 물품)되거나, 상기 복수개의 물품이 사전에 설정한 제어횟수를 초과하는 경우 또는 이들의 조합을 포함한다.
또한 상기 물품 분류기 제어 장치(100)는, 상기 복수의 에피소드(예: 100개)에 따라 상기 강화학습을 수행하며, 상기 에피소드가 종료될 때마다, 다음의 [수학식 1]에 따라 물품 분류에 대한 성능지표(performance index)를 에피소드별로 계산하고, 마지막 N개(예: 10개)의 에피소드에서 계산되는 성능지표가 더 이상 증가하지 않으면 상기 강화학습을 종료하도록 한다.
[수학식 1]
Figure 112019123954255-pat00001
여기서, 상기 S는 특정 에피소드가 종료될 때, 상기 전체 물품(예: 6개)에서물품 타입정보에 따라 정확하게 분류된 비율(correct classification rate)을 나타내며, 상기 F는 상기 물품이 물품 타입정보에 따라 정확히 분류되지 않은 비율(misclassification rate)을 나타내며, 상기 E는 상기 물품의 입고율(emission rate)을 나타내고, 상기 C는 물품 분류에 대한 유효범위(coverage rate)를 의미하며 0 내지 1.0의 값을 가진다.
한편 상기 성능지표는, 현재까지 수행한 에피소드까지의 성능지표를 평균한 값은, 이전까지 수행한 에피소드까지의 성능지표를 평균한 값보다 커야 되며, 마지막 에피소드에 대한 성능지표는 마지막 에피소드까지의 성능지표를 평균한 값보다 커야 되는 제약조건을 가진다.
도 3은 본 발명의 일 실시예에 따른 라우팅 에이전트용 이미지를 나타낸 도면이다.
도 3에 도시한 바와 같이, 본 발명의 일 실시예에 따른 라우팅 에이전트용 이미지는, 라우팅 에이전트용 제1 채널 이미지와, 라우팅 에이전트용 제2 채널 이미지를 포함하여 구성된다.
여기서, 상기 라우팅 에이전트용 제1 채널 이미지는, 상기 각 에미터, 트랜스퍼 및 리무버가 소유하는 물품에 대한 타입정보와 해당 물품이 위치하는 위치정보를 포함하는 물품 분류기(200)의 상태정보에 대한 상태이미지로 구성된다.
즉, 상기 라우팅 에이전트용 제1 채널 이미지는, 상기 복수의 에미터, 상기 복수의 트랜스퍼 및 상기 복수의 리무버를 구성하는 물품 분류기(200)의 구조에 대응하고, 상기 물품 분류기(200)의 상태정보를 포함하며, 상기 물품의 타입정보는, 해당 물품의 타입에 따른 변수로 설정된다.
예를 들어, 상기 물품의 타입이 small, middle 및 big으로 구성되는 경우, small에 대한 물품의 타입정보는 1로, middle에 대한 물품의 타입정보는 2로, big에 대한 물품의 타입정보는 3으로 설정된다. 다만, 상기 리무버의 경우 해당 물품은 더 이상 이동되지 않고 출고되는 상태이기 때문에 상기 물품의 타입정보에 대한 마이너스 값(예: 물품 타입정보가 1인 경우 -1로 설정)으로 설정된다.
또한 상기 라우팅 에이전트용 제2 채널 이미지는, 상기 구성한 제1 채널 이미지를 토대로 상기 라우팅 에이전트에 대응하는 트랜스퍼의 위치정보를 포함한다.
이때, 상기 라우팅 에이전트에 대응하는 트랜스퍼 이외의 위치정보는 모두 0으로 설정된다.
즉, 상기 복수의 라우팅 에이전트는, 상기 구성한 제1 채널 이미지 및 제2 채널 이미지를 상기 라우팅 강화학습모델에 입력하여, 해당 트랜스퍼에서 상기 물품 분류기(200)의 상태정보에 따른 라우팅 액션을 출력하며, 상기 라우팅 액션과 상기 에미션 액션을 토대로 생성한 제어정보에 의해 변화된 상기 물품 분류기(200)의 상태정보와, 상기 라우팅 액션에 따라 계산된 리워드를 이용하여 상기 라우팅 강화학습모델의 대한 강화학습을 수행하여, 물품 분류기(200)의 상태정보에 따라 상기 트랜스퍼에 대한 라우팅 액션을 출력하여 상기 물품을 물품 타입정보에 따라 정확하고 신속하게 분류할 수 있도록 한다.
이때, 상기 라우팅 강화학습모델은, 상기 물품 분류기(200)의 상태정보와, 상기 물품을 소유한 트랜스퍼에서 해당 물품의 타입정보와, 상기 물품의 위치정보에 따라 해당 트랜스퍼에 인접한 트랜스퍼 또는 리무버로 이동시키기 위한 복수의 라우팅 액션 중 누적된 리워드가 제일 높은 라우팅 액션을 추출하도록 강화학습된다.
도 4는 본 발명의 일 실시예에 따른 복수의 라우팅 에이전트의 라우팅 강화학습모델에서 추출되는 라우팅 액션을 설명하기 위해 나타낸 도면이다.
도 4에 도시한 바와 같이, 본 발명의 일 실시예에 따른 복수의 라우팅 에이전트의 라우팅 강화학습모델에서 출력되는 라우팅 액션은, 상기 각 트랜스퍼를 기준으로 물품의 이동정지, 상측방향으로의 물품이동, 하측방향으로의 물품이동, 좌측방향으로의 물품이동, 우측방향으로의 물품이동 또는 이들의 조합을 포함하여 구성된다.
이때, 상기 라우팅 액션은 상기 각 트랜스퍼의 위치와 관련하여 상이하게 구성된다. 예를 들어, 상기 트랜스퍼가 상측방향에서 상기 에미터와 인접하고 있는 경우, 상기 물품을 해당 에미터로 라우팅할 필요가 없으므로, 해당 트랜스퍼에 대한 라우팅 액션은 상측방향으로의 물품이동이 제외되며, 상기 트랜스퍼가 상기 에미터와 하측방향으로 인접하고 있는 경우에도, 해당 트랜스퍼에 대한 라우팅 액션은 하측방향으로의 물품이동이 제외된다.
이때, 상기 라우팅 강화학습모델은, 상기 사전에 설정한 라우팅 액션에 대한 액션값으로 출력하며, 물품의 이동정지, 상측방향으로의 물품이동, 하측방향으로의 물품이동, 좌측방향으로의 물품이동 및 우측방향으로의 물품이동에 대한 각각의 라우팅 액션에 대한 액션값은 1, 2, 3 및 4로 설정될 수 있다.
도 5는 본 발명의 일 실시예에 따른 라우팅 강화학습모델의 구조를 나타낸 도면이다.
도 5에 도시한 바와 같이, 본 발명의 일 실시예에 따른 라우팅 강화학습모델은, 라우팅 에이전트에서 구성한 라우팅 에이전트용 이미지를 입력받는 입력 레이어, 제1 컨볼루션 레이어, 제1 배치정규화 레이어, 제2 컨볼루션 레이어, 제2 배치정규화 레이어, 완전연관 레이어, 제1 히든 레이어와 제2 히든 레이어로 구성되는 완전연관 레이어 및 출력 레이어를 포함하여 구성된다.
상기 제1 컨볼루션 레이어는, 미리 설정한 크기(예: 2x2)와 특정 가중치를 가지는 복수의 필터(예 16개)를 미리 설정한 스트라이드의 크기(예: 1)로 배치하여, 상기 라우팅 에이전트용 이미지의 특정 부분과 상기 가중치를 각각 컨볼루션함으로써, 상기 라우팅 에이전트용 이미지에 대한 제1 특징맵을 출력하는 기능을 수행한다. 여기서, 상기 스트라이드의 크기는 상기 복수의 필터가 상기 라우팅 에이전트용 이미지에 배치되는 단위를 의미한다. 이때, 상기 제1 컨볼루션 레이어를 통해 출력되는 결과는 2x2의 크기를 가지는 총 16(즉, 2x2x16)개의 특징맵이 된다.
또한 상기 제1 배치정규화 레이어는, 상기 출력한 특징맵이 표준정규분포를 가지도록 정규화함으로써, 강화학습시간을 줄이고, 라우팅 액션을 신속하게 출력할 수 있도록 하는 기능을 수행한다.
또한 상기 제2 컨볼루션 레이어는, 상기 정규화한 제1 특징맵을 사전에 설정한 크기(예: 2x2)와 가중치를 가지는 복수의 필터(예: 16개)를 사전에 설정한 스트라이드의 크기(예: 1)에 따라 컨볼루션하여 제2 특징맵을 출력하는 기능을 수행한다. 이때, 상기 제2 특징맵은 상기 제1 특징맵과 동일한 크기와 개수로 구성된다.
또한 상기 제2 배치정규화 레이어는, 상기 제2 특징맵에 대해 상기 제1 배치정규화 레이어와 동일한 기능을 수행하며, 상기 플래튼 레이어(flatten layer)는, 상기 제2 배치정규화한 제2 특징맵을 상기 완전연관 레이어에 대한 적합한 데이터의 포맷인 1차원 포맷으로 변환하는 기능을 수행하며, 상기 완전연관 레이어는, 상기 1차원 포맷으로 변환한 제2 특징맵을 연결시켜 상기 물품 분류기(200)의 상태정보에 따라 해당 트랜스퍼의 라우팅 액션을 출력 레이어를 통해 출력할 수 있도록 하는 기능을 수행한다.
이때, 상기 출력 레이어는, 복수의 라우팅 액션에 대해 누적된 리워드를 포함하는 복수의 라우팅 액션을 출력하며, 상기 누적된 리워드가 제일 높은 액션을 선택함으로써, 해당 트랜스퍼에 대한 라우팅 액션을 추출하게 된다.
도 6은 본 발명의 일 실시예에 따른 에미션 에이전트용 이미지를 나타낸 도면이다.
도 6에 도시한 바와 같이, 본 발명의 일 실시예에 따른 에미션 에이전트용 이미지는, 에미션 에이전트용 제1 채널 이미지와, 에미션 에이전트용 제2 채널 이미지를 포함하여 구성된다.
여기서, 상기 에미션 에이전트용 제1 채널 이미지는, 상기 물품 분류기(200)의 상태정보에 대한 상태이미지로 구성되며, 도 3을 참조하여 설명한 라우팅 에이전트용 제1 채널 이미지와 동일하게 구성된다.
또한 상기 에미션 에이전트용 제2 채널 이미지는, 상기 복수의 라우팅 에이전트에서 출력되는 각 트랜스퍼에 대한 각각의 라우팅 액션을 포함하여 구성된다.
즉, 상기 에미션 에이전트용 제2 채널 이미지는, 상기 복수의 라우팅 액션이 상기 각 트랜스퍼에 대응하도록 매핑된 이미지로써, 트랜스퍼 이외의 영역(즉, 복수의 에미터 및 리무버에 대한 영역)은 모두 0으로 설정된다.
즉, 상기 에미션 에이전트는, 상기 구성한 제1 채널 이미지 및 제2 채널 이미지를 상기 에미션 강화학습모델에 입력하여, 상기 물품 분류기(200)의 상태정보와, 상기 각 트랜스퍼의 라우팅 액션에 따른 에미션 액션을 출력하며, 상기 라우팅 액션과 상기 에미션 액션을 토대로 생성한 제어정보에 의해 변화된 상기 물품 분류기(200)의 상태정보와, 상기 라우팅 액션에 따라 계산된 리워드를 이용하여 상기 에미션 강화학습모델의 대한 강화학습을 수행하게 된다.
이때, 상기 에미션 강화학습모델은, 상기 물품 분류기(200)의 상태정보와, 상기 복수의 라우팅 액션에 따라, 상기 각 에미터에 인접한 트랜스퍼로 상기 물품을 입고시키기 위한 복수의 에미션 액션 중 누적된 리워드가 제일 높은 에미션 액션을 추출하도록 강화학습된다.
도 7은 본 발명의 일 실시예에 따른 에미션 에이전트의 에미션 강화학습모델에서 추출되는 에미션 액션을 설명하기 위해 나타낸 도면이다.
도 7에 도시한 바와 같이, 본 발명의 일 실시예에 따른 에미션 에이전트의 에미션 강화학습모델에서 추출되는 에미션 액션은, 상기 각 에미터를 기준으로 물품의 이동정지, 인접한 트랜스퍼로 물품을 이동시키는 물품 입고 또는 이들의 조합을 포함하는 액션으로 구성된다.
상기 에미션 강화학습모델은 상기 복수의 에미터별로 사전에 설정한 에미션 액션에 대한 액션값과, 해당 액션값에 대해 누적된 리워드를 출력하고, 상기 각 에미터별로 누적된 리워드가 높은 액션값을 선택함으로써, 상기 각 에미터에 대한 에미션 액션을 추출하게 된다. 이때, 상기 물품의 이동정지 및 물품입고에 대한 각각의 에미션 액션에 대한 액션값은 0 및 1로 설정될 수 있다.
도 8은 본 발명의 일 실시예에 따른 에미션 강화학습모델의 구조를 나타낸 도면이다.
도 8에 도시한 바와 같이, 본 발명의 일 실시예에 따른 에미션 강화학습모델은, 상기 에미션 에이전트에 구성한 에미션 에이전트용 이미지를 입력받는 입력 레이어, 제1 컨볼루션 레이어, 제1 배치정규화 레이어, 제2 컨볼루션 레이어, 제2 배치정규화 레이어, 제3 컨볼루션 레이어, 제3 배치정규화 레이어, 플래튼 레이어, 히든 레이어(완전연관 레이어) 및 출력 레이어를 포함하여 구성된다.
상기 제1 컨볼루션 레이어는, 사전에 설정한 크기(예: 2x2) 및 가중치를 가지는 복수의 필터(예: 16개)를 사전에 설정한 스트라이드의 크기(예: 1)로 배치하여, 상기 에미션 에이전트용 이미지의 특정 부분과, 상기 가중치를 각각 컨볼루션하여, 제1 특징맵을 생성하여 출력하는 기능을 수행한다.
상기 제1 배치정규화 레이어는, 상기 출력한 제1 특징맵이 표준정규분포를 가지도록 정규화하며, 제2 컨볼루션 레이어는 상기 제1 배치정규화 레이어를 통해 정규화한 제1 특징맵에 사전에 설정한 크기 및 가중치를 가지는 복수의 필터(예: 32개)를 사전에 설정한 스트라이드의 크기로 배치하여, 각각 컨볼루션함으로써, 제2 특징맵을 생성하여 출력한다.
또한 상기 제2 배치정규화 레이어는, 상기 제2 특징맵을 정규화하며, 상기 제3 컨볼루션 레이어는 상기 정규화한 제2 특징맵에 대한 컨볼루션을 통해 제3 특징맵을 생성하여 출력하고, 상기 제3 배치정규화 레이어는 상기 제3 특징맵을 정규화하여 출력한다.
이후, 상기 플래튼 레이어는, 상기 정규화한 제3 특징맵을 상기 완전연관 레이어인 히든 레이어에 적합한 데이터의 포맷인 1차원 포맷으로 변환하고, 상기 완전연관 레이어는 상기 1차원 포맷으로 변환한 제3 특징맵을 연결시켜 상기 물품 분류기(200)의 상태정보와, 상기 복수의 트랜스퍼에 대한 라우팅 액션에 따른 상기 복수의 에미터에 대한 에미션 액션을 출력 레이어를 통해 출력할 수 있도록 하는 기능을 수행한다.
이때, 상기 출력 레이어는, 복수의 에미션 액션에 대해 누적된 리워드를 포함하는 복수의 에미션 액션을 상기 복수의 에미터별로 출력하며, 누적된 리워드가 제일 높은 에미션 액션을 각각 선택함으로써, 상기 각 에미터에 대한 에미션 액션을 추출하게 된다.
도 9는 본 발명의 일 실시예에 따른 물품의 이동에 따른 물품간 충돌을 해결하기 위한 방법을 설명하기 위해 나타낸 도면이다.
도 9에 도시한 바와 같이, 본 발명의 일 실시예에 따른 복수의 라우팅 액션과 에미션 액션에 따라 물품 분류기(200)에서 이동될 물품간 충돌을 해결하기 위해, 우선 상기 물품 분류기 제어 장치(100)는, 전처리 과정을 통해 상기 물품 분류기(200)의 상태정보를 토대로 물품을 소유한 상기 트랜스퍼 및 에미터에 대해 상기 복수의 라우팅 에이전트와, 에미션 에이전트에서 추출되어 출력되는 복수의 라우팅 액션과 에미션 액션을 검사하여, 특정 라우팅 액션 또는 에미션 액션이 물품의 이동정지에 대한 액션이 아닌 경우, 상기 특정 라우팅 액션 또는 에미션 액션의 방향으로 인접한 트랜스퍼의 라우팅 액션을 확인하여, 상기 특정 라우팅 액션 또는 상기 에미션 액션과 상기 확인한 라우팅 액션이 동일하지 않으면, 상기 특정 라우팅 액션 또는 에미션 액션을 상기 물품 이동정지 액션으로 조정한다.
또한 상기 물품 분류기 제어 장치(100)는, 상기 전처리 과정을 통해 상기 조정한 결과에 따라, 물품을 소유한 트랜스퍼 또는 에미터에서 물품을 소유하지 않은 트랜스퍼에 물품을 이동시키고자 하는 라우팅 액션, 에미션 액션 또는 이들의 조합을 포함하는 액션을 검사하여, 상기 검사한 결과 상기 액션이 복수개로 존재하는 경우, 상기 물품을 소유하지 않은 트랜스퍼에서 물품간 이동에 따른 충돌이 발생될 것으로 인식하여, 사전에 설정한 우선순위에 따라 어느 하나의 액션만을 선택하고, 나머지 액션을 물품 이동정지 액션으로 조정하는 액션 선택 과정을 수행한다.
한편, 상기 우선순위는, 물품입고에 대한 에미션 액션, 좌측 또는 우측방향으로의 물품 이동에 대한 라우팅 액션, 상측 또는 하측 방향으로의 물품이동에 대한 라우팅 액션 순으로 높으며, 상기 우선순위가 동일하면 무작위로 선택된다.
또한 상기 물품 분류 제어 장치(100)는, 상기 액션 선택 과정을 통해 상기 각 액션을 조정한 결과에 따라, 상기 전처리 과정과 동일한 기능을 수행하는 후처리 과정을 통해 상기 전처리 과정과 동일한 조정과정을 수행한다.
즉, 상기 물품 분류 제어 장치(100)는, 상기 전처리 과정, 액션 선택 과정 및 후처리 과정을 통해 상기 물품 분류기(200)의 상태정보에 따라 상기 추출한 복수의 라우팅 액션과 에미션 액션에 의해 이동될 물품의 충돌을 회피할 수 있도록 상기 각 라우팅 액션과 에미션 액션을 조정함으로서, 상기 물품 분류기(200)의 각 트랜스퍼와 에미터를 제어하기 위한 최종적인 제어정보를 생성하여 상기 물품 분류기(200)를 제어할 수 있도록 한다.
또한 상기 물품 분류 제어 장치(100)는, 상기 제어정보를 토대로 변경된 물품 분류기(200)의 상태정보와, 상기 액션 선택 과정에서 물품간 이동에 따른 충돌을 발생시키는 액션의 개수에 따라 상기 각 라우팅 액션과 에미션 액션에 대한 리워드를 계산하여 상기 복수의 라우팅 에이전트 및 에미션 에이전트에서 상기 복수의 에피소드에 따라 수행되는 강화학습에 이용할 수 있도록 한다.
도 10은 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반 물품 분류기 제어 장치의 구성을 나타낸 블록도이다.
도 10에 도시한 바와 같이, 본 발명의 일 실시예에 따른 물품 분류기 제어 장치(100)는, 제어정보 전송부(110), 리워드 계산부(120), 물품 분류기(200)로부터 상태정보를 수신하는 상태정보 수신부(130), 성능지표 계산부(140), 제어정보 생성부(150), 라우팅 에이전트(160) 및 에미션 에이전트(170)를 포함하여 구성된다.
상기 라우팅 에이전트(160)는, 상기 물품 분류기(200)를 구성하는 복수의 트랜스퍼에 각각에 대한 복수의 라우팅 에이전트(160)로 구성되며, 상기 각 트랜스퍼에 대한 라우팅 액션을 추출하여, 상기 물품 분류기(200)의 상태정보에 따라 상기 각 트랜스퍼가 소유한 물품을 라우팅하여 분류할 수 있도록 하는 라우팅 강화학습모델을 각각 생성하고, 상기 생성한 각각의 라우팅 강화학습모델에 대한 강화학습을 사전에 설정한 에피소드에 따라 수행함으로써, 상기 각 라우팅 강화학습모델을 최적화하는 기능을 수행한다.
이를 위해, 상기 라우팅 에이전트(160)는, 상기 물품 분류기(200)로부터 수신되는 물품 분류기(200)의 상태정보인 상태이미지를 라우팅 에이전트용 이미지를 구성하는 라우팅 에이전트용 이미지 구성부(161), 상기 구성한 라우팅 에이전트용 이미지를 상기 생성한 라우팅 강화학습모델에 입력하여 해당 트랜스퍼에 대한 라우팅 액션을 추출하는 라우팅 액션 추출부(162), 상기 추출한 라우팅 액션과, 에미션 에이전트(170)에서 추출되는 복수의 에미션 액션을 토대로 생성되는 제어정보에 따라 제어되어, 상기 물품 분류기(200)로부터 수신되는 변화된 물품 분류기(200)의 상태정보에 따라 구성되는 상기 라우팅 에이전트용 이미지와, 상기 추출한 라우팅 액션에 대해 계산된 리워드를 포함한 라우팅 강화학습 데이터를 구성하는 라우팅 강화학습 데이터 구성부(163) 및 상기 구성한 라우팅 강화학습 데이터를 이용하여 상기 생성한 라우팅 강화학습 모델에 대한 강화학습을 수행하는 라우팅 강화학습부(164)를 포함하여 구성된다.
상기 라우팅 강화학습모델에 대한 강화학습은, 사전에 설정한 복수의 에피소드에 따라 수행되며, 상기 라우팅 강화학습모델을 생성하는 것은, 사전에 준비한 라우팅 강화학습네트워크에 상기 구성한 라우팅 에이전트용 이미지를 입력하여 상기 트랜스퍼에 대한 라우팅 액션을 추출함으로써, 수행된다. 즉, 상기 각 트랜스퍼의 라우팅 액션을 추출하도록 설계된 라우팅 강화학습네트워크가 상기 라우팅 강화학습모델이 되는 것이다.
또한 상기 라우팅 에이전트용 이미지 구성부(161)는, 상기 제어정보에 의해 변화된 물품 분류기(200)의 상태정보를 토대로, 라우팅 에이전트용 제1 채널 이미지와, 라우팅 에이전트용 제2 채널 이미지를 포함하는 라우팅 에이전트용 이미지를 생성하는 기능을 수행한다.
즉, 상기 라우팅 에이전트용 이미지 구성부(161)는, 상기 라우팅 강화학습모델에 대한 라우팅 강화학습을 수행할 때, 상기 상태정보 수신부(130)를 통해 수신되는 상기 제어정보에 따라 제어되어 변화된 물품 분류기(200)의 상태정보를 토대로 상기 라우팅 에이전트용 이미지를 생성하여 상기 라우팅 강화학습에 이용하고, 상기 라우팅 에이전트용 이미지를 상기 라우팅 강화학습모델에 입력하여 상기 라우팅 액션을 추출하도록 한다.
또한 상기 라우팅 액션 추출부(162)는, 상기 구성한 라우팅 에이전트용 제1 채널 이미지 및 라우팅 에이전트용 제2 채널 이미지를 상기 라우팅 강화학습모델에 입력하여, 상기 변화된 물품 분류기(200)의 상태정보에 따라 해당 트랜스퍼에 대한 라우팅 액션을 추출하는 기능을 수행하여, 상기 제어정보 생성부(150)를 통해 상기 물품 분류기(200)의 트랜스퍼를 제어하기 위한 제어정보를 생성할 수 있도록 한다.
또한 상기 라우팅 강화학습 데이터 구성부(163)는, 상기 추출한 라우팅 액션, 상기 제어정보에 의해 변화된 물품 분류기(200)의 상태정보로부터 구성되는 라우팅 에이전트용 제1 채널 이미지 및 라우팅 에이전트용 제2 채널 이미지, 상기 추출한 라우팅 액션, 해당 라우팅 액션에 대해 계산된 리워드를 포함하는 라우팅 강화학습 데이터를 구성하는 기능을 수행한다.
또한 상기 라우팅 강화학습부(164)는, 상기 구성한 라우팅 강화학습 데이터를 이용하여 상기 생성한 라우팅 강화학습모델에 대한 라우팅 강화학습을 수행하는 기능을 수행한다.
즉, 상기 라우팅 에이전트(160)는, 사전에 설정한 복수의 에피소드에 따라 상기 물품 분류기(200)의 상태정보에 따라 라우팅 액션을 추출하는 과정, 상기 라우팅 액션을 토대로 생성된 제어정보에 의해 변화된 물품 분류기(200)의 상태정보와 상기 추출한 라우팅 액션 및 해당 라우팅 액션에 대해 계산된 리워드를 이용하여 라우팅 강화학습 데이터를 구성하는 과정 및 상기 구성한 라우팅 강화학습 데이터를 이용하여 상기 라우팅 강화학습모델에 대한 강화학습을 수행하는 과정을 반복하여 수행함으로써, 상기 라우팅 강화학습모델을 고도화하여 최적화함으로써, 상기 물품 분류기(200)의 상태정보에 따라 상기 에미터를 통해 입고되는 복수의 물품을 신속하고 정확하게 분류할 수 있도록 하는 상기 트랜스퍼에 대한 라우팅 액션을 추출할 수 있도록 한다.
이때, 상기 라우팅 강화학습모델은, 상기 물품 분류기(200)의 상태정보(즉, 라우팅 에이전트용 제1 채널 이미지)에 따라 복수의 라우팅 액션 중 누적된 리워드가 제일 높은 특정 라우팅 액션을 선택함으로써, 상기 라우팅 액션을 추출하게 된다.
또한 상기 에미션 에이전트(170)는, 상기 물품 분류기(200)를 구성하는 복수의 에미터의 동작을 위해 구성되며, 상기 각 에미터에 대한 에미션 액션을 추출하여, 상기 물품 분류기(200)의 상태정보와, 상기 복수의 라우팅 에이전트(160)에서 추출되는 복수의 라우팅 액션에 따라 상기 각 에미터가 소유한 물품을 입고하여 상기 각 트랜스퍼에 의해 분류할 수 있도록 하는 에미션 강화학습모델을 생성하고, 상기 생성한 에미션 강화학습모델을 사전에 설정한 상기 에피소드에 따라 수행함으로서, 상기 에미션 강화학습모델을 최적화하는 기능을 수행한다.
이를 위해, 상기 에미션 에이전트(170)는, 상기 상태정보 수신부(130)를 통해 수신되는 물품 분류기(200)의 상태정보를 토대로 에미션 에이전트용 제1 채널 이미지 구성하고 상기 복수의 라우팅 에이전트(160)에서 추출되어 출력되는 복수의 라우팅 액션을 토대로 에미션 에이전트용 제2 채널 이미지를 구성하여, 상기 에미션 에이전트용 제1 채널 이미지와, 상기 에미션 에이전트용 제2 채널 이미지를 포함하는 에미션 에이전트용 이미지를 구성하는 에미션 에이전트용 이미지 구성부(171), 상기 구성한 에미션 에이전트용 이미지를 상기 생성한 에미션 강화학습모델에 입력하여 해당 물품 분류기(200)의 상태정보와, 상기 라우팅 에이전트(160)에서 추출되어 출력되는 복수의 라우팅 액션에 따라 상기 복수의 에미터에 대한 에미션 액션을 추출하는 에미션 액션 추출부(172), 상기 복수의 라우팅 에이전트(160)에서 추출된 복수의 라우팅 액션과, 상기 추출한 에미션 액션을 토대로 생성되는 제어정보에 따라 제어되어, 상기 물품 분류기(200)의 변화된 상태정보에 따라 구성되는 에미션 에이전트용 이미지, 상기 추출한 에미션 액션, 해당 에미션 액션에 대해 계산되는 리워드를 포함한 에미션 강화학습 데이터를 구성하는 에미션 강화학습 데이터 구성부(173) 및 상기 구성한 에미션 강화학습데이터를 토대로 상기 생성한 에미션 강화학습모델에 대한 강화학습을 수행하는 에미션 강화학습부(174)를 포함하여 구성된다.
상기 에미션 강화학습모델에 대한 강화학습은, 상기 사전에 설정한 복수의 에피소드에 따라 상기 라우팅 에이전트(160)에서 각각 수행되는 라우팅 강화학습모델에 대한 강화학습과 동시에 수행되며, 상기 에미션 강화학습모델을 생성하는 것은, 사전에 준비한 에미션 강화학습네트워크에 상기 구성한 에미션 에이전트용 이미지를 입력하여 상기 각 에미터에 대한 에미션 액션을 추출함으로서, 수행된다. 즉, 상기 각 에미터의 에미션 액션을 추출하도록 설계된 에미션 강화학습네트워크가 상기 에미션 강화학습모델이 되는 것이다.
또한 상기 에미션 에이전트용 이미지 구성부(171)는, 상기 에미션 강화학습모델에 대한 에미션 강화학습을 수행할 때, 상기 상태정보 수신부(130)를 통해 수신되는 물품 분류기(200)의 상태정보를 토대로 상기 라우팅 에이전트용 이미지를 생성하여, 상기 에미션 강화학습에 이용하도록 하거나, 상기 에미션 강화학습모델에 입력하여 상기 복수의 에미터에 대한 에미션 액션을 추출하도록 한다.
또한 상기 에미션 강화학습 데이터 구성부(173)는, 상기 추출한 에미션 액션, 상기 생성한 제어정보에 의해 변화된 물품 분류기(200)의 상태정보로부터 구성되는 상기 제1 채널 에미션 에이전트용 이미지, 상기 복수의 라우팅 에이전트에서 추출되어 출력되는 복수의 라우팅 액션을 토대로 구성되는 상기 제2 채널 에미션 에이전트용 이미지 및 상기 추출한 에미션 액션에 대해 계산된 리워드를 포함하는 라우팅 강화학습 데이터를 구성하는 기능을 수행한다.
또한 상기 에미션 강화학습부(174)는, 상기 구성한 에미션 강화학습 데이터를 이용하여 상기 생성한 에미션 강화학습모델에 대한 에미션 강화학습을 수행하는 기능을 수행한다.
이때, 상기 에미션 강화학습모델은, 상기 물품 분류기(200)의 상태정보(즉, 에미션 에이전트용 제1 채널 이미지)와 상기 복수의 라우팅 에이전트(160)에서 추출되어 출력되는 복수의 라우팅 액션(즉, 에미션 에이전트용 제2 채널 이미지)에 따라 복수의 에미션 액션 중 누적된 리워드가 제일 높은 특정 에미션 액션을 선택함으로써, 상기 에미션 액션을 추출하게 된다.
또한 상기 에미션 에이전트(170)는, 사전에 설정한 복수의 에피소드에 따라 상기 물품 분류기(200)의 상태정보와, 복수의 라우팅 액션을 토대로 상기 에미션 액션을 추출하는 과정, 상기 추출한 에미션 액션을 토대로 생성된 제어정보에 의해 변화된 물품 분류기(200)의 상태정보와, 해당 에미션 액션에 대해 계산된 리워드를 이용하여 에미션 강화학습 데이터를 구성하는 과정 및 상기 구성한 에미션 강화학습 데이터를 이용하여 상기 에미션 강화학습모델에 대한 강화학습을 수행하는 과정을 반복하여 수행함으로써, 상기 에미션 강화학습모델을 고도화하여 최적화하여 상기 물품 분류기(200)의 상태정보와 상기 복수의 라우팅 액션에 따라 상기 복수의 에미터를 통해 상기 복수의 물품을 입고하여 상기 복수의 물품을 신속하고 정확하게 분류할 수 있도록 하는 에미션 액션을 추출할 수 있도록 한다.
또한 상기 제어정보 생성부(150)는, 상기 추출한 복수의 라우팅 액션 및 에미션 액션을 토대로 상기 물품 분류기(200)에서 이동될 물품간 충돌이 발생하지 않도록 상기 추출한 복수의 라우팅 액션 및 에미션 액션에 대한 조정을 수행하여 상기 각 트랜스퍼 및 에미터에 대한 제어정보를 생성하기 위한 것으로, 상기 복수의 라우팅 액션 및 에미션 액션에 대한 전처리를 수행하는 전처리부(151), 상기 전처리를 수행한 이후, 물품간 충돌을 야기하는 라우팅 액션, 에미션 액션 또는 이들의 조합을 포함하는 복수의 액션에 대해 어느 하나의 액션을 선택하여 상기 충돌을 회피하도록 하는 액션 선택부(152) 및 상기 액션 선택 이후, 상기 복수의 라우팅 액션 및 에미션 액션에 대한 후처리를 수행하는 후처리부(153)를 포함하여 구성된다.
상기 전처리부(151)는, 상기 물품을 소유한 상기 트랜스퍼 및 에미터에 대해 추출되는 라우팅 액션과 에미션 액션을 각각 검사하여 특정 라우팅 액션 또는 에미션 액션이 물품의 이동정지에 대한 액션이 아닌 경우, 상기 특정 라우팅 액션 또는 에미션 액션의 방향으로 인접한 트랜스퍼에 대한 라우팅 액션을 확인하여, 상기 특정 라우팅 액션 또는 에미션 액션과 상기 확인한 라우팅 액션이 동일하지 않으면, 상기 특정 라우팅 액션 또는 에미션 액션을 상기 소유한 물품에 대한 이동정지 액션으로 조정한다.
또한 상기 액션 선택부(152)는, 상기 전처리부를 통해 상기 조정한 결과에 따라, 물품을 소유하지 않은 트랜스퍼에 물품을 이동시키고자하는 상기 복수의 액션이 존재하는 경우, 상기 물품을 소유하지 않은 트랜스퍼에서 물품의 충돌이 발생될 것으로 인식하여, 사전에 설정한 우선순위에 따라 어느 하나의 액션만을 선택하고, 나머지 액션을 이동정지 액션으로 조정한다.
이때, 상기 우선순위는, 물품입고에 대한 에미션 액션, 좌측 또는 우측방향으로의 물품 이동에 대한 라우팅 액션, 상측 또는 하측 방향으로의 물품이동에 대한 라우팅 액션 순으로 높으며, 상기 우선순위가 동일하면 무작위로 선택됨은 상술한 바와 같다.
또한 상기 후처리부(153)는, 상기 액션 선택부(152)를 통해 상기 조정한 결과에 따라, 상기 전처리부와 동일한 기능을 수행하여 상기 복수의 라우팅 액션과 에미션 액션을 조정한다.
즉, 상기 제어정보 생성부(150)는, 상기 전처리부(151), 액션 선택부(152) 및 후처리부(153)를 통해 상기 복수의 라우팅 액션과 에미션 액션을 조정한 제어정보를 생성함으로서, 상기 물품의 이동에 따른 충돌이 발생하지 않도록 하는 것이다.
또한 상기 제어정보 전송부(110)는, 상기 생성한 제어정보를 상기 물품 분류기(200)로 전송하여, 상기 물품 분류기(200)를 구성하는 복수의 트랜스퍼 및 에미터를 각각 제어하여 복수의 물품을 분류하도록 하는 기능을 수행한다.
또한 상기 상태정보 수신부(120)는, 상태이미지로 구성되는 상기 물품 분류기(200)의 상태정보를 수신하는 기능을 수행하는 것으로, 상기 수신되는 상태정보는 상기 제어정보 의해 변화된 상태정보이거나, 상기 제어를 수행하기 위한 최초의 상태정보일 수 있다.
또한 상기 리워드 계산부(130)는, 상기 제어정보에 따라 변화된 물품 분류기(200)의 상태정보에 따라 상기 추출한 라우팅 액션 및 에미션 액션에 대한 리워드를 계산하여, 상기 각 라우팅 강화학습 및 에미션 강화학습에 이용할 수 있도록 한다.
상기 라우팅 액션에 대한 리워드는, 다음의 [수학식 2]에 따라 계산된다.
[수학식 2]
Figure 112019123954255-pat00002
여기서,
Figure 112019123954255-pat00003
는 상기 제어정보를 토대로 제어되는 특정 시간 단계(t, time step)에서, 특정 트랜스퍼가 물품을 소유하고 있는지에 대한 여부를 나타내는 것으로, 물품을 소유하는 경우 1의 값으로 설정되며, 상기 물품을 소유하지 않은 경우에는 0의 값으로 설정된다. 또한
Figure 112019123954255-pat00004
Figure 112019123954255-pat00005
는 특정 트랜스퍼에서 물품을 인접한 리무버로 이동시키고 해당 물품의 타입정보에 따라 정확하게 분류되었는지에 대한 여부를 나타내는 것으로, 상기 물품이 정확하게 분류된 경우,
Figure 112019123954255-pat00006
Figure 112019123954255-pat00007
는 1 및 0으로 각각 설정되며, 정확하게 분류되지 않은 경우,
Figure 112019123954255-pat00008
Figure 112019123954255-pat00009
는 0 및 1로 각각 설정된다. 또한
Figure 112019123954255-pat00010
는, 상기 트랜스퍼가 사전에 설정한 제어횟수를 통해 상기 물품을 소유하였는지에 대한 여부를 나타내는 것으로, 상기 제어횟수를 초과하는 경우에는 0으로 설정되며, 초과하지 않은 경우에는 1로 설정되며, 상기
Figure 112019123954255-pat00011
는, 상기 액션 선택부(152)에서 인식한 물품간 충돌을 야기하는 액션의 개수에 따라 산출되는 것으로, 상기 액션의 개수가 2개이면 0.1로, 3개이면 0.2로, 4개이면 0,3으로 설정된다. 또한 상기
Figure 112019123954255-pat00012
,
Figure 112019123954255-pat00013
,
Figure 112019123954255-pat00014
Figure 112019123954255-pat00015
는 상기
Figure 112019123954255-pat00016
,
Figure 112019123954255-pat00017
,
Figure 112019123954255-pat00018
Figure 112019123954255-pat00019
에 대한 각각의 계수(coefficient)를 나타내는 것으로, -0.1, 1, -1 및 -5로 각각 설정된다.
상기 에미션 액션에 대한 리워드는, 다음의 [수학식 3]에 따라 계산된다.
[수학식 3]
Figure 112019123954255-pat00020
여기서,
Figure 112019123954255-pat00021
는 상기 제어정보를 토대로 제어되는 특정 시간 단계(t, time step)에서, 물품이 분류되어 제어되는 개수(outt)에서 입고되는 물품의 개수(
Figure 112019123954255-pat00022
)를 차감한 결과에 대한 절대값으로 설정되며, 상기 에미터 및 리무버가 6개로 구성되는 경우에는 상기
Figure 112019123954255-pat00023
Figure 112019123954255-pat00024
는 0 내지 6의 값을 가진다. 또한 상기
Figure 112019123954255-pat00025
Figure 112019123954255-pat00026
의 계수를 각각 나타내는
Figure 112019123954255-pat00027
Figure 112019123954255-pat00028
는 -1 및 0.1의 값으로 설정된다.
또한 상기 성능지표 계산부(140)는, 상기 사전에 설정한 복수의 에피소드별로 상기 복수의 라우팅 강화학습모델과 상기 에미션 강화학습모델에 대한 강화학습을 수행할 때, 상기 에피소드의 종료조건에 따라 상기 각 에피소드가 종료될 때마다, 에피소드별 물품 분류에 대한 성능지표를 계산하는 기능을 수행한다. 상기 성능지표는 상기 수행되는 강화학습을 종료시키는 기준이 됨은 상술한 바와 같다.
도 11은 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반으로 물품 분류기를 제어하는 절차를 나타낸 흐름도이다.
도 11에 도시한 바와 같이, 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반으로 물품 분류기(200)를 제어하는 절차는 우선, 상기 물품 분류기 제어 장치(100)는, 사전에 설정한 복수의 에피소드에 따라 상기 물품 분류기(200)를 제어하는 과정을 수행한다(S105).
이때, 상기 물품 분류기 제어 장치(100)는, 상기 물품 분류기(200)를 구성하는 복수의 트랜스퍼에 각각 대응하는 복수의 라우팅 에이전트를 통해 상기 각 트랜스퍼에 대한 라우팅 액션을 추출하기 위한 라우팅 강화학습모델을 각각 생성하며, 에미션 에이전트를 통해 상기 물품 분류기(200)를 구성하는 복수의 에미터에 대한 에미션 액션을 추출하기 위한 에미션 강화학습모델을 생성함은 상술한 바와 같다.
다음으로, 상기 물품 분류기 제어 장치(100)는, 상기 복수의 라우팅 에이전트(160)를 통해 물품 분류기(200)로부터 수신되는 상태정보를 토대로 라우팅 에이전트용 이미지를 각각 구성하고, 이를 상기 생성한 라우팅 강화학습모델에 입력하여, 라우팅 액션을 추출하는 단계를 수행한다(S110).
다음으로, 상기 물품 분류기 제어 장치(100)는, 상기 에미션 에이전트(170)를 통해 물품 분류기(200)의 상태정보와, 상기 추출한 복수의 라우팅 액션을 토대로 에미션 에이전트용 이미지를 구성하고, 이를 상기 생성한 에미션 강화학습모델에 입력하여 에미션 액션을 추출한다(S115).
다음으로, 상기 물품 분류기 제어 장치(100)는, 상기 추출한 복수의 라우팅 액션과 에미션 액션을 토대로 물품 분류기(200)상에서 이동될 물품간의 충돌을 해결하기 위한 제어정보를 생성하는 단계를 수행한다(S120).
상기 제어정보를 생성하는 단계는, 상기 추출한 복수의 라우팅 액션과 에미션 액션에 대한 전처리 과정을 수행하는 전처리 단계, 상기 전처리 과정을 수행한 후, 물품간 충돌을 야기하는 복수의 라우팅 액션, 에미션 액션 또는 이들의 조합을 포함하는 복수의 액션을 검사하여 특정 하나의 액션을 선택하는 액션 선택 단계 및 상기 액션 선택 단계를 수행한 후, 상기 전처리 과정과 동일한 과정으로 구성되는 후처리 단계를 포함하여 구성되며, 상기 전처리 과정, 액션 선택 과정 및 후처리 과정은, 도 9를 참조하여 성명하였으므로 더 이상의 상세한 설명은 생략한다.
다음으로, 상기 물품 분류기 제어 장치(100)는, 상기 생성한 제어정보를 토대로 상기 물품 분류기(200)를 구성하는 복수의 트랜스퍼와 에미터를 제어하고, 상기 물품 분류기(200)로부터 상기 제어에 따라 변화된 물품 분류기(200)의 상태정보를 수신하는 단계를 수행한다(S125).
이후, 상기 물품 분류기 제어 장치(100)는, 상기 수신한 변화된 물품 분류기(200)의 상태정보를 토대로 상기 추출한 복수의 라우팅 액션과 에미션 액션에 대한 리워드를 각각 계산하는 단계를 수행한다(S130).
다음으로, 상기 물품 분류기 제어 장치(100)는, 상기 복수의 라우팅 에이전트(160) 및 에미션 에이전트(170)를 통해 상기 각 라우팅 액션과 에미션 액션에 대해 계산한 리워드를 이용하여 상기 복수의 라우팅 강화학습모델 및 에미션 강화학습모델에 대한 강화학습을 각각 수행하는 단계를 수행한다(S135).
한편, 상기 복수의 라우팅 강화학습모델에 대해 수행되는 강화학습과, 상기 에미션 강화학습모델에 대해 수행되는 강화학습 방법은, 도 2 및 도 10을 참조하여 설명하였으므로, 더 이상의 상세한 설명은 생략하도록 한다.
다음으로, 상기 물품 분류기 제어 장치(100)는, 상기 사전에 설정한 에피소드 종료조건에 따라 현재 수행되고 있는 에피소드가 종료된 경우(S140), 현재 종료된 에피소드에 대한 성능지표를 계산하고, 마지막 n개의 에피소드에 대하여 계산한 성능지표가 더 이상 증가하지 않는 경우(S145), 상기 강화학습을 종료하고, 상기 강화학습을 종료한 복수의 라우팅 강화학습모델과, 상기 에미션 강화학습모델을 이용하여 실질적으로 상기 물품 분류기(200)를 제어하는 단계를 수행(S155)함으로서, 상기 복수의 물품을 물품의 타입정보에 따라 정확하고 신속하게 분류할 수 있도록 한다.
한편, 상기 마지막 n개의 에피소드에 대한 성능지표가 증가되는 경우에는, 다음의 에피소드에 따라 상기 물품 분류기(160)를 제어하여 상기 강화학습을 반복적으로 수행하여, 상기 복수의 라우팅 강화학습모델과, 상기 에미션 강화학습모델을 고도화하여 상기 물품 분류에 최적화할 수 있도록 한다.
이상에서 설명한 바와 같이, 본 발명의 일 실시예에 따른 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법은, 복수의 에이전트를 통해 상기 물품 분류기의 물품을 라우팅하는 복수의 트랜스퍼에 대한 라우팅 액션을 추출하는 복수의 라우팅 강화학습모델과, 상기 물품 분류기상에 물품을 입고하는 복수의 에미터에 대한 에미션 액션을 추출하는 에미션 강화학습모델에 대한 강화학습을 통해 상기 물품 분류기의 상태정보에 따라 복수의 물품을 물품 타입에 따라 정확하고 신속하게 분류할 수 있도록 하는 효과가 있다.
상기에서는 본 발명에 따른 바람직한 실시예를 위주로 상술하였으나, 본 발명의 기술적 사상은 이에 한정되는 것은 아니며 본 발명의 각 구성요소는 동일한 목적 및 효과의 달성을 위하여 본 발명의 기술적 범위 내에서 변경 또는 수정될 수 있을 것이다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
10: 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템
100: 멀티에이전트 강화학습 기반 물품 분류기 제어 장치
110: 제어정보 전송부 120: 상태정보 수신부
130: 리워드 계산부 140: 성능지표 계산부
150: 제어정보 생성부 160: 라우팅 에이전트
170: 에미션 에이전트

Claims (10)

  1. 복수의 채널을 통해서 물품을 입고하는 복수의 에미터, 복수의 채널을 통해서 물품을 출고하는 복수의 리무버, 및 상기 복수의 에미터를 통해서 입고되는 상기 물품을 상기 복수의 리무버로 라우팅하는 복수의 트랜스퍼를 포함하는 물품 분류기에 대해서,
    상기 물품 분류기의 상태정보에 따라 상기 각 트랜스퍼의 물품 이동에 대한 라우팅 액션을 추출하여 라우팅 강화학습모델을 생성하는 복수의 라우팅 에이전트;
    상기 물품 분류기의 상태정보와 상기 추출한 라우팅 액션에 따라 상기 각 에미터의 물품 입고에 대한 에미션 액션을 추출하여 에미션 강화학습모델을 생성하는 에미션 에이전트;를 포함하며,
    상기 추출한 복수의 라우팅 액션 및 에미션 액션을 토대로 상기 물품의 이동에 따른 물품간 충돌이 발생하지 않도록 제어정보를 생성하고, 상기 제어정보에 따라 변화된 상기 물품 분류기의 상태정보와 상기 변화된 물품 분류기의 상태정보에 따라 계산되는 상기 추출한 라우팅 액션 및 에미션 액션에 대한 리워드를 이용하여, 상기 생성한 라우팅 강화학습모델 및 상기 에미션 강화학습모델에 대한 강화학습을 수행하는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템.
  2. 청구항 1에 있어서,
    상기 강화학습은,
    상기 복수의 물품을 물품 타입정보에 따라 복수의 리무버로 라우팅하여 분류하기 위해 사전에 설정한 복수의 에피소드에 따라 진행되고, 상기 에피소드별로 계산되는 물품 분류에 대한 성능지표가 더 이상 증가되지 않을 때까지 수행되는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템.
  3. 청구항 1에 있어서,
    상기 물품 분류기의 상태정보는,
    상기 복수의 에미터와 상기 복수의 트랜스퍼가 각각 소유하는 물품의 타입정보와 상기 물품의 위치정보를 포함하는 상태이미지로 구성되며,
    상기 복수의 라우팅 에이전트는,
    상기 변화된 물품 분류기의 상태정보에 대한 상태이미지를 라우팅 에이전트용 제1 채널 이미지로 구성하고, 상기 구성한 제1 채널 이미지를 토대로 상기 복수의 트랜스퍼에 대한 위치정보를 나타내는 라우팅 에이전트용 제2 채널 이미지를 구성하여, 상기 구성한 라우팅 에이전트용 제1 채널 이미지, 라우팅 에이전트용 제2 채널 이미지 및 상기 추출한 라우팅 액션에 대해 계산된 리워드를 이용하여 상기 생성한 라우팅 강화학습모델에 대한 강화학습을 각각 수행하며,
    상기 라우팅 강화학습모델은, 상기 물품을 소유한 해당 트랜스퍼에서 상기 물품의 타입정보와 상기 물품의 위치정보에 따라 상기 물품을 인접한 트랜스퍼 또는 리무버로 이동시키기 위한 복수의 라우팅 액션 중 누적된 리워드가 제일 높은 라우팅 액션을 추출하도록 강화학습되는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템.
  4. 청구항 3에 있어서,
    상기 에미션 에이전트는,
    상기 변화된 물품 분류기의 상태정보에 대한 상태이미지를 에미션 에이전트용 제1 채널 이미지로 구성하고, 상기 복수의 라우팅 강화학습모델에서 추출되는 복수의 라우팅 액션을 나타내는 에미션 에이전트용 제2 채널 이미지로 구성하고, 상기 구성한 에미션 에이전트용 제1 채널 이미지, 에미션 에이전트용 제2 채널 이미지 및 상기 추출한 에미션 액션에 대해 계산된 리워드를 이용하여 상기 생성한 에미션 강화학습모델에 대한 강화학습을 수행하며,
    상기 에미션 강화학습모델은, 상기 물품을 소유한 특정 에미터에서 인접한 트랜스퍼로 이동시키기 위한 복수의 에미션 액션 중 누적된 리워드가 제일 높은 에미션 액션을 출력하도록 강화학습되는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템.
  5. 청구항 1에 있어서,
    상기 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템은,
    상기 물품을 소유한 상기 트랜스퍼 및 에미터에 대해 추출되는 라우팅 액션과 에미션 액션을 각각 검사하여 특정 라우팅 액션 또는 에미션 액션이 물품의 이동정지에 대한 액션이 아닌 경우, 상기 특정 라우팅 액션 또는 에미션 액션의 방향으로 인접한 트랜스퍼에 대한 라우팅 액션을 확인하여, 상기 특정 라우팅 액션 또는 에미션 액션과 상기 확인한 라우팅 액션이 동일하지 않으면, 상기 특정 라우팅 액션 또는 에미션 액션을 상기 소유한 물품에 대한 이동정지 액션으로 조정하는 전처리부;
    상기 전처리부를 통해 상기 조정한 결과에 따라, 물품을 소유하지 않은 트랜스퍼에 물품을 이동시키고자하는 라우팅 액션, 에미션 액션 또는 이들의 조합을 포함하는 액션을 검사하여, 상기 검사한 결과 복수의 액션이 존재하는 경우, 상기 물품을 소유하지 않은 트랜스퍼에서 물품의 충돌이 발생될 것으로 인식하여, 사전에 설정한 우선순위에 따라 어느 하나의 액션만을 선택하고, 나머지 액션을 이동정지 액션으로 조정하는 액션 선택부; 및
    상기 액션 선택부를 통해 상기 조정한 결과에 따라, 상기 전처리부와 동일한 기능을 수행하여 상기 조정을 수행하는 후처리부;를 더 포함하며,
    상기 조정을 수행하는 것과, 상기 어느 하나의 액션을 선택하는 것을 통해, 상기 물품간 충돌이 발생하지 않도록 상기 제어정보를 생성하는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템.
  6. 청구항 1에 있어서,
    상기 라우팅 액션에 대한 리워드는,
    상기 제어정보에 따라 라우팅 액션을 수행하는 상기 트랜스퍼가 상기 물품을 소유하고 있는지에 대한 여부, 상기 트랜스퍼가 상기 라우팅 액션에 따라 상기 리무버로 상기 물품을 이동시켰을 때 상기 물품의 타입정보에 따른 리무버로 정확하게 라우팅하였는지에 대한 여부, 상기 트랜스퍼가 사전에 설정한 제어횟수를 초과하여 상기 물품을 수신하였는지에 대한 여부 및 상기 물품간의 충돌을 야기하는 복수의 액션에 대한 개수를 토대로 계산되며,
    상기 에미션 액션 대한 리워드는, 상기 제어정보에 따라 복수의 리무버에서 분류되어 제거되는 물품의 개수와 상기 복수의 에미터에서 입고되는 물품의 개수를 토대로 계산되는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템.
  7. 복수의 채널을 통해서 물품을 입고하는 복수의 에미터, 복수의 채널을 통해서 물품을 출고하는 복수의 리무버, 및 상기 복수의 에미터를 통해서 입고되는 상기 물품을 상기 복수의 리무버로 라우팅하는 복수의 트랜스퍼를 포함하는 물품 분류기를 제어하기 위한 멀티에이전트 강화학습 기반 물품 분류기 제어 방법에 있어서,
    복수의 라우팅 에이전트에서, 상기 물품 분류기의 상태정보에 따라 상기 각 트랜스퍼의 물품 이동에 대한 라우팅 액션을 추출하여 라우팅 강화학습모델을 생성하는 단계;
    에미션 에이전트에서, 상기 물품 분류기의 상태정보와 상기 추출한 라우팅 액션에 따라 상기 각 에미터의 물품 입고에 대한 에미션 액션을 추출하여 에미션 강화학습모델을 생성하는 단계;를 포함하며,
    상기 추출한 복수의 라우팅 액션 및 에미션 액션을 토대로 상기 물품의 이동에 따른 물품간 충돌이 발생하지 않도록 제어정보를 생성하고, 상기 제어정보에 따라 변화된 상기 물품 분류기의 상태정보와 상기 변화된 물품 분류기의 상태정보에 따라 계산되는 상기 추출한 라우팅 액션 및 에미션 액션에 대한 리워드를 이용하여, 상기 생성한 라우팅 강화학습모델 및 상기 에미션 강화학습모델에 대한 강화학습을 수행하는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 방법.
  8. 청구항 7에 있어서,
    상기 물품 분류기의 상태정보는,
    상기 복수의 에미터와 상기 복수의 트랜스퍼가 각각 소유하는 물품의 타입정보와 상기 물품의 위치정보를 포함하는 상태이미지로 구성되며,
    상기 복수의 라우팅 에이전트는,
    상기 변화된 물품 분류기의 상태정보에 대한 상태이미지를 라우팅 에이전트용 제1 채널 이미지로 구성하고, 상기 구성한 제1 채널 이미지를 토대로 상기 복수의 트랜스퍼에 대한 위치정보를 나타내는 라우팅 에이전트용 제2 채널 이미지를 구성하여, 상기 구성한 라우팅 에이전트용 제1 채널 이미지, 라우팅 에이전트용 제2 채널 이미지 및 상기 추출한 라우팅 액션에 대해 계산된 리워드를 이용하여 상기 생성한 라우팅 강화학습모델에 대한 강화학습을 각각 수행하며,
    상기 라우팅 강화학습모델은, 상기 물품을 소유한 해당 트랜스퍼에서 상기 물품의 타입정보와 상기 물품의 위치정보에 따라 상기 물품을 인접한 트랜스퍼 또는 리무버로 이동시키기 위한 복수의 라우팅 액션 중 누적된 리워드가 제일 높은 라우팅 액션을 추출하도록 강화학습되며,
    상기 에미션 에이전트는,
    상기 변화된 물품 분류기의 상태정보에 대한 상태이미지를 에미션 에이전트용 제1 채널 이미지로 구성하고, 상기 복수의 라우팅 강화학습모델에서 추출되는 복수의 라우팅 액션을 에미션 에이전트용 제2 채널 이미지로 구성하고, 상기 구성한 에미션 에이전트용 제1 채널 이미지, 에미션 에이전트용 제2 채널 이미지 및 상기 추출한 에미션 액션에 대해 계산된 리워드를 이용하여 상기 생성한 에미션 강화학습모델에 대한 강화학습을 수행하며,
    상기 에미션 강화학습모델은, 상기 물품을 소유한 특정 에미터에서 인접한 트랜스퍼로 이동시키기 위한 복수의 에미션 액션 중 누적된 리워드가 제일 높은 에미션 액션을 출력하도록 강화학습되고,
    상기 강화학습은, 상기 복수의 물품을 물품 타입정보에 따라 복수의 리무버로 라우팅하여 분류하기 위해 사전에 설정한 복수의 에피소드에 따라 진행되고, 상기 에피소드별로 계산되는 물품 분류에 대한 성능지표가 더 이상 증가되지 않을 때까지 수행되는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 방법.
  9. 청구항 7에 있어서,
    상기 멀티에이전트 강화학습 기반 물품 분류기 제어 방법은,
    상기 물품을 소유한 상기 트랜스퍼 및 에미터에 대해 추출되는 라우팅 액션과 에미션 액션을 각각 검사하여 특정 라우팅 액션 또는 에미션 액션이 물품의 이동정지에 대한 액션이 아닌 경우, 상기 특정 라우팅 액션 또는 에미션 액션의 방향으로 인접한 트랜스퍼에 대한 라우팅 액션을 확인하여, 상기 특정 라우팅 액션 또는 에미션 액션과 상기 확인한 라우팅 액션이 동일하지 않으면, 상기 특정 라우팅 액션 또는 에미션 액션을 상기 소유한 물품에 대한 이동정지 액션으로 조정하는 전처리 단계;
    상기 전처리 단계를 통해 상기 조정한 결과에 따라, 물품을 소유하지 않은 트랜스퍼에 물품을 이동시키고자하는 라우팅 액션, 에미션 액션 또는 이들의 조합을 포함하는 액션을 검사하여, 상기 검사한 결과 복수의 액션이 존재하는 경우, 상기 물품을 소유하지 않은 트랜스퍼에서 물품의 충돌이 발생될 것으로 인식하여, 사전에 설정한 우선순위에 따라 어느 하나의 액션만을 선택하고, 나머지 액션을 이동정지 액션으로 조정하는 액션 선택 단계; 및
    상기 액션 선택 단계를 통해 상기 조정한 결과에 따라, 전처리부와 동일한 기능을 수행하여 상기 조정을 수행하는 후처리 단계;를 더 포함하며,
    상기 조정을 수행하는 것과, 상기 어느 하나의 액션을 선택하는 것을 통해, 상기 물품간 충돌이 발생하지 않도록 상기 제어정보를 생성하는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 방법.
  10. 청구항 7에 있어서,
    상기 라우팅 액션에 대한 리워드는,
    상기 제어정보에 따라 라우팅 액션을 수행하는 상기 트랜스퍼가 상기 물품을 소유하고 있는지에 대한 여부, 상기 트랜스퍼가 상기 라우팅 액션에 따라 상기 리무버로 상기 물품을 이동시켰을 때 상기 물품의 타입정보에 따른 리무버로 정확하게 라우팅하였는지에 대한 여부, 상기 트랜스퍼가 사전에 설정한 제어횟수를 초과하여 상기 물품을 수신하였는지에 대한 여부 및 상기 물품간의 충돌을 야기하는 복수의 액션에 대한 개수를 토대로 계산되며,
    상기 에미션 액션에 대한 리워드는, 상기 제어정보에 따라 복수의 리무버에서 분류되어 제거되는 물품의 개수와 상기 복수의 에미터에서 입고되는 물품의 개수를 토대로 계산되는 것을 특징으로 하는 멀티에이전트 강화학습 기반 물품 분류기 제어 방법.
KR1020190157922A 2019-12-02 2019-12-02 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법 KR102133737B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190157922A KR102133737B1 (ko) 2019-12-02 2019-12-02 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190157922A KR102133737B1 (ko) 2019-12-02 2019-12-02 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR102133737B1 true KR102133737B1 (ko) 2020-07-14

Family

ID=71526818

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190157922A KR102133737B1 (ko) 2019-12-02 2019-12-02 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102133737B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645728B2 (en) 2020-10-29 2023-05-09 MakinaRocks Co., Ltd. Method and apparatus for control energy management system based on reinforcement learning

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140037341A (ko) * 2012-09-17 2014-03-27 한국전자통신연구원 4방향 크로스벨트 및 4방향 크로스벨트를 이용한 자동화 분류 장치 그리고 분류 방법
KR20170077143A (ko) * 2014-10-29 2017-07-05 파이브스 인트라로지스틱스 에스.피.에이. 분류 기계에 물품을 공급하기 위한 장치 및 분류 기계

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140037341A (ko) * 2012-09-17 2014-03-27 한국전자통신연구원 4방향 크로스벨트 및 4방향 크로스벨트를 이용한 자동화 분류 장치 그리고 분류 방법
KR20170077143A (ko) * 2014-10-29 2017-07-05 파이브스 인트라로지스틱스 에스.피.에이. 분류 기계에 물품을 공급하기 위한 장치 및 분류 기계

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645728B2 (en) 2020-10-29 2023-05-09 MakinaRocks Co., Ltd. Method and apparatus for control energy management system based on reinforcement learning

Similar Documents

Publication Publication Date Title
CN113711234B (zh) 纱线质量控制
CN108564094B (zh) 一种基于卷积神经网络和分类器组合的材质识别方法
CN101198987B (zh) 对象检测装置及其学习装置
US20230029045A1 (en) Automatic image classification and processing method based on continuous processing structure of multiple artificial intelligence model, and computer program stored in computer-readable recording medium to execute the same
JP2013010155A (ja) 対象物把持装置、対象物把持装置の制御方法、およびプログラム
US20190385009A1 (en) Method for scaling fine-grained object recognition of consumer packaged goods
JP6924031B2 (ja) オブジェクト検出装置及びこれらのプログラム
CN110349167A (zh) 一种图像实例分割方法及装置
US20210233258A1 (en) Identifying scene correspondences with neural networks
US20210229292A1 (en) Confidence-Based Bounding Boxes For Three Dimensional Objects
JP6964316B1 (ja) 人工知能(ai)による推定システム、学習データ生成装置、学習装置、摘果対象物推定装置、学習システム、及び、プログラム
KR102133737B1 (ko) 멀티에이전트 강화학습 기반 물품 분류기 제어 시스템 및 그 방법
WO2022097353A1 (ja) データセット生成装置、方法、プログラム及びシステム
CN114238659B (zh) 智能设计网络安全架构图的方法
US20230289545A1 (en) Optical information reading device
CN104463878A (zh) 一种新的深度图像局部描述符方法
EP3767414A1 (en) Control system unit for use in a 3-dimensional object manufacturing system and a corresponding method of operating
US20210390419A1 (en) Device and Method for Training and Testing a Classifier
EP3629237A1 (en) Device and method to improve the robustness against 'adversarial examples'
KR101991186B1 (ko) 철근 검출 방법 및 그 장치
JP6994212B1 (ja) 人工知能(ai)の学習装置、摘果対象物推定装置、推定システム、及び、プログラム
KR102392721B1 (ko) 실물 이미지 기반 육류 제품 정보 제공 및 육류 제품 판매 방법
CN113674339A (zh) 基于强化学习的传送控制
JP7470062B2 (ja) 情報処理装置、および、学習認識システム
US20230047614A1 (en) Information processing apparatus, information processing method, and storage medium

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction