KR20220141646A - 강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv - Google Patents

강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv Download PDF

Info

Publication number
KR20220141646A
KR20220141646A KR1020210048013A KR20210048013A KR20220141646A KR 20220141646 A KR20220141646 A KR 20220141646A KR 1020210048013 A KR1020210048013 A KR 1020210048013A KR 20210048013 A KR20210048013 A KR 20210048013A KR 20220141646 A KR20220141646 A KR 20220141646A
Authority
KR
South Korea
Prior art keywords
agv
reinforcement learning
agent
route information
information
Prior art date
Application number
KR1020210048013A
Other languages
English (en)
Inventor
이송
강동엽
권우경
정윤수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020210048013A priority Critical patent/KR20220141646A/ko
Publication of KR20220141646A publication Critical patent/KR20220141646A/ko

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/0274Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

강화학습을 이용한 다중 에이전트 AGV(Auto Guided Vehicle) 스케줄링 방법이 제공된다. 상기 방법은 복수의 AGV로부터 현재 위치 정보를 실시간으로 수신하는 단계; 상기 AGV의 현재 위치 정보에 기초하여 지도 상에서 각 AGV 간의 간격이 소정의 범위 내에 포함되는지 여부를 판단하는 단계; 상기 소정의 범위 내에 포함되는 각 AGV로부터 계획된 경로 정보를 수신하는 단계; 상기 수신한 경로 정보에 기초하여 각 AGV의 충돌 가능성 여부를 판단하는 단계; 상기 판단 결과 충돌 가능성이 존재하는 경우, 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하는 단계; 및 상기 우회 경로 정보를 상응하는 각 AGV로 전달하는 단계를 포함한다.

Description

강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법, 서버 및 AGV{MULTI-AGENT AGV SCHEDULING METHOD AND SERVER USING REINFORCEMENT LEARNING AND AGV THEREOF}
본 발명은 강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법, 서버 및 AGV에 관한 것으로, 강화학습을 이용하여 중앙집중식 스케줄링과 AGV의 자율주행 기법을 결합하여, 중앙집중식 스케줄링시 발생하는 연산량을 최소화화면서 효과적인 경로를 생성하는 기술에 관한 것이다.
아마존과 같은 물류 기업에서는 자율주행 AGV(Automated Guided Vehicle)를 개발하여, 사람이 개입하지 않고 물류창고에서 이용하거나 공장 자동화에 사용하고 있다.
다중 에이전트 AGV의 스케줄링은 중앙 집중식으로 하거나 AGV가 자율적으로 경로를 찾아가는 방법을 사용하고 있다.
하지만, 중앙 집중식의 경우 경로를 모두 예측하여 충돌을 사전에 피해 나갈 수 있지만, 지도가 커지거나 AGV 대수가 늘어남에 따라 연산량이 기하급수적으로 증가하게 되는 문제가 있다.
또한, 자율주행 방식의 경우에는 일단 최단 경로를 찾아 나가면서 근거리에 다른 AGV가 계획된 경로에 있을 경우 새로운 경로를 계산하여 이동하게 되며, 이 경우 사용자 측면에서 보면 부자연스러운 경로가 발생하게 되는 문제가 있다.
공개특허공보 제10-2019-0123957호(2019.11.04.)
본 발명이 해결하고자 하는 과제는 다중 자율주행 방식과 중앙집중식 스케줄링 방식을 지원하는 다중 에이전트 AGV의 충돌 가능성 여부를 판단하고, 충돌 가능성이 있는 경우 상응하는 AGV에 대한 우회 경로를 생성하여 적은 연산량으로 충돌 회피를 가능하게 하는, 강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법, 서버 및 AGV 을 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 강화학습을 이용한 다중 에이전트 AGV(Auto Guided Vehicle) 스케줄링 방법은 복수의 AGV로부터 현재 위치 정보를 실시간으로 수신하는 단계; 상기 AGV의 현재 위치 정보에 기초하여 지도 상에서 각 AGV 간의 간격이 소정의 범위 내에 포함되는지 여부를 판단하는 단계; 상기 소정의 범위 내에 포함되는 각 AGV로부터 계획된 경로 정보를 수신하는 단계; 상기 수신한 경로 정보에 기초하여 각 AGV의 충돌 가능성 여부를 판단하는 단계; 상기 판단 결과 충돌 가능성이 존재하는 경우, 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하는 단계; 및 상기 우회 경로 정보를 상응하는 각 AGV로 전달하는 단계를 포함한다.
본 발명의 일부 실시예에서, 상기 AGV는 스스로 경로 정보를 계획하여 상기 지도 상에서 자율주행하되, 상기 우회 경로 정보를 수신하는 경우 우회 경로 정보를 우선하여 상기 지도 상에서 이동할 수 있다.
본 발명의 일부 실시예에서, 상기 지도는 2차원 또는 3차원 기반의 격자 셀로 구성되고, 상기 소정의 범위는 N×M(N과 M은 자연수) 범위의 격자 셀로 구성될 수 있다.
본 발명의 일부 실시예에서, 상기 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하는 단계는, 상기 상응하는 각 AGV에 대한 상기 소정의 범위 내의 격자 셀 내에서의 상기 수정된 우회 경로 정보를 생성할 수 있다.
본 발명의 일부 실시예는, 상기 지도 상에서 상기 강화학습 알고리즘 학습을 위한 다양한 격자 셀 범위를 설정하는 단계; 상기 설정된 격자 셀 범위 내에 복수의 AGV가 존재하는 상황 정보를 설정하는 단계; 및 상기 설정된 격자 셀 범위 및 상황 정보에 기초하여 상기 강화학습 알고리즘을 학습하는 단계를 더 포함할 수 있다.
또한, 본 발명의 제2 측면에 따른 강화학습을 이용한 다중 에이전트 AGV(Auto Guided Vehicle) 스케줄링 서버는 복수의 AGV로부터 현재 위치 정보를 실시간으로 수신하고, 필요에 따라 우회 경로 정보를 전달하는 통신모듈, 상기 복수의 AGV의 경로 스케줄링을 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 AGV의 현재 위치 정보에 기초하여 지도 상에서 각 AGV 간의 간격이 소정의 범위 내에 포함되어 있는지 여부를 판단하여, 소정의 범위 내에 포함되는 각 AGV로부터 계획된 경로 정로를 수신하고, 상기 수신한 경로 정보에 기초하여 각 AGV의 충돌 가능성 여부를 판단한 후, 충돌 가능성이 있는 AGV를 대상으로 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하며, 생성된 우회 경로 정보를 각 상응하는 AGV로 전달한다.
본 발명의 일부 실시예에서, 상기 AGV는 스스로 경로 정보를 계획하여 상기 지도 상에서 자율주행하되, 상기 우회 경로 정보를 수신하는 경우 우회 경로 정보를 우선하여 상기 지도 상에서 이동할 수 있다.
본 발명의 일부 실시예에서, 상기 지도는 2차원 또는 3차원 기반의 격자 셀로 구성되고, 상기 소정의 범위는 N×M(N과 M은 자연수) 범위의 격자 셀로 구성될 수 있다.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 상응하는 각 AGV에 대한 상기 소정의 범위 내의 격자 셀 내에서의 상기 수정된 우회 경로 정보를 생성할 수 있다.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 지도 상에서 강화학습 알고리즘 학습을 위한 다양한 격자 셀 범위를 설정하고, 상기 설정된 격자 셀 범위 내에 복수의 AGV가 존재하는 상황 정보를 설정한 후, 상기 설정된 격자 셀 범위 및 상황 정보에 기초하여 상기 강화학습 알고리즘을 학습할 수 있다.
또한, 본 발명의 제3 측면에 따른 중앙집중식 스케줄링과 자율 주행 기법에 기초하여 이동하는 AGV는 다중 에이전트 AGV 스케줄링 서버로 현재 위치 정보를 전송하고, 필요에 따라 우회 경로 정보를 수신하는 통신모듈, 소정의 경로 정보에 기초하여 지도 상에서 주행하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 자율 주행 모드에 기초하여 계획된 경로 정보로 주행하면서 현재 위치 정보를 상기 다중 에이전트 AGV 스케줄링 서버로 전송하고, 타 AGV와의 충돌 가능성 여부에 기초하여 생성된 우회 경로 정보를 상기 다중 에이전트 AGV 스케줄링 서버로부터 수신함에 따라, 상기 우회 경로 정보를 우선하여 상기 지도 상에서 이동하도록 제어하고, 상기 다중 에이전트 AGV 스케줄링 서버는 미리 학습된 강화학습 알고리즘에 기초하여 상기 수정된 우회 경로 정보를 생성한다.
본 발명의 일부 실시예에서, 상기 지도는 2차원 또는 3차원 기반의 격자 셀로 구성되고, 상기 소정의 범위는 N×M(N과 M은 자연수) 범위의 격자 셀로 구성될 수 있다.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 소정의 격자 범위 내의 격자 셀에서의 수정된 우회 경로 정보를 수신하여 지도 상에서 이동하도록 제어할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 상기 강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
전술한 본 발명의 일 실시예에 의하면, 서버의 계산량을 줄일 수 있어 동일한 성능의 서버를 이용하여 관리할 수 있는 영역을 확대할 수 있으며, 더욱 많은 AGV를 수용할 수 있는바, 시스템의 가격대 성능비를 향상시킬 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 다중 에이전트 AGV 스케줄링 방법의 순서도이다.
도 2는 다중 에이전트 AGV의 경로 정보를 도시한 도면이다.
도 3은 다중 에이전트 AGV의 경로 상에서의 충돌 발생 상황을 설명하기 위한 도면이다.
도 4는 다중 에이전트 AGV를 위한 우회 경로 정보를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 다중 에이전트 AGV 스케줄링 서버의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 AGV의 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 발명은 강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법, 서버(100) 및 AGV(200)에 관한 것이다.
다중 에이전트 AGV는 물류, 우편물, 공장 자동화 등의 분야에 적용되어 지속적인 성장을 거듭하고 있다. 다중 에이전트 AGV의 스케줄링 방식에는 중앙집중 방식과 AGV 자율주행 방식이 있으며, 중앙 집중식의 경우 서버의 계산능력에 의존하는 문제가 있으며, AGV 자율주행 방식은 계산량이 각 AGV에 분산되는 대신 경로상의 충돌을 사전에 예측하기 어려우며, 충돌 회피를 위해 생성된 우회 경로가 목적지까지 효율적으로 이동하기 위한 경로로 생성되지 않는다는 단점이 있다.
본 발명은 강화학습 구조의 알고리즘을 기반으로 중앙에서 경로를 관제하는 서버의 연산량을 줄이면서, 더 큰 지도와 더 많은 AGV를 수용하는 것을 목적으로 한다. 또한, 큰 범위에서 AGV는 자율주행을 하지만, 작은 공간에 여러 개의 AGV가 존재할 경우, 서버에서 충돌 발생이 가능한 경우에만 개입하여 경로를 생성하여 주는 방법이다.
이하, 도 1 내지 도 4를 참조하여 본 발명의 일 실시예에 따른 강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법(이하, 다중 에이전트 AGV 스케줄링 방법)에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 다중 에이전트 AGV 스케줄링 방법의 순서도이다. 한편, 도 1에 도시된 각 단계들은 다중 에이전트 AGV 스케줄링 서버(100)에 의해 수행되는 것으로 이해될 수 있으나, 반드시 이에 한정되는 것은 아니다.
먼저, 서버(100)는 복수의 AGV로부터 현재 위치 정보를 실시간으로 수신한다(S110).
도 2는 다중 에이전트 AGV의 경로 정보를 도시한 도면이다.
복수의 각 AGV는 비교적 넓은 공간의 지도 상에서 스스로 경로 계획을 하며 계획된 경로를 주행하는 자율주행 모드로 운행하며, 각 AGV는 현재 위치 정보를 서버(100)에 전송한다. 각 AGV는 각각에 대하여 설정된 목표 지점으로 이동하는 것을 목적(D)으로 하며, 각 목표 지점까지는 최단 거리로 자율 주행한다.
다음으로, 서버(100)는 AGV의 현재 위치 정보에 기초하여 지도 상에서 각 AGV 간의 간격이 소정의 범위 내에 포함되는지 여부를 판단한다(S120).
즉, 서버(100)는 각 AGV가 자율주행 모드로 운행함에 따라 각 AGV 간의 거리가 줄어들어 일정 거리 내에 들어오는지 여부를 판단한다.
도 3은 다중 에이전트 AGV의 경로 상에서의 충돌 발생 상황을 설명하기 위한 도면이다.
다음으로, 서버(100)는 소정의 범위 내에 포함되는 각 AGV로부터 계획된 경로 정보를 수신하고(S130), 수신한 경로 정보에 기초하여 각 AGV의 충돌 가능성 여부를 판단한다(S140).
일 실시예로, 서버(100)는 각 AGV의 현재 위치 정보는 실시간으로 또는 미리 설정된 주기에 따라 수집하나, 각 AGV의 계획된 경로 정보는 소정의 범위 내에 포함되는 AGV를 대상으로만 수신한다. 즉, 모든 AGV로부터 계획된 경로 정보를 수신해도 무방하나, 본 발명의 일 실시예는 서버(100)의 연산량을 최소화하면서 AGV의 충돌을 방지하기 위함이므로, 소정의 범위 내에 위치하는 AGV만을 대상으로 하여 계획된 경로 정보를 수신할 수 있다.
도 4는 다중 에이전트 AGV를 위한 우회 경로 정보를 설명하기 위한 도면이다.
다음으로, 서버(100)는 소정의 범위 내에서의 각 AGV 간의 충돌 가능성이 존재하는 것으로 판단한 경우, 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하고(S150), 우회 경로 정보를 상응하는 각 AGV로 전달한다(S160).
일 실시예로, 본 발명에서의 지도는 2차원 또는 3차원 기반의 격자 셀로 구성되며, 충돌 여부 판단을 위한 소정의 범위는 N×M(N과 M은 자연수) 범위의 격자 셀로 구성될 수 있다.
또한, 본 발명의 일 실시예에서 지도는 격자 셀이 복수 개의 세부 파인 셀(fine cell)로 구성될 수 있으며, 이 경우 서버(100)는 파인 셀을 기반으로 하여 우회 경로를 생성할 수 있다. 일 실시예로, 서버(100)는 소정의 범위 내에 임계치 이상의 수의 AGV가 존재하는 경우에 파인 셀을 기반으로 우회 경로를 생성할 수 있다. 임계치 이상의 AGV가 존재할 경우 이들을 넓은 범위(격자 셀 범위)에서의 우회 경로를 생성하게 되면 또 다른 지점에서 다시 다른 AGV와의 충돌 가능성이 존재하게 될 수 있다. 이 경우 본 발명은 파인 셀을 이용하여 보다 정밀한 우회 경로를 생성함으로써, 각 AGV에 대한 우회 경로가 목표 지점으로 가능한 최단 경로를 유지하면서 동시에 충돌 회피가 가능하게끔 할 수 있다.
또한, 본 발명의 일 실시예서 서버(100)는 소정의 범위를 가변적으로 설정할 수 있다. 즉, 서버(100)는 복수의 AGV로부터의 현재 위치 정보를 수신하고, 현재 위치 정보를 수신한 시각 정보, 속도 및 가속도 정보에 기초하여 소정의 범위에 상응하는 격자 셀 범위를 가변적(예를 들어, 3×3, 4×4 등)으로 운용할 수 있다. 서버(100)는 현재 위치 정보, 시각 정보, 속도 및 가속도 정보에 기초하여 최적의 격자 셀 범위를 산출하여 이용함으로써, 충돌 가능성에 따라 좁은 범위 또는 넓은 범위에서의 최적의 우회 경로를 생성할 수 있다.
일 실시예로, 강화학습 알고리즘은 Q-Learning 또는 Deep Q Network 등을 사용할 수 있다.
서버(100)는 강화학습 알고리즘을 사전에 학습하는 과정이 필요하며, 이를 위해 서버(100)는 지도 상에서 강화학습 알고리즘 학습을 위한 다양한 격자 셀 범위를 설정한다. 일 예로 서버(100)는 3×3, 4×4, 5×5 등 강화학습을 위한 공간을 지정하고, 설정된 격자 셀 범위 내에 복수의 AGV가 존재하는 상황 정보를 설정한다.
그 다음, 서버(100)는 설정된 격자 셀 범위 및 상황 정보에 기초하여 강화학습 알고리즘을 학습하고, 실제 사용시에는 학습된 파라미터를 이용하여 각 AGV 간의 경로 충돌 문제를 해결할 수 있다.
이와 같은 우회 경로 정보를 수신한 AGV는 자신이 계획한 경로 정보보다 우회 경로 정보를 우선하여 지도 상에서 이동하게 된다. 또한, 다중 에이전트 AGV의 경우 경로만 고려하거나, 경로와 AGV의 회전 등에 근거하여 명확한 리워드를 줄 수 있으므로, 강화학습을 적용하기에 아주 적합하다.
한편, 상술한 설명에서, 단계 S110 내지 S160은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 4의 내용은 도 5 및 도 6의 다중 에이전트 AGV 스케줄링 서버(100), AGV에도 적용된다.
이하에서는 도 5 및 도 6을 참조하여 본 발명의 일 실시예에 따른 다중 에이전트 AGV 스케줄링 서버(100)와 AGV(200)에 대해 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 다중 에이전트 AGV 스케줄링 서버(100)의 블록도이다.
본 발명의 일 실시예에 따른 다중 에이전트 AGV 스케줄링 서버(100)는 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.
통신모듈(110)은 복수의 AGV로부터 현재 위치 정보를 실시간으로 수신하고, 필요에 따라 우회 경로 정보를 전달한다.
메모리(120)에는 복수의 AGV의 경로 스케줄링을 위한 프로그램이 저장되며, 프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킨다.
프로세서(130)는 AGV의 현재 위치 정보에 기초하여 지도 상에서 각 AGV 간의 간격이 소정의 범위 내에 포함되어 있는지 여부를 판단한다. 판단 결과, 소정의 범위 내에 포함되는 각 AGV로부터 계획된 경로 정로를 수신하고, 수신한 경로 정보에 기초하여 각 AGV의 충돌 가능성 여부를 판단한다. 판단 결과, 충돌 가능성이 있는 AGV를 대상으로 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하며, 생성된 우회 경로 정보를 각 상응하는 AGV로 전달한다.
도 6은 본 발명의 일 실시예에 따른 AGV(200)의 블록도이다.
본 발명의 일 실시예에 따른 AGV(200)는 통신모듈(210), 메모리(220) 및 프로세서(230)를 포함한다.
통신모듈(210)은 다중 에이전트 AGV 스케줄링 서버(100)로 현재 위치 정보를 전송하고, 필요에 따라 우회 경로 정보를 수신한다.
메모리(220)에는 경로 정보에 기초하여 지도 상에서 주행하기 위한 프로그램이 저장되며, 프로세서(230)는 메모리(220)에 저장된 프로그램을 실행시킨다. 여기에서 경로 정보는 프로세서(230)에 의해 생성된 자율주행 기법에 기반한 경로정보와, 서버(100)에 의해 제공되는 우회 경로 정보를 포함한다.
프로세서(230)는 자율 주행 모드에 기초하여 계획된 경로 정보로 주행하면서 현재 위치 정보를 다중 에이전트 AGV 스케줄링 서버로 전송하고, 타 AGV와의 충돌 가능성 여부에 기초하여 생성된 우회 경로 정보를 다중 에이전트 AGV 스케줄링 서버(100)로부터 수신함에 따라, 우회 경로 정보를 우선하여 지도 상에서 이동하도록 제어한다.
이상에서 전술한 본 발명의 일 실시예는, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 이미지를 저장하는 매체가 아니라 반영구적으로 이미지를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 이미지 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 다중 에이전트 AGV 스케줄링 서버
200: AGV
110, 210: 통신모듈
120, 220: 메모리
130, 230: 프로세서

Claims (13)

  1. 강화학습을 이용한 다중 에이전트 AGV(Auto Guided Vehicle) 스케줄링 방법에 있어서,
    복수의 AGV로부터 현재 위치 정보를 실시간으로 수신하는 단계;
    상기 AGV의 현재 위치 정보에 기초하여 지도 상에서 각 AGV 간의 간격이 소정의 범위 내에 포함되는지 여부를 판단하는 단계;
    상기 소정의 범위 내에 포함되는 각 AGV로부터 계획된 경로 정보를 수신하는 단계;
    상기 수신한 경로 정보에 기초하여 각 AGV의 충돌 가능성 여부를 판단하는 단계;
    상기 판단 결과 충돌 가능성이 존재하는 경우, 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하는 단계; 및
    상기 우회 경로 정보를 상응하는 각 AGV로 전달하는 단계를 포함하는,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법.
  2. 제1항에 있어서,
    상기 AGV는 스스로 경로 정보를 계획하여 상기 지도 상에서 자율주행하되, 상기 우회 경로 정보를 수신하는 경우 우회 경로 정보를 우선하여 상기 지도 상에서 이동하는 것인,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법.
  3. 제1항에 있어서,
    상기 지도는 2차원 또는 3차원 기반의 격자 셀로 구성되고,
    상기 소정의 범위는 N×M(N과 M은 자연수) 범위의 격자 셀로 구성되는 것인,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법.
  4. 제3항에 있어서,
    상기 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하는 단계는,
    상기 상응하는 각 AGV에 대한 상기 소정의 범위 내의 격자 셀 내에서의 상기 수정된 우회 경로 정보를 생성하는 것인,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법.
  5. 제1항에 있어서,
    상기 지도 상에서 상기 강화학습 알고리즘 학습을 위한 다양한 격자 셀 범위를 설정하는 단계;
    상기 설정된 격자 셀 범위 내에 복수의 AGV가 존재하는 상황 정보를 설정하는 단계; 및
    상기 설정된 격자 셀 범위 및 상황 정보에 기초하여 상기 강화학습 알고리즘을 학습하는 단계를 더 포함하는,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 방법.
  6. 강화학습을 이용한 다중 에이전트 AGV(Auto Guided Vehicle) 스케줄링 서버에 있어서,
    복수의 AGV로부터 현재 위치 정보를 실시간으로 수신하고, 필요에 따라 우회 경로 정보를 전달하는 통신모듈,
    상기 복수의 AGV의 경로 스케줄링을 위한 프로그램이 저장된 메모리 및
    상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 AGV의 현재 위치 정보에 기초하여 지도 상에서 각 AGV 간의 간격이 소정의 범위 내에 포함되어 있는지 여부를 판단하여, 소정의 범위 내에 포함되는 각 AGV로부터 계획된 경로 정로를 수신하고, 상기 수신한 경로 정보에 기초하여 각 AGV의 충돌 가능성 여부를 판단한 후, 충돌 가능성이 있는 AGV를 대상으로 미리 학습된 강화학습 알고리즘에 기초하여 수정된 우회 경로 정보를 생성하며, 생성된 우회 경로 정보를 각 상응하는 AGV로 전달하는 것인,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 서버.
  7. 제6항에 있어서,
    상기 AGV는 스스로 경로 정보를 계획하여 상기 지도 상에서 자율주행하되, 상기 우회 경로 정보를 수신하는 경우 우회 경로 정보를 우선하여 상기 지도 상에서 이동하는 것인,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 서버.
  8. 제6항에 있어서,
    상기 지도는 2차원 또는 3차원 기반의 격자 셀로 구성되고,
    상기 소정의 범위는 N×M(N과 M은 자연수) 범위의 격자 셀로 구성되는 것인,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 서버.
  9. 제8항에 있어서,
    상기 프로세서는 상기 상응하는 각 AGV에 대한 상기 소정의 범위 내의 격자 셀 내에서의 상기 수정된 우회 경로 정보를 생성하는 것인,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 서버.
  10. 제6항에 있어서,
    상기 프로세서는 상기 지도 상에서 강화학습 알고리즘 학습을 위한 다양한 격자 셀 범위를 설정하고, 상기 설정된 격자 셀 범위 내에 복수의 AGV가 존재하는 상황 정보를 설정한 후, 상기 설정된 격자 셀 범위 및 상황 정보에 기초하여 상기 강화학습 알고리즘을 학습하는 것인,
    강화학습을 이용한 다중 에이전트 AGV 스케줄링 서버.
  11. 중앙집중식 스케줄링과 자율 주행 기법에 기초하여 이동하는 AGV에 있어서,
    다중 에이전트 AGV 스케줄링 서버로 현재 위치 정보를 전송하고, 필요에 따라 우회 경로 정보를 수신하는 통신모듈,
    소정의 경로 정보에 기초하여 지도 상에서 주행하기 위한 프로그램이 저장된 메모리 및
    상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 자율 주행 모드에 기초하여 계획된 경로 정보로 주행하면서 현재 위치 정보를 상기 다중 에이전트 AGV 스케줄링 서버로 전송하고, 타 AGV와의 충돌 가능성 여부에 기초하여 생성된 우회 경로 정보를 상기 다중 에이전트 AGV 스케줄링 서버로부터 수신함에 따라, 상기 우회 경로 정보를 우선하여 상기 지도 상에서 이동하도록 제어하고,
    상기 다중 에이전트 AGV 스케줄링 서버는 미리 학습된 강화학습 알고리즘에 기초하여 상기 수정된 우회 경로 정보를 생성하는 것인,
    중앙집중식 스케줄링과 자율 주행 기법에 기초하여 이동하는 AGV.
  12. 제11항에 있어서,
    상기 지도는 2차원 또는 3차원 기반의 격자 셀로 구성되고,
    상기 소정의 범위는 N×M(N과 M은 자연수) 범위의 격자 셀로 구성되는 것인,
    중앙집중식 스케줄링과 자율 주행 기법에 기초하여 이동하는 AGV.
  13. 제11항에 있어서,
    상기 프로세서는 상기 소정의 격자 범위 내의 격자 셀에서의 수정된 우회 경로 정보를 수신하여 지도 상에서 이동하도록 제어하는 것인,
    중앙집중식 스케줄링과 자율 주행 기법에 기초하여 이동하는 AGV.
KR1020210048013A 2021-04-13 2021-04-13 강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv KR20220141646A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210048013A KR20220141646A (ko) 2021-04-13 2021-04-13 강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210048013A KR20220141646A (ko) 2021-04-13 2021-04-13 강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv

Publications (1)

Publication Number Publication Date
KR20220141646A true KR20220141646A (ko) 2022-10-20

Family

ID=83804726

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210048013A KR20220141646A (ko) 2021-04-13 2021-04-13 강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv

Country Status (1)

Country Link
KR (1) KR20220141646A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307241A (zh) * 2023-04-04 2023-06-23 暨南大学 基于带约束多智能体强化学习的分布式作业车间调度方法
CN117572876A (zh) * 2024-01-15 2024-02-20 湖南大学 一种基于依赖关系的多智能体避碰控制方法
WO2024096607A1 (ko) * 2022-11-02 2024-05-10 네이버랩스 주식회사 하이브리드 주행 알고리즘 기반 주행 정책 결정 방법 및 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190123957A (ko) 2018-04-25 2019-11-04 전남대학교산학협력단 다중 물류이송 케이블 로봇 시스템 및 이를 이용한 물류 관리 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190123957A (ko) 2018-04-25 2019-11-04 전남대학교산학협력단 다중 물류이송 케이블 로봇 시스템 및 이를 이용한 물류 관리 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024096607A1 (ko) * 2022-11-02 2024-05-10 네이버랩스 주식회사 하이브리드 주행 알고리즘 기반 주행 정책 결정 방법 및 시스템
CN116307241A (zh) * 2023-04-04 2023-06-23 暨南大学 基于带约束多智能体强化学习的分布式作业车间调度方法
CN116307241B (zh) * 2023-04-04 2024-01-05 暨南大学 基于带约束多智能体强化学习的分布式作业车间调度方法
CN117572876A (zh) * 2024-01-15 2024-02-20 湖南大学 一种基于依赖关系的多智能体避碰控制方法
CN117572876B (zh) * 2024-01-15 2024-04-12 湖南大学 一种基于依赖关系的多智能体避碰控制方法

Similar Documents

Publication Publication Date Title
US11900797B2 (en) Autonomous vehicle planning
KR20220141646A (ko) 강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv
Faust et al. Prm-rl: Long-range robotic navigation tasks by combining reinforcement learning and sampling-based planning
CN108698595B (zh) 用于控制车辆运动的方法和车辆的控制系统
Kuwata et al. Distributed robust receding horizon control for multivehicle guidance
Blackmore et al. A probabilistic approach to optimal robust path planning with obstacles
Wang et al. Trust-based multi-robot symbolic motion planning with a human-in-the-loop
Owen et al. Motion planning in dynamic environments using the velocity space
Godoy et al. Adaptive learning for multi-agent navigation
Dixon et al. Incorporating prior knowledge and previously learned information into reinforcement learning agents
EP3961598A1 (en) Method and system for enabling cooperative coordination between autonomously acting entities
Liu A progressive motion-planning algorithm and traffic flow analysis for high-density 2D traffic
Sundarraj et al. Route Planning for an Autonomous Robotic Vehicle Employing a Weight-Controlled Particle Swarm-Optimized Dijkstra Algorithm
Şenbaşlar et al. Dream: Decentralized real-time asynchronous probabilistic trajectory planning for collision-free multi-robot navigation in cluttered environments
Howlett et al. Learning real-time A* path planner for unmanned air vehicle target sensing
Xin et al. Distributed model predictive contouring control for real-time multi-robot motion planning
Spies et al. Bounded suboptimal search with learned heuristics for multi-agent systems
WO2022229404A1 (en) Motion planning
Schack et al. Optimization-based robot team exploration considering attrition and communication constraints
Patel et al. Scalable monte carlo tree search for cav s action planning in colliding scenarios
Neuman et al. Anytime policy planning in large dynamic environments with interactive uncertainty
Gerdts et al. Optimization-based motion planning in virtual driving scenarios with application to communicating autonomous vehicles
Xu et al. UAV Local Path Planning Based on Improved Proximal Policy Optimization Algorithm
Lahijanian et al. Resource-performance trade-off analysis for mobile robot design
US11797004B2 (en) Causing a robot to execute a mission using a task graph and a task library