KR102251316B1

KR102251316B1 - 강화 학습 및 시뮬레이션 기반의 공장 내 디스패칭 방법 및 그 장치

Info

Publication number: KR102251316B1
Application number: KR1020190071369A
Authority: KR
Inventors: 이원준; 김병희; 정구환
Original assignee: (주)브이엠에스 솔루션스
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2021-05-12
Also published as: US20200393820A1; CN112101695B; CN112101695A; KR20200143821A; US11409268B2

Abstract

강화 학습 기반의 공장 내 디스패칭 방법이 제공된다. 상기 강화 학습 기반의 공장 내 디스패칭 방법은, 공장 내에서 디스패처(dispatcher)의 디스패칭 행동(action)과 그에 따른 보상(reward) 및 상기 공장의 상태(state)에 대해서 마르코프 결정 프로세스(MDP; Markov Decision Process)를 구축하는 단계; 상기 구축된 마르코프 결정 프로세스(MDP)에 강화 학습(RL; Reinforcement Learning)을 적용하여 학습을 수행하는 단계; 및 상기 강화 학습(RL)의 결과로서, 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업(job)을 선택하는 단계를 포함할 수 있다.

Description

강화 학습 및 시뮬레이션 기반의 공장 내 디스패칭 방법 및 그 장치{REINFORCEMENT LEARNING AND SIMULATION BASED DISPATCHING METHOD WITHIN A FACTORY, AND AN APPARATUS THEREOF}

본 발명은 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치에 관한 발명으로서, 보다 구체적으로는 공장 내 다양한 장비들이 구비되는 환경에서 디스패처가 수행하는 행동에 대한 보상과 상태를 강화 학습함으로써 공장 전체의 운영 성능 및 효율을 상당히 개선할 수 있도록 하는 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치에 관한 발명이다.

공장, 예를 들어 반도체 제조 공장은 가장 정교한 인공 시스템 중 하나이고, 일반적으로 자동화된 자원 처리 시스템과 연결되는 수 백대 또는 수 천대의 고가 장비들로 구성되어 있다. 이러한 수 많은 장비들로 구성되는 공장에서 최적의 작업 일정을 구축하게 되면 공장 생산성을 상당히 개선할 수 있다.

하지만, 기존에 공장 내 배치되는 많은 장비들에 대한 작업 일정을 마련하기 위해서, 전문가 등 사람에 의해 조정되는 파라미터들에 기초한 발견적 해결 방식에 의존하였으나, 해당 방식은 공장 내 작업 일정을 세우기 위해서 매번 사람이 개입되어야 하고, 그로 인해 공장 운영 효율이 제한될 수 있다는 단점이 있다.

특히, 각 작업장에서 진행되는 가용한 작업들을 선택하고 순서를 정하는 디스패칭(dispatching) 전략을 수립함에 있어 상기한 바와 같은 사람에 의한 발견적 해결 방식은 한계점이 있음이 분명하고, 이를 보완할 수 있는 대체 방식의 개발 및 보급이 시급한 상황이다.

그러므로, 수 많은 다양한 장비들이 배치되는 공장 내 환경에서 디스패칭을 보다 효율적으로 구현함으로써 공장 내에서 추구하고자 하는 다중 목적을 동시에 달성할 수 있도록 하는 새로운 방식의 공장 내 디스패칭 방법 및 그 장치에 관한 수요가 당업계에서 증가하고 있다.

본 발명은 상기의 문제점들을 해결하기 위해서 안출된 것으로서, 본 발명은 공장 내 환경에서의 행동, 보상, 상태에 대해 강화 학습을 수행함으로써 복수의 디스패칭 점수들의 가중화 합을 최대로 하는 작업을 선택하고, 그에 따라 공장 운영 효율을 최대화할 수 있는 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 공장 내 환경에서 발생하는 디스패처의 행동이 갖는 특성을 고려하여 마르코프 결정 프로세스를 변경 적용함으로써, 실제 공장 환경에 보다 적응적으로 적용 가능한 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 공장 내 환경에서 추구하고자 하는 다양한 목적들을 동시에 만족시킬 수 있는 디스패칭 행동을 강화 학습을 통해 학습하여 선택하고, 그에 따라 공장 운영 효율을 최대화할 수 있는 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치를 제공하는 것을 목적으로 한다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기한 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법은, 공장 내에서 디스패처(dispatcher)의 디스패칭 행동(action)과 그에 따른 보상(reward) 및 상기 공장의 상태(state)에 대해서 마르코프 결정 프로세스(MDP; Markov Decision Process)를 구축하는 단계; 상기 구축된 마르코프 결정 프로세스(MDP)에 강화 학습(RL; Reinforcement Learning)을 적용하여 학습을 수행하는 단계; 및 상기 강화 학습(RL)의 결과로서, 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업(job)을 선택하는 단계를 포함할 수 있다.

또한, 상기 마르코프 결정 프로세스(MDP)는 연속적인 시간 구간에서 비-일정한 간격으로 발생하는 결정을 기초로 하는 세미-마르코프 결정 프로세스(semi-MDP)로서 구축될 수 있다.

또한, 상기 보상은, 상기 공장 내에서 복수의 목적들을 동시에 충족시키는 방향으로 설정될 수 있다.

또한, 상기 강화 학습(RL)은 가치 함수(value function)의 근사화(approximation)를 통한 가치 함수의 추정에 기초할 수 있다.

또한, 상기 가치 함수의 근사화의 결과로서, 상기 가치 함수는 파라미터 벡터와 디스패칭 점수 벡터의 곱으로서 표현될 수 있다.

또한, 상기 디스패칭 점수 벡터는, 해당 머신에서 가장 마지막으로 선택된 작업에 대한 디스패칭 점수들의 벡터에 해당할 수 있다.

또한, 상기 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업을 선택하는 단계는, 상기 근사화된 가치 함수의 값을 최대로 하는 작업을 선택하는 단계를 포함할 수 있다.

상기의 기술적 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 행동을 수행하도록 구성되는 디스패처는, 공장 내에서 상기 디스패처의 디스패칭 행동과 그에 따른 보상 및 상기 공장의 상태에 대해서 마르코프 결정 프로세스(MDP)를 구축하도록 구성되는 MDP 구축 유닛; 상기 구축된 마르코프 결정 프로세스(MDP)에 강화 학습(RL)을 적용하여 학습을 수행하도록 구성되는 강화 학습 유닛; 상기 강화 학습(RL)의 결과로서, 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업을 선택하도록 구성되는 작업 선택 유닛을 포함할 수 있다.

또한, 상기 MDP 구축 유닛은, 연속적인 시간 구간에서 비-일정한 간격으로 발생하는 결정을 기초로 하는 세미-마르코프 결정 프로세스(semi-MDP)로서 상기 마르코프 결정 프로세스(MDP)를 구축하도록 추가로 구성될 수 있다.

본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치에 의하면, 공장 내 환경에서의 행동, 보상, 상태에 대해 강화 학습을 수행함으로써 복수의 디스패칭 점수들의 가중화 합을 최대로 하는 작업을 선택하고, 그에 따라 공장 운영 효율을 최대화할 수 있다.

또한, 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치에 의하면, 공장 내 환경에서 발생하는 디스패처의 행동이 갖는 특성을 고려하여 마르코프 결정 프로세스를 변경 적용함으로써, 실제 공장 환경에 보다 적응적으로 적용 가능할 수 있다.

또한, 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치에 의하면, 공장 내 환경에서 추구하고자 하는 다양한 목적들을 동시에 만족시킬 수 있는 디스패칭 행동을 강화 학습을 통해 학습하여 선택하고, 그에 따라 공장 운영 효율을 최대화할 수 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1a는 강화 학습(RL)을 구성하는 기본적인 요소들을 설명하기 위한 개략도이고, 도 1b는 본 발명의 일 실시예에 따라 도 1a의 강화 학습(RL)을 공장 환경에 반영하여 구성한 개념도이다.
도 2a는 본 발명의 일 실시예에 따른 디스패칭 방법이 적용되는 공장의 기초가 되는 재진입 라인 모델의 기본 단위를 개략적으로 도시하고, 도 2b는 도 2a에 도시되는 재진입 라인 모델의 기본 단위가 복수 개 결합되어 구현되는 공장의 배치도를 개략적으로 도시한다.
도 3a는 본 발명의 일 실시예에 따른 디스패처(10)의 작업(job) 선택을 설명하기 위한 개념도이고, 도 3b는 도 3a에 도시된 디스패처(10)의 세부 블록도이다.
도 4는 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법(S400)에 관한 순서도이다.

이하, 본 발명에 따른 실시예들은 첨부된 도면들을 참조하여 설명한다. 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면 상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다. 이하에서 본 발명의 실시예들을 설명할 것이나, 본 발명의 기술적 사상은 이에 한정되거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다.

도 1a는 강화 학습(RL)을 구성하는 기본적인 요소들을 설명하기 위한 개략도이다. 강화 학습(RL; Reinforcement Learning)은 기계 학습(ML; Machine Learning)의 한 영역으로서, 주어진 환경 안에서 정의된 에이전트(Agent)가 현재의 상태(State)를 인식하여 선택 가능한 행동(Action)들 중 보상(Reward)을 최대화하는 행동 또는 행동 순서를 선택하는 학습 방식에 해당한다.

에이전트는 상태를 관찰하여 행동을 선택하는 주체를 의미하고, 환경은 에이전트가 행동을 하면 상호작용을 통해 상태가 바뀌고 보상을 주는 것이며, 상태는 환경의 현재 상황을 나타내는 정보를 의미하고, 행동은 현재 상태에서 에이전트가 하는 것을 의미하며, 보상은 행동의 좋고 나쁨을 표현하는 정보에 해당하는데, 강화 학습(RL)을 구성하는 이러한 에이전트, 환경, 활동, 보상 및 상태가 도 1a에 개념적으로 도시된다. 여기서 중요한 점은 보상은 개선하고자 하는 단일 또는 복수의 목적과 잘 매칭되어야 하고, 상태는 환경을 잘 표현해야 한다는 것이다.

동적 환경(dynamic environment)에서의 학습을 대상으로 하는 강화 학습(RL)은, 정적 환경(static environment)에서 데이터에 대한 레이블(lable)(즉, 명시적인 정답)이 주어진 상태에서 컴퓨터를 학습시키는 지도 학습(Supervised Learning)과, 정적 환경에서 데이터에 대한 레이블이 주어지지 않는 상태에서 컴퓨터를 학습시킴으로써 데이터의 숨겨진 특징이나 구조를 발견하는데 사용되는 비지도 학습(Unsupervised Learning)과는 구별된다.

참고로, 구글의 알파고와 같은 게임 분야, 보스턴 다이내믹스에서 제작한 휴머노이드 로봇인 아틀라스(Atlas)와 같은 지능형 로봇 분야, P모건의 LXOM과 같은 금융 분야, 자동차에 부착된 카메라 또는 센서 데이터에 기초한 자율주행 자동차 분야 등에서 강화 학습(RL)이 활용 및 적용되고 있거나, 그에 대한 연구 및 개발이 활발하게 진행되고 있다.

도 1b는 본 발명의 일 실시예에 따라 도 1a의 강화 학습(RL)을 공장 환경에 반영하여 구성한 개념도이다. 에이전트, 환경, 활동, 보상 및 상태의 요소들로 구성되는 강화 학습(RL)은 공장 내 디스패칭을 위해 활용함에 있어서, 디스패처(10)가 에이전트가 되고 공장을 환경으로 하여 디스패처의 디스패칭 활동에 대한 보상(비용, 성능, 불이익, 등) 및 상태(WIP, 활용도, 셋업, 등)가 정의될 수 있으며, 여기서 상태는 디스패처(10)가 공장을 관찰해서 얻은 정보를 의미할 수 있다.

도 2a는 본 발명의 일 실시예에 따른 디스패칭 방법이 적용되는 공장의 기초가 되는 재진입 라인 모델(re-entrant line model)의 기본 단위를 개략적으로 도시한다. 실제 공장에서는 수백 내지 수천 개의 장비들이 배치되고 각각의 장비는 상이한 공정(process)을 수행하며, 공장 내에서 제품들은 제작 완료 이전에 수백 개의 공정 단계들을 거쳐야만 한다. 그러한 공정 단계의 구현을 위해 공장은 재진입 라인 모델로서 표현될 수 있고(예를 들어, 도 2a에 도시되는 바와 같은), 제작 동안에 제품들이 수백 개의 공정 단계들을 거쳐야만 하고 제품이 동일한 공정 단계를 여러 번 거쳐야 하는 경우도 존재한다. 즉, 제품이 이미 방문하였던 단계들 중 일부로 재진입하게 된다.

도 2a는 상기 설명한 바와 같은 재진입 라인의 기본 단위를 도시한다. 동일한 공정을 수행하는 머신(machine)들의 세트를 스테이션(station)으로 지칭하고, 각각의 스테이션은 복수의 머신들과 버퍼(buffer)를 포함한다. 버퍼에 도달하는 작업(job)은 소정의 디스패칭 로직에 따라 적절한 머신이 선택할 때까지 버퍼에서 대기하게 된다. 어떠한 머신에 의해서 어떠한 작업이 처리되는 지를 나타내는 일련의 관계를 작업 배치(job arrangement)로 칭한다. 참고로, 작업 배치는 작업 타입에 따라 변화할 수 있고, 그에 따라 작업 중 일부는 스테이션 내의 모든 머신들에 배치될 수 있고 작업 중 다른 일부는 스테이션 내의 단지 하나의 머신에만 배치될 수도 있다. 이러한 재진입 라인 모델의 기본 단위가 복수 개 결합되어 구현되는 실제 공장의 배치도가 도 2b에 개략적으로 도시된다.

이와 같이 공장 내의 각 작업장에서 진행되는 가용한 작업들을 선택하고 순서를 수립하는 디스패칭을 구현하기 위해서 FIFO(First In First Out), SPT(Shortest Processing Time), EDD(Earliest Due Date) 등과 같은 디스패칭 규칙이 수립되어 활용되는데, 후술할 바와 같이 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법은 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업을 선택하는 것을 특징으로 한다. 참고로, 용어 디스패칭은 다양한 실시예에서의 다양한 활용 예에 따라 ‘로딩(loading)’, ‘스케줄링(scheduling)’의 용어와 호환되어 사용될 수도 있다.

이를 위해, 다양한 디스패칭 점수들이 활용될 수 있고, 디스패칭 규칙들이 점수로 변환되어 활용될 수도 있으며, 예를 들어 공장 운영자는 공장 상황 및 요구에 따라 디스패칭 규칙을 점수로 변환하여 활용할 수 있다. 이러한 디스패칭 점수들은 디스패칭의 순간에 공장 상황에 대한 포괄적인 정보를 반영하게 되고, 따라서 공장의 종합적인 상황을 대변하는 지표가 된다. 아래의 표 1은 디스패칭 점수의 예를 기술한다.

디스패칭 점수	설명
FIFO	다른 작업보다 더 이르게 도달하는 작업에 더 큰 값을 부여함
SPT/LPT	다른 작업보다 더 짧은/긴 처리 시간을 갖는 작업에 더 큰 값을 부여함
Setup	작업이 셋업 변화를 야기하면 0을 부여함, 그렇지않으면 1을 부여함
Required Eqp	현재 스테이션에서 전체 머신의 개수 대비 작업에 대한 도구 세팅을 갖는 머신의 비율을 부여함
Queue Time	미리 정의된 큐 시간 한계에 근접한 작업에 더 큰 값을 부여함. 작업이 한계를 초과하면, 0을 부여함
Target Data	미리 정의된 마감일에 근접한 작업에 더 큰 값을 부여함.작업이 마감일을 초과하면, 1을 부여함
Layer Change	작업이 레이어 변화를 야기하면 0을 부여함, 그렇지않으면 1을 부여함

도 3a는 본 발명의 일 실시예에 따른 디스패처(10)의 작업(job) 선택을 설명하기 위한 개념도이고, 도 3b는 도 3a에 도시된 디스패처(10)의 세부 블록도이다. 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법은 (i) 공장 내에서 디스패처(10)의 디스패칭 행동과 그에 따른 보상 및 공장의 상태에 대해서 마르코프 결정 프로세스(MDP)를 구축하고, (ii) 구축된 MDP에 강화 학습을 적용하여 학습을 수행하며, (iii) 점수화된 디스패칭 규칙들의 가중합의 가장 큰 작업물을 선택하고(도 3a 참조), (iv) iii에서 사용된 디스패칭 규칙들로 공장의 가치 함수를 근사화하고, 강화학습의 결과로서 더 나은 스케줄을 주는 가중치를 찾아내는 것을 특징으로 한다.

이하에서는 본 발명에 따른 공장 내 디스패칭 방법의 근간이 되는 강화 학습(RL)의 설명과, 마르코프 결정 프로세스(MDP) 및 세미-마르코프 결정 프로세서(Semi-MDP)의 설명과, 가치 함수(value function)의 근사화에 대한 설명을 통해 본 발명에서 이루고자 하는 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치를 보다 구체적으로 설명하기로 한다.

마르코프 결정 프로세스( MDP )와 강화 학습( RL )

강화 학습을 적용하기 위한 첫번째 단계는 마르코프 결정 프로세스(MDP)의 형태로 해결할 문제를 정의하는 것이다. 여기서, 이하의 본 명세서에서 정의되는 보상은 공장 내에서 복수의 목적을 동시에 충족시키는 방향으로 설정될 수 있으며, 달성하고자 하는 복수의 목적에 관한 핵심성과지표(KPI) 사이에 상관도가 낮도록 설정하는 것이 바람직하다. 왜냐하면 학습 단계에서의 분산이 무의미하게 커지도록 작용할 수 있고, 이는 잘못된 학습 방향 또는 더딘 학습을 초래하기 때문이다.

마르코프 결정 프로세스(MDP)에서 에이전트는 어떠한 상태를 만나면 행동을 취하게 되고, 각각의 상태에 맞게 취할 수 있는 행동을 연결해주는 함수를 정책(policy)라고 하며, 따라서 마르코프 결정 프로세스(MDP)는 행동을 중심으로 가치 평가가 이루어지며, 마르코프 결정 프로세스(MDP)의 가장 큰 목적은 가장 우수한 의사결정정책, 즉 행동에 따른 가치(value)의 합이 가장 큰 의사결정정책을 찾아내는 것이다.

마르코프 결정 프로세스(MDP)는 객체들 <T, S, A, P(·｜s,a), R(s,a)>의 집합으로서 특정되고, 여기서 T는 이산 시간 구간이고, S는 상태 공간이며, A는 행동 공간이고, P(·｜s,a)는 상태 전이 확률(state transition probability)이며, R(s,a)는 보상 함수이다. 공장은 다양한 머신들과, 작업들과, 공정들로 구성되는 복합 시스템에 해당하므로 상태 전이 확률 P(·｜s,a)를 정확하게 산출하는 것은 실질상 불가능하기 때문에, 마르코프 프로세스가 어떠한 상태에 있다는 사실이 주어졌을 때에 앞으로의 진행 과정은 그 상태에 이르기까지의 과거 과정과는 무관하다는 전제 하에서(즉, 현재가 주어졌을 때에, 미래는 과거에 대해 독립적이다) 상태 전이 확률 P(·｜s,a)이 공장 내 디스패칭을 구현하기 위한 강화 학습에서 활용되기에 충분한 정보를 갖는 것으로 가정할 수 있으며, 이와 같이 과거와는 전혀 무관한 특징을 갖는 상태 전이 확률 P(·｜s,a)은 아래의 식과 같이 표현될 수 있다.

강화 학습은 매우 큰 상태 공간, 매우 큰 활동 공간, 그리고 불확실한 상태 전이 확률 하에서 마르코프 결정 프로세스(MDP) 기반의 제어 문제를 처리할 수 있는 알고리즘의 집합이고, 강화 학습 알고리즘은 가치 함수(value function)의 추정에 기초하게 되며, 상태의 가치를 표현하는 가치 함수는 아래와 같이 정의될 수 있다.

위 수학식 2에서 표현되는 바와 같이, 가치 함수는 현재의 상태로부터 향후 발생할 보상의 감가상각된(discounted) 합의 기대 값을 나타낸다. 즉, 가치 함수는 의사결정권자(즉, 본 발명에서는 “디스패처”)의 정책(policy) π 하에서 감가상각된 미래 보상들의 합에 대한 기대치를 나타내는 상태 함수로 정의된다. 참고로, 수학식 2의 가치 함수는 아래의 수학식 3과 같은 상태-활동의 Q-함수로 정의될 수도 있다.

정책 π 하에서 가치 함수를 추정함으로써, 하기의 수학식에 따라 보다 우수한 정책 π’의 도출이 가능하다.

세미-마르코프 결정 프로세스(semi- MDP )에 대한 강화 학습

일반적인 마르코프 결정 프로세스(MDP)가 이산적인 시간 구간에서 일정한 시간 간격으로 의사결정이 이루어 진다고 전제하여 진행되는 것과는 달리, 실제 공장에서는 의사결정(예를 들어, 디스패칭 행동, 등)이 연속적인 시간 구간에서 비-일정한 시간 간격으로 발생하는 것을 특징으로 한다. 이러한 공장 내의 연속적인 시간 구간에서 비-일정한 시간 간격으로 발생하는 의사결정의 특징을 고려할 경우 전형적인 마르코프 결정 프로세스(MDP)의 일부 수정이 불가피하며, 이하의 본 명세서에서는 이러한 수정된 마르코프 결정 프로세스(MDP)를 세미-마르코프 결정 프로세스(semi-MDP 또는 SMDP)로 지칭하기로 한다.

다시 말하면, 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법은 마르코프 결정 프로세스(MDP)를 구축함에 있어 연속적인 시간 구간에서의 비-일정한 간격으로 발생하는 결정에 기초하여 세미-마르코프 결정 프로세스(semi-MDP)를 구축하는 것을 특징으로 하며, 이에 대한 구체적인 설명은 이하에서 다시 기술하기로 한다.

전형적인 마르코프 결정 프로세스(MDP)에서는 미래의 가치를 현재의 가치로서 환산하기 위한 감가상각율(또는 감가율, 할인율 등으로 지칭될 수도 있음) γ가 0과 1 사이의 상수이고 보상 r이 시간 간격에 종속되지 않았지만, 본 발명의 일 실시예에 따른 공장 내 디스패칭 방법에서 적용할 강화 학습에서의 세미-마르코프 결정 프로세스(semi-MDP)를 구축함에 있어 보상 r과 감가상각율 γ는 아래와 같이 의사결정 사이의 시간 간격 τ에 종속하는 형태로 변경되어 활용될 수 있다.

이산적인 시간 구간에서 일정한 간격으로 발생하는 결정을 기초로 하는 전형적인 마르코프 결정 프로세스(MDP)와 비교하여, 공장 내에서 물건 제조 과정에서 발행하는 디스패칭 행동의 특징, 즉 연속적인 시간 구간에서 비-일정한 시간 간격으로 발생하는 의사결정의 특징을 충분히 고려하여 위와 같이 보상 r과 감가상각율 γ의 항목을 변경하고 그에 따른 세미-마르코프 결정 프로세스(semi-MDP)를 구축하여 운영함으로써 공장 내에서의 최적 정책 유도를 가능하게 한다.

가치 함수의 근사화

상기한 바와 같이, 일반적으로 제조 공장은 매우 큰 상태 공간과 매우 큰 활동 공간을 갖는데, 이러한 대형 시스템의 가치 함수를 추정하기 위해 가치 함수의 근사화(approximation)가 추가로 고려될 수 있고, 이하의 명세서에서는 가치 함수 근사화의 일 예로서 파라미터화된(parameterized) 가치 함수 근사화를 기술하기로 한다.

파라미터화된 함수 근사화의 결과로서 가치 함수는 파라미터 벡터

에 종속하는 상태 특징을 갖는 일반 함수, 선형 함수, 비-선형 함수, 또는 신경망 구조를 가질 수 있으며, 아래의 식과 같이 표현될 수 있다.

여기서, V(s)는 가치 함수이고,

는 파라미터 벡터에 해당하고,

는 근사화에 사용되는 기저 함수이다. 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 개선에서는

를 장비들의 디스패칭 점수 벡터로 표현한다. 근사화의 결과로서 가치 함수(V(s))는 파라미터 벡터(

)와 디스패칭 점수 백터(

)의 곱으로서 표현될 수 있다.

참고로, 함수 근사화를 활용함으로써 가치 함수는 파라미터 공간의 형태로 변경될 수 있으며, 대규모의 근사화 동적 프로그래밍이 상태 전이 확률을 미지수로 가정하므로 Adam, RMSProp 등과 같은 다양한 SGD(Stochastic Gradient Method)가 샘플 백업을 위해 활용될 수 있다.

여기서, 가치 함수의 근사화를 수행할 때에 기저 함수로서 디스패칭 점수 벡터(

)를 사용하고 추가로 파라미터 벡터를 활용함에 있어 어떠한 근사화가 최적의 결과를 도출하는지가 중요한 관심사 중 하나인데, 일 예로 공장 전체를 작업물의 개수로서 표현하기 보다는 작업물 개수, 대기 시간, 처리 시간, 제품 타입 개수 등으로 표현하는 것이 공장의 정보를 보다 더 많이 반영한다는 측면에서 보다 바람직하고, 이렇게 공장에 대해 더 많은 정보를 담고 있으면 개선하고자 하는 목표에 따라 보상을 주는 것이 더 바람직하게 된다.

이러한 조건을 만족시키기 위해서 앞서 기술한 ‘디스패칭 점수’의 개념을 도입하였으며, 따라서 함수 근사화의 결과로서 활용되는 디스패칭 점수 벡터(

)는 아래와 같이 정의될 수 있다.

여기서,

는 머신 i에서 가장 마지막으로 선택된 작업의 디스패칭 점수 F^i,j(S)의 벡터를 나타내고,

는 모든 머신들에 대한

의 벡터를 나타내며, 여기서 N은 스테이션 내 머신의 개수, M은 디스패칭 점수의 개수를 각각 나타낸다. 이와 같이, 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법은 파라미터 벡터와 디스패칭 점수 벡터의 곱으로서 가치 함수의 근사화를 구현하고, 디스패칭 점수 벡터를 생성함에 있어 해당 머신에서 가장 마지막으로 선택된 작업에 대한 디스패칭 점수들의 벡터를 활용하며, 그에 따라 근사화된 가치 함수의 값을 최대로 하는 작업(job)을 디스패처(10)가 선택하여 실행함으로써 공장 운영 효율을 최대화할 수 있다.

또한, 상태 특징을 반영하는 디스패칭 점수 벡터

는 시스템 사이즈에 크게 의존하지 않는 특징을 가지며, 따라서 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법은 소형/중형 시스템뿐만 아니라 반도체 공장과 같은 대형 시스템에도 용이하게 적용될 수 있다.

도 3b는 상기한 디스패처(10)의 세부 블록도를 예시적으로 도시하고, 도 4는 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법(S400)에 관한 순서도이다.

본 발명의 일 실시예에 따른 디스패처(10)는 강화 학습 기반으로 공장 내 디스패칭 행동을 수행하도록 구성될 수 있고, 도 3b에 도시되는 바와 같이 디스패처(10)는 제어 유닛(11)과, 통신 유닛(12)과, MDP 구축 유닛(13)과, 강화 학습 유닛(14)과, 작업 선택 유닛(15)과, 저장 유닛(16)과, 전원 유닛(17) 등으로 구성될 수 있다.

제어 유닛(11)은 디스패처(10)의 전체 동작, 기능 등을 총괄 제어하는 역할을 수행하고, 다른 엘리먼트(통신 유닛(12), MDP 구축 유닛(13), 강화 학습 유닛(14), 작업 선택 유닛(15), 저장 유닛(16), 전원 유닛(17))의 동작, 기능을 제어하며, 예를 들어 컨트롤러(controller), 마이크로컨트롤러(micro-controller), 프로세서(processor), 마이크로프로세서(microprocessor) 등으로 구현될 수 있다.

MDP 구축 유닛(13)은 공장 내에서 디스패처(10)의 디스패칭 행동과 그에 따른 보상 및 공장의 상태에 대해서 마르코프 결정 프로세스(MDP)를 구축할 수 있다(S410). 여기서, MDP 구축 유닛(13)은 연속적인 시간 구간에서 비-일정한 간격으로 발생하는 결정을 기초로 하는 세미-마르코프 결정 프로세스(semi-MDP)로서 상기 마르코프 결정 프로세스(MDP)를 구축하도록 추가로 구성될 수 있다.

강화 학습 유닛(14)은 구축된 마르코프 결정 프로세스(MDP)에 강화 학습(RL)을 적용하여 학습을 수행할 수 있다(S420). 여기서, 강화 학습은 가치 함수의 근사화를 통한 가치 함수의 추정에 기초하며, 가치 함수 근사화의 결과로서 가치 함수는 파라미터 벡터와 디스패칭 점수 벡터의 곱으로 표현될 수 있으며, 디스패칭 점수 벡터는 해당 머신에서 가장 마지막에 선택된 작업에 대한 디스패칭 점수들의 벡터에 해당할 수 있다.

작업 선택 유닛(15)은 강화 학습(RL)의 결과로서 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업을 선택할 수 있다(S430). 예를 들어, 작업 선택 유닛(15)은 파라미터 벡터와 디스패칭 점수 벡터의 곱으로 근사화된 가치 함수의 값을 최대로 하는 작업을 선택하도록 구성될 수 있다. 이와 같이 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업을 선택하는 본 발명은, 복수의 디스패칭 규칙 중에서 최적의 디스패칭 규칙을 선택하는 방식(예를 들어, Ramirez-Hernandez 방식) 또는 각각의 디스패칭 규칙에 적용되는 가중치를 선택하는 방식(예를 들어, Chen 방식)과는 차별화된다.

부가하여, 통신 유닛(12)은 디스패처(10)가 외부의 다른 엘리먼트와 통신하기 위한 유닛으로서, 유선 및/또는 무선 통신 유닛(12)일 수 있다. 보다 구체적으로, 통신 유닛(12)는 제어 유닛(11), 저장 유닛(16) 등으로부터의 데이터를 유선 또는 무선으로 전송하거나, 외부로부터 데이터를 유선 또는 무선 수신하여 제어 유닛(11)으로 전달하거나 저장 유닛(16)에 저장할 수 있다. 상기 데이터에는 텍스트, 이미지, 동화상 등의 컨텐츠, 사용자 영상 등이 포함될 수 있다.

통신 유닛(12)은 랜(LAN), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), WiBro(Wireless Broadband Internet), RF(Radio Frequency)통신, 무선랜(Wireless LAN), 와이파이(Wireless Fidelity), NFC(Near Field Communication), 블루투스, 적외선 통신 등을 통해 통신할 수 있다. 다만, 이는 예시적인 것으로서, 본 발명이 적용되는 실시예에 따라 당해 기술분야에서 적용 가능한 다양한 유, 무선 통신 기술이 이용될 수 있다.

또한, 저장 유닛(16)에는 디스패처(10)의 동작, 기능에 관한 다양한 데이터가 저장될 수 있다. 상기 데이터에는 디스패처(10)의 디스패칭 행동, 공장의 상태, 보상, 구축된 MDP 및 세미-MDP 모델, 강화 학습 알고리즘, 근사화된 가치 함수, 파라미터 벡터, 디스패칭 점수 벡터, 등이 포함될 수 있으며, 강화 학습 유닛(14)은 저장 유닛(16)에 저장된 학습 데이터에 기초하여 학습을 수행할 수 있다.

참고로, 저장 유닛(16)은, 통상의 기술자에게 알려진 바와 같이, HDD(Hard Disk Drive), ROM(Read Only Memory), RAM(Random Access Memory), EEPROM(Electrically Erasable and Programmable Read Only Memory), 플래시 메모리(flash memory), CF(Compact Flash) 카드, SD(Secure Digital) 카드, SM(Smart Media) 카드, MMC(Multimedia) 카드 또는 메모리 스틱(Memory Stick) 등 정보의 입출력이 가능한 다양한 형태의 저장 장치로 구현될 수 있고, 도 3b에 도시되는 바와 같이 디스패처(10)의 내부에 구비될 수도 있거나, 또는 외부 장치에 별도로 구비될 수도 있다.

추가로, 본 발명에 따른 디스패처(10)는 디스패처(10)에 전원 공급을 위한 전원 유닛(17)을 더 구비할 수도 있으며, 이와 같이 구성되는 디스패처(10)는 실시간 디스패처(RTD; real-time dispatcher) 또는 실시간 스케줄러(real-time scheduler)에 내장되어 강화 학습을 위한 솔루션을 구성할 수 있다.

상술한 바와 같이, 본 발명의 일 실시예에 따른 강화 학습 기반의 공장 내 디스패칭 방법 및 그 장치에 의하면, 공장 내 환경에서의 행동, 보상, 상태에 대해 강화 학습을 수행함으로써 복수의 디스패칭 점수들의 가중화 합을 최대로 하는 작업을 선택하고, 그에 따라 공장 운영 효율을 최대화할 수 있다.

한편, 본 명세서에 기재된 다양한 실시예들은 하드웨어, 미들웨어, 마이크로코드, 소프트웨어 및/또는 이들의 조합에 의해 구현될 수 있다. 예를 들어, 다양한 실시예들은 하나 이상의 주문형 반도체(ASIC)들, 디지털 신호 프로세서(DSP)들, 디지털 신호 프로세싱 디바이스(DSPD)들, 프로그램어블 논리 디바이스(PLD)들, 필드 프로그램어블 게이트 어레이(FPGA)들, 프로세서들, 컨트롤러들, 마이크로컨트롤러들, 마이크로프로세서들, 여기서 제시되는 기능들을 수행하도록 설계되는 다른 전자 유닛들 또는 이들의 조합 내에서 구현될 수 있다.

또한, 예를 들어, 다양한 실시예들은 명령들을 포함하는 컴퓨터-판독가능한 매체에 수록되거나 인코딩될 수 있다. 컴퓨터-판독가능한 매체에 수록 또는 인코딩된 명령들은 프로그램 가능한 프로세서 또는 다른 프로세서로 하여금 예컨대, 명령들이 실행될 때 방법을 수행하게끔 할 수 있다. 컴퓨터-판독가능한 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수도 있다. 예를 들어, 이러한 컴퓨터-판독가능한 매체는 RAM, ROM, EEPROM, CD-ROM 또는 기타 광학 디스크 저장 매체, 자기 디스크 저장 매체 또는 기타 자기 저장 디바이스를 포함할 수 있다.

이러한 하드웨어, 소프트웨어, 펌웨어 등은 본 명세서에 기술된 다양한 동작들 및 기능들을 지원하도록 동일한 디바이스 내에서 또는 개별 디바이스들 내에서 구현될 수 있다. 추가적으로, 본 발명에서 "~부"로 기재된 구성요소들, 유닛들, 모듈들, 컴포넌트들 등은 함께 또는 개별적이지만 상호 운용가능한 로직 디바이스들로서 개별적으로 구현될 수 있다. 모듈들, 유닛들 등에 대한 서로 다른 특징들의 묘사는 서로 다른 기능적 실시예들을 강조하기 위해 의도된 것이며, 이들이 개별 하드웨어 또는 소프트웨어 컴포넌트들에 의해 실현되어야만 함을 필수적으로 의미하지 않는다. 오히려, 하나 이상의 모듈들 또는 유닛들과 관련된 기능은 개별 하드웨어 또는 소프트웨어 컴포넌트들에 의해 수행되거나 또는 공통의 또는 개별의 하드웨어 또는 소프트웨어 컴포넌트들 내에 통합될 수 있다.

특정한 순서로 동작들이 도면에 도시되어 있지만, 이러한 동작들이 원하는 결과를 달성하기 위해 도시된 특정한 순서, 또는 순차적인 순서로 수행되거나, 또는 모든 도시된 동작이 수행되어야 할 필요가 있는 것으로 이해되지 말아야 한다. 임의의 환경에서는, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 더욱이, 상술한 실시예에서 다양한 구성요소들의 구분은 모든 실시예에서 이러한 구분을 필요로 하는 것으로 이해되어서는 안되며, 기술된 구성요소들이 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키징될 수 있다는 것이 이해되어야 한다.

이상에서와 같이 도면과 명세서에서 최적 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

10: 디스패처
11: 제어 유닛
12: 통신 유닛
13: MDP 구축 유닛
14: 강화 학습 유닛
15: 작업 선택 유닛
16: 저장 유닛
17: 전원 유닛

Claims

강화 학습 기반의 공장 내 디스패칭 방법으로서,
재진입 라인 모델의 기본 단위가 복수 개 결합되어 구현되는 공장 내에서 디스패처(dispatcher)의 디스패칭 행동(action)과 그에 따른 보상(reward) 및 상기 공장의 상태(state)에 대해서, 연속적인 시간 구간에서 비-일정한 간격으로 발생하는 결정을 기초로 하는 세미-마르코프 결정 프로세스(semi-MDP; semi-Markov Decision Process)를 구축하는 단계;
상기 구축된 세미-마르코프 결정 프로세스(semi-MDP)에 강화 학습(RL; Reinforcement Learning)을 적용하여 학습을 수행하는 단계; 및
상기 강화 학습(RL)의 결과로서, 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업(job)을 선택하는 단계를 포함하고,
상기 세미-마르코프 결정 프로세스(semi-MDP)에서 미래의 가치를 현재의 가치로 환산하기 위한 감가상각율 및 상기 보상은 의사결정 사이의 시간 간격에 종속하고,
상기 강화 학습(RL)은 가치 함수(value function)의 근사화(approximation)를 통한 상기 가치 함수의 추정에 기초하되, 파라미터화된 상기 가치 함수의 근사화의 결과로서 상기 가치 함수는 해당 머신에서 가장 마지막으로 선택된 작업에 대한 디스패칭 점수들의 벡터에 해당하는 디스패칭 점수 벡터와 파라미터 벡터의 곱으로서 표현되고, 상기 가치 함수의 근사화를 위한 기저 함수로서 상기 디스패칭 점수 벡터가 활용되는,
강화 학습 기반의 공장 내 디스패칭 방법.
삭제
제 1 항에 있어서,
상기 보상은, 상기 공장 내에서 복수의 목적들을 동시에 충족시키는 방향으로 설정되는,
강화 학습 기반의 공장 내 디스패칭 방법.
삭제
삭제
삭제
제 1 항에 있어서,
상기 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업을 선택하는 단계는, 상기 근사화된 가치 함수의 값을 최대로 하는 작업을 선택하는 단계를 포함하는,
강화 학습 기반의 공장 내 디스패칭 방법.
컴퓨터에 의해 제 1 항, 제 3 항 및 제 7 항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램이 기록되는,
컴퓨터 판독 가능한 기록 매체.
강화 학습 기반의 공장 내 디스패칭 행동을 수행하도록 구성되는 디스패처(10)로서,
재진입 라인 모델의 기본 단위가 복수 개 결합되어 구현되는 공장 내에서 상기 디스패처의 디스패칭 행동과 그에 따른 보상 및 상기 공장의 상태에 대해서, 연속적인 시간 구간에서 비-일정한 간격으로 발생하는 결정을 기초로 하는 세미-마르코프 결정 프로세스(semi-MDP)를 구축하도록 구성되는 MDP 구축 유닛(13);
상기 구축된 세미-마르코프 결정 프로세스(semi-MDP)에 강화 학습(RL)을 적용하여 학습을 수행하도록 구성되는 강화 학습 유닛(14); 및
상기 강화 학습(RL)의 결과로서, 점수화된 복수의 디스패칭 규칙들의 가중화 합을 최대로 하는 작업을 선택하도록 구성되는 작업 선택 유닛(15)을 포함하고,
상기 세미-마르코프 결정 프로세스(semi-MDP)에서 미래의 가치를 현재의 가치로 환산하기 위한 감가상각율 및 상기 보상은 의사결정 사이의 시간 간격에 종속하고,
상기 강화 학습(RL)은 가치 함수의 근사화를 통한 상기 가치 함수의 추정에 기초하되, 파라미터화된 상기 가치 함수의 근사화의 결과로서 상기 가치 함수는 해당 머신에서 가장 마지막으로 선택된 작업에 대한 디스패칭 점수들의 벡터에 해당하는 디스패칭 점수 벡터와 파라미터 벡터의 곱으로서 표현되고, 상기 가치 함수의 근사화를 위한 기저 함수로서 상기 디스패칭 점수 벡터가 활용되는,
디스패처(10).
삭제