KR20220066337A

KR20220066337A - 유연 생산 시스템 및 장치에 대한 자체 학습 생산 스케줄링을 위한 방법

Info

Publication number: KR20220066337A
Application number: KR1020227013008A
Authority: KR
Inventors: 쉬린 베어
Original assignee: 지멘스 악티엔게젤샤프트
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2022-05-24
Also published as: EP4007942A1; JP7379672B2; JP2022548835A; WO2021052589A1; CN114430815A; US20220374002A1

Abstract

적어도 제품을 생산하기 위해 사용되는 유연 생산 시스템에 대한 자체 학습 생산 스케줄링을 위해 사용되는 제안된 방법으로서, 생산 시스템은 취급 엔티티들을 통해 상호연결되는 처리 엔티티들로 구성되고, 생산 스케줄링은 유연 생산 시스템의 모델 상의 강화 학습 시스템에 의해 학습될 것이고, 모델은 적어도 유연 생산 시스템의 가동 및 의사 결정을 표현하며, 모델은 페트리 네트로서 실현된다. 처리 엔티티들 및 취급 엔티티들의 순서는 교환가능하고 그를 위해 전체 배열은 매우 유연하다.

Description

유연 생산 시스템 및 장치에 대한 자체 학습 생산 스케줄링을 위한 방법

유연 생산 시스템(flexible manufacturing system)(FMS)은 시스템이 예측되든 예측되지 않든, 변경들의 경우에 상호작용하는 것을 허용하는 약간의 유연성이 있는 생산 시스템이다.

라우팅 유연성은 새로운 제품 유형들을 생산하기 위해 변경되는 시스템의 능력, 및 부분 상에 실행되는 동작들의 순서를 변경하기 위한 능력을 커버한다. 머신 유연성은 예컨대 체적, 용량, 또는 수용력에서, 대규모 변경들을 흡수하기 위한 시스템의 능력뿐만 아니라, 부분 상에 동일한 동작을 수행하기 위해 다수의 머신을 사용하기 위한 능력이다.

대부분의 FMS는 3개의 주요 시스템으로 구성된다. 종종 자동화된 CNC 머신들인 작업 머신들은 부품 흐름을 최적화하기 위한 재료 취급 시스템 및 재료 이동들 및 머신 흐름을 제어하는 중앙 제어 컴퓨터에 의해 연결된다.

FMS의 주요 장점은 새로운 제품을 생산하기 위해 시간 및 노력과 같은 생산 자원들을 관리할 시에 그의 높은 유연성이다. FMS의 최상의 적용은 대량 생산으로부터의 것들과 같은 제품들의 작은 세트들의 생산에서 발견된다.

추세가 모듈러 및 유연 생산 시스템들(FMS)로 이동함에 따라, 오프라인 스케줄링은 효율적인 제품 라우팅을 가능하게 하는 유일한 조치가 더 이상 아니다. 생산 모듈들의 고장, 빈 재료 스택들, 또는 FMS의 재구성과 같은, 예기치 않은 이벤트들이 고려되어야 한다. 따라서, (추가) 온라인 스케줄링 및 자원 할당 시스템을 갖는 것이 도움이 된다.

제2 문제는 고전 휴리스틱 방법들과 같이 제품 라우팅 시스템의 의사 결정의 높은 엔지니어링 노력이다. 자체 학습 제품 라우팅 시스템은 런타임에 적용될 때까지 시스템이 시뮬레이션에서 많은 상황들에 대한 결정을 그 자체로 학습하므로, 엔지니어링 노력을 감소시킬 것이다.

높은 엔지니어링 노력을 초래하는 다른 포인트는 FMS에서 규칙들 및 제약들을 수학적으로 설명하고 그들을 구현하는 것이다. 자체 학습 에이전트의 아이디어는 이들 제약들을 이해하는 것인 한편, 그들은 약식으로 보상 기능에서 고려된다.

생산 실행 시스템들(Manufacturing Execution Systems)(MES)은 제품 계획 및 스케줄링을 위해 사용되지만, 이들 대부분 고객 특정 시스템들을 구현하는 것은 극히 높은 엔지니어링 노력이다. 스케줄링 문제를 해결하는 고전적인 방법들은 (메타-) 휴리스틱 방법들의 사용이다. 예기치 않은 이벤트에서, 리스케줄이 행해진다. 한편, 이것은 시간 확장적이고, 다른 한편, 리스케이줄이 행해져야 할 때를 결정하는 것이 어렵다.

자체 학습 제품 라우팅 시스템들의 소수의 개념들이 공지되어 있지만, 높은 계산 비용들에도 불구하고, 제품 중에 온라인으로 최상의 결정을 계산하는 것은 답을 기다려야 한다.

그들 개념들의 설명들은 예를 들어, 이하의 개시들에서 발견될 수 있다:

Di Caro, G., and Dorigo, M. 1998. Antnet distributed stigmergic control for communications networks. Journal of Artificial Intelligence Research 9:317-365. Dorigo, M., and Stutzle, T. 2004. Ant Colony Optimization. The MIT Press. Sallez, Y.; Berger, T.; and Trentesaux, D. 2009. A stigmergic approach for dynamic routing of active products in fms. Computers in Industry 60:204-216.

Pach, C.; Berger, T.; Bonte, T.; and Trentesaux, D. 2014. Or-ca-fms: a dynamic architecture for the optimized and reactive control of flexible manufacturing scheduling. Computers in Industry 65:706-720.

다른 접근법은 에이전트들의 입찰을 제어하는 중앙 엔티티가 있으므로, 에이전트들이 이 엔티티와 통신해야 하는 멀티 에이전트 시스템이며, 이는 이하에 설명되어 있다.

Frankovic, B., and Budinsk'a, I. 2000. "Advantages and disadvantages of heuristic and multi agents approaches to the solution of scheduling problem". Proceedings of the Conference IFAC Control Systems Design. Bratislava, Slovak Rep.: IFAC Proceeding Volumes 60, Issue 13 또는

Leit~ao, P., and Rodrigues, N. 2011. "Multi-agent system for on-demand production integrating production and quality control". HoloMAS 2011, LNAI 6867: 84-93.

강화 학습은 보상 및 처벌의 시스템을 사용하여 알고리즘들을 트레이닝하는 일 유형의 동적 프로그래밍이다. 일반적으로 말하면, 강화 학습 알고리즘, 또는 에이전트는 그의 환경과 상호작용함으로써 학습한다. 에이전트는 정확하게 수행하기 위한 보상들 및 부정확하게 수행하기 위한 벌칙들을 수신한다. 에이전트는 그의 보상을 최대화하고 그의 벌칙을 최소화함으로써 인간으로부터의 중재 없이 학습한다.

또한 분산 작업 단위 스케줄링 문제들에 대한 다중 에이전트 강화 학습(reinforcement Learning)(RL)의 분야에서 행해지는 작업이며, 하나의 에이전트는 하나의 생산 모듈을 제어하고 작업이 디스패칭될 수 있는지 여부를 결정한다.

일 예는 Gabel T., Multi-Agent Reinforcement Learning Approaches for Distributed Job-Shop Scheduling Problems, Dissertation, June 2009에 설명되어 있다.

단점은 중앙 엔티티가 전역 결정을 하는데 필요하고 모든 에이전트가 FMS의 상태의 감소된 관점만을 입수하여, 긴 트레이닝 위상들을 초래할 수 있다는 것이다.

발명의 목적은 FMS의 제품 계획 및 스케줄링에 대해 위에 논의된 문제들을 위한 해결법을 제공하는 것이다.

문제는 청구항 1의 특징들에 따른 방법에 의해 해결되고, 청구항 8의 특징들에 따른 시스템에 의해 추가로 해결된다.

발명의 추가 유리한 실시예들은 종속항들에 설명된다.

해결책의 설명은 오로지 실행의 예들이고 발명에 대해 제한적인 것으로 의미되지 않는다.

적어도 제품을 생산하기 위해 사용되는 유연 생산 시스템에 대한 자체 학습 생산 스케줄링을 위해 사용되는 제안된 방법으로서, 생산 시스템은 취급 엔티티들을 통해 상호연결되는 처리 엔티티들로 구성되며, 생산 스케줄링은 유연 생산 시스템의 모델 상의 강화 학습 시스템에 의해 학습될 것이고, 상기 모델은 적어도 유연 생산 시스템의 가동 및 의사 결정을 표현하며, 모델은 페트리 네트로서 실현된다.

처리 엔티티들 및 취급 엔티티들의 순서는 교환가능하고 그를 위해 전체 배열은 매우 유연하다.

또한 장소/전이(PT) 네트로 공지된 페트리 네트는 분산 시스템들의 설명을 위한 수학적 모델링 언어이다. 그것은 이산 이벤트 동적 시스템의 클래스이다. 페트리 네트는 지향된 이분 그래프이며, 여기서 노드들은 전이들(즉, 바들에 의해 표현되는, 발생할 수 있는 이벤트들) 및 장소들(즉, 원들에 의해 표현되는 조건들)을 표현한다. 지향된 아크들은 어느 장소들이 어느 전이들(화살표들에 의해 표시됨)에 대한 사전 및/또는 사후 조건들인지를 설명한다.

페트리 네트들을 사용하여 재료 흐름을 모델링하고, 페트리 네트 모델 및 휴리스틱 검색을 사용하여 FMS, 예를 들어 이하에서 작업들을 스케줄링하는 연구가 있었다: "Method for Flexible Manufacturing Systems Based on Timed Colored Petri Nets and Anytime Heuristic Search", IEEE Transactions on Systems, Man, and Cybernetics: Systems 45 (5) :831-846 ㆍ May 2015.

본 발명은 온라인 스케줄링을 위한 자체 학습 시스템을 제안하며, RL 에이전트들은 FMS 내의 많은 상황들에 대한 액션들의 정의된 세트로부터 최상의 결정을 학습할 때까지 페트리 네트에 대해 트레이닝된다. 페트리 네트는 FMS의 시스템 가동 및 의사 결정 지점들을 표현한다. 페트리 네트의 상태는 모듈들의 토폴로지 및 제품들의 위치 및 종류에 관계되므로 FMS에서 상황을 표현한다.

이 자체 학습 시스템의 초기 아이디어는 RL 에이전트들을 트레이닝하기 위한 플랜트 아키텍처, 그 상태 및 그 가동의 표현으로서 페트리 네트들을 사용하는 것이다. 페트리 네트 및 따라서 플랜트의 현재 상태는 RL 에이전트에 대한 입력으로서 사용된다. 동일한 시간에, 페트리 네트는 RL 에이전트가 선택하는 모든 액션 후에 업데이트되므로, FMS(환경)의 시뮬레이션으로서 사용된다.

트레이닝된 시스템을 적용할 때, 결정들은 생산 프로세스 동안 근실시간으로 이루어질 수 있고 에이전트들은 상이한 최적화 목표들을 사용하여 다양한 제품들에 대한 생산 모듈들에 동작들을 디스패칭하는 것을 포함하여 FMS를 통해 제품들을 제어한다. 발명은 라우팅 및 디스패칭 유연성을 갖는 생산 시스템들의 사용에 특히 좋다.

이 페트리 네트는 사용자에 의해 수동으로 생성될 수 있지만 또한 뒤에 논리를 갖는 도 3에 도시된 바와 같이 예를 들어 GUI를 사용함으로써 자동적으로 생성될 수 있으며, 이는 페트리 네트에서 아키텍처의 개략적 묘사를 해석할 수 있다.

모든 모듈 또는 머신에 대해, 하나의 장소가 발생된다. 모든 의사 결정 지점에 대해, 또한 발생되는 하나의 장소가 있다. 2개의 지점 사이의 모든 컨베이어 연결을 위해, 발생되는 전이가 있으며, 이는 일치되는 장소들을 연결한다. 이들 규칙들을 따름으로써, 페트리 네트의 토폴로지는 사용자 생성한 플랜트 토폴로지와 매우 유사하게 자동적으로 보일 것이다.

MES의 계획 및 스케줄링 부분은 본 발명의 온라인 스케줄링 및 할당 시스템으로 대체될 수 있다.

이하에서, 발명은 바람직한 실시예들에서 도면들에 의해 예시될 것이다.
도 1: 가상 레벨(페트리 네트)에서의 RL 에이전트의 트레이닝 개념 및 물리적 레벨(실제 FMS)에서의 트레이닝된 모델의 적용.
도 2 위: 페트리 네트로서의 FMS의 상태 및 가동의 표현, FMS에서의 다수의 제품을 표현하는 컬러 페트리 네트.
도 2 아래: 이 매트릭스는 페트리 네트의 시스템 가동을 포함한다.
도 3은 FMS를 개략적으로 디자인하기 위해 GUI의 가능한 드래프트를 도시한다.

도 1은 페트리 네트(102)로서 실제 플랜트(500)의 표현을 갖는 트레이닝 시스템(300)으로부터 전체 시스템의 개요를 도시한다.

RL 기술로서 SARSA, DQN 등을 사용할 수 있다.

하나의 RL 에이전트 모델은 정확히 하나의 제품을 나중에 제어하기 위해 페트리 네트(102)에 대해 트레이닝된다. 다양한 제품들을 위해 트레이닝되는 다양한 에이전트들이 있으므로, 그것은 동일한 에이전트의 일부 사례들일 수 있으며, 하나는 모든 제품을 위한 것이다. 플랜트의 상태가 모듈들의 큐 길이 및 다른 제품들의 위치의 정보를 포함하므로 제품들이 서로 통신할 필요가 없다.

도 1은 트레이닝의 개념을 도시한다. RL 에이전트는 가상 환경(페트리 네트)에서 트레이닝되고 그것이 제시되었던 상이한 상황들에서 상호작용하는 법을 학습한다. 액션들의 유한 세트로부터 액션을 선택한 후에, 랜덤화된 선택들을 함으로써 시작하면, 환경이 업데이트되고, RL 에이전트는 새로운 상태 및 보상을 그의 액션의 평가로서 관찰한다. RL 에이전트의 목표는 최상의 제어 정책을 발견함으로써 장기 디스카운트된 보상들을 최대화하는 것이다.

트레이닝 동안, RL 에이전트들은 신경망들이 RL 에이전트와 함께 사용되면, 많은 상황들(매우 높은 상태 공간)을 여러 번 인지하고 보이지 않는 것들을 일반화할 수 있다. 에이전트가 페트리 네트에 대해 트레이닝된 후에, 그것은 온라인 스케줄링을 위해 런타임에 적용되기 전에, 실제 FMS에서 미세조정된다.

액션을 취한 후(302), 시뮬레이션에서의 결과가 관찰되고(303), 피드백이 주어진다(보상 301).

플랜트의 상태가 모듈들의 큐 길이 및 다른 제품들의 위치의 정보를 포함하므로 제품들이 서로 통신할 필요가 없다.

액션들의 유한 세트로부터 액션을 선택한 후에, 랜덤화된 선택들을 함으로써 시작하면, 환경이 업데이트되고, RL 에이전트는 새로운 상태 및 보상을 그의 액션의 평가로서 관찰한다. RL 에이전트의 목표는 최상의 제어 정책을 발견함으로써 장기 디스카운트된 보상들을 최대화하는 것이다. 트레이닝 동안, RL 에이전트들은 신경망들이 RL 에이전트과 함께 사용되면, 많은 상황들(매우 높은 상태 공간)을 여러 번 인지하고 보이지 않는 것들을 일반화할 수 있다. 에이전트가 페트리 네트에 대해 트레이닝된 후에, 그것은 온라인 스케줄링을 위해 런타임에 적용되기 전에, 실제 FMS에서 미세조정된다.

플랜트의 개략도(101)에서 그리고 내용의 의미의 고정된 지식으로, 모든 도면들에 개략적으로 도시된 바와 같이 페트리(102)를 자동적으로 발생시키는 것이 가능하다.

이하에서, 페트리 네트(101)의 구조가 설명된다.

원들은 장소들(M1, ... M6)로 명명되고 화살표들(1, 2, ... 24)은 페트리 네트 환경에서의 전이들로 명명된다. 도 2에서의 페트리 네트의 내부 육각형은 컨베이어 벨트 섹션들(장소 7 내지 12)을 표현하고 외부 장소들은 생산 모듈들이 연결될 수 있는 장소들(번호 1 내지 6)을 표현한다. 전이들(3, 11, 15, 19, 23)은 제품이 동일한 장소에 체류하게 한다. 나머지 번호들(1, ... 24)은 전이들이며, 이는 제품(토큰)을 하나의 장소로부터 다른 장소로 이동시키기 위해 파이어링될 수 있다. 이들 전이들은 제2 동작이 제1 동작 후에 동일한 모듈에서 실행될 수 있을 때, 유용하다. 페트리 네트의 상태는 장소 상의 제품(a, b, c, d, e)(토큰)에 의해 정의된다. FMS에서 많은 상이한 제품들을 고려하기 위해, 상이한 제품들로서 컬러 토큰을 갖는 컬러 페트리 네트가 사용될 수 있다. 컬러 대신에, 또한 제품 ID가 사용될 수 있다.

플랜트 아키텍처(장소들) 및 그의 시스템 가동(전이들)을 설명하는 페트리 네트는 또한 아래의 도 2에 도시된 하나의 단일 매트릭스로 표현될 수 있다.

이 매트릭스는 전이들을 활성화함으로써 하나의 장소로부터 다른 장소로 토큰들의 이동을 설명한다. 행들은 장소들이고 열들은 전이들이다. 제2 열 및 제1 행에서의 +1은 예를 들어, 전이 2를 활성화함으로써 하나의 토큰이 장소 1로 이동되는 것을 설명한다. 도 2에서와 같이 매트릭스를 사용함으로써, 페트리 네트의 이하의 상태는 전이 벡터 및 매트릭스 C의 내적을 이전 상태에 가산함으로써 용이하게 계산될 수 있다. 전이 벡터는 원-핫 인코딩된 벡터이며, 이는 제어된 에이전트에 대해 파이어링될 전이를 설명한다.

FMS의 페트리 네트 표현은 RL 에이전트에 대한 아주 적절한 트레이닝 환경이다. RL 에이전트는 정책 / Q-값들(에피소드에 대한 장기 디스카운트된 보상들)이 수렴할 때까지, 예를 들어 Q-학습으로 공지된 알고리즘에 의해 페트리 네트에 대해 트레이닝된다. 페트리 네트의 상태는 그 특성들과 함께, 제어된 다른 제품들의 제품 위치를 포함하여, FMS에서 상황을 표현하기 위한 하나의 구성요소이다. 이 상태는 단일 벡터로 표현될 수 있고 RL 에이전트에 대한 입력 벡터들 중 하나로서 사용된다. 이 벡터는 장소 상에 위치된 제품들의 유형을 포함하여, 페트리 네트 내의 모든 장소에 대한 상태를 정의한다.

즉, 제품 유형 a가 3개에 대한 용량을 갖는 장소 1 상에 위치되면, 제1 벡터 엔트리는 다음과 같이 보인다[a, 0, 0].

3개에 대한 용량을 갖는 장소 2 상에 제품 유형 b 및 c가 있으면, 제1 및 제2 벡터 엔트리는 다음과 같이 보인다[ [a, 0, 0] [b, c, 0] ].

RL 에이전트의 액션 공간은 페트리 네트의 모든 전이들에 의해 정의된다. 그러므로, RL 에이전트의 작업은 상태에 따라 전이들을 파이어링하는 것이다.

파이어링될 전이 t = (001000000000000000)

상태 S1에서의 현재 마킹 S1 = (000000010000)

이하의 상태에서의 계산 S2 = S1 + C.t

상태 S2에서의 현재 마킹 S2 = (010000000000)

이어서, 다음 상태는 단일 라인 코드에서 매우 빠르게 계산되고 보상 기능 및 에이전트로 다시 전파된다. 에이전트는 무효 전이들을 파이어링할 때 마이너스 보상을 받음으로써 플랜트 가동을 우선 학습할 것이고 상이한 에이전트들에 의해 제어되는 모든 제품들이 효율적인 방식으로 생산되도록 적절한 전이들을 나중에 파이어링할 수 있을 것이다. 런타임에서의 에이전트의 액션은 결정이 이루어질 필요가 있는 모든 지점에 제어된 제품이 진행되어야 하는 방향으로 병진된다. 수개의 에이전트들이 추가 전역 최적화 목표를 고려하면서 그들의 최적화 목표에 의해 상이한 제품들을 제어하는 경우, 이 시스템은 온라인 / 반응 스케줄링 시스템으로서 사용될 수 있다.

보상 기능(보상 기능은 발명의 일부가 아니며, 이 단락은 보상 기능이 RL 에이전트를 트레이닝할 시에 어떻게 수반되는지를 이해하기 위한 것일 뿐임)은 에이전트가 선택하는 액션, 따라서 모듈의 디스패칭뿐만 아니라, 에이전트가 주어진 제약들을 어떻게 준수하는지를 평가한다. 따라서, 보상 기능은 이들 프로세스 특정 제약들, 국부 최적화 목표들 및 전역 최적화 목표들을 포함해야 한다. 이들 목표들은 총소요시간, 처리 시간, 재료 비용들, 생산 비용들, 에너지 수요, 및 품질을 포함할 수 있다.

보상 기능은 고려될 최적화 목표들의 수학적 공식이므로, 자동적으로 발생된다.

예를 들어 GUI에서 프로세스 특정 제약들 및 최적화 목표들을 설정하는 것은 플랜트 조작자의 작업이다. 플랜트 조작자의 요망에 따라, 조합된 및 가중된 최적화 목표들을 고려하는 것이 또한 가능하다. 런타임에서, 수신된 보상은 모델을 다시 트레이닝하거나 그것을 미세 조정하기 위해 추가 분석 또는 결정들을 위한 예상된 보상과 비교될 수 있다.

모듈들이 다양한 생산 프로세스들에 의해 대체될 수 있으므로, 이 개념은 임의의 인트라 플랜트 로지스틱스 적용으로 이전가능하다. 본 발명은 온라인 스케줄링에 유익하지만 또한 오프라인 스케줄링을 위해 또는 조합하여 사용될 수 있다.

일부 경우들에서 시스템에 알려지지 않은 상황이 있으면(즉, 새로운 생산 모듈이 있을 때), 시스템은 이 상황에서 액션들을 탐구하고 어떻게 액션들이 수행하는지를 온라인으로 학습할 수 있다. 그러므로, 시스템은 알려지지 않은 상황들에 대한 최상의 액션들을 온라인으로 학습하지만, 그것은 부최적 결정들을 처음에 선택할 가능성이 있을 것이다. 대안적으로, 적응된 플랜트 토폴로지에 의해 예를 들어 GUI를 사용함으로써 트레이닝 설정에서 시스템을 다시 트레이닝할 가능성이 있다.

도 3의 예시적인 GUI(110)에서 우측 측면은 FMS의 표현이다. 모듈러 및 정적 생산 모듈들에 대한 박스들(M1, ... M6) 및 컨베이어 벨트 섹션들을 표현하는 얇은 박스들(C, C1, ... C6)이 있다. 모듈러 박스들(M1, ... M6)의 번호들은 특정 생산 모듈들의 처리 기능성(F1, F5), 예를 들어 드릴링, 셰이핑, 프린팅을 표현한다. 생산 프로세스에서의 하나의 작업이 상이한 생산 스테이션들(M1, ... M6)에 의해 수행될 수 있는 것이 상상가능하지만, 그들은 상이한 처리 기능성들을 실현하며, 그것은 교환가능할 수 있다. 의사 결정 지점들(D1, ... D6)은 원하는 위치들에 배치된다. GUI 뒤에, 의사 결정 지점들에서 결정이 이루어질 필요가 있고(→ 나중에: 에이전트 호출) 제품들이 컨베이어 벨트 상에서 하나의 의사 결정 지점으로부터 다음 지점으로 이동되거나 결정이 이루어진 후에 모듈에 체류할 수 있다는 사실과 같은, 구현되는 고정 및 일반 규칙들이 있다. 플랜트 내의 제품들의 최대 수, 작업 리스트 내의 동작들의 최대 수, 및 모든 가능한 동작들과 비슷한 작업 순서 제약들(117)뿐만 아니라, 모듈들의 성질들(최대 용량 또는 큐 길이를 포함함)은 예시적인 GUI의 제3+ 박스(113)에 설정될 수 있다. 액션들이 또한 설정될 수 있지만, 디폴트로서, 페트리 네트(102)의 모든 전이는 액션이다.

최적화 목표들의 중요도는 예를 들어 GUI에 값들을 설정함으로써 예를 들어 정의될 수 있다(114).

5 x 생산 시간, 2 x 품질, 1 x 에너지 효율

그 다음, 이 정보는 이 예에서, 보상 기능(116)의 수학적 설명에서 직접 해석될 것이다:

0,625 생산 시간 + 0,25 x 품질 + 0,125 x 시간 에너지

발명은 예기치 않은 상황들에 매우 빠르게 온라인으로 상호작용할 가능성을 갖는 스케줄링 시스템을 제의한다. 자체학습 온라인 스케줄링은 규칙 기반 또는 조작되지 않으므로 더 적은 엔지니어링 노력을 야기한다. 제안된 해결책의 경우, 최적 온라인 스케줄은 엔지니어링 노력의 필요 없이 페트리 네트와 상호작용함으로써, 예를 들어 휴리스틱스를 정의함으로써 발견된다.

"시뮬레이션" 시간은 하나의 단일 방정식만이 다음 상태를 계산하는데 필요하기 때문에, 공지된 플랜트 시뮬레이션 툴들과 비교하여 아주 빠르다. 어떠한 통신도 시뮬레이션 툴과 에이전트 사이에 필요하지 않다("시뮬레이션"은 에이전트의 환경에 통합되므로, 또한 어떠한 대응 시간도 없다).

어떠한 시뮬레이션 툴도 트레이닝에 필요하지 않다.

어떠한 라벨링된 데이터도 페트리 네트에 대해 트레이닝되므로 최상의 결정들을 발견하는데 필요하지 않다. FMS들에 대한 페트리 네트는 자동적으로 발생될 수 있다.

다양한 제품들은 동시에 상이한 최적화 목표들 및 추가 전역 최적화 목표를 사용하여 하나의 FMS에서 최적으로 생산될 수 있다.

RL로 인해, 엔지니어가 시스템에 대한 규칙들을 모델링하기 위해 모든 신종 상황을 과도하게 생각할 필요가 없다.

적용된 시스템의 의사 결정은 장소를 온라인으로 그리고 근실시간으로 취한다.

예를 들어 새로운 토폴로지에 대한 에이전트들 오프라인을 리트레이닝할 뿐만 아니라, 온라인 트레이닝이 가능하다.

Claims

적어도 제품(a, b, c, d, e)을 생산하기 위해 사용되는 유연 생산 시스템(500)에 대한 자체 학습 생산 스케줄링을 위한 방법으로서,
상기 생산 시스템은 취급 엔티티들(C, C1, ...)을 통해 상호연결되는 처리 엔티티들(M1, M2, ... M6)로 구성되고,
상기 생산 스케줄링은 상기 유연 생산 시스템의 모델(400) 상의 강화 학습 시스템(300)에 의해 학습될 것이고,
상기 모델은 적어도 상기 유연 생산 시스템의 가동 및 의사 결정을 표현하며, 상기 모델(400)은 페트리 네트(100)로서 실현되는, 방법.
제1항에 있어서, 상기 페트리 네트(100)의 하나의 상태는 상기 유연 생산 시스템에서 하나의 상황을 표현하는 것을 특징으로 하는, 방법.
제1항 또는 제2항에 있어서,
상기 페트리 네트의 장소(PM1, ... PM6)는 상기 하나의 처리 엔티티(M1, M2, ... M6)의 상태를 표현하고,
상기 페트리 네트의 전이(1, ... 24)는 하나의 취급 엔티티를 표현하는 것을 특징으로 하는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 페트리 네트의 전이는 상기 유연 생산 시스템의 액션에 대응하는 것을 특징으로 하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 유연 생산 시스템은 공지된 토폴로지를 갖고, 전이들 및 장소들에 관한 정보를 포함하는 페트리 네트(102)로부터의 정보에 대응하는 매트릭스(103)가 발생되고,
상기 매트릭스(103) 내의 정보의 위치는 상기 유연 생산 시스템의 토폴로지에 따라 순서화되는 것을 특징으로 하는, 방법.
제1항 내지 5항 중 어느 한 항에 있어서,
상기 매트릭스(103)의 바디는 하나의 시점에 상기 유연 생산 시스템에 위치되는 모든 제품(a, b, c, d, e)에 대한 입력을 포함하고,
그것은 상기 유연 생산 시스템 내의 각각의 제품(a, b, c, d, e)의 위치 또는 하나의 위치로부터 다른 위치로의 이동을 나타내는 것을 특징으로 하는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
각각의 제품(a, b, c, d, e)의 특성들을 표현하기 위해 컬러 페트리 네트가 사용되는 것을 특징으로 하는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 강화 학습 시스템의 트레이닝을 위해, 상기 매트릭스(103)에 포함되는 정보는 상기 제품(a, b, c, d, e)의 생산 프로세스 또는 상기 유연 생산 시스템의 효율에 관한 추가적으로 입력된 및 우선순위화된 최적화 기준들에 기초하여 상기 강화 학습 시스템의 다음 단계로의 전이를 선택하기 위한 기초로서 상기 강화 학습 시스템에 대한 입력 정보로 사용되는 벡터를 계산함으로써 사용되는 것을 특징으로 하는, 방법.
적어도 제품(a, b, c, d, e)을 생산하기 위해 사용되는 유연 생산 시스템(500)에 대한 자체 학습 생산 스케줄링을 위한 강화 학습 시스템으로서,
상기 생산 시스템은 취급 엔티티들(C, C1, ...)을 통해 상호연결되는 처리 엔티티들(M1, M2, ... M6)로 구성되고,
학습 프로세스의 입력은 상기 유연 생산 시스템의 모델(400)을 포함하고,
상기 모델은 적어도 상기 유연 생산 시스템의 가동 및 의사 결정을 표현하며, 상기 모델(400)은 제1항 내지 제8항 중 어느 한 항의 방법에 따라, 페트리 네트(100)로서 실현되는, 강화 학습 시스템.