KR20170023098A

KR20170023098A - 타겟 시스템 제어

Info

Publication number: KR20170023098A
Application number: KR1020177001589A
Authority: KR
Inventors: 지크문트 뒬; 미하엘 뮐러; 크레멘즈 오테; 슈테판 우드루프트; 하니 에프. 바실리
Original assignee: 지멘스 악티엔게젤샤프트
Priority date: 2014-06-19
Filing date: 2015-05-11
Publication date: 2017-03-02
Also published as: KR101963686B1; CN106462117A; CN106462117B; EP3129839A1; EP3129839B1; WO2015193032A1; US20150370227A1; US10747184B2; US20170090429A1

Abstract

타겟 시스템, 예컨대 가스 또는 풍력발전용 터빈 또는 다른 기술 시스템을 제어하기 위해, 제어 정책들의 풀이 사용된다. 복수의 제어 정책들을 포함하는 제어 정책들의 풀 및 복수의 제어 정책들 각각을 가중하기 위한 가중치들이 수신된다. 가중된 어그리게이팅된 제어 정책을 제공하기 위해, 복수의 제어 정책들은 가중치들로 가중된다. 이후, 타겟 시스템은 가중된 어그리게이팅된 제어 정책을 사용하여 제어되며, 제어된 타겟 시스템의 성능과 관련된 성능 데이터가 수신된다. 더욱이, 제어된 타겟 시스템의 성능을 개선하기 위해, 가중치들은 수신된 성능 데이터에 기반하여 조정된다. 이후, 가중된 어그리게이팅된 제어 정책을 조정하기 위해, 복수의 제어 정책들은 조정된 가중치들로 재가중된다.

Description

타겟 시스템 제어{CONTROLLING A TARGET SYSTEM}

복합 동적 기술 시스템(complex dynamical technical system)들(예컨대, 가스 터빈(gas turbine)들, 풍력발전용 터빈(wind turbine)들, 또는 다른 플랜트(plant)들)의 제어는 이른바 데이터 중심 접근방식(data driven approach)들에 의해 최적화될 수 있다. 이로 인해, 이러한 동적 시스템들의 다양한 양상들이 개선될 수 있다. 예컨대, 가스 터빈들에 대한 효율, 연소 동역학, 또는 방출들이 개선될 수 있다. 부가적으로, 풍력발전용 터빈들에 대한 수명 소비(life-time consumption), 효율, 또는 요(yaw)가 개선될 수 있다.

현대의 데이터 중심 최적화는, 일반적 또는 특정 최적화 목표들과 관련하여 동적 시스템들의 제어 정책(control policy)들(제어 전략들로 또한 표기됨)을 개선하기 위해 기계 학습 방법들을 활용한다. 이러한 기계 학습 방법들은 종래의 제어 전략들을 능가하게 할 수 있다. 특히, 제어된 시스템이 변경되는 경우, 동적 시스템의 새로운 상황 및 새로운 속성들에 따라 제어 전략을 학습 및 조정할 수 있는 적응형 제어 접근방식은 종래의 비-학습 제어 전략들보다 유리할 수 있다.

그러나, 복합 동적 시스템들(예컨대, 가스 터빈들 또는 다른 플랜트들)을 최적화하기 위해서는, 양호한 제어 전략을 발견 또는 학습하기 위해 충분한 양의 운영 데이터(operational data)가 수집되어야 한다. 따라서, 새로운 플랜트를 시운전(commissioning)하거나, 새로운 플랜트를 업그레이드(upgrading)하거나 또는 수정하는 경우, 양호한 제어 전략이 이용가능하기 전에, 새로운 또는 변경된 시스템의 충분한 운영 데이터를 수집하는 데에 약간의 시간이 걸릴 수 있다. 이러한 변경들에 대한 원인들은, 마모, 수리 후 변경되는 부분들, 또는 상이한 환경 컨디션(environmental condition)들일 수 있다.

기계 학습을 위한 알려진 방법들은, 특정 동적 시스템에 대한 데이터 효율적 학습에 초점을 맞춘 강화 학습 방법(reinforcement learning method)들을 포함한다. 그러나, 이들 방법들을 사용하는 경우에도, 동적 시스템의 변경 후에 양호한 데이터 중심 제어 전략이 이용가능해질 때까지는 약간의 시간이 걸릴 수 있다. 그때까지는, 변경된 동적 시스템은 가능하게 최적화된 엔벨로프(envelope) 외측에서 동작한다. 동적 시스템의 변경 속도가 매우 높은 경우, 충분한 양의 운영 데이터가 이용가능해질 수 없기 때문에, 데이터 중심 최적화에 대한 차선의 결과들만이 달성될 수 있다.

위의 내용을 고려하면, 본 발명의 목적은, 특히 변경되는 타겟 시스템(target system)에 대한 제어 정책의 더 신속한 학습을 허용하는, 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품(computer program product)을 생성하는 것이다.

본 발명에 따르면, 프로세서(processor)에 의해 타겟 시스템(예컨대, 가스 또는 풍력발전용 터빈 또는 다른 기술 시스템)을 제어하기 위한 방법, 제어기, 또는 컴퓨터 프로그램 제품은 제어 정책들의 풀(pool)에 기반한다. 방법, 제어기, 또는 컴퓨터 프로그램 제품은, 복수의 제어 정책들을 포함하는 제어 정책들의 풀을 수신하고, 복수의 제어 정책들 각각을 가중하기 위한 가중치들을 수신하도록 구성된다. 복수의 제어 정책들은, 가중된 어그리게이팅된 제어 정책(weighted aggregated control policy)을 제공하기 위해 가중치들로 가중된다. 이후, 가중된 어그리게이팅된 제어 정책을 사용하여 타겟 시스템이 제어되고, 제어된 타겟 시스템의 성능과 관련된 성능 데이터(performance data)가 수신된다. 더욱이, 가중치들은, 제어된 타겟 시스템의 성능을 개선하기 위해, 수신된 성능 데이터에 기반하여 프로세서에 의해 조정된다. 이후, 복수의 제어 정책들은, 가중된 어그리게이팅된 제어 정책을 조정하기 위해, 조정된 가중치들로 재가중된다.

본 발명은, 복수의 제어 정책들에 대한 가중치들을 조정함으로써 타겟 시스템의 특성(peculiarity)들의 효과적 학습을 허용한다. 일반적으로, 이러한 가중치들은 제어 정책들의 풀 그 자체보다 훨씬 더 적은 파라미터(parameter)들을 포함한다. 따라서, 가중치들의 조정은 훨씬 더 적은 컴퓨팅 노력(computing effort)을 요구할 수 있고, 제어 정책들의 전체 풀의 트레이닝(training)보다 훨씬 더 신속하게 수렴될 수 있다. 그러므로, 더 짧은 시간에 높은 레벨(level)의 최적화에 도달할 수 있다. 특히, 타겟 시스템의 변경들에 대한 반응 시간이 상당히 감소될 수 있다. 더욱이, 복수의 제어 정책들을 어그리게이팅(aggregating)하는 것은, 의도하지 않게 불충분한 정책을 선택할 위험을 감소시키며, 그에 따라 방법의 견고성이 증가된다.

본 발명의 실시예에 따르면, 가중치들은 프로세서에 의해 실행되는 신경 네트워크(neural network)를 트레이닝(training)함으로써 조정될 수 있다.

가중치들의 조정을 위한 신경 네트워크의 사용은 효율적인 학습 및 유연한 적응을 허용한다.

본 발명의 추가의 실시예에 따르면, 복수의 제어 정책들은, 바람직하게는 신경 네트워크를 트레이닝함으로써, 하나 또는 그 초과의 소스 시스템(source system)들의 운영 데이터의 상이한 데이터 세트(data set)들로부터 계산될 수 있다. 상이한 데이터 세트들은, 상이한 소스 시스템들, 하나 또는 그 초과의 소스 시스템들의 상이한 버전(version)들, 상이한 정책 모델(policy model)들, 상이한 기후지역(clime)들의 소스 시스템들, 또는 상이한 컨디션들(예컨대, 수리 전후, 유지보수 전후, 변경된 부분들 전후 등) 하의 하나 또는 그 초과의 소스 시스템들과 관련될 수 있다.

하나 또는 그 초과의 소스 시스템들은 타겟 시스템과 유사하게 선택될 수 있어서, 하나 또는 그 초과의 소스 시스템들에 대해 최적화된 제어 정책들은 타겟 시스템에 대해 양호하게 수행할 것으로 예상된다. 그러므로, 하나 또는 그 초과의 유사한 소스 시스템들에 기반하는 복수의 제어 정책들은 타겟 시스템을 제어하기 위한 양호한 시작점이다. 유사한 상황들로부터의 이러한 학습은 종종 "전달 학습(transfer learning)"으로 표기된다. 그러므로, 타겟 시스템에 대한 양호한 어그리게이팅된 제어 정책을 획득하기 위해, 타겟 시스템과 관련된 훨씬 더 적은 성능 데이터가 필요하다. 따라서, 데이터가 부족한 타겟 시스템들에 대해서도, 효과적인 어그리게이팅된 제어 정책들이 짧은 시간 내에 학습될 수 있다.

복수의 제어 정책들의 계산은, 소스 시스템들의 성능과 관련된 보상 함수(reward function)를 사용할 수 있다. 바람직하게, 그 보상 함수는 또한 가중치들의 조정을 위해 사용된다.

더욱이, 성능 데이터는 타겟 시스템의 현재 상태와 관련된 상태 데이터를 포함할 수 있다. 그 다음으로, 복수의 제어 정책들은 상태 데이터에 의존하여 가중 및/또는 재가중될 수 있다. 이는 가중치들의 더 정확하고 더 효과적인 조정을 허용한다. 특히, 제어 정책이 양호하게 수행하는 것으로 밝혀진 상태가 인식되면, 그 제어 정책의 가중치는 증가될 수 있고 그 반대도 가능하다.

유리하게, 성능 데이터는 제어된 타겟 시스템으로부터, 타겟 시스템의 시뮬레이션 모델(simulation model)로부터, 그리고/또는 정책 평가(policy evaluation)로부터 수신될 수 있다. 제어된 타겟 시스템으로부터의 성능 데이터는, 타겟 시스템의 실제 성능을 모니터링(monitor)하고 타겟 시스템의 특정 응답 특징을 학습함으로써 그 성능을 개선하도록 허용한다. 다른 한편, 타겟 시스템의 시뮬레이션 모델은 또한, 보상 함수에 대한 왓-이프 질의(what-if query)들을 허용한다. 더욱이, 정책 평가를 이용시, 이른바 Q-함수(Q-function)가 셋업(set up)되어, 보상 함수에 대한 기대값(expectation value)을 결정하도록 허용할 수 있다.

더욱이, 타겟 시스템을 제어하기 위한 어그리게이팅된 제어 액션(aggregated control action)은, 복수의 제어 정책들에 따라 액션 제안들로부터 가중 다수결 투표(weighted majority voting)를 함으로써, 가중 평균(weighted mean)을 형성함으로써, 그리고/또는 가중 중앙값(weighted median)을 형성함으로써, 가중된 어그리게이팅된 제어 정책에 따라 결정될 수 있다.

본 발명의 바람직한 실시예에 따르면, 신경 네트워크의 트레이닝은, 동적 시스템들에 대한 제어 정책들의 효율적 학습을 허용하는 강화 학습 모델(reinforcement learning model)에 기반할 수 있다.

특히, 신경 네트워크는 순환 신경 네트워크(recurrent neural network)로서 동작할 수 있다. 이는, 동적 시스템을 제어할 때, 시간 종속적 패턴(time dependent pattern)들의 효율적인 검출을 가능하게 하는 내부 상태를 유지하는 것을 허용한다. 더욱이, 많은 이른바 부분적 관찰가능 마르코프 결정 프로세스(Partially Observable Markov Decision Process)들은 순환 신경 네트워크에 의해 이른바 마르코프 결정 프로세스들처럼 처리될 수 있다.

복수의 제어 정책들은, 제어 정책들의 성능 평가에 의존하여 제어 정책들의 풀로부터 선택될 수 있다. 선택된 제어 정책들은 이른바 제어 정책들의 앙상블(ensemble)을 확립할 수 있다. 특히, 미리 정의된 기준에 따라 양호하게 수행되는 단지 그러한 제어 정책들만이 제어 정책들의 풀로부터 선택될 수 있다.

더욱이, 제어 정책들의 풀로부터의 제어 정책들은, 조정된 가중치들에 의존하여 복수의 제어 정책들에 포함되거나 또는 복수의 제어 정책들로부터 제외될 수 있다. 이는, 복수의 제어 정책들에 포함된 제어 정책들의 선택을 개선하게 한다. 그러므로, 예컨대, 계산 노력을 감소시키기 위해, 매우 작은 가중치들을 갖는 제어 정책들은 복수의 제어 정책들로부터 제거될 수 있다.

도 1은 제어 정책들의 풀을 생성하는 제어기들과 함께 타겟 시스템 및 몇몇 소스 시스템들을 포함하는, 본 발명의 예시적 실시예를 예시한다.
도 2는 제어기와 함께 타겟 시스템을 더 상세하게 예시한다.

도 1은 타겟 시스템(target system)(TS) 및 몇몇 소스 시스템(source system)들(S1, ..., SN)을 포함하는 본 발명의 예시적 실시예를 예시한다. 타겟 시스템(TS) 및 소스 시스템들(S1, ..., SN)은, 동적 시스템을 시뮬레이팅(simulating)하기 위한 시뮬레이션 도구(simulation tool)들을 포함하는 가스 또는 풍력발전용 터빈들 또는 다른 동적 시스템들일 수 있다. 바람직하게, 소스 시스템들(S1, ..., SN)은 타겟 시스템(TS)과 유사하게 선택된다.

소스 시스템들(S1, ..., SN)은 또한, 상이한 시간에서, 예컨대, 타겟 시스템(TS)의 유지보수 전 또는 시스템 컴포넌트(system component)의 교환 전 등에서 타겟 시스템(TS)을 포함할 수 있다. 역으로, 타겟 시스템(TS)은 나중 시간에서 소스 시스템들(S1, ..., SN) 중 하나일 수 있다.

소스 시스템들(S1, ..., SN) 각각은 강화 학습 제어기(reinforcement learning controller)(RLC1, ..., 또는 RLCN)에 의해 각각 제어되고, 강화 학습 제어기(RLC1, ..., 또는 RLCN)는 제어 정책(control policy)(P1, ..., 또는 PN)에 의해 각각 구동된다. 강화 학습 제어기들(RLC1, ..., RLCN) 각각은 학습을 위해, 즉, 제어 정책들(P1, ..., PN)을 최적화하기 위해 순환 신경 네트워크(도시되지 않음)를 포함할 수 있다. 소스 시스템들(S1, ..., SN)의 소스 시스템 특정 운영 데이터(operational data)(OD1, ..., ODN)가 수집되어 데이터베이스(data base)들(DB1, ..., DBN)에 저장된다. 운영 데이터(OD1, ..., ODN)는 제어 정책들(P1, ..., PN)에 따라 프로세싱되고(processed), 제어 정책들(P1, ..., PN)은 강화 학습 제어기들(RLC1, ..., RLCN)에 의한 강화 학습에 의해 개량된다. 제어 정책들(P1, ..., PN)의 제어 출력이 제어 루프(control loop)(CL)를 통해 각각의 소스 시스템(S1, ..., 또는 SN)에 피드백되어(fed back), 각각의 강화 학습 제어기(RLC1, ..., 또는 RLCN)에서 각각의 제어 정책(P1, ..., 또는 PN)을 위한 폐쇄 학습 루프(closed learning loop)가 초래된다. 제어 정책들(P1, ..., PN)은 강화 학습 정책 생성기(reinforcement learning policy generator)(PGEN)에 피딩되고(fed), 강화 학습 정책 생성기(PGEN)는 제어 정책들(P1, ..., PN)을 포함하는 제어 정책들의 풀(pool)(P)을 생성한다.

타겟 시스템(TS)은 순환 신경 네트워크(recurrent neural network)(RNN) 및 어그리게이팅된 제어 정책(aggregated control policy)(ACP)을 포함하는 강화 학습 제어기(RLC)에 의해 제어된다. 강화 학습 제어기(RLC)는 강화 학습 정책 생성기(PGEN)로부터 제어 정책들(P1, ..., PN)을 수신하고, 제어 정책들(P1, ..., PN)로부터 어그리게이팅된 제어 정책(ACP)을 생성한다.

더욱이, 강화 학습 제어기(RLC)는 타겟 시스템(TS)의 현재 성능과 관련된 성능 데이터(performance data)(PD), 예컨대 현재 전력 출력, 현재 효율 등을 타겟 시스템(TS)으로부터 수신한다. 성능 데이터(PD)는 타겟 시스템(TS)의 현재 상태와 관련된 상태 데이터(state data)(SD), 예컨대 온도, 회전 속도 등을 포함한다. 성능 데이터(PD)는 순환 신경 네트워크(RNN)의 트레이닝을 위해 순환 신경 네트워크(RNN)에 입력되고, 제어 루프(CL)를 통해 타겟 시스템(TS)을 제어하기 위해 어그리게이팅된 제어 액션을 생성하기 위해 어그리게이팅된 제어 정책(ACP)에 입력된다. 이는, 강화 학습 제어기(RLC)에 대한 폐쇄 학습 루프를 초래한다.

몇몇 유사한 소스 시스템들(S1, ..., SN)로부터의 사전-트레이닝된(pre-trained) 제어 정책들(P1, ..., PN)의 사용은, 강화 학습 제어기(RLC)에 의해 실행되는 신경 모델에 대한 양호한 시작점을 제공한다. 이로 인해, 타겟 시스템(TS)에 대한 효율적인 제어 정책을 학습하기 위해 요구되는 데이터 및/또는 시간의 양이 상당히 감소될 수 있다.

도 2는 강화 학습 제어기(RLC)와 함께 타겟 시스템(TS)을 더 상세하게 예시한다. 강화 학습 제어기(RLC)는 프로세서(processor)(PROC) 및 ― 위에서 이미 언급된 바와 같은 ― 순환 신경 네트워크(RNN) 및 어그리게이팅된 제어 정책(ACP)을 포함한다. 순환 신경 네트워크(RNN)는 강화 학습 모델을 구현한다.

타겟 시스템(TS)으로부터 유래된 상태 데이터(SD)를 포함하는 성능 데이터(PD(SD))는 순환 신경 네트워크(RNN) 및 어그리게이팅된 제어 정책(ACP)에 입력된다. 더욱이, 제어 정책들(P1, ..., PN)이 강화 학습 제어기(RLC)에 입력된다. 제어 정책들(P1, ..., PN)은 전체 풀(P)을 포함하거나 또는 풀(P)로부터의 제어 정책들의 선택을 포함할 수 있다.

순환 신경 네트워크(RNN)는 제어 정책들(P1, ..., PN) 각각을 가중하기 위한 가중치(weight)들(W1, ..., WN)을 포함하는 가중 정책(weighting policy)(WP)을 트레이닝(train)하도록 적응된다. 가중치들(W1, ..., WN)은, 강화 학습 제어기(RLC)에 의해, 예컨대 강화 학습 정책 생성기(PGEN)로부터 또는 상이한 소스로부터 수신된 초기 가중치(initial weight)들(IW1, ..., IWN)에 의해 초기화된다.

어그리게이팅된 제어 정책(ACP)은 순환 신경 네트워크(RNN)로부터 가중치들(W1, ..., WN)을 수신하는 어그리게이션 함수(aggregation function)(AF) 및 제어 정책들(P1, ..., PN)에 의존한다. 제어 정책들(P1, ..., PN) 각각 또는 제어 정책들(P1, ..., PN)의 미리 선택된 부분은, 상태 데이터(SD)를 갖는 성능 데이터(PD(SD))를 수신하여, 그들로부터 특정 액션 제안(action proposal)(AP1, ..., 또는 APN)을 각각 계산한다. 액션 제안들(AP1, ..., APN)은 어그리게이션 함수(AF)에 입력되고, 어그리게이션 함수(AF)는 액션 제안들(AP1, ..., APN) 각각을 각각의 가중치(W1, ..., 또는 WN)로 가중하여, 그들로부터 어그리게이팅된 제어 액션(aggregated control action)(AGGA)을 생성한다. 액션 제안들(AP1, ..., APN)은, 예컨대 제어 정책들(P1, ..., PN)로부터 다수결 투표를 함으로써, 가중 평균을 형성함으로써, 그리고/또는 가중 중앙값을 형성함으로써 가중될 수 있다. 그 다음으로, 타겟 시스템(TS)은 어그리게이팅된 제어 액션(AGGA)에 의해 제어된다.

어그리게이팅된 제어 액션(AGGA)에 의한 타겟 시스템(TS)의 제어로부터 초래된 성능 데이터(PD(SD))는 어그리게이팅된 제어 정책(ACP) 및 순환 신경 네트워크(RNN)에 피드백된다. 피드백된 성능 데이터(PD(SD))로부터 새로운 특정 액션 제안들(AP1, ..., APN)이 제어 정책들(P1, ..., PN)에 의해 계산된다. 다른 한편, 순환 신경 네트워크(RNN)는 타겟 시스템(TS)으로부터 피드백된 성능 데이터(PD(SD))에 의존하여 가중치들(W1, ..., WN)을 조정하기 위해 타겟 시스템(TS)의 원하는 성능과 관련된 보상 함수(도시되지 않음)를 사용한다. 가중치들(W1, ..., WN)은 원하는 성능의 개선을 지향하는 최적화 목표에 따라 강화 학습에 의해 조정된다. 조정된 가중치들(W1, ..., WN)을 이용시, 어그리게이션 함수(AF)의 업데이트(update)(UDP)가 이루어진다. 그 다음으로, 업데이트된(updated) 어그리게이션 함수(AF)는, 타겟 시스템(TS)을 제어하기 위한 새로운 어그리게이팅된 제어 액션(AGGA)을 생성하기 위해, 새로운 액션 제안들(AP1, ..., APN)을 조정된 가중치들(W1, ..., WN)로 가중하는데, 즉, 제어 정책들(P1, ..., PN)을 재가중한다. 위의 단계들은 타겟 시스템(TS)의 성능의 상당한 개선을 초래하는 폐쇄 학습 루프를 구현한다.

실시예의 더 상세한 설명이 아래에서 주어진다:

각각의 제어 정책(P1, ..., PN)은, 각각 운영 데이터(OD1, ..., 또는 ODN)의 세트에 기반하여 강화 학습 제어기들(RLC1, ..., RLCN)에 의해 초기에 계산된다. 특정 제어 정책에 대한 운영 데이터의 세트는 다수의 방식들로 특정될 수 있다. 운영 데이터의 이러한 특정 세트들에 대한 예들은, 단일 시스템, 예컨대 단일 플랜트의 운영 데이터, 특정 버전의 다수의 플랜트들의 운영 데이터, 수리 이전의 그리고/또는 이후의 플랜트들의 운영 데이터, 또는 특정 기후지역의, 특정 운영 컨디션의, 그리고/또는 특정 환경 컨디션의 플랜트들의 운영 데이터일 수 있다. 더욱이, P1, ..., PN와 상이한 제어 정책들은 동일한 세트의 운영 데이터에 대해 트레이닝된(trained) 상이한 정책 모델들을 나타낼 수 있다.

특정 소스 시스템에 특정한 이러한 제어 정책들 중 임의의 제어 정책을 타겟 시스템에 적용할 때, 일반적으로 최적으로 수행되지 않을 수 있는데, 그 이유는 데이터 세트들 중 어떠한 데이터 세트도 타겟 시스템에 해당하지 않았기 때문이다. 그러므로, 다수의 제어 정책들은 제어 정책들(P1, ..., PN)의 앙상블을 형성하기 위해 풀(P)로부터 선택될 수 있다. 각각의 제어 정책(P1, ..., PN)은 성능 데이터(PD(SD))로부터 개별 액션 제안(AP1, ..., 또는 APN)을 제공한다. 액션 제안들(AP1, ..., APN)은 어그리게이팅된 제어 정책(ACP)의 어그리게이팅된 제어 액션(AGGA)을 계산하기 위해 어그리게이팅된다(aggregated). 이산 액션 제안들(AP1, ..., APN)의 경우, 어그리게이션은 다수결 투표를 사용하여 수행될 수 있다. 액션 제안들(AP1, ..., APN)이 연속적인 경우, 액션 제안들(AP1, ..., APN)의 평균 또는 중앙 값이 어그리게이션을 위해 사용될 수 있다.

특히, 타겟 시스템(TS)이 변경되는 경우, 조정된 가중치들(W1, ..., WN)에 의한 제어 정책들(P1, ..., PN)의 재가중은, 어그리게이팅된 제어 정책(ACP)의 신속한 조정을 허용한다. 재가중은 타겟 시스템(TS)과 상호작용하는 동안 생성된 최근의 성능 데이터(PD(SD))에 의존한다. 가중 정책(WP)은, 제어 정책이 일반적으로 갖는 것보다 더 적은 자유 파라미터들, 즉, 가중치들(W1, ..., WN)을 갖기 때문에, 새로운 상황 또는 수정된 시스템에 대해 조정하기 위해 더 적은 데이터가 요구된다. 가중치들(W1, ..., WN)은 타겟 시스템의 현재의 성능 데이터(PD(SD))를 사용하여 그리고/또는 (예컨대, 부가적 순환 신경 네트워크에 의해 구현된) 타겟 시스템의 모델을 사용하여 그리고/또는 이른바 정책 평가를 사용하여 조정될 수 있다.

간단한 구현에 따르면, 각각의 제어 정책(P1, ..., PN)은 전역적으로(즉, 타겟 시스템(TS)의 전체 상태 공간에 걸쳐) 가중될 수 있다. 가중치 0은, 특정 제어 정책이, 정책들의 앙상블의 부분이 아니라는 것을 표시할 수 있다.

부가적으로 또는 대안적으로, 어그리게이션 함수(AF)에 의한 가중은 시스템 상태, 즉, 타겟 시스템(TS)의 상태 데이터(SD)에 의존할 수 있다. 이는 타겟 시스템(TS)의 상태 공간의 하나의 구역 내에서 높은 가중치들을 갖는 양호한 제어 정책들을 우대(favor)하기 위해 사용될 수 있다. 상태 공간의 다른 구역들 내에서는 그러한 제어 정책들이 전혀 사용되지 않을 수 있다.

구체적으로,

(

임)는 저장된 제어 정책들(P1, ..., PN)의 세트로부터의 제어 정책을 표기하는 것으로 하고, s는 타겟 시스템(TS)의 현재 상태를 표기하는 벡터(vector)라고 한다. 그 다음으로, 가중치 함수

는 s에 의해 표기된 현재 상태에 의존하여 (세트(W1, ..., WN)의) 가중치

를 각각의 제어 정책

에 할당할 수 있는데, 즉,

이다. 가능한 접근방식은,

가 양호하게 수행되는 그러한 상태들을 포함하는 트레이닝 세트에서

와 함께 저장된 상태들과 현재 상태 s 사이의 (상태 공간의 미리 정의된 메트릭(metric)에 따른) 거리들에 기반하여 가중치들

를 계산하는 것일 수 있다. 예컨대, 확률론적 정책에 의해 제공된 불확실성 추정치들이 또한 가중치 계산에 포함될 수 있다.

바람직하게, 전역적 그리고/또는 상태 종속적 가중은 강화 학습을 사용하여 최적화된다. 이러한 강화 학습 문제의 액션 공간은 가중치들(W1, ..., WN)의 공간인 한편, 상태 공간은 타겟 시스템(TS)의 상태 공간에 정의된다. 예컨대, 10개의 제어 정책들의 풀의 경우, 액션 공간은 단지 10 차원적이므로, 비교가능하게 입력 데이터가 거의 없고 계산 노력이 거의 없는 신속한 최적화를 허용한다. 액션 공간의 차원성을 훨씬 더 감소시키기 위해, 이른바 메타 액션(meta action)들이 사용될 수 있다. 강화 학습 접근방식을 사용함으로써, 이른바 지연 효과들이 완화된다.

가중치들(W1, ..., WN)의 조정은 바람직하게, 제어 정책들(P1, ..., PN)의 앙상블의 측정된 성능을 보상 함수에 적용함으로써 수행된다. 보상 함수는 바람직하게, 타겟 시스템(TS)의 효율을 최대화하고, 출력을 최대화하고, 방출들을 최소화하고, 그리고/또는 마모를 최소화하는 목표에 따라 선택될 수 있다. 특히, 제어 정책들(P1, ..., PN)을 트레이닝하기 위해 사용되는 보상 함수는 가중 정책(WP)을 트레이닝하기 위해 그리고/또는 초기화하기 위해 사용될 수 있다.

트레이닝된 가중치들(W1, ..., WN)을 이용시, 어그리게이팅된 제어 액션(AGGA)은

에 따라 컴퓨팅될(computed) 수 있으며,

이고,

이다.

Claims

제어 정책(control policy)들의 풀(pool)에 기반하여 프로세서(processor)에 의해 타겟 시스템(target system)을 제어하기 위한 방법으로서,
a) 복수의 제어 정책들을 포함하는 상기 제어 정책들의 풀을 수신하는 단계,
b) 상기 복수의 제어 정책들 각각을 가중하기 위한 가중치들을 수신하는 단계,
c) 가중된 어그리게이팅된 제어 정책(weighted aggregated control policy)을 제공하기 위해 상기 복수의 제어 정책들을 상기 가중치들로 가중하는 단계,
d) 상기 가중된 어그리게이팅된 제어 정책을 사용하여 상기 타겟 시스템을 제어하는 단계,
e) 제어된 타겟 시스템의 성능과 관련된 성능 데이터(performance data)를 수신하는 단계,
f) 상기 제어된 타겟 시스템의 성능을 개선하기 위해, 수신된 성능 데이터에 기반하여 상기 프로세서에 의해 상기 가중치들을 조정하는 단계, 및
g) 상기 가중된 어그리게이팅된 제어 정책을 조정하기 위해, 상기 복수의 제어 정책들을 조정된 가중치들로 재가중하는 단계를 포함하는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항에 있어서,
상기 가중치들은 상기 프로세서에 의해 실행되는 신경 네트워크(neural network)를 트레이닝(training)함으로써 조정되는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항에 있어서,
a) 적어도 하나의 소스 시스템(source system)의 운영 데이터(operational data)를 수신하는 단계, 및
b) 상기 운영 데이터의 상이한 데이터 세트(data set)들로부터 상기 복수의 제어 정책들을 계산하는 단계를 더 포함하는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 3 항에 있어서,
상기 복수의 제어 정책들은, 상기 신경 네트워크 또는 추가의 신경 네트워크를 트레이닝함으로써 계산되는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 3 항에 있어서,
상기 복수의 제어 정책들의 계산은, 상기 적어도 하나의 소스 시스템의 성능과 관련된 보상 함수(reward function)를 사용하고, 그리고
상기 보상 함수는 상기 가중치들의 조정을 위해 사용되는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항에 있어서,
상기 성능 데이터는 상기 타겟 시스템의 현재 상태와 관련된 상태 데이터를 포함하고, 그리고
상기 복수의 제어 정책들의 가중 및/또는 재가중은 상기 상태 데이터에 의존하는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항에 있어서,
상기 성능 데이터는 상기 제어된 타겟 시스템으로부터, 상기 타겟 시스템의 시뮬레이션 모델(simulation model)로부터, 그리고/또는 정책 평가(policy evaluation)로부터 수신되는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항에 있어서,
상기 타겟 시스템을 제어하기 위해, 어그리게이팅된 제어 액션(aggregated control action)이, 상기 복수의 제어 정책들에 따라 액션 제안들로부터 가중 다수결 투표(weighted majority voting)를 함으로써, 가중 평균(weighted mean)을 형성함으로써, 그리고/또는 가중 중앙값(weighted median)을 형성함으로써, 상기 가중된 어그리게이팅된 제어 정책에 따라 결정되는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 2 항에 있어서,
상기 신경 네트워크의 트레이닝은 강화 학습 모델(reinforcement learning model)에 기반하는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 2 항에 있어서,
상기 신경 네트워크는 순환 신경 네트워크(recurrent neural network)로서 동작하는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항에 있어서,
상기 복수의 제어 정책들은, 제어 정책들의 성능 평가에 의존하여 상기 제어 정책들의 풀로부터 선택되는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항에 있어서,
상기 제어 정책들의 풀로부터의 제어 정책들은, 상기 조정된 가중치들에 의존하여 상기 복수의 제어 정책들에 포함되거나 또는 상기 복수의 제어 정책들로부터 제외되는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항에 있어서,
제 1 항의 단계 d) 내지 단계 g)는 상기 타겟 시스템과 함께 폐쇄 학습 루프(closed learning loop)에서 실행되는,
제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 방법.
제 1 항의 방법을 수행하도록 적응된, 제어 정책들의 풀에 기반하여 타겟 시스템을 제어하기 위한 제어기.
제 1 항의 방법을 수행하도록 적응된, 제어 정책들의 풀에 기반하여 프로세서에 의해 타겟 시스템을 제어하기 위한 컴퓨터 프로그램 제품(computer program product).