KR101961421B1

KR101961421B1 - 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품

Info

Publication number: KR101961421B1
Application number: KR1020167032311A
Authority: KR
Inventors: 지그문트 두엘; 지구르트 스피케르만; 슈테판 우드루프트; 므리날 문시
Original assignee: 지멘스 악티엔게젤샤프트
Priority date: 2014-04-22
Filing date: 2015-04-16
Publication date: 2019-03-22
Also published as: WO2015162050A1; EP3117274A1; EP3117274B1; DK3117274T3; US20150301510A1; ES2665072T3; KR20160147858A

Abstract

타겟 시스템, 예컨대, 가스 또는 풍력 터빈 또는 다른 기술 시스템을 제어하기 위해, 복수의 소스 시스템들의 운영 데이터가 사용된다. 소스 시스템들의 운영 데이터가 수신되고, 소스 시스템 특정 식별자들에 의해 구별된다. 신경망에 의하여, 소스 시스템 특정 식별자들을 고려하여 소스 시스템들의 수신된 운영 데이터에 기초하여 신경 모델이 트레이닝되며, 여기서 제 1 신경 모델 컴포넌트는 소스 시스템들에 의해 공유되는 특성들에 관해 트레이닝되고, 제 2 신경 모델 컴포넌트는 소스 시스템들 사이에서 변하는 특성들에 관해 트레이닝된다. 트레이닝된 신경 모델은, 타겟 시스템의 운영 데이터를 수신한 이후에, 타겟 시스템의 운영 데이터에 기초하여 추가 트레이닝되며, 여기서 제 1 신경 모델 컴포넌트의 추가 트레이닝보다 제 2 신경 모델 컴포넌트의 추가 트레이닝에 우선권이 주어진다. 타겟 시스템은 추가 트레이닝된 신경망에 의하여 제어된다.

Description

소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품{METHOD, CONTROLLER, AND COMPUTER PROGRAM PRODUCT FOR CONTROLLING A TARGET SYSTEM BY SEPARATELY TRAINING A FIRST AND A SECOND RECURRENT NEURAL NETWORK MODELS, WHICH ARE INITIALLY TRAINED USING OPARATIONAL DATA OF SOURCE SYSTEMS}

복잡한 동적 기술 시스템(system)들, 예컨대, 가스 터빈(gas turbine)들, 풍력 터빈들 또는 다른 플랜트(plant)들의 제어는 소위 데이터(data) 구동 접근법들에 의하여 최적화될 수 있다. 이로 인해, 이러한 동적 시스템들의 다양한 양상들, 예컨대, 가스 터빈들의 경우 그들의 효율성, 연소 역학(dynamics), 또는 방출들, 그리고 예컨대, 풍력 터빈들의 경우 그들의 수명 소모, 효율성, 또는 요(yaw)가 개선될 수 있다.

최신 데이터 구동 최적화는, 일반적 또는 특정 최적화 목표들에 관한 동적 시스템들의 제어 전략들 또는 정책들을 개선시키기 위해 머신 러닝(machine learning) 방법들을 활용한다. 이러한 머신 러닝 방법들은 종종, 통상적인 제어 전략들을 능가하게 한다. 특히, 제어되는 시스템이 변화하고 있다면, 동적 시스템의 새로운 특성들 및 새로운 상황에 따라 제어 전략을 학습 및 조정할 수 있는 적응 제어 접근법이 통상적인 비-학습 제어 전략들보다 종종 유리하다.

그러나, 복잡한 동적 시스템들, 예컨대, 가스 터빈들 또는 다른 플랜트들을 최적화하기 위하여, 우수한 제어 전략을 찾거나 또는 학습하기 위해 충분한 양의 운영 데이터가 수집되어야 한다. 따라서, 새로운 플랜트를 의뢰하거나, 그것을 업그레이딩(upgrading)하거나 또는 수정하는 경우, 우수한 제어 전략이 이용가능하기 이전에 새로운 또는 변화된 시스템의 충분한 운영 데이터를 수집하는데 약간의 시간이 걸릴 수 있다. 이러한 변화들에 대한 이유들은 마모, 수리 이후에 변화된 부품들, 또는 상이한 환경 조건들일 수 있다.

머신 러닝에 대한 알려진 방법들은, 특정된 동적 시스템에 대한 데이터 효율적 학습에 초점을 맞추는 강화 학습 방법들을 포함한다. 그러나, 심지어 이들 방법들을 사용할 때에도, 동적 시스템의 변화 이후에 우수한 데이터 구동 제어 전략이 이용가능할 때까지 약간의 시간이 걸릴 수 있다. 그때까지, 변화된 동적 시스템은 어쩌면 최적화된 엔벨로프(envelope) 밖에서 동작한다. 동적 시스템의 변화 레이트(rate)가 매우 높다면, 데이터 구동 최적화를 위한 차선의 결과들만이 달성될 수 있는데, 그 이유는 충분한 양의 운영 데이터가 결코 이용가능하지 않을 수 있기 때문이다.

상기를 고려하여, 본 발명의 목적은 특히 변화하는 타겟(target) 시스템에 대한 제어 전략들의 더욱 신속한 학습을 허용하는, 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램(computer program) 제품을 생성하는 것이다.

본 발명에 따라, 타겟 시스템, 예컨대, 가스 또는 풍력 터빈 또는 다른 기술 시스템을 제어하기 위한 방법, 제어기, 또는 컴퓨터 프로그램 제품은 복수의 소스(source) 시스템들의 운영 데이터에 기초한다. 방법, 제어기, 또는 컴퓨터 프로그램 제품은 소스 시스템들의 운영 데이터를 수신하도록 구성되며, 운영 데이터는 소스 시스템 특정 식별자들에 의해 구별된다. 신경망에 의하여, 신경 모델(model)이 소스 시스템 특정 식별자들을 고려하여 소스 시스템들의 수신된 운영 데이터에 기초하여 트레이닝되며(trained), 여기서 제 1 신경 모델 컴포넌트(component)는 소스 시스템들에 의해 공유되는 특성들에 관해 트레이닝되고, 제 2 신경 모델 컴포넌트는 소스 시스템들 사이에서 변하는 특성들에 관해 트레이닝된다. 트레이닝된 신경 모델은, 타겟 시스템의 운영 데이터를 수신한 이후에, 타겟 시스템의 운영 데이터에 기초하여 추가 트레이닝되며, 여기서 제 1 신경 모델 컴포넌트의 추가 트레이닝보다 제 2 신경 모델 컴포넌트의 추가 트레이닝에 우선권이 주어진다. 타겟 시스템은 추가 트레이닝된 신경망에 의하여 제어된다.

본 발명이 복수의 소스 시스템들의 운영 데이터를 사용하고, 이들 운영 데이터에 의하여 학습되는 신경 모델들을 사용하기 때문에, 타겟 시스템의 신경 모델에 대한 우수한 시작점이 획득된다. 실제로, 스크래치(scratch)로부터 타겟 시스템에 대한 신경 모델을 학습하는 경우에서보다, 타겟 시스템에 대한 정확한 신경 모델을 획득하기 위하여, 타겟 시스템으로부터의 훨씬 더 적은 운영 데이터가 요구된다. 따라서, 심지어 부족한 데이터를 갖는 타겟 시스템들에 대해서도, 효과적인 제어 전략들 또는 정책들이 짧은 시간에 학습될 수 있다.

본 발명의 바람직한 실시예에서, 제 1 신경 모델 컴포넌트는 제 1 적응 가중치들에 의해 표현될 수 있고, 제 2 신경 모델 컴포넌트는 제 2 적응 가중치들에 의해 표현될 수 있다. 이러한 적응 가중치들은 또한, 개개의 신경 모델 컴포넌트의 매개변수들로서 표시될 수 있다.

바람직하게, 제 2 적응 가중치들의 개수는 제 1 적응 가중치들의 개수보다 몇 배 더 적을 수 있다. 제 1 적응 가중치들에 의해 표현되는 제 1 신경 모델 컴포넌트의 트레이닝보다 제 2 적응 가중치들에 의해 표현되는 제 2 신경 모델 컴포넌트의 트레이닝에 우선권이 주어지기 때문에, 타겟 시스템에 대한 추가 트레이닝 동안에 적응될 가중치들의 개수가 상당히 감소될 수 있다. 이는, 타겟 시스템에 대한 더욱 신속한 학습을 허용한다.

또한, 제 1 적응 가중치들은 제 1 가중치 행렬(matrix)을 포함할 수 있고, 제 2 적응 가중치들은 제 2 가중치 행렬을 포함할 수 있다. 제 2 가중치 행렬은 대각 행렬일 수 있다. 신경 모델의 적응 가중치들을 결정하기 위해, 제 1 가중치 행렬이 제 2 가중치 행렬로 곱해질 수 있다.

바람직한 실시예에 따라, 제 1 신경 모델 컴포넌트는 추가 트레이닝되지 않을 수 있다. 이는, 소스 시스템들 사이에서 변하는 특성들을 반영하는 제 2 신경 모델 컴포넌트의 트레이닝에 초점을 맞추게 한다.

대안적으로, 트레이닝된 신경 모델을 추가 트레이닝할 때, 제 1 적응 가중치들의 제 1 서브세트(subset)는 실질적으로 일정하게 유지될 수 있고, 반면에 제 1 적응 가중치들의 제 2 서브세트는 추가 트레이닝될 수 있다. 이는, 심지어 추가 트레이닝 단계 동안에도, 시스템들에 의해 공유되는 특성들을 반영하는 제 1 신경망 컴포넌트의 미세 튜닝(tuning)을 허용한다.

본 발명의 바람직한 실시예에 따라, 신경 모델은, 동적 시스템들에 대한 제어 전략들의 효율적 학습을 허용하는 강화 학습 모델일 수 있다.

유리하게, 신경망은 재귀 신경망으로서 동작할 수 있다. 이는 내부 상태를 유지시키는 것을 허용하며, 이는 동적 시스템을 제어할 때 시간 종속적 패턴(pattern)들의 효율적 검출을 가능하게 한다. 게다가, 많은 소위 부분적으로 관찰가능한 마르코프(Markov) 의사결정 프로세스(Process)들은 재귀 신경망에 의하여 소위 마르코프 의사결정 프로세스들처럼 처리될 수 있다.

본 발명의 바람직한 실시예에 따라, 신경 모델의 트레이닝 동안에, 신경 모델이 소스 시스템들에 의해 공유되는 특성들과 소스 시스템들 사이에서 변하는 특성들 사이의 차이를 반영하는지의 여부가 결정될 수 있다. 그 결정에 따라, 신경 모델의 트레이닝이 영향받을 수 있다. 특히, 이러한 차이가 미리결정된 신뢰성으로 검출되면, 소스 시스템들의 운영 데이터에 기초하는 신경 모델의 트레이닝은 완료될 수 있다.

게다가, 트레이닝된 신경 모델로부터 도출되는 정책들 또는 제어 전략들은 기술 타겟 시스템에 대해 폐쇄형 학습 루프(loop)로 실행될 수 있다.

본 발명의 추가 특징들 및 장점들은 본 발명의 하기의 상세한 설명 및 도면들에서 설명되며, 이 상세한 설명 및 도면들로부터 명백할 것이다.

도 1은 본 발명의 예시적 실시예에 따른, 재귀 신경망의 아키텍처(architecture)의 그래픽적(graphical) 예시를 도시한다.
도 2는 타겟 시스템, 복수의 소스 시스템들 및 제어기를 포함하는 본 발명의 예시적 실시예의 스케치(sketch)를 도시한다.

본 발명에 따라, 타겟 시스템은 그 타겟 시스템의 운영 데이터에 의해서 뿐만 아니라, 복수의 소스 시스템들의 운영 데이터에 의해서도 제어된다. 타겟 시스템 및 소스 시스템들은, 동적 시스템을 시뮬레이팅(simulating)하기 위한 시뮬레이션(simulation) 도구들을 포함하는 가스 또는 풍력 터빈들 또는 다른 동적 시스템들일 수 있다.

바람직하게, 소스 시스템들은 타겟 시스템과 유사하도록 선택된다. 그 경우, 소스 시스템들의 운영 데이터 및 이 운영 데이터에 의하여 트레이닝된 신경 모델은 타겟 시스템의 신경 모델에 대한 우수한 시작점이다. 다른 유사한 기술 시스템들로부터의 운영 데이터 또는 다른 정보의 사용으로, 타겟 시스템에 대한 효율적 제어 전략 또는 정책을 학습하기 위해 요구되는 운영 데이터의 양이 상당히 감소될 수 있다. 본 발명의 접근법은 학습 시스템의 전체 데이터 효율성을 증가시키며, 새롭게 의뢰되는 타겟 시스템에 대해 제 1 데이터 구동 제어 전략이 도출될 수 있기 이전에 요구되는 데이터의 양을 상당히 감소시킨다.

본 발명의 바람직한 실시예에 따라, 소스 시스템들로서 복수의 유사한 가스 터빈들로부터의 운영 데이터로 미리-트레이닝된 신경망에 의하여, 가스 터빈이 타겟 시스템으로서 제어되어야 한다. 소스 시스템들은 상이한 시간의, 예컨대, 타겟 시스템의 유지보수 이전의, 또는 시스템 컴포넌트의 교환 이전 등의 타겟 시스템 등을 포함할 수 있다. 반대로, 타겟 시스템은 추후 시간의 소스 시스템들 중 하나일 수 있다. 신경망은 바람직하게, 재귀 신경망으로서 구현된다.

소스 시스템들 각각에 대한 별개의 신경 모델을 별도로 트레이닝하는 것 대신에, 모든 시스템들의 운영 데이터에 기초하여, 유사한 소스 시스템들의 패밀리(family)에 대한 조인트(joint) 신경 모델이 트레이닝된다. 그 신경 모델은, 제 1 신경 모델 컴포넌트로서, 운영 지식이 모든 소스 시스템들에 걸쳐 공유되게 하는 글로벌 모듈(global module)을 포함한다. 게다가, 신경 모델은, 제 2 신경 모델 컴포넌트로서, 신경 모델이 각각의 소스 시스템에 대해 개별적으로 미세-튜닝(fine-tune)하는 것을 가능하게 하는 소스-시스템-특정 모듈들을 포함한다. 이러한 방식으로, 더 나은 신경 모델들을 학습하고, 그에 따라, 심지어 부족한 데이터를 갖는 시스템들에 대해서도, 특히 소스 시스템들과 유사한 타겟 시스템에 대한 제어 전략들 또는 정책들을 학습하는 것이 가능하다.

및

가 유사한 동적 시스템들의 시스템-특정 식별자들의 두 개의 세트(set)들을 표시한다고 두자. 세트

로부터의 식별자들 각각은 소스 시스템들 중 하나를 식별하고, 반면에 세트

로부터의 식별자들은 타겟 시스템을 식별한다. 소스 시스템들이 충분히 길게 관찰되었고, 따라서 소스 시스템들의 정확한 신경 모델을 학습하기 위해 이용가능한 충분한 운영 데이터가 있고, 반면에 그에 반해서 타겟 시스템의 이용가능한 소량의 운영 데이터만이 있음이 가정된다. 시스템들이 유사한 동적 특성들을 갖기 때문에, 잘 관찰된 소스 시스템들의 지식을 부족하게 관찰된 타겟 시스템으로 전달하는 것은 이 부족하게 관찰된 타겟 시스템의 모델 품질을 개선시키기 위한 유리한 접근법이다.

가 고려되는 동적 시스템들의 초기 상태를 표시한다고 두고(여기서,

는 동적 시스템들의 상태 공간을 표시함),

가 액션(action)들의

-스텝 시퀀스(step sequence)를 표시한다고 두자(

은 시간 스텝

에서의, 동적 시스템들의 액션 공간

의 액션임). 또한,

가 재귀 신경망의 숨겨진 상태 시퀀스를 표시한다고 두자. 이후, 후속자 상태 시퀀스

를 산출하는 단일 동적 시스템의 재귀 신경망 모델은, 하기의 방정식들에 의해 정의될 수 있다

여기서,

은 계층

로부터 계층

까지의 가중치 행렬이며, 후자는 재귀 신경망의 계층들이다.

는 계층

의 바이어스 벡터(bias vector)이고,

는 계층

의 사이즈(size)이며,

는 요소별(elementwise) 비선형 함수, 예컨대,

이다.

및

는 재귀 신경망의 학습 프로세스 동안에 적응되는 적응 가중치들로서 간주될 수 있다.

소스 시스템들로부터 타겟 시스템으로의 지식 전달을 가능하게 하기 위하여, 외력들을 무시하는 상태들의 시간상 전개를 설명하는 상태 전이

및 외력

의 효과는, 그래도 각각의 소스 시스템의 특색들 사이를 구별할 수 있으면서 모든 소스 시스템들에 공통적인 지식을 공유하기 위하여 수정될 수 있다. 그러므로, 가중치 행렬

이 인수분해되며(factored), 하기가 산출된다

여기서,

는 포지션(position)

에서 "1"을 갖고 다른 곳에서 "0"들을 갖는 유클리드(Euclidean) 기저 벡터이다. 즉, 벡터

는 재귀 신경망이 특정 소스 시스템들을 구별할 수 있게 하는 정보를 운반한다. 그 결과로,

는

의 열(column) 선택기로서 동작하고, 따라서 각각의 소스 시스템에 대해 할당되는 매개변수들

의 별개의 세트가 있다. 그러므로, 변환은 모든 소스 시스템들 사이에서 공유되는 적응 가중치들

및

와, 각각의 소스 시스템에 특정한 적응 가중치들

의 컴포지션(composition)이다.

동일한 인수분해 기술이

에 적용되며, 하기가 산출된다

이후, 결과적인 인수분해된 텐서(tensor) 재귀 신경망은 하기의 방정식들에 의해 설명된다:

따라서, 적응 가중치들

및

는 모든 소스 시스템들에 의해 공유되는 특성들을 지칭하고, 대각 행렬들 diag(

) 및 diag(

)의 적응 가중치들은 소스 시스템들 사이에서 변하는 특성들을 지칭한다. 즉, 적응 가중치들

및

은 제 1 신경 모델 컴포넌트를 표현하고, 반면에 적응 가중치들 diag(

) 및 diag(

)은 제 2 신경 모델 컴포넌트를 표현한다. 후자의 적응 가중치들이 대각 행렬들이기 때문에, 이들은 제 1 적응 가중치들보다 훨씬 더 적은 매개변수들을 포함한다. 즉, 제 2 신경 모델 컴포넌트의 트레이닝은 제 1 신경 모델 컴포넌트의 트레이닝보다 더 적은 시간 및/또는 더 적은 운영 데이터를 요구한다.

도 1은 위에서 설명된 인수분해된 텐서 재귀 신경망 아키텍처의 그래픽적 표현을 예시한다. 도 1의 점선 노드(node)들은 편의를 위해 복제되는 동일한 노드들을 표시한다. 자신들의 중심부들에

-심볼(symbol)을 갖는 노드들은 "곱셈 노드들"인데, 즉, 노드들의 입력 벡터들은 컴포넌트별로 곱셈된다. 그에 반해서, 표준 노드들은 모든 입력 벡터들의 합산을 암시한다. 굵은 테두리의 노드들은 활성화 함수, 예컨대, "tanh"

의 사용을 표시한다.

가중치 행렬들의 위에서 설명된 인수분해들 외에도, 추가적인 또는 대안적인 표현들이 사용될 수 있다. 예컨대:

- 가중치 행렬들

, 및/또는

은 대칭 형태로 제한될 수 있다.

- 시스템 특정 행렬 diag(

)은 소스 시스템들에 의해 공유되는 가중치 행렬

에 가산될 수 있다. 이 가중치 행렬은 낮은 랭크(rank)의 표현

으로 제한될 수 있다. 게다가,

은 대칭 형태로 제한될 수 있다.

- 바이어스 벡터

는 시스템 특정으로 만들어지는데, 즉,

에 따라 좌우될 수 있다.

- 다수의 소스 또는 타겟 시스템들의 정보를 신경 모델로 합칠 때, 운영 데이터가 도출되거나 또는 액션들이 제어되게 하는, 잘못 교정된 센서(sensor)들로 인해 문제들이 발생할 수 있다. 잘못 교정된 센서들로부터 도출되는 아티팩트(artifact)들에 대처하기 위하여, 가중치 행렬

및/또는 바이어스 벡터

는 시스템 특정으로 만들어지는데, 즉, 벡터

에 따라 좌우될 수 있다. 특히, 이들 가중치 행렬들은

-종속적 대각 행렬을 포함할 수 있다.

도 2는 타겟 시스템(TS), 복수의 소스 시스템들(S1,...,SN), 및 제어기(CTR)를 포함하는 본 발명의 예시적 실시예의 스케치를 도시한다. 타겟 시스템(TS)은 예컨대 가스 터빈일 수 있고, 소스 시스템들(S1,...,SN)은 예컨대 타겟 시스템(TS)과 유사한 가스 터빈들일 수 있다.

소스 시스템들(S1,...,SN) 각각은 강화 학습 제어기(RLC1,RLC2,..., 또는 RLCN)에 의해 각각 제어되며, 이 강화 학습 제어기(RLC1,RLC2,..., 또는 RLCN)는 제어 전략 또는 정책(P1,P2,..., 또는 PN)에 의해 각각 구동된다. 소스 시스템들(S1,...,SN)의 소스 시스템 특정 운영 데이터(DAT1,..., DATN)가 데이터 베이스(data base)들(DB1,...,DBN)에 저장된다. 운영 데이터(DAT1,..., DATN)는

로부터의 소스 시스템 특정 식별자들(ID1,...,IDN)에 의해 구별된다. 게다가, 개개의 운영 데이터(DAT1,DAT2,..., 또는 DATN)가 개개의 정책(P1,P2,..., 또는 PN)에 따라 개개의 강화 학습 제어기(RLC1,RLC2,..., 또는 RLCN)에서 프로세싱된다(processed). 개개의 정책(P1,P2,..., 또는 PN)의 제어 출력은 제어 루프(CL)를 통해 개개의 소스 시스템(S1,..., 또는 SN)에 피드백되고(fed back), 이는 개개의 강화 학습 제어기(RLC1,RLC2,..., 또는 RLCN)에 대한 폐쇄형 학습 루프를 야기한다.

이에 따라, 타겟 시스템(TS)은 제어 전략 또는 정책(P)에 의해 구동되는 강화 학습 제어기(RLC)에 의해 제어된다. 타겟 시스템(TS)에 특정한 운영 데이터(DAT)는 데이터 베이스(DB)에 저장된다. 운영 데이터(DAT)는

로부터의 타겟 시스템 특정 식별자(ID)에 의해 소스 시스템들(S1,...,SN)의 운영 데이터(DAT1,...,DATN)로부터 구별된다. 게다가, 운영 데이터(DAT)는 정책(P)에 따라 강화 학습 제어기(RLC)에서 프로세싱된다. 정책(P)의 제어 출력은 제어 루프(CL)를 통해 타겟 시스템(TS)에 피드백되고, 이는 강화 학습 제어기(RLC)에 대한 폐쇄형 학습 루프를 야기한다.

제어기(CTR)는 프로세서(processor)(PROC), 재귀 신경망(RNN), 및 강화 학습 정책 생성기(PGEN)를 포함한다. 재귀 신경망(RNN)은 모든 소스 시스템들(S1,...,SN)에 의해 공유되는 특성들에 관해 트레이닝될 제 1 신경 모델 컴포넌트(NM1) 및 소스 시스템들(S1,...,SN) 사이에서 변하는 특성들에 관해, 즉, 소스 시스템 특정 특성들에 관해 트레이닝될 제 2 신경 모델 컴포넌트(NM2)를 포함하는 신경 모델을 구현한다.

위에서 이미 언급된 바와 같이, 제 1 신경 모델 컴포넌트(NM1)는 적응 가중치들

, 및

에 의해 표현되고, 반면에 제 2 신경 모델 컴포넌트(NM2)는 적응 가중치들 diag(

) 및 diag(

)에 의해 표현된다.

재귀 신경망(RNN)에 의하여, 강화 학습 정책 생성기(PGEN)는 정책들 또는 제어 전략들(P1,...,PN, 및 P)을 생성한다. 이후, 도 2의 굵은 화살표(FB)에 의하여 표시된 바와 같이, 개개의 생성된 정책(P1,...,PN, P)은 개개의 강화 학습 제어기(RLC1,...,RLCN, 또는 RLC)에 피드백된다. 이로 인해, 학습 루프는 폐쇄되고, 생성된 정책들(P1,...,PN 및/또는 P)은 동적 시스템들(S1,...,SN 및/또는 TS)에 대한 폐쇄형 루프로 실행되고 있다.

재귀 신경망(RNN)의 트레이닝은 두 개의 단계들을 포함한다. 제 1 단계에서, 소스 시스템들(S1,...,SN)의 운영 데이터(DAT1,...,DATN)에 관해 조인트 신경 모델이 트레이닝된다. 이 목적을 위해, 운영 데이터(DAT1,...,DATN)는 소스 시스템 특정 식별자들(ID1,...,IDN)과 함께 데이터베이스들(DB1,...,DBN)로부터 제어기(CTR)로 송신된다. 이러한 제 1 트레이닝 단계에서, 제 1 신경 모델 컴포넌트(NM1)는 모든 소스 시스템들(S1,...,SN)에 의해 공유되는 특성들에 관해 트레이닝되고, 제 2 신경 모델 컴포넌트(NM2)는 소스 시스템들(S1,...,SN) 사이에서 변하는 특성들에 관해 트레이닝된다. 여기서, 소스 시스템들(S1,...,SN) 및 그들의 운영 데이터(DAT1,...,DATN)는 벡터

에 의해 표현된

로부터의 시스템-특정 식별자들(ID1,...,IDN)에 의하여 구별된다.

제 2 단계에서, 재귀 신경망(RNN)은 타겟 시스템(TS)의 운영 데이터(DAT)에 의하여 추가 트레이닝된다. 여기서, 제 1 신경 모델 컴포넌트(NM1)를 표현하고 제 1 단계에서 적응된, 공유되는 매개변수들

, 및

은 재사용되며 고정된 채로 남아 있고, 반면에 제 2 신경 모델 컴포넌트(NM2)를 표현하는 시스템 특정 매개변수들 diag(

) 및 diag(

)은 타겟 시스템(TS)의 운영 데이터(DAT)에 의하여 추가 트레이닝된다. 재귀 신경망(RNN)은, 타겟 시스템 특정 식별자(ID)에 의하여, 소스 시스템들(S1,...,SN)의 운영 데이터(DAT1,...,DATN)로부터 타겟 시스템(TS)의 운영 데이터(DAT)를 구별한다.

유사한 소스 시스템들(S1,...,SN)의 패밀리의 역학의 일반적인 구조가 제 1 트레이닝 단계에서 학습된다는 사실로 인해, 어쩌면 미지의 타겟 시스템(TS)의 시스템 특정 매개변수들을 적응시키는 것이 전체 모델의 높은 복잡성에도 불구하고 몇 초 내에 완료될 수 있다. 동시에, 타겟 시스템(TS)에 관해 낮은 모델 오류를 달성하기 위해, 단지 적은 운영 데이터(DAT)만이 요구된다. 부가하여, 소스 시스템들(S1,...,SN)의 이전 지식을 활용하지 않는 모델과 비교하여, 타겟 시스템(TS)의 신경 모델은 단지 소량의 운영 데이터(DAT)만이 이용가능할 때 공통적인 문제점으로서 나타나는 오버피팅(overfitting)에 더욱 강건하다. 본 발명으로, 타겟 시스템(TS)이 소스 시스템들(S1,...,SN)과는 상이한 경우의 특색들만이 결정되지 않은 채로 남아 있다.

하기의 변형들(이들에 제한되지 않음)을 비롯해 소스 시스템들(S1,...,SN)로부터 타겟 시스템(TS)으로의 지식 전달을 획득하기 위하여 트레이닝 프로시저(procedure)들을 설계하기 위한 다수의 방식들이 있다:

충분한 개수의 소스 시스템들(S1,...,SN)로부터의 운영 데이터(DAT1,...,DATN)에 관해 트레이닝된 조인트 신경 모델이 주어지면, 그리고 조인트 신경 모델이 트레이닝된 소스 시스템들(S1,...,SN)과 유사한 새로운 타겟 시스템(TS)이 주어지면, 이는 유사한 타겟 시스템(TS)에 대한 정확한 신경 모델을 획득하기에 매우 데이터-효율적이 된다. 이 경우, 조인트 신경 모델의 공유되는 매개변수들

, 및

는 동결될 수 있으며, 시스템들 특정 매개변수들 diag(

) 및 diag(

)만이 새로운 타겟 시스템(TS)의 운영 데이터(DAT)에 관해 추가 트레이닝된다. 시스템 특정 매개변수들의 개수가 통상적으로 매우 적기 때문에, 단지 매우 적은 운영 데이터만이 제 2 트레이닝 단계에 요구된다. 기본적인 아이디어(idea)는, 조인트 신경 모델을 트레이닝하기 위해 사용되는 충분한 개수의 소스 시스템들(S1,...,SN)의 운영 데이터(DAT1,...,DATN)가, 조인트 신경 모델이 소스 시스템들(S1,...,SN)의 패밀리의 일반적인 역학과 소스 시스템 특정 특성들 사이를 구별하도록 하는 충분한 정보를 포함한다는 것이다. 일반적인 역학은 공유되는 매개변수들

, 및

로 인코딩되고(encoded), 이는 몇 개의 특성 양상들만이 제 2 트레이닝 단계에서 학습될 필요가 있는 경우, 새로운 유사한 타겟 시스템(TS)으로의 지식의 효율적 전달을 허용한다.

조인트 모델이 트레이닝된 소스 시스템들(S1,...,SN)과 충분히 유사하지 않은 새로운 타겟 시스템(TS)의 경우, 공유되는 매개변수들의 추가 적응 없이 지식을 새로운 타겟 시스템(TS)에 전달하기 위해서는, 조인트 신경 모델에 의해 학습되는 일반적인 역학이 새로운 타겟 시스템(TS)의 역학과는 너무 많이 상이할 수 있다. 이는 또한, 시스템들의 전체 패밀리의 일반적인 역학의 충분한 지식을 추출하기 위해서는, 조인트 신경 모델을 트레이닝하기 위해 사용되는 소스 시스템들(S1,...,SN)의 개수가 너무 적은 경우일 수 있다.

양쪽 경우들 모두에서, 제 2 트레이닝 단계 동안에, 공유되는 적응 가중치들

, 및

를 또한 적응시키는 것이 유리할 수 있다. 이 경우, 조인트 신경 모델을 트레이닝하기 위해 사용되는 운영 데이터(DAT1,...,DATN)는 새로운 타겟 시스템(TS)으로부터의 운영 데이터(DAT)에 의해 확장되며, 모든 적응 가중치들은 또한 제 2 트레이닝 단계 동안의 적응을 위해 여전히 자유롭게 남아 있다. 조인트 신경 모델의 제 1 트레이닝 단계에서 트레이닝된 적응 가중치들은, 타겟 시스템(TS)의 신경 모델을 초기화하기 위해 사용되며, 그 신경 모델은 새로운 타겟 시스템(TS)에 특정한 적응 가중치들의 추가 세트를 포함하는 조인트 신경 모델의 단순한 확장이다. 따라서, 제 2 트레이닝 단계에 요구되는 시간이 상당히 감소될 수 있는데, 그 이유는 매개변수들 대부분이 매개변수 공간의 우수한 값들로 이미 초기화되고, 확장된 조인트 신경 모델이 수렴에 도달하기 위해 매우 적은 추가 트레이닝만이 필요하기 때문이다.

그 접근법의 변형들은 추가 트레이닝을 위해 적응 가중치들의 서브세트를 동결시키는 것 그리고 운영 데이터(DAT1,...,DATN, DAT)의 서브세트들을 사용하는 것을 포함한다. 확장된 조인트 신경 모델을 초기 조인트 신경 모델의 적응 가중치들로 초기화하는 것 대신에, 그러한 적응 가중치들은 랜덤하게(randomly) 초기화될 수 있고, 확장된 신경 모델은 모든 시스템들(S1,...,SN, 및 TS)로부터의 데이터를 이용하여 스크래치로부터 추가 트레이닝될 수 있다.

본 발명은 시스템 역학에 대한, 소스 시스템들(S1,...,SN)의 패밀리로부터의 정보 또는 지식을 레버리징(leverage)하게 하고, 이는 유사한 또는 동일한 유형의 시스템들의 전체 세트에 대한 재귀 신경망 시뮬레이션의 데이터-효율적 트레이닝을 가능하게 한다. 이 접근법은 학습 신경망을 특정 새로운 타겟 시스템(TS)에 배치할 때 점프-스타트(jump-start)를 용이하게 하는데, 즉, 이러한 지식 전달이 없는 학습 모델과 비교하여, 이 접근법은 새로운 타겟 시스템(TS)의 적은 운영 데이터(DAT)로 상당히 더 나은 최적화 성능을 달성한다.

유사한 시스템들에 대한 학습 모델들 사이의 이러한 정보 공유의 추가 장점들은, 예컨대, 상이한 시스템들이 상이한 지방(clime)들 내에 위치된다면, 환경 조건들에 대한 더 나은 조정가능성을 포함한다. 학습 모델은 또한, 상이한 종류들의 열화를 향하여 일반화할 수 있으며, 이는 드문 또는 흔하지 않은 상황들에 대한 개선된 최적화 능력들을 제공하는데, 그 이유는 모든 시스템들로부터 수집되는 결합된 정보가 활용될 수 있기 때문이다.

Claims

복수의 소스 시스템(source system)들의 운영 데이터(data)에 기초하여 타겟(target) 시스템을 제어하기 위한 방법으로서,
a) 상기 소스 시스템들의 운영 데이터를 수신하는 단계 ―상기 운영 데이터는 소스 시스템 특정 식별자들에 의해 구별됨―,
b) 신경망에 의하여, 상기 소스 시스템 특정 식별자들을 고려하여 상기 소스 시스템들의 수신된 운영 데이터에 기초하여 신경 모델(model)을 트레이닝(training)하는 단계 ―제1 신경 모델 컴포넌트(component)는 상기 소스 시스템들에 의해 공유되는 특성들에 관해 트레이닝되고(trained), 제2 신경 모델 컴포넌트는 상기 소스 시스템들 사이에서 변하는 특성들에 관해 트레이닝됨―,
c) 상기 타겟 시스템의 운영 데이터를 수신하는 단계,
d) 트레이닝된 신경 모델을 상기 타겟 시스템의 상기 운영 데이터에 기초하여 추가 트레이닝하는 단계 ―상기 제1 신경 모델 컴포넌트의 추가 트레이닝보다 상기 제2 신경 모델 컴포넌트의 추가 트레이닝에 우선권이 주어짐―, 및
e) 추가 트레이닝된 신경망에 의하여 상기 타겟 시스템을 제어하는 단계
를 포함하는,
방법.
제1항에 있어서,
상기 제1 신경 모델 컴포넌트는 제1 적응 가중치들에 의해 표현되고, 그리고
상기 제2 신경 모델 컴포넌트는 제2 적응 가중치들에 의해 표현되는,
방법.
제2항에 있어서,
상기 제1 적응 가중치들의 개수는 상기 제2 적응 가중치들의 개수보다 몇 배 더 많은,
방법.
제2항에 있어서,
상기 제1 적응 가중치들은 제1 가중치 행렬(matrix)을 포함하고, 상기 제2 적응 가중치들은 제2 가중치 행렬을 포함하는,
방법.
제4항에 있어서,
상기 신경 모델의 적응 가중치들을 결정하기 위해, 상기 제1 가중치 행렬은 상기 제2 가중치 행렬로 곱해지는,
방법.
제4항에 있어서,
상기 제2 가중치 행렬은 대각 행렬(diagonal matrix)인,
방법.
제1항에 있어서,
상기 제1 신경 모델 컴포넌트는 추가 트레이닝되지 않는,
방법.
제2항에 있어서,
상기 트레이닝된 신경 모델을 추가 트레이닝할 때, 상기 제1 적응 가중치들의 제1 서브세트(subset)는 실질적으로 일정하게 유지되고, 반면에 상기 제1 적응 가중치들의 제2 서브세트는 추가 트레이닝되는,
방법.
제1항에 있어서,
상기 신경 모델은 강화(reinforcement) 학습 모델인,
방법.
제1항에 있어서,
상기 신경망은 재귀(recurrent) 신경망으로서 동작하는,
방법.
제1항에 있어서,
상기 신경 모델의 트레이닝 동안에,
상기 신경 모델이 상기 소스 시스템들에 의해 공유되는 특성들과 상기 소스 시스템들 사이에서 변하는 특성들 사이의 차이를 반영하는지의 여부를 결정하는 단계, 및
상기 결정에 따라, 상기 신경 모델의 트레이닝에 영향을 끼치는 단계
를 포함하는,
방법.
제1항에 있어서,
상기 트레이닝된 신경 모델로부터 도출되는 정책들은 기술 타겟 시스템에 대해 폐쇄형 학습 루프(loop)로 실행되는,
방법.
복수의 소스 시스템들의 운영 데이터에 기초하여 타겟 시스템을 제어하기 위한 제어기로서,
제1항 내지 제12항 중 어느 한 항의 방법을 수행하도록 구성되는,
제어기.
복수의 소스 시스템들의 운영 데이터에 기초하여 타겟 시스템을 제어하기 위한 컴퓨터 프로그램을 저장하고 있는 컴퓨터-판독가능 저장 매체로서,
상기 컴퓨터 프로그램은 제1항 내지 제12항 중 어느 한 항의 방법을 수행하도록 구성되는,
컴퓨터-판독가능 저장 매체.