KR101961421B1 - 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품 - Google Patents

소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품 Download PDF

Info

Publication number
KR101961421B1
KR101961421B1 KR1020167032311A KR20167032311A KR101961421B1 KR 101961421 B1 KR101961421 B1 KR 101961421B1 KR 1020167032311 A KR1020167032311 A KR 1020167032311A KR 20167032311 A KR20167032311 A KR 20167032311A KR 101961421 B1 KR101961421 B1 KR 101961421B1
Authority
KR
South Korea
Prior art keywords
neural model
target system
source systems
operational data
neural
Prior art date
Application number
KR1020167032311A
Other languages
English (en)
Other versions
KR20160147858A (ko
Inventor
지그문트 두엘
지구르트 스피케르만
슈테판 우드루프트
므리날 문시
Original Assignee
지멘스 악티엔게젤샤프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지멘스 악티엔게젤샤프트 filed Critical 지멘스 악티엔게젤샤프트
Publication of KR20160147858A publication Critical patent/KR20160147858A/ko
Application granted granted Critical
Publication of KR101961421B1 publication Critical patent/KR101961421B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Abstract

타겟 시스템, 예컨대, 가스 또는 풍력 터빈 또는 다른 기술 시스템을 제어하기 위해, 복수의 소스 시스템들의 운영 데이터가 사용된다. 소스 시스템들의 운영 데이터가 수신되고, 소스 시스템 특정 식별자들에 의해 구별된다. 신경망에 의하여, 소스 시스템 특정 식별자들을 고려하여 소스 시스템들의 수신된 운영 데이터에 기초하여 신경 모델이 트레이닝되며, 여기서 제 1 신경 모델 컴포넌트는 소스 시스템들에 의해 공유되는 특성들에 관해 트레이닝되고, 제 2 신경 모델 컴포넌트는 소스 시스템들 사이에서 변하는 특성들에 관해 트레이닝된다. 트레이닝된 신경 모델은, 타겟 시스템의 운영 데이터를 수신한 이후에, 타겟 시스템의 운영 데이터에 기초하여 추가 트레이닝되며, 여기서 제 1 신경 모델 컴포넌트의 추가 트레이닝보다 제 2 신경 모델 컴포넌트의 추가 트레이닝에 우선권이 주어진다. 타겟 시스템은 추가 트레이닝된 신경망에 의하여 제어된다.

Description

소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품{METHOD, CONTROLLER, AND COMPUTER PROGRAM PRODUCT FOR CONTROLLING A TARGET SYSTEM BY SEPARATELY TRAINING A FIRST AND A SECOND RECURRENT NEURAL NETWORK MODELS, WHICH ARE INITIALLY TRAINED USING OPARATIONAL DATA OF SOURCE SYSTEMS}
복잡한 동적 기술 시스템(system)들, 예컨대, 가스 터빈(gas turbine)들, 풍력 터빈들 또는 다른 플랜트(plant)들의 제어는 소위 데이터(data) 구동 접근법들에 의하여 최적화될 수 있다. 이로 인해, 이러한 동적 시스템들의 다양한 양상들, 예컨대, 가스 터빈들의 경우 그들의 효율성, 연소 역학(dynamics), 또는 방출들, 그리고 예컨대, 풍력 터빈들의 경우 그들의 수명 소모, 효율성, 또는 요(yaw)가 개선될 수 있다.
최신 데이터 구동 최적화는, 일반적 또는 특정 최적화 목표들에 관한 동적 시스템들의 제어 전략들 또는 정책들을 개선시키기 위해 머신 러닝(machine learning) 방법들을 활용한다. 이러한 머신 러닝 방법들은 종종, 통상적인 제어 전략들을 능가하게 한다. 특히, 제어되는 시스템이 변화하고 있다면, 동적 시스템의 새로운 특성들 및 새로운 상황에 따라 제어 전략을 학습 및 조정할 수 있는 적응 제어 접근법이 통상적인 비-학습 제어 전략들보다 종종 유리하다.
그러나, 복잡한 동적 시스템들, 예컨대, 가스 터빈들 또는 다른 플랜트들을 최적화하기 위하여, 우수한 제어 전략을 찾거나 또는 학습하기 위해 충분한 양의 운영 데이터가 수집되어야 한다. 따라서, 새로운 플랜트를 의뢰하거나, 그것을 업그레이딩(upgrading)하거나 또는 수정하는 경우, 우수한 제어 전략이 이용가능하기 이전에 새로운 또는 변화된 시스템의 충분한 운영 데이터를 수집하는데 약간의 시간이 걸릴 수 있다. 이러한 변화들에 대한 이유들은 마모, 수리 이후에 변화된 부품들, 또는 상이한 환경 조건들일 수 있다.
머신 러닝에 대한 알려진 방법들은, 특정된 동적 시스템에 대한 데이터 효율적 학습에 초점을 맞추는 강화 학습 방법들을 포함한다. 그러나, 심지어 이들 방법들을 사용할 때에도, 동적 시스템의 변화 이후에 우수한 데이터 구동 제어 전략이 이용가능할 때까지 약간의 시간이 걸릴 수 있다. 그때까지, 변화된 동적 시스템은 어쩌면 최적화된 엔벨로프(envelope) 밖에서 동작한다. 동적 시스템의 변화 레이트(rate)가 매우 높다면, 데이터 구동 최적화를 위한 차선의 결과들만이 달성될 수 있는데, 그 이유는 충분한 양의 운영 데이터가 결코 이용가능하지 않을 수 있기 때문이다.
상기를 고려하여, 본 발명의 목적은 특히 변화하는 타겟(target) 시스템에 대한 제어 전략들의 더욱 신속한 학습을 허용하는, 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램(computer program) 제품을 생성하는 것이다.
본 발명에 따라, 타겟 시스템, 예컨대, 가스 또는 풍력 터빈 또는 다른 기술 시스템을 제어하기 위한 방법, 제어기, 또는 컴퓨터 프로그램 제품은 복수의 소스(source) 시스템들의 운영 데이터에 기초한다. 방법, 제어기, 또는 컴퓨터 프로그램 제품은 소스 시스템들의 운영 데이터를 수신하도록 구성되며, 운영 데이터는 소스 시스템 특정 식별자들에 의해 구별된다. 신경망에 의하여, 신경 모델(model)이 소스 시스템 특정 식별자들을 고려하여 소스 시스템들의 수신된 운영 데이터에 기초하여 트레이닝되며(trained), 여기서 제 1 신경 모델 컴포넌트(component)는 소스 시스템들에 의해 공유되는 특성들에 관해 트레이닝되고, 제 2 신경 모델 컴포넌트는 소스 시스템들 사이에서 변하는 특성들에 관해 트레이닝된다. 트레이닝된 신경 모델은, 타겟 시스템의 운영 데이터를 수신한 이후에, 타겟 시스템의 운영 데이터에 기초하여 추가 트레이닝되며, 여기서 제 1 신경 모델 컴포넌트의 추가 트레이닝보다 제 2 신경 모델 컴포넌트의 추가 트레이닝에 우선권이 주어진다. 타겟 시스템은 추가 트레이닝된 신경망에 의하여 제어된다.
본 발명이 복수의 소스 시스템들의 운영 데이터를 사용하고, 이들 운영 데이터에 의하여 학습되는 신경 모델들을 사용하기 때문에, 타겟 시스템의 신경 모델에 대한 우수한 시작점이 획득된다. 실제로, 스크래치(scratch)로부터 타겟 시스템에 대한 신경 모델을 학습하는 경우에서보다, 타겟 시스템에 대한 정확한 신경 모델을 획득하기 위하여, 타겟 시스템으로부터의 훨씬 더 적은 운영 데이터가 요구된다. 따라서, 심지어 부족한 데이터를 갖는 타겟 시스템들에 대해서도, 효과적인 제어 전략들 또는 정책들이 짧은 시간에 학습될 수 있다.
본 발명의 바람직한 실시예에서, 제 1 신경 모델 컴포넌트는 제 1 적응 가중치들에 의해 표현될 수 있고, 제 2 신경 모델 컴포넌트는 제 2 적응 가중치들에 의해 표현될 수 있다. 이러한 적응 가중치들은 또한, 개개의 신경 모델 컴포넌트의 매개변수들로서 표시될 수 있다.
바람직하게, 제 2 적응 가중치들의 개수는 제 1 적응 가중치들의 개수보다 몇 배 더 적을 수 있다. 제 1 적응 가중치들에 의해 표현되는 제 1 신경 모델 컴포넌트의 트레이닝보다 제 2 적응 가중치들에 의해 표현되는 제 2 신경 모델 컴포넌트의 트레이닝에 우선권이 주어지기 때문에, 타겟 시스템에 대한 추가 트레이닝 동안에 적응될 가중치들의 개수가 상당히 감소될 수 있다. 이는, 타겟 시스템에 대한 더욱 신속한 학습을 허용한다.
또한, 제 1 적응 가중치들은 제 1 가중치 행렬(matrix)을 포함할 수 있고, 제 2 적응 가중치들은 제 2 가중치 행렬을 포함할 수 있다. 제 2 가중치 행렬은 대각 행렬일 수 있다. 신경 모델의 적응 가중치들을 결정하기 위해, 제 1 가중치 행렬이 제 2 가중치 행렬로 곱해질 수 있다.
바람직한 실시예에 따라, 제 1 신경 모델 컴포넌트는 추가 트레이닝되지 않을 수 있다. 이는, 소스 시스템들 사이에서 변하는 특성들을 반영하는 제 2 신경 모델 컴포넌트의 트레이닝에 초점을 맞추게 한다.
대안적으로, 트레이닝된 신경 모델을 추가 트레이닝할 때, 제 1 적응 가중치들의 제 1 서브세트(subset)는 실질적으로 일정하게 유지될 수 있고, 반면에 제 1 적응 가중치들의 제 2 서브세트는 추가 트레이닝될 수 있다. 이는, 심지어 추가 트레이닝 단계 동안에도, 시스템들에 의해 공유되는 특성들을 반영하는 제 1 신경망 컴포넌트의 미세 튜닝(tuning)을 허용한다.
본 발명의 바람직한 실시예에 따라, 신경 모델은, 동적 시스템들에 대한 제어 전략들의 효율적 학습을 허용하는 강화 학습 모델일 수 있다.
유리하게, 신경망은 재귀 신경망으로서 동작할 수 있다. 이는 내부 상태를 유지시키는 것을 허용하며, 이는 동적 시스템을 제어할 때 시간 종속적 패턴(pattern)들의 효율적 검출을 가능하게 한다. 게다가, 많은 소위 부분적으로 관찰가능한 마르코프(Markov) 의사결정 프로세스(Process)들은 재귀 신경망에 의하여 소위 마르코프 의사결정 프로세스들처럼 처리될 수 있다.
본 발명의 바람직한 실시예에 따라, 신경 모델의 트레이닝 동안에, 신경 모델이 소스 시스템들에 의해 공유되는 특성들과 소스 시스템들 사이에서 변하는 특성들 사이의 차이를 반영하는지의 여부가 결정될 수 있다. 그 결정에 따라, 신경 모델의 트레이닝이 영향받을 수 있다. 특히, 이러한 차이가 미리결정된 신뢰성으로 검출되면, 소스 시스템들의 운영 데이터에 기초하는 신경 모델의 트레이닝은 완료될 수 있다.
게다가, 트레이닝된 신경 모델로부터 도출되는 정책들 또는 제어 전략들은 기술 타겟 시스템에 대해 폐쇄형 학습 루프(loop)로 실행될 수 있다.
본 발명의 추가 특징들 및 장점들은 본 발명의 하기의 상세한 설명 및 도면들에서 설명되며, 이 상세한 설명 및 도면들로부터 명백할 것이다.
도 1은 본 발명의 예시적 실시예에 따른, 재귀 신경망의 아키텍처(architecture)의 그래픽적(graphical) 예시를 도시한다.
도 2는 타겟 시스템, 복수의 소스 시스템들 및 제어기를 포함하는 본 발명의 예시적 실시예의 스케치(sketch)를 도시한다.
본 발명에 따라, 타겟 시스템은 그 타겟 시스템의 운영 데이터에 의해서 뿐만 아니라, 복수의 소스 시스템들의 운영 데이터에 의해서도 제어된다. 타겟 시스템 및 소스 시스템들은, 동적 시스템을 시뮬레이팅(simulating)하기 위한 시뮬레이션(simulation) 도구들을 포함하는 가스 또는 풍력 터빈들 또는 다른 동적 시스템들일 수 있다.
바람직하게, 소스 시스템들은 타겟 시스템과 유사하도록 선택된다. 그 경우, 소스 시스템들의 운영 데이터 및 이 운영 데이터에 의하여 트레이닝된 신경 모델은 타겟 시스템의 신경 모델에 대한 우수한 시작점이다. 다른 유사한 기술 시스템들로부터의 운영 데이터 또는 다른 정보의 사용으로, 타겟 시스템에 대한 효율적 제어 전략 또는 정책을 학습하기 위해 요구되는 운영 데이터의 양이 상당히 감소될 수 있다. 본 발명의 접근법은 학습 시스템의 전체 데이터 효율성을 증가시키며, 새롭게 의뢰되는 타겟 시스템에 대해 제 1 데이터 구동 제어 전략이 도출될 수 있기 이전에 요구되는 데이터의 양을 상당히 감소시킨다.
본 발명의 바람직한 실시예에 따라, 소스 시스템들로서 복수의 유사한 가스 터빈들로부터의 운영 데이터로 미리-트레이닝된 신경망에 의하여, 가스 터빈이 타겟 시스템으로서 제어되어야 한다. 소스 시스템들은 상이한 시간의, 예컨대, 타겟 시스템의 유지보수 이전의, 또는 시스템 컴포넌트의 교환 이전 등의 타겟 시스템 등을 포함할 수 있다. 반대로, 타겟 시스템은 추후 시간의 소스 시스템들 중 하나일 수 있다. 신경망은 바람직하게, 재귀 신경망으로서 구현된다.
소스 시스템들 각각에 대한 별개의 신경 모델을 별도로 트레이닝하는 것 대신에, 모든 시스템들의 운영 데이터에 기초하여, 유사한 소스 시스템들의 패밀리(family)에 대한 조인트(joint) 신경 모델이 트레이닝된다. 그 신경 모델은, 제 1 신경 모델 컴포넌트로서, 운영 지식이 모든 소스 시스템들에 걸쳐 공유되게 하는 글로벌 모듈(global module)을 포함한다. 게다가, 신경 모델은, 제 2 신경 모델 컴포넌트로서, 신경 모델이 각각의 소스 시스템에 대해 개별적으로 미세-튜닝(fine-tune)하는 것을 가능하게 하는 소스-시스템-특정 모듈들을 포함한다. 이러한 방식으로, 더 나은 신경 모델들을 학습하고, 그에 따라, 심지어 부족한 데이터를 갖는 시스템들에 대해서도, 특히 소스 시스템들과 유사한 타겟 시스템에 대한 제어 전략들 또는 정책들을 학습하는 것이 가능하다.
Figure 112016112821174-pct00001
Figure 112016112821174-pct00002
가 유사한 동적 시스템들의 시스템-특정 식별자들의 두 개의 세트(set)들을 표시한다고 두자. 세트
Figure 112016112821174-pct00003
로부터의 식별자들 각각은 소스 시스템들 중 하나를 식별하고, 반면에 세트
Figure 112016112821174-pct00004
로부터의 식별자들은 타겟 시스템을 식별한다. 소스 시스템들이 충분히 길게 관찰되었고, 따라서 소스 시스템들의 정확한 신경 모델을 학습하기 위해 이용가능한 충분한 운영 데이터가 있고, 반면에 그에 반해서 타겟 시스템의 이용가능한 소량의 운영 데이터만이 있음이 가정된다. 시스템들이 유사한 동적 특성들을 갖기 때문에, 잘 관찰된 소스 시스템들의 지식을 부족하게 관찰된 타겟 시스템으로 전달하는 것은 이 부족하게 관찰된 타겟 시스템의 모델 품질을 개선시키기 위한 유리한 접근법이다.
Figure 112016112821174-pct00005
가 고려되는 동적 시스템들의 초기 상태를 표시한다고 두고(여기서,
Figure 112016112821174-pct00006
는 동적 시스템들의 상태 공간을 표시함),
Figure 112016112821174-pct00007
가 액션(action)들의
Figure 112016112821174-pct00008
-스텝 시퀀스(step sequence)를 표시한다고 두자(
Figure 112016112821174-pct00009
은 시간 스텝
Figure 112016112821174-pct00010
에서의, 동적 시스템들의 액션 공간
Figure 112016112821174-pct00011
의 액션임). 또한,
Figure 112016112821174-pct00012
가 재귀 신경망의 숨겨진 상태 시퀀스를 표시한다고 두자. 이후, 후속자 상태 시퀀스
Figure 112016112821174-pct00013
를 산출하는 단일 동적 시스템의 재귀 신경망 모델은, 하기의 방정식들에 의해 정의될 수 있다
Figure 112016112821174-pct00014
Figure 112016112821174-pct00015
Figure 112016112821174-pct00016
여기서,
Figure 112016112821174-pct00017
은 계층
Figure 112016112821174-pct00018
로부터 계층
Figure 112016112821174-pct00019
까지의 가중치 행렬이며, 후자는 재귀 신경망의 계층들이다.
Figure 112016112821174-pct00020
는 계층
Figure 112016112821174-pct00021
의 바이어스 벡터(bias vector)이고,
Figure 112016112821174-pct00022
는 계층
Figure 112016112821174-pct00023
의 사이즈(size)이며,
Figure 112016112821174-pct00024
는 요소별(elementwise) 비선형 함수, 예컨대,
Figure 112016112821174-pct00025
이다.
Figure 112016112821174-pct00026
Figure 112016112821174-pct00027
는 재귀 신경망의 학습 프로세스 동안에 적응되는 적응 가중치들로서 간주될 수 있다.
소스 시스템들로부터 타겟 시스템으로의 지식 전달을 가능하게 하기 위하여, 외력들을 무시하는 상태들의 시간상 전개를 설명하는 상태 전이
Figure 112016112821174-pct00028
및 외력
Figure 112016112821174-pct00029
의 효과는, 그래도 각각의 소스 시스템의 특색들 사이를 구별할 수 있으면서 모든 소스 시스템들에 공통적인 지식을 공유하기 위하여 수정될 수 있다. 그러므로, 가중치 행렬
Figure 112016112821174-pct00030
이 인수분해되며(factored), 하기가 산출된다
Figure 112016112821174-pct00031
여기서,
Figure 112016112821174-pct00032
는 포지션(position)
Figure 112016112821174-pct00033
에서 "1"을 갖고 다른 곳에서 "0"들을 갖는 유클리드(Euclidean) 기저 벡터이다. 즉, 벡터
Figure 112016112821174-pct00034
는 재귀 신경망이 특정 소스 시스템들을 구별할 수 있게 하는 정보를 운반한다. 그 결과로,
Figure 112016112821174-pct00035
Figure 112016112821174-pct00036
의 열(column) 선택기로서 동작하고, 따라서 각각의 소스 시스템에 대해 할당되는 매개변수들
Figure 112016112821174-pct00037
의 별개의 세트가 있다. 그러므로, 변환은 모든 소스 시스템들 사이에서 공유되는 적응 가중치들
Figure 112016112821174-pct00038
Figure 112016112821174-pct00039
와, 각각의 소스 시스템에 특정한 적응 가중치들
Figure 112016112821174-pct00040
의 컴포지션(composition)이다.
동일한 인수분해 기술이
Figure 112016112821174-pct00041
에 적용되며, 하기가 산출된다
Figure 112016112821174-pct00042
이후, 결과적인 인수분해된 텐서(tensor) 재귀 신경망은 하기의 방정식들에 의해 설명된다:
Figure 112016112821174-pct00043
따라서, 적응 가중치들
Figure 112016112821174-pct00044
Figure 112016112821174-pct00045
는 모든 소스 시스템들에 의해 공유되는 특성들을 지칭하고, 대각 행렬들 diag(
Figure 112016112821174-pct00046
) 및 diag(
Figure 112016112821174-pct00047
)의 적응 가중치들은 소스 시스템들 사이에서 변하는 특성들을 지칭한다. 즉, 적응 가중치들
Figure 112016112821174-pct00048
Figure 112016112821174-pct00049
은 제 1 신경 모델 컴포넌트를 표현하고, 반면에 적응 가중치들 diag(
Figure 112016112821174-pct00050
) 및 diag(
Figure 112016112821174-pct00051
)은 제 2 신경 모델 컴포넌트를 표현한다. 후자의 적응 가중치들이 대각 행렬들이기 때문에, 이들은 제 1 적응 가중치들보다 훨씬 더 적은 매개변수들을 포함한다. 즉, 제 2 신경 모델 컴포넌트의 트레이닝은 제 1 신경 모델 컴포넌트의 트레이닝보다 더 적은 시간 및/또는 더 적은 운영 데이터를 요구한다.
도 1은 위에서 설명된 인수분해된 텐서 재귀 신경망 아키텍처의 그래픽적 표현을 예시한다. 도 1의 점선 노드(node)들은 편의를 위해 복제되는 동일한 노드들을 표시한다. 자신들의 중심부들에
Figure 112016112821174-pct00052
-심볼(symbol)을 갖는 노드들은 "곱셈 노드들"인데, 즉, 노드들의 입력 벡터들은 컴포넌트별로 곱셈된다. 그에 반해서, 표준 노드들은 모든 입력 벡터들의 합산을 암시한다. 굵은 테두리의 노드들은 활성화 함수, 예컨대, "tanh"
Figure 112016112821174-pct00053
의 사용을 표시한다.
가중치 행렬들의 위에서 설명된 인수분해들 외에도, 추가적인 또는 대안적인 표현들이 사용될 수 있다. 예컨대:
- 가중치 행렬들
Figure 112016112821174-pct00054
, 및/또는
Figure 112016112821174-pct00055
은 대칭 형태로 제한될 수 있다.
- 시스템 특정 행렬 diag(
Figure 112016112821174-pct00056
)은 소스 시스템들에 의해 공유되는 가중치 행렬
Figure 112016112821174-pct00057
에 가산될 수 있다. 이 가중치 행렬은 낮은 랭크(rank)의 표현
Figure 112016112821174-pct00058
으로 제한될 수 있다. 게다가,
Figure 112016112821174-pct00059
은 대칭 형태로 제한될 수 있다.
- 바이어스 벡터
Figure 112016112821174-pct00060
는 시스템 특정으로 만들어지는데, 즉,
Figure 112016112821174-pct00061
에 따라 좌우될 수 있다.
- 다수의 소스 또는 타겟 시스템들의 정보를 신경 모델로 합칠 때, 운영 데이터가 도출되거나 또는 액션들이 제어되게 하는, 잘못 교정된 센서(sensor)들로 인해 문제들이 발생할 수 있다. 잘못 교정된 센서들로부터 도출되는 아티팩트(artifact)들에 대처하기 위하여, 가중치 행렬
Figure 112016112821174-pct00062
및/또는 바이어스 벡터
Figure 112016112821174-pct00063
는 시스템 특정으로 만들어지는데, 즉, 벡터
Figure 112016112821174-pct00064
에 따라 좌우될 수 있다. 특히, 이들 가중치 행렬들은
Figure 112016112821174-pct00065
-종속적 대각 행렬을 포함할 수 있다.
도 2는 타겟 시스템(TS), 복수의 소스 시스템들(S1,...,SN), 및 제어기(CTR)를 포함하는 본 발명의 예시적 실시예의 스케치를 도시한다. 타겟 시스템(TS)은 예컨대 가스 터빈일 수 있고, 소스 시스템들(S1,...,SN)은 예컨대 타겟 시스템(TS)과 유사한 가스 터빈들일 수 있다.
소스 시스템들(S1,...,SN) 각각은 강화 학습 제어기(RLC1,RLC2,..., 또는 RLCN)에 의해 각각 제어되며, 이 강화 학습 제어기(RLC1,RLC2,..., 또는 RLCN)는 제어 전략 또는 정책(P1,P2,..., 또는 PN)에 의해 각각 구동된다. 소스 시스템들(S1,...,SN)의 소스 시스템 특정 운영 데이터(DAT1,..., DATN)가 데이터 베이스(data base)들(DB1,...,DBN)에 저장된다. 운영 데이터(DAT1,..., DATN)는
Figure 112016112821174-pct00066
로부터의 소스 시스템 특정 식별자들(ID1,...,IDN)에 의해 구별된다. 게다가, 개개의 운영 데이터(DAT1,DAT2,..., 또는 DATN)가 개개의 정책(P1,P2,..., 또는 PN)에 따라 개개의 강화 학습 제어기(RLC1,RLC2,..., 또는 RLCN)에서 프로세싱된다(processed). 개개의 정책(P1,P2,..., 또는 PN)의 제어 출력은 제어 루프(CL)를 통해 개개의 소스 시스템(S1,..., 또는 SN)에 피드백되고(fed back), 이는 개개의 강화 학습 제어기(RLC1,RLC2,..., 또는 RLCN)에 대한 폐쇄형 학습 루프를 야기한다.
이에 따라, 타겟 시스템(TS)은 제어 전략 또는 정책(P)에 의해 구동되는 강화 학습 제어기(RLC)에 의해 제어된다. 타겟 시스템(TS)에 특정한 운영 데이터(DAT)는 데이터 베이스(DB)에 저장된다. 운영 데이터(DAT)는
Figure 112016112821174-pct00067
로부터의 타겟 시스템 특정 식별자(ID)에 의해 소스 시스템들(S1,...,SN)의 운영 데이터(DAT1,...,DATN)로부터 구별된다. 게다가, 운영 데이터(DAT)는 정책(P)에 따라 강화 학습 제어기(RLC)에서 프로세싱된다. 정책(P)의 제어 출력은 제어 루프(CL)를 통해 타겟 시스템(TS)에 피드백되고, 이는 강화 학습 제어기(RLC)에 대한 폐쇄형 학습 루프를 야기한다.
제어기(CTR)는 프로세서(processor)(PROC), 재귀 신경망(RNN), 및 강화 학습 정책 생성기(PGEN)를 포함한다. 재귀 신경망(RNN)은 모든 소스 시스템들(S1,...,SN)에 의해 공유되는 특성들에 관해 트레이닝될 제 1 신경 모델 컴포넌트(NM1) 및 소스 시스템들(S1,...,SN) 사이에서 변하는 특성들에 관해, 즉, 소스 시스템 특정 특성들에 관해 트레이닝될 제 2 신경 모델 컴포넌트(NM2)를 포함하는 신경 모델을 구현한다.
위에서 이미 언급된 바와 같이, 제 1 신경 모델 컴포넌트(NM1)는 적응 가중치들
Figure 112016112821174-pct00068
Figure 112016112821174-pct00069
, 및
Figure 112016112821174-pct00070
에 의해 표현되고, 반면에 제 2 신경 모델 컴포넌트(NM2)는 적응 가중치들 diag(
Figure 112016112821174-pct00071
) 및 diag(
Figure 112016112821174-pct00072
)에 의해 표현된다.
재귀 신경망(RNN)에 의하여, 강화 학습 정책 생성기(PGEN)는 정책들 또는 제어 전략들(P1,...,PN, 및 P)을 생성한다. 이후, 도 2의 굵은 화살표(FB)에 의하여 표시된 바와 같이, 개개의 생성된 정책(P1,...,PN, P)은 개개의 강화 학습 제어기(RLC1,...,RLCN, 또는 RLC)에 피드백된다. 이로 인해, 학습 루프는 폐쇄되고, 생성된 정책들(P1,...,PN 및/또는 P)은 동적 시스템들(S1,...,SN 및/또는 TS)에 대한 폐쇄형 루프로 실행되고 있다.
재귀 신경망(RNN)의 트레이닝은 두 개의 단계들을 포함한다. 제 1 단계에서, 소스 시스템들(S1,...,SN)의 운영 데이터(DAT1,...,DATN)에 관해 조인트 신경 모델이 트레이닝된다. 이 목적을 위해, 운영 데이터(DAT1,...,DATN)는 소스 시스템 특정 식별자들(ID1,...,IDN)과 함께 데이터베이스들(DB1,...,DBN)로부터 제어기(CTR)로 송신된다. 이러한 제 1 트레이닝 단계에서, 제 1 신경 모델 컴포넌트(NM1)는 모든 소스 시스템들(S1,...,SN)에 의해 공유되는 특성들에 관해 트레이닝되고, 제 2 신경 모델 컴포넌트(NM2)는 소스 시스템들(S1,...,SN) 사이에서 변하는 특성들에 관해 트레이닝된다. 여기서, 소스 시스템들(S1,...,SN) 및 그들의 운영 데이터(DAT1,...,DATN)는 벡터
Figure 112016112821174-pct00073
에 의해 표현된
Figure 112016112821174-pct00074
로부터의 시스템-특정 식별자들(ID1,...,IDN)에 의하여 구별된다.
제 2 단계에서, 재귀 신경망(RNN)은 타겟 시스템(TS)의 운영 데이터(DAT)에 의하여 추가 트레이닝된다. 여기서, 제 1 신경 모델 컴포넌트(NM1)를 표현하고 제 1 단계에서 적응된, 공유되는 매개변수들
Figure 112016112821174-pct00075
Figure 112016112821174-pct00076
, 및
Figure 112016112821174-pct00077
은 재사용되며 고정된 채로 남아 있고, 반면에 제 2 신경 모델 컴포넌트(NM2)를 표현하는 시스템 특정 매개변수들 diag(
Figure 112016112821174-pct00078
) 및 diag(
Figure 112016112821174-pct00079
)은 타겟 시스템(TS)의 운영 데이터(DAT)에 의하여 추가 트레이닝된다. 재귀 신경망(RNN)은, 타겟 시스템 특정 식별자(ID)에 의하여, 소스 시스템들(S1,...,SN)의 운영 데이터(DAT1,...,DATN)로부터 타겟 시스템(TS)의 운영 데이터(DAT)를 구별한다.
유사한 소스 시스템들(S1,...,SN)의 패밀리의 역학의 일반적인 구조가 제 1 트레이닝 단계에서 학습된다는 사실로 인해, 어쩌면 미지의 타겟 시스템(TS)의 시스템 특정 매개변수들을 적응시키는 것이 전체 모델의 높은 복잡성에도 불구하고 몇 초 내에 완료될 수 있다. 동시에, 타겟 시스템(TS)에 관해 낮은 모델 오류를 달성하기 위해, 단지 적은 운영 데이터(DAT)만이 요구된다. 부가하여, 소스 시스템들(S1,...,SN)의 이전 지식을 활용하지 않는 모델과 비교하여, 타겟 시스템(TS)의 신경 모델은 단지 소량의 운영 데이터(DAT)만이 이용가능할 때 공통적인 문제점으로서 나타나는 오버피팅(overfitting)에 더욱 강건하다. 본 발명으로, 타겟 시스템(TS)이 소스 시스템들(S1,...,SN)과는 상이한 경우의 특색들만이 결정되지 않은 채로 남아 있다.
하기의 변형들(이들에 제한되지 않음)을 비롯해 소스 시스템들(S1,...,SN)로부터 타겟 시스템(TS)으로의 지식 전달을 획득하기 위하여 트레이닝 프로시저(procedure)들을 설계하기 위한 다수의 방식들이 있다:
충분한 개수의 소스 시스템들(S1,...,SN)로부터의 운영 데이터(DAT1,...,DATN)에 관해 트레이닝된 조인트 신경 모델이 주어지면, 그리고 조인트 신경 모델이 트레이닝된 소스 시스템들(S1,...,SN)과 유사한 새로운 타겟 시스템(TS)이 주어지면, 이는 유사한 타겟 시스템(TS)에 대한 정확한 신경 모델을 획득하기에 매우 데이터-효율적이 된다. 이 경우, 조인트 신경 모델의 공유되는 매개변수들
Figure 112016112821174-pct00080
, 및
Figure 112016112821174-pct00081
는 동결될 수 있으며, 시스템들 특정 매개변수들 diag(
Figure 112016112821174-pct00082
) 및 diag(
Figure 112016112821174-pct00083
)만이 새로운 타겟 시스템(TS)의 운영 데이터(DAT)에 관해 추가 트레이닝된다. 시스템 특정 매개변수들의 개수가 통상적으로 매우 적기 때문에, 단지 매우 적은 운영 데이터만이 제 2 트레이닝 단계에 요구된다. 기본적인 아이디어(idea)는, 조인트 신경 모델을 트레이닝하기 위해 사용되는 충분한 개수의 소스 시스템들(S1,...,SN)의 운영 데이터(DAT1,...,DATN)가, 조인트 신경 모델이 소스 시스템들(S1,...,SN)의 패밀리의 일반적인 역학과 소스 시스템 특정 특성들 사이를 구별하도록 하는 충분한 정보를 포함한다는 것이다. 일반적인 역학은 공유되는 매개변수들
Figure 112016112821174-pct00084
, 및
Figure 112016112821174-pct00085
로 인코딩되고(encoded), 이는 몇 개의 특성 양상들만이 제 2 트레이닝 단계에서 학습될 필요가 있는 경우, 새로운 유사한 타겟 시스템(TS)으로의 지식의 효율적 전달을 허용한다.
조인트 모델이 트레이닝된 소스 시스템들(S1,...,SN)과 충분히 유사하지 않은 새로운 타겟 시스템(TS)의 경우, 공유되는 매개변수들의 추가 적응 없이 지식을 새로운 타겟 시스템(TS)에 전달하기 위해서는, 조인트 신경 모델에 의해 학습되는 일반적인 역학이 새로운 타겟 시스템(TS)의 역학과는 너무 많이 상이할 수 있다. 이는 또한, 시스템들의 전체 패밀리의 일반적인 역학의 충분한 지식을 추출하기 위해서는, 조인트 신경 모델을 트레이닝하기 위해 사용되는 소스 시스템들(S1,...,SN)의 개수가 너무 적은 경우일 수 있다.
양쪽 경우들 모두에서, 제 2 트레이닝 단계 동안에, 공유되는 적응 가중치들
Figure 112016112821174-pct00086
, 및
Figure 112016112821174-pct00087
를 또한 적응시키는 것이 유리할 수 있다. 이 경우, 조인트 신경 모델을 트레이닝하기 위해 사용되는 운영 데이터(DAT1,...,DATN)는 새로운 타겟 시스템(TS)으로부터의 운영 데이터(DAT)에 의해 확장되며, 모든 적응 가중치들은 또한 제 2 트레이닝 단계 동안의 적응을 위해 여전히 자유롭게 남아 있다. 조인트 신경 모델의 제 1 트레이닝 단계에서 트레이닝된 적응 가중치들은, 타겟 시스템(TS)의 신경 모델을 초기화하기 위해 사용되며, 그 신경 모델은 새로운 타겟 시스템(TS)에 특정한 적응 가중치들의 추가 세트를 포함하는 조인트 신경 모델의 단순한 확장이다. 따라서, 제 2 트레이닝 단계에 요구되는 시간이 상당히 감소될 수 있는데, 그 이유는 매개변수들 대부분이 매개변수 공간의 우수한 값들로 이미 초기화되고, 확장된 조인트 신경 모델이 수렴에 도달하기 위해 매우 적은 추가 트레이닝만이 필요하기 때문이다.
그 접근법의 변형들은 추가 트레이닝을 위해 적응 가중치들의 서브세트를 동결시키는 것 그리고 운영 데이터(DAT1,...,DATN, DAT)의 서브세트들을 사용하는 것을 포함한다. 확장된 조인트 신경 모델을 초기 조인트 신경 모델의 적응 가중치들로 초기화하는 것 대신에, 그러한 적응 가중치들은 랜덤하게(randomly) 초기화될 수 있고, 확장된 신경 모델은 모든 시스템들(S1,...,SN, 및 TS)로부터의 데이터를 이용하여 스크래치로부터 추가 트레이닝될 수 있다.
본 발명은 시스템 역학에 대한, 소스 시스템들(S1,...,SN)의 패밀리로부터의 정보 또는 지식을 레버리징(leverage)하게 하고, 이는 유사한 또는 동일한 유형의 시스템들의 전체 세트에 대한 재귀 신경망 시뮬레이션의 데이터-효율적 트레이닝을 가능하게 한다. 이 접근법은 학습 신경망을 특정 새로운 타겟 시스템(TS)에 배치할 때 점프-스타트(jump-start)를 용이하게 하는데, 즉, 이러한 지식 전달이 없는 학습 모델과 비교하여, 이 접근법은 새로운 타겟 시스템(TS)의 적은 운영 데이터(DAT)로 상당히 더 나은 최적화 성능을 달성한다.
유사한 시스템들에 대한 학습 모델들 사이의 이러한 정보 공유의 추가 장점들은, 예컨대, 상이한 시스템들이 상이한 지방(clime)들 내에 위치된다면, 환경 조건들에 대한 더 나은 조정가능성을 포함한다. 학습 모델은 또한, 상이한 종류들의 열화를 향하여 일반화할 수 있으며, 이는 드문 또는 흔하지 않은 상황들에 대한 개선된 최적화 능력들을 제공하는데, 그 이유는 모든 시스템들로부터 수집되는 결합된 정보가 활용될 수 있기 때문이다.

Claims (14)

  1. 복수의 소스 시스템(source system)들의 운영 데이터(data)에 기초하여 타겟(target) 시스템을 제어하기 위한 방법으로서,
    a) 상기 소스 시스템들의 운영 데이터를 수신하는 단계 ―상기 운영 데이터는 소스 시스템 특정 식별자들에 의해 구별됨―,
    b) 신경망에 의하여, 상기 소스 시스템 특정 식별자들을 고려하여 상기 소스 시스템들의 수신된 운영 데이터에 기초하여 신경 모델(model)을 트레이닝(training)하는 단계 ―제1 신경 모델 컴포넌트(component)는 상기 소스 시스템들에 의해 공유되는 특성들에 관해 트레이닝되고(trained), 제2 신경 모델 컴포넌트는 상기 소스 시스템들 사이에서 변하는 특성들에 관해 트레이닝됨―,
    c) 상기 타겟 시스템의 운영 데이터를 수신하는 단계,
    d) 트레이닝된 신경 모델을 상기 타겟 시스템의 상기 운영 데이터에 기초하여 추가 트레이닝하는 단계 ―상기 제1 신경 모델 컴포넌트의 추가 트레이닝보다 상기 제2 신경 모델 컴포넌트의 추가 트레이닝에 우선권이 주어짐―, 및
    e) 추가 트레이닝된 신경망에 의하여 상기 타겟 시스템을 제어하는 단계
    를 포함하는,
    방법.
  2. 제1항에 있어서,
    상기 제1 신경 모델 컴포넌트는 제1 적응 가중치들에 의해 표현되고, 그리고
    상기 제2 신경 모델 컴포넌트는 제2 적응 가중치들에 의해 표현되는,
    방법.
  3. 제2항에 있어서,
    상기 제1 적응 가중치들의 개수는 상기 제2 적응 가중치들의 개수보다 몇 배 더 많은,
    방법.
  4. 제2항에 있어서,
    상기 제1 적응 가중치들은 제1 가중치 행렬(matrix)을 포함하고, 상기 제2 적응 가중치들은 제2 가중치 행렬을 포함하는,
    방법.
  5. 제4항에 있어서,
    상기 신경 모델의 적응 가중치들을 결정하기 위해, 상기 제1 가중치 행렬은 상기 제2 가중치 행렬로 곱해지는,
    방법.
  6. 제4항에 있어서,
    상기 제2 가중치 행렬은 대각 행렬(diagonal matrix)인,
    방법.
  7. 제1항에 있어서,
    상기 제1 신경 모델 컴포넌트는 추가 트레이닝되지 않는,
    방법.
  8. 제2항에 있어서,
    상기 트레이닝된 신경 모델을 추가 트레이닝할 때, 상기 제1 적응 가중치들의 제1 서브세트(subset)는 실질적으로 일정하게 유지되고, 반면에 상기 제1 적응 가중치들의 제2 서브세트는 추가 트레이닝되는,
    방법.
  9. 제1항에 있어서,
    상기 신경 모델은 강화(reinforcement) 학습 모델인,
    방법.
  10. 제1항에 있어서,
    상기 신경망은 재귀(recurrent) 신경망으로서 동작하는,
    방법.
  11. 제1항에 있어서,
    상기 신경 모델의 트레이닝 동안에,
    상기 신경 모델이 상기 소스 시스템들에 의해 공유되는 특성들과 상기 소스 시스템들 사이에서 변하는 특성들 사이의 차이를 반영하는지의 여부를 결정하는 단계, 및
    상기 결정에 따라, 상기 신경 모델의 트레이닝에 영향을 끼치는 단계
    를 포함하는,
    방법.
  12. 제1항에 있어서,
    상기 트레이닝된 신경 모델로부터 도출되는 정책들은 기술 타겟 시스템에 대해 폐쇄형 학습 루프(loop)로 실행되는,
    방법.
  13. 복수의 소스 시스템들의 운영 데이터에 기초하여 타겟 시스템을 제어하기 위한 제어기로서,
    제1항 내지 제12항 중 어느 한 항의 방법을 수행하도록 구성되는,
    제어기.
  14. 복수의 소스 시스템들의 운영 데이터에 기초하여 타겟 시스템을 제어하기 위한 컴퓨터 프로그램을 저장하고 있는 컴퓨터-판독가능 저장 매체로서,
    상기 컴퓨터 프로그램은 제1항 내지 제12항 중 어느 한 항의 방법을 수행하도록 구성되는,
    컴퓨터-판독가능 저장 매체.
KR1020167032311A 2014-04-22 2015-04-16 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품 KR101961421B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/258,740 2014-04-22
US14/258,740 US20150301510A1 (en) 2014-04-22 2014-04-22 Controlling a Target System
PCT/EP2015/058239 WO2015162050A1 (en) 2014-04-22 2015-04-16 Method, controller, and computer program product for controlling a target system by separately training a first and a second recurrent neural network models, which are initially trained using oparational data of source systems

Publications (2)

Publication Number Publication Date
KR20160147858A KR20160147858A (ko) 2016-12-23
KR101961421B1 true KR101961421B1 (ko) 2019-03-22

Family

ID=52829112

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167032311A KR101961421B1 (ko) 2014-04-22 2015-04-16 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품

Country Status (6)

Country Link
US (1) US20150301510A1 (ko)
EP (1) EP3117274B1 (ko)
KR (1) KR101961421B1 (ko)
DK (1) DK3117274T3 (ko)
ES (1) ES2665072T3 (ko)
WO (1) WO2015162050A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150370227A1 (en) * 2014-06-19 2015-12-24 Hany F. Bassily Controlling a Target System
US20170074173A1 (en) * 2015-09-11 2017-03-16 United Technologies Corporation Control system and method of controlling a variable area gas turbine engine
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
EP3446260B1 (en) * 2016-05-20 2019-09-25 DeepMind Technologies Limited Memory-efficient backpropagation through time
US10454779B2 (en) * 2016-08-26 2019-10-22 Paypal, Inc. Adaptive learning system with a product configuration engine
CN106503794A (zh) * 2016-11-08 2017-03-15 上海电机学院 一种风机齿轮箱剩余寿命预测方法
US11295210B2 (en) 2017-06-05 2022-04-05 D5Ai Llc Asynchronous agents with learning coaches and structurally modifying deep neural networks without performance degradation
US10881463B2 (en) * 2017-08-30 2021-01-05 International Business Machines Corporation Optimizing patient treatment recommendations using reinforcement learning combined with recurrent neural network patient state simulation
US11010666B1 (en) * 2017-10-24 2021-05-18 Tunnel Technologies Inc. Systems and methods for generation and use of tensor networks
FI20175970A1 (en) * 2017-11-01 2019-05-02 Curious Ai Oy Setting up a control system for the target system
CN109615454A (zh) * 2018-10-30 2019-04-12 阿里巴巴集团控股有限公司 确定用户金融违约风险的方法及装置
KR102439606B1 (ko) * 2018-10-30 2022-09-01 삼성에스디에스 주식회사 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치
CN109711529B (zh) * 2018-11-13 2022-11-08 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
EP3792484A1 (en) * 2019-09-16 2021-03-17 Siemens Gamesa Renewable Energy A/S Wind turbine yaw offset control based on reinforcement learning
DE102020006267A1 (de) 2020-10-12 2022-04-14 Daimler Ag Verfahren zum Erzeugen eines Verhaltensmodells für eine Kraftfahrzeugflotte mittels einer kraftfahrzeugexternen elektronischen Recheneinrichtung, sowie kraftfahrzeugexterne elektronische Recheneinrichtung
US20220208373A1 (en) * 2020-12-31 2022-06-30 International Business Machines Corporation Inquiry recommendation for medical diagnosis

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5467883A (en) * 1992-12-14 1995-11-21 At&T Corp. Active neural network control of wafer attributes in a plasma etch process
JP4918207B2 (ja) * 2000-06-29 2012-04-18 アスペン テクノロジー インコーポレイテッド 経験的プロセスの非線形近似器を制約するコンピュータ装置とその方法
EP1356430B1 (en) * 2000-10-13 2010-07-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A method for supervised teaching of a recurrent artificial neural network
ES2290222T3 (es) * 2002-08-16 2008-02-16 Powitec Intelligent Technologies Gmbh Metodo para la regulacion de un proceso termodinamico.
DE102007042440B3 (de) * 2007-09-06 2009-01-29 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
CA2859049C (en) * 2011-12-16 2018-06-12 Samah EL-TANTAWY Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
DE102012206651A1 (de) * 2012-04-23 2013-10-24 Siemens Aktiengesellschaft Verfahren zur Regelung einer Turbine
US10531806B2 (en) * 2013-12-17 2020-01-14 University Of Florida Research Foundation, Inc. Brain state advisory system using calibrated metrics and optimal time-series decomposition

Also Published As

Publication number Publication date
WO2015162050A1 (en) 2015-10-29
EP3117274A1 (en) 2017-01-18
EP3117274B1 (en) 2018-01-31
DK3117274T3 (en) 2018-04-16
US20150301510A1 (en) 2015-10-22
ES2665072T3 (es) 2018-04-24
KR20160147858A (ko) 2016-12-23

Similar Documents

Publication Publication Date Title
KR101961421B1 (ko) 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품
Li et al. Propagation networks for model-based control under partial observation
US20170038750A1 (en) Method, controller, and computer program product for controlling a target system
KR101945863B1 (ko) 시뮬레이션 모듈을 사용하는 컴퓨터-지원 플랜트 제어 최적화를 위한 방법
US8160978B2 (en) Method for computer-aided control or regulation of a technical system
CN111241952A (zh) 一种离散制造场景中的强化学习奖励自学习方法
US20050273296A1 (en) Neural network model for electric submersible pump system
Akan et al. Stretchbev: Stretching future instance prediction spatially and temporally
US11759947B2 (en) Method for controlling a robot device and robot device controller
CN111260124A (zh) 一种基于注意力机制深度学习的混沌时间序列预测方法
EP3502978A1 (en) Meta-learning system
CN114511042A (zh) 一种模型的训练方法、装置、存储介质及电子装置
Liang et al. Balancing between forgetting and acquisition in incremental subpopulation learning
KR20220154785A (ko) 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션
US11850752B2 (en) Robot movement apparatus and related methods
Contardo et al. Learning states representations in pomdp
WO2021226709A1 (en) Neural architecture search with imitation learning
CN112016695A (zh) 用于预测学习曲线的方法、设备和计算机程序
Duell et al. The Markov Decision Process Extraction Network.
CN115099401B (zh) 基于世界建模的持续学习框架的学习方法、装置及设备
Vázquez et al. Performance control of Markovian Petri nets via fluid models: A stock-level control example
CN113821012B (zh) 一种用于变工况卫星姿态控制系统的故障诊断方法
Arora et al. Comparative analysis of adaptive filters for predicting wind-power generation (SLMS, NLMS, SGDLMS, WLMS, RLMS)
WO2021111831A1 (ja) 情報処理方法、情報処理システム及び情報処理装置
Chen et al. Deep Recurrent Policy Networks for Planning Under Partial Observability

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant