KR20230133369A - 기술 시스템을 제어하기 위한 제어 디바이스 및 제어 디바이스를 구성하기 위한 방법 - Google Patents

기술 시스템을 제어하기 위한 제어 디바이스 및 제어 디바이스를 구성하기 위한 방법 Download PDF

Info

Publication number
KR20230133369A
KR20230133369A KR1020237028470A KR20237028470A KR20230133369A KR 20230133369 A KR20230133369 A KR 20230133369A KR 1020237028470 A KR1020237028470 A KR 1020237028470A KR 20237028470 A KR20237028470 A KR 20237028470A KR 20230133369 A KR20230133369 A KR 20230133369A
Authority
KR
South Korea
Prior art keywords
machine learning
signal
learning module
technical system
control action
Prior art date
Application number
KR1020237028470A
Other languages
English (en)
Inventor
다니엘 하인
홀거 쇠너
마르크 크리스티안 베버
카이 헤셰
볼크마르 슈테르칭
슈테펜 우드루프트
Original Assignee
지멘스 악티엔게젤샤프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지멘스 악티엔게젤샤프트 filed Critical 지멘스 악티엔게젤샤프트
Publication of KR20230133369A publication Critical patent/KR20230133369A/ko

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)

Abstract

본 발명에 따르면, 기술 시스템(TS)의 동작 신호(BS)는, 기술 시스템의 거동 신호를 재현하고 ― 상기 거동 신호는 제어 액션의 현재 사용 없이 특정적으로 발생함 ―, 그리고 재현된 거동 신호(VSR1)를 제1 출력 신호로서 출력하도록 훈련된 제1 머신 러닝 모듈(NN1)로 공급된다. 제1 출력 신호(VSR1)는, 제어 액션 신호(AS)를 사용하여 기술 시스템의 결과적인 거동 신호를 재현하고, 그리고 재현된 거동 신호(VSR2)를 제2 출력 신호로서 출력하도록 훈련된 제2 머신 러닝 모듈(NN2)로 공급된다. 추가로, 기술 시스템의 동작 신호(BS)는 제3 머신 러닝 모듈(NN3)로 공급되고, 제3 머신 러닝 모듈(NN3)의 제3 출력 신호(AS)는 훈련된 제2 머신 러닝 모듈(NN2)로 공급된다. 제어 액션 성능(Q)이 제2 출력 신호(VSR2)를 사용하여 확인되고, 제어 액션 성능은 제어 액션 성능(Q)을 최적화하도록 제3 머신 러닝 모듈(NN3)을 훈련하는 데 사용된다. 제3 머신 러닝 모듈(NN3)을 훈련함으로써, 제어 디바이스(CTL)는 기술 시스템을 제어하도록 구성된다.

Description

기술 시스템을 제어하기 위한 제어 디바이스 및 제어 디바이스를 구성하기 위한 방법
머신 러닝 방법(machine learning method)들은 예를 들어, 가스 터빈(gas turbine)들, 풍력 터빈들, 연소 엔진(combustion engine)들, 로봇(robot)들, 제조 설비들 또는 전력 그리드(grid)들과 같은 복잡한 기술 시스템(technical system)들의 제어에 점점 더 많이 사용되고 있다. 이러한 러닝 방법들을 사용하여, 제어 디바이스(control device)의 머신 러닝 모델(model)은, 기술 시스템의 현재 동작 신호들로부터의 절차 및 훈련 데이터(training data)에 기초하여, 기술 시스템의 원하는 또는 최적화된 거동을 특정적으로 야기하고 따라서 그 성능을 최적화하는, 기술 시스템을 제어하기 위한 그러한 제어 액션(control action)들을 결정하도록 훈련될 수 있다. 기술 시스템을 제어하기 위한 이러한 머신 러닝 모델은 종종 정책 또는 제어 모델이라고도 칭한다. 예를 들어, 강화 러닝 방법들과 같은 많은 알려진 훈련 방법들이 이러한 정책을 훈련하는 데 이용가능하다.
그러나, 산업 환경에서의 제어 최적화들의 경우, 알려진 많은 훈련 방법들에서 수렴 문제들 및/또는 러닝 프로세스(process)들의 반복성과 관련된 문제들이 발생한다. 이는 예를 들어, 기술 시스템의 상태 공간의 작은 부분만이 고려되고, 기술 시스템의 센서 데이터에 잡음이 많고 그리고/또는 제어 액션들이 일반적으로 시간 지연을 갖는 그들의 효과를 나타낸다는 사실 때문일 수 있으며, 상이한 제어 액션들은 종종 상이한 시간 지연들로 이어진다. 위의 증상들은 복잡한 실제 시스템들에서 통상적으로 발생하며 러닝 성공을 상당히 저해할 수 있다.
본 발명의 목적은 보다 효율적인 훈련을 모두 가능하게 하는 기술 시스템을 제어하기 위한 제어 디바이스 및 제어 디바이스를 구성하기 위한 방법을 특정하는 것이다.
이러한 목적은 특허 청구항 1의 특징들을 갖는 방법, 특허 청구항 12의 특징들을 갖는 제어 디바이스, 특허 청구항 13의 특징들을 갖는 컴퓨터 프로그램 제품(computer program product) 및 특허 청구항 14의 특징들을 갖는 컴퓨터-판독가능 저장 매체에 의해 달성된다.
기술 시스템에 대한 제어 디바이스를 구성하기 위해, 기술 시스템의 동작 신호가 기술 시스템의 동작 신호에 기초하여 제어 액션의 현재 적용 없이 구체적으로 발생하는 기술 시스템의 거동 신호를 재현하고 재현된 거동 신호를 제1 출력 신호로서 출력하도록 훈련된 제1 머신 러닝 모듈(machine learning module)로 공급된다. 제1 출력 신호는, 제어 액션 신호에 기초하여 기술 시스템의 결과적인 거동 신호를 재현하고 재현된 거동 신호를 제2 출력 신호로서 출력하도록 훈련된 제2 머신 러닝 모듈로 공급된다. 추가로, 기술 시스템의 동작 신호가 제3 머신 러닝 모듈로 공급되고, 제3 머신 러닝 모듈의 제3 출력 신호가 훈련된 제2 머신 러닝 모듈로 공급된다. 제어 액션 성능이 제2 출력 신호에 기초하여 결정된다. 이에 의해, 제3 머신 러닝 모듈은 기술 시스템의 동작 신호에 기초하여 제어 액션 성능을 최적화하도록 훈련된다. 최종적으로 제어 디바이스는 제3 머신 러닝 모듈에 기초하여 제3 머신 러닝 모듈의 제3 출력 신호를 통해 기술 시스템을 제어하도록 구성된다.
본 발명에 따른 방법을 수행하기 위해, 제어 디바이스, 컴퓨터 프로그램 제품 및 바람직하게는 비-휘발성 컴퓨터-판독가능 저장 매체가 제공된다.
본 발명에 따른 방법 및 본 발명에 따른 제어 디바이스는 예를 들어, 하나 이상의 컴퓨터들, 프로세서(processor)들, 주문형 집적 회로(ASIC; application-specific integrated circuit)들, 디지털 신호 프로세서(DSP; digital signal processor)들 및/또는 필드-프로그래머블 게이트 어레이(FPGA; field-programmable gate array)들을 통해 수행되거나 구현될 수 있다.
본 발명은 제어 디바이스를 상당히 더 효율적으로 구성하거나 훈련하는 것을 가능하게 한다. 훈련된 제2 머신 러닝 모듈이 제3 머신 러닝 모듈의 훈련에 사용되기 때문에, 일반적으로 제3 머신 러닝 모듈을 훈련할 때 시스템 거동의 필수 구성 요소들이 더 이상 암시적으로 학습되거나 표현될 필요가 없다. 많은 경우들에 있어서, 이것은 상당히 개선된 수렴 거동 및/또는 훈련 결과들의 더 나은 반복성으로 이어진다. 추가적으로, 훈련은 종종 훈련 데이터의 변화들에 대해 더 안정적이고 그리고/또는 더 견고해진다. 또한, 많은 경우들에 있어서, 더 적은 훈련 데이터, 더 적은 컴퓨팅(computing) 시간 및/또는 더 적은 컴퓨팅 자원들이 필요하다.
본 발명의 유리한 실시예들 및 전개들은 종속 청구항들에서 특정된다.
본 발명의 하나의 유리한 실시예에 따르면, 제3 머신 러닝 모듈은 제1 출력 신호에 기초하여 훈련될 수 있다. 이것은 제어 액션의 현재 적용을 갖지 않는 시스템 거동에 대한 특정 정보가 제3 머신 러닝 모듈에 이용가능하므로, 제3 머신 러닝 모듈이 종종 특히 효과적으로 훈련될 수 있음을 의미한다.
본 발명의 하나의 특히 유리한 실시예에 따르면, 개개의 시점에 대한 제어 액션 성능은 거동 신호의 단일 시간 증분에 기초하여 각각의 경우에서 결정될 수 있다. 성능에 대한 장래 효과들의 복잡한 결정 또는 추정은 종종 필요하지 않다. 따라서, 상이한 시간 척도들에서 실행되는 동적 효과들도 효율적으로 고려될 수 있다. 추가로 시간 증분은 제어 액션 및/또는 거동 신호에 따라 상이한 길이를 가질 수 있고, 또한 제어 액션들의 효과들을 복제할 수 있으며, 이러한 효과들은 더 장래에 있을 수 있다.
유리하게는, 기술 시스템의 동작 신호의 제1 및/또는 제2 부분들은, 기술 시스템의 동작 신호의 제1 및/또는 제2 부분들이 제어 액션을 포함하는지 여부에 따라 특정적으로 선택될 수 있다. 따라서, 제어 액션을 포함하지 않는 동작 신호의 제1 부분들은 제1 머신 러닝 모듈을 훈련하도록 특정적으로 사용되고 그리고/또는 제어 액션을 포함하는 동작 신호의 제2 부분들은 제2 머신 러닝 모듈을 훈련하도록 특정적으로 사용될 수 있다. 개개의 훈련 목표를 타깃(target)으로 하는 훈련 데이터의 특정 선택은 제1 및/또는 제2 머신 러닝 모듈을 특히 효과적인 방식으로 훈련하는 것을 가능하게 한다.
본 발명의 추가적인 유리한 실시예에 따르면, 거동 신호 설정점 값이 판독되고, 제2 출력 신호는 거동 신호 설정점 값과 비교될 수 있다. 따라서, 제어 액션 성능은 비교 결과에 따라 결정될 수 있다. 특히, 제2 출력 신호와 거동 신호 설정점 값 사이의 편차를 예를 들어, 절대차 또는 제곱차의 형태로 결정하는 것이 가능하다. 그 후, 제어 액션 성능은 편차에 따라 결정될 수 있으며, 편차가 클수록 일반적으로 제어 액션 성능이 저하된다.
거동 신호 설정점 값은 제3 머신 러닝 모듈로 추가로 공급될 수 있다. 따라서, 제3 머신 러닝 모듈은 거동 신호 설정점 값에 기초하여 제어 액션 성능을 최적화하도록 훈련될 수 있다.
본 발명의 추가적인 유리한 실시예에 따르면, 제어 액션 성능은 제1 출력 신호에 기초하여 결정될 수 있다. 이러한 경우에, 특히 제1 출력 신호와 제2 출력 신호 사이의 편차를 예를 들어, 절대차 또는 제곱차의 형태로 결정할 수 있다. 대안적으로 또는 추가적으로, 거동 신호 설정점 값으로부터 제1 및 제2 출력 신호의 합의 편차를 결정할 수 있다. 그 후, 제어 액션 성능은 이러한 방식으로 확인된 편차에 따라 결정될 수 있다. 이 경우 편차는 특히 제어 액션을 적용한 시스템 거동이 이러한 제어 액션을 적용하지 않은 시스템 거동과 어떻게 다른지 평가하기 위한 기준으로 삼을 수 있다. 이러한 차이를 사용하여 제어 액션 성능을 결정하는 것은 많은 경우에 상당히 개선될 수 있음이 밝혀졌다.
본 발명의 하나의 유리한 전개에 따르면, 제1 및/또는 제2 머신 러닝 모듈은 기술 시스템에서 실행되는 상이한 프로세스들의 복수의 거동 신호들을 개별적으로 재현하도록 훈련될 수 있다. 그 후, 제어 액션 성능은 재현된 거동 신호들에 따라 결정될 수 있다. 제1 및/또는 제2 머신 러닝 모듈은 특히 이를 위해 기술 시스템에서 실행되는 특정 프로세스를 각각 프로세스-특정 방식으로 모델링(model)하는 머신 러닝 모델들 또는 서브-모델(sub-model)들의 세트(set)를 포함할 수 있다. 단독으로의 개개의 기본 개별 다이내믹스(dynamics)는 일반적으로 조합된 시스템 다이내믹스보다 더 단순한 응답 거동을 갖기 때문에, 많은 경우들에 있어서 이러한 개별 훈련은 조합된 훈련보다 더욱 효율적인 것으로 판명된다.
본 발명은 거동 신호의 단일의, 가능하게는 조정가능한 시간 증분에 기초하여 각각의 시점에서의 제어 액션 성능을 결정하는 것을 가능하게 하기 때문에, 특히 제3 머신 러닝 모듈의 훈련 중에 상이한 실행 속도들을 갖는 프로세스들 사이의 동기화 문제들이 일반적으로 더 적게 발생한다. 많은 경우들에 있어서, 상이한 프로세스-특정 머신 러닝 모델들에 대해 단일 단계에서 제어 액션 성능에 대한 비교적 정확하고 견고한 평가를 수행할 수 있다.
특정 거동 신호 설정점 값이 개개의 거동 신호에 대해 추가로 판독될 수 있다. 그 후, 제어 액션 성능은 재현된 거동 신호들과 특정 거동 신호 설정점 값들 사이의 비교에 기초하여 결정될 수 있다.
특히, 제3 머신 러닝 모듈은 특정 거동 신호 설정점 값들에 기초하여 제어 액션 성능을 최적화하도록 훈련될 수 있다.
이하, 본 발명의 하나의 예시적인 실시예가 도면을 참조하여 보다 상세히 설명된다. 도면들에서, 각각의 경우를 개략적으로:
도 1은 본 발명에 따른 제어 디바이스를 갖는 가스 터빈을 도시하고,
도 2는 제1 훈련 국면에서의 본 발명에 따른 제어 디바이스를 도시하고,
도 3은 제2 훈련 국면에서의 제어 디바이스를 도시하고, 그리고
도 4는 제3 훈련 국면에서의 제어 디바이스를 도시한다.
도 1은 예시의 방식으로 제어 디바이스(CTL)를 갖는 기술 시스템(TS)으로서의 가스 터빈을 예시한다. 대안적으로 또는 추가적으로, 기술 시스템(TS)은 또한 풍력 터빈, 연소 엔진, 제조 설비, 화학, 야금 또는 제약 생산 프로세스, 로봇, 자동차, 에너지 전송 그리드(energy transmission grid), 3D 프린터(printer) 또는 다른 머신, 다른 디바이스 또는 다른 설비를 포함할 수 있다.
가스 터빈(TS)은 제어 디바이스(CTL)에 결합되며, 제어 디바이스(CTL)는 가스 터빈(TS)의 일부로 구현되거나 가스 터빈(TS)의 전체 또는 부분적으로 외부에 구현될 수 있다. 도 1에서, 제어 디바이스(CTL)는 명료성을 위해 기술 시스템(TS)의 외부에 있는 것으로 예시되어 있다.
제어 디바이스(CTL)는 기술 시스템(TS)을 제어하는 데 사용되며, 이를 위해 머신 러닝 방법을 통해 훈련된다. 기술 시스템(TS)을 제어한다는 것은 또한 본원에서 기술 시스템(TS)을 조절하고 제어와 관련된, 즉, 기술 시스템(TS)을 제어하는 데 기여하는 데이터 또는 신호들을 출력하고 사용하는 것을 의미하는 것으로 이해되어야 한다.
이러한 제어 관련 데이터 또는 신호들은 특히 동작 최적화, 기술 시스템(TS) 모니터링(monitoring) 또는 유지 보수 및/또는 마모 또는 손상을 인식하기 위해 사용될 수 있는 제어 액션 신호들, 예측 데이터, 모니터링 신호들, 상태 데이터 및/또는 분류 데이터를 포함할 수 있다.
가스 터빈(TS)은 기술 시스템(TS)의 하나 이상의 동작 파라미터(operating parameter)들을 연속적으로 측정하고 이들을 측정된 값들로서 출력하는 센서(sensor)들(S)을 갖는다. 센서들(S)로부터 측정된 값들 및 다른 방식으로 캡처된(captured) 기술 시스템(TS)의 가능한 동작 파라미터들은 기술 시스템(TS)으로부터 제어 디바이스(CTL)로 동작 신호들(BS)로서 전송된다.
동작 신호(BS)는 특히 물리적, 화학적, 조절 관련, 효과 관련 및/또는 설계 관련 동작 변수들, 속성 데이터, 성능 데이터, 효과 데이터, 상태 신호들, 거동 신호들, 시스템 데이터, 사전 설정된 값들, 제어 데이터, 제어 액션 신호들, 센서 데이터, 측정된 값들, 주변 데이터, 모니터링 데이터, 예측 데이터, 분석 데이터 및/또는 기술 시스템(TS)의 동작 중에 발생한 그리고/또는 기술 시스템(TS)의 동작 상태 또는 제어 액션을 설명하는 다른 데이터를 포함할 수 있다. 이는 예를 들어, 기술 시스템(TS)의 온도, 압력, 배출들, 진동들, 오실레이팅(oscillating) 상태들 또는 자원 소비에 관한 데이터일 수 있다. 특히 가스 터빈의 경우에 있어서, 동작 신호들(BS)은 터빈 파워(power), 회전 속도, 진동 주파수들, 진동 진폭, 연소 다이내믹스, 연소 교대 압력 진폭 또는 아산화질소 농도와 관련될 수 있다.
훈련된 제어 디바이스(CTL)는 동작 신호들(BS)에 기초하여 기술 시스템(TS)의 성능을 최적화하는 제어 액션들을 결정한다. 이 경우 최적화될 성능은 특히 기술 시스템(TS)의 파워, 수율, 속도, 서비스 수명(service life), 정밀도, 에러 레이트(error rate), 자원 수요, 효율성, 오염물 배출, 안정성, 마모, 수명 및/또는 다른 타깃 파라미터들과 관련될 수 있다.
결정된 성능 최적화된 제어 액션들은 제어 디바이스(CTL)에 의해 적절한 제어 액션 신호들(AS)을 기술 시스템(TS)으로 전송함으로써 이루어진다. 제어 액션들은 예를 들어, 가스 터빈의 경우, 가스 공급, 가스 분배 또는 공기 공급을 설정하는 데 사용될 수 있다.
도 2는 제1 훈련 국면에서의 본 발명에 따른 러닝 기반 제어 디바이스(CTL)의 개략적인 예시를 도시한다. 제어 디바이스(CTL)는 기술 시스템(TS)을 제어하도록 구성되도록 의도된다. 도면들에서 동일하거나 상응하는 참조 부호들이 사용되는 경우, 이러한 참조 부호들은 동일하거나 대응하는 엔티티(entity)들을 표기한다.
예시적인 본 실시예에서, 제어 디바이스(CTL)는 기술 시스템(TS)에 결합된다. 제어 디바이스(CTL)는 본 발명에 따른 방법을 수행하기 위한 하나 이상의 프로세서들(PROC) 및 방법 데이터를 저장하기 위한 하나 이상의 메모리(memory)들(MEM)을 포함한다.
제어 디바이스(CTL)는 기술 시스템(TS)으로부터 동작 신호들(BS)을 훈련 데이터로서 수신한다. 동작 신호들은 특정 시계열, 즉, 기술 시스템(TS)의 동작 파라미터들의 값들의 시간적 시퀀스(temporal sequence)들을 포함한다. 예시적인 본 실시예에서, 동작 신호들(BS)은 시간 경과에 따른 기술 시스템(TS)의 상태들을 특정하는 상태 신호들(SS), 기술 시스템(TS)의 제어 액션들을 특정하거나 유발하는 제어 액션 신호들(AS) 및 기술 시스템(TS)의 시스템 거동을 특정하는 거동 신호들(VS)을 포함한다. 예를 들어, 거동 신호들은 가스 터빈의 연소 교대 압력 진폭들, 배출들, 속도 또는 온도의 변화들을 특정할 수 있다. 기술 시스템(TS)의 성능과 특히 관련된 기술 시스템의 상태 신호들은 거동 신호들(VS)로서 캡처될 수 있다.
동작 신호들(BS) 중 적어도 일부는 또한 기술 시스템(TS)과 유사한 기술 시스템으로부터, 기술 시스템(TS) 또는 이와 유사한 기술 시스템의 저장된 동작 신호들을 포함하는 데이터베이스(database)로부터 및/또는 기술 시스템(TS) 또는 이와 유사한 기술 시스템의 시뮬레이션(simulation)으로부터 수신되거나 유래될 수 있다.
제어 디바이스(CTL)는 제1 머신 러닝 모듈(NN1), 제2 머신 러닝 모듈(NN2) 및 제3 머신 러닝 모듈(NN3)을 추가로 포함한다. 개개의 머신 러닝 모듈(NN1, NN2 또는 NN3)은 이 경우에 특히 인공 뉴럴 네트워크(artificial neural network) 또는 뉴럴 서브네트워크(neural subnetwork)들의 세트로서 설계될 수 있다. 특히 제1 머신 러닝 모듈(NN1)은 제3 머신 러닝 모듈(NN3)의 서브모듈(submodule)로서 설계될 수 있다.
머신 러닝 모듈들(NN1, NN2 및/또는 NN3)은 바람직하게는 지도 러닝 방법(supervised learning method), 강화 러닝 방법, 순환 뉴럴 네트워크, 컨벌루셔널 뉴럴 네트워크(convolutional neural network), 베이지안(Baysian) 뉴럴 네트워크, 자동 인코더(autoencoder), 딥 러닝 아키텍처(deep learning architecture), 서포트 벡터 머신(support vector machine), 데이터-중심(data-driven) 훈련가능 회귀 모델, K-최근접 이웃 분류기, 물리적 모델, 결정 트리(decision tree) 및/또는 랜덤 포레스트(random forest)를 사용하거나 구현할 수 있다. 나타낸 변형들 및 그 훈련을 위해 다수의 효율적인 구현들이 이용가능하다.
본원에서 훈련은 일반적으로 입력 신호들을 출력 신호들에 맵핑(mapping)하는 최적화를 의미하는 것으로 이해되어야 한다. 이러한 맵핑은 훈련 국면 중에 사전 정의되고, 학습되고 그리고/또는 학습될 기준들에 따라 최적화된다. 이러한 경우에, 예를 들어, 예측 에러가 예측 모델들에서 기준으로 사용될 수 있거나, 분류 에러가 분류 모델들에서 기준으로 사용될 수 있거나 제어 액션의 성공이 제어 모델들에서 기준으로 사용될 수 있다. 예를 들어, 훈련은 뉴럴 네트워크의 뉴런(neuron)들의 네트워킹 구조(networking structure)들 및/또는 뉴런들 간의 연결들의 가중치들을 설정하거나 최적화하는 것을 가능하게 하여 사전 정의된 기준들이 가능한 한 충족된다. 따라서 훈련은 최적화 문제로 이해될 수 있다. 다수의 효율적인 최적화 방법들이 머신 러닝 분야에서 이러한 최적화 문제들에 대해 이용가능하다. 특히 경사 하강 방법(Gradient descent method)들, 입자 군집 최적화(particle swarm optimization)들 및/또는 유전적(genetic) 최적화 방법들이 사용될 수 있다.
도 2에 예시된 제1 훈련 국면에서, 제1 머신 러닝 모듈(NN1)이 훈련된다. 이는 기술 시스템(TS)의 동작 신호에 기초하여 제어 액션의 현재 적용 없이 전개될 기술 시스템(TS)의 거동을 예측하거나 재현하기 위해 훈련되도록 의도된다.
훈련 성공을 개선하기 위해, 훈련 데이터(BS)는 바람직하게는 제어 액션 없이 또는 제어 액션의 효과들 없이 훈련 데이터를 획득하기 위해 제1 머신 러닝 모듈(NN1)에 결합된 필터(filter)(F1)에 의해 필터링된다. 이를 위해, 동작 신호(BS)가 필터(F1)로 공급된다. 필터(F1)는 내부에 포함된 제어 액션 신호들(AS)에 기초하여 동작 신호들(BS)의 제어 액션들을 검출하기 위한 제어 액션 검출기(ASD)를 포함한다.
제어 액션 검출기(ASD)에 의한 제어 액션들의 검출에 따라, 필터(F1)에 의해 동작 신호들(BS)의 제1 부분들이 선택되고 동작 신호들(BS)로부터 추출된다. 이 경우, 어떠한 제어 액션 및/또는 어떠한 제어 액션의 효과들도 포함하지 않는 동작 신호들(BS)의 제1 부분들이 바람직하게 선택된다. 따라서, 동작 신호들(BS)의 제1 부분들은 예를 들어, 검출된 현재 제어 액션에 따른 시간 창(time window)으로부터 추출될 수 있으며, 여기서 시간 창은 이러한 제어 액션이 아직 시스템 거동에 영향을 미칠 수 없도록 선택된다.
동작 신호들(BS)의 필터링된 제1 부분들은 상태 신호들(SS)의 제1 부분들(SS1) 및 거동 신호들(VS)의 제1 부분들(VS1)을 포함한다. 제1 부분들(SS1 및 VS1)은 필터(F1)에 의해 출력되어 제1 머신 러닝 모듈(NN1)을 훈련하는 데 사용된다.
상태 신호들(SS)의 제1 부분들(SS1)은 제1 머신 러닝 모듈(NN1)로 훈련 목적의 입력 신호로서 공급된다. 훈련의 목적은 제1 머신 러닝 모듈(NN1)이 기술 시스템(TS)의 동작 신호에 기초하여 가능한 한 제어 액션의 현재 적용 없이 발생하는 기술 시스템의 거동 신호를 재현하도록 하는 것이다. 즉, 이하에서 제1 출력 신호로 지칭되는 제1 머신 러닝 모듈(NN1)의 출력 신호(VSR1)는 가능한 한 기술 시스템(TS)의 실제 거동 신호와 매칭(match)된다. 이를 위해, 제1 출력 신호(VSR1)와 거동 신호들(VS)의 대응하는 제1 부분들(VS1) 사이의 편차(D1)가 결정된다. 이 경우 편차(D1)는 제1 머신 러닝 모듈(NN1)의 재현 또는 예측 에러를 나타낸다. 편차(D1)는 특히 또는 에 따라 차이, 특히 벡터 차이의 제곱 또는 절대값으로서 계산될 수 있다.
도 2에서 점선 화살표로 나타낸 편차(D1)는 제1 머신 러닝 모듈(NN1)로 피드백(feed back)된다. 피드백된 편차(D1)에 기초하여, 제1 머신 러닝 모듈(NN1)은 이러한 편차(D1)와 그에 따른 재현 에러를 최소화하도록 훈련된다. 위에서 이미 나타낸 바와 같이, 편차(D1)를 최소화하기 위해 예를 들어, 경사 하강 방법들, 입자 군집 최적화들 또는 유전적 최적화 방법들과 같은 다수의 최적화 방법들이 이용가능하다. 이에 의해 제1 머신 러닝 모듈(NN1)은 지도 러닝 방법에 의해 훈련된다. 훈련된 제1 머신 러닝 모듈(NN1)은 제1 출력 신호(VSR1)로 제어 액션의 현재 적용 없이 발생할 수 있는 기술 시스템(TS)의 거동 신호를 재현한다.
필터링된 동작 신호들(SS1 및 VS1)이 훈련 목적으로 사용되기 때문에, 제1 머신 러닝 모듈(NN1)은 이러한 훈련 목표와 관련하여 특히 효과적으로 훈련된다. 또한, 제1 머신 러닝 모듈(NN1)은 제어 디바이스(CTL) 외부에서도 훈련될 수 있다는 점이 주목되어야 한다.
위의 훈련 방법은 기술 시스템(TS)에서 실행되는 상이한 프로세스들의 복수의 거동 신호들을 개별적으로 재현하는 데 특히 유리하게 사용될 수 있다. 이를 위해, 제1 머신 러닝 모듈(NN1)은 상술한 바와 같이, 각각 프로세스-특정 거동 신호들과 개별적으로 또는 별도로 훈련되는 복수의 프로세스-특정 뉴럴 서브네트워크들을 포함할 수 있다. 개개의 기본 개별 다이내믹스는 일반적으로 단독으로 더 단순하고 그리고/또는 더 균일한 응답 거동을 갖기 때문에, 많은 경우들에 있어서 이러한 개별 훈련이 조합된 훈련보다 더 효율적인 것으로 판명된다.
도 3은 제2 훈련 국면에서의 제어 디바이스(CTL)를 예시한다. 제2 훈련 국면에서, 제2 머신 러닝 모듈(NN2)은 기술 시스템(TS)의 동작 신호(BS)에 기초하여, 특히 내부에 포함된 제어 액션 신호(AS)에 기초하여 개개의 제어 액션에 의해 유도되는 기술 시스템(TS)의 거동을 예측하거나 재현하도록 훈련되게 의도된다.
제2 머신 러닝 모듈(NN2)을 훈련시키기 위해, 제어 디바이스(CTL)는 기술 시스템(TS)으로부터 기술 시스템(TS)의 동작 신호들(BS)을 훈련 데이터로서 수신한다. 위에서 이미 언급한 바와 같이, 동작 신호들(BS)은 특히 상태 신호들(SS), 제어 액션 신호들(AS) 및 거동 신호들(VS)의 시계열들을 포함한다. 훈련된 제1 머신 러닝 모듈(NN1)은 제2 머신 러닝 모듈(NN2)을 훈련하는 데 추가로 사용된다. 예시적인 본 실시예에서, 제1 머신 러닝 모듈(NN1)의 훈련은 제2 머신 러닝 모듈(NN2)을 훈련할 때 이미 완료되어 있다.
훈련 성공을 개선하기 위해, 바람직하게는 제어 액션들 또는 제어 액션들의 효과들을 포함하는 훈련 데이터를 획득하기 위해, 훈련 데이터(BS)는 제2 머신 러닝 모듈(NN2)에 결합된 필터(F2)에 의해 필터링된다.
이를 위해, 동작 데이터(BS)가 필터(F2)로 공급된다. 필터(F2)는 내부에 포함된 제어 액션 신호들(AS)에 기초하여 동작 신호들(BS)에서 제어 액션들을 특정적으로 검출하기 위한 제어 액션 검출기(ASD)를 포함한다. 제어 액션 검출기(ASD)에 의한 제어 액션들의 검출에 따라, 동작 신호들(BS)의 제2 부분들이 필터(F2)에 의해 선택되어 동작 신호들(BS)로부터 추출된다. 이 경우, 제어 액션들 및/또는 제어 액션들의 효과들을 포함하는 동작 신호들(BS)의 제2 부분들이 선택되는 것이 바람직하다. 예를 들어, 동작 신호들(BS)의 제2 부분들은 각각 검출된 제어 액션 주변의 시간 창 및/또는 개개의 제어 액션의 효과가 예상되어야 하는 시간 창으로부터 추출될 수 있다. 동작 신호들(BS)의 필터링된 제2 부분들은 특히 거동 신호들(VS)의 제2 부분들(VS2) 및 제어 액션 신호들로 강화된 제2 부분들(AS2)을 포함한다. 동작 신호들(BS)의 제2 부분들(AS2 및 VS2)은 필터(F2)에 의해 출력되어 제2 머신 러닝 모듈(NN2)을 훈련하는 데 사용된다.
훈련을 위해, 동작 신호들(BS)의 제2 부분들(AS2)은 제2 머신 러닝 모듈(NN2)로 입력 신호로서 공급된다. 동작 신호들(BS)은 또한, 이미 훈련된 제1 머신 러닝 모듈(NN1)로 공급되며, 제1 머신 러닝 모듈(NN1)은 동작 신호들(BS)로부터 거동 신호(VSR1)를 도출하여, 거동 신호(VSR1)를 제1 출력 신호로서 출력한다. 상술한 바와 같이, 거동 신호(VSR1)는 제어 액션의 현재 적용 없이 발생할 수 있는 기술 시스템(TS)의 거동 신호를 재현한다. 거동 신호(VSR1)는 제2 머신 러닝 모듈(NN2)로 추가적인 입력 신호로서 공급된다.
훈련의 목적은 제어 액션들을 포함하는 동작 신호(여기서는 AS2)에 기초하고, 제어 액션의 현재 적용 없이 발생하는 거동 신호(여기서는 VSR1)에 기초하여 제2 머신 러닝 모듈(NN2)이 제어 액션들에 의해 유도되는 기술 시스템(TS)의 거동 신호를 가능한 정확하게 재현하는 것이다. 즉, 이하에서 제2 출력 신호로 지칭되는 제2 머신 러닝 모듈(NN2)의 출력 신호(VSR2)는 제어 액션들의 영향을 받는 기술 시스템(TS)의 실제 거동 신호와 가능한 한 매칭된다.
훈련 과정에서, 제2 출력 신호(VSR2)와 거동 신호들(VS)의 대응하는 제2 부분들(VS2) 사이의 편차(D2)가 결정된다. 이 경우 편차(D2)는 제2 머신 러닝 모듈(NN2)의 재현 또는 예측 에러를 나타낸다. 편차(D2)는 예를 들어, 또는 에 따라 차이, 특히 벡터 차이의 제곱 또는 절대값으로 계산될 수 있다.
도 3에서 점선 화살표로 나타낸 편차(D2)는 제2 머신 러닝 모듈(NN2)로 피드백된다. 피드백된 편차(D2)에 기초하여, 제2 머신 러닝 모듈(NN2)은 이러한 편차(D2)와 그에 따른 재현 에러를 최소화하도록 훈련된다. 이미 위에서 언급된 바와 같이, 편차(D2)를 최소화하기 위해 다수의 알려진 최적화 방법들, 특히 지도 러닝 방법들이 사용될 수 있다.
훈련된 제2 머신 러닝 모듈(NN2)은 제2 출력 신호(VSR2)로 제어 액션의 현재 적용에 의해 유도되는 기술 시스템(TS)의 거동 신호를 재현한다.
필터링된 동작 신호들(AS2 및 VS2)은 훈련 목적들로 사용되므로, 제2 머신 러닝 모듈(NN2)은 이러한 훈련 목표와 관련하여 특히 효과적으로 훈련된다. 추가로, 제어 액션으로 유도된 시스템 거동과 제어 액션이 없는 시스템 거동 사이의 차이에 대한 특정 정보가 제2 머신 러닝 모듈(NN2)에 대해 이용가능하므로, 거동 신호(VSR1)를 제2 머신 러닝 모듈(NN2)로 공급하는 것은 또한, 많은 경우들에 있어서 훈련 성공을 상당히 증가시키는 것을 가능하게 한다. 또한, 제2 머신 러닝 모듈(NN2)은 제어 디바이스(CTL) 외부에서도 훈련될 수 있다는 점이 주목되어야 한다.
위의 훈련 방법은 기술 시스템(TS)에서 실행되는 상이한 프로세스들의 복수의 거동 신호들을 개별적으로 재현하는 데 특히 유리하게 사용될 수 있다. 이를 위해, 제2 머신 러닝 모듈(NN2)은 제1 머신 러닝 모듈(NN1)과 마찬가지로, 상술한 바와 같이 각각 프로세스-특정 거동 신호들로 개별적으로 또는 별도로 훈련되는 복수의 프로세스-특정 뉴럴 서브네트워크들을 포함할 수 있다.
도 4는 제3 훈련 국면에서의 제어 디바이스(CTL)를 예시한다. 제3 훈련 국면에서, 제3 머신 러닝 모듈(NN3)은 기술 시스템(TS)의 동작 신호에 기초하여 기술 시스템을 제어하기 위한 성능-최적화 제어 액션 신호를 생성하도록 훈련되게 의도된다. 이 경우 최적화는 또한 최적에 접근한다는 의미로 이해되어야 한다. 제3 머신 러닝 모듈(NN3)을 훈련한 결과, 제어 디바이스(CTL)는 기술 시스템(TS)을 제어하도록 구성된다.
제3 머신 러닝 모듈(NN3)을 훈련하기 위해, 제어 디바이스(CTL)는 기술 시스템(TS)으로부터 기술 시스템(TS)의 동작 신호들(BS)을 훈련 데이터로서 수신한다. 이러한 훈련을 위해, 상술한 바와 같이, 훈련된 제1 머신 러닝 모듈(NN1) 및 제2 머신 러닝 모듈(NN2)이 사용된다. 예시적인 본 실시예에서, 제3 머신 러닝 모듈(NN3)이 훈련될 때 머신 러닝 모듈들(NN1 및 NN2)의 훈련은 이미 완료된다.
상술한 구성 요소들 외에도, 제어 디바이스(CTL)는 머신 러닝 모듈들(NN1, NN2 및 NN3)에 결합되는 성능 평가기(EV)를 포함한다. 추가로, 제1 머신 러닝 모듈(NN1)은 머신 러닝 모듈들(NN2 및 NN3)에 결합되고, 제2 머신 러닝 모듈(NN2)은 제3 머신 러닝 모듈(NN3)에 결합된다.
성능 평가기(EV)는 개개의 제어 액션에 대해 이러한 제어 액션에 의해 트리거링되는(triggered) 기술 시스템(TS)의 거동의 성능을 결정하는 데 사용된다. 이를 위해 보상 함수(Q)가 평가된다. 보상 함수(Q)는 이미 여러 번 언급한 바와 같이, 보상, 여기서는 현재 시스템 거동의 성능을 결정하고 정량화한다. 이러한 보상 함수는 종종 비용 함수, 손실 함수, 목적 함수 또는 가치 함수라고도 지칭된다. 예를 들어, 보상 함수(Q)는 동작 상태, 제어 액션 및 시스템 거동에 대한 하나 이상의 설정점 값들(OB)의 함수로서 구현될 수 있다.
복수의 거동 신호들이 머신 러닝 모듈들(NN1, NN2, NN3) 및/또는 성능 평가기(EV)에 의해 평가되는 경우, 복수의 거동 신호 설정점 값들(OB)은 각각 개개의 거동 신호에 대해 특별히 사전 정의될 수 있다.
제3 머신 러닝 모듈(NN3)을 훈련시키기 위해, 동작 신호들(BS)은 훈련된 머신 러닝 모듈들(NN1 및 NN2)과 제3 머신 러닝 모듈(NN3)로 입력 신호들로서 공급된다.
동작 신호들(BS)에 기초하여, 훈련된 제1 머신 러닝 모듈(NN1)은 제어 액션의 현재 적용 없이 발생할 수 있는 기술 시스템(TS)의 거동 신호(VSR1)를 재현한다. 재현된 거동 신호(VSR1)는 제1 머신 러닝 모듈(NN1)에 의해 제2 머신 러닝 모듈(NN2), 제3 머신 러닝 모듈(NN3) 및 성능 평가기(EV)로 공급된다. 하나 이상의 거동 신호 설정점 값들(OB)도 제3 머신 러닝 모듈(NN3)과 성능 평가기(EV)로 공급된다.
제3 머신 러닝 모듈(NN3)의 동작 신호들(BS), 재현된 거동 신호들(VSR1) 및 하나 이상의 거동 신호 설정점 값들(OB)로 인한 출력 신호(AS)(이하, 제3 출력 신호라고 칭함)가 추가로 입력 신호로서 훈련된 제2 머신 러닝 모듈(NN2)로 공급된다. 제3 출력 신호(AS), 재현된 거동 신호(VSR1) 및 동작 신호들(BS)에 기초하여, 훈련된 제2 머신 러닝 모듈(NN2)은 기술 시스템(TS)의 제어 액션-유도 거동 신호(VSR2)를 재현하고, 이는 훈련된 제2 머신 러닝 모듈(NN2)에 의해 성능 평가기(EV)로 공급된다.
성능 평가기(EV)는 재현된 제1 거동 신호(VSR1) 및 하나 이상의 거동 신호 설정점 값들(OB)을 고려하여 재현된 거동 신호(VSR2)에 기초하여 기술 시스템(TS)의 현재 성능을 정량화한다. 이 경우 성능 평가기(EV)는 특히 하나 이상의 거동 신호 설정점 값들(OB)로부터 제어 액션-유도 거동 신호(VSR2)의 제1 편차를 확인한다. 증가하는 편차의 경우, 일반적으로 감소된 제어 액션 성능이 이 경우에 결정된다. 제어 액션-유도 거동 신호(VSR2)와 거동 신호(VSR1) 사이의 제2 편차도 결정된다. 제2 편차에 기초하여, 성능 평가기(EV)는 제어 액션의 적용을 갖는 시스템 거동이 이러한 제어 액션의 적용이 없는 시스템 거동과 어떻게 다른지 평가할 수 있다. 이러한 차이를 사용한 성능 평가는 많은 경우들에 있어서 상당히 개선될 수 있는 것으로 판명된다.
도 4에서 점선 화살표로 나타낸 바와 같이, 보상 함수(Q)를 사용하여 결정된 제어 액션 성능은 제3 머신 러닝 모듈(NN3)로 피드백된다. 피드백된 제어 액션 성능에 기초하여, 제3 머신 러닝 모듈(NN3)은 제어 액션 성능을 최대화하도록 훈련된다. 위에서 여러 번 언급한 바와 같이, 제어 액션 성능을 최대화하기 위해 다수의 알려진 최적화 방법들이 사용될 수 있다.
특히 제2 머신 러닝 모듈(NN2)은 입력 신호로서 제어 액션 신호를 기대하기 때문에, 이를테면, 제3 머신 러닝 모듈(NN3)은 묵시적으로 이러한 제어 액션 신호(여기서는 AS)를 출력하도록 훈련된다. 따라서, 제어 액션 성능을 최적화함으로써, 제3 머신 러닝 모듈(NN3)은 성능을 최적화하는 제어 액션 신호(AS)를 출력하도록 훈련된다.
동작 신호(BS) 외에도, 재현된 거동 신호(VSR1)도 제3 머신 러닝 모듈(NN3)을 훈련하는 데 사용되므로, 제3 머신 러닝 모듈(NN3)은 제어 액션이 없는 시스템 거동에 대한 특정 정보가 제3 머신 러닝 모듈(NN3)에 대해 이용가능하므로 특히 효과적으로 훈련될 수 있다.
본 발명의 하나의 특별한 이점은 제3 머신 러닝 모듈(NN3)을 훈련할 때, 많은 경우들에서 개개의 시점에 대해 성능 평가기(EV)를 사용하여 거동 신호들의 단일, 가능하게는 조정가능한 시간 증분만을 평가하는 것으로 충분하다는 사실이다. 장래 보상에 대한 복잡한 결정이나 추정은 종종 필요하지 않다. 따라서 상이한 시간 척도들에서 실행되는 효과들도 효율적으로 고려될 수 있다.
추가로, 거동 신호(VSR2)에 대해 다양한 거동 신호 설정점 값들(OB)이 사전 정의되어 있기 때문에, 제3 머신 러닝 모듈(NN3)을 훈련하기 위해 사전 정의된 동작 신호들의 데이터 세트가 복수회 사용될 수 있다. 이는 동일한 동작 신호들로부터 상이한 설정점 값-특정 제어 액션 신호들을 학습하고 그에 따라 제어 액션 공간의 더 나은 커버리지를 달성하는 것을 가능하게 한다.
제3 머신 러닝 모듈(NN3)의 훈련을 통해, 제어 디바이스(CTL)는 훈련된 제3 머신 러닝 모듈(NN3)의 제어 액션 신호(AS)를 통해 성능-최적화 방식으로 기술 시스템(TS)을 제어하도록 구성된다.

Claims (14)

  1. 기술 시스템(technical system)(TS)에 대한 제어 디바이스(control device)(CTL)를 구성하기 위한 컴퓨터-구현 방법(computer-implemented method)으로서,
    a) 상기 기술 시스템의 동작 신호(BS)가, 상기 기술 시스템의 동작 신호(BS)에 기초하여 제어 액션(control action)의 현재 적용 없이 구체적으로 발생하는 상기 기술 시스템의 거동 신호를 재현하고 상기 재현된 거동 신호(VSR1)를 제1 출력 신호로서 출력하도록 훈련된 제1 머신 러닝 모듈(machine learning module)(NN1)로 공급되고,
    b) 상기 제1 출력 신호(VSR1)는, 제어 액션 신호(AS)에 기초하여 상기 기술 시스템의 결과적인 거동 신호를 재현하고 상기 재현된 거동 신호(VSR2)를 제2 출력 신호로서 출력하도록 훈련된 제2 머신 러닝 모듈(NN2)로 공급되고,
    c) 상기 기술 시스템의 동작 신호(BS)가 제3 머신 러닝 모듈(NN3)로 공급되고,
    d) 상기 제3 머신 러닝 모듈(NN3)의 제3 출력 신호(AS)가 상기 훈련된 제2 머신 러닝 모듈(NN2)로 공급되고,
    e) 제어 액션 성능(Q)이 상기 제2 출력 신호(VSR2)에 기초하여 결정되고,
    f) 상기 제3 머신 러닝 모듈(NN3)은 상기 기술 시스템의 동작 신호(BS)에 기초하여 상기 제어 액션 성능(Q)을 최적화하도록 훈련되고, 그리고
    g) 상기 제어 디바이스(CTL)는 상기 제3 머신 러닝 모듈(NN3)에 기초하여 상기 제3 머신 러닝 모듈(NN3)의 제3 출력 신호(AS)를 통해 상기 기술 시스템을 제어하도록 구성되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  2. 제1 항에 있어서,
    상기 제3 머신 러닝 모듈(NN3)은 상기 제1 출력 신호(VSR1)에 기초하여 훈련되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  3. 제1 항 또는 제2 항에 있어서,
    상기 제어 액션 성능(Q)은 거동 신호의 단일 시간 증분에 기초하여 각각의 경우의 개개의 시점에 대해 결정되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  4. 제1 항 내지 제3 항 중 어느 한 항에 있어서,
    상기 기술 시스템의 동작 신호(BS)의 제1(SS1, VS1) 및/또는 제2(AS2, VS2) 부분들은, 상기 기술 시스템의 동작 신호(BS)의 제1(SS1, VS1) 및/또는 제2(AS2, VS2) 부분들이 제어 액션을 포함하는지 여부에 따라 특정적으로 선택되고,
    제어 액션을 포함하지 않는 상기 동작 신호(BS)의 제1 부분들(SS1, VS1)은 상기 제1 머신 러닝 모듈(NN1)을 훈련하도록 특정적으로 사용되고, 그리고/또는 제어 액션을 포함하는 상기 동작 신호(BS)의 제2 부분들(AS2, VS2)은 상기 제2 머신 러닝 모듈(NN2)을 훈련하도록 특정적으로 사용되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  5. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    거동 신호 설정점 값(OB)이 판독되고,
    상기 제2 출력 신호(VSR2)는 상기 거동 신호 설정점 값(OB)과 비교되고, 그리고
    상기 제어 액션 성능(Q)은 상기 비교 결과에 따라 결정되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  6. 제5 항에 있어서,
    상기 거동 신호 설정점 값(OB)은 상기 제3 머신 러닝 모듈(NN3)로 공급되고,
    상기 제3 머신 러닝 모듈(NN3)은 상기 거동 신호 설정점 값(OB)에 기초하여 상기 제어 액션 성능(Q)을 최적화하도록 훈련되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  7. 제1 항 내지 제6 항 중 어느 한 항에 있어서,
    상기 제어 액션 성능(Q)은 상기 제1 출력 신호(VSR1)에 기초하여 결정되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  8. 제7 항에 있어서,
    상기 제1 출력 신호(VSR1)와 상기 제2 출력 신호(VSR2) 사이의 편차가 결정되고,
    상기 제어 액션 성능(Q)은 상기 편차에 따라 결정되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  9. 제1 항 내지 제8 항 중 어느 한 항에 있어서,
    상기 제1(NN1) 및/또는 상기 제2(NN2) 머신 러닝 모듈은 상기 기술 시스템에서 실행되는 상이한 프로세스(process)들의 복수의 거동 신호들을 개별적으로 재현하도록 훈련되고,
    상기 제어 액션 성능(Q)은 상기 재현된 거동 신호들에 따라 결정되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  10. 제9 항에 있어서,
    특정 거동 신호 설정점 값(OB)이 개개의 거동 신호(OB)에 대해 판독되고,
    상기 제어 액션 성능(Q)은 상기 재현된 거동 신호들과 상기 특정 거동 신호 설정점 값들 사이의 비교에 기초하여 결정되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  11. 제10 항에 있어서,
    상기 제3 머신 러닝 모듈(NN3)은 상기 특정 거동 신호 설정점 값들(OB)에 기초하여 상기 제어 액션 성능(Q)을 최적화하도록 훈련되는,
    기술 시스템(TS)에 대한 제어 디바이스(CTL)를 구성하기 위한 컴퓨터-구현 방법.
  12. 제1 항 내지 제11 항 중 어느 한 항의 방법을 수행하도록 구성된 기술 시스템(TS)을 제어하기 위한 제어 디바이스(CTL).
  13. 제1 항 내지 제11 항 중 어느 한 항의 방법을 수행하도록 구성된 컴퓨터 프로그램 제품(computer program product).
  14. 제13 항의 컴퓨터 프로그램 제품을 포함하는 컴퓨터-판독가능 저장 매체.
KR1020237028470A 2021-01-29 2021-12-28 기술 시스템을 제어하기 위한 제어 디바이스 및 제어 디바이스를 구성하기 위한 방법 KR20230133369A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21154166.9 2021-01-29
EP21154166.9A EP4036663A1 (de) 2021-01-29 2021-01-29 Steuereinrichtung zum steuern eines technischen systems und verfahren zum konfigurieren der steuereinrichtung
PCT/EP2021/087697 WO2022161729A1 (de) 2021-01-29 2021-12-28 Steuereinrichtung zum steuern eines technischen systems und verfahren zum konfigurieren der steuereinrichtung

Publications (1)

Publication Number Publication Date
KR20230133369A true KR20230133369A (ko) 2023-09-19

Family

ID=74418175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237028470A KR20230133369A (ko) 2021-01-29 2021-12-28 기술 시스템을 제어하기 위한 제어 디바이스 및 제어 디바이스를 구성하기 위한 방법

Country Status (6)

Country Link
US (1) US20240160159A1 (ko)
EP (1) EP4036663A1 (ko)
JP (1) JP2024504470A (ko)
KR (1) KR20230133369A (ko)
CN (1) CN116830048A (ko)
WO (1) WO2022161729A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6882992B1 (en) * 1999-09-02 2005-04-19 Paul J. Werbos Neural networks for intelligent control
JP2019008675A (ja) * 2017-06-27 2019-01-17 ファナック株式会社 故障予測装置及び機械学習装置
EP3588211A1 (de) * 2018-06-27 2020-01-01 Siemens Aktiengesellschaft Steuereinrichtung zum steuern eines technischen systems und verfahren zum konfigurieren der steuereinrichtung

Also Published As

Publication number Publication date
JP2024504470A (ja) 2024-01-31
EP4036663A1 (de) 2022-08-03
WO2022161729A1 (de) 2022-08-04
CN116830048A (zh) 2023-09-29
US20240160159A1 (en) 2024-05-16

Similar Documents

Publication Publication Date Title
CN110023850B (zh) 用于控制技术系统的方法和控制装置
Serradilla et al. Deep learning models for predictive maintenance: a survey, comparison, challenges and prospects
KR102506454B1 (ko) 기술 시스템을 제어하기 위한 제어기 및 제어기를 구성하기 위한 방법
US10983485B2 (en) Method and control device for controlling a technical system
US11900645B2 (en) Systems and methods for modeling and controlling physical dynamical systems using artificial intelligence
CN116261690A (zh) 提供用于高炉热控制的操作指令的计算机系统和方法
US11436693B2 (en) Machine learning device and machine learning method for learning correlation between shipment inspection information and operation alarm information for object
Mayr et al. Potentials of machine learning in electric drives production using the example of contacting processes and selective magnet assembly
US20230266721A1 (en) Method for configuring a control agent for a technical system, and control device
US20200166206A1 (en) Apparatus for combustion optimization and method therefor
Kessels et al. Real-time parameter updating for nonlinear digital twins using inverse mapping models and transient-based features
Lutska et al. Forecasting the efficiency of the control system of the technological object on the basis of neural networks
Yuan et al. Adaptive inverse control of excitation system with actuator uncertainty
US20200166205A1 (en) Apparatus for managing combustion optimization and method therefor
KR20230133369A (ko) 기술 시스템을 제어하기 위한 제어 디바이스 및 제어 디바이스를 구성하기 위한 방법
US20220269226A1 (en) Control device for controlling a technical system, and method for configuring the control device
Hametner et al. Combustion engine modelling using an evolving local model network
CN118176509A (zh) 用于控制技术系统的方法和控制装置
Palunko et al. Learning near‐optimal broadcasting intervals in decentralized multi‐agent systems using online least‐square policy iteration
CN111356959B (zh) 用于计算机辅助地控制技术系统的方法
US20230359154A1 (en) Method and control device for controlling a machine
JP7463515B2 (ja) 技術システムを制御する制御装置および制御装置を構成する方法
US20230080873A1 (en) An Industrial Process Model Generation System
US20240241487A1 (en) Method and system for controlling a production system
US20240176310A1 (en) Machine controller and method for configuring the machine controller