KR20210061522A

KR20210061522A - 기계 학습 기반 에너지 자동 제어 장치 및 그 방법

Info

Publication number: KR20210061522A
Application number: KR1020190149087A
Authority: KR
Inventors: 성윤동; 윤기환; 송유진; 배국열; 이용진; 김말희; 김내수; 표철식
Original assignee: 한국에너지기술연구원; 한국전자통신연구원
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2021-05-28
Also published as: KR102323033B1

Abstract

본 명세서는 대상체의 현재 상태(current state)와 제어신호(control signal)을 입력받아 다음 상태(next state)를 출력하는 기계 학습 기반 시뮬레이터 및 실제 환경(Real Environment), 도메인 전문가 시뮬레이터(Domain-Expert Simulator), 기계 학습 기반 시뮬레이터 DNN-기반 시뮬레이터(DNN-based Simulator) 중 하나의 다음 상태(next state)나 보상(reward)를 수신하여 상기 대상체를 제어하는 에이전트(agent)를 포함하는 기계 학습 및 데이터 기반 에너지 자동 제어 장치 및 그 자동 제어 방법을 개시한다.

Description

기계 학습 기반 에너지 자동 제어 장치 및 그 방법{DEVICE AND METHOD FOR AUTOMATICALLY CONTROL ENERGY BASED ON MACHIN LEARNING AND DATA}

본 명세서는 기계 학습 기반 에너지 자동 제어 방법 및 그 장치를 제공한다.

일반적으로, 건물 에너지 자동 제어 시스템은 건물 실내 환경 시뮬레이션 모델을 적용하여 건물 에너지를 자동적으로 제어한다.

그러나, 시뮬레이션 모델이 부정확할 수 있고, 시뮬레이터를 만들기 위해서는 도메인 전문가의 많은 노력이 필요하고, 지속적인 유지 보수는 힘든 문제점이 있었다.

본 실시예들은 적용 모델이 정확하고 시뮬레이터를 만들거나 지속적으로 유지할 필요가 없거나 쉽게 유지할 수 있는 에너지 자동 제어 시스템 및 그 자동 제어 방법을 제공할 수 있다.

일 측면에서, 본 실시예들은 대상체의 현재 상태(current state)와 제어신호(control signal)을 입력받아 다음 상태(next state)를 출력하는 기계 학습 기반 시뮬레이터 및 실제 환경(Real Environment), 도메인 전문가 시뮬레이터(Domain-Expert Simulator), 기계 학습 기반 시뮬레이터 DNN-기반 시뮬레이터(DNN-based Simulator) 중 하나의 다음 상태(next state)나 보상(reward)를 수신하여 상기 대상체를 제어하는 에이전트(agent)를 포함하는 기계 학습 기반 에너지 자동 제어 장치 및 그 자동 제어 방법을 제공할 수 있다.

본 실시예들에 따른 에너지 자동 제어 시스템 및 그 자동 제어 방법은 적용 모델이 정확하고 시뮬레이터를 만들거나 지속적으로 유지할 필요가 없거나 쉽게 유지할 수 있는 효과가 있다.

도 1은 일반적인 강화 학습(Reinforcement Learning, RL)을 이용한 건물 에너지 자동 제어 시스템을 개념적으로 도시하고 있다.
도 2는 도 1의 환경(시뮬레이터)의 개념도이다.
도 3는 일실시예에 따른 하이브리드 환경 시스템의 개념도이다.
도 4는 도 3의 하이브리드 환경 시스템 과 RL-에이전트의 관계를 블록 다이어그램으로 도시하였다.
도 5는 도 4에서 타깃 네트워크(target network)가 둘 이상이 경우 둘 이상의 타깃 네트워크(target network)들의 평균(averaged) 타깃 네트워크(target network)를 구성한 후 타깃값(target value)을 출력하는 개념을 도시하고 있다.
도 6 및 도 7은 도 4에서 기계 학습 기반 시뮬레이터(DNN 기반 simulator)가 데이터 베이스로부터 실측데이터와 도메인 전문가에 의해 작성된 시뮬레이터로부터 생성된 데이터를 이용하여 학습 또는 훈련(training)하는 개념을 도시하고 있다.
도 8은 기계 학습 기반 시뮬레이터 점진적 학습 방법 (모델 재활용)의 일예를 도시하고 있다.
도 9는 기계 학습 기반 시뮬레이터 점진적 학습 방법 (모델 재활용)의 다른 예를 도시하고 있다.
도 10은 도 7의 모델 재학습과 도 8 및 도 9의 모델 재활용의 조합을 도시하고 있다.
도 11 및 도 12는 새로운 딥 러닝 모델(DNN_New)의 출력값의 예들을 도시하고 있다.
도 13은 도 3의 에이전트(agent)의 입력과 출력을 도시하고 있다.
도 14는 다른 실시예에 따른 제어기 (RL-에이전트(agent))의 점진적 재학습 방법의 개념을 도시하고 있다.
도 15는 또 다른 실시예에 따른 DNN-기반 시뮬레이터(DNN-based Simulator) 구조의 개념을 도시하고 있다.
도 16은 센서 네트워크에서 노드들의 연결 관계와 DNN-기반 시뮬레이터(DNN-based Simulator)의 심층 신경망을 구조화한 것을 도시하고 있다.
도 17은 또 다른 실시예에 따른 잔여학습(residual connection)을 적용한 DNN-기반 시뮬레이터(DNN-based Simulator) 구조의 개념을 도시하고 있다.
도 18은 도 17의 잔여학습을 적용한 심층 신경망을 구조화한 것이다.
도 19는 또 다른 실시예에 따른 NiN 모델을 적용한 DNN-기반 시뮬레이터(DNN-based Simulator) 구조의 개념을 도시하고 있다.
도 20은 도 19의 NiN 모델을 적용한 심층 신경망을 구조화한 것이다.
도 21은 또다른 실시예에 따른 차이 학습(difference learning)을 이용한 DNN-기반 시뮬레이터(DNN-based Simulator)의 심층 신경망을 구조화한 것이다.
도 22은 도 21의 심층 신경망을 구조화한 것이다.

이하, 본 개시의 일부 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 기술 사상의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다. 본 명세서 상에서 언급된 "포함한다", "갖는다", "이루어진다" 등이 사용되는 경우 "~만"이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별한 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함할 수 있다.

또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다.

구성 요소들의 위치 관계에 대한 설명에 있어서, 둘 이상의 구성 요소가 "연결", "결합" 또는 "접속" 등이 된다고 기재된 경우, 둘 이상의 구성 요소가 직접적으로 "연결", "결합" 또는 "접속" 될 수 있지만, 둘 이상의 구성 요소와 다른 구성 요소가 더 "개재"되어 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다. 여기서, 다른 구성 요소는 서로 "연결", "결합" 또는 "접속" 되는 둘 이상의 구성 요소 중 하나 이상에 포함될 수도 있다.

구성 요소들이나, 동작 방법이나 제작 방법 등과 관련한 시간적 흐름 관계에 대한 설명에 있어서, 예를 들어, "~후에", "~에 이어서", "~다음에", "~전에" 등으로 시간적 선후 관계 또는 흐름적 선후 관계가 설명되는 경우, "바로" 또는 "직접"이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다.

한편, 구성 요소에 대한 수치 또는 그 대응 정보(예: 레벨 등)가 언급된 경우, 별도의 명시적 기재가 없더라도, 수치 또는 그 대응 정보는 각종 요인(예: 공정상의 요인, 내부 또는 외부 충격, 노이즈 등)에 의해 발생할 수 있는 오차 범위를 포함하는 것으로 해석될 수 있다.

본 발명의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 이해할 수 있을 것이다.

도 1은 일반적인 강화 학습(Reinforcement Learning, RL)을 이용한 건물 에너지 자동 제어 시스템을 개념적으로 도시하고 있다. 도 2는 환경 시뮬레이터의 개념도이다.

도 1을 참조하면, 일반적인 강화 학습(Reinforcement Learning, RL)을 이용한 건물 에너지 자동 제어 시스템(100)은 환경(environment, 110)과 에이전트(agent, 120)가 state/보상(reward)와 액션(action)을 교환하는 시스템이다. 환경(110)은 후술하는 바와 같이 다양한 형태의 시뮬레이터를 포함할 수 있다. 본 명세서는 환경(110)과 시뮬레이터를 동일한 의미로 사용하나, 이에 제한되지 않는다.

도 2는 도 1의 환경(시뮬레이터)의 개념도이다.

도 2를 참조하면, 환경(시뮬레이터)(110)는 현재 상태(Current State)와 액션(action)을 입력 받아 다음 상태(Next State)와 보상(reward)를 출력하는 수학식 1의 함수(Function)로써 기능한다.

[수학식 1]

Function: y= f(X)

즉, 환경에 해당하는 시뮬레이터(110)는 일종의 컴퓨터 또는 수학 함수이다. 즉, 시뮬레이터(110)는 이전 (또는 현재) 값으로부터 미래 값을 계산 또는 예측하는 함수이다.

이 자동 제어 시스템(100)에서 에이전트(120)와 환경(110)이 마치 인간의 뇌와 뇌에 영향을 주는 외부 환경에 대응된다. 인간의 뇌는 외부 환경으로부터 다양한 상태(state)를 인식하고 보상(reward)를 받게 되고, 이들에 대한 액션(action)을 외부 환경에 수행한다. 예를 들어, 인간의 뇌는 건물의 실내 온도를 인지하고 이 실내 온도의 적정성 여부를 판단하고, 건물의 에어컨이나 온풍기의 실내 온도를 높이거나 낮추는 액션(action)을 하게 된다.

건물 에너지 자동 제어 시스템(100)에서 에이전트(120)는 강화 학습(Reinforcement Learning, RL)을 이용한 건물 에너지를 자동 제어할 수 있다.

전술한 바와 같이, 강화 학습(Reinforcement Learning, RL)을 이용한 건물 에너지 자동 제어에 있어, RL-에이전트(Reinforcement Learning agent, 120)를 학습하기 위해서는 건물 실내 환경 시뮬레이션 모델이 필요하다. 이때 부정확한 시뮬레이션 모델을 이용할 경우, 좋은 에이전트(120)를 학습시킬 수 없고, 좋은(정확한) 시뮬레이터(110)를 만들기 위해서는 도메인 전문가의 많은 노력이 필요하다. 좋은 (정확한) 시뮬레이터(110)를 만들었다고 하더라도, 지속적인 유지 보수는 힘들다.

시간에 따른 내/외적 변화(건물의 노화, 기후 변화, 설비 추가)를 추적해야 하며, 이러한 변화를 반영하기 위해서는 지속적으로 도메인 전문가의 노력이 필요하다.

이에 본 발명은, 건물의 내외적 변화를 지속적으로 반영하여 건물 시스템 제어를 위한 RL-에이전트(120)를 학습할 수 있는 방법 및 시스템 구성을 제공하는데 있다.

실시예1: 하이브리드 환경 시스템

도 3는 일실시예에 따른 하이브리드 환경 시스템의 개념도이다.

도 3을 참조하면, 일실시예에 따른 하이브리드 환경 시스템에서 환경 (시뮬레이터)(110)는 실제 환경(Real Environment), 도메인 전문가 시뮬레이터(Domain-Expert Simulator), 기계 학습 기반 시뮬레이터를 포함한다. 기계 학습 기반 시뮬레이터는 DNN-기반 시뮬레이터(DNN-based Simulator)일 수 있다.

DNN-기반 시뮬레이터(DNN-based Simulator)는 심층 신경망에 대상체에 대한 정보를 구조화하여 계층 또는 뉴런 간의 연결을 형성하고, 데이터셋을 심층 신경망의 입력층에 입력하고, 심층 신경망을 이용하여 입력된 데이터셋을 학습하여 상기 대상체의 현재 상태(current state)에 대한 미래의 다음 상태(next state) 추정치를 구하고, 손실함수를 이용하여 다음 상태(next state) 추정치와 실제 관측치를 비교하여 오차를 측정하고, 오차에 따라 상기 심층 신경망의 학습 파라미터를 수정할 수 있다.

실제 환경(Real Environment)는 실측 데이터로 진짜 데이터이다. 실제 환경(Real Environment)는 데이터 생성이 제한적이고, 예를 들어 데이터 개수 제한적이고 시도할 수 있는 액션(action)도 제한적일 수 있다. 즉, 센서와 통신네트워크 등을 이용하여 구역 단위로 건물 전체에 대한 실내와 환경 정보를 감지하고 수집할 수 있다.

도메인 전문가 시뮬레이터(Domain-Expert Simulator)는 도메인 지식(Domain Knowledge)를 반영하고, 데이터를 무한대로 생성할 수 있다. 그런데, 도메인 전문가 시뮬레이터(Domain-Expert Simulator)는 한번 생성해서 작성한 후 수정하지 않는 한 고정되고, 새로 만들거나 유지 보수하기가 쉽지 않다.

DNN-기반 시뮬레이터(DNN-based Simulator)는 데이터 적응적(Data Adaptive)이고, 도메인 지식(Domain Knowledge) 없이도 시뮬레이터를 생성할 수 있다. DNN-기반 시뮬레이터(DNN-based Simulator)는 초기에는 도메인 전문가 시뮬레이터(Domain-Expert Simulator)보다 부정확하나 시간이 지나면서 많은 데이터를 수집하여 학습할 수록 더 정확해 질 수 있다. 그러나, DNN-기반 시뮬레이터(DNN-based Simulator)가 생성한 데이터는 실제 데이터가 아니다라는 한계점이 있다.

일실시예에 따른 하이브리드 환경 시스템에서 환경(시뮬레이터)(110)는 실제 환경(Real Environment), 도메인 전문가 시뮬레이터(Domain-Expert Simulator), DNN-기반 시뮬레이터(DNN-based Simulator) 중 하나의 다음 상태(next state)나 보상(reward) 등을 에이전트(120)에 전달한다. 예를 들어, 에이전트(120)는 실측 데이터를 활용하거나, 도메인 전문가에 의해 작성된 시뮬레이터로부터 생성된 데이터를 활용하거나, 기계 학습 기반 시뮬레이터로부터 생성된 데이터를 활용하거나, 이들의 전부 또는 일부를 활용할 수 있다.

즉, (1) 도메인 전문가에 의해 작성된 시뮬레이터가 없는 경우 기계 학습 기술을 이용하여 데이터로부터 기계 학습 기반 시뮬레이터를 학습할 수 있다. (2) 도메인 전문가에 의해 작성된 시뮬레이터가 제공되는 경우 기계 학습 기술 및 실측 데이터를 이용하여 시뮬레이터를 지속적으로 튜닝(Tuning)할 수 있다. (3) 후술하는 바와 같이 도메인 전문가에 의해 작성된 시뮬레이터와 이전 학습 모델에 기반한 기계 학습 기반 시뮬레이터를 활용하여 새로운 기계 학습 기반 시뮬레이터를 점진적 학습(모델 재활용)할 수도 있다. 이 경우, 새로운 기계 학습 기반 시뮬레이터는 빠르면서도 안정적으로 학습할 수 있다.

도 4는 도 3의 하이브리드 환경 시스템과 RL-에이전트의 관계를 블록 다이어그램으로 도시하였다.

도 4를 참조하면, 데이터 베이스(data base, 130)는 실제 건물 등에 설치된 센서(112)로부터 감지 및 수집된 실측 데이터(예; 건물 실/내외 온/습도, 재실자)의 현재 상태(current state)와 제어신호(control signal), 다음 상태(next state)와 도메인 전문가에 의해 작성된 시뮬레이터(Domain-Expert simulator, 114)로부터 생성된 데이터를 저장한다. 기계 학습 기반 시뮬레이터(DNN 기반 simulator, 116)는 데이터 베이스(130)로부터 실측데이터와 도메인 전문가에 의해 작성된 시뮬레이터(114)로부터 생성된 데이터를 입력으로 받아 다음 상태(next state)를 출력할 수 있다.

리플레이 메모리(Replay memory, 140)는 데이터 베이스(130)로부터 실측데이터와 도메인 전문가에 의해 작성된 시뮬레이터(114)로부터 생성된 데이터, 기계 학습 기반 시뮬레이터(116)로부터 생성된 데이터를 상태(state), 액션(action), 보상(reward), 다음 상태(next state) 등으로 구분하여 저장할 수 있다.

넓은 의미에서, 도 4에 도시한 타깃 네트워크(target network, 124)와 학습 네트워크(learner network, 122)는 도 3에 도시한 에이전트(120)에 해당한다. 즉, 타깃 네트워크(124)는 리플레이 메모리(140)에 저장된 보상(reward)와 다음 상태(next state)를 이용하여 학습 네트워크(122)의 타깃값(target value)를 생성한다. 학습 네트워크(122)는 리플레이 메모리(140)에 저장된 상태(state)와 액션(action)를 학습데이터셋으로 삼아 타깃 네트워크(124)로부터 제공받은 타깃값(target value)를 이용하여 학습한다. 학습이 완료된 이후에는 학습 네트워크(122)는 현재 상태(current state)를 입력데이터로 액션(action)을 출력한다.

좁은 의미에서, 도 4에 도시한 학습 네트워크(learner network, 122)만이 도 3에 도시한 에이전트(120)에 해당하고, 타킷 네트워크(124)는 에이전트(120) 외부의 네트워크일 수 있다.

도 5는 도 4에서 타깃 네트워크(target network)가 둘 이상이 경우 둘 이상의 타깃 네트워크(target network)들의 평균(averaged) 타깃 네트워크(target network)를 구성한 후 타깃값(target value)을 출력하는 개념을 도시하고 있다.

학습 네트워크(122)는 현재 상태(current state)를 입력데이터로 액션(action)을 출력할 때, 다수결 기반의 앙상블, 만장일치 기반의 앙상블, 불확실성 기반의 앙상블 중 하나 또는 둘 이상을 기초로 앙상블시킨 모델들의 결과값을 출력하여, 결과값들의 편차를 줄여줄 수 있다.

실시예2: 모델 재학습 및 재활용

도 6 및 도 7은 도 4에서 기계 학습 기반 시뮬레이터(DNN 기반 simulator)가 데이터 베이스로부터 실측데이터와 도메인 전문가에 의해 작성된 시뮬레이터로부터 생성된 데이터를 이용하여 학습 또는 훈련(training)하는 개념을 도시하고 있다.

도 6을 참조하면, 기계 학습 기반 시뮬레이터(DNN 기반 simulator, 116)의 입력(input)은 현재 상태(current state) 및 제어신호(control signal)이고 출력은 다음 상태(next state)이다. 기계 학습 기반 시뮬레이터(DNN 기반 simulator, 116)는 환경 변화를 예측하는 환경 변화 예측기로써 동작할 수 있다.

도 7에 도시한 바와 같이, 기계 학습 기반 시뮬레이터(116)는 주기적 또는 특정 이벤트에 마다, 수집된 데이터를 이용하여 재학습할 수 있다. 기계 학습 기반 시뮬레이터(116)는 딥 러닝 모델(deep learning model)를 기본 모델로 이용할 수 있다.

본 명세서에서 딥 러닝 모델(deep learning model)은 인공 신경망을 다층 레이어로 쌓은 형태일 수 있다. 즉, 딥 러닝 모델(deep learning model)은 다층의 네트워크로 이루어진 심층 신경망(deep neural network, DNN)에서 다량의 데이터를 학습시킴으로써 각각의 영상의 픽쳐를 자동으로 학습하고, 이를 통해 목적 함수, 즉 예측 정확도의 에러(error)를 최소화시키는 방법으로 네트워크를 학습시켜 나아가는 형태이다.

본 명세서에서 딥 러닝 모델(deep learning model)은 예를 들어 CNN(Convolutional Neural Network), DHN(Deep Hierachical Network), CDBN(Convolutional Deep Belief Network), DDN(Deconvolutional Deep Network) 등을 이용할 수 있으나, 현재 또는 장래 다양한 딥 러닝 모델을 이용할 수 있다. 프레임워크는 딥 러닝 모델을 개발할 때 공통적으로 사용되는 기능들을 미리 만들어 라이브러리 형태로 제공하고, 운영체제 수준 아래의 시스템 소프트웨어나 하드웨어 플랫폼을 잘 사용할 수 있도록 해 주는 역할을 한다. 본 실시예에서 딥 러닝 프레임워크는 현재 공개되었거나 장래 공개될 어떠한 프레임워크를 이용하여 딥 러닝 모델을 개발할 수 있다.

도 8은 기계 학습 기반 시뮬레이터 점진적 학습 방법 (모델 재활용)의 일예를 도시하고 있다.

도 8에 도시한 바와 같이, 기계 학습 기반 시뮬레이터(116)는 새로운 딥 러닝 모델(DNN_New, 116b)을 처음부터 만드는 것이 아니라, 기존에 사용하던 딥 러닝 모델(DNN_Old, 116a)을 재활용할 수 있다. 기계 학습 기반 시뮬레이터(116)의 새로운 딥 러닝 모델(DNN_New, 116b)은 기존에 사용하던 딥 러닝 모델(DNN_Old, 116a)의 출력값(다음 상태(next state)')을 보정하는 형태(Δ=다음 상태(next state)-다음 상태(next state)')로 학습할 수 있다.

도 9는 기계 학습 기반 시뮬레이터 점진적 학습 방법 (모델 재활용)의 다른 예를 도시하고 있다.

도 9에 도시한 바와 같이, 기계 학습 기반 시뮬레이터(116)는 새로운 딥 러닝 모델(DNN, 116c)을 처음부터 만드는 것이 아니라, 기존에 사용하던 도메인 전문가에 의해 작성된 시뮬레이터(112)를 재활용할 수 있다. 기계 학습 기반 시뮬레이터(116)의 딥 러닝 모델(DNN, 116c)은 기존에 사용하던 도메인 전문가에 의해 작성된 시뮬레이터(112)의 출력값(다음 상태(next state)')을 보정하는 형태(Δ=다음 상태(next state)- 다음 상태(next state)')로 학습할 수 있다.

도 10은 도 7의 모델 재학습과 도 8 및 도 9의 모델 재활용의 조합을 도시하고 있다.

도 10에 도시한 바와 같이, 기계 학습 기반 시뮬레이터(116)는 주기적 또는 특정 이벤트에 마다, 수집된 데이터를 이용하여 재학습할 수 있다.

기계 학습 기반 시뮬레이터(116)는 새로운 딥 러닝 모델(DNN_New, 116d)을 처음부터 만드는 것이 아니라, 기존에 사용하던 딥 러닝 모델(DNN_Old, 116e) 또는 기존에 사용하던 도메인 전문가에 의해 작성된 시뮬레이터(112)를 재활용할 수 있다. 기계 학습 기반 시뮬레이터(116)의 새로운 딥 러닝 모델(DNN_New, 116d)은 기존에 사용하던 딥 러닝 모델(DNN_Old, 116e) 또는 기존에 사용하던 도메인 전문가에 의해 작성된 시뮬레이터(112)의 출력값(다음 상태(next state)')을 보정하는 형태(Δ=다음 상태(next state)- 다음 상태(next state)')로 학습할 수 있다.

이때 새로운 딥 러닝 모델(DNN_New, 116d)은 기존에 사용하던 딥 러닝 모델(DNN_Old, 116e) 또는 기존에 사용하던 도메인 전문가에 의해 작성된 시뮬레이터(112)의 출력값(다음 상태(next state)')을 보정하는 형태(Δ=다음 상태(next state)- 다음 상태(next state)')로 학습하므로 심층 신경망의 계층수가 작아 손쉽게 구현할 수도 있다.

도 10에는 기존에 사용하던 딥 러닝 모델(DNN_Old, 116e) 또는 기존에 사용하던 도메인 전문가에 의해 작성된 시뮬레이터(112)가 하나인 것으로 도시하였으나, 둘 이상이거나 이들의 조합이 둘 이상일 수 있다. 예를 들어, 새로운 딥 러닝 모델(DNN_New, 116d)과 기존에 사용하던 딥 러닝 모델(DNN_Old, 116e) 또는 기존에 사용하던 도메인 전문가에 의해 작성된 시뮬레이터(112)가 기존에 사용하는 모델일 될 수 있다.

도 11 및 도 12는 기계 학습 기반 시뮬레이터에서 새로운 딥 러닝 모델(DNN_New)의 출력값의 예들을 도시하고 있다.

기계 학습 기반 시뮬레이터(116)에서 새로운 딥 러닝 모델(DNN_New, 116a)의 출력값은 도 11에 도시한 바와 같이 랩퍼(Wrapper) 방식으로 기존에 사용하던 시뮬레이터(legacy simulator, 118)의 출력값(다음 상태(next state)')에 대한 새로운 출력값(다음 상태(next state))을 출력하거나, 도 12에 도시한 바와 같이 잔류 학습(Residual Learning) 방식으로 기존에 사용하던 시뮬레이터(legacy simulator, 118)의 출력값(다음 상태(next state)')을 보정하는 형태(Δ=다음 상태(next state)- 다음 상태(next state)')을 출력할 수도 있다.

기존에 사용하던 시뮬레이터(legacy simulator, 118)는 기존에 사용하던 딥 러닝 모델(DNN_Old, 116e) 또는 기존에 사용하던 도메인 전문가에 의해 작성된 시뮬레이터(112), 이들의 둘 이상을 포함하거나, 이들의 조합일 수 있다.

도 12에 도시한 바와 같이 기계 학습 기반 시뮬레이터(116)에서 새로운 딥 러닝 모델(DNN_New)의 출력값은 기존에 사용하던 시뮬레이터(legacy simulator)의 출력값(다음 상태(next state)')을 보정하는 형태(Δ=다음 상태(next state)- 다음 상태(next state)')을 출력할 경우 통계적으로 출력값들 간의 편차가 적어 정확도를 향상시킬 수 있다.

도 13은 도 3의 에이전트(agent)의 입력과 출력을 도시하고 있다.

도 13을 참조하면, 에이전트(120)의 입력은 현재 상태(current state)이고 출력은 액션(action)일 수 있다. 에이전트(120)는 제어기로 도 3에 도시한 바와 같이 건물들의 에어컨이나 난방의 설정온도 등을 제어할 수 있다. 에이전트(120)는 강화 학습 기반 에이전트(agent)일 수 있다. 강화 학습 기반 에이전트(120)는 주기적 또는 특정 이벤트에 따라 그 동안 수집된 최신 데이터를 이용하여 재학습할 수 있다.

도 14는 다른 실시예에 따른 제어기 (RL-에이전트(agent))의 점진적 재학습 방법의 개념을 도시하고 있다.

도 14에 도시한 바와 같이, 다른 실시예에 따른 (RL-에이전트(agent)) 또는 제어기(120)는 새로운 강화 학습 기반 에이전트(agent)(RL-에이전트(agent))(120a)를 처음부터 만드는 것이 아니라, 기존에 사용하던 강화 학습 기반 에이전트(agent)(Legacy 제어기)(122)를 재활용할 수 있다. 새로운 강화 학습 기반 에이전트(agent)(RL-에이전트(agent))(120a)은 기존에 사용하던 강화 학습 기반 에이전트(agent)(Legacy 제어기)(122)의 출력값(액션(action)')을 보정하는 형태(Δ=액션(action))로 학습할 수 있다.

도 14에는 기존에 사용하던 강화 학습 기반 에이전트(agent)(Legacy 제어기)(122)가 하나인 것으로 도시하였으나, 둘 이상일 수 있다. 예를 들어 도 14에 도시한 새로운 강화 학습 기반 에이전트(agent)(RL-에이전트(agent))(120a)와 기존에 사용하던 강화 학습 기반 에이전트(agent)(Legacy 제어기)(122)의 조합은 새로운 강화 학습 기반 에이전트(agent)(RL-에이전트(agent))에서는 기존에 사용하던 강화 학습 기반 에이전트(agent)에 해당할 수 있다.

실시예3: DNN-기반 시뮬레이터(DNN-based Simulator) 구조

도 15는 또 다른 실시예에 따른 DNN-기반 시뮬레이터(DNN-based Simulator) 구조의 개념을 도시하고 있다.

도 15를 참조하면, 전술한 기계 학습 기반의 시뮬레이터(116)는 DNN-기반 시뮬레이터(DNN-based Simulator)일 수 있다. 기계 학습 기반의 시뮬레이터로써 DNN-기반 시뮬레이터(116)는 심층신경망에서 관측 가능한(observable) 입력층(observable input layer)과 출력층(observable output layer) 사이에 은닉층(non-observable hidden layer or intermediate state)를 포함하는 상태 전이 모델(state transition model)을 기반으로 한다.

도 16은 센서 네트워크에서 노드들의 연결 관계와 DNN-기반 시뮬레이터(DNN-based Simulator)의 심층 신경망을 구조화한 것을 도시하고 있다.

도 16의 좌측은 센서 네트워크(sensor(zone) network)에서 노드들( 1 내지 5) 사이의 공간적 또는 시간적 상관관계를 설명하기 위한 물리적 배치를 도시하고 있다.

도 16의 우측에 도시한 바와 같이, 도 15의 DNN-기반 시뮬레이터(DNN-based Simulator)의 심층 신경망은 센서 네트워크에서 노드들 사이의 물리적 배치를 반영한다. 이 심층 신경망에서 하위 계층(lower layer, 116L)과 상위 계층(higher layer, 116U) 간의 신경 연결은 센서 네트워크에서 노드들 사이의 물리적으로 연결된 경우에만 주어지므로, 각 노드는 물리적으로 연결된 노드에서만 정보를 받는다. 예를 들어, 상위 계층(higher layer, 116U)에 1번 노드는 하위 계층(lower layer, 116L)에서 물리적으로 연결된 1번과 2번, 4번 노드에서만 정보를 받는다.

도 17은 또 다른 실시예에 따른 잔여 연결(residual connection)을 적용한 DNN-기반 시뮬레이터(DNN-based Simulator) 구조의 개념을 도시하고 있다. 도 18은 도 17의 잔여학습을 적용한 심층 신경망을 구조화한 것이다.

노드들 간의 상관관계는 짧은 시간 간격 동안에 크게 변하지 않으며 현재 상태와 다음 상태 간의 차이는 작다. 이러한 추측을 기반으로, 본 발명의 또 다른 실시예에서는 시간적 또는 공간적으로 가장 가까운 이웃들에 의해 야기되는 요란(perturbation)에 의해 점진적으로 상태가 업데이트 될 수 있도록 상태전이를 재구성한다.

도 17을 참조하면, 또 다른 실시예에 따른 DNN-기반 시뮬레이터(DNN-based Simulator, 116)는 잔여학습(residual learning)을 수행하는데, 잔여블록(residual block)을 사용하여 구현할 수 있다. 잔여학습은 하위 계층(116L)의 출력이 그대로 유지되고 상위 계층(116U)까지 전달될 수 있도록 계층 간 또는 계층의 블록 간에 직접 연결을 만든다. 산술 가산에 의해 구현되기 때문에 연결에 추가 학습 파라미터가 필요하지 않다. 직접 연결은 선형 연결 또는 선형 효과(linear impact)라고 할 수 있다.

도 18은 모두 잔여학습을 적용한 구현 예를 그래프로 나타낸 것이다. 예를 들어, 하위 계층(116L)의 노드에서의 신호는 화살표로 표시된 바로 가기(또는 건너뛰기) 연결을 통해 상위 계층(116U)로 전달된다. 이웃 노드의 신호는 사선 처리된 사격형 내의 로컬 신경 연결들의 세트를 통해 처리되며 상위 계층(116U)에서로 출력된다. 영향함수(impact function)는 선형 또는 비선형일 수 있으며, 비선형함수는 이전에 설명한 대로 NiN 블록을 사용하여 구현할 수 있다.

도 19는 또 다른 실시예에 따른 NiN 모델을 적용한 DNN-기반 시뮬레이터(DNN-based Simulator) 구조의 개념을 도시하고 있다. 도 20은 도 19의 NiN 모델을 적용한 심층 신경망을 구조화한 것이다.

노드들 간의 상호작용은 복잡하며, 따라서 선형함수는 이들의 관계를 특징짓기에 충분하지 않을 수 있다. 일반적인 신경 회로망은 기본적으로 선형 연산자인 은닉층 사이의 단층 퍼셉트론(a single layer perceptron)을 사용한다. 이는 본 발명의 기본 예측 모델이 상태전이를 선형으로 정형화함을 의미한다. 이는 본 발명에서 비선형 상태전이(nonlinear state transition)를 구체화하기 위해 계층 간의 비선형성을 고려하는 동기가 된다.

도 19을 참조하면, 네트워크 내 네트워크(NiN: Network-in-Network)를 택함으로써 본 발명에 따른 기본 예측 모델에서 비선형 상태전이가 실현될 수 있다. NiN의 주요 아이디어는 은닉층(hidden layer) 사이에 작은 다층 퍼셉트론을 비선형 연산자로서 포함시키는 것이다.

도 20은 또 다른 실시예에 적용된 NiN 모델을 보여준다. 임베디드 다층 퍼셉트론은 하위 계층(116L)의 인접 노드로부터 신호를 수집하고 마치 이전 계층을 새로운 계층으로 업데이트 하는 것처럼 상위 계층(116U)으로 출력한다.

다층 퍼셉트론은 일반 비선형함수 중 하나이기 때문에 비선형 상태 업데이트를 수행하는 것으로 간주할 수 있다. 컨볼루션의 관점에서 본 발명의 기본 예측 모델은 단층 퍼셉트론을 선형 필터로 사용하는 반면, NiN을 사용하는 확장 모델은 다층 퍼셉트론을 비선형 필터(nonlinear filter)로 사용한다.

도 20에 사선 처리된 사각형은 비선형 필터 또는 상태전이함수를 나타내며, 다층 퍼셉트론이 비선형 연산자로 포함된다.

도 21은 또다른 실시예에 따른 차이 학습(difference learning)을 이용한 DNN-기반 시뮬레이터(DNN-based Simulator)의 심층 신경망을 구조화한 것이다. 도 22은 도 21의 심층 신경망을 구조화한 것이다.

노드들 사이 공간적 또는 시간적 상관관계는 짧은 시간 간격 동안에 극적으로 변하지 않으며, 이는 예측 시간 범위가 너무 길지 않은 경우 현재 및 향후 상태 관찰 사이에서 유효하다. 따라서, 평이한 상태전이 형태, 즉 y= f(x) (여기서 f(^.)는 예측모델, y는 미래의 관측치, x는 현재(또는 과거의) 관측치)로 예측 모델을 모델링하는 대신, y=x+f(x) (여기서 f(^.)는 전체 네트워크로부터의 상태 증분 또는 영향을 나타냄)로 모델링 할 수 있다.

도 21을 참조하면, 이 접근방식은 가장 최근의 상태의 관측은 이미 미래 관측에 대해 잘 학습된 추정이라고 가정하는 것과 같으며, 따라서 미래 상태 자체를 처음부터 예측하는 것보다 가장 최근의 관측과 미래의 관측 사이의 차이(difference)나 변화(variation)를 추정하는 것이 더 낫다.

도 22는 전역지름길(global shortcut)을 갖춘 제안된 심층 신경망 아키텍처를 도시하고 있다.

도 22를 참조하면, 입력층(input layer, 116I)에서의 가장 최근의 관측지가 구부러진 화살표로 표시된 전역지름길을 통해 출력층(output layer, 116O)으로 직접 전달된다.

전체 구조는 y=x+f(x)로 표기할 수 있으며, 여기서 f(^.)는 증분함수(increment function), y는 미래 관측 추정치, x는 현재(또는 과거) 관측치로 표기된다. 아래 수학식 3은 각각 기존 학습(conventional learning)과 차이 학습(difference learning)을 이용한 DNN-기반 시뮬레이터(DNN-based Simulator)에서 사용하는 함수를 의미한다.

[수학식 3]

상술한 기계 학습 및 데이터 기반 에너지 자동 제어 시스템(100)은, 프로세서, 메모리, 사용자 입력장치, 프레젠테이션 장치 중 적어도 일부를 포함하는 컴퓨팅 장치에 의해 구현될 수 있다. 메모리는, 프로세서에 의해 실행되면 특정 태스크를 수행할 있도록 코딩되어 있는 컴퓨터-판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션(instructions), 및/또는 데이터 등을 저장하는 매체이다. 프로세서는 메모리에 저장되어 있는 컴퓨터-판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 등을 판독하여 실행할 수 있다. 사용자 입력장치는 사용자로 하여금 프로세서에게 특정 태스크를 실행하도록 하는 명령을 입력하거나 특정 태스크의 실행에 필요한 데이터를 입력하도록 하는 수단일 수 있다. 사용자 입력장치는 물리적인 또는 가상적인 키보드나 키패드, 키버튼, 마우스, 조이스틱, 트랙볼, 터치-민감형 입력수단, 또는 마이크로폰 등을 포함할 수 있다. 프레젠테이션 장치는 디스플레이, 프린터, 스피커, 또는 진동장치 등을 포함할 수 있다.

컴퓨팅 장치는 스마트폰, 태블릿, 랩탑, 데스크탑, 서버, 클라이언트 등의 다양한 장치를 포함할 수 있다. 컴퓨팅 장치는 하나의 단일한 스탠드-얼론 장치일 수도 있고, 통신망을 통해 서로 협력하는 다수의 컴퓨팅 장치들로 이루어진 분산형 환경에서 동작하는 다수의 컴퓨팅 장치를 포함할 수 있다.

또한 상술한 자동 제어 방법은, 프로세서를 구비하고, 또한 프로세서에 의해 실행되면 딥 러닝 모델을 활용한 자동 제어 방법을 수행할 있도록 코딩된 컴퓨터 판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 구조 등을 저장한 메모리를 구비하는 컴퓨팅 장치에 의해 실행될 수 있다.

상술한 본 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 실시예들에 따른 딥 러닝 모델을 활용한 자동 제어 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러 또는 마이크로 프로세서 등에 의해 구현될 수 있다.

예를 들어 실시예들에 따른 딥 러닝 모델을 활용한 자동 제어 방법은 심층 신경망의 뉴런(neuron)과 시넵스(synapse)가 반도체 소자들로 구현된 인공지능 반도체 장치를 이용하여 구현될 수 있다. 이때 반도체 소자는 현재 사용하는 반도체 소자들, 예를 들어 SRAM이나 DRAM, NAND 등일 수도 있고, 차세대 반도체 소자들, RRAM이나 STT MRAM, PRAM 등일 수도 있고, 이들의 조합일 수도 있다.

실시예들에 따른 딥 러닝 모델을 활용한 자동 제어 방법을 인공지능 반도체 장치를 이용하여 구현할 때, 딥 러닝 모델을 소프트웨어로 학습한 결과(가중치)를 어레이로 배치된 시냅스 모방소자에 전사하거나 인공지능 반도체 장치에서 학습을 진행할 수도 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 실시예들에 따른 딥 러닝 모델을 활용한 자동 제어 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 장치, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.

또한, 위에서 설명한 "시스템", "프로세서", "컨트롤러", "컴포넌트", "모듈", "인터페이스", "모델", 또는 "유닛" 등의 용어는 일반적으로 컴퓨터 관련 엔티티 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어 또는 실행 중인 소프트웨어를 의미할 수 있다. 예를 들어, 전술한 구성요소는 프로세서에 의해서 구동되는 프로세스, 프로세서, 컨트롤러, 제어 프로세서, 개체, 실행 스레드, 프로그램 및/또는 컴퓨터일 수 있지만 이에 국한되지 않는다. 예를 들어, 컨트롤러 또는 프로세서에서 실행 중인 애플리케이션과 컨트롤러 또는 프로세서가 모두 구성 요소가 될 수 있다. 하나 이상의 구성 요소가 프로세스 및/또는 실행 스레드 내에 있을 수 있으며, 구성 요소들은 하나의 장치(예: 시스템, 컴퓨팅 디바이스 등)에 위치하거나 둘 이상의 장치에 분산되어 위치할 수 있다.

이상의 설명은 본 개시의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 기술 사상의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 본 실시예들은 본 개시의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로 이러한 실시예에 의하여 본 기술 사상의 범위가 한정되는 것은 아니다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

대상체의 현재 상태(current state)와 제어신호(control signal)을 입력받아 다음 상태(next state)를 출력하는 기계 학습 기반 시뮬레이터; 및
실제 환경(Real Environment), 도메인 전문가 시뮬레이터(Domain-Expert Simulator), 기계 학습 기반 시뮬레이터 중 하나의 다음 상태(next state)나 보상(reward)를 수신하여 상기 대상체를 제어하는 에이전트(agent)를 포함하는 기계 학습 기반 에너지 자동 제어 장치.
제1항에 있어서,
상기 기계 학습 기반 시뮬레이터는 심층 신경망을 이용한 DNN-기반 시뮬레이터(DNN-based Simulator)인 기계 학습 기반 에너지 자동 제어 장치.
제2항에 있어서,
상기 DNN-기반 시뮬레이터(DNN-based Simulator)는 기존에 사용하던 시뮬레이터(legacy simulator)의 출력값(다음 상태(next state)')에 대한 새로운 출력값(다음 상태(next state))을 출력하거나, 기존에 사용하던 시뮬레이터(legacy simulator)의 출력값(다음 상태(next state)')을 보정하는 형태(Δ=다음 상태(next state)- 다음 상태(next state)')을 출력하는 기계 학습 기반 에너지 자동 제어 장치.
제3항에 있어서,
상기 에이전트(agent)는 기존에 사용하던 강화 학습 기반 에이전트(agent)를 재활용하여 기존에 사용하던 강화 학습 기반 에이전트(agent) 의 출력값(액션(action)')을 보정하는 형태(Δ=액션(action))로 출력하는 기계 학습 기반 에너지 자동 제어 장치.
제2항에 있어서,
상기 DNN-기반 시뮬레이터(DNN-based Simulator)는 심층 신경망에 대상체에 대한 정보를 구조화하여 계층 또는 뉴런 간의 연결을 형성하고, 데이터셋을 상기 심층 신경망의 입력층에 입력하고, 상기 심층 신경망을 이용하여 입력된 데이터셋을 학습하여 상기 대상체의 현재 상태(current state)에 대한 미래의 다음 상태(next state) 추정치를 구하고, 손실함수를 이용하여 상기 다음 상태(next state) 추정치와 실제 관측치를 비교하여 오차를 측정하고, 상기 오차에 따라 상기 심층 신경망의 학습 파라미터를 수정하는 기계 학습 기반 에너지 자동 제어 장치.
제1항에 있어서,
상기 대상체는 건물인 기계 학습 기반 에너지 자동 제어 장치.
제2항에 있어서,
상기 심층 신경망에서 하위 계층과 상위 계층간의 신경 연결은 입력층의 노드들 사이의 물리적으로 연결된 경우에만 주어지는 기계 학습 기반 에너지 자동 제어 장치.
제2항에 있어서,
상기 DNN-기반 시뮬레이터는 하위 계층의 출력이 그대로 유지되고 상위 계층까지 전달될 수 있도록 계층 간 또는 계층의 블록 간에 직접 연결을 만드는 잔여학습(residual learning)을 수행하는 기계 학습 기반 에너지 자동 제어 장치.
제2항에 있어서,
상기 DNN-기반 시뮬레이터는 은닉층(hidden layer) 사이에 작은 다층 퍼셉트론을 비선형 연산자를 사용하여 비선형 상태 업데이트를 수행하는 기계 학습 기반 에너지 자동 제어 장치.
제2항에 있어서,
상기 DNN-기반 시뮬레이터는 입력층(input layer)에서의 전역지름길을 통해 출력층(output layer)으로 직접 전달하는 기계 학습 기반 에너지 자동 제어 장치.