KR101988504B1

KR101988504B1 - 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법

Info

Publication number: KR101988504B1
Application number: KR1020190023870A
Authority: KR
Inventors: 김의중; 홍수화; 이준표; 이일규
Original assignee: 아이덴티파이 주식회사
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-10-01
Also published as: US20200279149A1

Abstract

본 발명의 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법은, 제1 인공지능 모듈이, 제2 인공지능 모듈의 제2 인공신경망을 가상환경으로서 이용하여 제1 인공신경망의 강화학습을 수행하는 단계와, 상기 제1 인공신경망의 강화학습이 완료된 이후, 상기 제1 인공지능 모듈이 제어 환경의 센서로부터 수신된 감지 정보를 상기 제1 인공신경망에 적용하여 제어 명령을 결정하는 단계와, 상기 제1 인공지능 모듈이, 상기 제어 환경의 엑추에이터가 상기 제어 명령에 따라 제어 대상을 제어할 수 있도록 상기 제어 명령을 상기 엑추에이터에 제공하는 단계를 포함한다.

Description

딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법{METHOD FOR REINFORCEMENT LEARNING USING VIRTUAL ENVIRONMENT GENERATED BY DEEP LEARNING}

본 발명은 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법에 관한 것으로서, 더 상세하게는 실측 데이터를 이용하여 생성한 가상 환경을 통한 강화학습 방법에 관한 것이다.

인공지능은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로서, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 말한다.

최근에는 방대한 빅데이터들을 분석해 미래를 예측하는 머신러닝 기술이 주목받고 있다. 머신러닝은 데이터를 수집, 분석해 미래를 예측한다는 점에서 빅데이터 분석과 유사하지만 컴퓨터 스스로 방대한 데이터를 수집, 학습할 수 있다는 점에서 차이가 있다. 이는 인공지능(Artificial Intelligence)의 한 분야로, 빅데이터 핵심 기술로 각광받고 있다.

한편, 데이터센터의 연간 서버전력소모량은 대형 데이터센터의 경우 약 4천만 kWh 이상에 이르며, 이는 한화 수십억원에 해당하는 비용지출이다. 데이터센터의 전체 공기조화시스템의 전력소모량은 최적화 정도에 따라 서버 전력소모량의 12%(PUE 1.12, 해외선진 데이터센터 평균) 내지 166%(PUE 2.66, 국내 데이터센터 평균)에 해당하는데, 이는 약 5백만 kWh ~ 6천6백만 kWh의 범위에 해당되며, 범위가 넓어 비용절감의 여지가 크다. 이와 같이 공기조화시스템의 전력소모량이 전체 시스템에서 차지하는 비중의 차이가 많이 나는 것은 데이터센터 설계의 차이에서 기인할 수도 있지만, 효율적으로 공기조화시스템을 제어하지 못하는 것이 더욱 중요한 문제이다.

본 발명이 해결하고자 하는 기술적인 과제는, 가상환경을 통해 강화학습된 인공지능 모듈을 이용하여 제어 환경을 효율적인 방법으로 제어할 수 있는 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법을 제공하는 것이다.

전술한 목적을 달성하기 위하여, 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법은, 제1 인공지능 모듈이, 제2 인공지능 모듈의 제2 인공신경망을 가상환경으로서 이용하여 제1 인공신경망의 강화학습을 수행하는 단계와, 상기 제1 인공신경망의 강화학습이 완료된 이후, 상기 제1 인공지능 모듈이 제어 환경의 센서로부터 수신된 감지 정보를 상기 제1 인공신경망에 적용하여 제어 명령을 결정하는 단계와, 상기 제1 인공지능 모듈이, 상기 제어 환경의 엑추에이터가 상기 제어 명령에 따라 제어 대상을 제어할 수 있도록 상기 제어 명령을 상기 엑추에이터에 제공하는 단계를 포함한다.

실시 예에 따라, 상기 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법은, 상기 제2 인공지능 모듈이, 상기 제어 환경에서 생성된 실측 데이터를 이용하여 상기 제2 인공신경망을 학습하는 단계를 더 포함할 수 있다.

실시 예에 따라, 상기 제2 인공신경망은 다층 퍼셉트론(multi layered perceptron)으로 이루어질 수 있다.

실시 예에 따라, 상기 제2 인공신경망은 매트릭스 형태로 서로 연결된 복수의 노드로 구성되며, 상기 실측 데이터에 포함된 학습 데이터가 입력되는 입력층, 상기 입력층에 입력된 상기 학습 데이터에 가중치를 적용하는 은닉층, 및 상기 은닉층으로부터 출력된 값을 제어환경상태 예측결과로 결정하는 출력층을 포함할 수 있다.

실시 예에 따라, 상기 학습 데이터는 특정 시점에서 상기 제어 대상의 제어 환경 상태를 감지하여 생성된 감지 정보와 상기 감지 정보에 대응하여 각 제어 대상에 적용된 제어 명령을 포함할 수 있다.

실시 예에 따라, 상기 실측 데이터는 레이블 데이터를 더 포함하고, 상기 레이블 데이터는 상기 특정 시점에서 상기 제어 대상에 제어 명령이 적용되고 일정 시간이 경과한 후에 측정된 상기 제어 환경의 상태 정보를 포함할 수 있다.

실시 예에 따라, 상기 제2 인공신경망을 학습하는 단계는, 상기 제2 인공지능 모듈이, 상기 실측 데이터에 포함된 학습 데이터를 기초로 제어환경상태 예측결과를 생성하는 순전파 과정을 수행하는 단계와, 상기 순전파 과정을 통해 생성된 상기 제어환경상태 예측결과와 상기 실측 데이터에 포함된 레이블 데이터와의 차이인 에러값을 기초로 상기 제2 인공신경망의 가중치를 보정하는 역전파 과정을 수행하는 단계를 포함할 수 있다.

실시 예에 따라, 상기 역전파 과정을 수행하는 단계는, 상기 제어환경상태 예측결과와 상기 레이블 데이터를 비교하여 상기 제어환경상태 예측결과와 상기 레이블 데이터 사이의 차이가 임계값보다 큰 경우, 상기 차이가 상기 임계값 이내에 수렴하도록 상기 가중치를 보정하는 상기 역전파 과정을 수행할 수 있다.

실시 예에 따라, 상기 제1 인공신경망의 강화학습을 수행하는 단계는, 상기 제1 인공지능 모듈이, 상기 제2 인공지능 모듈에 정책에 따른 행동 정보를 제공하는 단계와, 상기 제2 인공지능 모듈이, 상기 행동 정보를 상기 제2 인공신경망에 적용하여 상기 행동 정보에 대한 다음 상태와 보상을 계산하는 단계와, 상기 제2 인공지능 모듈이 상기 다음 상태와 상기 보상을 상기 제1 인공지능 모듈에 제공하는 단계와, 상기 제1 인공지능 모듈이 마르코프 결정 과정(markov decision process) 을 통해 상기 보상의 총합의 기대값이 최대화되는 정책을 결정하는 단계를 포함할 수 있다.

실시 예에 따라, 상기 보상의 총합의 기대값이 최대화되는 정책을 결정하는 단계는, 상기 제1 인공지능 모듈이, Q-학습방법을 평가기준으로 하여 상기 보상의 총합의 기대값이 최대화하는 정책을 결정할 수 있다.

실시 예에 따라, 상기 Q-학습방법은 심층 Q-신경망(Deep Q-Networks)과 심층 이중 Q-신경망(Deep Double Q-Networks, DDQN) 중 어느 한 방법일 수 있다.

실시 예에 따라, 상기 보상의 총합의 기대값이 최대화되는 정책을 결정하는 단계는, 상기 제1 인공지능 모듈이, 정책 경사법을 평가기준으로 하여 상기 보상의 총합의 기대값이 최대화하는 정책을 결정할 수 있다.

실시 예에 따라, 상기 정책 경사법은 심층 결정론적 정책 경사법(Deep Deterministic Policy Gradient), 신뢰 영역 정책 최적화(Trust Region Policy Optimization), 근위 정책 최적화(Proximal Policy Optimization, PPO) 중 어느 한 방법일 수 있다.

본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법에 의하면, 제어 환경의 실측 데이터만을 이용하여 제어 환경과 동일한 가상 환경을 생성할 수 있고, 생성된 가상 환경을 기초로 인공신경망의 강화학습을 수행할 수 있다.

또한, 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법에 의하면, 강화학습이 완료된 인공신경망을 이용하여 최적의 조건으로 제어 환경을 관리할 수 있다.

도 1은 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 시스템의 개략적인 도면이다.
도 2는 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 실시 예에 따른 제2 인공지능 모듈이 제2 인공신경망을 학습하는 방법을 설명하기 위한 도면이다.
도 4a는 본 발명의 실시 예에 따른 제2 인공신경망의 순전파 과정을 설명하기 위한 도면이다.
도 4b는 본 발명의 실시 예에 따른 제2 인공신경망의 역전파 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 실시 예에 따른 제1 인공지능 모듈의 강화학습을 설명하기 위한 도면이다.
도 6a와 도 6b에 도시된 보상함수 그래프는 건물의 실내 온도와 총 전력사용량을 최적의 조건으로 설계하기 위한 제1 인공지능 모듈의 보상 설계 예시를 도시한 도면이다.
도 7은 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법을 설명하기 위한 흐름도이다.

이하에서는 본 발명의 실시 예에 관하여 첨부도면을 참조하여 상세하게 설명하기로 한다. 다만, 이하에서 설명되는 실시 예는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명을 쉽게 실시할 수 있을 정도로 상세하게 설명하기 위한 것에 불과하며, 이로 인해 본 발명의 보호범위가 한정되는 것을 의미하지는 않는다. 그리고 본 발명의 여러 실시 예를 설명함에 있어서, 동일한 기술적 특징을 갖는 구성요소에 대하여는 동일한 도면부호를 사용하기로 한다.

도 1은 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습시스템의 개략적인 도면이고, 도 2는 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법을 설명하기 위한 도면이다.

도 1과 도 2를 참조하면, 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습시스템(10)은 제어 환경(100)과, 각 제어 환경(100)을 제어하기 위한 제1 인공지능 모듈(200)과, 제1 인공지능 모듈(200)을 강화학습시키기 위한 제2 인공지능 모듈(300)을 포함한다.

제어 환경(100)은 기계 제어가 필요한 일련의 환경들을 의미할 수 있다. 예컨대, 제1 제어 환경(100a)은 건물 내부의 온도를 관리하는 온도 제어 환경이고, 제2 제어 환경(100b)은 시설물의 전력 소비를 제어하는 전력 제어환경이고, 제n 제어 환경(100n)은 농작물에 영양분을 제공하는 무인 농작물 재배 환경을 의미할 수 있다.

제어 환경(100)은 제어 대상(140)과, 제어대상(140)에 대해 제어 명령을 수행하는 엑추에이터(130)와, 제어 대상(140)의 제어 상태를 측정하는 센서(120)와, 센서(120)에 의해 측정된 감지 정보와 엑추에이터(130)가 수행한 제어 명령을 실측 데이터(DA)로 저장하는 저장모듈(110)을 포함할 수 있다.

예컨대, 제어 대상(140)이 건물 내부의 온도를 관리하는 공조 시설인 경우, 엑추에이터(130)는 제어 명령에 대응하여 공조 시설의 작동을 제어할 수 있다. 그리고, 온도계 센서(120)는 건물 내부의 온도를 측정할 수 있고, 저장 모듈(110)은 제어 명령에 대응하여 변화하는 건물 내부의 온도를 실측 데이터(DA)로서 저장할 수 있다.

제1 인공지능 모듈(200)은 특정한 제어 환경(100)에 맞춤으로 설계된 제1 인공신경망(ANN1)을 기초로 제어 환경(100)에 제어 명령을 제공할 수 있다. 제1 인공지능 모듈(200)은 센서(120)로부터 제어 대상(140)의 제어 상태에 대한 감지 정보를 수신할 수 있고, 감지 정보를 제1 인공신경망(ANN1)에 적용하여 제어 대상(140)에 대한 제어 방침을 결정할 수 있다. 제1 인공지능 모듈(200)은 결정된 제어 방침을 제어 명령으로서 엑추에이터(130)에 제공할 수 있다.

제1 인공지능 모듈(200)이 제어 환경(100)을 가장 효율적으로 제어하기 위해서는 제1 인공신경망(ANN1)의 강화학습이 선행되어야 한다. 즉, 제1 인공신경망(ANN1)의 강화학습은 제1 인공지능 모듈(200)이 제어 환경(100)을 제어하기 이전에 이미 완료되어야 한다.

이를 위해, 제2 인공지능 모듈(300)은 제1 인공지능 모듈(200)이 제1 인공신경망(ANN1)의 강화학습을 수행하기 위한 가상환경을 제공할 수 있다. 제2 인공지능 모듈(300)은 제어 환경(100)을 제어함에 따라 생성된 실측 데이터(DA)를 제어 환경(100)으로부터 제공받을 수 있고, 실측 데이터(DA)를 기초로 제2 인공신경망(ANN2)을 학습하여 상기 제어 환경(100)과 같은 가상환경을 생성할 수 있다.

여기서, 실측 데이터(DA)는 제어 환경에 대해 사람 또는 기존의 제어 시스템에 의해 생성된 데이터를 의미하고, 제1 인공신경망(ANN1)의 강화학습을 수행하는 제1 인공지능 모듈(200)이란 현재 제어 환경(100)을 제어하고 있는 제1 인공지능 모듈(200)을 대체하여 새롭게 제어 환경(100)을 제어하게 될 모듈을 의미한다. 즉, 제2 인공지능 모듈(300)은 제어 환경(100)에 새롭게 투입될 제1 인공지능 모듈(200)의 제1 인공신경망(ANN1)을 강화학습시키기 위한 모듈이다.

제2 인공지능 모듈(300)은 각 제어 환경(100)으로부터 제공된 실측 데이터(DA)만 제공받으면 제어 환경(100)에 대응하는 가상환경을 생성할 수 있기 때문에, 제어 환경(100)의 종류에 구애받지 않고 실측 데이터(DA)를 이용하여 제1 인공지능 모듈(200)에 가상환경을 제공할 수 있다.

제1 인공지능 모듈(200)로부터 행동 정보(ACT)를 제공받으면, 제2 인공지능 모듈(300)은 가상 환경의 이전 상태를 리드하고, 행동 정보(ACT)와 상기 이전 상태를 제2 인공신경망(ANN2)에 적용하여 다음 상태(ST)를 도출할 수 있다. 그리고, 제2 인공지능 모듈(300)은 현재 상태, 다음 상태(ST), 및 행동 중 적어도 하나를 이용하여 보상(RW)을 계산할 수 있다.

제1 인공지능 모듈(200)은 다음 상태(ST)와 보상(RW)을 이용하여 제1 인공신경망(ANN1)의 강화학습을 수행할 수 있다.

도 3은 본 발명의 실시 예에 따른 제2 인공지능 모듈이 제2 인공신경망을 학습하는 방법을 설명하기 위한 도면이고, 도 4a는 본 발명의 실시 예에 따른 제2 인공신경망의 순전파 과정을 설명하기 위한 도면이고, 도 4b는 본 발명의 실시 예에 따른 제2 인공신경망의 역전파 과정을 설명하기 위한 도면이다.

도 3을 참조하면, 제2 인공지능 모듈(300)이 제2 인공신경망(ANN2)을 이용하여 제1 인공지능 모듈(200)의 제1 인공신경망(ANN1)을 학습시키기 위해서는 제2 인공신경망(ANN2)의 학습이 선행되어야 한다. 이를 위해, 제2 인공지능 모듈(300)은 시계열적으로 저장된 제어 대상의 감지 정보와 이에 상응하는 제어 명령을 포함하는 실측 데이터(DA)를 이용하여 제2 인공신경망(ANN2)을 학습시킬 수 있다.

실측 데이터(DA)는 학습 데이터(DA1)와 레이블 데이터(DA2)를 포함할 수 있다. 학습 데이터(DA1)는 특정 시점에서 제어 대상의 제어 환경 상태를 감지하여 생성된 감지 정보와, 상기 감지 정보에 대응하여 각 제어 대상에 제공된 제어 명령을 포함할 수 있다. 그리고, 레이블 데이터(DA2)는 각 제어 대상에 제어 명령을 제공한 이후 특정 시간이 경과한 후 제어 환경상태를 감지하여 생성된 감지 정보를 포함할 수 있다.

또한, 제어 환경상태를 감지하여 생성된 감지 정보는 제어 대상의 제어에 따라 변화될 수 있는 종속 감지정보와 제어 대상의 제어와 상관없이 변화되는 독립 감지정보를 포함한다. 학습 데이터(DA1)에 포함되는 감지정보는 종속 감지정보와 독립 감지정보를 모두 의미할 수 있지만, 레이블 데이터(DA2)에 포함되는 감지정보는 종속 감지정보만을 의미할 수 있다.

본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습시스템(10)은 시간의 흐름에 따라 생성된 학습 데이터(DA1)와 레이블 데이터(DA2)를 포함하는 실측 데이터(DA)가 기생성되어 있는 것을 가정하며, 별도로 실측 데이터(DA)를 생성하는 과정에 대한 설명은 생략한다.

제2 인공지능 모듈(300)은 인공신경망(Artificial Neural Network, ANN)의 일종인 다층 퍼셉트론(Multi Layered Perceptron)을 제2 인공신경망(ANN2)의 인공지능 알고리즘으로 이용할 수 있다. 제2 인공신경망(ANN2)은 복수의 노드들로 이루어진 입력층(IL), 은닉층(HL), 및 출력층(OL)을 포함할 수 있다.

제2 인공신경망(ANN2)의 학습 과정은 입력층(IL)으로 입력된 센서 정보와 제어 명령을 이용하여 제어환경상태 예측결과로 도출하는 과정인 순전파(feedforward) 과정과, 레이블 데이터를 기초로 제어환경상태 예측결과를 보정하기 위해 제2 인공신경망(ANN2)의 가중치를 조절하는 역전파 과정이 있다.

도 4a를 참조하면, 제2 인공신경망(ANN2)에서 입력층(IL)에 입력된 학습데이터(DA1)가 은닉층(HL)을 통해 출력층(OL)으로 진행되면서 정보의 구체화가 이루어지는 순전파 과정이 도시되어 있다.

입력층(IL), 은닉층(HL), 및 출력층(OL) 각각의 노드는 선행하는 층 및 후행하는 층과 노드로 연결되어 있으며, 입력층(IL)의 노드들에 입력된 학습데이터(DA1)는 순차적으로 은닉층(HL)의 노드들을 거쳐 출력층(OL)의 노드들에 전달 수 있다. 학습데이터(DA1)의 종류에 따라 각기 대응되는 노드가 있기 때문에, 특정한 학습데이터(DA1)가 입력층(IL)에 입력되면 대응하는 노드를 통해서만 은닉층(HL) 및 출력층(OL)으로 전달된다.

만약, 제2 인공신경망(ANN2)이 순환신경망 형태를 갖는다면, 입력층(IL), 은닉층(HL), 출력층(OL)은 순차적인 사건(sequence event)을 고려한 형태로 확장될 수 있다. 이 경우 학습 데이터(DA1)의 전달 경로는 시간별 입력층(IL), 은닉층(HL), 출력층(OL)이며, 은닉층(HL) 단계에서 이전 시점의 정보를 출력층(OL) 및 다음 시점의 은닉층(HL)으로 전달하는 경로가 추가될 수 있다.

순전파 과정에서 입력층(IL)은 입력 데이터를 받아들이는 기능을 하며, 입력층(IL)의 노드 개수는 수신된 학습 데이터(DA1)의 특성 개수와 일치한다. 만약, 학습 데이터(DA1)에 포함된 감지 정보와 제어 명령의 개수가 총 100개라면 입력층(IL)의 노드 수는 100개가 될 수 있다.

예컨대, 어느 한 건물의 실내 온도를 적정 온도로 유지하기 위해 생성된 실측 데이터가 본 발명의 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습시스템에 이용될 수 있다.

실측 데이터(DA)에는 학습데이터(DA1)로서 특정 시점의 실내 온도, 외부 온도, 냉난방장치의 전력사용량, 기타 장비의 전력사용량, 특정 시점에서 제어 장치에 제공된 제어 명령이 포함될 수 있다. 그리고, 실측 데이터(DA)에는 레이블 데이터(DA2)로서 특정 시점에서 일정 시간이 경과한 후의 건물의 실내 온도 및 건물에서 발생된 총 전력사용량이 포함될 수 있다. 여기서, 실내 온도와 제어 대상인 냉난방장치의 전력사용량은 종속 감지정보이고, 외부 온도와 기타 장비의 전력사용량은 독립 감지정보일 수 있다.

제2 인공지능 모듈(300)은 학습 데이터(DA1)에 포함된 특정 시점의 실내 온도, 외부 온도, 냉난방장치의 전력사용량, 기타 장비의 전력사용량, 및 제어 명령을 제2 인공신경망(ANN2)의 입력층(IL)의 해당하는 노드에 입력할 수 있다.

그리고, 학습 데이터(DA1)는 제2 인공신경망(ANN2)의 은닉층(HL)을 거쳐서 출력층(OL)으로 전달될 수 있는데, 출력층(OL)의 노드들은 특정 시점에서 실내 온도, 외부 온도, 냉난방장치의 전력사용량, 기타 장비의 전력사용량, 및 제어 명령이 주어진 뒤 일정 시간이 지난 후의 실내 온도 및 총 전력 사용량에 대한 예측결과를 의미할 수 있다. 즉, 출력층(OL)의 노드들은 특정 시점의 학습 데이터(DA1)가 주어지고 일정 시간이 흐른뒤의 제어환경상태 예측결과를 나타낼 수 있다.

예컨대, 제1 시점에서 건물의 실내 온도는 28℃이고, 외부 온도는 30℃이고, 냉방 장치의 전력사용량은 100W이고, 기타 장비의 전력사용량은 150W일 수 있다. 그리고, 실내 온도를 20℃로 낮추기 위해 냉방 장치의 가동을 활성화하는 제어 명령이 있는 경우, 제2 인공신경망(ANN2)의 입력층(OL)에는 제1 시점의 실내 온도로서 28℃, 외부 온도로서 30℃, 냉방 장치의 전력사용량으로서 100W, 기타 장비의 전력 소모량으로서 150W, 제어 명령으로서 냉방 장치의 활성화가 입력층(IL)의 각 노드에 입력될 수 있다.

입력층(IL)의 각 노드에 입력된 정보들은 은닉층(HL)으로 전달되고, 최종적으로 출력층(OL)의 노드에 전달되게 되는데, 출력층(OL)의 각 노드에 전달된 값은 건물의 실내 온도와 총 전력사용량을 예측한 예측결과를 의미할 수 있다.

구체적으로, 순전파의 첫 단계는 앞 층에서 전달받은 데이터를 가중치를 고려해 아래의 수학식 1과 같이 선형적으로 합산하는 것이다.

여기서, h¹ _j는 은닉층(HL)의 첫 번째 층의 j번째에 해당하는 노드를 의미하고, ω^x _ij는 입력층(IL)의 노드들에 입력된 학습 데이터가 은닉층(HL)의 첫 번째 층으로 전달될 때 적용되는 가중치를 의미한다. 이때, i와 j는 자연수로서 각각 전기신호(ES)의 개수와 은닉층(HL)의 첫 번째 층의 노드 개수를 의미한다. 그리고, x_i는 입력층(IL)의 i번째 노드를 의미한다.

그리고, 두 번째 단계는 첫 번째 층의 노드들 각각에서 합산된 값을 하기 수학식 2에 적용하여 은닉층(HL)의 두 번째 층의 노드들로 순전파를 수행한다.

여기서, h² _k는 은닉층(HL)의 두 번째 층의 k번째 노드를 의미하고, ω^h1 _jk는 은닉층(HL)의 두 번째 층으로 전달된 계산값이 은닉층(HL)의 두 번째 층으로 전달될 때 적용되는 가중치를 의미한다. 이때, k는 자연수로서 은닉층(HL)의 두 번째 층의 노드 개수를 의미한다.

이와 같이 순전파 방식으로 계산값은 마지막 층인 출력층(OL)으로 전달되고, 출력층(OL)으로 전달된 계산값은 제어환경상태 예측결과로 결정된다. 즉, 출력층(OL)의 각 노드로 출력되는 계산값은 실내온도와 총 전력사용량에 대한 예측 결과값을 의미할 수 있다.

따라서, 본 발명의 딥러닝에 의해 생성된 가상환경을 이용한 강화학습시스템(10)은 제2 인공신경망(ANN2)을 이용하여 실측 데이터(DA)에 포함된 학습 데이터(DA1)를 이용하여 제어환경상태 예측결과를 판단할 수 있다.

도 4b를 참조하면, 레이블 데이터(DA2)를 기초로 제어환경상태 예측결과를 보정하기 위해 제2 인공신경망(ANN2)의 가중치를 조절하는 역전파 과정이 도시되어 있다. 제어환경 예측결과는 학습데이터(DA)에 따른 환경에서 일정시간이 흐른 뒤의 제어대상 환경의 상태를 예측한 결과이므로, 제어환경상태 예측결과와 실측값과는 다소 상이할 수 있다. 여기서, 상기 실측값은 실측 데이터(DA)의 레이블 데이터(DA2)에 해당되며, 제2 인공지능 모듈(300)은 레이블 데이터(DA2)를 이용하여 제어환경상태 예측결과와 실측값의 차이를 바로잡는 역전파 과정을 수행할 수 있다.

구체적으로, 제2 인공신경망(ANN2)이 학습 데이터(DA1)를 기초로 계산한 제어환경상태 예측결과와 레이블 데이터(DA2)의 차이가 임계값을 초과하는 경우, 제2 인공지능 모듈(300)은 역전파 과정을 통해 에러값이 임계값 이내로 수렴하도록 제2 인공신경망(ANN2)의 가중치를 조절할 수 있다.

하기의 수학식 3은 역전파 과정을 위한 목적함수로서, 제어환경상태 예측결과와 레이블 데이터(DA2)와의 차이인 에러값을 계산하고, 에러값을 제곱하여 모두 합한 후 평균값을 계산한 것이다.

여기서, N은 학습 데이터(DA1)를 의미하고, error는 제어환경상태 예측결과와 레이블 데이터(DA2)와의 차이인 에러값을 의미하고, y_i는 레이블 데이터(DA2)를 의미하고, p_i는 제어환경상태 예측결과를 의미한다.

이와 같은 역전파 과정은 에러값을 역전파 시키면서 노드들 사이의 가중치를 반복적으로 보정하는 과정으로서, 반복적인 역전파를 통해 인공신경망 학습 과정이 진행되면서 제어환경상태 예측결과의 정확도를 높이게 된다. 궁극적으로 에러값이 임계치 이내로 수렴되면, 제2 인공지능 모듈(300)은 학습을 완료하고 제2 인공신경망(ANN2)에 포함된 가중치는 고정되며 제어환경상태 예측결과를 예측하기 위한 완성형 인공신경망이 된다.

제2 인공신경망(ANN2)을 완성하기 위한 가중치 보정은 에러값이 최소화되도록 역전파를 시키는 과정에서 각 노드 사이의 가중치를 갱신하는 것이다. 먼저, 제2 인공신경망(ANN2)이 정의되면 각 층마다 연결되어 있는 가중치를 초기화할 수 있다.

이때, 사비에르 글로로트(Xavier_Glolot) 알고리즘으로 초기화하면 초기에 효율적으로 수렴하는 효과를 얻을 수 있다. 가중치가 초기화되면 학습을 시작한다.

실측 데이터에 포함된 학습 데이터에서 감지 정보와 제어 명령을 리드하고, 이를 제2 인공신경망(ANN2)을 통해 순전파하면 내부 온도와 총 전력사용량에 대한 제어환경상태 예측결과를 얻을 수 있다.

수학식 4는 크로스 엔트로피를 이용하여 손실값을 구하는 방법에 관한 것이다. 여기서, Loss는 배기가스 예측결과와 실측값의 차이를 계산한 에러값을 손실값으로 정의한 것이다. 손실값은 제어환경상태 예측결과와 레이블 데이터(DA2)를 크로스 엔트로피 (cross entropy)로 계산하여 정의될 수 있다.

그리고, 인공신경망 학습 과정은 손실값을 최소화하는 가중치를 찾는 과정의 한 방법으로 수학식 5에 따른 경사감소법(Gradient Descent)이 사용될 수 있다.

여기서, α는 학습률(learning rate)로서, 수렴식을 계산할 때 어느 정도의 크기로 이동할지 결정하는 계수이다. 상기 학습률은 진동하거나 발산하지 않는 값으로 설정될 수 있다.

손실값을 최소화하는 모든 가중치를 한번에 구할 수 없기 때문에, 각 층마다 에러를 전달시키면서 보정치를 구할 수 있다. 이때 체인룰(chain rule)이 사용될 수 있는데, 가장 먼저 계산하는 가중치는 출력층(OL)에 연결된 가중치이다.

예컨대, 수학식 4에서 계산된 손실값을 수학식 5에 대입하여 제3 가중치(ω₃)를 계산한 후, 다음 층의 가중치인 제2 가중치(ω₂)를 구할 수 있다. 이때, 제2 가중치(ω₂)를 구하기 위해 앞서 구한 제3 가중치(ω₃)를 매개변수로 하여 구하는 방법이 체인룰이다.

인공신경망 학습 방법은 체인룰을 이용하여 에러인 손실값을 역전파시키면서 각 층마다 연결되어 있는 가중치를 갱신하는 과정을 수행하고, 궁극적으로 가중치가 수렴되면 학습이 완료된다.

이와 같이, 본 발명의 실시 예에 따른 제2 인공지능 모듈(300)은 기생성된 실측 데이터(DA)를 이용하여 제2 인공신경망(ANN2)의 학습을 완료할 수 있다. 이후, 제2 인공지능 모듈(300)은 제1 인공지능 모듈(200)로부터 학습 데이터(DA)에 상응하는 정보를 수신받는 경우 제2 인공신경망(ANN2)을 통해 보상값을 계산하여 제1 인공지능 모듈(200)에 제공할 수 있다.

도 5는 본 발명의 실시 예에 따른 제1 인공지능 모듈의 강화학습을 설명하기 위한 도면이다.

도 5를 참조하면, 제2 인공지능 모듈(300)은 제1 인공지능 모듈(200)의 강화학습을 위한 가상환경(VE)을 제공할 수 있다. 여기서, 가상환경(VE)이란 제1 인공지능 모듈(200)로부터 입력된 정책에 따른 행동 정보에 대응하여 보상값을 출력하는 제2 인공신경망(ANN2)을 의미할 수 있다.

제1 인공지능 모듈(200)은 제2 인공지능 모듈(300)의 제2 인공신경망(ANN2)을 이용하여 제1 인공신경망(ANN1)의 강화학습을 수행할 수 있다. 제2 인공지능 모듈(300)은 가상환경 모듈로서 실제환경 데이터를 바탕으로 딥 러닝(deep learning)을 수행하여 가상 환경을 추론하는데 이용하였으나, 제1 인공지능 모듈(200)은 기계학습제어 모듈로서 하기의 강화학습 과정을 통하여 제어모델을 학습할 수 있다.

강화학습은 마르코프 결정 과정(Markov Decision Process)에 의하여 이루어질 수 있다. 마르코프 결정 과정은 의사결정과정을 모델링하는 수학적인 틀로, 마르코프 속성(Markov Property)을 만족하는 경우에 대한 모델이다.

마르코프 속성이란 다음 상태의 확률이 오로지 전 상태에만 영향을 받는 특성을 말한다. 대부분의 환경은 이러한 특성을 따르기에, 마르코프 결정 과정은 실제 환경에서 폭 넓게 적용 가능하다.

마르코프 결정 과정의 에이전트는 환경으로부터 상태를 전송받아 정책에 따라 확률적으로 행동을 결정한다. 결정한 행동을 환경에 적용할 경우, 상태마다 전이확률에 따른 다음 상태와 함께 학습설계자가 적절하게 설계한 보상을 받으며, 이 보상의 총합의 기대값을 최대화하는 최적정책을 찾는 것이 강화학습의 목적이다.

보상의 총합을 반환이라 하며 수학식 6과 같이 계산한다.

그리고, 특정 상태에서 특정 행동을 하였을 때 마지막 상태까지 보상 기대값의 총합을 초기상태로부터의 반환의 기대값이라 하며 수학식 7과 같이 계산한다.

그리고, 특정 상태부터 마지막 상태까지 보상 기대값의 총합을 행동가치함수라 하며 수학식 8과 같이 계산한다.

그리고, 행동가치함수에 대하여 상태가치를 기준선으로 잡아 우세한 정도를 평가한 것을 우세함수라 하며 수학식 9와 같이 계산한다."

강화학습 알고리즘은 그 구현방식에 따라 적절하게 행동가치함수, 상태가치함수, 및 우세함수 중 어느 하나를 평가기준으로 하여 최대화하는 방향으로 학습을 진행하여 에이전트가 목표를 달성할 수 있도록 한다. 여기서, 행동가치함수는 심층 결정론적 정책 경사법 등에 활용될 수 있으며, 우세함수는 정책경사법 중 신뢰 영역 정책 최적화 및 근위 정책 최적화 등에 활용될 수 있다.

본 발명의 실시 예에 따른 제1 인공지능 모듈(200)은 제1 인공신경망(ANN1)의 강화학습을 위해 제어할 행동의 특성에 따라 Q-학습방법 또는 정책 경사법을 이용할 수 있다.

Q-학습방법은 심층 Q-신경망(Deep Q-Networks)과 심층 이중 Q-신경망(Deep Double Q-Networks) 등의 가치 반복법(value iteration) 중 어느 한 방법일 수 있다.

여기서, 심층 Q-신경망은 행동가치함수(action-value function)에 대해 함수 근사법을 적용한 뒤, 행동 가치의 근사해를 구하여 이를 토대로 탐욕적으로 정책을 결정하는 방법이다. 함수 근사법을 적용하는 과정에서 근사함수로서 다층 퍼셉트론을 이용한다.

심층 Q-신경망의 행동가치함수 근사해를 얻는 과정은 크게 세 개의 과정으로 나눌 수 있다.

먼저, 첫 번째 과정은 수학식 10에 따라 ε-탐욕 알고리즘에 의거하여 행동을 선택하고, 상태와 선택한 행동을 Q-신경망(Q-Network)에 순전파(feed forward)시켜 행동가치(Q, action-value)를 얻는 것이다.

그리고, 두 번째 과정은 수학식 11에 따라 선택한 행동을 환경에 적용시켜 다음 단위시간에서의 상태와 보상을 획득한 뒤, 획득한 상태와 다음 행동들을 Q-신경망에 순전파시켜 다음 단위시간에서의 최대행동가치를 얻고, 얻은 행동가치에 적절한 할인율(discount factor)을 적용하여 보상과 합산해 현재 단위시간에서의 행동가치를 얻는 과정을 수행하는 것이다.

그리고, 세 번째 과정은 수학식 12에 따라 앞선 두 과정에서 얻은 현재 단위시간에서의 행동가치의 평균 제곱 오차(MSE, Mean Square Error)를 손실함수로 역전파를 수행하여 신경망을 학습시키는 것이다.

이와 같은 일련의 과정을 통해 제1 인공지능 모듈(200)은 제1 인공신경망(ANN1)의 강화학습을 수행할 수 있다.

상기 일련의 과정을 통하여 실제 행동가치함수와 유사한 근사함수를 획득할 수 있으며, 이를 이용하여 각 상태에 대한 최적의 행동을 얻을 수 있다.

한편, 정책 경사법은 심층 결정론적 정책 경사법(Deep Deterministic Policy Gradient, DDPG), 신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO), 근위 정책 최적화(Proximal Policy Optimization, PPO) 등의 정책 경사법(policy gradient) 중 어느 한 방법일 수 있다.

심층 결정론적 정책 경사법은 탐욕적으로 정책을 정하는 대신에 배우-비평가(actor-critic) 알고리즘을 도입하여, 심층 Q-신경망을 비평가 함수(Q)로 하고 배우함수(μ)를 별도의 다층 퍼셉트론으로 구현하여 번갈아가며 학습시키는 방법이다.

심층 결정론적 정책 경사법에서는 배우신경망, 목적배우신경망, 비평가신경망, 및 목적비평가신경망 총 4개의 신경망을 가지고 있으며, 내부적으로 일련의 상태 - 행동 - 보상 - 다음상태를 저장하기 위한 재생 버퍼를 가지고 있다.

먼저, 제1 인공지능 모듈(200)은 배우신경망과 비평가신경망의 가중치들을 임의값으로 초기화할 수 있는데, 목적배우신경망의 가중치를 배우신경망의 가중치로 초기화하고, 목적비평가신경망의 가중치를 비평가신경망의 가중치로 초기화할 수 있다.

그리고, 제1 인공지능 모듈(200)은 배우신경망에 초기상태를 통과시켜 행동을 얻은 뒤, 이 행동에 수학식 13의 오른슈타인-울렌벡(Ornstein-Uhlenbeck) 과정을 적용하여 임의성을 부여할 수 있다.

그리고, 제1 인공지능 모듈(200)은 환경에 행동을 적용하여 보상과 다음 상태를 얻을 수 있는데, 상태, 행동, 보상, 다음 상태 순서로 일련의 전이를 재생 버퍼에 저장할 수 있다.

그리고, 제1 인공지능 모듈(200)은 재생 버퍼로부터 임의의 상기 전이의 미니배치를 추출할 수 있고, 추출된 미니배치를 기초로 목적배우신경망에 다음 상태를 적용하여 행동을 얻을 수 있다. 이때, 하기의 수학식 14에 따라 행동과 미니배치의 다음 상태를 목적비평가신경망에 적용한 후, 할인율을 곱하고 미니배치의 보상을 더하여 행동가치의 시간차 학습 레이블이 계산될 수 있다.

그리고, 제1 인공지능 모듈(200)은 수학식 15에 따라 비평가신경망에 미니배치의 상태와 행동을 적용하여 행동가치를 구한 뒤, 위에서 얻은 행동가치의 시간차 학습 레이블과의 평균제곱오차(Mean Square Error)을 손실함수로 역전파를 수행하여 비평가신경망을 학습시킬 수 있다.

그리고, 제1 인공지능 모듈(200)은 수학식 16에 따라 행동가치를 최대화하는 행동을 찾기 위해 연쇄법칙을 적용하여 비평가신경망으로부터 제공된 그라디언트를 배우신경망에 전달하고, 정책 경사를 이용하여 배우신경망을 학습시킬 수 있다.

마지막으로, 제1 인공지능 모듈(200)은 목적비평가신경망과 목적배우신경망을 비평가신경망과 배우신경망을 이용해 적절한 계수로 업데이트시킬 수 있다.

이와 같이 제1 인공지능 모듈(200)은 상기의 과정들을 반복수행할 수 있으며, 제2 인공지능 모듈(300)로부터 제공된 보상(RW)을 이용하여 Q-학습방법 또는 정책 경사법에 의해 제1 인공신경망(ANN1)의 강화학습을 완료할 수 있다. 제1 인공지능 모듈(200)은 제1 인공신경망(ANN1)의 강화학습이 완료되면 제2 인공지능 모듈(300)의 가상환경(VE)과의 연결을 중단하고, 제어 환경(100)에 직접 투입될 수 있다.

제1 인공지능 모듈(200)이 제어 환경(100)에 직접 투입된 이후에는 센서(120)로부터 제어 대상(140)의 제어 상태에 대한 감지 정보를 제공받을 수 있으며, 감지 정보를 제1 인공신경망(ANN1)에 적용하여 결정된 제어 명령을 엑추에이터에 제공함으로써 제어 대상(140)을 최적의 조건으로 제어할 수 있다.

도 6a와 도 6b에 도시된 보상함수 그래프는 건물의 실내 온도와 총 전력사용량을 최적의 조건으로 설계하기 위한 제1 인공지능 모듈의 보상 설계 예시를 도시한 도면이다.

도 6a와 도 6b를 참조하면, 제1 인공지능 모듈(200)이 건물의 실내 온도와 총 전력사용량을 최적으로 제어하기 위한 보상 그래프들이 도시되어 있다.

제1 인공지능 모듈(200)이 가상의 제어 명령인 행동 정보(ACT)를 제2 인공지능 모듈(300)에 제공하면, 제2 인공지능 모듈(300)은 이전 상태(예컨대, 실내 온도, 외부 온도, 냉난방장치의 전력사용량, 기타 장비의 전력사용)를 리드하여 제2 인공신경망(ANN2)에 적용할 수 있다.

제2 인공지능 모듈(200)은 제2 인공신경망(ANN2)은 이전 상태(예컨대 실내 온도, 외부 온도, 냉난방장치의 전력사용량, 기타 장비의 전력사용)에 대한 행동 정보(ACT)를 기초로 다음 상태(예컨대 일정 시간이 경과한 후의 건물의 실내 온도 및 건물에서 발생된 총 전력사용량, ST) 및 보상(RW)을 산출할 수 있다.

제1 인공지능 모듈(200)은 제2 인공지능 모듈(300)로부터 보상(RW)과 다음 상태(ST)를 수신할 수 있고, 보상(RW)과 다음 상태(ST)를 기초로 제1 인공신경망(ANN1)의 강화학습을 수행할 수 있다. 이때, 제1 인공지능 모듈(200)은 보상(RW)과 다음 상태(ST)를 미리 설계된 보상 그래프들에 적용하여 계산된 보상의 총합의 기대값을 최대화하는 방향으로 강화학습을 수행할 수 있다.

제1 인공지능 모듈(200)은 보상 그래프들을 이용하여 강화학습을 완료한 이후, 제어 환경(100)으로부터 제공된 정보들을 기초로 실제로 제어 환경(100)을 제어할 수 있다

예컨대, 건물의 실내 온도를 18℃에서 27℃ 사이로 유지하면서 총 전력사용량을 최소화하는 것이 바람직하기 때문에, 제1 인공지능 모듈(200)은 제2 인공지능 모듈(300)로부터 제공된 보상(RW)과 다음 상태(ST)를 보상 그래프에 적용할 수 있고, 보상 그래프들을 통해 얻은 보상의 총합의 기대값을 최대화하는 방향으로 강화학습을 수행할 수 있다.

즉, 제1 인공지능 모듈(200)은 총 전력사용량을 최소화시키면서 건물의 실내 온도를 18℃에서 27℃ 사이로 유지시키는 제어 명령을 생성하기 위해 보상 그래프들을 이용하여 제1 인공신경망(ANN1)의 강화학습을 수행할 수 있다.

이때, 실내 온도에 대한 보상함수는 수학식 18에 따르고, 총 전력사용량에 대한 보상함수는 수학식 19과 같이 설계할 수 있으며, 전체 보상함수는 수학식 20와 같이 계산하여 동시에 다수 목적에 대하여 최적화 할 수 있다.

제2 인공지능 모듈(200)은 제2 인공신경망(ANN2)은 이전 상태(예컨대 실내 온도, 외부 온도, 냉난방장치의 전력사용량, 기타 장비의 전력사용)에 대한 행동 정보(ACT)를 기초로 다음 상태(예컨대 일정 시간이 경과한 후의 건물의 실내 온도 및 건물에서 발생된 총 전력사용량, ST)을 산출할 수 있으며, 이전 상태, 행동(ACT), 다음 상태(ST)의 정보 중 일부를 조합한 정보(예컨대, 일정 시간이 경과한 후의 건물의 실내 온도 및 건물에서 발생된 총 전력사용량)를 바탕으로 보상 설계에 따라 보상(RW)을 산출할 수 있다.

제1 인공지능 모듈(200)은 제2 인공지능 모듈(300)로부터 보상(RW)과 다음 상태(ST)를 수신할 수 있고, 보상(RW)과 다음 상태(ST)를 보상 그래프들에 적용하여 제1 인공신경망(ANN1)의 강화학습을 수행할 수 있다.

제1 인공지능 모듈(200)은 제1 인공신경망(ANN1)의 강화학습이 완료되면 제2 인공지능 모듈(300)의 가상환경(VE)과의 연결을 중단하고, 제어 환경(100)에 직접 투입될 수 있다.

제1 인공지능 모듈(200)이 제어 환경(100)에 직접 투입된 이후에는 센서(120)로부터 제어 대상(140)의 제어 상태에 대한 감지 정보를 제공받을 수 있으며, 감지 정보를 학습이 완료된 제1 인공신경망(ANN1)에 적용하여 결정된 제어 명령을 엑추에이터에 제공함으로써 제어 대상(140)을 최적의 조건으로 제어할 수 있다.

도 7은 본 발명의 실시 예에 따른 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 제1 인공지능 모듈(200)은, 제2 인공지능 모듈(300)의 제2 인공신경망(ANN2)을 가상환경(VE)으로 이용하여 제1 인공신경망(ANN1)의 강화학습을 수행할 수 있다(S100).

제1 인공지능 모듈(200)은 제1 인공신경망(ANN1)의 강화학습이 완료된 이후, 제1 인공지능 모듈(200)이 제어 환경(100)의 센서(120)로부터 수신된 감지 정보를 제1 인공신경망(ANN1)에 적용하여 제어 명령을 결정할 수 있다(S110).

제1 인공지능 모듈(200)은 제어 환경(100)의 엑추에이터(140)가 제어 명령에 따라 제어 대상을 제어할 수 있도록 제어 명령을 엑추에이터(140)에 제공할 수 있다(S120).

이상에서 본 발명의 실시 예에 관하여 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양하게 변형 실시할 수 있을 것으로 이해된다.

100: 제어 환경
200: 제1 인공지능 모듈
300: 제2 인공지능 모듈

Claims

제2 인공지능 모듈이, 제어 환경으로부터 기저장된 실측 데이터를 제공받는 단계;
상기 제2 인공지능 모듈이, 상기 실측 데이터를 기초로 다층 퍼셉트론(multi layered perceptron)으로 구성된 제2 인공신경망의 가중치를 결정하여 상기 제2 인공신경망을 학습하는 단계;
상기 제2 인공지능 모듈이 상기 제2 인공신경망을 학습한 이후, 제1 인공지능 모듈이 상기 제2 인공신경망을 가상환경으로 이용하여 행동 정보에 대응하는 보상의 총합의 기대값을 최대화하는 정책을 결정하도록 제1 인공신경망의 강화학습을 수행하는 단계;
상기 제1 인공신경망의 강화학습이 완료된 이후, 상기 제1 인공지능 모듈이 상기 제어 환경의 센서로부터 수신된 감지 정보를 상기 제1 인공신경망에 적용하여 제어 명령을 결정하는 단계; 및
상기 제1 인공지능 모듈이, 상기 제어 환경의 엑추에이터가 상기 제어 명령에 따라 상기 제어 환경의 제어 대상을 제어할 수 있도록 상기 제어 명령을 상기 엑추에이터에 제공하는 단계를 포함하고,
상기 제1 인공신경망의 강화학습을 수행하는 단계는, Q-학습방법 및 정책 경사법 중 어느 하나를 평가기준으로 하여 상기 보상의 총합의 기대값을 최대화하는 정책을 결정하는 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.
삭제
삭제
제1항에 있어서,
상기 제2 인공신경망은 매트릭스 형태로 서로 연결된 복수의 노드로 구성되며, 상기 실측 데이터에 포함된 학습 데이터가 입력되는 입력층, 상기 입력층에 입력된 상기 학습 데이터에 가중치를 적용하는 은닉층, 및 상기 은닉층으로부터 출력된 값을 제어환경상태 예측결과로 결정하는 출력층을 포함하는 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.
제4항에 있어서,
상기 학습 데이터는 특정 시점에서 상기 제어 대상의 제어 환경 상태를 감지하여 생성된 감지 정보와 상기 감지 정보에 대응하여 각 제어 대상에 적용된 제어 명령을 포함하는 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.
제4항에 있어서,
상기 실측 데이터는 레이블 데이터를 더 포함하고,
상기 레이블 데이터는 특정 시점에서 상기 제어 대상에 제어 명령이 적용되고 일정 시간이 경과한 후에 측정된 상기 제어 환경의 상태 정보를 포함하는 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.
제1항에 있어서, 상기 제2 인공신경망을 학습하는 단계는,
상기 제2 인공지능 모듈이, 상기 실측 데이터에 포함된 학습 데이터를 기초로 제어환경상태 예측결과를 생성하는 순전파 과정을 수행하는 단계;
상기 순전파 과정을 통해 생성된 상기 제어환경상태 예측결과와 상기 실측 데이터에 포함된 레이블 데이터와의 차이인 에러값을 기초로 상기 제2 인공신경망의 가중치를 보정하는 역전파 과정을 수행하는 단계를 포함하는 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.
제7항에 있어서, 상기 역전파 과정을 수행하는 단계는,
상기 제어환경상태 예측결과와 상기 레이블 데이터를 비교하여 상기 제어환경상태 예측결과와 상기 레이블 데이터 사이의 차이가 임계값보다 큰 경우, 상기 차이가 상기 임계값 이내에 수렴하도록 상기 가중치를 보정하는 상기 역전파 과정을 수행하는 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.
제1항에 있어서, 상기 제1 인공신경망의 강화학습을 수행하는 단계는,
상기 제1 인공지능 모듈이, 상기 제2 인공지능 모듈에 정책에 따른 행동 정보를 제공하는 단계;
상기 제2 인공지능 모듈이, 상기 행동 정보를 상기 제2 인공신경망에 적용하여 상기 행동 정보에 대한 다음 상태와 보상을 계산하는 단계;
상기 제2 인공지능 모듈이 상기 다음 상태와 상기 보상을 상기 제1 인공지능 모듈에 제공하는 단계; 및
상기 제1 인공지능 모듈이 마르코프 결정 과정(markov decision process) 을 통해 상기 보상의 총합의 기대값을 최대화하는 정책을 결정하는 단계를 포함하는 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.
삭제
제1항에 있어서,
상기 Q-학습방법은 심층 Q-신경망(Deep Q-Networks)과 심층 이중 Q-신경망(Deep Double Q-Networks, DDQN) 중 어느 한 방법인 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.
삭제
제1항에 있어서,
상기 정책 경사법은 심층 결정론적 정책 경사법(Deep Deterministic Policy Gradient), 신뢰 영역 정책 최적화(Trust Region Policy Optimization), 근위 정책 최적화(Proximal Policy Optimization, PPO) 중 어느 한 방법인 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법.