KR102480521B1 - HEMS optimization method and device using reinforcement learning - Google Patents

HEMS optimization method and device using reinforcement learning Download PDF

Info

Publication number
KR102480521B1
KR102480521B1 KR1020200086814A KR20200086814A KR102480521B1 KR 102480521 B1 KR102480521 B1 KR 102480521B1 KR 1020200086814 A KR1020200086814 A KR 1020200086814A KR 20200086814 A KR20200086814 A KR 20200086814A KR 102480521 B1 KR102480521 B1 KR 102480521B1
Authority
KR
South Korea
Prior art keywords
air conditioner
agent
hems
temperature
current temperature
Prior art date
Application number
KR1020200086814A
Other languages
Korean (ko)
Other versions
KR20220008564A (en
Inventor
최대현
이상윤
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020200086814A priority Critical patent/KR102480521B1/en
Publication of KR20220008564A publication Critical patent/KR20220008564A/en
Application granted granted Critical
Publication of KR102480521B1 publication Critical patent/KR102480521B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/007Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
    • H02J3/0075Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/30Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
    • F24F11/46Improving electric energy efficiency or saving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2310/00The network for supplying or distributing electric power characterised by its spatial reach or by the load
    • H02J2310/10The network having a local or delimited stationary reach
    • H02J2310/12The local stationary network supplying a household or a building
    • H02J2310/14The load or loads being home appliances
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • Y02B70/3225Demand response systems, e.g. load shedding, peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/222Demand response systems, e.g. load shedding, peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/242Home appliances

Abstract

본 발명은 강화학습을 이용한 HEMS 최적화 장치 및 방법을 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하고, 상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하고, 상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하고, 상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 강화학습을 이용한 HEMS 최적화 장치가 제공된다. The present invention discloses an HEMS optimization apparatus and method using reinforcement learning. According to the present invention, it includes a processor and a memory connected to the processor, wherein the memory, based on a pre-learned artificial neural network, measures the indoor temperature at time t-1, the upper and lower limits of the user's preferred temperature and the time t. The current temperature is predicted using the predicted external temperature and the energy consumption of the air conditioner, the predicted current temperature is input to the Q-learning module for the air conditioner agent, and the Q-learning module acts according to the predicted current temperature. In case of outputting , a pair of states and actions according to the predicted current temperature are stored and updated in a Q-value table, and agents corresponding to the air conditioner agent, a device with an unblockable load, and a device with a load that can be blocked An HEMS optimization apparatus using reinforcement learning that stores program instructions executable by the processor to search for an optimal policy maximizing the sum of rewards according to each action is provided.

Description

강화학습을 이용한 HEMS 최적화 방법 및 장치{HEMS optimization method and device using reinforcement learning}HEMS optimization method and device using reinforcement learning {HEMS optimization method and device using reinforcement learning}

본 발명은 강화학습을 이용한 HEMS 최적화 방법 및 장치에 관한 것이다.The present invention relates to a HEMS optimization method and apparatus using reinforcement learning.

주거용 가구가 총 전기 소비량의 1/3을 차지함에 따라 홈 에너지 관리 시스템(Home Energy Management System: HEMS)은 에너지 관리를 위한 필수 기술이 되었다. With residential households accounting for one-third of total electricity consumption, Home Energy Management Systems (HEMS) have become an essential technology for energy management.

HEMS의 주목표는 스마트 가전기기(예를 들어, 에어컨 및 세탁기 등)의 최적 에너지 소비를 스케줄링하여 편안함을 보장하면서 전기 비용을 줄이는 것이다. The main goal of HEMS is to reduce electricity costs while ensuring comfort by scheduling optimal energy consumption for smart appliances (such as air conditioners and washing machines, for example).

최근에는 분산 에너지 자원(Distributed energy resource: DER, 예를 들어, 옥상 태양광 발전(roof solar photovoltaic: PV) 및 에너지 저장 시스템(Energy Storage System: ESS)), 스마트 계량기를 갖춘 고급 계량 인프라 및 수요 관리를 포함하는 스마트 그리드 기술로 인해 소비자는 더 많은 에너지를 절약할 수 있게 되었다. More recently, distributed energy resources (DERs), e.g., rooftop solar photovoltaic (PV) and energy storage systems (ESS), advanced metering infrastructure with smart meters, and demand management. Smart grid technologies, including

HEMS의 핵심 기술은 DER의 동작 스케줄링(충전/방전) 외에 스마트 가전기기의 경제적인 부하 감소 및 부하 시프팅을 수행하기 위해 사용되는 최적화 방안이다. The core technology of HEMS is an optimization method used to perform economical load reduction and load shifting of smart home appliances in addition to operation scheduling (charge/discharge) of DER.

그러나, 종래의 HEMS 최적화 알고리즘은 모델 기반으로 이루어지는데, 최근 증가하고 있는 스마트 가전기기를 포함하는 환경에서는 다소 적절한 솔루션을 제공하지 못하는 문제점이 있으며, 특히 에어컨의 최적 에너지 스케줄링이 이루어지지 못하는 문제점이 있다. However, the conventional HEMS optimization algorithm is made based on a model, but there is a problem of not providing a somewhat appropriate solution in an environment including recently increasing smart home appliances, and in particular, there is a problem that optimal energy scheduling of air conditioners is not achieved. .

대한민국공개특허공보 10-2015-0040894Korean Patent Publication No. 10-2015-0040894

상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 옥상 PV 시스템, ESS 및 스마트 가전기기를 고려하여 최적화된 솔루션을 제공할 수 있는 강화학습을 이용한 HEMS 최적화 방법 및 장치를 제안하고자 한다. In order to solve the problems of the prior art, the present invention proposes an HEMS optimization method and apparatus using reinforcement learning that can provide an optimized solution in consideration of a rooftop PV system, ESS, and smart home appliances.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 강화학습을 이용한 HEMS 최적화 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하고, 상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하고, 상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하고, 상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 강화학습을 이용한 HEMS 최적화 장치가 제공된다. In order to achieve the above object, according to an embodiment of the present invention, an HEMS optimization apparatus using reinforcement learning includes a processor; and a memory connected to the processor, wherein the memory includes an indoor temperature at time t-1, an upper/lower limit of a user's preferred temperature, an external temperature predicted at time t, and an air conditioner based on a pre-learned artificial neural network. If the current temperature is predicted using the energy consumption of , the predicted current temperature is input to the Q-learning module for the air conditioner agent, and the Q-learning module outputs an action according to the predicted current temperature, the prediction A pair of states and actions according to the current temperature are stored and updated in a Q-value table, and compensation according to each action of the agents corresponding to the air conditioner agent, a device with a load that cannot be blocked, and a device with a load that can be blocked An HEMS optimization apparatus using reinforcement learning that stores program instructions executable by the processor to search for an optimal policy that maximizes the sum of .

상기 차단 불가능 부하를 갖는 기기는 세탁기를 포함하며, 상기 차단 가능 부하를 갖는 기기는 에너지 저장 시스템을 포함할 수 있다. The device having the non-breakable load may include a washing machine, and the device having the interruptable load may include an energy storage system.

상기 세탁기의 에이전트는 온/오프 중 하나의 이진 행동을 수행하며, 상기 에어컨 및 에너지 저장 시스템의 에이전트는 단위 에너지 소비량의 차이를 갖는 복수의 레벨 중 하나의 행동을 수행할 수 있다. The agent of the washing machine may perform one binary action of on/off, and the agent of the air conditioner and energy storage system may perform one action of a plurality of levels having a difference in unit energy consumption.

상기 인공신경망은 상기 에어컨의 에너지 소비량이 상기 현재 실내 온도에 영향을 미치는 정도를 학습할 수 있다. The artificial neural network may learn how much energy consumption of the air conditioner affects the current indoor temperature.

상기 인공신경망은 복수의 뉴런을 갖는 하나의 입력 데이터 레이어, 복수의 뉴런을 갖는 복수의 히든 레이어 및 하나의 뉴런을 갖는 출력 레이어로 구성될 수 있다. The artificial neural network may be composed of one input data layer having a plurality of neurons, a plurality of hidden layers having a plurality of neurons, and an output layer having one neuron.

본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 강화학습 기반 홈 에너지 관리 시스템 최적화하는 방법으로서, 미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하는 단계; 상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하는 단계; 상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하는 단계; 및 상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하는 단계를 포함하는 강화학습 기반 홈 에너지 관리 시스템(HEMS) 최적화 방법이 제공된다. According to another aspect of the present invention, as a method for optimizing a reinforcement learning-based home energy management system in a device including a processor and a memory, based on a pre-learned artificial neural network, the indoor temperature at time t-1 and the user's preferred convenience temperature predicting a current temperature using upper/lower limits, external temperature predicted at time t, and energy consumption of the air conditioner; inputting the predicted current temperature to a Q-learning module for an air conditioner agent; storing and updating a pair of states and actions according to the predicted current temperature in a Q-value table when the Q-learning module outputs an action according to the predicted current temperature; and searching for an optimal policy maximizing the sum of rewards according to the actions of the air conditioner agent, a device having an unblockable load, and a device corresponding to a device having a blockable load. (HEMS) optimization method is provided.

본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다. According to another aspect of the present invention, a computer readable program for performing the method described above is provided.

본 발명에 따르면, 인공신경망을 통해 예측된 현재 온도를 Q-러닝 모듈에 입력하여 최적 정책을 결정하기 때문에 스마트 가전기기의 스케줄링 효율을 한층 높일 수 있는 장점이 있다. According to the present invention, since the current temperature predicted through the artificial neural network is input to the Q-learning module to determine the optimal policy, there is an advantage in that the scheduling efficiency of the smart home appliance can be further increased.

도 1은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 프레임워크를 도시한 도면이다.
도 2는 강화학습 과정을 설명하기 위한 도면이다.
도 3은 본 실시예에 따른 실내 온도 예측을 위한 인공신경망 모델 구성을 도시한 도면이다.
도 4는 본 실시예에 따른 HEMS 최적화 알고리즘을 도시한 도면이다.
도 5는 가전기기와 ESS를 최적으로 제어하기 위한 Q-러닝 및 ANN 기반 프레임워크를 도시한 도면이다.
도 6은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 최적화를 위한 장치의 구성을 도시한 도면이다.
1 is a diagram illustrating a reinforcement learning-based HEMS framework according to a preferred embodiment of the present invention.
2 is a diagram for explaining a reinforcement learning process.
3 is a diagram illustrating the configuration of an artificial neural network model for predicting indoor temperature according to the present embodiment.
4 is a diagram illustrating an HEMS optimization algorithm according to this embodiment.
5 is a diagram illustrating a Q-learning and ANN-based framework for optimally controlling a home appliance and an ESS.
6 is a diagram showing the configuration of an apparatus for HEMS optimization based on reinforcement learning according to a preferred embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.Since the present invention can make various changes and have various embodiments, specific embodiments are illustrated in the drawings and described in detail.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.

본 발명에서는 HEMS에 의해 자동적인 에너지 관리가 이루어지는 상황을 고려하며, HEMS는 시간대 사용(time-to-use: TOU) 요금에 따라 아래의 (가전)기기를 스케줄링하고 제어하는 것으로 가정한다. In the present invention, a situation in which automatic energy management is performed by HEMS is considered, and it is assumed that HEMS schedules and controls the following (home appliance) devices according to time-to-use (TOU) rates.

제어 가능 기기(

Figure 112020073114877-pat00001
): 제어 가능 기기는 HEMS에 의해 동작이 스케줄링되고 제어되는 기기이다. Controllable devices (
Figure 112020073114877-pat00001
): A controllable device is a device whose operation is scheduled and controlled by HEMS.

동작 특성은 줄일 수 있는 기기(

Figure 112020073114877-pat00002
)와 시프트 가능 기기(
Figure 112020073114877-pat00003
)로 분류된다. Devices whose operating characteristics can be reduced (
Figure 112020073114877-pat00002
) and shift-capable devices (
Figure 112020073114877-pat00003
) is classified as

예를 들어, 줄일 수 있는 기기는 에어컨과 같이 전기 비용을 줄이기 위해 에너지 소비를 줄일 수 있는 기기이다. For example, devices that can be reduced are devices that can reduce energy consumption to reduce electricity costs, such as air conditioners.

그러나, TOU 가격 책정 체계에 따라 시프트 가능 기기의 에너지 소비를 다른 시간대로 변경하여 총 전기 비용을 최소화할 수 있다. However, according to the TOU pricing scheme, the energy consumption of shift-capable devices can be shifted to different time zones to minimize the total cost of electricity.

시프트 가능 기기는 두 가지 부하 유형으로 구분된다. Shift-capable devices are divided into two load types.

첫째는 차단 불가능 부하(non-interruptible load,

Figure 112020073114877-pat00004
) 및 차단 가능 부하(interruptible load,
Figure 112020073114877-pat00005
)이다. First, non-interruptible load,
Figure 112020073114877-pat00004
) and interruptible load,
Figure 112020073114877-pat00005
)to be.

기기의 태스크 기간 동안 차단 불가능 부하를 갖는 시프트 가능 기기의 동작은 HEMS 제어에 의해 중단되지 않아야 하며, 세탁기는 건조 건에 세탁을 완료해야만 한다. During the machine's task period, the operation of the shiftable machine with non-blockable load must not be interrupted by the HEMS control, and the washing machine must complete washing to the drying gun.

차단 가능 부하를 갖는 시프트 가능 기기는 언제든지 동작이 중단될 수 있다. A shift-capable machine with a breakable load may cease operation at any time.

예를 들어, PV 생성 출력이 부하 요구보다 클 때, HEMS는 방전 과정을 중단하고, 즉시 ESS의 충전을 개시해야만 한다. For example, when the PV generated output is greater than the load demand, the HEMS must stop the discharging process and immediately start charging the ESS.

한편, 제어 불가능 기기(

Figure 112020073114877-pat00006
)는 TV, PC 또는 조명과 같이 HEMS에 의해 스케줄링되지 않는 기기이다. 따라서,
Figure 112020073114877-pat00007
는 고정된 에너지 소비 스케줄링을 유지한다. On the other hand, uncontrollable devices (
Figure 112020073114877-pat00006
) is a device that is not scheduled by HEMS, such as a TV, PC, or lighting. thus,
Figure 112020073114877-pat00007
maintains fixed energy consumption scheduling.

이하에서는 종래의 HEMS 최적화 알고리즘을 우선 설명하고, 본 실시예에 따른 강화학습 기반 HEMS 최적화 알고리즘을 구체적으로 설명한다. Hereinafter, the conventional HEMS optimization algorithm will be first described, and the reinforcement learning-based HEMS optimization algorithm according to this embodiment will be described in detail.

수학식 1과 같이, HEMS 최적화 문제를 위한 목적 함수는 2 부분으로 구성되고, 각각은 다른 결정 변수

Figure 112020073114877-pat00008
를 포함한다. As shown in Equation 1, the objective function for the HEMS optimization problem consists of two parts, each with a different decision variable.
Figure 112020073114877-pat00008
includes

Figure 112020073114877-pat00009
Figure 112020073114877-pat00009

여기서,

Figure 112020073114877-pat00010
는 TOU 가격
Figure 112020073114877-pat00011
및 시간 t에서 순 에너지 소비량에 따른 전체 에너지 비용이다. here,
Figure 112020073114877-pat00010
is the TOU price
Figure 112020073114877-pat00011
and total energy cost as a function of net energy consumption at time t.

또한,

Figure 112020073114877-pat00012
은 제어 가능 기기/제어 불가능 기기의 에너지 소비 및 예측된 PV 생성 출력에 관하여 기재된다. Also,
Figure 112020073114877-pat00012
is described in terms of energy consumption and predicted PV generated output of controllable/uncontrollable devices.

Figure 112020073114877-pat00013
는 소비자 불편 비용과 관련된 총 패널티 상수이다.
Figure 112020073114877-pat00013
is the total penalty constant associated with consumer inconvenience costs.

불편은 실내 온도

Figure 112020073114877-pat00014
로부터 원하는 소비자 온도
Figure 112020073114877-pat00015
와의 차이를 의미한다. Discomfort at room temperature
Figure 112020073114877-pat00014
Desired consumer temperature from
Figure 112020073114877-pat00015
means the difference between

Figure 112020073114877-pat00016
는 소비자 불편 비용에 대한 패널티 기간이다.
Figure 112020073114877-pat00016
is the penalty period for consumer inconvenience costs.

Figure 112020073114877-pat00017
는 소비자의 전기 요금을 희생하여 소비자의 선호 편의 수준을 만족시키기 위해 HEMS 운영자에 의해 결정될 수 있다
Figure 112020073114877-pat00017
may be determined by the HEMS operator to satisfy the consumer's preferred convenience level at the expense of the consumer's electricity bill.

이하에서는 HEMS 최적화 문제에 대한 등식 및 불평등 제약 조건을 설명한다. In the following, equations and inequality constraints for the HEMS optimization problem are described.

수학식 2는 순 에너지 소비량에 대한 제약으로, 즉 모든 기기의 총 소비량

Figure 112020073114877-pat00018
와 예측된 PV 생성 출력
Figure 112020073114877-pat00019
의 차이이다. Equation 2 is a constraint on the net energy consumption, i.e. the total consumption of all devices
Figure 112020073114877-pat00018
and the predicted PV generated output
Figure 112020073114877-pat00019
is the difference between

수학식 3에서, 모든 기기의 총 소비량은 줄일 수 있는 기기, 차단 불가능 부하를 갖는 시프트 가능 기기, 차단 가능 부하를 갖는 시프트 가능 기기 및 제어 불가능 기기를 포함하는 4개의 상이한 유형의 기기로 나눌 수 있다. In Equation 3, the total consumption of all devices can be divided into four different types of devices, including reduceable devices, shiftable devices with non-blockable loads, shiftable devices with breakable loads, and non-controllable devices. .

Figure 112020073114877-pat00020
Figure 112020073114877-pat00020

Figure 112020073114877-pat00021
Figure 112020073114877-pat00021

줄일 수 있는 기기(예를 들어, 에어컨)에 대해, 수학식 4는

Figure 112020073114877-pat00022
에서의, 실내 온도(
Figure 112020073114877-pat00023
), 외부 온도(
Figure 112020073114877-pat00024
), 기기의 에너지 소비량 및 내부 열적 조건을 나타내는 환경 파라미터
Figure 112020073114877-pat00025
로 표현되는 시간 t
Figure 112020073114877-pat00026
에서의 온도 역학에 대한 제약을 나타낸다. For devices that can be reduced (eg air conditioners), Equation 4 is
Figure 112020073114877-pat00022
at room temperature (
Figure 112020073114877-pat00023
), external temperature (
Figure 112020073114877-pat00024
), environmental parameters representing the energy consumption and internal thermal conditions of the device
Figure 112020073114877-pat00025
time expressed as t
Figure 112020073114877-pat00026
represents a constraint on the temperature dynamics at

수학식 5는 소비자가 원하는 실내 온도의 범위의 상한과 하한을 나타내고, 수학식 6은 줄일 수 있는 기기에 대한 에너지 소비 용량이

Figure 112020073114877-pat00027
Figure 112020073114877-pat00028
로 제한되는 것을 나타낸다. Equation 5 represents the upper and lower limits of the indoor temperature range desired by the consumer, and Equation 6 shows the energy consumption capacity of the device that can be reduced.
Figure 112020073114877-pat00027
and
Figure 112020073114877-pat00028
indicates that it is limited to

Figure 112020073114877-pat00029
Figure 112020073114877-pat00029

Figure 112020073114877-pat00030
Figure 112020073114877-pat00030

Figure 112020073114877-pat00031
Figure 112020073114877-pat00031

수학식 7 내지 9는 다음과 같은 이진 결정 변수

Figure 112020073114877-pat00032
를 갖는 세탁기와 같이 차단 불가능 부하를 갖는 시프트 가능 기기의 선호 동작을 보장한다.Equations 7 to 9 are binary decision variables
Figure 112020073114877-pat00032
Ensures preferred operation of shiftable appliances with non-breakable loads, such as washing machines with

(i) 수학식 7에서

Figure 112020073114877-pat00033
Figure 112020073114877-pat00034
는 소비자가 원하는 시작 시간 및 종료시간인 정지 기간 동안, (ii) 수학식 8에서 하루 중 동작 기간
Figure 112020073114877-pat00035
시간 동안, (iii) 수학식 9에서
Figure 112020073114877-pat00036
시간의 연속 동작 기간 동안 (i) in Equation 7
Figure 112020073114877-pat00033
Wow
Figure 112020073114877-pat00034
During the stop period, which is the start time and end time desired by the consumer, (ii) the operation period of the day in Equation 8
Figure 112020073114877-pat00035
For time, (iii) in Equation 9
Figure 112020073114877-pat00036
over a period of continuous operation of time

수학식 10에서 차단 불가능 부하를 가는 시프트 가능 기기의 에너지 소비 용량은

Figure 112020073114877-pat00037
이다. In Equation 10, the energy consumption capacity of a shiftable device with a non-blockable load is
Figure 112020073114877-pat00037
to be.

Figure 112020073114877-pat00038
Figure 112020073114877-pat00038

Figure 112020073114877-pat00039
Figure 112020073114877-pat00039

Figure 112020073114877-pat00040
Figure 112020073114877-pat00040

Figure 112020073114877-pat00041
Figure 112020073114877-pat00041

수학식 11은 현재 시간(t)에서 ESS

Figure 112020073114877-pat00042
에 대한 에너지 상태(SOE)의 동역학을 이전 시간(t-1)에서의 SOE로 나타낸 것이고, 충전 및 방전 효율은
Figure 112020073114877-pat00043
,
Figure 112020073114877-pat00044
, 충방전 에너지는
Figure 112020073114877-pat00045
Figure 112020073114877-pat00046
이다. Equation 11 is the ESS at the current time (t)
Figure 112020073114877-pat00042
The dynamics of the energy state (SOE) for is represented by the SOE at the previous time (t-1), and the charging and discharging efficiency is
Figure 112020073114877-pat00043
,
Figure 112020073114877-pat00044
, the charge and discharge energy is
Figure 112020073114877-pat00045
and
Figure 112020073114877-pat00046
to be.

수학식 12는

Figure 112020073114877-pat00047
Figure 112020073114877-pat00048
를 갖는 SOE 용량 제약을 나타낸다. Equation 12 is
Figure 112020073114877-pat00047
and
Figure 112020073114877-pat00048
Represents the SOE capacity constraint with .

수학식 13 및 14는 각각 ESS의 충전 및 방전 에너지에 대한 제약을 나타내고, 여기서,

Figure 112020073114877-pat00049
는 ESS 온/오프를 결정하는 이진 변수이다. Equations 13 and 14 represent constraints on the charging and discharging energy of the ESS, respectively, where
Figure 112020073114877-pat00049
Is a binary variable that determines ESS on/off.

Figure 112020073114877-pat00050
Figure 112020073114877-pat00050

Figure 112020073114877-pat00051
Figure 112020073114877-pat00051

Figure 112020073114877-pat00052
Figure 112020073114877-pat00052

Figure 112020073114877-pat00053
Figure 112020073114877-pat00053

마지막으로 MINLP(mixed integer nonlinear programming) 기반 HEMS 최적화 문제는 다음과 같은 비선형 목적 함수

Figure 112020073114877-pat00054
의 선형화를 통해 MILP 최적화 문제로 변환될 수 있다. Finally, the mixed integer nonlinear programming (MINLP) based HEMS optimization problem has the following nonlinear objective function
Figure 112020073114877-pat00054
It can be converted to a MILP optimization problem through linearization of

Figure 112020073114877-pat00055
Figure 112020073114877-pat00055

Figure 112020073114877-pat00056
Figure 112020073114877-pat00056

Figure 112020073114877-pat00057
Figure 112020073114877-pat00057

이하에서는 본 실시예에 따른 강화학습 및 인공지능 기반 HEMS 최적화 알고리즘을 상세하게 설명한다. Hereinafter, the HEMS optimization algorithm based on reinforcement learning and artificial intelligence according to the present embodiment will be described in detail.

도 1은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 프레임워크를 도시한 도면이다. 1 is a diagram illustrating a reinforcement learning-based HEMS framework according to a preferred embodiment of the present invention.

도 1에 도시된 바와 같이, 본 실시예에 따른 강화학습 기반 HEMS(RL-Based HEMS)는 전력 공급 회사의 TOU 요금 정책, 기상청의 날씨정보(예를 들어, 외부 온도) 및 소비자의 편의 수준 및 PV 등을 고려하여 강화학습 기법 중 Q-러닝 기법을 이용하여 에어컨(AC), 세탁기(WM) 및 ESS의 동작을 스케줄링한다. As shown in FIG. 1, the reinforcement learning-based HEMS (RL-Based HEMS) according to this embodiment is based on the power supply company's TOU rate policy, weather information (eg, outside temperature) of the Korea Meteorological Administration, and consumer's convenience level and Considering PV, Q-learning among reinforcement learning techniques is used to schedule the operation of the air conditioner (AC), washing machine (WM), and ESS.

또한, AC의 동작을 스케줄링함에 있어 최적 온도를 결정하기 위해 인공신경망(ANN)을 이용하며, 이에 대해서는 다시 상술할 것이다. In addition, in scheduling the operation of the AC, an artificial neural network (ANN) is used to determine the optimum temperature, which will be described in detail again.

강화학습 기반 HEMS 최적화 알고리즘의 설명에 앞서 강화학습에 대해 상세하게 설명한다. Prior to the description of the reinforcement learning-based HEMS optimization algorithm, reinforcement learning will be explained in detail.

강화학습은 비결정적 환경에서 최적의 의사 결정을 위한 머신러닝 기법 중 하나이다. Reinforcement learning is one of the machine learning techniques for optimal decision-making in a non-deterministic environment.

도 2는 강화학습 과정을 설명하기 위한 도면이다. 2 is a diagram for explaining a reinforcement learning process.

도 2를 참조하면, 에이전트가 환경과 상호작용하는 동안 에이전트는 환경 상태(state)에 의존하는 행동(action) 유형을 학습하고 학습된 행동을 환경으로 보낸다. Referring to FIG. 2, while the agent interacts with the environment, the agent learns an action type dependent on the state of the environment and sends the learned action to the environment.

그런 다음 환경은 새로운 환경 상태와 함께 보상을 에이전트로 반환한다. The environment then returns the reward to the agent along with the new environment state.

이러한 학습 프로세스는 에이전트가 환경으로부터 받은 총 누적 보상을 최대화할때까지 계속된다. This learning process continues until the agent maximizes the total cumulative reward received from the environment.

정책은 에이전트가 특정 상태에서 행동하는 방식으로 정의되며, 에이전트의 주요 목표는 보상을 최대화하는 최적의 정책을 결정하는 것이다. A policy is defined by how an agent behaves in a particular state, and the agent's main goal is to determine the optimal policy that maximizes the reward.

본 실시예에서는 환경이 에이전트 상태 변이가 모든 과거 상태 및 행동을 고려하지 않고 현재 상태에서 선택된 행동과 함께 현재 상태에만 의존하는 마코브 의사 결정 프로세스에 의해 설명된다고 가정한다. In this embodiment, it is assumed that the environment is described by a Markov decision-making process in which agent state transitions do not consider all past states and actions, but rely only on the current state, with actions selected in the current state.

Q-러닝은 의사 결정 문제의 최적 정책

Figure 112020073114877-pat00058
를 결정하기 위한 대표적인 강화학습 기법 중 하나이다. Q-learning is an optimal policy for decision-making problems.
Figure 112020073114877-pat00058
It is one of the representative reinforcement learning techniques for determining .

Q-러닝의 일반적인 프로세스는 다음과 같은 Bellman 식을 사용하여 시간 t에서 한 쌍의 상태

Figure 112020073114877-pat00059
와 행동
Figure 112020073114877-pat00060
의 Q-값(
Figure 112020073114877-pat00061
)을 계산하고, 총 보상을 최대화하는 방향으로 Q-값을 업데이트한다. The general process of Q-learning is to compute a pair of states at time t using the Bellman equation
Figure 112020073114877-pat00059
and act
Figure 112020073114877-pat00060
Q-value of (
Figure 112020073114877-pat00061
), and update the Q-value in the direction that maximizes the total reward.

Figure 112020073114877-pat00062
Figure 112020073114877-pat00062

수학식 18에서, 최적 정책

Figure 112020073114877-pat00063
에 기초하여 최적 Q-값(
Figure 112020073114877-pat00064
)은 현재 보상
Figure 112020073114877-pat00065
및 디스카운트된 최대 미래 보상
Figure 112020073114877-pat00066
의 합에 의해 얻어지며, 여기서,
Figure 112020073114877-pat00067
는 현재 및 미래 보상의 상대적 중요도를 설명하는 디스카운트 팩터를 나타낸다. In Equation 18, the optimal policy
Figure 112020073114877-pat00063
Based on the optimal Q-value (
Figure 112020073114877-pat00064
) is the current reward
Figure 112020073114877-pat00065
and discounted maximum future compensation
Figure 112020073114877-pat00066
It is obtained by the sum of , where
Figure 112020073114877-pat00067
represents a discount factor describing the relative importance of current and future rewards.

디스카운트 팩터

Figure 112020073114877-pat00068
가 감소함에 따라 에이전트는 현재 보상에 점점 더 집중하기 때문에 근시안적으로 된다. 그러나, 더 큰
Figure 112020073114877-pat00069
를 사용하면, 에이전트를 향후 보상에 점점 더 집중할 수 있어 원시안적으로 된다. 현재와 미래의 보상의 균형을 맞추기 위해
Figure 112020073114877-pat00070
값은 Q-러닝을 이용하여 시스템 운영자에 의해 조정될 수 있다. discount factor
Figure 112020073114877-pat00068
As β decreases, the agent becomes myopic because it focuses more and more on the current reward. However, larger
Figure 112020073114877-pat00069
, the agent becomes more and more far-sighted as it can focus more and more on future rewards. To balance present and future rewards
Figure 112020073114877-pat00070
The value can be adjusted by the system operator using Q-learning.

Q-값(

Figure 112020073114877-pat00071
)이 시간 t에서 한 쌍의 상태 및 행동에 따라 업데이트 될 때마다,
Figure 112020073114877-pat00072
는 상태-행동 테이블, 즉 Q-값 테이블에 저장된다. Q-value (
Figure 112020073114877-pat00071
) is updated according to the state and behavior of a pair at time t,
Figure 112020073114877-pat00072
is stored in a state-action table, i.e., a Q-value table.

에이전트는 매 시간 t에서 Q-값 테이블을 이용하여 자신의 행동을 선택하고, 선택된 한 쌍의 상태 및 행동과 연관되는 Q-값 테이블 내에 각 요소(Q-값)은 다음 Bellman 식을 통해 업데이트된다. The agent selects its own action using the Q-value table at every time t, and each element (Q-value) in the Q-value table associated with the selected pair of states and actions is updated through the following Bellman equation: .

Figure 112020073114877-pat00073
Figure 112020073114877-pat00073

수학식 19에서,

Figure 112020073114877-pat00074
는 새로운 Q-값이 기존 Q-값을 재정의하는 정도를 결정하는 학습 속도를 나타낸다. In Equation 19,
Figure 112020073114877-pat00074
denotes the learning rate that determines the degree to which a new Q-value overrides an existing Q-value.

Figure 112020073114877-pat00075
에서 에이전트는 아무것도 학습하지 않고 Q-러닝 프로세스의 탐험(exploration) 없이 과거 Q-값만을 사용한다.
Figure 112020073114877-pat00075
In , the agent learns nothing and uses only past Q-values without exploration of the Q-learning process.

그러나,

Figure 112020073114877-pat00076
에서 에이전트는 현재 보상 및 탐사(exploitation) 없이 디스카운트된 최대 미래 보상만 사용하여 Q-값을 업데이트한다. however,
Figure 112020073114877-pat00076
At , the agent updates the Q-value using only the current reward and the discounted maximum future reward without exploration.

디스카운트 팩터

Figure 112020073114877-pat00077
의 선택과 유사하게, 탐험과 탐사 사이의 트레이드오프는 0 내지 1 범위 내에서 시스템 운영자에 의해 결정될 수 있다. discount factor
Figure 112020073114877-pat00077
Similar to the choice of , the tradeoff between exploration and exploration can be determined by the system operator in the range of 0 to 1.

마지막으로 수학식 19를 이용하여

Figure 112020073114877-pat00078
를 반복적인 방식으로 업데이트 함으로써 Q-값은 점점 커지고, 에이전트는 다음과 같이 가장 큰 Q-값을 갖는 최적 정책
Figure 112020073114877-pat00079
를 얻게 된다. Finally, using Equation 19
Figure 112020073114877-pat00078
By updating in an iterative way, the Q-value gradually increases, and the agent selects the optimal policy with the largest Q-value as
Figure 112020073114877-pat00079
will get

Figure 112020073114877-pat00080
Figure 112020073114877-pat00080

본 발명의 일 실시예에 따르면, 상기에서 언급한 Q-러닝 방법을 개별 기기(에어컨, 세탁기 또는 ESS)에 적용하여 PV 시스템 및 ESS가 있는 스마트홈 기기의 최적의 동작 스케줄을 계산하고, 결과적으로 본 실시예에 따른 최적화 기법에 의해 소비자 선호 기기 스케줄링 및 편의 수준 내에서 소비자의 전기 요금을 감소시킬 수 있다. According to one embodiment of the present invention, the above-mentioned Q-learning method is applied to individual devices (air conditioners, washing machines or ESSs) to calculate the optimal operation schedule of smart home devices with PV systems and ESSs, and as a result The optimization technique according to the present embodiment can reduce the consumer's electricity bill within the consumer's preferred device scheduling and convenience level.

이하에서는 본 실시예에 따른 Q-러닝 기반 HEMS 최적화에서의 상태, 행동 및 보상에 대해 상세하게 설명한다. Hereinafter, states, actions, and rewards in the Q-learning-based HEMS optimization according to the present embodiment will be described in detail.

본 실시예에 따른 Q-러닝 알고리즘은 1시간의 스케줄링 해상도로 24시간 동안 실행되는 상황을 고려한다. The Q-learning algorithm according to this embodiment considers a situation in which it runs for 24 hours with a scheduling resolution of 1 hour.

Figure 112020073114877-pat00081
에서, 세탁기(WM), 에어컨(AC) 및 ESS의 상태 공간(state space)은 각각 다음과 같이 표현된다.
Figure 112020073114877-pat00081
In , the state spaces of the washing machine (WM), air conditioner (AC) and ESS are respectively expressed as follows.

Figure 112020073114877-pat00082
Figure 112020073114877-pat00082

여기서, 상태

Figure 112020073114877-pat00083
는 시간 t에서 WM, AC의 에너지 소비량이고
Figure 112020073114877-pat00084
는 ESS의 SOE를 나타낸다. Here, state
Figure 112020073114877-pat00083
is the energy consumption of WM and AC at time t,
Figure 112020073114877-pat00084
represents the SOE of the ESS.

각 기기에 대한 최적 행동은 상기한 바와 같이 현재 상태를 포함하여 에이전트의 환경에 따라 달라진다. The optimal action for each device depends on the agent's environment, including the current state, as described above.

WM, AC 및 ESS의 행동 공간(action space)은 다음과 같다. The action space of WM, AC and ESS is as follows.

Figure 112020073114877-pat00085
Figure 112020073114877-pat00085

Figure 112020073114877-pat00086
Figure 112020073114877-pat00086

Figure 112020073114877-pat00087
Figure 112020073114877-pat00087

수학식 22에서 세탁기 에이전트는 이진 행동을 수행한다. "ON" 행동에서 세탁기 에이전트는 세탁기를 켜고, 세탁기는 일정한 에너지(

Figure 112020073114877-pat00088
)를 소비한다. 반면, "OFF" 행동에서 세탁기 에이전트는 세탁기를 끈다. 에어컨 에이전트의 행동은 수학식 23과 같이 복수의 레벨(예를 들어, 10 레벨)의 에너지 소비량으로 구분된다. 여기서,
Figure 112020073114877-pat00089
는 에어컨의 단위 에너지 소비량을 나타낸다. In Equation 22, the washing machine agent performs a binary action. In "ON" action, the washing machine agent turns on the washing machine, and the washing machine has constant energy (
Figure 112020073114877-pat00088
) is consumed. On the other hand, in the "OFF" action, the washing machine agent turns off the washing machine. The behavior of the air conditioner agent is divided into a plurality of levels (eg, 10 levels) of energy consumption as shown in Equation 23. here,
Figure 112020073114877-pat00089
represents the unit energy consumption of the air conditioner.

에어컨과 비슷하게, ESS 에이전트도 수학식 24와 같이

Figure 112020073114877-pat00090
의 단위로 복수의 셋으로 구분된다. Similar to the air conditioner, the ESS agent is also
Figure 112020073114877-pat00090
It is divided into a plurality of sets in units of .

이들 구분된 행동들은 각각

Figure 112020073114877-pat00091
Figure 112020073114877-pat00092
와 같이 충전 및 방전 행동으로 분류된다. Each of these distinct actions
Figure 112020073114877-pat00091
Wow
Figure 112020073114877-pat00092
It is classified into charging and discharging behavior as

본 실시예에 따른 강화학습 기반 HEMS 최적화 알고리즘은 24시간 동안 기기의 시간별 에너지 스케줄링을 계산한다. The reinforcement learning-based HEMS optimization algorithm according to the present embodiment calculates hourly energy scheduling of the device for 24 hours.

상기한 바와 같이 주어진 상태 및 행동에 따라, WM, AC 및 ESS 에이전트의 Q-값 테이블은

Figure 112020073114877-pat00093
,
Figure 112020073114877-pat00094
Figure 112020073114877-pat00095
행렬을 사용하여 설명되고,
Figure 112020073114877-pat00096
,
Figure 112020073114877-pat00097
,
Figure 112020073114877-pat00098
Figure 112020073114877-pat00099
이다. As described above, for a given state and behavior, the Q-value tables of WM, AC, and ESS agents are
Figure 112020073114877-pat00093
,
Figure 112020073114877-pat00094
and
Figure 112020073114877-pat00095
described using matrices,
Figure 112020073114877-pat00096
,
Figure 112020073114877-pat00097
,
Figure 112020073114877-pat00098
and
Figure 112020073114877-pat00099
to be.

여기서,

Figure 112020073114877-pat00100
는 집합 A의 카디널리티(cardinality)이다. here,
Figure 112020073114877-pat00100
is the cardinality of set A.

각 기기 에이전트에 대한 보상 함수는 소비자 선호 편의 및 기기 동작 특성과 관련된 음(negative) 전기 비용 및 음의 불만족 비용의 합으로 공식화된다. The reward function for each appliance agent is formulated as the sum of the negative electricity cost and the negative dissatisfaction cost related to consumer preference convenience and appliance operating characteristics.

HEMS에 대한 종합 보상(comprehensive reward)

Figure 112020073114877-pat00101
은 다음과 같이 정의된다. Comprehensive reward for HEMS
Figure 112020073114877-pat00101
is defined as:

Figure 112020073114877-pat00102
Figure 112020073114877-pat00102

수학식 25에서, 세 개의 보상 함수

Figure 112020073114877-pat00103
,
Figure 112020073114877-pat00104
Figure 112020073114877-pat00105
는 다음과 같은 관점에서 HEMS 성능을 평가하는 것을 목표로 한다. In Equation 25, the three reward functions
Figure 112020073114877-pat00103
,
Figure 112020073114877-pat00104
and
Figure 112020073114877-pat00105
aims to evaluate HEMS performance from the following perspectives.

(i) WM의 전기 비용 및 소비자가 원치 않는 동작에 따른 패널티(i) WM's electricity costs and penalties for undesirable behavior by consumers;

(ii) AC의 전기 비용 및 소비자의 열적 불편에 따른 패널티(ii) Penalties for AC electricity costs and thermal discomfort for consumers

(iii) ESS의 과충전(overcharging) 및 부족충전(undercharging)에 따른 전기 비용 및 에너지 부족에 따른 패널티(iii) Penalty due to electricity cost and energy shortage due to overcharging and undercharging of ESS

마지막으로 WM 에이전트에 대한 보상 함수는 다음과 같이 표현된다. Finally, the reward function for the WM agent is expressed as

Figure 112020073114877-pat00106
Figure 112020073114877-pat00106

여기서,

Figure 112020073114877-pat00107
Figure 112020073114877-pat00108
는 각각 WM의 소비자 선호 시작 및 종료 시간이고,
Figure 112020073114877-pat00109
Figure 112020073114877-pat00110
는 선호 동작 시간 간격과 비교하여 이른 동작 및 늦은 동작에 대한 패널티이다. here,
Figure 112020073114877-pat00107
and
Figure 112020073114877-pat00108
are the consumer preferred start and end times of WM, respectively,
Figure 112020073114877-pat00109
and
Figure 112020073114877-pat00110
is a penalty for early and late actions compared to the preferred action time interval.

WM 에이전트가

Figure 112020073114877-pat00111
이전 또는
Figure 112020073114877-pat00112
이후에 WM 에너지 소비를 스케줄링하면 불만족 비용이 보상 함수에 음수 값으로 추가된다. WM agent
Figure 112020073114877-pat00111
before or
Figure 112020073114877-pat00112
When scheduling WM energy consumption later, the cost of dissatisfaction is added as a negative value to the compensation function.

그렇지 않으면 보상 함수에는 음의 전기 비용만 추가된다. Otherwise, only negative electricity costs are added to the compensation function.

AC 에이전트의 보상 함수는 다음과 같다. The reward function of the AC agent is

Figure 112020073114877-pat00113
Figure 112020073114877-pat00113

Figure 112020073114877-pat00114
는 소비자 열적 불편함에 대한 패널티이다.
Figure 112020073114877-pat00114
is the penalty for consumer thermal discomfort.

불만족 비용은 소비자 선호 온도

Figure 112020073114877-pat00115
Figure 112020073114877-pat00116
Figure 112020073114877-pat00117
의 차이로 정의되며,
Figure 112020073114877-pat00118
Figure 112020073114877-pat00119
Figure 112020073114877-pat00120
의 범위를 벗어난 경우에만 음의 부호가 있는 보상으로 간주된다. The cost of dissatisfaction is the consumer preference temperature
Figure 112020073114877-pat00115
Wow
Figure 112020073114877-pat00116
and
Figure 112020073114877-pat00117
is defined as the difference between
Figure 112020073114877-pat00118
go
Figure 112020073114877-pat00119
and
Figure 112020073114877-pat00120
Only if it is outside the range of , it is regarded as a compensation with a negative sign.

마지막으로 ESS 에이전트의 보상 함수는 다음과 같이 음의 전기 비용과 음의 에너지 부족 이용(underutilization) 비용으로 구성된다. Finally, the compensation function of the ESS agent consists of negative electricity cost and negative energy underutilization cost as follows.

Figure 112020073114877-pat00121
Figure 112020073114877-pat00121

Figure 112020073114877-pat00122
Figure 112020073114877-pat00123
는 ESS 과충전 및 부족충전에 대한 패널티이다. 이러한 경우, ESS의 에너지 부족 이용은 SOE가
Figure 112020073114877-pat00124
보다 낮거나(부족충전) 또는
Figure 112020073114877-pat00125
(과충전)보다 커지면 발생하고, ESS의 에너지 부족 이용 중에 에너지 비용과 함께 보상에 반영된다.
Figure 112020073114877-pat00122
Wow
Figure 112020073114877-pat00123
is a penalty for ESS overcharging and undercharging. In this case, the ESS's use of the energy deficit is the SOE's
Figure 112020073114877-pat00124
less than (undercharged) or
Figure 112020073114877-pat00125
It occurs when it exceeds (overcharge), and is reflected in compensation along with energy cost during energy shortage use of ESS.

본 실시예에서는 HEMS가 소비자가 선호하는 열적 조건에 따라 실내 및 실외 온도를 기준으로 에어컨의 에너지 소비를 스케줄링하는 상황을 고려한다. This embodiment considers a situation in which HEMS schedules the energy consumption of air conditioners based on indoor and outdoor temperatures according to thermal conditions preferred by consumers.

통상적으로 HEMS는 이전 실내 온도 및 현재 실외 온도, 에어컨 에너지 소비와 관련하여 수학식 4와 같은 근사모델(즉, the equivalent thermal parameters (ETP) model)을 이용하여 현재 실내 온도를 계산한다. Typically, HEMS calculates the current indoor temperature using an approximate model (ie, the equivalent thermal parameters (ETP) model) as shown in Equation 4 in relation to the previous indoor temperature, current outdoor temperature, and air conditioner energy consumption.

이에 비해, 본 실시예에서는 에어컨의 에너지 소비와 관련하여 실내 온도를 예측하기 위한 ANN(Artificial Neural Network) 기반 방법을 제안한다. In contrast, this embodiment proposes an Artificial Neural Network (ANN)-based method for predicting the indoor temperature in relation to the energy consumption of the air conditioner.

본 실시예에 따른 ANN 모델에서, AC 에이전트는 AC의 에너지 소비량이 현재 실내 온도에 영향을 미치는 정도를 학습하며, 이는 다음과 같이 실내 온도와 AC 에너지 소비 사이의 관계를 나타내는 함수 f의 추정을 의미한다. In the ANN model according to this embodiment, the AC agent learns the extent to which the energy consumption of AC affects the current indoor temperature, which means estimation of the function f representing the relationship between indoor temperature and AC energy consumption as follows do.

Figure 112020073114877-pat00126
Figure 112020073114877-pat00126

여기서,

Figure 112020073114877-pat00127
는 이전 실내 온도
Figure 112020073114877-pat00128
, 사용자 선호 실내 열적 조건
Figure 112020073114877-pat00129
, 일기 예보(
Figure 112020073114877-pat00130
) 및 AC 에너지 소비량
Figure 112020073114877-pat00131
과 같은 입력 데이터와 예측된 현재 실내 온도에 대한 출력 사이의 관계를 설명하기 위한 근사화된 함수이다. here,
Figure 112020073114877-pat00127
is the previous room temperature
Figure 112020073114877-pat00128
, user-preferred indoor thermal conditions
Figure 112020073114877-pat00129
, weather forecast (
Figure 112020073114877-pat00130
) and AC energy consumption
Figure 112020073114877-pat00131
It is an approximated function for explaining the relationship between input data such as <RTI ID=0.0>and</RTI>

도 3에 도시된 바와 같이, 본 실시예에 따른 ANN 모델은 5개의 뉴런을 갖는 하나의 입력 데이터 레이어, 17개의 뉴런을 갖는 3개의 히든 레이어 및 1개의 뉴런을 갖는 출력 레이어로 구성된다. As shown in FIG. 3, the ANN model according to this embodiment is composed of one input data layer with 5 neurons, 3 hidden layers with 17 neurons, and an output layer with 1 neuron.

각 레이어는 가중치

Figure 112020073114877-pat00132
를 통해 입력 벡터의 가중합과 고정 바이어스
Figure 112020073114877-pat00133
를 계산하고, 가중합은 전달 합수를 통해 다음 레이어로 전달된다. Each layer is weighted
Figure 112020073114877-pat00132
The weighted sum of the input vectors and the fixed bias
Figure 112020073114877-pat00133
is calculated, and the weighted sum is passed to the next layer through the transfer function.

본 실시예에서는 ReLu 함수를 전달 함수로 사용한다. 또한 Adam 최적화 알고리즘이 ANN 모델의 트레이닝을 위해 사용되고, 최적화 알고리즘의 학습률은 0.005로 설정된다. In this embodiment, the ReLu function is used as a transfer function. Also, the Adam optimization algorithm is used for training of the ANN model, and the learning rate of the optimization algorithm is set to 0.005.

ANN 모델의 의한 근사적 온도 예측값은 AC 에이전트를 위한 Q-러닝 모듈로 입력된다. 근사화된 모델은 AC 에이전트가 Q-러닝 과정에서 불만족 비용을 보다 정확하게 계산하고 최적의 에너지 소비 스케줄링을 보다 효율적으로 결정할 수 있도록 한다. The approximate temperature prediction by the ANN model is input to the Q-learning module for the AC agent. The approximated model allows the AC agent to more accurately calculate the cost of dissatisfaction during the Q-learning process and more efficiently determine the optimal energy consumption scheduling.

마지막으로, PV 시스템, ESS 및 기기를 갖는 HEMS는 도 4와 알고리즘을 이용하여 전기 요금 및 소비자 편의 수준을 최적화하는 에너지 관리 정책을 학습한다. Finally, the HEMS with the PV system, ESS, and equipment learns an energy management policy that optimizes electricity rates and consumer convenience levels using the algorithm shown in FIG. 4 .

HEMS는 이전 실내 온도, 소비자 선호 실내 온도 범위, 예측 실외 온도 및 AC 에너지 소비량을 수신하고, ANN 모델을 이용하여 현재 실내 온도를 예측한다. HEMS receives the previous indoor temperature, the consumer's preferred indoor temperature range, predicted outdoor temperature and AC energy consumption, and predicts the current indoor temperature using the ANN model.

이후, 본 실시예에 따른 Q-러닝은 기기의 최적 에너지 소비 및 ESS 충전/방전의 스케줄링하기 위해 초기화된다. Then, Q-learning according to this embodiment is initialized to schedule optimal energy consumption and ESS charge/discharge of the device.

도 5는 가전기기와 ESS를 최적으로 제어하기 위한 Q-러닝 및 ANN 기반 프레임워크를 도시한 것이고, 도 6은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 최적화를 위한 장치의 구성을 도시한 도면이다. 5 shows a Q-learning and ANN-based framework for optimally controlling home appliances and ESS, and FIG. 6 shows the configuration of a device for HEMS optimization based on reinforcement learning according to a preferred embodiment of the present invention. it is a drawing

도 5에 도시된 바와 같이, 본 실시예에 따른 강화학습 기반 HEMS 최적화 장치는 프로세서(500) 및 메모리(502)를 포함할 수 있다.As shown in FIG. 5 , the reinforcement learning-based HEMS optimization apparatus according to the present embodiment may include a processor 500 and a memory 502.

프로세서(500)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다. The processor 500 may include a central processing unit (CPU) capable of executing a computer program or other virtual machines.

메모리(502)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(502)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.Memory 502 may include a non-volatile storage device such as a non-removable hard drive or a removable storage device. The removable storage device may include a compact flash unit, a USB memory stick, and the like. Memory 502 may also include volatile memory, such as various random access memories.

이와 같은 메모리(502)에는 프로세서(500)에 의해 실행 가능한 프로그램 명령어들이 저장된다.The memory 502 stores program instructions executable by the processor 500 .

본 실시예에 따른 프로그램 명령어들은, 미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하고, 상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하고, 상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하고, 상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색한다.The program instructions according to the present embodiment are based on the pre-learned artificial neural network, using the indoor temperature at time t-1, the upper and lower limits of the user's preferred temperature, the external temperature predicted at time t, and the energy consumption of the air conditioner. When the current temperature is predicted, the predicted current temperature is input to the Q-learning module for the air conditioner agent, and the Q-learning module outputs an action according to the predicted current temperature, as long as according to the predicted current temperature The state and behavior of the pair are stored and updated in the Q-value table, and the optimum for maximizing the sum of the rewards according to the actions of the agents corresponding to the air conditioner agent, the device with the non-blockable load, and the device with the load that can be blocked Explore policy.

여기서, 상기 차단 불가능 부하를 갖는 기기는 세탁기를 포함하며, 상기 차단 가능 부하를 갖는 기기는 에너지 저장 시스템을 포함할 수 있다. Here, the device having the non-blockable load may include a washing machine, and the device having the non-blockable load may include an energy storage system.

또한, 상기 세탁기의 에이전트는 온/오프 중 하나의 이진 행동을 수행하며, 상기 에어컨 및 에너지 저장 시스템의 에이전트는 단위 에너지 소비량의 차이를 갖는 복수의 레벨 중 하나의 행동을 수행할 수 있다. In addition, the agent of the washing machine may perform one binary action of on/off, and the agent of the air conditioner and energy storage system may perform one action of a plurality of levels having a difference in unit energy consumption.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.The embodiments of the present invention described above have been disclosed for illustrative purposes, and those skilled in the art having ordinary knowledge of the present invention will be able to make various modifications, changes, and additions within the spirit and scope of the present invention, and such modifications, changes, and additions will be considered to fall within the scope of the following claims.

Claims (7)

강화학습을 이용한 HEMS 최적화 장치로서,
프로세서; 및
상기 프로세서에 연결되는 메모리를 포함하되,
상기 메모리는,
미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하고,
상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하고,
상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하고,
상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하도록,
상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되,
상기 차단 불가능 부하를 갖는 기기는 세탁기를 포함하며, 상기 차단 가능 부하를 갖는 기기는 에너지 저장 시스템을 포함하며,
상기 세탁기의 에이전트는 온/오프 중 하나의 이진 행동을 수행하며,
상기 에어컨 및 에너지 저장 시스템의 에이전트는 단위 에너지 소비량의 차이를 갖는 복수의 레벨 중 하나의 행동을 수행하고,
상기 세탁기, 에어컨 및 에너지 저장 시스템의 에이전트의 행동에 대한 보상 함수는 소비자 선호 편의 및 기기 동작 특성과 관련된 음(negative) 전기 비용 및 음의 불만족 비용의 합으로 정의되며,
상기 인공신경망은 상기 에어컨의 에너지 소비량이 상기 현재 온도에 영향을 미치는 정도를 학습하는 강화학습을 이용한 HEMS 최적화 장치.
As a HEMS optimization device using reinforcement learning,
processor; and
Including a memory coupled to the processor,
the memory,
Based on the pre-learned artificial neural network, the current temperature is predicted using the indoor temperature at time t-1, the upper and lower limits of the user's preferred temperature, the external temperature predicted at time t, and the energy consumption of the air conditioner,
Input the predicted current temperature to the Q-learning module for the air conditioner agent,
When the Q-learning module outputs an action according to the predicted current temperature, a pair of states and actions according to the predicted current temperature are stored in a Q-value table and updated;
To search for an optimal policy that maximizes the sum of rewards according to the actions of each of the agents corresponding to the air conditioner agent, a device having a non-blockable load, and a device having a blockable load,
storing program instructions executable by the processor;
The device with the non-breakable load includes a washing machine, the device with the interruptable load includes an energy storage system,
The agent of the washing machine performs one binary action of on/off,
The agent of the air conditioner and energy storage system performs one action among a plurality of levels having a difference in unit energy consumption;
The compensation function for the behavior of the agent of the washing machine, air conditioner, and energy storage system is defined as the sum of negative electricity costs and negative dissatisfaction costs related to consumer preference convenience and device operation characteristics,
The artificial neural network is an HEMS optimization device using reinforcement learning to learn the extent to which the energy consumption of the air conditioner affects the current temperature.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 인공신경망은 복수의 뉴런을 갖는 하나의 입력 데이터 레이어, 복수의 뉴런을 갖는 복수의 히든 레이어 및 하나의 뉴런을 갖는 출력 레이어로 구성되는 강화학습을 이용한 HEMS 최적화 장치.
According to claim 1,
The artificial neural network is an HEMS optimization device using reinforcement learning composed of one input data layer having a plurality of neurons, a plurality of hidden layers having a plurality of neurons, and an output layer having one neuron.
프로세서 및 메모리를 포함하는 장치에서 강화학습을 이용한 HEMS 최적화 방법으로서,
미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하는 단계;
상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하는 단계;
상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하는 단계; 및
상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하는 단계를 포함하되,
상기 차단 불가능 부하를 갖는 기기는 세탁기를 포함하며, 상기 차단 가능 부하를 갖는 기기는 에너지 저장 시스템을 포함하며,
상기 세탁기의 에이전트는 온/오프 중 하나의 이진 행동을 수행하며,
상기 에어컨 및 에너지 저장 시스템의 에이전트는 단위 에너지 소비량의 차이를 갖는 복수의 레벨 중 하나의 행동을 수행하고,
상기 세탁기, 에어컨 및 에너지 저장 시스템의 에이전트의 행동에 대한 보상 함수는 소비자 선호 편의 및 기기 동작 특성과 관련된 음(negative) 전기 비용 및 음의 불만족 비용의 합으로 정의되며,
상기 인공신경망은 상기 에어컨의 에너지 소비량이 상기 현재 온도에 영향을 미치는 정도를 학습하는 강화학습을 이용한 HEMS 최적화 방법.
A HEMS optimization method using reinforcement learning in a device including a processor and memory,
Predicting the current temperature using the indoor temperature at time t-1, the upper and lower limits of the user's preferred temperature, the external temperature predicted at time t, and the energy consumption of the air conditioner based on the pre-learned artificial neural network;
inputting the predicted current temperature to a Q-learning module for an air conditioner agent;
storing and updating a pair of states and actions according to the predicted current temperature in a Q-value table when the Q-learning module outputs an action according to the predicted current temperature; and
Searching for an optimal policy that maximizes the sum of rewards according to the actions of each of the agents corresponding to the air conditioner agent, a device having a non-blockable load, and a device having a blockable load,
The device with the non-breakable load includes a washing machine, the device with the interruptable load includes an energy storage system,
The agent of the washing machine performs one binary action of on/off,
The agent of the air conditioner and energy storage system performs one action among a plurality of levels having a difference in unit energy consumption;
The compensation function for the behavior of the agent of the washing machine, air conditioner, and energy storage system is defined as the sum of negative electricity costs and negative dissatisfaction costs associated with consumer preference convenience and device operation characteristics,
The HEMS optimization method using reinforcement learning in which the artificial neural network learns the extent to which the energy consumption of the air conditioner affects the current temperature.
삭제delete
KR1020200086814A 2020-07-14 2020-07-14 HEMS optimization method and device using reinforcement learning KR102480521B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200086814A KR102480521B1 (en) 2020-07-14 2020-07-14 HEMS optimization method and device using reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200086814A KR102480521B1 (en) 2020-07-14 2020-07-14 HEMS optimization method and device using reinforcement learning

Publications (2)

Publication Number Publication Date
KR20220008564A KR20220008564A (en) 2022-01-21
KR102480521B1 true KR102480521B1 (en) 2022-12-22

Family

ID=80050278

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200086814A KR102480521B1 (en) 2020-07-14 2020-07-14 HEMS optimization method and device using reinforcement learning

Country Status (1)

Country Link
KR (1) KR102480521B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240063372A1 (en) 2021-08-13 2024-02-22 Lg Energy Solution, Ltd. Negative electrode active material, negative electrode including same, secondary battery including same, and method for manufacturing negative electrode active material
CN117109058B (en) * 2023-10-25 2023-12-26 华清安泰能源股份有限公司 Automatic energy supply method and device based on indoor temperature

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014165998A (en) * 2013-02-22 2014-09-08 Misawa Homes Co Ltd Home energy management system
KR101870250B1 (en) * 2017-03-30 2018-06-25 한국에너지기술연구원 Nonintrusive appliance load monitoring device and method
KR102131414B1 (en) 2019-12-31 2020-07-08 한국산업기술시험원 System for the energy saving pre-cooling/heating training of an air conditioner using deep reinforcement learning algorithm based on the user location, living climate condition and method thereof

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9513648B2 (en) 2012-07-31 2016-12-06 Causam Energy, Inc. System, method, and apparatus for electric power grid and network management of grid elements
KR20200084380A (en) * 2018-12-20 2020-07-13 전자부품연구원 Smart Home Airconditioner Automatic control system based on Artificial Intelligence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014165998A (en) * 2013-02-22 2014-09-08 Misawa Homes Co Ltd Home energy management system
KR101870250B1 (en) * 2017-03-30 2018-06-25 한국에너지기술연구원 Nonintrusive appliance load monitoring device and method
KR102131414B1 (en) 2019-12-31 2020-07-08 한국산업기술시험원 System for the energy saving pre-cooling/heating training of an air conditioner using deep reinforcement learning algorithm based on the user location, living climate condition and method thereof

Also Published As

Publication number Publication date
KR20220008564A (en) 2022-01-21

Similar Documents

Publication Publication Date Title
Ma et al. Residential load scheduling in smart grid: A cost efficiency perspective
Wang et al. Dynamic control and optimization of distributed energy resources in a microgrid
Brusco et al. Energy management system for an energy district with demand response availability
US9310792B2 (en) Scheduling and modeling the operation of controllable and non-controllable electronic devices
Vytelingum et al. Theoretical and practical foundations of large-scale agent-based micro-storage in the smart grid
Alam et al. Computational methods for residential energy cost optimization in smart grids: A survey
US20150058061A1 (en) Zonal energy management and optimization systems for smart grids applications
Latifi et al. A distributed game-theoretic demand response with multi-class appliance control in smart grid
Abdulaal et al. Two-stage discrete-continuous multi-objective load optimization: An industrial consumer utility approach to demand response
KR102480521B1 (en) HEMS optimization method and device using reinforcement learning
Yang et al. Large-Scale Home Energy Management Using Entropy-Based Collective Multiagent Deep Reinforcement Learning Framework.
Pereira et al. A fuzzy clustering approach to a demand response model
Rasouli et al. A comparison of MILP and metaheuristic approaches for implementation of a home energy management system under dynamic tariffs
Soares et al. Using reinforcement learning for maximizing residential self-consumption–Results from a field test
KR102463146B1 (en) HEMS optimization method and apparatus using hierarchical deep reinforcement learning
CN115169723A (en) Power generation power prediction method, load prediction method and model training method
Si et al. Deep reinforcement learning based home energy management system with devices operational dependencies
Zhang et al. A review of recent advances on reinforcement learning for smart home energy management
Slama et al. A deep learning model for intelligent home energy management system using renewable energy
Amasyali et al. Hierarchical model-free transactional control of building loads to support grid services
Ebell et al. Reinforcement learning control algorithm for a pv-battery-system providing frequency containment reserve power
Gazafroudi et al. Economic evaluation of predictive dispatch model in mas-based smart home
Ali et al. Optimal appliance management system with renewable energy integration for smart homes
Stoyanova et al. Model predictive control for cooperative energy management at city-district level
KR20230070779A (en) Demand response management method for discrete industrial manufacturing system based on constrained reinforcement learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant