KR20220008564A - 강화학습을 이용한 hems 최적화 방법 및 장치 - Google Patents
강화학습을 이용한 hems 최적화 방법 및 장치 Download PDFInfo
- Publication number
- KR20220008564A KR20220008564A KR1020200086814A KR20200086814A KR20220008564A KR 20220008564 A KR20220008564 A KR 20220008564A KR 1020200086814 A KR1020200086814 A KR 1020200086814A KR 20200086814 A KR20200086814 A KR 20200086814A KR 20220008564 A KR20220008564 A KR 20220008564A
- Authority
- KR
- South Korea
- Prior art keywords
- hems
- temperature
- agent
- air conditioner
- current temperature
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/007—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
- H02J3/0075—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/30—Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
- F24F11/46—Improving electric energy efficiency or saving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2310/00—The network for supplying or distributing electric power characterised by its spatial reach or by the load
- H02J2310/10—The network having a local or delimited stationary reach
- H02J2310/12—The local stationary network supplying a household or a building
- H02J2310/14—The load or loads being home appliances
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B70/00—Technologies for an efficient end-user side electric power management and consumption
- Y02B70/30—Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B70/00—Technologies for an efficient end-user side electric power management and consumption
- Y02B70/30—Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
- Y02B70/3225—Demand response systems, e.g. load shedding, peak shaving
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S20/00—Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
- Y04S20/20—End-user application control systems
- Y04S20/222—Demand response systems, e.g. load shedding, peak shaving
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S20/00—Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
- Y04S20/20—End-user application control systems
- Y04S20/242—Home appliances
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mechanical Engineering (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Power Engineering (AREA)
- Air Conditioning Control Device (AREA)
Abstract
본 발명은 강화학습을 이용한 HEMS 최적화 장치 및 방법을 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하고, 상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하고, 상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하고, 상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 강화학습을 이용한 HEMS 최적화 장치가 제공된다.
Description
본 발명은 강화학습을 이용한 HEMS 최적화 방법 및 장치에 관한 것이다.
주거용 가구가 총 전기 소비량의 1/3을 차지함에 따라 홈 에너지 관리 시스템(Home Energy Management System: HEMS)은 에너지 관리를 위한 필수 기술이 되었다.
HEMS의 주목표는 스마트 가전기기(예를 들어, 에어컨 및 세탁기 등)의 최적 에너지 소비를 스케줄링하여 편안함을 보장하면서 전기 비용을 줄이는 것이다.
최근에는 분산 에너지 자원(Distributed energy resource: DER, 예를 들어, 옥상 태양광 발전(roof solar photovoltaic: PV) 및 에너지 저장 시스템(Energy Storage System: ESS)), 스마트 계량기를 갖춘 고급 계량 인프라 및 수요 관리를 포함하는 스마트 그리드 기술로 인해 소비자는 더 많은 에너지를 절약할 수 있게 되었다.
HEMS의 핵심 기술은 DER의 동작 스케줄링(충전/방전) 외에 스마트 가전기기의 경제적인 부하 감소 및 부하 시프팅을 수행하기 위해 사용되는 최적화 방안이다.
그러나, 종래의 HEMS 최적화 알고리즘은 모델 기반으로 이루어지는데, 최근 증가하고 있는 스마트 가전기기를 포함하는 환경에서는 다소 적절한 솔루션을 제공하지 못하는 문제점이 있으며, 특히 에어컨의 최적 에너지 스케줄링이 이루어지지 못하는 문제점이 있다.
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 옥상 PV 시스템, ESS 및 스마트 가전기기를 고려하여 최적화된 솔루션을 제공할 수 있는 강화학습을 이용한 HEMS 최적화 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 강화학습을 이용한 HEMS 최적화 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하고, 상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하고, 상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하고, 상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 강화학습을 이용한 HEMS 최적화 장치가 제공된다.
상기 차단 불가능 부하를 갖는 기기는 세탁기를 포함하며, 상기 차단 가능 부하를 갖는 기기는 에너지 저장 시스템을 포함할 수 있다.
상기 세탁기의 에이전트는 온/오프 중 하나의 이진 행동을 수행하며, 상기 에어컨 및 에너지 저장 시스템의 에이전트는 단위 에너지 소비량의 차이를 갖는 복수의 레벨 중 하나의 행동을 수행할 수 있다.
상기 인공신경망은 상기 에어컨의 에너지 소비량이 상기 현재 실내 온도에 영향을 미치는 정도를 학습할 수 있다.
상기 인공신경망은 복수의 뉴런을 갖는 하나의 입력 데이터 레이어, 복수의 뉴런을 갖는 복수의 히든 레이어 및 하나의 뉴런을 갖는 출력 레이어로 구성될 수 있다.
본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 강화학습 기반 홈 에너지 관리 시스템 최적화하는 방법으로서, 미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하는 단계; 상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하는 단계; 상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하는 단계; 및 상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하는 단계를 포함하는 강화학습 기반 홈 에너지 관리 시스템(HEMS) 최적화 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다.
본 발명에 따르면, 인공신경망을 통해 예측된 현재 온도를 Q-러닝 모듈에 입력하여 최적 정책을 결정하기 때문에 스마트 가전기기의 스케줄링 효율을 한층 높일 수 있는 장점이 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 프레임워크를 도시한 도면이다.
도 2는 강화학습 과정을 설명하기 위한 도면이다.
도 3은 본 실시예에 따른 실내 온도 예측을 위한 인공신경망 모델 구성을 도시한 도면이다.
도 4는 본 실시예에 따른 HEMS 최적화 알고리즘을 도시한 도면이다.
도 5는 가전기기와 ESS를 최적으로 제어하기 위한 Q-러닝 및 ANN 기반 프레임워크를 도시한 도면이다.
도 6은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 최적화를 위한 장치의 구성을 도시한 도면이다.
도 2는 강화학습 과정을 설명하기 위한 도면이다.
도 3은 본 실시예에 따른 실내 온도 예측을 위한 인공신경망 모델 구성을 도시한 도면이다.
도 4는 본 실시예에 따른 HEMS 최적화 알고리즘을 도시한 도면이다.
도 5는 가전기기와 ESS를 최적으로 제어하기 위한 Q-러닝 및 ANN 기반 프레임워크를 도시한 도면이다.
도 6은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 최적화를 위한 장치의 구성을 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명에서는 HEMS에 의해 자동적인 에너지 관리가 이루어지는 상황을 고려하며, HEMS는 시간대 사용(time-to-use: TOU) 요금에 따라 아래의 (가전)기기를 스케줄링하고 제어하는 것으로 가정한다.
예를 들어, 줄일 수 있는 기기는 에어컨과 같이 전기 비용을 줄이기 위해 에너지 소비를 줄일 수 있는 기기이다.
그러나, TOU 가격 책정 체계에 따라 시프트 가능 기기의 에너지 소비를 다른 시간대로 변경하여 총 전기 비용을 최소화할 수 있다.
시프트 가능 기기는 두 가지 부하 유형으로 구분된다.
기기의 태스크 기간 동안 차단 불가능 부하를 갖는 시프트 가능 기기의 동작은 HEMS 제어에 의해 중단되지 않아야 하며, 세탁기는 건조 건에 세탁을 완료해야만 한다.
차단 가능 부하를 갖는 시프트 가능 기기는 언제든지 동작이 중단될 수 있다.
예를 들어, PV 생성 출력이 부하 요구보다 클 때, HEMS는 방전 과정을 중단하고, 즉시 ESS의 충전을 개시해야만 한다.
이하에서는 종래의 HEMS 최적화 알고리즘을 우선 설명하고, 본 실시예에 따른 강화학습 기반 HEMS 최적화 알고리즘을 구체적으로 설명한다.
이하에서는 HEMS 최적화 문제에 대한 등식 및 불평등 제약 조건을 설명한다.
수학식 3에서, 모든 기기의 총 소비량은 줄일 수 있는 기기, 차단 불가능 부하를 갖는 시프트 가능 기기, 차단 가능 부하를 갖는 시프트 가능 기기 및 제어 불가능 기기를 포함하는 4개의 상이한 유형의 기기로 나눌 수 있다.
줄일 수 있는 기기(예를 들어, 에어컨)에 대해, 수학식 4는 에서의, 실내 온도(), 외부 온도(), 기기의 에너지 소비량 및 내부 열적 조건을 나타내는 환경 파라미터로 표현되는 시간 t에서의 온도 역학에 대한 제약을 나타낸다.
(i) 수학식 7에서 와 는 소비자가 원하는 시작 시간 및 종료시간인 정지 기간 동안, (ii) 수학식 8에서 하루 중 동작 기간 시간 동안, (iii) 수학식 9에서 시간의 연속 동작 기간 동안
수학식 11은 현재 시간(t)에서 ESS에 대한 에너지 상태(SOE)의 동역학을 이전 시간(t-1)에서의 SOE로 나타낸 것이고, 충전 및 방전 효율은 , , 충방전 에너지는 및 이다.
마지막으로 MINLP(mixed integer nonlinear programming) 기반 HEMS 최적화 문제는 다음과 같은 비선형 목적 함수 의 선형화를 통해 MILP 최적화 문제로 변환될 수 있다.
이하에서는 본 실시예에 따른 강화학습 및 인공지능 기반 HEMS 최적화 알고리즘을 상세하게 설명한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 프레임워크를 도시한 도면이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 강화학습 기반 HEMS(RL-Based HEMS)는 전력 공급 회사의 TOU 요금 정책, 기상청의 날씨정보(예를 들어, 외부 온도) 및 소비자의 편의 수준 및 PV 등을 고려하여 강화학습 기법 중 Q-러닝 기법을 이용하여 에어컨(AC), 세탁기(WM) 및 ESS의 동작을 스케줄링한다.
또한, AC의 동작을 스케줄링함에 있어 최적 온도를 결정하기 위해 인공신경망(ANN)을 이용하며, 이에 대해서는 다시 상술할 것이다.
강화학습 기반 HEMS 최적화 알고리즘의 설명에 앞서 강화학습에 대해 상세하게 설명한다.
강화학습은 비결정적 환경에서 최적의 의사 결정을 위한 머신러닝 기법 중 하나이다.
도 2는 강화학습 과정을 설명하기 위한 도면이다.
도 2를 참조하면, 에이전트가 환경과 상호작용하는 동안 에이전트는 환경 상태(state)에 의존하는 행동(action) 유형을 학습하고 학습된 행동을 환경으로 보낸다.
그런 다음 환경은 새로운 환경 상태와 함께 보상을 에이전트로 반환한다.
이러한 학습 프로세스는 에이전트가 환경으로부터 받은 총 누적 보상을 최대화할때까지 계속된다.
정책은 에이전트가 특정 상태에서 행동하는 방식으로 정의되며, 에이전트의 주요 목표는 보상을 최대화하는 최적의 정책을 결정하는 것이다.
본 실시예에서는 환경이 에이전트 상태 변이가 모든 과거 상태 및 행동을 고려하지 않고 현재 상태에서 선택된 행동과 함께 현재 상태에만 의존하는 마코브 의사 결정 프로세스에 의해 설명된다고 가정한다.
Q-러닝의 일반적인 프로세스는 다음과 같은 Bellman 식을 사용하여 시간 t에서 한 쌍의 상태 와 행동 의 Q-값()을 계산하고, 총 보상을 최대화하는 방향으로 Q-값을 업데이트한다.
수학식 18에서, 최적 정책 에 기초하여 최적 Q-값()은 현재 보상 및 디스카운트된 최대 미래 보상 의 합에 의해 얻어지며, 여기서, 는 현재 및 미래 보상의 상대적 중요도를 설명하는 디스카운트 팩터를 나타낸다.
디스카운트 팩터 가 감소함에 따라 에이전트는 현재 보상에 점점 더 집중하기 때문에 근시안적으로 된다. 그러나, 더 큰 를 사용하면, 에이전트를 향후 보상에 점점 더 집중할 수 있어 원시안적으로 된다. 현재와 미래의 보상의 균형을 맞추기 위해 값은 Q-러닝을 이용하여 시스템 운영자에 의해 조정될 수 있다.
에이전트는 매 시간 t에서 Q-값 테이블을 이용하여 자신의 행동을 선택하고, 선택된 한 쌍의 상태 및 행동과 연관되는 Q-값 테이블 내에 각 요소(Q-값)은 다음 Bellman 식을 통해 업데이트된다.
본 발명의 일 실시예에 따르면, 상기에서 언급한 Q-러닝 방법을 개별 기기(에어컨, 세탁기 또는 ESS)에 적용하여 PV 시스템 및 ESS가 있는 스마트홈 기기의 최적의 동작 스케줄을 계산하고, 결과적으로 본 실시예에 따른 최적화 기법에 의해 소비자 선호 기기 스케줄링 및 편의 수준 내에서 소비자의 전기 요금을 감소시킬 수 있다.
이하에서는 본 실시예에 따른 Q-러닝 기반 HEMS 최적화에서의 상태, 행동 및 보상에 대해 상세하게 설명한다.
본 실시예에 따른 Q-러닝 알고리즘은 1시간의 스케줄링 해상도로 24시간 동안 실행되는 상황을 고려한다.
각 기기에 대한 최적 행동은 상기한 바와 같이 현재 상태를 포함하여 에이전트의 환경에 따라 달라진다.
WM, AC 및 ESS의 행동 공간(action space)은 다음과 같다.
수학식 22에서 세탁기 에이전트는 이진 행동을 수행한다. "ON" 행동에서 세탁기 에이전트는 세탁기를 켜고, 세탁기는 일정한 에너지()를 소비한다. 반면, "OFF" 행동에서 세탁기 에이전트는 세탁기를 끈다. 에어컨 에이전트의 행동은 수학식 23과 같이 복수의 레벨(예를 들어, 10 레벨)의 에너지 소비량으로 구분된다. 여기서, 는 에어컨의 단위 에너지 소비량을 나타낸다.
본 실시예에 따른 강화학습 기반 HEMS 최적화 알고리즘은 24시간 동안 기기의 시간별 에너지 스케줄링을 계산한다.
각 기기 에이전트에 대한 보상 함수는 소비자 선호 편의 및 기기 동작 특성과 관련된 음(negative) 전기 비용 및 음의 불만족 비용의 합으로 공식화된다.
(i) WM의 전기 비용 및 소비자가 원치 않는 동작에 따른 패널티
(ii) AC의 전기 비용 및 소비자의 열적 불편에 따른 패널티
(iii) ESS의 과충전(overcharging) 및 부족충전(undercharging)에 따른 전기 비용 및 에너지 부족에 따른 패널티
마지막으로 WM 에이전트에 대한 보상 함수는 다음과 같이 표현된다.
그렇지 않으면 보상 함수에는 음의 전기 비용만 추가된다.
AC 에이전트의 보상 함수는 다음과 같다.
마지막으로 ESS 에이전트의 보상 함수는 다음과 같이 음의 전기 비용과 음의 에너지 부족 이용(underutilization) 비용으로 구성된다.
와 는 ESS 과충전 및 부족충전에 대한 패널티이다. 이러한 경우, ESS의 에너지 부족 이용은 SOE가 보다 낮거나(부족충전) 또는 (과충전)보다 커지면 발생하고, ESS의 에너지 부족 이용 중에 에너지 비용과 함께 보상에 반영된다.
본 실시예에서는 HEMS가 소비자가 선호하는 열적 조건에 따라 실내 및 실외 온도를 기준으로 에어컨의 에너지 소비를 스케줄링하는 상황을 고려한다.
통상적으로 HEMS는 이전 실내 온도 및 현재 실외 온도, 에어컨 에너지 소비와 관련하여 수학식 4와 같은 근사모델(즉, the equivalent thermal parameters (ETP) model)을 이용하여 현재 실내 온도를 계산한다.
이에 비해, 본 실시예에서는 에어컨의 에너지 소비와 관련하여 실내 온도를 예측하기 위한 ANN(Artificial Neural Network) 기반 방법을 제안한다.
본 실시예에 따른 ANN 모델에서, AC 에이전트는 AC의 에너지 소비량이 현재 실내 온도에 영향을 미치는 정도를 학습하며, 이는 다음과 같이 실내 온도와 AC 에너지 소비 사이의 관계를 나타내는 함수 f의 추정을 의미한다.
여기서, 는 이전 실내 온도 , 사용자 선호 실내 열적 조건 , 일기 예보() 및 AC 에너지 소비량 과 같은 입력 데이터와 예측된 현재 실내 온도에 대한 출력 사이의 관계를 설명하기 위한 근사화된 함수이다.
도 3에 도시된 바와 같이, 본 실시예에 따른 ANN 모델은 5개의 뉴런을 갖는 하나의 입력 데이터 레이어, 17개의 뉴런을 갖는 3개의 히든 레이어 및 1개의 뉴런을 갖는 출력 레이어로 구성된다.
본 실시예에서는 ReLu 함수를 전달 함수로 사용한다. 또한 Adam 최적화 알고리즘이 ANN 모델의 트레이닝을 위해 사용되고, 최적화 알고리즘의 학습률은 0.005로 설정된다.
ANN 모델의 의한 근사적 온도 예측값은 AC 에이전트를 위한 Q-러닝 모듈로 입력된다. 근사화된 모델은 AC 에이전트가 Q-러닝 과정에서 불만족 비용을 보다 정확하게 계산하고 최적의 에너지 소비 스케줄링을 보다 효율적으로 결정할 수 있도록 한다.
마지막으로, PV 시스템, ESS 및 기기를 갖는 HEMS는 도 4와 알고리즘을 이용하여 전기 요금 및 소비자 편의 수준을 최적화하는 에너지 관리 정책을 학습한다.
HEMS는 이전 실내 온도, 소비자 선호 실내 온도 범위, 예측 실외 온도 및 AC 에너지 소비량을 수신하고, ANN 모델을 이용하여 현재 실내 온도를 예측한다.
이후, 본 실시예에 따른 Q-러닝은 기기의 최적 에너지 소비 및 ESS 충전/방전의 스케줄링하기 위해 초기화된다.
도 5는 가전기기와 ESS를 최적으로 제어하기 위한 Q-러닝 및 ANN 기반 프레임워크를 도시한 것이고, 도 6은 본 발명의 바람직한 일 실시예에 따른 강화학습 기반 HEMS 최적화를 위한 장치의 구성을 도시한 도면이다.
도 5에 도시된 바와 같이, 본 실시예에 따른 강화학습 기반 HEMS 최적화 장치는 프로세서(500) 및 메모리(502)를 포함할 수 있다.
프로세서(500)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.
메모리(502)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(502)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
이와 같은 메모리(502)에는 프로세서(500)에 의해 실행 가능한 프로그램 명령어들이 저장된다.
본 실시예에 따른 프로그램 명령어들은, 미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하고, 상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하고, 상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하고, 상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색한다.
여기서, 상기 차단 불가능 부하를 갖는 기기는 세탁기를 포함하며, 상기 차단 가능 부하를 갖는 기기는 에너지 저장 시스템을 포함할 수 있다.
또한, 상기 세탁기의 에이전트는 온/오프 중 하나의 이진 행동을 수행하며, 상기 에어컨 및 에너지 저장 시스템의 에이전트는 단위 에너지 소비량의 차이를 갖는 복수의 레벨 중 하나의 행동을 수행할 수 있다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.
Claims (7)
- 강화학습을 이용한 HEMS 최적화 장치로서,
프로세서; 및
상기 프로세서에 연결되는 메모리를 포함하되,
상기 메모리는,
미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하고,
상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하고,
상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하고,
상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하도록,
상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 강화학습을 이용한 HEMS 최적화 장치. - 제1항에 있어서,
상기 차단 불가능 부하를 갖는 기기는 세탁기를 포함하며, 상기 차단 가능 부하를 갖는 기기는 에너지 저장 시스템을 포함하는 강화학습을 이용한 HEMS 최적화 장치. - 제2항에 있어서,
상기 세탁기의 에이전트는 온/오프 중 하나의 이진 행동을 수행하며,
상기 에어컨 및 에너지 저장 시스템의 에이전트는 단위 에너지 소비량의 차이를 갖는 복수의 레벨 중 하나의 행동을 수행하는 강화학습을 이용한 HEMS 최적화 장치. - 제1항에 있어서,
상기 인공신경망은 상기 에어컨의 에너지 소비량이 상기 현재 실내 온도에 영향을 미치는 정도를 학습하는 강화학습을 이용한 HEMS 최적화 장치. - 제1항에 있어서,
상기 인공신경망은 복수의 뉴런을 갖는 하나의 입력 데이터 레이어, 복수의 뉴런을 갖는 복수의 히든 레이어 및 하나의 뉴런을 갖는 출력 레이어로 구성되는 강화학습을 이용한 HEMS 최적화 장치. - 프로세서 및 메모리를 포함하는 장치에서 강화학습을 이용한 HEMS 최적화 방법으로서,
미리 학습된 인공신경망을 기반으로 시간 t-1에서의 실내 온도, 사용자 선호 편의 온도의 상한/하한과 시간 t에서 예측된 외부 온도 및 에어컨의 에너지 소비량을 이용하여 현재 온도를 예측하는 단계;
상기 예측된 현재 온도를 에어컨 에이전트를 위한 Q-러닝 모듈로 입력하는 단계;
상기 예측된 현재 온도에 따라 상기 Q-러닝 모듈이 행동을 출력하는 경우 상기 예측된 현재 온도에 따른 한 쌍의 상태와 행동을 Q-값 테이블에 저장하여 업데이트하는 단계; 및
상기 에어컨 에이전트와 차단 불가능 부하를 갖는 기기 및 차단 가능 부하를 갖는 기기에 상응하는 에이전트들 각각의 행동에 따른 보상의 합을 최대화하는 최적 정책을 탐색하는 단계를 포함하는 강화학습을 이용한 HEMS 최적화 방법. - 제6항에 따른 방법을 수행하는 컴퓨터 판독 가능한 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200086814A KR102480521B1 (ko) | 2020-07-14 | 2020-07-14 | 강화학습을 이용한 hems 최적화 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200086814A KR102480521B1 (ko) | 2020-07-14 | 2020-07-14 | 강화학습을 이용한 hems 최적화 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220008564A true KR20220008564A (ko) | 2022-01-21 |
KR102480521B1 KR102480521B1 (ko) | 2022-12-22 |
Family
ID=80050278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200086814A KR102480521B1 (ko) | 2020-07-14 | 2020-07-14 | 강화학습을 이용한 hems 최적화 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102480521B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023018025A1 (ko) | 2021-08-13 | 2023-02-16 | 주식회사 엘지에너지솔루션 | 음극 활물질, 이를 포함하는 음극, 이를 포함하는 이차전지 및 음극 활물질의 제조방법 |
CN117109058A (zh) * | 2023-10-25 | 2023-11-24 | 华清安泰能源股份有限公司 | 一种基于室内温度的自动供能方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014165998A (ja) * | 2013-02-22 | 2014-09-08 | Misawa Homes Co Ltd | ホームエネルギーマネージメントシステム |
KR20150040894A (ko) | 2012-07-31 | 2015-04-15 | 커샘 에너지 인코포레이티드 | 전력 그리드에 대한 시스템, 방법 및 장치와 그리드 엘리먼트들의 네트워크 관리 |
KR101870250B1 (ko) * | 2017-03-30 | 2018-06-25 | 한국에너지기술연구원 | 비침투식 부하전력량 측정 장치 및 방법 |
KR102131414B1 (ko) * | 2019-12-31 | 2020-07-08 | 한국산업기술시험원 | 사용자 위치정보와 거주 기후 조건하에서 심층 강화 학습 알고리즘을 적용한 공기조화기 예비 냉난방 에너지절약 학습 시스템 및 그 방법 |
KR20200084380A (ko) * | 2018-12-20 | 2020-07-13 | 전자부품연구원 | 인공지능 기반 스마트 홈 에어컨 자동 제어 시스템 |
-
2020
- 2020-07-14 KR KR1020200086814A patent/KR102480521B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150040894A (ko) | 2012-07-31 | 2015-04-15 | 커샘 에너지 인코포레이티드 | 전력 그리드에 대한 시스템, 방법 및 장치와 그리드 엘리먼트들의 네트워크 관리 |
JP2014165998A (ja) * | 2013-02-22 | 2014-09-08 | Misawa Homes Co Ltd | ホームエネルギーマネージメントシステム |
KR101870250B1 (ko) * | 2017-03-30 | 2018-06-25 | 한국에너지기술연구원 | 비침투식 부하전력량 측정 장치 및 방법 |
KR20200084380A (ko) * | 2018-12-20 | 2020-07-13 | 전자부품연구원 | 인공지능 기반 스마트 홈 에어컨 자동 제어 시스템 |
KR102131414B1 (ko) * | 2019-12-31 | 2020-07-08 | 한국산업기술시험원 | 사용자 위치정보와 거주 기후 조건하에서 심층 강화 학습 알고리즘을 적용한 공기조화기 예비 냉난방 에너지절약 학습 시스템 및 그 방법 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023018025A1 (ko) | 2021-08-13 | 2023-02-16 | 주식회사 엘지에너지솔루션 | 음극 활물질, 이를 포함하는 음극, 이를 포함하는 이차전지 및 음극 활물질의 제조방법 |
CN117109058A (zh) * | 2023-10-25 | 2023-11-24 | 华清安泰能源股份有限公司 | 一种基于室内温度的自动供能方法及装置 |
CN117109058B (zh) * | 2023-10-25 | 2023-12-26 | 华清安泰能源股份有限公司 | 一种基于室内温度的自动供能方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
KR102480521B1 (ko) | 2022-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pinto et al. | Coordinated energy management for a cluster of buildings through deep reinforcement learning | |
Dusparic et al. | Multi-agent residential demand response based on load forecasting | |
Alam et al. | Computational methods for residential energy cost optimization in smart grids: A survey | |
Reis et al. | A multi-agent system approach to exploit demand-side flexibility in an energy community | |
Abdulaal et al. | Two-stage discrete-continuous multi-objective load optimization: An industrial consumer utility approach to demand response | |
Hosseinnezhad et al. | An optimal home energy management paradigm with an adaptive neuro-fuzzy regulation | |
Pereira et al. | A fuzzy clustering approach to a demand response model | |
Latifi et al. | A distributed game-theoretic demand response with multi-class appliance control in smart grid | |
Yang et al. | Large-Scale Home Energy Management Using Entropy-Based Collective Multiagent Deep Reinforcement Learning Framework. | |
Khan et al. | Real-time scheduling of operational time for smart home appliances based on reinforcement learning | |
Loesch et al. | Demand side management in smart buildings by intelligent scheduling of heat pumps | |
KR102480521B1 (ko) | 강화학습을 이용한 hems 최적화 방법 및 장치 | |
KR102463146B1 (ko) | 계층적 심화 강화학습을 이용한 hems 최적화 방법 및 장치 | |
Si et al. | Deep reinforcement learning based home energy management system with devices operational dependencies | |
Zhang et al. | A review of recent advances on reinforcement learning for smart home energy management | |
Tittaferrante et al. | Multiadvisor reinforcement learning for multiagent multiobjective smart home energy control | |
Chen et al. | User preference-based demand response for smart home energy management using multiobjective reinforcement learning | |
CN114841409A (zh) | 联合lstm和深度强化学习的家庭能源管理方法及介质 | |
Hou et al. | Model-free dynamic management strategy for low-carbon home energy based on deep reinforcement learning accommodating stochastic environments | |
Youssef et al. | An improved bald eagle search optimization algorithm for optimal home energy management systems | |
Stoyanova et al. | Model predictive control for cooperative energy management at city-district level | |
Kowahl et al. | Micro-scale smart grid optimization | |
Ruelens et al. | Residential demand response applications using batch reinforcement learning | |
Kumar et al. | Explainable AI: Deep reinforcement learning agents for residential demand side cost savings in smart grids | |
Chouikhi et al. | Energy demand scheduling based on game theory for microgrids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |