KR20230127001A - Method and apparatus for controlling based on reinforcement learning for reducing electricity bill using energy stroage system - Google Patents

Method and apparatus for controlling based on reinforcement learning for reducing electricity bill using energy stroage system Download PDF

Info

Publication number
KR20230127001A
KR20230127001A KR1020220024531A KR20220024531A KR20230127001A KR 20230127001 A KR20230127001 A KR 20230127001A KR 1020220024531 A KR1020220024531 A KR 1020220024531A KR 20220024531 A KR20220024531 A KR 20220024531A KR 20230127001 A KR20230127001 A KR 20230127001A
Authority
KR
South Korea
Prior art keywords
energy storage
storage device
charging
discharging
electricity
Prior art date
Application number
KR1020220024531A
Other languages
Korean (ko)
Inventor
심민규
박재민
권태현
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020220024531A priority Critical patent/KR20230127001A/en
Publication of KR20230127001A publication Critical patent/KR20230127001A/en

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/36Arrangements for testing, measuring or monitoring the electrical condition of accumulators or electric batteries, e.g. capacity or state of charge [SoC]
    • G01R31/367Software therefor, e.g. for battery testing using modelling or look-up tables
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/36Arrangements for testing, measuring or monitoring the electrical condition of accumulators or electric batteries, e.g. capacity or state of charge [SoC]
    • G01R31/392Determining battery ageing or deterioration, e.g. state of health
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/003Load forecast, e.g. methods or systems for forecasting future load demand
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02E60/10Energy storage using batteries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/12Energy storage units, uninterruptible power supply [UPS] systems or standby or emergency generators, e.g. in the last power distribution stages

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Power Engineering (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)

Abstract

에너지 저장 장치를 위한 강화학습 기반의 제어 방법 및 장치가 개시된다 제어 방법은 에너지 저장 장치가 에너지를 공급하는 시설의 미래 전력 수요량을 예측하는 단계, 에너지 저장 장치의 현재 충전량, 예측된 미래 전력 수요량, 시간대 별 전기 요금 및 에너지 저장 장치의 사용에 의한 감가상각 예측 비용을 입력으로 하는 강화학습 기반의 제어 모델에 기초하여 에너지 저장 장치의 충방전을 위한 제어 신호를 결정하는 단계 및 제어 신호에 기초하여 에너지 저장 장치를 충전 또는 방전하는 단계를 포함할 수 있다.A reinforcement learning-based control method and apparatus for an energy storage device are disclosed. Determining a control signal for charging and discharging the energy storage device based on a reinforcement learning-based control model that takes as inputs the electricity rate for each time period and the cost of depreciation prediction due to the use of the energy storage device, and based on the control signal, energy Charging or discharging the storage device may be included.

Description

에너지 저장 장치를 이용하여 전기요금을 절감하는 강화학습 기반의 제어 방법 및 장치{METHOD AND APPARATUS FOR CONTROLLING BASED ON REINFORCEMENT LEARNING FOR REDUCING ELECTRICITY BILL USING ENERGY STROAGE SYSTEM}Reinforcement learning-based control method and device for reducing electricity bills using energy storage devices

아래 실시예들은 에너지 저장 장치를 이용하여 전기요금을 절감하는 강화학습 기반의 제어 기술에 관한 것이다.The following embodiments relate to a reinforcement learning-based control technology that reduces electricity bills using an energy storage device.

일반적인 에너지 저장 시스템은 2차 전지인 리튬이온 전지로 구성되어 있고, 전기 요금이 낮은 시간대에 가득 충전하고, 전기 요금이 높은 시간대에 에너지 저장 시스템의 전기를 우선적으로 사용하는 종래의 운영 방식에 기반하여 작동하게 된다. 그러나, 종래의 운영 방식은 에너지 저장 장치의 사용에 의해 발생할 수 있는 감가상각 비용을 고려하지 않은 것이다. 따라서 종래의 운영 방식은 최적의 운영 방식이라고 할 수 없다. 에너지 저장 시스템은 고가의 장비이고, 감가상각 비용이 막대하다. 따라서, 감가상각 비용과 배터리 사용으로 인한 전기 요금의 절감을 모두 고려하는 운영 방식에 대한 연구가 필요한 실정이다.A typical energy storage system is composed of a secondary battery, a lithium-ion battery, and based on the conventional operating method of charging the battery at low electricity rates and preferentially using the energy of the energy storage system during high electricity rates, It works. However, conventional operating methods do not take into account depreciation costs that may be incurred by the use of energy storage devices. Therefore, the conventional operating method cannot be said to be an optimal operating method. Energy storage systems are expensive equipment, and the depreciation cost is enormous. Therefore, there is a need for research on an operating method that considers both depreciation cost and reduction of electricity charges due to battery use.

상기 제어 신호를 결정하는 단계는, 상기 에너지 저장 장치를 충전할 때 소요되는 전기에 대한 총 전기 요금과 상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용의 합이 최소가 되도록 상기 에너지 저장 장치의 충방전을 제어하는 상기 제어 신호를 생성하는 단계를 포함할 수 있다.The determining of the control signal may include charging the energy storage device such that a sum of a total electric charge for electricity consumed when charging the energy storage device and a predicted depreciation cost due to use of the energy storage device is minimized. A step of generating the control signal for controlling discharge may be included.

상기 제어 신호를 생성하는 단계는, 제어 모델을 이용하여, 현재 에너지 저장 장치의 잔여수명, 에너지 저장 장치의 노화 요인, 에너지 저장 장치의 현재 충전량 및 에너지 저장 장치의 스트레스 요인에 기초하여 상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용을 산출하는 단계; 예측된 미래 전력 수요량 및 시간대 별 전기 요금에 기초하여 상기 총 전기 요금을 산출하는 단계; 및 상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용과 상기 총 전기 요금의 합이 최소값이 되도록 하는 시간대 별 상기 에너지 저장 장치의 충방전을 제어하는 상기 제어 신호를 생성하는 단계를 포함할 수 있다.The generating of the control signal may include the energy storage device based on a current remaining lifespan of the energy storage device, an aging factor of the energy storage device, a current charging amount of the energy storage device, and a stress factor of the energy storage device, using a control model. Calculating a depreciation prediction cost by use of ; Calculating the total electricity price based on predicted future power demand and electricity price for each time period; and generating the control signal for controlling charging and discharging of the energy storage device for each time period such that the sum of the estimated depreciation cost due to the use of the energy storage device and the total electricity cost becomes a minimum value.

상기 제어 모델은, 상기 에너지 저장 장치의 현재 충전량, 상기 예측된 미래 전력 수요량, 상기 시간대 별 전기 요금 및 상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용에 기초하여, 충방전의 양을 결정하는 강화학습 에이전트를 학습시킬 수 있다.The control model is configured to determine the amount of charging and discharging based on the current charging amount of the energy storage device, the predicted future power demand, the electricity rate for each time slot, and the predicted depreciation cost due to the use of the energy storage device. The learning agent can be trained.

상기 제어 모델은, DQN(Deep Q-learning Network), dbl-DQN(Double Deep Q-learning Network) 및 duel-DQN(Dueling Deep Q-learning Network) 중 적어도 하나의 심층신경망을 이용하여 충방전의 양을 결정할 수 있다.The control model is the amount of charging and discharging using at least one deep neural network of DQN (Deep Q-learning Network), dbl-DQN (Double Deep Q-learning Network) and duel-DQN (Dueling Deep Q-learning Network). can determine

일 실시예에 따르면 에너지 저장 장치의 사용에 의한 감가상각 비용과 전기의 사용으로 인하여 발생하게 되는 총 전기 요금의 합을 최소화할 수 있는 최적의 에너지 저장 장치의 운영 방식을 결정할 수 있다.According to an embodiment, an optimal energy storage device operating method capable of minimizing the sum of the depreciation cost due to the use of the energy storage device and the total electricity cost incurred due to the use of electricity may be determined.

일 실시예에 따르면 총 전기 요금과 배터리 운영에 필요한 비용을 최소화할 수 있다.According to one embodiment, it is possible to minimize the total electricity cost and the cost required for operating the battery.

일 실시예에 따르면 배터리 수명의 초기 기간 이후에만 적용되는 선형 열화뿐만 아니라 배터리 수명의 초기 기간에 적용되는 비선형 열화 및 준선형 열화를 모두 정확하게 반영할 수 있어 배터리 수명의 전체 기간에 모두 적용 가능한 감가상각 비용 산출 프로세스를 제공할 수 있다.According to an embodiment, depreciation applicable to the entire period of battery life can accurately reflect both non-linear and quasi-linear deterioration applied to the initial period of battery life as well as linear deterioration applied only after the initial period of battery life. A cost estimation process can be provided.

도 1은 일 실시예에 따른 에너지 저장 장치를 위한 강화학습 기반의 제어 시스템을 도시하는 도면이다.
도 2는 일 실시예에 따른 제어 방법을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 시간대 별 전기 요금을 설명하기 위한 도면이다.
도 4 내지 도 6은 일 실시예에 따른 강화학습 알고리즘을 설명하기 위한 도면들이다.
도 7은 일 실시예에 따른 제어 장치의 구성을 도시하는 도면이다.
1 is a diagram illustrating a reinforcement learning-based control system for an energy storage device according to an embodiment.
2 is a diagram for explaining a control method according to an exemplary embodiment.
3 is a diagram for explaining electricity rates for each time zone according to an embodiment.
4 to 6 are diagrams for explaining a reinforcement learning algorithm according to an embodiment.
7 is a diagram showing the configuration of a control device according to an embodiment.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Specific structural or functional descriptions of the embodiments are disclosed for illustrative purposes only, and may be changed and implemented in various forms. Therefore, the form actually implemented is not limited only to the specific embodiments disclosed, and the scope of the present specification includes changes, equivalents, or substitutes included in the technical idea described in the embodiments.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Although terms such as first or second may be used to describe various components, such terms should only be construed for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.It should be understood that when an element is referred to as being “connected” to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as "comprise" or "have" are intended to designate that the described feature, number, step, operation, component, part, or combination thereof exists, but one or more other features or numbers, It should be understood that the presence or addition of steps, operations, components, parts, or combinations thereof is not precluded.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in this specification, it should not be interpreted in an ideal or excessively formal meaning. don't

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. In the description with reference to the accompanying drawings, the same reference numerals are given to the same components regardless of reference numerals, and overlapping descriptions thereof will be omitted.

본 명세서에서 설명하는 에너지 저장 장치(또는 에너지 저장 시스템(energy storage system; ESS))를 위한 강화학습(reinforcement learning) 기반의 제어 시스템은 시간당 전력 수급의 불균형에 의해 발생한 시간대 별 전기 요금 변동과 에너지 저장 장치(또는 배터리)의 열화로 발생할 수 있는 비용에 기초하여 에너지 저장 장치의 감가상각 비용과 총 전기 요금의 합을 최소화하기 위한 최적화된 배터리 관리 시스템 (Battery Management System)을 제공할 수 있다. 제어 시스템의 제어 장치는 제어 모델을 강화학습에 기초하여 학습시킬 수 있다. 제어 모델은 총 전기 요금과 감가상각 예측 비용의 합이 최소가 되도록 하는 에너지 저장 장치의 충방전을 위한 제어 신호를 결정할 수 있다. 감가상각 비용은 에너지 저장 장치의 경제적 가치가 하락하는 것에 의해 발생하는 비용일 수 있다. 에너지 저장 장치가 열화한 정도는 에너지 저장 장치의 사용 패턴과 온도와 같은 작동 환경에 기초하여 결정될 수 있다.The reinforcement learning-based control system for an energy storage device (or energy storage system; ESS) described in this specification is based on timely electricity price fluctuations and energy storage caused by an imbalance in power supply and demand per hour. An optimized battery management system for minimizing the sum of the depreciation cost of the energy storage device and the total electricity cost may be provided based on costs that may occur due to deterioration of the device (or battery). The control device of the control system may learn the control model based on reinforcement learning. The control model may determine a control signal for charging and discharging the energy storage device such that the sum of the total electricity cost and the estimated depreciation cost is minimized. The depreciation cost may be a cost incurred due to a decrease in the economic value of the energy storage device. The degree of degradation of the energy storage device may be determined based on a usage pattern of the energy storage device and an operating environment such as temperature.

본 명세서에서 설명하는 제어 모델은 장기간의 학습 경험을 통해서 인간의 두뇌에 해당하는 함수를 완성할 수 있다. 즉, 제어 모델은 입력을 입력받아 출력을 출력할 수 있다. 입력은 일반적으로 현실에 대한 정보이고 출력은 올바른 행동일 수 있다. 제어 모델은 에너지 저장 장치에 대한 정보를 입력받아 에너지 저장 장치의 충방전에 대한 올바른 결정을 포함하는 행동을 출력할 수 있다. 제어 모델은 현재 시각, 현재 에너지 저장 장치의 충전량, 에너지 저장 장치에 전력이 충전될 수 있는 최대 용량인 충전 용량(capacity) 및 미래 전력 수요량의 예측 값을 포함하는 입력을 입력받을 수 있다. 제어 모델은 입력에 기초하여 에너지 저장 장치의 충방전을 위한 제어 신호를 포함하는 출력을 출력할 수 있다.The control model described in this specification can complete a function corresponding to the human brain through a long-term learning experience. That is, the control model may receive an input and output an output. Inputs are usually information about reality, and outputs can be correct actions. The control model can receive information about the energy storage device and output actions including correct decisions about charging and discharging the energy storage device. The control model may receive inputs including a current time, a current charge amount of the energy storage device, a charging capacity that is a maximum capacity in which power can be charged in the energy storage device, and a predicted value of future power demand. The control model may output an output including a control signal for charging and discharging the energy storage device based on the input.

도 1은 일 실시예에 따른 에너지 저장 장치를 위한 강화학습 기반의 제어 시스템을 도시하는 도면이다.1 is a diagram illustrating a reinforcement learning-based control system for an energy storage device according to an embodiment.

도 1을 참조하면, 제어 시스템은 에너지 저장 장치(130)와 에너지 저장 장치의 충방전을 제어하기 위한 제어 장치(140)를 포함할 수 있다. 에너지 저장 장치(130)는 전력 공급기로(120)로부터 전력을 공급받아 충전될 수 있고, 충전된 전력을 방전하여 시설(110)에 전력을 제공할 수 있다. 제어 장치(140)는 에너지 저장 장치(130)가 충전되는 충전 시간, 충전량, 방전되는 방전 시간 및 방전량을 제어할 수 있다. 만약 제어 장치(140)가, 에너지 저장 장치(130)를 충방전하는 것보다 시설(110)이 전력 공급기(120)로부터 직접 전력을 공급받는 것이 비용 절약에 더 적절한 행동이라고 결정한 경우, 시설(110)은 전력 공급기(120)로부터 전력을 직접 제공받을 수도 있다.Referring to FIG. 1 , the control system may include an energy storage device 130 and a control device 140 for controlling charging and discharging of the energy storage device. The energy storage device 130 may be charged by receiving power from the power supply 120 and may discharge the charged power to provide power to the facility 110 . The control device 140 may control a charging time, a charging amount, a discharging time, and a discharging amount of the energy storage device 130 . If the controller 140 determines that it is a more cost-effective action for the facility 110 to receive power directly from the power supply 120 than to charge and discharge the energy storage device 130, the facility 110 ) may receive power directly from the power supply 120 .

도 2는 일 실시예에 따른 제어 방법을 설명하기 위한 도면이다.2 is a diagram for explaining a control method according to an exemplary embodiment.

도 2를 참조하면 단계(210)에서 제어 장치는 에너지 저장 장치가 에너지를 공급하는 시설의 미래 전력 수요량을 예측할 수 있다. 일 실시예에서 제어 장치는 예측 알고리즘을 이용하여 미래 전력 수요량을 예측할 수 있다. 제어 장치는 예를 들어, 미리 정해진 기간의 시간대 별로 측정된 전력 수요량에 기초하여 에너지 저장 장치가 에너지를 공급하는 시설의 미래 전력 수요량을 예측할 수 있다. 제어 장치는 미리 정해진 기간의 시간대 별로 측정된 전력 수요량의 평균을 산출하고, 평균에 기초하여 에너지 저장 장치가 에너지를 공급하는 시설의 시간대 별 미래 전력 수요량을 예측할 수 있다. 일 예에서 제어 장치는 10주간 시간대 별 에너지 저장 장치가 에너지를 공급하는 시설의 전력 수요량의 평균에 기초하여 에너지 저장 장치가 에너지를 공급하는 시설의 미래 전력 수요량을 예측할 수 있다. 다른 예에서 제어 장치는 미리 정해진 기간의 에너지 저장 장치가 에너지를 공급하는 시설의 전력 수요량의 추세에 기초해서도 에너지 저장 장치가 에너지를 공급하는 시설의 미래 전력 수요량을 예측할 수도 있다. 예를 들어, 최근 10주간 에너지 저장 장치가 에너지를 공급하는 시설의 전력 수요량이 증가하는 추세인 경우, 제어 장치는 전력 수요량의 평균에 기초하여 미래 전력 수요량을 예측하지 않고, 추세에 기초하여 미래 전력 수요량을 예측할 수도 있다.Referring to FIG. 2 , in step 210, the controller may predict future power demand of a facility to which the energy storage device supplies energy. In one embodiment, the control device may predict future power demand using a prediction algorithm. For example, the control device may predict future power demand of a facility to which the energy storage device supplies energy based on the measured power demand for each time zone of a predetermined period. The control device may calculate an average of the measured power demand for each time zone of a predetermined period, and predict future power demand for each time zone of a facility supplying energy from the energy storage device based on the average. In an example, the controller may predict future power demand of a facility supplied with energy by the energy storage device based on an average of power demand of the facility supplied with energy by the energy storage device for each time period for 10 weeks. In another example, the controller may predict future power demand of a facility powered by the energy storage device based on a trend of power demand of the facility powered by the energy storage device for a predetermined period of time. For example, if the power demand of a facility supplying energy from an energy storage device has been trending upward for the past 10 weeks, the control device does not predict the future power demand based on the average of the power demand, but predicts the future power demand based on the trend. You can also predict demand.

단계(220)에서 제어 장치는 에너지 저장 장치의 현재 충전량(State of Charge; SoC), 예측된 미래 전력 수요량, 시간대 별 전기 요금 및 에너지 저장 장치의 사용에 의한 감가상각 예측 비용을 입력으로 하는 강화학습 기반의 제어 모델에 기초하여 에너지 저장 장치의 충방전을 위한 제어 신호를 결정할 수 있다. 일 실시예에서 제어 모델은 에너지 저장 장치의 현재 충전량, 예측된 미래 전력 수요량, 시간대 별 전기 요금 및 에너지 저장 장치의 사용에 의한 감가상각 예측 비용에 기초하여, 충방전의 양을 결정하는 강화학습 에이전트를 학습시킬 수 있다. 강화학습 에이전트는 의사 결정을 대리하는 가상의 존재로 본 명세서에서 설명하는 제어 모델일 수 있고 또는 제어 모델에 의해 생성된 심층신경망 중 적어도 하나일 수도 있다.In step 220, the control device receives reinforcement learning using the current state of charge (SoC) of the energy storage device, predicted future power demand, electricity rates for each time slot, and the estimated depreciation cost due to the use of the energy storage device as inputs. A control signal for charging and discharging of the energy storage device may be determined based on the based control model. In one embodiment, the control model is a reinforcement learning agent that determines the amount of charging and discharging based on the current charging amount of the energy storage device, the predicted future power demand, the electricity rate for each time zone, and the predicted cost of depreciation due to the use of the energy storage device. can be learned. The reinforcement learning agent is a virtual entity representing decision-making and may be a control model described herein or at least one of deep neural networks generated by the control model.

제어 모델은 예를 들어, DQN(Deep Q-learning Network), dbl-DQN(Double Deep Q-learning Network) 및 duel-DQN(Dueling Deep Q-learning Network) 중 적어도 하나의 심층신경망을 이용하여 주어진 입력 값에 대응되는 최적의 충방전의 양을 결정할 수 있다. 입력층은 에너지 저장 장치의 현재 충전량, 전력 수요량, 현재 시간을 포함하는 상태를 입력받을 수 있다.The control model is a given input using, for example, a deep neural network of at least one of DQN (Deep Q-learning Network), dbl-DQN (Double Deep Q-learning Network), and duel-DQN (Dueling Deep Q-learning Network). An optimal charge/discharge amount corresponding to the value may be determined. The input layer may receive a state including a current amount of charge, power demand, and current time of the energy storage device.

강화학습과 관련된 설명은 도 4 내지 도 6에서 보다 자세히 설명된다. 또한, 시간대 별 전기 요금은 도 3에서 설명된다.Descriptions related to reinforcement learning are described in more detail in FIGS. 4 to 6 . In addition, electricity rates for each time zone are described in FIG. 3 .

일 실시예에서 제어 장치는 에너지 저장 장치를 충전할 때 소요되는 전기에 대한 총 전기 요금과 에너지 저장 장치의 사용에 의한 감가상각 예측 비용의 합이 최소가 되도록 에너지 저장 장치의 충방전을 제어하는 제어 신호를 생성할 수 있다. 보다 상세하게 제어 장치는 제어 모델을 이용하여, 현재 에너지 저장 장치의 잔여수명, 에너지 저장 장치의 노화 요인, 에너지 저장 장치의 현재 충전량 및 에너지 저장 장치의 스트레스 요인에 기초하여 에너지 저장 장치의 사용에 의한 감가상각 예측 비용을 산출할 수 있다. 제어 장치는 예측된 미래 전력 수요량 및 시간대 별 전기 요금에 기초하여 총 전기 요금을 산출할 수 있다. 제어 장치는 에너지 저장 장치의 사용에 의한 감가상각 예측 비용과 총 전기 요금의 합이 최소값이 되도록 하는 시간대 별 에너지 저장 장치의 충방전을 제어하는 제어 신호를 생성할 수 있다.In one embodiment, the control device controls charging and discharging of the energy storage device so that the sum of the total electricity cost for electricity consumed when charging the energy storage device and the estimated depreciation cost due to the use of the energy storage device is minimized. signal can be generated. In more detail, the control device uses the control model, based on the remaining life of the current energy storage device, the aging factor of the energy storage device, the current charge amount of the energy storage device, and the stress factor of the energy storage device. Depreciation forecast cost can be calculated. The control device may calculate the total electricity price based on the predicted future power demand and the electricity price for each time period. The control device may generate a control signal for controlling charging and discharging of the energy storage device for each time period such that the sum of the estimated cost of depreciation due to the use of the energy storage device and the total electricity cost becomes a minimum value.

제어 신호는 예를 들어, 시간대 별로 충방전 여부를 제어하기 위한 신호를 포함할 수 있다. 에너지 저장 장치가 특정 시간대에 에너지 저장 장치를 충전하는 것으로 결정한 경우, 제어 신호는 충전량에 대한 정보를 더 포함할 수 있다.The control signal may include, for example, a signal for controlling charging/discharging for each time period. When the energy storage device determines to charge the energy storage device in a specific time period, the control signal may further include information about the charging amount.

실시예에 따라 제어 장치는 에너지 저장 장치에 대해 충방전을 모두 하지 않는 것으로 제어 신호를 결정할 수도 있다. 이 경우에 에너지 저장 장치에 저장된 에너지가 시설에 제공되는 것이 아니고 전력 공급기로부터 에너지가 직접 시설로 제공될 수 있다.Depending on the embodiment, the control device may determine the control signal as not charging/discharging the energy storage device. In this case, energy stored in the energy storage device is not provided to the facility, but energy from the power supply may be directly provided to the facility.

단계(230)에서 제어 장치는 제어 신호에 기초하여 에너지 저장 장치를 충전 또는 방전할 수 있다.In step 230, the control device may charge or discharge the energy storage device based on the control signal.

도 3은 일 실시예에 따른 시간대 별 전기 요금을 설명하기 위한 도면이다. 도 3은 한국에서 적용되고 있는 TOU(Time-of-Use, 사용 시간 대에 따라서 전력량의 단가가 달라지는 전기 요금 제도)에 기초한 전기 요금을 도시할 수 있다. 전기 요금은 23시에서 다음 날 8시 사이에 가장 낮을 수 있고, 10시에서 11시 사이와 13시에서 16시 사이에 가장 높을 수 있다. 즉, 11시에서 다음 날 8시 사이에 전기에 대한 수요가 가장 낮을 수 있고, 10시에서 11시 사이와 13시에서 16시 사이에 가장 높을 수 있다.3 is a diagram for explaining electricity rates for each time zone according to an embodiment. FIG. 3 may show electricity rates based on Time-of-Use (TOU) applied in Korea. Electricity rates can be lowest between 23:00 and 8:00 the next day, and highest between 10:00 and 11:00 and 13:00 and 16:00. That is, the demand for electricity may be lowest between 11:00 and 8:00 the next day, and may be highest between 10:00 and 11:00 and between 13:00 and 16:00.

도 4 내지 도 6은 일 실시예에 따른 강화학습 알고리즘을 설명하기 위한 도면들이다. 도 4 내지 도 6은, 제어 모델을 학습시키기 위한 딥 뉴럴 네트워크를 도시할 수 있다. 도 4 내지 도 6을 참조하면, 각 알고리즘에서 딥 뉴럴 네트워크는 입력층, 은닉층 및 출력층을 포함하는 바닐라 뉴럴 네트워크를 포함할 수 있다. 여기서 입력층은 상태를 입력받을 수 있다. 상태는 벡터 로 정의될 수 있다. 여기서 수요 벡터인 는 Dt , Dt+1 , ..., Dt+12를 포함하는 13개의 요소들을 포함할 수 있다. 이로 인하여 상태 벡터의 길이는 16이 될 수 있다. 각 알고리즘의 딥 뉴럴 네트워크에서 은닉층이 두 개일 수 있고 각 레이어에는 64개의 노드가 포함될 수 있다. 도 6의 딥 뉴럴 네트워크는 은닉층과 출력층 사이에 상태 종속 행동 이점 함수(state dependent action advantage function) 층을 더 포함할 수 있다. 일 예에서, 딥 뉴럴 네트워크의 은닉층의 매개변수는 ReLu 함수가 사용될 수 있다.4 to 6 are diagrams for explaining a reinforcement learning algorithm according to an embodiment. 4 to 6 may show a deep neural network for learning a control model. Referring to FIGS. 4 to 6 , the deep neural network in each algorithm may include a vanilla neural network including an input layer, a hidden layer, and an output layer. Here, the input layer can receive a state. state is vector can be defined as where the demand vector is may include 13 elements including D t , D t+1 , ..., D t+12 . As a result, the length of the state vector may be 16. There can be two hidden layers in the deep neural network of each algorithm, and each layer can contain 64 nodes. The deep neural network of FIG. 6 may further include a state dependent action advantage function layer between the hidden layer and the output layer. In one example, a ReLu function may be used as a parameter of a hidden layer of a deep neural network.

제어 모델은 강화학습 알고리즘에 기초하여 학습될 수 있다. 강화학습 알고리즘은 현재 상태와 행동이 다음 상태로의 확률적 전환에 영향을 미친다는 속성의 마르코프 결정 과정(Markov decision process; MDP)에 기초할 수 있다. 강화학습 알고리즘은 이러한 속성에 기초하여 현재 및 미래의 감가상각 예측 비용과 총 전기 요금의 합을 최소화하기 위한 최적의 행동을 찾아낼 수 있다. 마르코프 결정 과정은 튜플 < S , A, R, γ, P >로 표시될 수 있다. 여기서 S는 모든 상태 s에 대한 상태 공간이고, A는 모든 작업에 대한 행동 공간일 수 있다. R은 상태 s에서 제어 모델이 행동 a를 선택할 때 강화학습 에이전트에게 즉각적인 보상을 제공하는 이변 보상 함수(bivariate reward function) R(s, a)일 수 있다. γ는 즉각적인 보상과 다음 단계의 보상 간의 상대적 중요성을 수치화하는 감가율(discount factor)이고, P는 인접한 두 시간 단계 간의 확률적 전환(probabilistic transition)를 나타낼 수 있다. 전환 함수는 아래 식과 같을 수 있다.The control model may be learned based on a reinforcement learning algorithm. Reinforcement learning algorithms can be based on the Markov decision process (MDP), in which the current state and actions influence the stochastic transition to the next state. Based on these properties, the reinforcement learning algorithm can find the optimal action to minimize the sum of current and future depreciation prediction costs and total electricity bills. A Markov decision process can be represented as a tuple < S, A, R, γ, P >. where S is the state space for all states s, and A can be the action space for all operations. R can be a bivariate reward function R(s, a) that provides an immediate reward to the reinforcement learning agent when the control model in state s chooses action a. γ is a discount factor that quantifies the relative importance between the immediate reward and the next reward, and P can represent a probabilistic transition between two adjacent time steps. The conversion function may be as shown below.

전환 함수는, 강화학습 에이전트가 시간 t에서 상태 s에서 행동 a를 선택하는 경우, 시간 t+1에서 상태 s'가 발생할 확률을 측정할 수 있다.The transition function can measure the probability that state s' will occur at time t+1, if the reinforcement learning agent selects action a in state s at time t.

강화학습은 MDP의 환경에서 강화학습 에이전트가 최적의 행동 과정을 학습하도록 훈련시키는 통계적인 학습 방법일 수 있고, 여기서 최적 행동의 과정을 최적 정책(optimal policy)라고 지칭할 수 있다. 최적 정책을 따름으로써, 강화학습 에이전트는 감가상각 예측 비용과 총 전기 요금의 합을 최소화할 수 있다. 강화학습 에이전트는 기존의 지식 없이 경험을 통해 최적 정책을 학습할 수 있다. 강화학습에서 Q-함수는 상태 s에서 행동 a를 선택하여 기대되는 수익에 대한 이변 함수를 나타낼 수 있다. 정책이 ð인 강화학습 에이전트의 경우 Q-함수는 다음 식과 같이 공식화될 수 있다.Reinforcement learning may be a statistical learning method in which a reinforcement learning agent is trained to learn an optimal course of action in an MDP environment, and the course of the optimal course of action may be referred to as an optimal policy. By following the optimal policy, the reinforcement learning agent can minimize the sum of the depreciation prediction cost and the total electricity bill. Reinforcement learning agents can learn optimal policies through experience without prior knowledge. In reinforcement learning, the Q-function can represent a bivariate function for the expected return from choosing action a in state s. For a reinforcement learning agent whose policy is ð, the Q-function can be formulated as:

는 시간 t에서 감가된 보상의 합인 리턴(return)이고, Rt는 시간 t에서 보상이며, γ는 감가율일 수 있다. Q-러닝은 강화학습 알고리즘과 같은 군(family)일 수 있다. Q-러닝에서 초기 정책 ð0에서 시작하여 강화학습 에이전트는 최적 정책 ð에 도달할 때까지 정책 ð을 반복적으로 업데이트할 수 있다. Q-러닝의 핵심은 정책의 추정(정책의 평가)와 현재의 추정에 따른 실행 중인 정책의 업데이트(정책 개선)일 수 있다. is a return, which is the sum of rewards reduced at time t, R t is a reward at time t, and γ may be a discount rate. Q-learning can be in the same family as reinforcement learning algorithms. In Q-learning, starting from an initial policy ð 0 , the reinforcement learning agent can iteratively update policy ð until it reaches an optimal policy ð. The core of Q-learning can be the estimation of a policy (evaluation of a policy) and the update of the running policy according to the current estimation (policy improvement).

상태 공간과 행동 공간이 모두 충분히 작으면 Q-러닝은 Q-함수를 표로 만들 수 있지만, 상태 공간이나 행동 공간이 커지면 Q-함수의 기능적 근사가 필요할 수 있다. 딥 뉴럴 네트워크를 사용한 Q-러닝을 위한 기능적 근사법인 딥-Q-러닝 네트워크(Deep Q-learning Network; DQN)가 제안될 수 있다. 딥-Q-러닝 네트워크의 구조는 도 4와 같을 수 있다. 딥-Q-러닝 네트워크는 각 시간 단계에서 단일의 Q-함수 추정을 사용할 수 있다. 마지막 은닉층의 출력은 (s,a)에 대한 계층으로 전달되어 5가지 가능한 작업 각각의 값을 추정할 수 있다. 마지막 레이어에서 강화학습 에이전트는 가장 높은 Q값을 가지는 최상의 동작을 선택할 수 있다.Q-learning can tabulate the Q-function if both the state space and the action space are small enough, but a functional approximation of the Q-function may be needed when either the state space or the action space becomes large. A Deep Q-learning Network (DQN), a functional approximation for Q-learning using deep neural networks, can be proposed. The structure of the deep-Q-learning network may be as shown in FIG. 4 . Deep-Q-learning networks can use a single Q-function estimate at each time step. The output of the last hidden layer is It is passed to the layer for (s,a) so that it can estimate the value of each of the five possible operations. In the last layer, the reinforcement learning agent can select the best action with the highest Q value.

도 5는 이중 딥 Q-러닝 네트워크(Double DEEP Q-learning Network; dbl-DQN)의 구조를 도시할 수 있다. 이중 딥 Q-러닝 네트워크는 단일의 Q-함수 추정을 사용하는 DQN에서 발생할 수 있는 과대 추정을 감소시킬 수 있다. dbl-DQN은 두 개의 개별 Q-러닝 네트워크를 사용할 수 있다. 각 단계에서 한 네트워크는 정책 평가를 수행하고, 다른 네트워크는 정책 개선을 수행할 수 있다. 그러나 각 단계의 역할은 본 명세서에서 개시된 내용에 한정되지 않고, 학습 과정 전반에 걸쳐 지속적으로 변경될 수 있다.5 may show the structure of a Double DEEP Q-learning Network (dbl-DQN). Dual deep Q-learning networks can reduce overestimation that can occur in DQNs using single Q-function estimation. dbl-DQN can use two separate Q-learning networks. At each stage, one network may perform policy evaluation and another network may perform policy remediation. However, the role of each step is not limited to the contents disclosed in this specification and may be continuously changed throughout the learning process.

도 6은 듀얼 딥 Q-러닝 네트워크(Dueling Deep Q-learning Network; duel-DQN)의 구조를 도시할 수 있다. 듀얼 DQN은 이변 Q-함수를 상태 값 함수(state value function)와 상태 종속 행동 이점 함수로 분해된 것일 수 있다. 제1 구성요소인 상태 값 함수는 Q-함수에 대한 상태 입력의 기여도를 추정할 수 있다. 제2 구성요소인 상태 종속 행동 이점 함수는 특정 상태에 따라 조건이 지정된 모든 가능한 행동의 평균 결과와 관련하여 각 행동이 Q-함수에 기여하는 방식을 추정할 수 있다. 강화학습 에이전트는 유사한 값의 행동이 많이 존재하는 경우 알고리즘이 적합한지를 확인하기 위하여 듀얼 DQN 알고리즘을 사용하여 단일 행동 변수를 예비 충전 강도로 공식화할 수 있다. 여기서 강화학습 에이전트의 가능한 행동의 강도는 다르지만 완전히 반대 방향이 아니기 때문에 이와 관련하여 강화학습 에이전트는 듀얼 DQN을 사용할 수 있다. 듀얼 DQN은 상태 값 함수를 위한 하나의 계층과 행동 이점 함수를 위한 또 다른 두 개의 계층을 포함할 수 있다.6 may show the structure of a duel deep Q-learning network (duel-DQN). Dual DQN may be a decomposition of a bivariate Q-function into a state value function and a state-dependent behavioral advantage function. The first component, the state value function, can estimate the contribution of the state input to the Q-function. The second component, the state-dependent action advantage function, can estimate how each action contributes to the Q-function in terms of the average outcome of all possible actions conditioned by a particular state. A reinforcement learning agent can formulate a single action variable as a preliminary charge strength using a dual DQN algorithm to check if the algorithm is suitable when there are many actions with similar values. Here, the strength of the reinforcement learning agent's possible actions is different, but not completely opposite, so in this regard, the reinforcement learning agent can use dual DQN. Dual DQNs can include one layer for state value functions and another two layers for behavioral benefit functions.

감가상각 예측 비용은 에너지 저장 장치의 경제적 가치가 하락하는 것에 의해 발생할 것으로 예상되는 비용일 수 있다. 에너지 저장 장치의 열화 정도는 에너지 저장 장치의 사용 패턴과 온도와 같은 작동 환경에 기초하여 결정될 수 있다. 제어 모델이 감가상각 예측 비용을 산출할 때, 에너지 저장 장치의 현재 상태가 고려될 수 있는데, 에너지 저장 장치의 현재 상태에는 에너지 저장 장치의 향후 사용이 에너지 저장 장치 성능 열화 정도에 어떤 영향을 미칠 수 있는지에 대한 모든 관련 정보가 포함될 수 있다. 이 과정에서 제어 모델은 다음 순간의 남은 에너지 저장 장치 수명 ( t+1)이 요인들의 함수가 되도록 공식화할 수 있다. 요인들은 현재 잔여 에너지 저장 장치 수명( t), 현재 SoC(Xt), 다음 순간의 SoC(Xt+1) 및 기타 환경 변수를 포함할 수 있다. 강화학습의 목표는 t+1이 f( t, Xt, Xt+1, 운영 환경)와 같아지는 재귀적 열화 함수(recursive degrading function)인 f(·)를 찾아내는 것일 수 있다. 이 공식을 통해 현재 잔여 수명이 1%일 때 SoC가 x%에서 y%로 변경되는 경우 감가상각 예측 비용을 추정할 수 있다.The predicted depreciation cost may be a cost expected to be incurred due to a decrease in the economic value of the energy storage device. The degree of deterioration of the energy storage device may be determined based on a usage pattern of the energy storage device and an operating environment such as temperature. When the control model calculates the depreciation forecast cost, the current state of the energy storage device may be taken into account, in which future use of the energy storage device may affect the degree of degradation of the energy storage device performance. Any relevant information about whether or not there is a In this process, the control model determines the remaining life of the energy storage device at the next moment ( t+1 ) can be formulated to be a function of the factors. The factors are currently remaining energy storage device life ( t ), the current SoC (X t ), the next instant SoC (X t+1 ), and other environment variables. The goal of reinforcement learning is t+1 equals f( t , X t , X t+1 , operating environment) may be to find a recursive degrading function, f(·). This formula allows us to estimate the estimated cost of depreciation if the SoC changes from x% to y% when the current remaining life is 1%.

에너지 저장 장치의 열화를 발생시키는 요인은 노화 요인 및 스트레스 요인을 포함할 수 있다. 노화 요인은 사용과 상관없는 노화 요인인 캘린더 에이징(Calendar aging) 및 충방전에 의한 노화 요인인 사이클 에이징(cycle aging) 중 적어도 하나를 포함할 수 있다. 스트레스 요인은 에너지 저장 장치의 충전량의 변화에 의해 발생하는 DoD 스트레스(depth of discharge stress), 충전량이 높은 상태로 유지되는 것에 의해 발생하는 SoC 스트레스(state of charge stress), 에너지 저장 장치 작동 시의 온도에 의해 발생하는 온도 스트레스(temperature stress) 및 반복적인 에너지 저장 장치 사용에 의해 발생하는 시간 스트레스(time stress) 중 적어도 하나를 포함할 수 있다.Factors causing deterioration of the energy storage device may include aging factors and stress factors. The aging factor may include at least one of calendar aging, which is an aging factor irrespective of use, and cycle aging, which is an aging factor caused by charging and discharging. The stress factors include DoD stress (depth of discharge stress) caused by a change in the charge amount of the energy storage device, SoC stress (state of charge stress) caused by maintaining a high charge amount, and temperature during operation of the energy storage device. It may include at least one of temperature stress (temperature stress) caused by and time stress (time stress) caused by repetitive use of the energy storage device.

현재 에너지 저장 장치의 수명은 다음 식에 기초하여 계산될 수 있다.The lifetime of current energy storage devices can be calculated based on the following equation.

상수 α 및 는 노화 요인을 다루고, N은 사이클의 수이고 fd,1은 모든 스트레스 요인들을 포함하여 한 사이클에 대한 스트레스 열화를 의미할 수 있다. 사이클이란 20-80, 30-80 등의 충방전 사이클을 의미할 수 있다. fd,1은 다음 식과 같이 표현될 수 있다.constant α and deals with aging factors, N is the number of cycles and f d,1 can mean stress deterioration for one cycle including all stress factors. The cycle may mean a charge/discharge cycle of 20-80 or 30-80. f d,1 can be expressed as the following equation.

δ로 표시되는 DoD는 δ = |Xt+1 -Xt|로 표시될 수 있고, σ로 표시되는 SoC는 σ =(Xt + Xt+1)/2로 표시될 수 있다.DoD denoted by δ can be denoted by δ = |X t +1 -X t |, and SoC denoted by σ can be denoted by σ = (X t + X t+1 )/2.

에너지 저장 장치의 수명 주기는 1) 수명 초기에 급격한 비선형 열화, 2) 수명 초기에 준선형 열화를 경험하는 특징이 있다. 시간 t에서의 상태가 주어진 경우, 시간 t + 1에서의 예상 잔여 수명은 아래 단계들에 기초하여 추정될 수 있다.The life cycle of an energy storage device is characterized by 1) rapid non-linear degradation at the beginning of its life and 2) quasi-linear degradation at the beginning of its life. Given the state at time t, the expected remaining life at time t+1 can be estimated based on the steps below.

(단계 1) 매개변수(α 및 ) 및 온도와 같은 작동 조건이 주어짐.(Step 1) parameters (α and ) and given operating conditions such as temperature.

(단계 2) 시간 t와 시간 t+1(Xt+1) 사이에 계획된 사용 후 현재 조건(Xt, t) 및 SoC에 대한 수량이 알려짐.(Step 2) Current conditions after planned use between time t and time t+1(X t+1 ) (X t , t ) and the quantity for SoC is known.

(단계 3) 단계 2의 매개변수와 단계 1의 매개변수로부터 수학식 3를 이용하여 fd,1을 계산함.(Step 3) Calculate f d,1 from the parameters of Step 2 and the parameters of Step 1 using Equation 3.

(단계 4) 수학식 3에서 LHS는 t로 설정되고; N은 유일하게 알려지지 않은 변수로, 고정 소수점 알고리즘 또는 이분법 알고리즘을 사용하여 수치적으로 결정될 수 있다. 값을 이라고 할 수 있다. 이는 t의 에너지 저장 장치 수명이 Xt에서 Xt+1까지 사이클을 반복하는 것과 동일하다고 할 수 있음.(Step 4) In Equation 3, LHS is set to t; N is a uniquely unknown variable, which can be determined numerically using either a fixed-point algorithm or a bisection algorithm. value can be said this is The energy storage lifetime at t is from X t to X t+1 It can be said to be equivalent to repeating a cycle.

(단계 5) +1인 인수 N과 함께 수학식 3을 사용하여 t를 계산함.(Step 5) Using Equation 3 with factor N equal to +1, Calculate t.

(단계 6) 감가상각 예측 비용은 t - t+1) Х (새 에너지 저장 장치의 가격)으로 산출됨.(Step 6) Depreciation forecast cost is t - t+1 ) Calculated as Х (the price of a new energy storage unit).

일반적으로 에너지 저장 장치에 저장될 충전량의 저하를 발생시키는 요인은 에너지 저장 장치의 효율 및 열화를 포함할 수 있다. 효율 측면에서, 에너지 저장 장치의 충방전 효율을 일반적으로 100%가 아닐 수 있다. 작동 조건에 따라 다를 수 있긴 하지만, 충방전 효율은 일반적으로 그 이하일 수 있고, 충전 후에 전기의 사용 없이도 방전되는 경우 그보다 더 이하가 될 수도 있다. 또한, 에너지 저장 장치가 작동 중일 때 열화가 발생할 수 있다. 에너지 저장 장치의 충방전과 관계없이 SoC가 Xt에서 Xt+1로 변경되면 감가상각 예측 비용이 발생할 수 있다.In general, factors that cause a decrease in the amount of charge to be stored in an energy storage device may include efficiency and deterioration of the energy storage device. In terms of efficiency, the charge/discharge efficiency of an energy storage device may not generally be 100%. Although it may vary depending on the operating conditions, the charge/discharge efficiency may generally be less than that, and may be even less when discharged without using electricity after charging. Deterioration may also occur when the energy storage device is in operation. Depreciation forecasting costs may occur when the SoC changes from X t to X t+1 regardless of the charging and discharging of the energy storage device.

MDP 공식에서, MDP 문제는 (S, A, R, γ, P)의 튜플로 설명되며, 여기서 튜플의 요소는 각각 상태, 행동, 보상, 감가율(discount rate) 및 확률적 전환을 나타낼 수 있다.In the MDP formula, an MDP problem is described as a tuple of (S, A, R, γ, P), where the elements of the tuple can represent states, actions, rewards, discount rates, and stochastic transitions, respectively.

상태 S는 시간 t에서 강화학습 에이전트가 현재 시간(ht), ESS()의 용량, 현재 SoC (Xt), 앞으로 12시간의 전력 수요량 를 관찰한 것일 수 있다.State S is the reinforcement learning agent at time t at the current time (h t ), ESS ( ) of capacity, current SoC (X t ), power demand for the next 12 hours may have been observed.

프로세스가 시간 t = 0에서 시작한다고 가정하면 현재 시간 ht는 mod(t, 24)로 지정될 수 있다. 현재 시간 ht는 TOU에 기초한 전기 요금에 대한 정보를 제공할 수 있다.Assuming the process starts at time t = 0, the current time h t can be specified as mod(t, 24). The current time h t may provide information about electricity rates based on TOU.

ESS()의 용량과 현재 SoC(Xt)는 t 시점의 에너지 저장 장치의 상태를 나타낼 수 있다. 수요 벡터 는 에너지 저장 장치가 에너지를 공급하는 시설의 미래 전력 수요량을 나타낼 수 있다. 상태 St와 같이 상태에 대한 벡터화된 표기법을 완성할 수 있다. ESS()의 용량은 ESS 의 남은 수명에 비례할 수 있다. 즉,ESS( ) and the current SoC (X t ) may indicate the state of the energy storage device at time t. demand vector may represent the future power demand of a facility to which the energy storage device supplies energy. State S t is We can complete the vectorized notation for the state as ESS( ) is the capacity of ESS may be proportional to the remaining life of in other words,

는 위 식과 같을 수 있고, 여기서 는 새 에너지 저장 장치의 용량을 나타낼 수 있다. can be the same as the above expression, where may represent the capacity of the new energy storage device.

제어 모델은 모든 상태에서 최적의 행동 과정을 찾기 위해 경험을 통해 학습될 수 있다. 예를 들어, 미래 전력 수요량이 높고 현재 시간대의 전기 요금이 낮다면, 제어 모델은 전기를 구매하여 미래의 사용을 위해 에너지 저장 장치에 저장할 수 있다. 그러나, 에너지 저장 장치의 현재 상태t and Xt)가 높은 감가상각 예측 비용을 야기하는 경우, 제어 모델은 이 작업을 피할 수 있다.The control model can be learned through experience to find the optimal course of action in any state. For example, if future electricity demand is high and current electricity rates are low, the control model can purchase electricity and store it in an energy storage device for future use. However, the current state of the energy storage device t and X t ) would result in high depreciation forecasting costs, the control model can avoid this task.

전환 P는 시설이 에너지 저장 장치의 충전 없이 신규 에너지를 구매하거나, 에너지 저장 장치의 방전 또는 이 두 가지의 조합에 기초하여 전력 수요량을 나타내는 수요 벡터 Dt를 충족할 수 있다. Pt는 시간 t에서 구매한 에너지의 양(또는 전력량)을 나타낼 수 있다. Dt와 Pt에 기초하여 아래 식이 입증될 수 있다.Conversion P allows the facility to meet the demand vector D t , which represents the amount of electricity demand based on the purchase of new energy without charging the energy storage device, discharging the energy storage device, or a combination of the two. P t may represent the amount of energy (or amount of power) purchased at time t. Based on D t and P t , the equation below can be verified.

LHS는 SoC 수준의 증가 또는 감소를 의미하고 RHS는 즉각적인 전력 수요량 충족한 후 추가 전력을 나타낼 수 있다. 즉, 구매한 전력량이 즉각적인 전력 수요량보다 많은 경우(Pt > Dt인 경우), 에너지 저장 장치의 SoC가 증가할 수 있다. 반면에 Pt < Dt인 경우, 에너지 저장 장치의 SoC가 감소할 수 있다. 만약 Pt과 Dt이 같은 경우, 에너지 저장 장치의 SoC는 동일하게 유지될 수 있다. 에너지 저장 장치의 의 용량 전환은 열화 과정에 기초하여 이루어질 수 있다.LHS means an increase or decrease in SoC level, and RHS can indicate additional power after meeting immediate power demand. That is, when the amount of power purchased is greater than the amount of immediate power demand (when P t > D t ), the SoC of the energy storage device may increase. On the other hand, when P t < D t , the SoC of the energy storage device may decrease. If P t and D t are equal, the SoC of the energy storage device can remain the same. of energy storage The capacity conversion of can be made based on the degradation process.

시간 t에서의 의사 결정인 에 있어서, 제어 모델은 시설의 전력 수요량을 충족하고 에너지 저장 장치에 저장될 충전량을 결정할 수 있다. 제어 모델이 에너지 저장 장치에 저장될 충전량을 결정하는 과정에서 몇 가지 변수가 있을 수 있다. MDP를 공식화할 때, 행동 변수가 |S||A|에 비례하는 것으로 알려진 전체 검색 공간을 결정하기 때문에, 행동 변수를 결정하는 것이 중요할 수 있다. 여기서 |S|는 상태 공간의 크기이고 |A| 행동 공간의 크기일 수 있다.decision at time t , the control model can meet the power demand of the facility and determine the amount of charge to be stored in the energy storage device. Several variables may be involved in the process by which the control model determines the amount of charge to be stored in the energy storage device. When formulating the MDP, the action variable |S| |A| Determining behavioral variables can be important, as it determines the entire search space known to be proportional to . where |S| is the size of the state space and |A| It can be the size of the action space.

행동은 일도량(univariate)이고 백분율 값, 즉 At ∈ [0, 1]이 되도록 행동 공간을 개발해야 할 수 있다. 이 개발은 시간 t, Pt에서 시설이 구매한 전력량에 기초할 수 있다. 시설은 즉각적인 수요인 Dt를 충족시켜야 하기 때문에 시설이 시간 t에 구매한 전력량은 보다 클 수 있다. 여기서, 는 x의 양의 부분일 수 있다. 현재 에너지 저장 장치의 현재 충전량이 즉각적인 수요량을 충당하기에 충분하면 시설이 전력을 구매할 필요가 없지만, 그렇지 않은 경우, 시설은 부족한 전력량(Dt-Xt) 이상의 전력량을 구매해야 할 수 있다. 따라서, 시간 t에서 시설이 구매할 전력량(Pt)의 최소 값은 일 수 있다. 반면에, 에너지 저장 장치의 현재 충전량과 즉각적인 전력 수요량에서 유효한 현재 충전량은 Xt-Dt일 수 있다. 이 때, 에너지 저장 장치는 최대 까지 충전될 수 있다. 따라서, 시간 t에서의 시설이 구매할 전력량의 최대 값은 아래 식과 같을 수 있다.Actions are univariate and you may need to develop an action space such that it is a percentage value, i.e. A t ∈ [0, 1]. This development may be based on the amount of electricity purchased by the facility at time t, P t . Since the facility must meet its immediate demand, D t , the amount of electricity purchased by the facility at time t is can be bigger here, may be the positive part of x. If the current charge of the energy storage is sufficient to meet the immediate demand, the facility does not need to purchase power, but if not, the facility may need to purchase more than the shortfall (D t -X t ). Therefore, the minimum value of the amount of electricity (P t ) that the facility will purchase at time t is can be On the other hand, the current charge amount available from the current charge amount of the energy storage device and the instantaneous power demand may be X t -D t . At this time, the energy storage device is can be charged up to Therefore, the maximum value of the amount of electricity to be purchased by the facility at time t may be as follows.

위 내용에 기초하면, At가 0인 경우에 시설이 구매할 전력량이 최소 값이 되고, At가 1인 경우에 시설이 구매할 전력량이 최대 값이 되도록 At가, 구매할 전력량에 백분율 변수로 정의될 수 있다. At ∈ [0, 1]의 일반적인 경우 구매할 전력량인 Pt는 다음과 같이 정의될 수 있다.Based on the above, A t is defined as a percentage variable in the amount of power to be purchased so that when A t is 0, the amount of power the facility will purchase is the minimum value, and when A t is 1, the amount of power the facility will purchase is the maximum value It can be. In the general case of A t ∈ [0, 1], P t , which is the amount of electricity to be purchased, can be defined as follows.

여기서 x- = min(x, 0)은 x의 음의 부분일 수 있다.where x- = min(x, 0) can be the negative part of x.

행동 At의 정의는 전환이 행동 변수를 사용하여 공식화되어야 하기 때문에, 수학식 6의 전환에 대한 설명이 수정될 수 있다. Xt에 대한 수학식에서 전환과 관련된 부부이 수정된 식은 다음과 같을 수 있다.Since the definition of action A t requires that conversions be formulated using action variables, the description of conversions in Equation 6 can be modified. In the equation for X t , the modified equation of the couple related to the transition may be as follows.

보상 R에 있어서, 보상 Rt는 시간 t에서 제어 모델의 활용을 수치화한 것일 수 있다. 보상은 Pt인 구매할 전력량에 따른 전기 요금과 에너지 저장 장치의 감가상각 예측 비용의 음의 합일 수 있다. 이에 기초하여 보상은 아래 식과 같을 수 있다.For the reward R, the reward R t may quantify the utilization of the control model at time t. Compensation may be a negative sum of an electricity price according to the amount of power to be purchased, which is P t , and an estimated depreciation cost of the energy storage device. Based on this, the compensation may be as follows.

ch는 시간 h에서 단위 당 전기 요금이고, 함수 는 화폐 단위 별로 감가상각 비용을 측정할 수 있다.c h is the electricity price per unit at time h, and the function can measure the cost of depreciation in units of currency.

감가율 γ에 있어서 제어 모델은 요인 γ를 사용하여 수익 Gt를 최대화할 수 있다. 여기서 시간 단위가 1시간으로 주어지며 감가율을 무시할 수 있기에 γ은 1로 설정될 수 있다. 제어 모델은 최적의 행동을 선택하여 모든 상태에서 수익을 극대화할 수 있다. 수익은 다음 식과 같이 표현될 수 있다.For the depreciation rate γ, the control model can maximize the return G t using the factor γ. Here, γ can be set to 1 because the time unit is given as 1 hour and the depreciation rate can be ignored. The control model can choose the optimal action to maximize returns in any state. Revenue can be expressed as:

도 7은 일 실시예에 따른 제어 장치의 구성을 도시하는 도면이다.7 is a diagram showing the configuration of a control device according to an embodiment.

도 7을 참조하면, 제어 장치(700)는 프로세서(710), 메모리(720)를 포함할 수 있다. 실시예에 따라, 제어 장치(700)는 데이터베이스(730)를 더 포함할 수도 있다.Referring to FIG. 7 , the control device 700 may include a processor 710 and a memory 720. Depending on the embodiment, the control device 700 may further include a database 730.

메모리(720)는 프로세서(710)에 연결되고, 프로세서(710)에 의해 실행가능한 인스트럭션들, 프로세서(710)가 연산할 데이터 또는 프로세서(710)에 의해 처리된 데이터를 저장할 수 있다. 메모리(720)는 비일시적인 컴퓨터 판독가능 매체, 예컨대 고속 랜덤 액세스 메모리 및/또는 비휘발성 컴퓨터 판독가능 저장 매체(예컨대, 하나 이상의 디스크 저장 장치, 플래쉬 메모리 장치, 또는 기타 비휘발성 솔리드 스테이트 메모리 장치)를 포함할 수 있다.The memory 720 is connected to the processor 710 and may store instructions executable by the processor 710 , data to be calculated by the processor 710 , or data processed by the processor 710 . Memory 720 may include non-transitory computer-readable media such as high-speed random access memory and/or non-volatile computer-readable storage media (e.g., one or more disk storage devices, flash memory devices, or other non-volatile solid state memory devices). can include

데이터베이스(730)는 제어 장치(700)가 제어 방법을 수행하는 데 필요한 데이터를 저장할 수 있다. 예를 들어, 데이터베이스(730)는 시간대 별 전기 요금 및 시설의 과거 전력 수요량을 저장하고 있을 수 있다.The database 730 may store data necessary for the control device 700 to perform a control method. For example, the database 730 may store electricity rates for each time period and past power demand of facilities.

프로세서(710)는 제어 장치(700) 내에서 실행하기 위한 기능 및 인스트럭션들을 실행하고, 제어 장치(700)의 전체적인 동작을 제어한다. 프로세서(710)는 본 명세서에서 설명된 제어 장치의 동작과 관련된 하나 이상의 동작을 수행할 수 있다.The processor 710 executes functions and instructions to be executed in the control device 700 and controls the overall operation of the control device 700 . The processor 710 may perform one or more operations related to the operation of the control device described herein.

예를 들어, 프로세서(710)는 제어 장치(700)가 에너지 저장 장치(740)가 에너지를 공급하는 시설의 미래 전력 수요량을 예측하고, 에너지 저장 장치(740)의 현재 충전량, 예측된 미래 전력 수요량, 시간대 별 전기 요금 및 에너지 저장 장치(740)의 사용에 의한 감가상각 예측 비용을 입력으로 하는 강화학습 기반의 제어 모델에 기초하여 에너지 저장 장치(740)의 충방전을 위한 제어 신호를 결정하도록 제어 장치(700)를 제어할 수 있다. 또한, 프로세서(710)는 제어 장치(700)가 제어 신호에 기초하여 에너지 저장 장치(740)를 충전 또는 방전하도록 제어 장치(700)를 제어할 수 있다.For example, the processor 710 may allow the controller 700 to predict the future power demand of a facility to which the energy storage device 740 supplies energy, the current charging amount of the energy storage device 740, and the predicted future power demand. Control to determine a control signal for charging and discharging of the energy storage device 740 based on a reinforcement learning-based control model that takes as inputs the electricity rate for each time period and the cost of predicting depreciation due to the use of the energy storage device 740. Device 700 can be controlled. Also, the processor 710 may control the control device 700 to charge or discharge the energy storage device 740 based on the control signal.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The hardware device described above may be configured to operate as one or a plurality of software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited drawings, those skilled in the art can apply various technical modifications and variations based on this. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

110: 시설 120: 전력 공급기
130, 740: 에너지 저장 장치 140, 700: 제어 장치
710: 프로세서 720: 메모리
730: 데이터베이스
110: facility 120: power supply
130, 740: energy storage device 140, 700: control device
710: processor 720: memory
730: database

Claims (5)

에너지 저장 장치를 위한 강화학습 기반의 제어 방법에 있어서,
상기 에너지 저장 장치가 에너지를 공급하는 시설의 미래 전력 수요량을 예측하는 단계;
상기 에너지 저장 장치의 현재 충전량, 상기 예측된 미래 전력 수요량, 시간대 별 전기 요금 및 상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용을 입력으로 하는 강화학습 기반의 제어 모델에 기초하여 상기 에너지 저장 장치의 충방전을 위한 제어 신호를 결정하는 단계; 및
상기 제어 신호에 기초하여 상기 에너지 저장 장치를 충전 또는 방전하는 단계
를 포함하는,
제어 방법.
In the reinforcement learning-based control method for an energy storage device,
predicting future power demand of a facility to which the energy storage device supplies energy;
of the energy storage device based on a reinforcement learning-based control model that takes as inputs the current charging amount of the energy storage device, the predicted future power demand, electricity rates for each time zone, and the predicted cost of depreciation due to the use of the energy storage device. determining a control signal for charging and discharging; and
Charging or discharging the energy storage device based on the control signal.
including,
control method.
제1항에 있어서,
상기 제어 신호를 결정하는 단계는,
상기 에너지 저장 장치를 충전할 때 소요되는 전기에 대한 총 전기 요금과 상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용의 합이 최소가 되도록 상기 에너지 저장 장치의 충방전을 제어하는 상기 제어 신호를 생성하는 단계
를 포함하는,
제어 방법.
According to claim 1,
Determining the control signal,
Generating the control signal for controlling the charging and discharging of the energy storage device so that the sum of the total electricity cost for electricity consumed when charging the energy storage device and the estimated depreciation cost due to the use of the energy storage device is minimized step to do
including,
control method.
제2항에 있어서,
상기 제어 신호를 생성하는 단계는,
제어 모델을 이용하여, 현재 에너지 저장 장치의 잔여수명, 에너지 저장 장치의 노화 요인, 에너지 저장 장치의 현재 충전량 및 에너지 저장 장치의 스트레스 요인에 기초하여 상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용을 산출하는 단계;
예측된 미래 전력 수요량 및 시간대 별 전기 요금에 기초하여 상기 총 전기 요금을 산출하는 단계; 및
상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용과 상기 총 전기 요금의 합이 최소값이 되도록 하는 시간대 별 상기 에너지 저장 장치의 충방전을 제어하는 상기 제어 신호를 생성하는 단계
를 포함하는,
제어 방법.
According to claim 2,
Generating the control signal,
Using the control model, the estimated depreciation cost due to the use of the energy storage device based on the remaining life of the current energy storage device, the aging factor of the energy storage device, the current charge amount of the energy storage device, and the stress factor of the energy storage device calculating;
Calculating the total electricity price based on predicted future power demand and electricity price for each time period; and
Generating the control signal for controlling the charging and discharging of the energy storage device for each time period such that the sum of the estimated depreciation cost due to the use of the energy storage device and the total electricity cost becomes a minimum value.
including,
control method.
제1항에 있어서,
상기 제어 모델은,
상기 에너지 저장 장치의 현재 충전량, 상기 예측된 미래 전력 수요량, 상기 시간대 별 전기 요금 및 상기 에너지 저장 장치의 사용에 의한 감가상각 예측 비용에 기초하여, 충방전의 양을 결정하는 강화학습 에이전트를 학습시키는,
제어 방법.
According to claim 1,
The control model,
Training a reinforcement learning agent to determine the amount of charging and discharging based on the current charge amount of the energy storage device, the predicted future power demand amount, the electricity rate for each time slot, and the predicted cost of depreciation due to the use of the energy storage device ,
control method.
제1항에 있어서,
상기 제어 모델은,
DQN(Deep Q-learning Network), dbl-DQN(Double Deep Q-learning Network) 및 duel-DQN(Dueling Deep Q-learning Network) 중 적어도 하나의 심층신경망을 이용하여 충방전의 양을 결정하는,
제어 방법.
According to claim 1,
The control model,
Determining the amount of charging and discharging using at least one deep neural network of DQN (Deep Q-learning Network), dbl-DQN (Double Deep Q-learning Network) and duel-DQN (Dueling Deep Q-learning Network),
control method.
KR1020220024531A 2022-02-24 2022-02-24 Method and apparatus for controlling based on reinforcement learning for reducing electricity bill using energy stroage system KR20230127001A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220024531A KR20230127001A (en) 2022-02-24 2022-02-24 Method and apparatus for controlling based on reinforcement learning for reducing electricity bill using energy stroage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220024531A KR20230127001A (en) 2022-02-24 2022-02-24 Method and apparatus for controlling based on reinforcement learning for reducing electricity bill using energy stroage system

Publications (1)

Publication Number Publication Date
KR20230127001A true KR20230127001A (en) 2023-08-31

Family

ID=87847621

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220024531A KR20230127001A (en) 2022-02-24 2022-02-24 Method and apparatus for controlling based on reinforcement learning for reducing electricity bill using energy stroage system

Country Status (1)

Country Link
KR (1) KR20230127001A (en)

Similar Documents

Publication Publication Date Title
JP5842054B2 (en) Storage battery analysis system, storage battery analysis method, and storage battery analysis program
JP4203602B2 (en) Operation support method and apparatus for power supply equipment
US20230391219A1 (en) Method and device for managing power of electric vehicle charging station using ess
CN105631528A (en) NSGA-II and approximate dynamic programming-based multi-objective dynamic optimal power flow solving method
US11193984B2 (en) Method and device for the service life-optimized usage of an electrochemical energy store
CN115864611B (en) Energy storage battery safety energy storage management method, system, equipment and storage medium
US10581122B2 (en) Charge and discharge control apparatus and method for an energy storage that provides multiple services
JP7074724B2 (en) Information processing equipment, information processing methods and programs
CN116739158A (en) Self-adaptive optimized energy storage method based on reinforcement learning
Kim et al. Optimize the operating range for improving the cycle life of battery energy storage systems under uncertainty by managing the depth of discharge
KR20230127001A (en) Method and apparatus for controlling based on reinforcement learning for reducing electricity bill using energy stroage system
CN117289605A (en) Fuzzy logic energy storage system control method
JP6417150B2 (en) Power management system, management apparatus, power purchase plan generation method, and computer program
Raju et al. Reinforcement learning in adaptive control of power system generation
AU2021326569B2 (en) Demand and supply planning method and demand and supply planning apparatus
EP4167417A1 (en) Device power supply method, system, and related device
KR102136195B1 (en) Prediction system and method for efficiently supplying power to a plurality of customers and selling the remaining power
Chandrasekaran et al. Tuned fuzzy adapted firefly lambda algorithm for solving unit commitment problem
WO2024057581A1 (en) Charge-state calculation device
GB2578369A (en) Information processing device, method therefor and computer program
Fengl et al. Online Demand Peak Shaving with Machine-Learned Advice in Cyber-Physical Energy Systems
CN116542498B (en) Battery scheduling method, system, device and medium based on deep reinforcement learning
CN116128543B (en) Comprehensive simulation operation method and system for load declaration and clearing of electricity selling company
Zheng et al. Energy storage price arbitrage via opportunity value function prediction
Ali et al. Efficient use of PV in a Microgrid using Reinforcement Learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal