KR20190132193A - A Dynamic Pricing Demand Response Method and System for Smart Grid Systems - Google Patents

A Dynamic Pricing Demand Response Method and System for Smart Grid Systems Download PDF

Info

Publication number
KR20190132193A
KR20190132193A KR1020190001931A KR20190001931A KR20190132193A KR 20190132193 A KR20190132193 A KR 20190132193A KR 1020190001931 A KR1020190001931 A KR 1020190001931A KR 20190001931 A KR20190001931 A KR 20190001931A KR 20190132193 A KR20190132193 A KR 20190132193A
Authority
KR
South Korea
Prior art keywords
customer
value
service provider
price
energy
Prior art date
Application number
KR1020190001931A
Other languages
Korean (ko)
Inventor
루렌지
홍승호
Original Assignee
한양대학교 에리카산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 에리카산학협력단 filed Critical 한양대학교 에리카산학협력단
Publication of KR20190132193A publication Critical patent/KR20190132193A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S50/00Market activities related to the operation of systems integrating technologies related to power network operation or related to communication or information technologies
    • Y04S50/10Energy trading, including energy flowing from end-user application to grid

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Water Supply & Treatment (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

Demand response (DR) has become a method effective in increasing grid reliability and saving energy in a smart grid system as information and communication technologies have advanced, and can promptly respond to the imbalance of demand and supply through flexible load adjustment on a demand side. The present invention suggests a dynamic pricing DR algorithm for energy management considering both the profits of a service provider (SP) and the expenses of a client in a power system market. Reinforcement learning is used to describe a hierarchical decision-making system. Here, a dynamic pricing problem is formalized as a discrete finite Markov decision process, and Q-learning is adopted to solve this decision-making problem. Using the reinforcement learning, the SP can adaptively determine a retail electricity price in an online learning process while resolving uncertainty about the load demand profile of a customer and the flexibility of a wholesale electricity price. A simulation result shows that the DR algorithm according to the present invention can increase the profitability of the SP, reduce customer the energy costs of the customer, balance energy supply and demand in an electricity market, and increase the reliability of a power system, which can thus be a win-win strategy for both. The dynamic pricing DR method comprises the steps of: selecting a retail electricity price; and updating a Q value of a Q-learning algorithm based on the retail electricity price and reward and energy information.

Description

스마트 그리드에서 동적 가격 책정 수요반응 방법 및 시스템{A Dynamic Pricing Demand Response Method and System for Smart Grid Systems}A Dynamic Pricing Demand Response Method and System for Smart Grid Systems

본 발명은 스마트 그리드에서의 수요반응(DR)에 관한 것으로서, 상세하게는 전력 시장에서 가입 고객을 가진 서비스 제공자가 강화학습 모델을 이용해 가입 고객에게 최적의 전기 소매가격을 제공함으로써 서비스 제공자의 수익성을 높이고 가입 고객의 에너지 비용을 줄이며 전력 시장의 에너지 공급과 수요의 균형을 맞추어 전력 시스템의 신뢰도를 향상시킬 수 있는 스마트 그리드에서 동적 가격 책정 수요반응 방법 및 시스템에 관한 것이다. The present invention relates to the demand response (DR) in the smart grid. Specifically, a service provider having a subscription customer in the electric power market provides a profitable service provider's profitability by providing an optimal electric retail price to the subscription customer using the reinforcement learning model. It relates to dynamic pricing demand response methods and systems in a smart grid that can increase the reliability of the power system by increasing energy costs of subscribers, balancing energy supply and demand in the power market.

스마트 그리드 시스템에서 정보통신기술이 진보하면서 수요응답(demand response)이 그리드 신뢰성 향상 및 에너지 절감에 효과적인 방법이 되었고, 수요 측 상의 유연한 부하 조정을 통해 수요공급의 불균형에 즉시 대응할 수 있게 되었다. 미국 에너지부(United States Department of Energy)에 따르면, DR은 "시간이 지남에 따라 전기 가격의 변화를 유도하거나 시장 가격이 높거나 전력망 안정성이 위협받을 때 전력 사용량을 낮추도록 유도된 인센티브를 제공하기 위해 수립된 관세 또는 프로그램”이라고 하였다.As information and communication technology advances in smart grid systems, demand response has become an effective way to improve grid reliability and energy savings, and flexible load balancing on the demand side makes it possible to respond immediately to imbalances in supply and demand. According to the United States Department of Energy, DR said, "Providing incentives to drive changes in electricity prices over time or to lower power usage when market prices are high or grid stability is threatened. Tariffs or programs established for the purpose of

종래 문헌은 일반적으로 DR의 두 가지 범주인 가격과 인센티브 기반을 논의한다. 가격 기반 DR은 시간에 따라 변하는 전기가격에 대응하여 고객의 에너지 사용 패턴을 변경하도록 동기를 부여하고, 인센티브 기반 DR은 전력 시스템의 스트레스 기간 동안 에너지 소비량을 줄이면 고객에게 고정 또는 시변 인센티브를 제공한다. 두 가지 범주는 모두 고유의 이점을 가지고 있고 유연한 수요에 대한 잠재력의 여러 측면을 활용한다. 이 연구는 몇 가지 연구에서 효율성이 평가된 가격 기반 DR에 초점을 맞추고 있다. The prior art generally discusses two categories of DR, price and incentive base. Price-based DR motivates customers to change their energy usage patterns in response to changing electricity prices over time, while incentive-based DR provides fixed or time-varying incentives to customers as they reduce energy consumption during stress periods in their power systems. Both categories have inherent advantages and take advantage of many aspects of their potential for flexible demand. This study focuses on price-based DR where efficiency has been evaluated in several studies.

스마트 그리드 시스템의 사회 복지를 극대화하기 위해 고객의 관점에서 가전 제품을 직접 제어하는데 중점을 둔 가격 기반 DR에 대한 연구가 많이 있다. 예를 들어, 가전 기기의 에너지 소비 계획으로 고객의 비용을 줄이고 에너지 효율성을 높이기 위해 TOU(time-of-use) 가격 정책을 고려하여 연구되었다. 비슷하게 어떤 연구는 상업용과 산업용 고객의 에너지 사용에 대한 TOU 가격 책정의 대규모 현장 배치의 영향을 평가했다. 다른 연구의 저자들은 가격 상승의 시간과 기간이 미리 결정된 주요 피크 플롯에서 상업 및 산업용 DR을 조사하였다. 어떤 연구는 일일 비용을 최소화하면서도 다음날의 전기 가격을 알고 최적의 에너지 소비 일정을 미리 정의하는 결정론적 DR 모델을 설명한다. 또한 다른 저자들은 대규모 전기 고객을 위하여 일일 가격 기반의 실시간 인센티브 기반 전략을 제안했다. 하지만, 인센티브 비율의 기간과 가치는 일정보다 앞당겨 결정된다고 가정했다. 다른 연구에서는 이전의 두 가지 가격 기반 DR 계획이 일정 계획 기간에 현재 및 미래 부하 제어를 모두 고려하여 산업 부하에 맞게 설계 되었다. 그러나 저자가 미래의 가격 불확실성을 모델링 했음에도 불구하고, 이 두 연구 논문의 수학 공식은 복잡하고 실제 구현은 복잡하다. 지금까지 에너지 소비 일정에 관한 이전 연구의 대부분은 주어진 가격 정책에 기반을 두고 있으며 동적 전기시장 환경의 불확실성을 수용할 수 없었다. 따라서 에너지 관리를 위한 혁신적인 동적 가격 책정 메커니즘을 고안하는 것이 필수적이다.In order to maximize the social welfare of the smart grid system, there are many studies on price-based DR that focus on controlling home appliances directly from the customer's point of view. For example, energy consumption planning for home appliances has been studied in consideration of time-of-use pricing to reduce customer costs and increase energy efficiency. Similarly, some studies have evaluated the impact of large field deployments of TOU pricing on commercial and industrial customers' energy use. The authors of other studies examined commercial and industrial DR on major peak plots with predetermined time and duration of price increases. Some studies describe deterministic DR models that know the next day's electricity prices and predefine the optimal energy consumption schedule while minimizing daily costs. Other authors also proposed a real-time incentive-based strategy based on daily prices for large electrical customers. However, it is assumed that the duration and value of the incentive rate is determined ahead of schedule. In another study, the two previous price-based DR plans were designed for industrial loads, taking into account both current and future load control over a period of time. However, despite the author's modeling future price uncertainties, the mathematical formulas of these two papers are complex and the actual implementation is complex. To date, most of the previous studies on energy consumption schedules are based on given pricing policies and cannot accommodate the uncertainty of the dynamic electricity market environment. It is therefore essential to devise innovative dynamic pricing mechanisms for energy management.

동적 가격 책정은 적절한 고객에게 적절한 서비스를 제공하기 위해 적시에 제품 가격을 조정하는 비즈니스 전략이다. 그 동안 스마트 그리드를 통한 동적 가격 책정 DR 알고리즘에 대한 연구가 어느 정도 있었다. 종래 연구는 소매 가격과 마이크로 그리드 송전이 소매업자의 이익을 극대화하기 위한 혼합 정수 이차 프로그래밍 문제로 공식화된 통합 에너지 시스템에서 마이크로 그리드 소매 업체에 대한 DR을 사용한 동적 가격 책정 전략을 조사했다. 다른 연구에서 슈타켈버그(Stackelberg) 게임은 소매업자와 고객 간의 에너지 거래를 모델링하는데 사용되었으며, 소매업자는 에너지 가격 책정 방식을 기반으로 동적 소매 가격을 결정하여 이익을 극대화한 다음 고객이 발표된 가격에 따라 기기의 에너지 사용량을 관리한다. 그러나, 이러한 작업에서는 소매업체가 배포한 동적 가격 책정이 미리 결정되었다. 어느 정도, 이러한 연구는 여전히 결정론적이며 고객의 수요 프로필 및 전력 시장의 도매 전기 가격의 유연성에 대응할 수 없다.Dynamic pricing is a business strategy that adjusts product prices in a timely manner to provide the right services to the right customers. There has been some research on dynamic pricing DR algorithms through smart grids. Previous studies have investigated dynamic pricing strategies using DR for microgrid retailers in integrated energy systems where retail prices and microgrid transmissions are formulated as mixed integer secondary programming issues to maximize retailer benefits. In another study, the Stackelberg game was used to model energy transactions between retailers and customers, who based on energy pricing to determine dynamic retail prices to maximize profits and then to customers at published prices. To manage the energy usage of the device. However, in this work, dynamic pricing distributed by retailers was predetermined. To some extent, these studies are still deterministic and cannot cope with the customer's demand profile and the flexibility of wholesale electricity prices in the power market.

최근에는 인공 지능의 급속한 발전에 따라 스마트 그리드에서 의사 결정 문제를 해결하기 위해 강화 학습(RL)을 채택하는데 관심이 증가하고 있다. 강화학습에서 많은 돌파구가 있다고 보고되었는데 특히, Atari와 AlphaGo에 의해 개발된 심층 Q-네트워크(deep Q-network)가 그것이다. 강화학습은 행동주의 심리학에서 영감을 얻은 기계 학습 영역으로 도 1과 같이 소프트웨어 서비스 제공자가 누적 보상의 개념을 최대화하기 위해 확률론적 환경에서 행동을 취해야 하는 것과 관련이 있다. 서비스 제공자는 이산 시간 단계에 있고 각 시간 단계에서 서비스 제공자는 일련의 사용 가능한 작업 중에서 작업을 선택하고 그 후의 고객으로 보낸다. 그러면, 서비스 제공자는 보상을 받고 새로운 고객으로 이동한다. 서비스 제공자의 목표는 최대한 많은 보상을 가지는 것이다. 강화학습 알고리즘은 에너지 저장 시스템을 계획하고, 예를 들어 배터리 또는 전기 자동차 같은 것에 대한 최적의 충전 정책을 얻기 위해 사용되었다. 이 시나리오는 행동 및 상태의 제한적 횟수 때문에 상대적으로 쉬워서 많은 연구 논문의 집중 대상이 되었다. 다른 연구는 DR의 특정 장치 예를 들어, 전기 온수기, 자동 온도 조절 부하 또는 다른 장치에 대한 에너지 일정 관리방법을 얻기 위해 강화 학습을 사용했다. 다른 연구의 저자는 각 마이크로 그리드들이 다른 마이크로 그리드에 에너지를 사거나 팔 수 있는 용량을 주어 마이크로그리드를 전체적으로 고려했다. 평균 수입을 극대화하기 위해 에너지 거래를 위한 구매/판매 전략을 선택하기 위한 수단으로 강화학습이 마이크로 그리드 간에 사용되었다. Recently, with the rapid development of artificial intelligence, there is increasing interest in adopting reinforcement learning (RL) to solve decision problems in smart grid. Many breakthroughs have been reported in reinforcement learning, especially the deep Q-network developed by Atari and AlphaGo. Reinforcement learning is an area of machine learning inspired by behaviorist psychology, as shown in Figure 1, in which a software service provider must take action in a probabilistic environment to maximize the concept of cumulative rewards. The service provider is in a discrete time step and at each time step the service provider selects a job from a series of available jobs and sends them to the customer afterwards. The service provider is then rewarded and moves to a new customer. The goal of service providers is to have as many rewards as possible. Reinforcement learning algorithms have been used to plan energy storage systems and to obtain optimal charging policies for, for example, batteries or electric vehicles. This scenario is relatively easy due to the limited number of behaviors and states, making it the focus of many research papers. Other studies have used reinforcement learning to obtain energy schedule management methods for specific devices in the DR, such as electric water heaters, thermostatic loads, or other devices. The authors of other studies considered microgrids as a whole by giving each microgrid the capacity to buy or sell energy to other microgrids. Reinforcement learning was used between the microgrids as a means of selecting a purchasing / sales strategy for energy trading to maximize average income.

한국등록특허 제10-1647060호Korea Patent Registration No. 10-1647060

본 발명은 상기 문제를 해결하기 위해 창안된 것으로서, 본 발명의 목적은 전력 시장에서 서비스 제공자의 수익성을 높이고 에너지 수요 고객의 에너지 비용을 줄이며 전력 시장의 에너지 공급과 수요의 균형을 맞추어 전력 시스템의 신뢰도를 향상시키는 것이다. The present invention was devised to solve the above problems, and an object of the present invention is to increase the profitability of a service provider in the electric power market, reduce the energy cost of energy demand customers, and balance power supply and demand in the electric power market, thereby improving reliability of the electric power system. To improve.

이를 위하여, 본 발명에 따른 스마트 그리드에서 동적 가격 책정 수요반응 방법은 서비스 제공자에 의한 동적 가격 책정 수요반응 방법으로서, 그리드 관리자로부터 획득한 전기 도매가격에 근거한 전기 소매가격 범위에서 임의로 전기 소매가격을 선택하는 제1 단계와, 서비스 제공자의 수익 및 고객 비용에 근거한 보상과 고객의 에너지 정보를 획득하는 제 2단계와, 상기 전기 소매가격, 보상 및 에너지 정보에 근거하여 Q-학습 알고리즘의 Q값을 갱신하는 제3 단계를 포함하여, 시간 슬롯의 시작부터 종료까지 시간 슬롯마다 상기 제1 단계부터 제3 단계를 반복하는 것을 특징으로 한다. To this end, the dynamic pricing demand response method in the smart grid according to the present invention is a dynamic pricing demand response method by a service provider, and selects an electric retail price arbitrarily from an electric retail price range based on an electric wholesale price obtained from a grid manager. Updating the Q value of the Q-learning algorithm based on the retail price, the compensation and the energy information, and the second step of acquiring the customer's energy information and the compensation based on the service provider's revenue and the customer's cost. And a third step of repeating the first to third steps for each time slot from the start to the end of the time slot.

또한, 본 발명에 따른 스마트 그리드에서 동적 가격 책정 수요반응 방법은 스마트 그리드에서 서비스 제공자에 의한 동적 가격 책정 수요반응 방법으로서, 상기 서비스 제공자가 가입 고객에 대한 전기 소매가격을 결정하고, 결정한 전기 소매가격에 따라 반응하는 가입 고객의 에너지 소비량과 서비스 제공자의 수익 및 고객 비용에 근거한 보상액을 획득하는 과정을 반복적으로 수행하여, 상기 과정을 반복적으로 수행하여 얻은 누적 보상액이 최대화될 때의 가격 책정 정책을 최적의 가격 책정 정책으로 선택하는 것을 특징으로 한다. In addition, the dynamic pricing demand response method in the smart grid according to the present invention is a dynamic pricing demand response method by the service provider in the smart grid, the service provider determines the electrical retail price for the subscription customer, the electrical retail price determined Iteratively repeats the process of acquiring compensation based on the energy consumption of the subscribed customers and the service provider's profits and customer costs according to the responsiveness, and optimizes the pricing policy when the cumulative compensation obtained by repeating the above process is maximized It is characterized by the selection of a pricing policy.

또한, 본발명에 따른 스마트 그리드에서 동적 가격 책정 수요반응 방법을 실행하기 위한 프로그램은 컴퓨터 판독 기록매체에 저장되어, 상기 프로그램은 그리드 관리자의 전기 도매가격과 가입 고객의 에너지 수요를 입력받는 제1 단계와, Q-학습 알고리즘의 Q값을 0, 시간 슬롯 t 및 반복 i를 1로 초기화하는 제2 단계와, 반복 i에서 상기 전기 도매가격에 근거한 전기 소매가격 범위에서 임의로 전기 소매가격을 선택하는 제3 단계와, 서비스 제공자의 수익 및 고객 비용에 근거한 보상액과 고객의 에너지 정보를 산정하는 제4 단계와, 상기 전기 소매가격, 보상액 및 에너지 정보에 근거하여 Q-학습 알고리즘의 Q값을 갱신하는 제5 단계와, 시간 슬롯 t가 마지막 종료 시간인 T인지 판단하는 제6 단계와, 시간 슬롯이 종료 시간이 아니면 상기 제3 단계 내지 제6 단계를 반복하는 제7 단계와, 시간 슬롯이 종료 시간이면 Q값이 최대값에 도달했는지 판단하는 제8 단계와, Q값이 최대값에 도달하지 않았으면 제3 단계 내지 제7 단계를 반복하는 제9 단계와, Q값이 최대값에 도달했으면 최대 Q값에 대응하는 가격 결정 정책으로 전기 소매가격을 출력하는 단계를 실행하는 것을 특징으로 한다. In addition, a program for executing the dynamic pricing demand response method in the smart grid according to the present invention is stored in a computer-readable recording medium, the program is a first step of receiving the electricity wholesale price of the grid manager and the energy demand of subscribing customers And a second step of initializing the Q value of the Q-learning algorithm to 0, the time slot t and the iteration i to 1, and selecting an electric retail price arbitrarily from the electric retail price range based on the electric wholesale price in the iteration i. A third step of calculating a compensation amount based on the service provider's revenue and the customer's cost and the customer's energy information, and updating the Q value of the Q-learning algorithm based on the retail price, the compensation amount and the energy information. Step 5, determining whether the time slot t is the last end time T; and if the time slot is not the end time, the third to sixth steps. A seventh step of repeating the steps, an eighth step of determining whether the Q value has reached the maximum value if the time slot is the end time, and repeating steps 3-7 if the Q value has not reached the maximum value A ninth step, and if the Q value reaches the maximum value, outputting the retail price with the pricing policy corresponding to the maximum Q value.

본 발명은 다음과 같은 주요 내용을 제공한다. The present invention provides the following main contents.

1) 전력 시스템 시장에서 서비스 제공자의 이익과 고객의 비용을 모두 고려한 에너지 관리를 위한 동적 가격 책정 알고리즘을 제안하였다. 1) In the power system market, we proposed a dynamic pricing algorithm for energy management that considers both the service provider's profit and the customer's cost.

2) 동적 소매 가격책정 문제는 유한 이산 마코프 결정 과정(a finite discrete Markov decision process)으로 공식화되고, Q-학습은 이러한 의사 결정 문제를 해결하기 위해 채택된다. 소매 가격 책정 시에 미리 특정된 모델이 필요없다.2) The dynamic retail pricing problem is formulated into a finite discrete Markov decision process, and Q-learning is adopted to solve this decision problem. There is no need for a pre-specified model at retail pricing.

3) 고객의 부하 수요 프로필의 불확실성과 도매 전기 가격의 유연성이 고려된다. 이는 온라인 학습 과정에서 각 시험에게 의해 달성된다.3) Uncertainty in the customer's load demand profile and flexibility in wholesale electricity prices are taken into account. This is achieved by each exam in the online learning process.

4) 불만족 비용 함수와 같은 고객 개인의 선호가 전기시장에 미치는 영향을 다룬다.4) The effect of individual customer preferences on the electricity market, such as the dissatisfaction cost function.

이에 따라, 본 발명은 전력 시장에서 서비스 제공자의 수익성을 높이고 에너지 수요 고객의 에너지 비용을 줄이며 전력 시장의 에너지 공급과 수요의 균형을 맞추어 전력 시스템의 신뢰도를 향상시키는 효과가 있다. Accordingly, the present invention has the effect of improving the reliability of the power system by increasing the profitability of the service provider in the power market, reducing the energy costs of the energy demand customers, and balancing the supply and demand of the power market.

도 1은 강화학습의 구조를 나타낸 것이다.
도 2는 본 발명에 따른 계층적 전기 시장의 구성을 나타낸 것이다.
도 3은 본 발명에 따른 강화학습(RL)이 적용된 전기 시장 모델의 구성을 나타낸 것이다.
도 4는 본 발명에 따른 Q-학습 메커니즘을 구현한 순서도를 나타낸 것이다.
도 5는 시뮬레이션의 고객 에너지 수요 프로파일을 나타낸 것이다.
도 6은 시뮬레이션의 전기 도매 가격을 나타낸 것이다.
도 7은 3개 고객의 Q값 수렴을 나타낸 것이다.
도 8은 각 시간 슬롯에서 최적의 소매가격 및 에너지 소비를 나타낸 것이다.
도 9는 3개 고객의 에너지 감축을 나타낸 것이다.
도 10은 평균 소매가격에 대한 가중치 인자의 영향을 나타낸 것이다.
도 11은 서비스 제공자와 고객의 평균 수익에 대한 가중치 인자의 영향을 나타낸 것이다.
도 12는 여러 다른 개수의 고객에 대해 학습 속도를 나타낸 것이다.
1 shows the structure of reinforcement learning.
2 illustrates a configuration of a hierarchical electricity market according to the present invention.
Figure 3 shows the configuration of the electricity market model to which reinforcement learning (RL) is applied according to the present invention.
4 shows a flowchart implementing the Q-learning mechanism according to the present invention.
5 shows the customer energy demand profile of the simulation.
6 shows the wholesale price of electricity in the simulation.
7 shows the convergence of Q values of three customers.
8 shows the optimal retail price and energy consumption in each time slot.
9 shows the energy savings of three customers.
10 shows the effect of the weighting factor on the average retail price.
11 illustrates the effect of weighting factors on the average revenue of service providers and customers.
12 shows the learning rate for different numbers of customers.

본 발명은 서비스 제공자가 고객의 에너지 수요 프로필 및 불만족 수준에 따라 동적 가격 결정 전략을 결정하는 도 2와 같은 전력 시스템 시장을 고려한다.The present invention contemplates the power system market as shown in FIG. 2 in which a service provider determines a dynamic pricing strategy based on a customer's energy demand profile and dissatisfaction level.

이와 마찬가지로 그리드 운영자의 도매전기 가격을 고려하고, 좀더 효율적인 에너지 사용을 가능하게 한다. 특히 서비 스제공자는 각 시간대에 고객에게 전송되는 소매가격을 결정하고 고객에게 보상으로 전기요금을 청구한다. 강화학습은 서비스 제공자의 이익을 극대화시키고 고객의 비용을 최소화하기 위해 서비스 제공자가 다양한 고객과 상호작용하면서 동적 소매 정책을 학습하고 획득하는 방법을 분석하는데 사용된다. 동적 가격 결정 문제를 해결하기 위해 강화 학습을 채용하면 이러한 문제에 최상의 솔루션을 제공하는데 3가지 주요 이점이 있다. Similarly, the grid operator's wholesale electricity prices are taken into account, enabling more efficient energy use. In particular, the service provider determines the retail price sent to the customer at each time and bills the customer for electricity. Reinforcement learning is used to analyze how service providers learn and acquire dynamic retail policies while interacting with a variety of customers in order to maximize service providers' benefits and minimize customer costs. Employing reinforcement learning to solve dynamic pricing problems has three main advantages in providing the best solution to these problems.

첫째로 강화 학습 모델은 무료이다. 고객이 소매가격을 선택하는데 미리 특정된 모델이 필요없다. 대신, 소매 가격과 이익 간의 관계는 고객과의 역동적인 상호 작용을 통해 학습된다. Firstly, the reinforcement learning model is free. The customer does not need a prespecified model to choose the retail price. Instead, the relationship between retail price and profit is learned through dynamic interactions with customers.

두 번째로, 강화 학습은 유동적이다. 그것은 전기 시장의 불확실성과 유연성을 고려하여 지속적인 학습과 적응을 통해 동적으로 변화하는 환경에 대응할 수 있다.Second, reinforcement learning is flexible. It can respond to dynamically changing environments through continuous learning and adaptation, taking into account the uncertainty and flexibility of the electricity market.

세 번째로 강화 학습은 간결하다. 알고리즘 전체 계산 과정은 룩업 테이블과 표 1에 표시된 업데이트 메커니즘을 기반으로 한다.Third, reinforcement learning is concise. The algorithm's entire calculation process is based on the lookup table and the update mechanism shown in Table 1.

본 발명의 상세한 설명은 다음과 같이 구성된다. 먼저, 전력시스템 시장 모델을 소개하고 이 모델의 수학적 공식을 기술한다. 다음, 동적 가격 책정 문제를 MDP에 넣어 공식화하고 이러한 의사 결정 문제를 해결하기 위해 Q-학습을 채택하는 것을 포함하여 강화 학습 방법론에 대해 자세히 설명한다. 마지막으로 수치 시뮬레이션 결과에 대해 설명한다. Detailed description of the invention is as follows. First, we introduce the power system market model and describe the mathematical formula of this model. Next, we detail the reinforcement learning methodology, including formulating dynamic pricing issues into the MDP and adopting Q-learning to solve these decision problems. Finally, the numerical simulation results are explained.

시스템 모델System model

도 2와 같이, 그리드 관리자(10), 서비스 제공자(20) 및 고객(30)을 포함하는 전력 시스템 시장 모델을 고려한다. 전력망은 그리드 관리자에 의해 설치, 관리 및 유지된다. 그리드 관리자는 전국 고전압 계통을 운영하는 반면 서비스 제공자는 저전압 전기를 전송한다. 서비스 제공자는 도매 시장 가격으로 그리드 관리자에게 전기를 구입하여 소매 가격으로 고객에게 전기를 판매한다. As shown in FIG. 2, a power system market model that includes a grid manager 10, a service provider 20, and a customer 30 is considered. The grid is installed, managed and maintained by the grid manager. Grid managers operate nationwide high voltage grids, while service providers transmit low voltage electricity. The service provider purchases electricity from the grid manager at the wholesale market price and sells the electricity to the customer at the retail price.

본 발명은 서비스 제공자와 고객간의 DR 알고리즘에 초점을 맞추고 있다. 서비스 제공자는 좀더 효율적으로 에너지를 사용하고 이익을 최대화하기 위하여 어떠한 소매 가격 결정 정책을 할지를 결정하고, 고객들은 에너지 동적 가격 책정 DR 프로그램에 참여하여 에너지 수요를 균형있게 만들고 에너지 비용을 줄인다. 서비스 제공자는 고객의 부하 수요 프로필 및 그리드 관리자로부터 전기를 구입하는 비용을 기반으로 소매 전기 가격을 유동적으로 결정할 수 있다. The present invention focuses on a DR algorithm between a service provider and a customer. Service providers decide what retail pricing policies to use to more efficiently use energy and maximize profits, and customers participate in the energy dynamic pricing DR program to balance energy demand and reduce energy costs. The service provider can flexibly determine the retail electricity price based on the customer's load demand profile and the cost of purchasing electricity from the grid manager.

A. 고객 모델A. Customer Model

고객의 부하 프로필은 우선 순위 및 요구 사항 특성에 따라 중요 부하 또는 대기 부하로 분류할 수 있다.Customer load profiles can be categorized as either critical or standby based on their priority and requirements.

중요 부하: 데이터 센터의 전력 사용과 같이 고객의 부하 수요가 임계적으로 충족되는 것이 매우 중요하다. Critical loads: Critically meeting customer load demands, such as data center power usage, is critical.

(1)

Figure pat00001
(One)
Figure pat00001

여기서

Figure pat00002
는 시간 슬롯 t를 나타내고, T는 하루의 최종 시간 슬롯 즉, T=24이고, 가격은 매시간 갱신되고,
Figure pat00003
고객은 n으로 나타낸다. 시간 슬롯 t에서의 고객 n의 에너지 수요를
Figure pat00004
및 에너지 소비를
Figure pat00005
으로 각각 나타낸다.here
Figure pat00002
Represents the time slot t, T is the last time slot of the day, T = 24, the price is updated hourly,
Figure pat00003
Customer is represented by n. The energy demand of customer n in time slot t
Figure pat00004
And energy consumption
Figure pat00005
Respectively.

대기 부하: 난방, 환기 및 냉방(HVAC)과 같은 고객의 전기 수요는 대개 전기 가격이 상승함에 따라 감소한다. 고객 n이 시간 슬롯 t에서 에너지

Figure pat00006
를 소비하면, 고객 n의 부하 수요의 에너지량
Figure pat00007
이 충족되고 부하 수요
Figure pat00008
의 나머지는 만족되지 않는다. 이러한 감소된 에너지는 시간슬롯 t에서 고객 n의 불만을 야기하며, 이것은 불만족 비용 함수
Figure pat00009
로 표시된다. 이 모델은 고객이 에너지 수요를 줄일 때 경험할 수 있는 불쾌감의 정도를 모델링하고 볼록 함수로 정의되며 에너지를 크게 줄임으로써 극적으로 증가한다.Atmospheric loads: Customers' demand for electricity, such as heating, ventilation, and cooling (HVAC), usually decreases with rising electricity prices. Customer n has energy in time slot t
Figure pat00006
, The amount of energy in load demand of customer n
Figure pat00007
To meet the load demand
Figure pat00008
The rest of is not satisfied. This reduced energy causes customer n dissatisfaction in timeslot t, which is a function of dissatisfaction cost
Figure pat00009
Is displayed. This model models the degree of discomfort that a customer may experience when reducing energy demand, is defined as a convex function, and increases dramatically by significantly reducing energy.

시간 슬롯 t에서의 고객 n에 의한 감축 가능한 소비 에너지는 다음과 같이 정의된다.The energy consumption that can be reduced by customer n in time slot t is defined as follows.

(2)

Figure pat00010
(2)
Figure pat00010

(3)

Figure pat00011
(3)
Figure pat00011

(4)

Figure pat00012
(4)
Figure pat00012

여기서,

Figure pat00013
는 시간 슬롯 t에서의 탄력성 계수,
Figure pat00014
는 시간 슬롯 t에서의 고객 n에 대한 전력 소매 가격을 나타내고, 시간 슬롯 t에서의
Figure pat00015
는 도매 전력 가격을 나타낸다.here,
Figure pat00013
Is the elasticity coefficient in time slot t,
Figure pat00014
Represents the power retail price for customer n in time slot t,
Figure pat00015
Represents wholesale power prices.

경제학에서 탄력성

Figure pat00016
이란 한 경제 변수가 다른 경제 변수의 변화에 어떻게 반응하는지를 나타내는 척도이다. 특정 상황에서 수요의 가격 탄력성은 재화의 가격 변화에 대한 재화나 용역의 수요량의 반응성 또는 탄력성을 나타내는 척도이다. 보다 정확하게 스마트 그리드에서 이 매개 변수는 1% 가격 변동에 대한 에너지 수요 변화를 나타낸다. 탄력성은 일반적으로 부정적 의미이며, 이는 전력 수요와 전기 가격 사이의 역 관계를 나타낸다. 몇 가지 연구는 스마트 그리드에서 수요의 가격 탄력성을 조사했다. 마시모(Massimo)는 하루 중 시간대와 계획 기간에 따른 가격 탄력성의 변화를 조사한 결과 전력 수요가 피크 시간대에는 비 피크 시간대에 비해 더 탄력적이며 장기간 탄력성은 일반적으로 단기 탄력성보다 크다고 결론 지었다. Miller와 Alberini는 미국의 전국 주택 조사, 양식 ELA-861 및 주거 에너지 소비 조사와 같은 3개의 전국 데이터 세트 실험을 통해 -0.2에서 -0.7의 가격 탄력성을 발견했다. 이 연구에서 에너지 관리를 위한 실시간 결정을 내릴 때 강화 학습을 채택할 타당성을 탐구하는데 초점을 맞췄다. 따라서 탄력성 값은 기존 연구에서 직접 얻어진다.Resilience in Economics
Figure pat00016
Is a measure of how one economic variable responds to changes in another. In certain circumstances, the price elasticity of demand is a measure of the responsiveness or elasticity of the quantity demanded of a good or service to changes in the price of the good. More precisely in a smart grid, this parameter represents a change in energy demand for a 1% price change. Resilience is generally negative, indicating the inverse relationship between power demand and electricity prices. Some studies have examined the price elasticity of demand in smart grids. Massimo examined changes in price elasticity over time and planning periods throughout the day and concluded that power demand is more elastic at peak times than non-peak times, and long-term elasticity is generally greater than short-term elasticity. Miller and Alberini found price elasticities of -0.2 to -0.7 in three national dataset experiments, the US National Housing Survey, Form ELA-861, and Residential Energy Consumption Survey. This study focused on exploring the feasibility of adopting reinforcement learning when making real-time decisions for energy management. Thus, elasticity values are obtained directly from existing studies.

시간슬롯 t에서의 고객 n의 불만족 비용 함수는 다음과 같이 정의된다.The dissatisfaction cost function of customer n at timeslot t is defined as

(5)

Figure pat00017
(5)
Figure pat00017

(6)

Figure pat00018
(6)
Figure pat00018

(7)

Figure pat00019
(7)
Figure pat00019

(8)

Figure pat00020
(8)
Figure pat00020

(5)에서,

Figure pat00021
Figure pat00022
는 고객에 따라 달라지는 파라미터이며,
Figure pat00023
는 다른 고객들 사이에서 변하는 고객 선호도 값이며,
Figure pat00024
는 미리 결정된 상수이다.
Figure pat00025
은 전기 수요 감소에 대한 고객의 태도를 반영 한다.
Figure pat00026
이 더 크다는 것은 고객이 만족도를 높이기 위해 수요 감축을 적게하는 것을 선호한다는 것을 나타내고 더 적다는 것은 반대의 의미이다.
Figure pat00027
Figure pat00028
는 소매 가격이 실효값일 때 수요 감축의 범위를 나타낸다.In (5),
Figure pat00021
Wow
Figure pat00022
Is a customer-specific parameter.
Figure pat00023
Is a customer preference value that changes among other customers.
Figure pat00024
Is a predetermined constant.
Figure pat00025
Reflects the customer's attitude toward reduced electricity demand.
Figure pat00026
This greater indicates that the customer prefers less demand reduction to increase satisfaction and less means the opposite.
Figure pat00027
and
Figure pat00028
Represents the extent of demand reduction when the retail price is the effective value.

고객 n의 목표는 아래에 설명된 대로 비용을 최소화하는 것이다.The goal of customer n is to minimize costs as described below.

(9)

Figure pat00029
(9)
Figure pat00029

B. 서비스 제공 업체 모델B. Service Provider Model

서비스 제공자가 그리드 관리자가 조직한 도매 전력 시장에 참여한다고 가정한다. 각 시간 슬롯에서 서비스 제공자는 그리드 관리자가 결정한 도매 가격으로 그리드 관리자에게 에너지를 구입한 후 다음 자체 결정된 소매 가격으로 고객에게 에너지를 판매한다. 따라서 서비스 제공자의 목표는 다음과 같이 이익을 극대화하는 동적 소매 가격 책정을 수행하는 것이다.Suppose a service provider participates in a wholesale power market organized by a grid manager. In each time slot, the service provider purchases energy from the grid manager at the wholesale price determined by the grid manager and then sells energy to the customer at its own determined retail price. Therefore, the service provider's goal is to perform dynamic retail pricing that maximizes profits as follows:

(10)

Figure pat00030
10
Figure pat00030

(11)

Figure pat00031
(11)
Figure pat00031

일반적으로

Figure pat00032
Figure pat00033
보다 크지만, 범위 내에 있어야 한다. 식(11)에서
Figure pat00034
Figure pat00035
는 소매 가격 경계의 미리 결정된 계수이다. 이 속성은 가격을 공정하게 유지하고 이익을 보호하기 위해 서비스 제공자와 고객 간의 규제 요구조건이나 상호 합의를 반영할 수 있다.Generally
Figure pat00032
silver
Figure pat00033
Greater than, but within range. In equation (11)
Figure pat00034
Wow
Figure pat00035
Is a predetermined coefficient of the retail price boundary. This attribute may reflect regulatory requirements or mutual agreement between the service provider and the customer in order to keep prices fair and protect interests.

C. 목적함수C. Objective Function

본 발명은 서비스 제공자의 수익과 고객의 비용을 다음과 같이 고려한다.The present invention considers the revenue of the service provider and the cost of the customer as follows.

(12)

Figure pat00036
(12)
Figure pat00036

(13)

Figure pat00037
(13)
Figure pat00037

여기서

Figure pat00038
는 서비스 제공자의 이익과 고객 비용 간의 상대적 중요성을 나타내는 가중치 계수이다.
Figure pat00039
의 값은 서비스 제공자의 정책에 따라 결정되어야 한다.
Figure pat00040
의 영향은 후술하기로 한다. here
Figure pat00038
Is a weighting factor that indicates the relative importance between the service provider's benefits and customer costs.
Figure pat00039
The value of shall be determined according to the service provider's policy.
Figure pat00040
The influence of will be described later.

강화학습 방법론Reinforcement Learning Methodology

강화학습(RL)은 도 3에 도시된 바와 같이, 상술한 계층 의사 결정 프레임워크를 설명하는데 적합하다. 서비스 제공자(20)는 에이전트의 역할을 하고, 고객(30)은 환경(environment)이며, 소매가격은 서비스 제공자가 각 시간 슬롯에서 고객에게 보내는 행동(action)을 나타내고, 고객의 에너지 정보(에너지 수요 및 소비)는 상태(state)를 나타내고, 서비스 제공자의 수익 및 고객 비용은 보상(reward)을 나타낸다. 먼저 동적 소매 가격책정 문제를 이산 유한 구간(discrete finite horizon) 마코프 결정 과정(MDP)으로 공식화한다. 그 다음 Q-학습을 채택하여 시스템 역학 및 불확실성에 대한 충분한 지식이 필요없는 효율적인 동적 가격 책정 알고리즘을 제안한다. Reinforcement learning (RL) is suitable for describing the hierarchical decision framework described above, as shown in FIG. The service provider 20 acts as an agent, the customer 30 is an environment, the retail price represents the action the service provider sends to the customer in each time slot, and the customer's energy information (energy demand). And consumption) represent a state, and the revenue and customer costs of a service provider represent a reward. First, the dynamic retail pricing problem is formulated into the discrete finite horizon Markov decision process (MDP). We then adopt Q-learning to propose an efficient dynamic pricing algorithm that does not require sufficient knowledge of system dynamics and uncertainty.

A. 마코프 결정 과정을 이용한 시스템 모델의 공식화 A. Formulation of System Model Using Markov Decision Process

동적 소매 가격책정 문제는 확률론적 환경에서 의사 결정 문제이기 때문에 이산 유한 구간 MDP로 모델화된다. 이 MDP 모델에서 보상 및 에너지 소비는 해당 시간 슬롯의 에너지 수요 및 소매 가격에만 의존하고 과거 데이터에는 의존하지 않는다. MDP에서 모델화되는 핵심 구성 요소에는 이산 시간 t, 동작

Figure pat00041
, 상태 S
Figure pat00042
및 보상
Figure pat00043
이 포함된다.Dynamic retail pricing is modeled as discrete finite-interval MDP because it is a decision problem in probabilistic environments. In this MDP model, compensation and energy consumption depend only on the energy demand and retail price of the time slot, not on historical data. Key components modeled in MDP include discrete time t, behavior
Figure pat00041
, State S
Figure pat00042
And reward
Figure pat00043
This includes.

1) t는 소매 가격 조치가 시행되는 유한 이산 시간 슬롯이다.1) t is a finite discrete time slot in which retail price measures are enforced.

2)

Figure pat00044
는 고객 n에 대해 서비스 제공자가 시간 슬롯 t에서 선택하는 소매가격이다.2)
Figure pat00044
Is the retail price that the service provider selects in time slot t for customer n.

3)

Figure pat00045
은 서비스 제공자로부터 소매가격 신호를 받기 전에 고객의 에너지 수요를 나타낸다.
Figure pat00046
은 서비스 제공자로부터 소매가격 신호를 받은 후 고객의 실제 에너지 소비량을 나타낸다.3)
Figure pat00045
Represents the energy demand of the customer before receiving the retail price signal from the service provider.
Figure pat00046
Represents the actual energy consumption of the customer after receiving a retail price signal from the service provider.

4)

Figure pat00047
은 상술한 서비스 제공자의 수익 및 고객 비용으로, 주어진 상태에서 소매 가격 책정을 실행하여 얻게 되는 예상되는 즉각적 보상을 나타낸다. MDP의 에피소드(시작부터 종료까지의 기록)는 다음과 같이, 시간 슬롯, 상태, 동작(action) 및 보상의 유한한 순서를 형성한다4)
Figure pat00047
Denotes the expected immediate rewards of implementing retail pricing in a given state, with the revenue and customer costs of the service provider described above. Episodes of MDP (recording from start to end) form a finite sequence of time slots, states, actions, and rewards, as follows:

Figure pat00048
Figure pat00048

MDP를 한번 시행 하면 1회분에 대한 총 보상을 쉽게 계산할 수 있다. Once the MDP is implemented, the total compensation for each batch can be easily calculated.

(14)

Figure pat00049
(14)
Figure pat00049

(15)

Figure pat00050
(15)
Figure pat00050

그러면 시간 슬롯 t에서부터 총 미래 보상은 다음과 같이 표현된다.Then the total future reward from time slot t is expressed as

(16)

Figure pat00051
(16)
Figure pat00051

그러나 환경은 확률적이다. 따라서 다음에 동일한 행동을 취할 때 동일한 보상을 받을지 확신할 수 없다. 미래로 더 갈수록 더 많이 분기된다. 그러므로 할인된 미래 보상을 대신 사용하는 것이 일반적이다.But the environment is stochastic. Therefore, you cannot be sure that you will receive the same reward the next time you take the same action. The more we branch into the future, the more we branch. Therefore, it is common to use discounted future rewards instead.

(17)

Figure pat00052
(17)
Figure pat00052

여기서

Figure pat00053
는 현재 시스템 보상과 비교하여 미래 시스템 보상의 상대적 중요성을 나타내는 할인 요소이다. 특히
Figure pat00054
가 0 일 때 시스템은 근시안적이고 현재 보상에만 의존한다. 환경이 결정론적이고 동일한 조치가 항상 동일한 보상으로 나타나는 경우,
Figure pat00055
는 1로 설정할 수 있다. 현재 보상 및 향후 보상의 균형을 유지하려면
Figure pat00056
값을 실제 소수(예: 0.9)로 설정해야 한다. 시간 슬롯 t에서의 할인된 미래 보상이 시간 슬롯 t+1에서 동일한 표현으로 표현될 수 있음을 쉽게 알 수 있다.here
Figure pat00053
Is a discount factor that indicates the relative importance of future system rewards compared to current system rewards. Especially
Figure pat00054
Is 0, the system is shortsighted and depends only on the current compensation. If the environment is deterministic and the same action always results in the same reward,
Figure pat00055
Can be set to 1. To balance current and future rewards
Figure pat00056
You must set the value to the actual decimal number (eg 0.9). It can be readily seen that the discounted future reward in time slot t can be represented by the same representation in time slot t + 1.

(18)

Figure pat00057
(18)
Figure pat00057

상태를 행동에 매핑하는 정책을 υ으로 표시한다. 동적 가격책정 문제의 목표는 기대되는 할인 보상을 최대화하기 위해 항상 동작(소매 가격)을 선택하는 최적의 정책 υ을 찾는 것이다. Mark υ as the policy that maps state to behavior. The goal of the dynamic pricing problem is to find the optimal policy v that always selects an action (retail price) to maximize the expected discount reward.

B. 동적 가격 책정 문제에 Q-학습 채택B. Adopt Q-learning for dynamic pricing issues

강화학습은 알려지지 않은 환경에서 순차적으로 의사결정을 내리는 접근 방식이다. 과거의 경험에 대한 온라인 학습을 기반으로 실시간으로 정책을 변경할 수 있다.Reinforcement learning is an approach to making decisions sequentially in an unknown environment. Policies can be changed in real time based on online learning of past experiences.

모델 없는 강화학습 기법의 한 유형인 Q-학습은 최적 정책(본 발명에서 소매가격의 순서)를 획득하는데 사용된다. Q-학습의 기본 원리는 시간 슬롯 t에서 각 상태 행동 쌍에 Q값

Figure pat00058
을 할당하고 반복에서 이를 업데이트하여 양호한 행동을 강화하는 것이다. 최적의 Q값
Figure pat00059
은 시작 상태
Figure pat00060
에서 조치
Figure pat00061
를 취하고 최적 정책을 계속해서 따를 때 최대 할인 미래 보상을 나타내며, 이것은 식 (18)을 기반으로 Bellman 식을 충족시킨다.Q-learning, a type of modelless reinforcement learning technique, is used to obtain an optimal policy (order of retail prices in the present invention). The basic principle of Q-learning is the Q value for each state behavior pair in time slot t.
Figure pat00058
Is assigned and updated in the iteration to reinforce good behavior. Optimal Q value
Figure pat00059
Is the starting state
Figure pat00060
Action from
Figure pat00061
The maximum discounted future reward is obtained by taking, and continuing to follow the optimal policy, which satisfies the Bellman equation based on equation (18).

(19)

Figure pat00062
(19)
Figure pat00062

표 1에 도시된 바와 같이, Bellman 식을 이용해 Q값을 구하는 메커니즘을 갱신하는 것이 축약되어 있다. 메커니즘 갱신 시 θ은 Q값이 어느 정도까지 이전 Q값을 대체할 수 있는지를 나타내는 학습율이다. 0은 서비스 제공자가 아무것도 학습하지 못하는 것을 의미하지만, 1은 서비스 제공자가 최신 정보만 고려한다는 것을 의미한다. As shown in Table 1, updating the mechanism for obtaining the Q value using the Bellman equation is abbreviated. When updating the mechanism, θ is a learning rate indicating how far the Q value can replace the previous Q value. 0 means the service provider learns nothing, while 1 means the service provider only considers the latest information.

표 1. Q-LEARNING TECHNIQUETable 1. Q-LEARNING TECHNIQUE

Figure pat00063
Figure pat00063

Q-학습의 알고리즘에서 서비스 제공자는 일련의 작업을 행하여 환경(고객)과 상호 작용을 한다. 그런 다음 환경이 변경되고 서비스 제공자가 새로운 상태와 보상 신호를 받는다. 이 과정에서 시행 착오를 통해 학습이 이루어진다. 학습 과정 중 Q값이 저장되고 업데이트된다. 충분한 수의 반복을 통해 업데이트된 후 Q값이 최대값으로 수렴한다.

Figure pat00064
가 상태
Figure pat00065
에서 행동
Figure pat00066
으로 최대 기대되는 시스템 이익이 되므로, 다음과 같은 최적의 정책을 얻을 수 있다.In the algorithm of Q-learning, a service provider performs a series of tasks to interact with the environment (customer). The environment then changes and the service provider receives new status and reward signals. In this process, learning takes place through trial and error. The Q value is stored and updated during the learning process. After updating through a sufficient number of iterations, the Q value converges to the maximum value.
Figure pat00064
State
Figure pat00065
Act on
Figure pat00066
This is the maximum expected system benefit, so the following optimal policy can be obtained.

(20)

Figure pat00067
20
Figure pat00067

그러면 최적의 소매 가격이 결정된다.The best retail price is then determined.

도 4의 흐름도는 표 1에 제시된 Q-학습 알고리즘이 최대 Q-값(최적 소매가격)을 얻기 위해 어떻게 구현되는지를 나타낸다. 여기서 알고리즘의 입력 및 출력이 특정된다.4 shows how the Q-learning algorithm shown in Table 1 is implemented to obtain the maximum Q-value (optimal retail price). Here the input and output of the algorithm are specified.

Q-학습 알고리즘은 도 4에 도시된 바와 같이, 하루의 시작에서 동작된다. 알고리즘에 대한 입력은 시간 슬롯 T에 따른 고객의 에너지 수요, 도매 전력 가격, 소매 가격 범위의 계수 및 다른 관련 파라미터를 포함한다. 이러한 파라미터를 수신하면, 서비스 제공자는 Q값을 0으로, 시간 슬롯 t와 반복값 i를 1로 초기화한다. 그러면, 서비스 제공자는 최적의 소매 가격을 반복적으로 계산할 것이다. The Q-learning algorithm is operated at the beginning of the day, as shown in FIG. Inputs to the algorithm include the customer's energy demand over time slot T, wholesale power price, coefficient of retail price range, and other related parameters. Upon receiving this parameter, the service provider initializes the Q value to 0 and the time slot t and the repetition value i to 1. The service provider will then calculate the optimal retail price repeatedly.

즉, 각각의 반복되는 i에서 서비스 제공자는 시간 슬롯마다 고객의 에너지 수요 정보를 관찰한 다음 소매가 경계 내에서 ε-greedy 정책을 사용하여 소매 가격을 선택한다. 강화 학습은 영리한 탐사 메커니즘을 필요로 한다. 무작위로 행동을 선택하면 일반적으로 추정된 확률 분포를 참조하지 않고 성능이 떨어진다. 가장 일반적인 방법은 ε-greedy 정책을 사용하는 것이며, 이 정책은 사용 가능한 행동 집합 내에서 균일하게 배포되는 행동을 선택한다. 이 정책을 사용하여 각 반복에서 주어진 상태의 Q값으로부터 확률 ε(ε은 0과 1사이의 분수)의 행동 또는 확률 1-ε의 행동 중 하나를 선택할 수 있다. 여기서 무작위 선택은 서비스 제공자가 주어진 상태의 가격 범위 내에서 소매 가격을 임의로 선택하는 것을 나타내고, Q값으로부터의 선택은 서비스 제공자가 주어진 상태에서 저장된 Q값을 검색하여 최대 Q값을 찾은 다음 대응하는 소매가격을 선택하는 것을 의미한다. 여기서 최대 Q값은 고정 되어있지 않고 이후 반복으로 대체될 수 있음에 유의해야 한다. 이것은 시스템에 임의성을 부여하지만, 완전한 임의성을 예방하며 행동 공간의 탐험을 촉진한다. 소매 가격을 선택한 후, 서비스 제공자는 식 (12)에 의한 즉각적 보상을 얻을 수 있으며, 시간 슬롯 t+1에서 고객의 에너지 수요를 관측하고, 표 1의 Q-학습 메커니즘을 사용하여 Q값을 업데이트한 후 해당 프로세스를 마지막 시간 슬롯 T에 도달 할 때까지 반복한다. 그 후 서비스 제공자는 현재 Q값을 이전 Q 값과 비교하여 최대 Q값에 수렴했는지 확인하고, 그렇지 않으면 시스템을 다음 반복값인 i+1으로 이동하여 이 과정을 반복한다.That is, in each iteration i, the service provider observes the customer's energy demand information at each time slot and then selects the retail price using the ε-greedy policy within the retail price boundary. Reinforcement learning requires a clever exploration mechanism. Selecting a random behavior generally degrades performance without referring to the estimated probability distribution. The most common way is to use the ε-greedy policy, which selects behaviors that are distributed evenly within the set of available behaviors. This policy can be used to select either the behavior of probability ε (ε is a fraction between 0 and 1) or the behavior of probability 1-ε from the Q value of a given state in each iteration. Where the random selection indicates that the service provider randomly selects the retail price within the price range of a given state, and the selection from the Q value indicates that the service provider searches the stored Q value in a given state to find the maximum Q value, and then the corresponding retail It means choosing a price. Note that the maximum Q value is not fixed and can be replaced by subsequent iterations. This gives the system randomness, but prevents complete randomness and facilitates exploration of the behavior space. After choosing the retail price, the service provider can get immediate compensation by equation (12), observe the customer's energy demand in time slot t + 1, and update the Q value using the Q-learning mechanism in Table 1 Then repeat the process until the last time slot T is reached. The service provider then compares the current Q value with the previous Q value to see if it has converged to the maximum Q value, otherwise it moves the system to the next iteration i + 1 and repeats this process.

반복 종료 조건은 다음과 같다

Figure pat00068
. 현재 Q값과 이전 Q값 사이의 차이가
Figure pat00069
보다 작으면 Q 값은 최대값으로 수렴한다
Figure pat00070
의 값은 시스템 설계에 달려 있다. 마지막으로, 서비스 제공자는 하루의 t=1부터 t-=T 까지 시간 슬롯에 대한 최적의 소매 가격을 얻고 등록된 고객에게 이 가격을 알린다.The iteration termination condition is as follows.
Figure pat00068
. The difference between the current Q value and the previous Q value
Figure pat00069
If less, the Q value converges to the maximum value.
Figure pat00070
The value of depends on the system design. Finally, the service provider obtains the optimal retail price for the time slot from t = 1 to t- = T of the day and informs the registered customer of this price.

수치 시뮬레이션 결과Numerical Simulation Results

본 발명에 따른 동적 가격 결정 DR 프로그램의 성능을 평가하기 위한 수치 시뮬레이션 결과를 제시한다. 쉬운 설명을 위해 시뮬레이션은 서비스 제공자와 3명의 고객을 기반으로 수행된다. 전체 시간 주기는 하루 24시간을 나타내는 24개의 시간대로 나타낸다. 따라서 상기 정의된 T의 값은 24이며, 하루의 마지막 시간 슬롯을 나타낸다. 각 시간 슬롯에서 3명 고객의 부하 요구 프로파일의 예시는 도 5에 도시된 바와 같이, SDG&E로부터 2017년 6월 22일에서 얻어졌고, 도 4에 도시된 흐름도의 입력으로 사용되었다. 표 2는 이 3명의 고객의 불만족 관련 매개 변수를 나타낸다. 탄력성 값은 표 3에 나타나 있으며 off-peak/mid-peak/on-peak로 반응을 나누었다.Numerical simulation results for evaluating the performance of the dynamic pricing DR program according to the present invention are presented. For simplicity, the simulation is based on the service provider and three customers. The total time period is represented by 24 time zones representing 24 hours a day. Thus the value of T defined above is 24, which represents the last time slot of the day. An example load load profile of three customers in each time slot was obtained on June 22, 2017 from SDG & E, as shown in FIG. 5, and was used as input to the flowchart shown in FIG. 4. Table 2 shows the dissatisfaction related parameters of these three customers. Elasticity values are shown in Table 3 and the response was divided into off-peak / mid-peak / on-peak.

표 2 CUSTOMERS' DISSATISFACTION RELATED PARAMETERSTable 2 CUSTOMERS 'DISSATISFACTION RELATED PARAMETERS

Figure pat00071
Figure pat00071

표 3 ELASTICITYTable 3 ELASTICITY

Figure pat00072
Figure pat00072

도 6에 도시된 전기 도매 가격을 예를 들면, ComEd가 제공한 온라인 데이터는 2017년 6월 22일에 이용되었다. 소매 전기 가격 범위는 도매 전기 가격의 특정 계수를 사용하여 책정되었다. 이 시뮬레이션에서

Figure pat00073
Figure pat00074
는 서비스 제공자의 이익과 고객의 비용을 모두 고려한 수용 가능한 값인 1.5로 설정되고 [2.4, 8.2]의 소매 가격 범위를 제공한다. 본 발명에서 가중치
Figure pat00075
는 0.9로 서비스 제공자의 이익은 고객의 비용보다 상대적으로 중요함을 나타낸다. 0에서 1까지 변화하는
Figure pat00076
의 영향은 후술한다. 이 파라미터들은 또한 도 4에 도시된 순서도(흐름도)의 입력으로 사용된다.Taking the electricity wholesale price shown in FIG. 6, the online data provided by ComEd was used on June 22, 2017. The retail electricity price range was formulated using specific factors of wholesale electricity prices. In this simulation
Figure pat00073
and
Figure pat00074
Is set to 1.5, an acceptable value that takes into account both the service provider's benefit and the customer's cost, and provides a retail price range of [2.4, 8.2]. Weights in the present invention
Figure pat00075
Is 0.9, which indicates that the service provider's profit is more important than the customer's cost. Varying from 0 to 1
Figure pat00076
The influence of will be described later. These parameters are also used as input to the flowchart (flow chart) shown in FIG.

시뮬레이션 시나리오의 모든 매개 변수 값은 구체적이며 전기 시장의 설계나 서비스 제공자 및 고객의 특성에 따라 달라질 수 있다. 그러나 이것이 시뮬레이션의 결과 분석을 왜곡시키지 않는다.All parameter values in the simulation scenario are specific and can vary depending on the design of the electrical market or the characteristics of the service provider and customer. However, this does not distort the analysis of the results of the simulation.

위에 정의된 시나리오를 기반으로 최적의 소매 가격이 계산되는 반복을 통해 시뮬레이션이 실행된다. 예를 들어 하루가 시작 될 때 서비스 제공자는 그리드 관리자의 도매 전기가격, 고객의 전기 부하 수요 및 시나리오에 정의된 다른 매개 변수를 도 4의 학습 알고리즘을 이용하여 Q값(소매 가격)을 계산한다. 그 날의 다음 24시간 동안 최대 Q값(최적 소매 가격)을 최종적으로 얻는다. 도 7은 2017년 6월 22일에 시나리오에 대한 Q값의 수렴을 보여준다. 하루의 시작에 서비스 제공자는 높은 Q값을 얻기 위해 조치를 선택하는 방법을 모른다. 그러나 Q값은 반복적으로 시행착오를 거쳐 서비스 제공자가 환경에서 학습할 때마다 증가하여 최종적으로 최대값으로 수렴된다. 계산 시간과 수렴 반복은 후술한다.Based on the scenario defined above, the simulation is run through iterations where the optimal retail price is calculated. For example, at the beginning of the day, the service provider calculates the Q value (retail price) using the learning algorithm of Figure 4 from the grid manager's wholesale electricity price, the customer's electrical load demand, and other parameters defined in the scenario. The maximum Q value (optimum retail price) is finally obtained during the next 24 hours of the day. 7 shows the convergence of Q values for the scenario on June 22, 2017. At the beginning of the day, the service provider does not know how to choose an action to obtain a high Q value. However, the Q value is repeatedly trial and error, increasing every time the service provider learns in the environment, and finally converges to the maximum value. The calculation time and convergence iteration will be described later.

최적의 전기 가격이 확보되면 각 고객의 최적 에너지 소비량은 식 (1)과 (2)에 따라 결정 된다. 다음으로, 동적 가격 결정 알고리즘의 성능을 다양한 측면에서 상세히 상술한다. Once optimal electricity prices are obtained, the optimal energy consumption of each customer is determined by equations (1) and (2). Next, the performance of the dynamic pricing algorithm is detailed in various aspects.

A. 최적의 소매 가격A. Best Retail Price

시뮬레이션을 실행 한 후 주요 출력은 각 고갱의 최적 소매 전기 가격이다. 도 8은 최적의 소매 가격, 도매 가격의 신호 및 세명의 고객에 대한 대기 부하 에너지 수요 및 에너지 소비를 보여준다. 중요 부하 수요는 소매 가격에 따라 변하지 않기 때문에, 사용 가능한 부하 에너지 정보만 표시된다.After running the simulation, the main output is the optimal retail electricity price for each Gauguin. 8 shows the optimal retail price, the signal of the wholesale price and the standby load energy demand and energy consumption for three customers. Since critical load demand does not change with retail prices, only the available load energy information is displayed.

도 8에서 소매 가격 동향이 그리드 관리자의 에너지 구매 비용을 반영한 도매 가격과 유사하다는 것을 알 수 있다. 그러나 가격 범위를 초과하지는 않는다. 모든 고객에 대한 소매가는 서비스 제공자에 대한 더 많은 이익을 얻기 위해 6번 슬롯에서 12번 슬롯으로 증가하지만, 13번 슬롯 에서 갑작스런 감소가 관찰된다. 이는 13번 슬롯에서 탄성 계수가 -0.3에서 -0.5인 피크 시간을 반영 하기위해 발생하며, 소매 가격이 계속 상승하면서 이 기간 동안 에너지가 크게 감소한다. 그러나 이 값은 감소된 에너지 범위 (8)을 초과해서는 안되며 따라서 소매 가격은 시간대 13에 감소한다. 피크 시간대(17시~21시까지)와 피크 외 시간 (7시~12시까지) 피크시간대의 가격 차이 (소매 가격 - 도매 가격)는 피크 시간대가 가격 차이보다 작지만 에너지 감소 차이(에너지 수요 - 에너지 소비)가 더 크다. Eq에 기반하여 이는 피크 시간 동안 전기 수요가 보다 탄력적이여서 그렇다.It can be seen from FIG. 8 that the retail price trend is similar to the wholesale price reflecting the energy purchase cost of the grid manager. However, it does not exceed the price range. The retail price for all customers increases from slot 6 to slot 12 to gain more benefit to the service provider, but a sudden decrease is observed in slot 13. This occurs to reflect the peak time with modulus of elasticity from -0.3 to -0.5 in slot 13, which significantly reduces energy during this period as retail prices continue to rise. However, this value should not exceed the reduced energy range (8), so the retail price will decrease during time zone 13. The price difference (retail price-wholesale price) between the peak time period (from 17:00 to 21:00) and the non-peak time (from 7 to 12) is the difference between energy reduction (energy demand-energy) Consumption) is greater. Based on Eq, this is because the electricity demand is more elastic during peak times.

고객 3의 평균 소매가격은 다른 두 고객의 평균 소매가 보다 높은데 이는 고객 3이 불만족 요인이 작아서 에너지 수요를 줄이기 때문에 평균 소매 가격을 상승시킨다.The average retail price of customer 3 is higher than the average retail price of the other two customers, which increases the average retail price because customer 3 has less dissatisfaction and reduces energy demand.

B. 총 에너지 감소B. Total Energy Reduction

도 9는 제안된 동적 가격 책정 알고리즘에 참여한 각 고객의 총 에너지 감소를 보여준다. 여기서 노란색 막대는 에너지 수요를 나타내고 녹색 막대는 에너지 소비를 나타낸다. 에너지 소비는 고객 1, 2 및 3에서 각각 43.820, 51.733 및 58.947 kWh 감소한다. 고객 1(

Figure pat00077
=0.8)은 다른 두 고객과 비교하여 훨씬 적은 에너지 절감을 선택한다. 이 현상은
Figure pat00078
의 물리적 의미와 일치한다. 즉,
Figure pat00079
가 큰 고객은 불만을 적게하기 위해 더 작은 에너지 감소를 선호하지만, 반면
Figure pat00080
이 더 작은 고객은 DR동안 더 큰 에너지 감소를 선택한다. 이러한 상황에서 DR은 전력 시장에서 에너지 공급과 수요의 균형을 맞출 수 있는 기회를 제공하여 시스템 과부하를 효과적으로 제거하고 전력 시스템의 신뢰성을 향상시킬 수 있다.9 shows the total energy reduction of each customer participating in the proposed dynamic pricing algorithm. Where the yellow bar represents energy demand and the green bar represents energy consumption. Energy consumption is reduced by 43.820, 51.733 and 58.947 kWh at customers 1, 2 and 3 respectively. Customer 1 (
Figure pat00077
= 0.8) chooses much less energy savings compared to the other two customers. This phenomenon
Figure pat00078
Is consistent with its physical meaning. In other words,
Figure pat00079
While larger customers prefer smaller energy reductions to make less complaints,
Figure pat00080
This smaller customer chooses a larger energy reduction during DR. In this situation, DR can provide an opportunity to balance energy supply and demand in the power market, effectively eliminating system overload and improving power system reliability.

C. 가중치 인자의 영향C. Influence of weighting factor

가중치 인자의 영향을 조사하기 위해

Figure pat00081
의 변수 값을 0에서 1로 변경하여 시뮬레이션을 수행했다. 그림 10.과 11은 서비스 제공자 및 고객의 평균 소매가격과 평균 수익을 개별적으로 보여준다.
Figure pat00082
가 0에서 1로 증가하면 평균 소매 가격과 서비스 제공자의 평균 이익이 증가한다. 그러나 고객의 평균 이익은 감소한다. 그 이유는 분명하다:
Figure pat00083
이 증가함에 따라 서비스 제공자의 자체 이익을 극대화하고 고객의 비용을 고려하지 않으며 상대적으로 높은 소매가격을 선택한다. 대조적으로,
Figure pat00084
=0일 때, 시스템은 고객의 비용을 최소화 하는 경향이 있다. 따라서 서비스 제공자는 상대적으로 낮은 소매 가격을 선택한다.To investigate the effect of weighting factors
Figure pat00081
The simulation was performed by changing the value of the variable from 0 to 1. Figures 10 and 11 show the average retail price and average revenue for service providers and customers separately.
Figure pat00082
Increases from 0 to 1, the average retail price and average service provider's profits increase. But average profits for customers decline. The reason is clear:
Figure pat00083
This increase maximizes the service provider's own interests, does not take into account customer costs, and chooses a relatively high retail price. In contrast,
Figure pat00084
When = 0, the system tends to minimize customer costs. The service provider therefore chooses a relatively low retail price.

D. 시스템 성능D. System Performance

시스템 성능을 평가하기 위해 고객 수가 3명에서 10명으로 증가했으며 시뮬레이션은 105회 반복 실행 되었다. 이 시뮬레이션은 Eclipse 도구에서 Java로 프로그래밍된 소스 코드가 있는 소프트웨어와 3.30Ghz, 4코어 i5-6600 CPU 8GB RAM Window PC 하드웨어를 사용하여 수행되었다. 도 12는 각기 다른 고객 수에 따른 학습 속도를 보여주며, 표 4는 해당 계산 시간 및 수렴 반복 수를 나열한다. 고객 수가 증가하면 계산 시간과 수렴 반복 횟수가 증가한다. 특히 고객 수를 10으로 설정하면 시뮬레이션은 105회 반복횟수에 98분이 걸리고

Figure pat00085
에 거의 최적 값으로 수렴된다. 이렇게 긴 계산 시간을 갖는 이유는 각각의 고객에 대해 각각 최대 59개의 작업이 있는 총 24개의 시간 슬롯을 고려할 때, 행동 횟수의 값은
Figure pat00086
의 식으로 계산된다. 본 발명에서 소매 가격의 최소 간격은 도매 전기 가격과 동일한 최소 간격을 유지하기 위해 0.1로 설정되어 (8.2- 2.4) /0.1 + 1의 값을 제공한다. 따라서 오직 하나의 고객의 경우
Figure pat00087
-greedy 정책을 사용하면 M이 [1,….59]에 속하는
Figure pat00088
순열이 있다. 그러나 클라우드 컴퓨팅과 같은 최신 첨단 기술은 이것이 중요한 문제가 되지 않을 것임을 의미한다.To evaluate system performance, the number of customers increased from three to ten, and the simulation was run 10 5 times. This simulation was performed using software with source code programmed in Java in Eclipse tools and a 3.30Ghz, 4-core i5-6600 CPU 8GB RAM Window PC hardware. Figure 12 shows the learning rate for different numbers of customers, and Table 4 lists the corresponding computation time and the number of convergence iterations. As the number of customers increases, the computation time and convergence iterations increase. Specifically, if you set the number of customers to 10, the simulation would take 98 minutes for 10 5 iterations
Figure pat00085
Converges to an almost optimal value. The reason for this long computation time is to consider the total of 24 time slots with up to 59 tasks each for each customer.
Figure pat00086
Calculated by In the present invention, the minimum interval of retail prices is set to 0.1 to provide a value of (8.2-2.4) /0.1 + 1 to maintain the minimum interval equal to the wholesale electricity price. So for one customer only
Figure pat00087
-greedy policy causes M to be [1,…]. .59]
Figure pat00088
There is a permutation. But modern advanced technologies like cloud computing mean that this won't be an issue.

표 4. COMPUTATION TIME AND NUMBER OF CONVERGENCE ITERATIONSTable 4. COMPUTATION TIME AND NUMBER OF CONVERGENCE ITERATIONS

Figure pat00089
Figure pat00089

본 발명은 전력 시스템 시장에서 서비스 제공자와 고객 간의 동적 가격 책정 알고리즘을 연구하여 서비스 제공자가 고객의 부하 요구 프로필 및 불만족 수준 및 도매 전력에 따라 강화 학습 방법론을 사용하여 전기 소매 가격을 유동적으로 결정 할 수 있다.The present invention studies dynamic pricing algorithms between service providers and customers in the power system market, allowing service providers to flexibly determine electricity retail prices using reinforcement learning methodologies based on customer load demand profiles and dissatisfaction levels and wholesale power. have.

먼저 이산 유한 MDP에 기반한 동적 가격 책정 문제를 공식화한 다음 의사 결정 문제를 해결하기 위해 Q-학습을 사용한다. 강화 학습 방법론의 사용을 통해 서비스 제공자는 소매 가격이 선택되어야 하는 고객의 사전 지정된 모델을 요구하지 않는다. 대신에 상태, 행동, 그리고 보상 간의 관계는 고객과의 동적인 온라인 상호 작용을 통해 학습된다. 고객의 부하 요구 프로필의 불확실성과 도매 전기 가격의 유연성을 고려한 지속적인 학습 및 적응을 통해 역동적으로 변화하는 환경에 대응할 수 있다. 수치 시뮬레이션 결과는 제안된 동적 가격 결정 알고리즘이 서비스 제공자의 수익성을 높이고 고객의 에너지 비용을 줄이며 전력 시장의 에너지 공급과 수요의 균형을 맞추고 전력 시스템의 신뢰도를 향상시킬 수 있음을 보여 주었고, 이에 따라 서비스 제공자와 고객 모두를 위한 윈-윈 전략임을 알 수 있다. We first formulate a dynamic pricing problem based on discrete finite MDP and then use Q-learning to solve the decision problem. Through the use of reinforcement learning methodologies, service providers do not require a customer's pre-specified model for which retail prices should be chosen. Instead, the relationship between status, behavior and rewards is learned through dynamic online interactions with customers. Continuous learning and adaptation, taking into account the uncertainty of the customer's load demand profile and the flexibility of wholesale electricity prices, can respond to a dynamically changing environment. Numerical simulation results show that the proposed dynamic pricing algorithm can increase service provider profitability, reduce customer energy costs, balance energy supply and demand in the power market, and improve the reliability of the power system. It can be seen that this is a win-win strategy for both providers and customers.

이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. The above description is merely illustrative of the present invention, and various modifications may be made by those skilled in the art without departing from the technical spirit of the present invention.

따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다. Therefore, the embodiments disclosed in the specification of the present invention are not intended to limit the present invention. The scope of the present invention should be construed by the claims below, and all techniques within the scope equivalent thereto will be construed as being included in the scope of the present invention.

10: 그리드 관리자 20: 서비스 제공자
30: 고객
10: grid manager 20: service provider
30: Customer

Claims (14)

스마트 그리드에서 서비스 제공자에 의한 동적 가격 책정 수요반응 방법에 있어서,
그리드 관리자로부터 획득한 전기 도매가격에 근거한 전기 소매가격 범위에서 임의로 전기 소매가격을 선택하는 제1 단계와,
서비스 제공자의 수익 및 고객 비용에 근거한 보상과 고객의 에너지 정보를 획득하는 제2 단계와,
상기 전기 소매가격, 보상 및 에너지 정보에 근거하여 Q-학습 알고리즘의 Q값을 갱신하는 제3 단계를 포함하여,
시간 슬롯의 시작부터 종료까지 시간 슬롯마다 상기 제1 단계부터 제3 단계를 반복하는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
In the dynamic pricing demand response method by the service provider in the smart grid,
A first step of arbitrarily selecting the electric retail price in the electric retail price range based on the electric wholesale price obtained from the grid manager;
A second step of obtaining compensation and energy information of the customer based on the service provider's revenue and customer cost,
A third step of updating a Q value of a Q-learning algorithm based on the retail price, reward and energy information,
Dynamic pricing demand response method characterized in that for repeating the first step to the third step for each time slot from the beginning to the end of the time slot.
제1항에 있어서,
상기 제1 단계부터 제3 단계까지의 반복을 종료한 후 상기 Q값이 최대값에 도달하였는지 판단하는 제4 단계를 더 포함하여,
상기 Q값이 최대값에 도달하지 않은 경우 시간 슬롯의 시작부터 종료까지 시간 슬롯마다 상기 제1 단계부터 제3 단계를 반복하고,
상기 Q값이 최대값에 도달한 경우 최대 Q값에 대응하는 정책을 전기 소매가격을 결정하는 최적 가격 정책으로 채택하는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 1,
A fourth step of determining whether the Q value reaches a maximum value after the repetition of the first to third steps is completed;
If the Q value does not reach the maximum value, repeating the first step to the third step for each time slot from the beginning to the end of the time slot,
Dynamic pricing demand response method characterized in that for adopting a policy corresponding to the maximum Q value as the optimum price policy for determining the retail price when the Q value reaches the maximum value.
제1항에 있어서,
상기 고객의 에너지 정보는 고객의 에너지 수요량과 실제 에너지 소비량을 포함하는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 1,
The energy information of the customer is a dynamic pricing demand response method characterized in that it comprises the energy demand of the customer and the actual energy consumption.
제3항에 있어서,
상기 고객의 에너지 소비량은 전기 소매가격과 전기 도매가격의 차이값에 근거하여 상기 고객의 에너지 수요량으로부터 산정되는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 3,
Dynamic customer demand consumption method is characterized in that calculated from the energy demand of the customer based on the difference between the electricity retail price and the wholesale price of electricity.
제1항에 있어서,
상기 서비스 제공자의 수익은 전기 소매가격과 전기 도매가격의 차이에 고객의 실제 에너지 소비량을 곱하여 산정하는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 1,
Revenue of the service provider is a dynamic pricing demand response method characterized in that the difference between the retail price and electricity wholesale price multiplied by the actual energy consumption of the customer.
제1항에 있어서,
상기 고객 비용은 전기 소매가격에 실제 에너지 소비량을 곱한 에너지 비용과 고객의 불만족 비용을 합한 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 1,
The customer cost is a dynamic pricing demand response method, characterized in that the retail price multiplied by the actual energy consumption sum of the energy cost and the customer dissatisfaction cost.
제1항에 있어서,
상기 보상은 서비스 제공자의 수익과 고객 비용 간의 상대적 중요도를 나타내는 가중치(ρ)에 서비스 제공자의 수익을 곱한 값과 (1- 가중치)에 고객 비용을 곱한 값 간의 차이값인 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 1,
The reward is a dynamic pricing, characterized in that the difference between the value of the weight of the service provider's revenue and the relative importance of the customer's cost multiplied by the service provider's profit and (1-weighted) the customer's cost multiplied. Demand response method.
제1항에 있어서,
이전 반복의 Q값과 현재 반복의 Q값 간의 차이가 소정의 값 이하가 될 때 현재 반복 Q값이 최대값에 도달한 것으로 판단하는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 1,
And determining that the current iteration Q value has reached a maximum value when the difference between the Q value of the previous iteration and the Q value of the current iteration is less than or equal to a predetermined value.
스마트 그리드에서 서비스 제공자에 의한 동적 가격 책정 수요반응 방법에 있어서,
상기 서비스 제공자가 가입 고객에 대한 전기 소매가격을 결정하고, 결정한 전기 소매가격에 따라 반응하는 가입 고객의 에너지 소비량과 서비스 제공자의 수익 및 고객 비용에 근거한 보상액을 획득하는 과정을 반복적으로 수행하여,
상기 과정을 반복적으로 수행하여 얻은 누적 보상액이 최대화될 때의 가격 책정 정책을 최적의 가격 책정 정책으로 선택하는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
In the dynamic pricing demand response method by the service provider in the smart grid,
The service provider repeatedly performs a process of determining the electric retail price for the subscribing customer and acquiring compensation amount based on the energy consumption of the subscribing customer and the service provider's profit and the customer's cost according to the determined electric retail price,
Dynamic pricing demand response method characterized in that for selecting the optimal pricing policy pricing policy when the cumulative compensation amount obtained by repeatedly performing the above process.
제9항에 있어서,
상기 서비스 제공자는 그리드 관리자의 전기 도매가격에 근거한 전기 소매가격 범위에서 전기 소매가격을 선택하는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 9,
Wherein said service provider selects an electric retail price in an electric retail price range based on an electric wholesale price of a grid manager.
제10항에 있어서,
전기 소매가격은 ε-greedy 방식으로 선택하는 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 10,
Dynamic pricing demand response method characterized in that the selection of the ε-greedy method.
제9항에 있어서,
상기 보상액은 서비스 제공자의 수익과 고객 비용 간의 상대적 중요도를 나타내는 가중치(ρ)에 서비스 제공자의 수익을 곱한 값과 (1- 가중치)에 고객 비용을 곱한 값 간의 차이값인 것을 특징으로 하는 동적 가격 책정 수요반응 방법.
The method of claim 9,
The compensation amount is a dynamic price, characterized in that the difference between the value multiplied by the service provider's revenue multiplied by the customer's cost multiplied by the weight (ρ) representing the relative importance between the service provider's revenue and customer's cost Demand response method.
스마트 그리드에서 동적 가격 책정 수요반응 방법을 실행하기 위한 프로그램을 저장하는 컴퓨터 판독 기록매체에 있어서,
상기 프로그램은 그리드 관리자의 전기 도매가격과 가입 고객의 에너지 수요를 입력받는 제1 단계와,
Q-학습 알고리즘의 Q값을 0, 시간 슬롯 t 및 반복 i를 1로 초기화하는 제2 단계와,
반복 i에서 상기 전기 도매가격에 근거한 전기 소매가격 범위에서 임의로 전기 소매가격을 선택하는 제3 단계와,
서비스 제공자의 수익 및 고객 비용에 근거한 보상액과 고객의 에너지 정보를 산정하는 제4 단계와,
상기 전기 소매가격, 보상액 및 에너지 정보에 근거하여 Q-학습 알고리즘의 Q값을 갱신하는 제5 단계와,
시간 슬롯 t가 마지막 종료 시간인 T인지 판단하는 제6 단계와,
시간 슬롯이 종료 시간이 아니면 상기 제3 단계 내지 제6 단계를 반복하는 제7 단계와,
시간 슬롯이 종료 시간이면 Q값이 최대값에 도달했는지 판단하는 제8 단계와,
Q값이 최대값에 도달하지 않았으면 제3 단계 내지 제7 단계를 반복하는 제9 단계와,
Q값이 최대값에 도달했으면 최대 Q값에 대응하는 가격 결정 정책으로 전기 소매가격을 출력하는 단계를 실행하는 것을 특징으로 하는 컴퓨터 판독 기록매체.
A computer readable medium storing a program for executing a dynamic pricing demand response method in a smart grid,
The program includes the first step of inputting the wholesale price of electricity of the grid manager and the energy demand of subscribed customers;
A second step of initializing the Q value of the Q-learning algorithm to 0, the time slot t and the iteration i to 1,
A third step of arbitrarily selecting an electric retail price in the electric retail price range based on the electric wholesale price in an iteration i;
A fourth step of calculating compensation amount and energy information of the customer based on the service provider's revenue and customer's cost,
A fifth step of updating a Q value of a Q-learning algorithm based on the retail price, compensation amount and energy information;
Determining whether a time slot t is a last ending time T;
A seventh step of repeating the third to sixth steps if the time slot is not the end time;
An eighth step of determining whether the Q value has reached the maximum value if the time slot is the end time;
A ninth step of repeating steps 3 to 7 if the Q value has not reached the maximum value,
And if the Q value has reached the maximum value, outputting the retail price with a pricing policy corresponding to the maximum Q value.
제13항에 있어서,
상기 제 8단계는 반복 i의 Q값과 이전 반복 i-1의 Q값 사이의 차이가 소정의 값 이하인지 여부를 판단하는 것을 특징으로 하는 컴퓨터 판독 기록매체.
The method of claim 13,
And the eighth step determines whether the difference between the Q value of the repetition i and the Q value of the previous repetition i-1 is less than or equal to a predetermined value.
KR1020190001931A 2018-05-18 2019-01-07 A Dynamic Pricing Demand Response Method and System for Smart Grid Systems KR20190132193A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180057150 2018-05-18
KR1020180057150 2018-05-18

Publications (1)

Publication Number Publication Date
KR20190132193A true KR20190132193A (en) 2019-11-27

Family

ID=68730206

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190001931A KR20190132193A (en) 2018-05-18 2019-01-07 A Dynamic Pricing Demand Response Method and System for Smart Grid Systems

Country Status (1)

Country Link
KR (1) KR20190132193A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085524A (en) * 2020-08-31 2020-12-15 中国人民大学 Q learning model-based result pushing method and system
CN112329980A (en) * 2020-09-24 2021-02-05 国网辽宁省电力有限公司沈阳供电公司 Method for improving power grid operation level by machine learning fixed electricity price
CN113052638A (en) * 2021-04-06 2021-06-29 中国科学技术大学 Price demand response-based determination method and system
CN113077166A (en) * 2021-04-16 2021-07-06 国网吉林省电力有限公司 Community energy storage scheduling method based on Markov decision process
KR20210117823A (en) * 2020-03-20 2021-09-29 한양대학교 에리카산학협력단 Energy management system and energy management method
CN115470998A (en) * 2022-09-23 2022-12-13 上海交通大学 Layered optimization scheduling method and system for power utilization consistency of port cold box load group
KR20230043547A (en) * 2021-09-24 2023-03-31 광운대학교 산학협력단 Method for learning of power transaction model based of deep reinforcement learning and method for transacting power using the power transaction model
CN116128543A (en) * 2022-12-16 2023-05-16 国网山东省电力公司营销服务中心(计量中心) Comprehensive simulation operation method and system for load declaration and clearing of electricity selling company
WO2023085560A1 (en) * 2021-11-15 2023-05-19 네스트필드(주) Method for managing demand response of discrete industrial manufacturing system using constrained reinforcement learning
CN117277315A (en) * 2023-11-21 2023-12-22 中国电力科学研究院有限公司 Inter-province intra-province market self-adaptive clearing method, device, equipment and medium
CN117726143A (en) * 2024-02-07 2024-03-19 山东大学 Environment-friendly micro-grid optimal scheduling method and system based on deep reinforcement learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101647060B1 (en) 2015-03-04 2016-08-10 서강대학교산학협력단 smart grid system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101647060B1 (en) 2015-03-04 2016-08-10 서강대학교산학협력단 smart grid system

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210117823A (en) * 2020-03-20 2021-09-29 한양대학교 에리카산학협력단 Energy management system and energy management method
CN112085524B (en) * 2020-08-31 2022-11-15 中国人民大学 Q learning model-based result pushing method and system
CN112085524A (en) * 2020-08-31 2020-12-15 中国人民大学 Q learning model-based result pushing method and system
CN112329980A (en) * 2020-09-24 2021-02-05 国网辽宁省电力有限公司沈阳供电公司 Method for improving power grid operation level by machine learning fixed electricity price
CN113052638A (en) * 2021-04-06 2021-06-29 中国科学技术大学 Price demand response-based determination method and system
CN113052638B (en) * 2021-04-06 2023-11-24 中国科学技术大学 Price demand response-based determination method and system
CN113077166A (en) * 2021-04-16 2021-07-06 国网吉林省电力有限公司 Community energy storage scheduling method based on Markov decision process
KR20230043547A (en) * 2021-09-24 2023-03-31 광운대학교 산학협력단 Method for learning of power transaction model based of deep reinforcement learning and method for transacting power using the power transaction model
WO2023085560A1 (en) * 2021-11-15 2023-05-19 네스트필드(주) Method for managing demand response of discrete industrial manufacturing system using constrained reinforcement learning
KR20230070779A (en) 2021-11-15 2023-05-23 네스트필드(주) Demand response management method for discrete industrial manufacturing system based on constrained reinforcement learning
CN115470998B (en) * 2022-09-23 2024-02-02 上海交通大学 Port cold box load group power consumption consistency layering optimization scheduling method and system
CN115470998A (en) * 2022-09-23 2022-12-13 上海交通大学 Layered optimization scheduling method and system for power utilization consistency of port cold box load group
CN116128543A (en) * 2022-12-16 2023-05-16 国网山东省电力公司营销服务中心(计量中心) Comprehensive simulation operation method and system for load declaration and clearing of electricity selling company
CN116128543B (en) * 2022-12-16 2024-05-24 国网山东省电力公司营销服务中心(计量中心) Comprehensive simulation operation method and system for load declaration and clearing of electricity selling company
CN117277315A (en) * 2023-11-21 2023-12-22 中国电力科学研究院有限公司 Inter-province intra-province market self-adaptive clearing method, device, equipment and medium
CN117277315B (en) * 2023-11-21 2024-02-13 中国电力科学研究院有限公司 Inter-province intra-province market self-adaptive clearing method, device, equipment and medium
CN117726143A (en) * 2024-02-07 2024-03-19 山东大学 Environment-friendly micro-grid optimal scheduling method and system based on deep reinforcement learning
CN117726143B (en) * 2024-02-07 2024-05-17 山东大学 Environment-friendly micro-grid optimal scheduling method and system based on deep reinforcement learning

Similar Documents

Publication Publication Date Title
KR20190132193A (en) A Dynamic Pricing Demand Response Method and System for Smart Grid Systems
Lu et al. A dynamic pricing demand response algorithm for smart grid: Reinforcement learning approach
Lu et al. Incentive-based demand response for smart grid with reinforcement learning and deep neural network
Derakhshan et al. The optimization of demand response programs in smart grids
Jhala et al. Prospect theory-based active consumer behavior under variable electricity pricing
Aflaki et al. Managing retention in service relationships
Peters et al. A reinforcement learning approach to autonomous decision-making in smart electricity markets
JP6702092B2 (en) Coupon optimization and delivery in housing demand response
US20180204293A1 (en) Method of optimizing market supply and demand dynamics for energy distribution and consumption
US11429075B2 (en) System, apparatus and method for energy management, for usage by consumers of energy from electric utility service providers, and monitoring and management of same
Salah et al. Morphological analysis of energy services: Paving the way to quality differentiation in the power sector
Kim et al. Dynamic pricing for smart grid with reinforcement learning
Chiu et al. Renewable energy bidding strategies using multiagent Q-learning in double-sided auctions
Samimi et al. Real‐time electricity pricing of a comprehensive demand response model in smart grids
Lu et al. A perspective on reinforcement learning in price-based demand response for smart grid
Ahmed et al. Building load management clusters using reinforcement learning
Konda et al. Investigating the impact of load profile attributes on demand response exchange
Soares et al. A population‐based approach to the bi‐level multifollower problem: an application to the electricity retail market
Ketter et al. Smart grid economics: Policy guidance through competitive simulation
Zhang et al. Soft actor–critic algorithm featured residential demand response strategic bidding for load aggregators
Kladnik et al. Agent-based modeling of the demand-side flexibility
Tsoumalis et al. A novel system for providing explicit demand response from domestic natural gas boilers
Zeng et al. Holistic modeling framework of demand response considering multi-timescale uncertainties for capacity value estimation
Yıldız et al. A variant SDDP approach for periodic-review approximately optimal pricing of a slow-moving a item in a duopoly under price protection with end-of-life return and retail fixed markdown policy
Zeng et al. Demand response considering user behaviour differences for load serving entity: A multi‐agent deep reinforcement learning approach

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application