KR102503091B1

KR102503091B1 - 장·단기간 지연보상을 활용한 강화학습 기반 자동 p2p 에너지 거래 방법

Info

Publication number: KR102503091B1
Application number: KR1020210003899A
Authority: KR
Inventors: 이보원; 김진겸
Original assignee: 인하대학교 산학협력단
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2023-02-23
Also published as: KR20220101875A; KR102503091B9

Abstract

장·단기간 지연보상을 활용한 강화학습 기반 자동 P2P 에너지 거래 방법이 개시된다. 에너지 거래 시스템에 의해 수행되는 P2P 에너지 거래 방법은, 에너지 저장 시스템(Energy Storage System)을 보유하고 전력 에너지를 생산 또는 소비하는 프로슈머의 거래 요청을 수신하는 단계; 및 상기 수신된 프로슈머의 거래 요청에 대하여 강화학습 모델을 사용하여 프로슈머 간 에너지 거래를 위한 프로슈머의 거래 참여를 결정하는 단계를 포함할 수 있다.

Description

장·단기간 지연보상을 활용한 강화학습 기반 자동 P2P 에너지 거래 방법{AUTOMATIC P2P ENERGY TRADING METHOD BASED ON REINFORCEMENT LEARNING USING LONG SHORT-TERM DELAYED REWARD}

아래의 설명은 강화학습 기반의 P2P 에너지 거래 기술에 관한 것이다.

에너지 시장에서 신재생 에너지의 비중이 증가함에 따라 신재생 에너지를 활용한 서비스 또는 기술들이 발전하고 있다. 그 중에서도 에너지 저장 시스템(ESS), 전력 변환 장치, 에너지 모니터링 시스템과 같은 에너지 처리 기술의 고도화는 스마트 그리드 내 신재생 에너지 기반의 소규모 발전을 확산시켰으며 그에 따라 에너지 소비와 생산이 모두 가능한 프로슈머의 수가 증가하고 있다.

에너지 프로슈머간 P2P 에너지 거래는 에너지 자원 활용 및 순환과 같은 전력 계통에 긍정적인 효과를 줄 수 있으며 세계적으로 이를 위한 정책 및 기술들이 도입되고 있다. 자동 P2P 에너지 거래는 거래 참여에 대한 행동 결정에 있어 프로슈머의 직접적인 결정없이 모든 과정이 자동적으로 이루어질 수 있으며 이는 거래 참여에 대한 행동 결정 과정을 마르코프 결정 과정(MDP)으로 정의하고, 강화학습을 통해 분석함으로써 구현될 수 있다. 여기서, 널리 사용되는 강화학습 기법으로는 심층신경망을 활용한 심층 강화학습이 있다.

자동 P2P 에너지 거래에서의 거래 대상인 전력은 프로슈머에 의해 실시간으로 소비와 발전이 되기 때문에 거래를 통한 보유 자산의 변화는 거래 평가 지표로써 거래 이득을 정확히 판단하기 어려움이 있다.

또한, 에피소드의 종료시점에서 지연보상을 제공하는 기존 심층 강화학습 네트워크의 지연보상 방식을 채택하여 사용하였을 경우, 에피소드 내에서 발생하는 단기간의 거래 패턴을 잘 학습하지 못할 수 있다는 문제점이 있다.

프로슈머의 소비와 발전에 영향을 받지 않고 거래에 대한 결과를 판단할 수 있는 지표를 설정하고 장/단기간의 거래패턴을 모두 효과적으로 학습할 수 있는 심층 강화학습 네트워크의 지연보상 방식을 적용함으로써 장/단기간 지연보상을 활용한 강화학습 기반 자동 P2P 에너지 거래 방법을 제공할 수 있다.

에너지 거래 시스템에 의해 수행되는 P2P 에너지 거래 방법은, 에너지 저장 시스템(Energy Storage System)을 보유하고 전력 에너지를 생산 또는 소비하는 프로슈머의 거래 요청을 수신하는 단계; 및 상기 수신된 프로슈머의 거래 요청에 대하여 강화학습 모델을 사용하여 프로슈머 간 에너지 거래를 위한 프로슈머의 거래 참여를 결정하는 단계를 포함할 수 있다.

상기 결정하는 단계는, 프로슈머가 P2P 에너지 거래에 참여하는 경우와 프로슈머가 P2P 에너지 거래에 참여하지 않는 경우에서의 이득 변화의 차이 정보를 비교하여 프로슈머의 거래 참여를 결정하는 단계를 포함할 수 있다.

상기 결정하는 단계는, 전기요금 이득, P2P 시장 이득, 손실 전력 변화 이득 및 에너지 저장 시스템 내 보유 에너지의 변화 이득의 합을 통해 프로슈머의 P2P 에너지 거래에서의 이득을 획득하는 단계를 포함할 수 있다.

상기 전기요금 이득은, P2P 에너지 거래에 참여하는 경우, 프로슈머가 지불하게 되는 전기요금과 P2P 에너지 거래에 참여하지 않는 경우, 프로슈머가 지불하게 되는 전기요금의 차이를 통해 도출될 수 있다.

상기 2P 시장 이득은, P2P 에너지 거래에 참여하는 경우, 프로슈머가 시장에서 획득되는 수익과 P2P 에너지 거래에 참여하지 않는 경우, 프로슈머가 시장에서 획득되는 수익의 차이를 통해 도출될 수 있다.

상기 손실 전력 변화 이득은, P2P 에너지 거래에 참여하는 경우, 프로슈머가 에너지 저장 시스템 내 과잉 충전으로 인해 손실하게 되는 에너지의 화폐가치와 P2P 에너지 거래에 참여하지 않는 경우, 프로슈머가 과잉 충전으로 인해 손실하게 되는 에너지의 화폐가치의 차이를 통해 도출될 수 있다.

상기 에너지 저장 시스템 내 보유 에너지의 변화 이득은, P2P 에너지 거래에 참여하는 경우, 프로슈머가 에너지 저장 시스템 내 보유하고 있는 에너지의 화폐가치와 P2P 에너지 거래에 참여하지 않는 경우, 프로슈머가 에너지 저장 시스템 내 보유하고 있는 에너지의 화폐가치의 차이를 통해 도출될 수 있다.

상기 강화학습 모델은, 마르코프 결정 과정(Markov Decision Process) 기반의 강화학습 모델로서, 지연보상 방식에 기초하여 일정 이상의 거래를 통한 이득 변화가 발생할 때 지연보상을 출력하고, 출력된 지연 보상을 활용하여 강화학습 정책이 업데이트되도록 구성될 수 있다.

상기 강화학습 모델은, 과금 기간 내의 이득을 최대화하기 위해 기 설정된 기간 이내에 대한 단기간 지연보상방식 및 기 설정된 기간 이상에 대한 장기간 지연보상 방식을 사용하여 장기간의 거래패턴 및 단기간의 거래패턴이 학습될 수 있다.

상기 강화학습 모델에서, 상기 단기간 지연보상 방식을 사용하여 이득 변화의 비율이 특정 임계값을 초과할 때마다 출력되는 단기간 지연 보상이 획득되고, 상기 장기간 지연보상 방식을 사용하여 기 설정된 주기마다 전기 요금이 책정되는 시기에 출력되는 장기간 지연 보상이 획득될 수 있다.

상기 장기간 지연 보상의 발생 전까지 상기 단기간 지연 보상의 발생 횟수 대비 상기 단기간 지연 보상의 누적합을 통해 최종의 단기간 지연 보상이 획득되고, 상기 획득된 최종의 단기간 지연보상 및 상기 장기간 지연 보상의 가중합을 통해 상기 강화학습 모델에서 네트워크의 최종 지연 보상이 출력될 수 있다.

P2P 에너지 거래를 위한 에너지 거래 시스템은, 에너지 저장 시스템(Energy Storage System)을 보유하고 전력 에너지를 생산 또는 소비하는 프로슈머의 거래 요청을 수신하는 거래 요청 수신부; 및 상기 수신된 프로슈머의 거래 요청에 대하여 강화학습 모델을 사용하여 프로슈머 간 에너지 거래를 위한 프로슈머의 거래 참여를 결정하는 거래 참여 결정부를 포함할 수 있다.

소비와 발전에 의한 실시간 보유 에너지 변화가 발생하는 상황에서 프로슈머가 거래에 참여하는 경우와 참여하지 않는 경우에서의 각 이득 변화를 상대적으로 비교하여 거래 평가 지표를 정의함으로써 거래 이득 평가 시, 거래 외 보유 에너지 변화에 대한 요인인 소비와 발전에 대해 영향을 받지 않고 독립적으로 거래를 통한 이득 변화만을 평가할 수 있다.

단기간 이득 변화의 정보를 에피소드 종료 시점에서 함께 활용함으로써 기존의 장기간 지연방식의 심층강화학습 기반 거래 모델이 단기간의 거래 패턴을 잘 학습하지 못한다는 단점을 보완할 수 있다.

장/단기간 지연보상을 활용한 강화학습 기반 자동 P2P 에너지 거래 방법은 프로슈머의 에너지 발전 및 소비 패턴뿐만 아니라 거래 시장 가격, 기상 정보, 유가 정보 등을 함께 활용하여 거래 참여 전략을 제공함으로써 프로슈머의 다양한 상황에 맞춰 이득을 최대화할 수 있는 전략을 제공할 수 있다.

거래 이득 정의 시, 프로슈머의 과잉 발전에 대한 에너지 손실을 함께 고려함으로써 과잉 발전으로 인하여 손실되는 에너지 양을 효과적으로 줄이면서 거래를 통한 에너지 순환이 좀 더 효율적으로 일어날 수 있는 거래 전략을 제공할 수 있다.

도 1은 일 실시예에 있어서, 강화학습 모델의 네트워크 동작 과정을 설명하기 위한 흐름도이다.
도 2는 일 실시예에 있어서, DQN을 활용한 자동 에너지 거래 알고리즘 동작 과정을 설명하기 위한 슈도 코드(pseudo-code)이다.
도 3은 일 실시예에 있어서, 단기간 지연보상 방식을 적용한 결과를 설명하기 위한 예이다.
도 4는 일 실시예에 있어서, 장기간 지연보상 방식을 적용한 결과를 설명하기 위한 예이다.
도 5는 일 실시예에 있어서, 장/단기간 지연보상 방식을 적용한 결과를 설명하기 위한 예이다.
도 6은 일 실시예에 있어서, 전기요금 체계에 적용한 프로슈머의 월 별 최종 이득 변화를 나타낸 예이다.
도 7은 일 실시예에 따른 에너지 거래 시스템의 구성을 설명하기 위한 블록도이다.
도 8은 일 실시예에 따른 에너지 거래 시스템에서 P2P 에너지 거래 방법을 설명하기 위한 흐름도이다.
도 9는 일 실시예에 있어서, 과잉 발전으로 인한 손실된 에너지의 화폐가치를 나타낸 예이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

실시예에서는 프로슈머의 소비와 발전에 영향을 받지 않고 거래에 대한 결과를 판단할 수 있는 지표를 설정하고 장/단기간의 거래패턴을 모두 효과적으로 학습할 수 있는 심층 강화학습 네트워크의 지연보상 방식을 적용함으로써 장/단기간 지연보상을 활용한 강화학습 기반 자동 P2P 에너지 거래 동작을 설명하기로 한다.

또한, 실시예에서는 스마트 미터에서 제공되는 소비 및 발전에 대한 정보와 에너지 저장 장치(ESS)의 에너지 보유량을 거래 참여 결정에 대한 지표로 활용할 수 있다. 기상 정보 또는 유가 정보와 같은 에너지 소비 및 발전에 영향을 미치는 부가 정보를 추가적으로 활용할 수도 있다.

또한, 실시예에서는 심층 강화학습을 활용하여 MDP로 정의한 프로슈머의 P2P 에너지 거래에 대한 참여를 결정할 수 있다. 심층강화학습의 모델은 Deep Q-Network(DQN)을 비롯하여 다양한 모델들이 선택되어 사용될 수 있다. 심층 강화학습의 심층신경망 모델은 Long Short-Term Memory(LSTM)을 비롯한 다양한 모델들이 선택되어 사용될 수 있다.

또한, 실시예에서는 주식 자동 거래 알고리즘에 적용되는 지연보상 방식을 착안하여 일정 이상의 거래를 통한 이득 변화가 발생할 시 지연 보상을 출력하고, 출력된 지연 보상을 활용하여 강화학습 정책 업데이트 방식을 새로 정의할 수 있다.

또한, 실시예에서는 프로슈머가 거래를 통해 변화하는 보유 자산의 가치를 비교하여 거래를 평가하는 방식과 달리, 프로슈머가 거래에 참여하는 경우와 참여하지 않는 경우에서의 이득 변화 차이를 비교하여 거래 평가 지표로써 정의할 수 있다. 비교 대상인 이득에 대한 정의 시, 전기요금 변화와 같이 프로슈머가 거래에 참여하는 경우와 참여하지 않는 경우에서 거래의 영향으로 인해 서로 다른 결과를 갖게 되는 요소들을 선택적으로 활용할 수 있다.

도 1은 일 실시예에 있어서, 강화학습 모델의 네트워크 동작 과정을 설명하기 위한 흐름도이다.

도 1은 마르코프 결정 과정(Markov Decision Process) 기반의 강화학습 모델의 동작을 나타낸 것으로, 지연보상 방식에 기초하여 일정 이상의 거래를 통한 이득 변화가 발생할 때 지연 보상을 출력하고, 출력된 지연 보상을 활용하여 강화학습 정책이 업데이트되도록 구성된 것일 수 있다. 이러한 강화학습 모델의 동작(101)에 대하여 설명하기로 한다.

에너지 거래 시스템은 프로슈머의 거래 요청에 대하여 강화학습 모델을 사용하여 프로슈머 간 에너지 거래를 위한 프로슈머의 거래 참여를 결정할 수 있다.

에너지 거래 시스템은 프로슈머가 거래를 참여함으로써 획득하게 되는 이득을 프로슈머의 거래 결과에 대한 평가 지표로 정의할 수 있다. 프로슈머가 거래에 참여하는 경우와 참여하지 않는 경우(예를 들면, 거래를 한번도 하지 않은 경우)를 비교함으로써 프로슈머의 거래 참여를 결정할 수 있다.

이때, 프로슈머의 P2P 에너지 거래에서의 이득은 전기요금 이득, P2P 시장 이득, 손실 전력 변화 이득, ESS 내 보유 에너지의 변화 이득의 합으로 정의될 수 있다.

전기요금 이득은 P2P 에너지 거래에 참여하는 경우 프로슈머가 지불하게 되는 전기요금과 P2P 에너지 거래에 참여하지 않는 경우에서 프로슈머가 지불하게 되는 전기요금의 차이가 계산됨으로써 도출될 수 있다. 전기요금 이득은 수학식 1을 통해 정의될 수 있다.

수학식 1:

S_o(t)와 S_p(t)는 시간 t에서의 P2P 에너지 거래에 참여하지 않는 프로슈머의 상태 정보와 P2P 에너지 거래에 참여하는 프로슈머의 상태 정보를 각각 나타내며, B_o와 B_p는 그에 따른 각 전기요금을 나타낸다. G_bill은 P2P 에너지 거래에 참여하는 프로슈머가 획득하게 되는 시간 t때가지의 전기 요금 이득을 나타낸다.

P2P 시장 이득은 P2P 에너지 거래에 참여하는 경우에서 프로슈머가 시장에서 얻게 되는 수익과 P2P 에너지 거래에 참여하지 않는 경우에서 프로슈머가 시장에서 얻게 되는 수익의 차이가 계산됨으로써 도출될 수 있다. P2P 시장 이득은 수학식 2를 통해 정의될 수 있다.

수학식 2:

E_max는 ESS의 최대 저장 용량을 나타내며

는 ESS의 효율을 나타낸다. Q_b와 Q_s는 시장에서 거래 가능한 구매와 판매에 대한 거래량을 나타내며, P는 시장에서의 거래 가격을 나타낸다.

는 거래에 대한 수수료를 나타내며, M_trade는 시간 t까지의 시장에서의 수익을 나타낸다. G_trade는 P2P 에너지 거래에 참여하는 프로슈머가 얻게 되는 시간 t때까지의 시장 이득으로써, P2P 에너지 거래에 참여하지 않는 프로슈머가 얻게 되는 시장에서의 수익은 항상 0이기 때문에 M_trade와 같다.

손실 전력 변화 이득은 P2P 에너지 거래에 참여하는 경우에서, 프로슈머가 ESS 내 과잉 충전(과잉 발전, 초과 구매)으로 인해 손실하게 되는 에너지의 화폐가치와 P2P 에너지 거래에 참여하지 않은 경우에서 프로슈머가 과잉 충전으로 인해 손실하게 되는 에너지의 화폐가치의 차이가 계산됨으로써 도출될 수 있다. 손실 전력 변화 이득은 수학식 3을 통해 정의될 수 있다.

수학식 3:

L_o와L_p는 각 상황에서 과잉 충전으로 손실되는 에너지 양을 나타내며, V_gain은 시간 t에서 프로슈머가 P2P 에너지 거래에 참여함으로써 감소시킨 손실 전력에 대한 화폐가치이며, G_loss는 프로슈머가 P2P 에너지 거래에 참여함으로써 얻게 되는 시간 t때까지의 손실 전력 변화 이득을 나타낸다.

에너지 저장 시스템(ESS) 내 보유 에너지의 변화 이득은 P2P 에너지 거래에 참여하는 경우에서, 프로슈머가 ESS 내 보유하고 있는 에너지의 화폐가치와 P2P 에너지 거래에 참여하지 않는 경우에서, 프로슈머가 ESS 내 보유하고 있는 에너지의 화폐가치 차이가 계산됨으로써 도출될 수 있다. 에너지 저장 시스템 내 보유 에너지의 변화 이득은 수학식 4를 통해 정의될 수 있다.

수학식 4:

C_g와 D_c는 프로슈머의 에너지 생산과 소비로 인한 ESS 내 충전과 방전되는 에너지 양을 나타내며, C_b와 D_s는 P2P 시장에서 거래로 인해 ESS 내 충전과 방전되는 에너지 양을 나타낸다. E는 시간 t일 때, ESS 내 에너지 보유량을 나타내며, G_ess는 ESS 내 보유 에너지의 변화 이득을 나타낸다.

최종적으로 프로슈머의 P2P 에너지 거래에서의 이득은 상기 설명한 4가지 이득의 합이 계산됨으로써 도출될 수 있다. 프로슈머의 P2P 에너지 거래에서의 이득은 수학식 5를 통해 정의될 수 있다.

수학식 5:

강화학습 네트워크는 매 월 전기요금이 책정되는 시기에 지연 보상을 출력하며, 이러한 지연 보상을 장기간 지연 보상(Long-Term Delayed Reward: LTDR)이라 정의한다.

강화학습 네트워크는 이득 변화율이 특정 임계값을 넘어갈 때마다 지연 보상을 출력하며, 이러한 지연 보상을 단기간 지연 보상(Short-Term Delayed Reward: STDR)이라 정의한다.

최종 단기간에 대한 지연 보상은 장기간 지연보상 발생 전까지의 단기간 지연 보상의 발생 횟수 대비 단기간 지연 보상의 누적합(Cumulative Sum)으로 정의될 수 있다.

강화학습 네트워크의 최종 지연보상 출력은 장기간에 대한 지연 보상과 단기간에 대한 지연 보상의 가중합(Weighted Sum)으로 정의하며, 이러한 지연 보상을 장/단기간 지연 보상(Long-Term Short-Term Delayed Reward: LSTDR)이라 정의한다.

장/단기간 지연 보상은 강화학습 네트워크 내 가치 함수 출력에 더해져 정책 업데이트에 활용될 수 있다.

도 2는 일 실시예에 있어서, DQN을 활용한 자동 에너지 거래 알고리즘 동작 과정을 설명하기 위한 슈도 코드(pseudo-code)이다. 강화학습 네트워크로 DQN을 활용한 자동 에너지 거래 알고리즘의 내부 동작 구조를 슈도 코드로 나타낸 것이다.

도 3은 일 실시예에 있어서, 단기간 지연보상 방식을 적용한 결과를 설명하기 위한 예이다.

주식 거래에 사용하는 단기간 지연보상 방식을 에너지 거래 알고리즘에 적용한 결과를 나타낸 예이다. 단기간의 패턴들을 잘 학습할 수 있어 높은 이득을 발생시키고 있지만 고정된 에피소드의 종료 시점이 있어 최종 이득을 평가하는 월 말에서 이득을 내지 못하고 있는 경우가 있는 것을 확인할 수 있다.

도 4는 일 실시예에 있어서, 장기간 지연보상 방식을 적용한 결과를 설명하기 위한 예이다.

기존 에너지 거래에서 사용하는 장기간 지연보상 방식을 에너지 거래 알고리즘에 적용한 결과를 나타낸 예이다. 월 단위의 장기간 패턴을 학습할 수 있어 매 월말 마다 이득을 얻고 있지만, 단기간의 거래 패턴을 학습하기 어려워 단순한 거래 전략을 취하면서 많은 이득을 얻지 못하는 것을 확인할 수 있다.

도 5는 일 실시예에 있어서, 장/단기간 지연보상 방식을 적용한 결과를 설명하기 위한 예이다.

실시예에서 제안된 장/단기간 지연보상 방식을 에너지 거래 알고리즘에 적용한 결과를 설명하기 위한 예이다. 단기간의 지연보상 방식과 장기간의 지연보상 방식에서 발생하는 문제점들을 모두 보완하고 매 월마다 많은 이득을 얻고 있는 것을 확인할 수 있다.

도 6은 일 실시예에 있어서, 전기요금 체계에 적용한 프로슈머의 월 별 최종 이득 변화를 나타낸 예이다.

도 6(a)는 일본 전기요금 체계에 적용한 프로슈머의 월 별 최종 이득 변화를 나타낸 예이고, 도 6(b)는 대만 전기요금 체계에 적용한 프로슈머의 월 별 최종 이득 변화를 나타낸 예이고, 도 6(c)는 미국 전기요금 체계에 적용한 프로슈머의 월 별 최종 이득 변화를 나타낸 예이다.

도 9는 일 실시예에 있어서, 과잉 발전으로 인한 손실된 에너지의 화폐가치를 나타낸 예이다.

도 9와 같이, P2P 에너지 거래를 통해 과잉 발전으로 인하여 손실되는 에너지가 발생하지 않는 것을 확인할 수 있다.

도 7은 일 실시예에 따른 에너지 거래 시스템의 구성을 설명하기 위한 블록도이고, 도 8은 일 실시예에 따른 에너지 거래 시스템에서 P2P 에너지 거래 방법을 설명하기 위한 흐름도이다.

에너지 거래 시스템(100)의 프로세서는 거래 요청 수신부(710) 및 거래 참여 결정부(720)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 에너지 거래 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 8의 P2P 에너지 거래 방법이 포함하는 단계들(810 내지 820)을 수행하도록 에너지 거래 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서는 P2P 에너지 거래 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 에너지 거래 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 에너지 거래 시스템을 제어할 수 있다. 이때, 거래 요청 수신부(710) 및 거래 참여 결정부(720) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(810 내지 820)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.

단계(810)에서 거래 요청 수신부(710)는 에너지 저장 시스템(Energy Storage System)을 보유하고 전력 에너지를 생산 또는 소비하는 프로슈머의 거래 요청을 수신할 수 있다. 예를 들면, 거래 요청 수신부(710)는 프로슈머 정보를 입력받을 수 있다. 거래 요청 수신부(710)는 입력받은 프로슈머 정보를 강화학습 모델에 입력할 수 있다.

단계(820)에서 거래 참여 결정부(720)는 수신된 프로슈머의 거래 요청에 대하여 강화학습 모델을 사용하여 프로슈머 간 에너지 거래를 위한 프로슈머의 거래 참여를 결정할 수 있다. 거래 참여 결정부(720)는 프로슈머가 P2P 에너지 거래에 참여하는 경우와 프로슈머가 P2P 에너지 거래에 참여하지 않는 경우에서의 이득 변화의 차이 정보를 비교하여 프로슈머의 거래 참여를 결정할 수 있다. 거래 참여 결정부(720)는 프로슈머가 P2P 에너지 거래에 참여하는 경우와 프로슈머가 P2P 에너지 거래에 참여하지 않는 경우에서의 이득 변화의 차이 정보를 비교하여 프로슈머의 거래 참여를 결정할 수 있다.

신재생 에너지의 확산과 ICT 기술의 고도화에 따라 스마트 그리드는 에너지 시장에서 매우 중요한 요소이다. 특히, 인공지능 기술을 접목한 스마트 그리드 기술은 차세대 전력망 기술의 핵심적인 분야가 될 것으로 기대되며, 본 발명은 프로슈머 간의 자동 P2P 에너지 거래 방식을 제시함으로써 다음의 파생 효과가 예상된다.

실시예에 따른 P2P 에너지 거래 방법은 전체 전력망에서의 수요/공급을 자동적으로 조절하게 하여 과잉발전에 대한 에너지 손실을 줄이고 효과적인 에너지 거래를 가능하게 한다. 이는 공격 전력에 대한 전체 수요를 줄이며 전력 계통은 과부하시 프로슈머 간의 거래를 통해 피크절감 효과를 얻을 수 있다. 이에 따라 발전소 운영에 있어 대기 발전기를 감축시킬 수 있으며 예비 전력을 줄일 수 있다. 이는 공급 전력의 발전 단가를 나주는 효과를 줄 수 있다.

실시예에서는 과금제도를 고려한 자동 P2P 에너지 거래에 대한 방법을 제시함으로써, 거래 전략에 대한 지식이 없는 프로슈머도 직접적인 거래 결정없이 거래에서 최대의 이득을 얻을 수 있는 최적의 거래 전략으로 거래에 참여할 수 있으며, 최종 비용을 감소시킴으로써 프로슈머가 P2P 에너지 거래에 거리감없이 참여할 수 있도록 유도할 수 있다. 이에 따라, P2P 에너지 거래에 있어 중요한 프로슈머의 유입을 활성화할 수 있는 효과가 있다.

전국적인 전력망을 보유하고 있는 한국 전력에서 자동 P2P 에너지 거래 기술을 적용하여 프로슈머에게 거래의 매체로 적절한 수수료를 부과함으로써 새로운 수익 모델 창출이 가능하다.

또한, 인공지능 기술을 적용한 차세대 스마트 그리드 관련 기술에 대한 혁신적인 패러다임을 제시하여 전력망의 차세대 선도 기술을 이끄는 기업의 입지를 강화할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

에너지 거래 시스템에 의해 수행되는 P2P 에너지 거래 방법에 있어서,
에너지 저장 시스템(Energy Storage System)을 보유하고 전력 에너지를 생산 또는 소비하는 프로슈머의 거래 요청을 수신하는 단계; 및
상기 수신된 프로슈머의 거래 요청에 대하여 강화학습 모델을 사용하여 프로슈머 간 에너지 거래를 위한 프로슈머의 거래 참여를 결정하는 단계
를 포함하고,
상기 강화학습 모델은,
마르코프 결정 과정(Markov Decision Process) 기반의 강화학습 모델로서, 지연보상 방식에 기초하여 일정 이상의 거래를 통한 이득 변화가 발생할 때 지연 보상을 출력하고, 출력된 지연 보상을 활용하여 강화학습 정책이 업데이트되도록 구성되고, 과금 기간 내의 이득을 최대화하기 위해 기 설정된 기간 이내에 대한 단기간 지연보상 방식 및 기 설정된 기간 이상에 대한 장기간 지연보상 방식을 사용하여 장기간의 거래패턴 및 단기간의 거래패턴이 학습되는
P2P 에너지 거래 방법.
제1항에 있어서,
상기 결정하는 단계는,
프로슈머가 P2P 에너지 거래에 참여하는 경우와 프로슈머가 P2P 에너지 거래에 참여하지 않는 경우에서의 이득 변화의 차이 정보를 비교하여 프로슈머의 거래 참여를 결정하는 단계
를 포함하는 P2P 에너지 거래 방법.
제2항에 있어서,
상기 결정하는 단계는,
전기요금 이득, P2P 시장 이득, 손실 전력 변화 이득 및 에너지 저장 시스템 내 보유 에너지의 변화 이득의 합을 통해 프로슈머의 P2P 에너지 거래에서의 이득을 획득하는 단계
를 포함하는 P2P 에너지 거래 방법.
제3항에 있어서,
상기 전기요금 이득은,
P2P 에너지 거래에 참여하는 경우, 프로슈머가 지불하게 되는 전기요금과 P2P 에너지 거래에 참여하지 않는 경우, 프로슈머가 지불하게 되는 전기요금의 차이를 통해 도출되는, 것을 특징으로 하는 P2P 에너지 거래 방법.
제3항에 있어서,
상기 P2P 시장 이득은,
P2P 에너지 거래에 참여하는 경우, 프로슈머가 시장에서 획득되는 수익과 P2P 에너지 거래에 참여하지 않는 경우, 프로슈머가 시장에서 획득되는 수익의 차이를 통해 도출되는, 것을 특징으로 하는 P2P 에너지 거래 방법.
제3항에 있어서,
상기 손실 전력 변화 이득은,
P2P 에너지 거래에 참여하는 경우, 프로슈머가 에너지 저장 시스템 내 과잉 충전으로 인해 손실하게 되는 에너지의 화폐가치와 P2P 에너지 거래에 참여하지 않는 경우, 프로슈머가 과잉 충전으로 인해 손실하게 되는 에너지의 화폐가치의 차이를 통해 도출되는, 것을 특징으로 하는 P2P 에너지 거래 방법.
제3항에 있어서,
상기 에너지 저장 시스템 내 보유 에너지의 변화 이득은,
P2P 에너지 거래에 참여하는 경우, 프로슈머가 에너지 저장 시스템 내 보유하고 있는 에너지의 화폐가치와 P2P 에너지 거래에 참여하지 않는 경우, 프로슈머가 에너지 저장 시스템 내 보유하고 있는 에너지의 화폐가치의 차이를 통해 도출되는, 것을 특징으로 하는 P2P 에너지 거래 방법.
삭제
삭제
제1항에 있어서,
상기 강화학습 모델에서, 상기 단기간 지연보상 방식을 사용하여 이득 변화의 비율이 특정 임계값을 초과할 때마다 출력되는 단기간 지연 보상이 획득되고, 상기 장기간 지연보상 방식을 사용하여 기 설정된 주기마다 전기 요금이 책정되는 시기에 출력되는 장기간 지연 보상이 획득되는
것을 특징으로 하는 P2P 에너지 거래 방법.
제1항에 있어서,
상기 장기간 지연 보상의 발생 전까지 상기 단기간 지연 보상의 발생 횟수 대비 상기 단기간 지연 보상의 누적합을 통해 최종의 단기간 지연 보상이 획득되고, 상기 획득된 최종의 단기간 지연보상 및 상기 장기간 지연 보상의 가중합을 통해 상기 강화학습 모델에서 네트워크의 최종 지연 보상이 출력되는
것을 특징으로 하는 P2P 에너지 거래 방법.
P2P 에너지 거래를 위한 에너지 거래 시스템에 있어서,
에너지 저장 시스템(Energy Storage System)을 보유하고 전력 에너지를 생산 또는 소비하는 프로슈머의 거래 요청을 수신하는 거래 요청 수신부; 및
상기 수신된 프로슈머의 거래 요청에 대하여 강화학습 모델을 사용하여 프로슈머 간 에너지 거래를 위한 프로슈머의 거래 참여를 결정하는 거래 참여 결정부
를 포함하고,
상기 강화학습 모델은,
마르코프 결정 과정(Markov Decision Process) 기반의 강화학습 모델로서, 지연보상 방식에 기초하여 일정 이상의 거래를 통한 이득 변화가 발생할 때 지연 보상을 출력하고, 출력된 지연 보상을 활용하여 강화학습 정책이 업데이트되도록 구성되고, 과금 기간 내의 이득을 최대화하기 위해 기 설정된 기간 이내에 대한 단기간 지연보상 방식 및 기 설정된 기간 이상에 대한 장기간 지연보상 방식을 사용하여 장기간의 거래패턴 및 단기간의 거래패턴이 학습되는
에너지 거래 시스템.