KR20240043852A

KR20240043852A - 강화학습 기반 액체전해질을 포함하는 에너지저장장치의 동적부하 감소 시스템 및 방법

Info

Publication number: KR20240043852A
Application number: KR1020220122382A
Authority: KR
Inventors: 전준현; 정대원; 조운; 김윤선
Original assignee: 동국대학교 산학협력단
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2024-04-04

Abstract

본 발명은 강화학습 기반 액체전해질을 포함하는 에너지저장장치의 동적부하 감소 시스템 및 방법에 관한 것으로, 가속도 센서로부터 액체전해질을 포함하는 에너지저장장치에 가해지는 3축 가속도 정보를 수신하는 가속도 정보 수신부, 상기 수신한 가속도 정보를 이진화 문턱값으로 변환하는 전처리부, 상기 변환된 이진화 문턱값을 강화학습 신경망 네트워크에 입력하여 기계적 제어값을 생성하는 학습부 및 상기 생성된 기계적 제어값을 기초로 동작제어 명령을 생성하여 상기 에너지저장장치를 기계적으로 제어하는 제어장치에 전달하는 제어부를 포함하는 동적부하 감소 시스템과 그 동작 방법을 제공한다.

Description

강화학습 기반 액체전해질을 포함하는 에너지저장장치의 동적부하 감소 시스템 및 방법 {System and Method for Alleviating Dynamic Load of Energy Storage System Containing Liquid Electrolyte using a Reinforcement Learning Technology}

본 발명은 강화학습 기반 액체전해질을 포함하는 에너지저장장치의 동적부하 감소 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 전기이동체의 진동과 흔들림으로 인해 발생하는 ESS에 포함된 액체전해질의 슬로싱(sloshing)에 따른 에너지효율 및 용량(capacity) 감소를 방지하기 위해 강화 학습을 적용하여 액체전해질에 가해지는 동적부하(진동 및 흔들림)를 해소하는 방법에 관한 것이다.

전기 에너지를 이동체의 동력에 사용하는 경우가 늘어나면서 전기 에너지를 저장하는 에너지저장장치(energy storage system: ESS)에 대한 관심이 높아지고 있다. 에너지저장장치에 가장 널리 쓰이는 이차전지 중 하나로 리튬이온전지(lithium ion battery: LIB)를 꼽을 수 있다. LIB는 높은 에너지 밀도와 3.6V의 높은 기전력을 가진다는 장점이 있어 소형 모바일 기기부터 전기자동차, 전기추진선박 등의 전기추진체까지 다양한 전력원으로 사용되고 있다. 이러한 이점에도 불구하고 LIB는 대기의 산소나 습도와의 높은 반응성과 과열에 따른 화재와 폭발의 위험성이 존재하며, 또한 자체 열화로 수명이 2~3년으로 짧고 온도가 높을수록 가속화되는 치명적인 단점이 있다. 특히, 전기 이동체 적용에 따른 흔들림이 클수록 이러한 문제점은 매우 심각하게 나타난다.

이러한 LIB의 치명적인 문제점들이 부각됨에 따라, LIB에비해 에너지밀도와 기전력은 낮으나 수계 전해질을 사용하는 이차 전지로 화재나 폭발의 위험이 전무하고 20~30년의 긴 수명에 따른 수십 센트의 낮은 에너지 비용을 갖는 레독스 흐름전지(redox flow battery: RFB)가 최근 새로운 대안으로 고려되고 있다.

그러나 RFB 또한 에너지저장을 위한 양극과 음극용 액체 전해질 탱크를 필요로 하고 있어, 이동성으로 발생하는 다양한 진동과 흔들림으로 인하여 RFB 양극 및 음극 탱크 속에 있는 액체 전해질의 슬로싱(sloshing)은 매우 심각한 성능 감소(출력과 에너지 용량 손실 등)의 원인이 된다. 이에 상기 두 액체전해질을 사용하는 이차전지를 포함한 ESS를 갖는 전기이동체에 있어 움직임 가속도에 따른 다양한 동적부하의 해소(외부충격 감소 및 슬로싱 방지)는 매우 중요하다.

종래기술인 한국등록특허 제10-1418891호, "액체 전해질 배터리의 제조 방법"은 차량, 선박 또는 비행기와 같은 이동 장치에 액체 전해질 배터리를 적용하는데 있어서, 동적부하로 인한 위와 같은 문제를 방지하기 위하여 동적부하를 최소화하기 위한 기계적인 구조를 제시하는 기술이다.

그러나 이와 같은 기계적인 동적부하 해소 방법으로는 선박과 같이 지속적으로 크게 흔들리는 이동체에서 동적부하를 해소하는 데에 한계가 있어, 보다 적극적으로 동적부하를 해소할 수 있도록 하는 방법이 요구된다.

한국등록특허공보 제10-1418891호

본 발명은 액체전해질을 포함하는 에너지저장장치에 가해지는 동적부하를 최소화하는 것을 목적으로 한다.

본 발명은 액체전해질을 포함하는 에너지저장장치를 흔들림이 많은 이동체에 적용하더라도 에너지 효율이 저하되지 않도록 하는 것을 목적으로 한다.

본 발명은 액체전해질을 포함하는 에너지저장장치에 움직임을 부여하여, 동적부하를 최소화하는 것을 목적으로 한다.

본 발명은 강화학습을 이용하여 액체전해질을 포함하는 에너지저장장치의 동적부하를 최소화할 수 있는 움직임을 판단할 수 있도록 하는 것을 목적으로 한다.

이러한 목적을 달성하기 위하여 본 발명의 일실시예에 따른 동적부하 감소 시스템은 가속도 센서로부터 액체전해질을 포함하는 에너지저장장치에 가해지는 3축 가속도 정보를 수신하는 가속도 정보 수신부, 상기 수신한 가속도 정보를 이진화 문턱값으로 변환하는 전처리부, 상기 변환된 이진화 문턱값을 강화학습 신경망 네트워크에 입력하여 기계적 제어값을 생성하는 학습부 및 상기 생성된 기계적 제어값을 기초로 동작제어 명령을 생성하여 상기 에너지저장장치를 기계적으로 제어하는 제어장치에 전달하는 제어부를 포함하여 구성될 수 있다.

이 때, 상기 동작제어 명령은 상기 3축 각각에 대한 양방향 직선운동 및 양방향 회전운동으로 구성되는 12가지 운동 동작을 포함할 수 있다.

또한, 상기 학습부는 상기 동작제어 명령을 제어장치에 전달한 이후의 상기 변환된 이진화 문턱값을 수신하여 상기 신경망 네트워크의 가중치를 갱신할 수 있다.

또한, 상기 학습부는 상기 에너지저장장치의 에너지 효율을 기초로 보상을 산출하여, 상기 신경망 네트워크의 가중치를 갱신할 수 있다.

또한, 상기 학습부는 적어도 이전의 5단계의 3축 가속도 정보를 순환 신경망 계열의 네트워크에 입력하여 현재의 가속도 변화상태 정보를 생성하고, 상기 생성된 가속도 변화상태 정보를 상기 강화학습 신경망 네트워크에 입력할 수 있다.

또한, 상기 제어부는 상기 학습부에서 생성된 기계적 제어값 중 가장 높은 수치의 제어값을 산출하고, 이를 기초로 동작제어 명령을 생성할 수 있다.

또한, 상기 제어부는 상기 학습부에서 생성된 기계적 제어값 중 가장 높은 수치의 3개의 제어값을 산출하고, 이 중 임의의 1개의 제어값을 선택하여 이를 기초로 동작제어 명령을 생성할 수 있다.

본 발명에 따르면 액체전해질을 포함하는 에너지저장장치에 가해지는 동적부하를 최소화하는 효과를 얻을 수 있다.

본 발명에 따르면 액체전해질을 포함하는 에너지저장장치를 흔들림이 많은 이동체에 적용하더라도 에너지 효율이 저하되지 않도록 하는 효과를 얻을 수 있다.

본 발명에 따르면 액체전해질을 포함하는 에너지저장장치에 움직임을 부여하여, 동적부하를 최소화하는 효과를 얻을 수 있다.

본 발명에 따르면 강화학습을 이용하여 액체전해질을 포함하는 에너지저장장치의 동적부하를 최소화할 수 있는 움직임을 판단할 수 있도록 하는 효과를 얻을 수 있다.

도 1은 본 발명의 일실시예에 따른 동적부하 감소 시스템을 적용하기 위한 전기 이동체의 움직임을 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 동적부하 감소 시스템의 내부구성을 도시한 구성도이다.
도 3는 본 발명의 일실시예에 따른 동적부하 감소 시스템의 학습부를 보다 상세히 설명한 구성도이다.
도 4은 본 발명의 일실시예에 따른 동적부하 감소 시스템에 적용되는 강화학습을 개략적으로 설명한 도면이다.
도 5는 본 발명의 일실시예에 따른 동적부하 감소 시스템에 적용되는 내부 신경망 네트워크를 나타내는 도면이다.
도 6는 본 발명의 일실시예에 따른 동적부하 감소 시스템이 적용된 전기 이동체의 일례를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 동적부하 감소 방법의 흐름을 나타내는 흐름도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하기로 한다. 또한 본 발명의 실시예들을 설명함에 있어 구체적인 수치는 실시예에 불과하며 이에 의하여 발명의 범위가 제한되지 아니한다.

본 발명에 따른 동적부하 감소 시스템은 중앙처리장치(CPU) 및 메모리(Memory, 기억장치)를 구비하고 인터넷 등의 통신망을 통하여 다른 단말기와 연결 가능한 서버 또는 단말의 형태로 구성될 수 있다. 그러나 본 발명이 중앙처리장치 및 메모리 등의 구성에 의해 한정되지는 아니한다. 또한, 본 발명에 따른 동적부하 감소 시스템은 물리적으로 하나의 장치로 구성될 수도 있으며, 복수의 장치에 분산된 형태로 구현될 수도 있다.

도 1은 본 발명의 일실시예에 따른 동적부하 감소 시스템을 적용하기 위한 전기 이동체의 움직임을 나타내는 도면이다.

도면에 도시한 바와 같이, 차량, 선박, 비행기 등의 이동체에 가해지는 가속도는 X, Y, Z의 3개 축을 기준으로 한 직선운동과 회전운동으로 구분할 수 있으며, X, Y, Z 각 축에 따라 서징(surging), 롤링(rolling), 스웨잉(swaying), 피칭(pitching), 헤빙(heaving), 요잉(yawing)의 총 6가지로 구분될 수 있다. 또한, 각각의 운동은 음과 양의 두 가지 방향을 가질 수 있기 때문에, 총 12개의 요소로 이동체에 가해지는 힘을 나타낼 수 있다.

이와 같은 12가지 요소 중에서 직선운동에 대한 요소들은 각 축에 대한 가속도로 검출될 수 있으며, 충격에 의한 회전운동(각속도) 또한 아래 [수식 1]에서와 같이 각 축에 대한 가속도의 종속변수로 나타나게 된다.

[수식 1]

따라서, 본 발명에 따른 동적부하 감소 시스템에서는 액체전해질을 포함하는 에너지저장장치가 이동체에 탑재되는 경우, 이동체의 움직임에 따라서, 에너지저장장치에 가해지는 충격은 X, Y, Z 축에 대한 가속도를 통하여 측정될 수 있으며, 이는 위에 설명한 바와 같이 총 12가지 요소로 분석될 수 있다. 즉, 이 12가지 요소를 상쇄할 수 있는 움직임을 12가지 요소 각각에 대해 결정하여 제어장치를 통해 에너지저장장치에 반대의 힘을 가함으로써, 에너지저장장치의 액체 전해질이 안정을 유지하고 발전효율을 극대화할 수 있도록 한다.

도 2는 본 발명의 일실시예에 따른 동적부하 감소 시스템의 내부구성을 도시한 구성도이다.

도면에 도시한 바와 같이, 본 발명의 일실시예에 따른 동적부하 감소 시스템(201)은 가속도 정보 수신부(210), 전처리부(220), 학습부(230) 및 제어부(240)를 포함하여 구성될 수 있다. 각각의 구성요소는 이하에서 설명하는 구체적인 기능들을 수행하기 위한 모듈로 구성될 수 있으며, 소프트웨어, 하드웨어 또는 소프트웨어와 하드웨어가 결합된 형태로 구성될 수 있으며, 다양한 실시형태로 구현이 가능하다.

본 발명에 따른 동적부하 감소 시스템(201)는 액체전해질을 포함하는 에너지저장장치에 가해지는 동적부하를 감소시켜 에너지효율을 극대화하기 위한 것으로, 에너지저장장치에 직접 연결되어 동작할 수도 있고, 유/무선 네트워크를 통해 연결되어 원격지에서 동작하도록 구성될 수도 있다. 이와 같은 구성형태에 의해 본 발명이 제한되지는 않는다.

가속도 정보 수신부(210)는 가속도 센서로부터 액체전해질을 포함하는 에너지저장장치에 가해지는 3축 가속도 정보를 수신한다. 상술한 바와 같이, 이동체에 가해지는 충격은 X, Y, Z축 각각에 대한 직선 운동과 회전 운동으로 총 12가지 요소로 구분될 수 있는데, 이는 X, Y, Z 축에 대한 가속도 정보로 검출될 수 있다. 따라서, 가속도 정보 수신부(210)는 상기 에너지저장장치에 부착되어 상기 에너지저장장치에 가해지는 가속도를 측정하도록 구성된 가속도 센서로부터 X, Y, Z의 3축 가속도 정보를 수신할 수 있다.

가속도 정보 수신부(210)에서는 실시간으로 측정되는 센서 정보를 수신할 수 있으며, 일정한 시간간격으로 단계적으로 수신되는 센서 정보를 이용하여 단계별 동작이 이루어지도록 구성될 수도 있다.

전처리부(220)는 상기 수신한 가속도 정보를 이진화 문턱값으로 변환한다. 강화학습 등의 딥러닝 연산의 특성상 큰 연산량이 요구되므로, 실시간 학습 및 적용이 어려운 문제점이 있는데, 본 발명에 따른 상기 전처리부를 통해 파라미터의 양을 3축 가속도 즉, 세 가지로 최소화함으로써, 실시간 제어값 학습 및 적용이 가능한 것이다. 특히, 강화학습 등의 딥러닝 연산에서 네트워크 학습효율 향상을 위해 입력 값은 이진화 문턱값으로 변환되는 것이 바람직하다.

전처리부(220)는 3축 가속도 정보를 이진화 문턱값으로 변환하기 위하여 아래 [수식 2]에서와 같은 시그모이드 활성화 함수를 이용할 수 있는데, 이 밖에도 딥러닝 데이터 전처리에 활용되는 다양한 방법이 적용될 수 있고, 그 구체적인 전처리 방법에 의하여 본 발명이 제한되는 것은 아니다.

[수식 2]

학습부(230)는 상기 변환된 이진화 문턱값을 강화학습 신경망 네트워크에 입력하여 기계적 제어값을 생성한다. 이 때, 강화학습은 특정 시각에 에이전트가 선택 가능한 행동과 그 행동에 따른 상태가 주어지는데 과거에 학습한 지식을 기반으로 가장 좋은 결과를 기대할 수 있는 행동을 선택하는 방식을 취한다. 이러한 특성 때문에 특정한 목적에 맞게 사용되는 감독학습과는 달리 동적인 환경이나 학습 시스템과의 상호 작용이 필요한 시스템에서 활용이 가능하다.

또한, 학습부(230)에서 본 발명에 따른 강화학습[도면 3]을 사용하는데 있어 환경에 대한 모델 역시 중요한 요소 중 하나인데 에이전트가 주어진 환경과 상호작용을 할 때 상태(state), 행동(action), 보상(reward)이라는 조건들을 이용한다. 여기에서 환경은 상태로 표현이 되며 에이전트는 적절한 정책에 따라 행동을 취하게 된다. 특정 시각 t에 행동을 취하면 행동에 대한 보상이 이루어지며 상태 a가 b로 변화되는 방식으로 진행된다. 강화학습의 환경 모델은 마르코프 속성을 만족하는 마르코프 의사결정 과정(Markov Decision Process:MDP)을 사용하는데, 마르코프 속성은 주어진 환경에서 적합한 환경의 상태 신호인데 이 모든 신호를 사용자에게 알려줄 수 없기 때문에 현재의 상태를 중요시 판단하여 오직 시각 t의 상태와 행동에만 의존하는 독립적인 속성을 갖는다.

학습부(230)는 상기 강화학습의 에이전트 상호작용 요소인 상태(state), 행동(action), 보상(reward)를 각각 보상검출모듈, 제어모듈, 역전파모듈에서 각각 사용하는 파라미터로 설정한다.

학습부(230)는 상기 동작제어 명령을 제어장치에 전달한 이후의 상기 변환된 이진화 문턱값을 수신하여 상기 신경망 네트워크의 가중치를 갱신한다.

학습부(230)는 상기 강화학습 신경망 연산의 결과로써 3축에 대한 각각 네 가지 운동을 선정하여 총 12개의 기계적 제어값을 도출하는데, 이후 도출된 기계적 제어값을 이용한 제어가 이루어지고 나면, 이후 다음 단계의 3축 가속도를 기기에서 전달받아 학습부의 보상검출모듈에 전달하여 정보를 저장한다. 보상검출모듈에서는 지난 단계의 상태(State), 행동(Action)과 현재 단계의 상태를 비교하여 지난 단계의 보상을 검출하여 역전파 모듈에 전달한다. 이후 역전파 모듈은 전달받은 보상을 파라미터로 하여 신경망 네트워크의 Q-Network의 Weighting Factor를 갱신하여 학습이 진행될수록 안정적으로 동적부하를 해소하는 것이 가능하다.

학습부(230)에서의 상기 일련의 과정을 거친 뒤 신경망 네트워크의 Weighting Factor는 액체전해질을 안정된 상태로 유지할 수 있도록 동적부하를 해소할 수 있다. 나아가 기기의 결함 또는 운송체의 결함으로 인해 작동에 하자가 발생해 기존의 입력데이터와 차이를 보이게 되는 경우 본 발명에서 제시된 모델은 실시간으로 그 변화를 실시간으로 학습하여 능동적인 대응을 통해 안정적인 동적부하 해소가 가능하다.

학습부(230)는 상기 에너지저장장치의 에너지 효율을 기초로 보상을 산출하여, 상기 신경망 네트워크의 가중치를 갱신한다. 신경망 네트워크에서 보상을 산출하는 방법으로 12가지 운동 요소가 최소화되어 안정되는 상태를 이용할 수 있는데, 경우에 따라서는 운동 요소가 최소화되도록 안정시키는 것보다 더 좋은 해결 방안이 존재할 수 있다. 근본적으로는 에너지저장장치의 에너지효율이 떨어지지 않도록 극대화하는 것이 목적이기 때문에, 에너지 효율을 기초로 보상을 산출하는 것이 바람직하다.

에너지효율은 충전 에너지 대비 방전 에너지의 비율로 나타내며, 충전 에너지와 방전 에너지는 모두 전류와 전압과 시간의 곱을 통해 나타낼수 있으므로, 전압 또는 전류가 고정되는 경우 변동되는 전류 또는 전압에 따라 에너지 양이 변화되는 것으로 볼 수 있다. 에너지저장장치에서 1회 충전 후 1회 방전이 이루어지는 것을 한 사이클로 규정하고, 매 사이클마다 충전 에너지 양과 방전 에너지 양을 계산하여 평균 에너지 효율을 구하도록 할 수 있다.

학습부(230)는 적어도 이전의 5단계의 3축 가속도 정보를 순환 신경망 계열의 네트워크에 입력하여 현재의 가속도 변화상태 정보를 생성하고, 상기 생성된 가속도 변화상태 정보를 상기 강화학습 신경망 네트워크에 입력한다. 학습부(230)의 신경망 네트워크 입력 측에서 과거의 3축 가속도 데이터를 반영하기 위해 최초 5단계 진행 이후 현재 단계(시간) t 부터 이전 단계 t-4 까지의 이진화 문턱값으로 나타낸 3축 가속도 데이터들을 순환 신경망을 통해 전 처리한다. 이는 과거 데이터를 현재와 다음 단계에 반영하여 제어의 정확도를 높이기 위함이다.

즉, 학습부(230)는 강화학습 신경망(Deep Q-Network) 과 순환 신경망을 융합한 딥러닝 모델을 이용하여 실시간 시계열 데이터 학습 및 제어를 가능하도록 한다. 상기 순환 신경망 모델에 있어서, 해당 모델은 5개의 Weight와 Bias를 가지며 이는 이전 5단계의 3축 가속도를 연산하기 위한 Weighting Factor이다.

학습부(230)에서 사용되는 강화학습 신경망 모델에 있어서, 해당 모델은 N개의 층으로 이루어 지며 각각 Weighting Factor들을 가지고 있다. 강화학습 신경망은 기존 강화학습 기법인 Q-Learning의 Q-Table을 Q-Network로 대체한 것으로 N개의 층 내에서 복잡한 합성 곱(Convolution) 연산을 통해 무수한 경우의 입력을 처리하는 Q함수의 역할을 한다.

제어부(240)는 상기 생성된 기계적 제어값을 기초로 동작제어 명령을 생성하여 상기 에너지저장장치를 기계적으로 제어하는 제어장치에 전달한다. 상기 동작제어 명령은 상기 3축 각각에 대한 양방향 직선운동 및 양방향 회전운동으로 구성되는 12가지 운동 동작을 포함하여 구성될 수 있다. 이를 통하여 상술한 바와 같이 에너지저장장치에 가해지는 모든 충격을 표현할 수 있게 된다.

제어부(240)는 상기 학습부(230)에서 생성된 기계적 제어값 중 가장 높은 수치의 제어값을 산출하고, 이를 기초로 동작제어 명령을 생성할 수 있다. 학습부(230)에서는 복수의 기계적 제어값들이 도출되게 되는데, 이 중 가장 효율적인 제어값을 선택하여 제어 동작을 진행해야 한다. 따라서, 도출된 제어값의 수치에 따라 정렬하고 가장 높은 수치를 나타내는 제어값을 선정하여 제어 동작을 진행하도록 할 수 있다. 또한, 제어부(240)는 상기 학습부(230)에서 생성된 기계적 제어값 중 가장 높은 수치의 3개의 제어값을 산출하고, 이 중 임의의 1개의 제어값을 선택하여 이를 기초로 동작제어 명령을 생성하는 것도 가능하다. 이 때, 상위 3개의 수치를 가지는 제어값의 수치 차이가 정해진 기준치를 초과하는 경우에는 3개 중 임의의 1개를 선택하는 것이 아니라, 높은 값만을 선정하도록 예외처리 함으로써, 보다 높은 성능을 나타내도록 할 수도 있다.

제어부(240)에서 생성된 동작제어 명령은 상기 제어장치에 전달되어, 모터, 유압기 등 다양한 기계장치를 활용하여 에너지저장장치에 동적부하를 상쇄하기 위한 힘을 가하도록 할 수 있고, 이를 통해 에너지저장장치는 이동체의 움직임에도 불구하고 에너지 효율을 극대화하는 것이 가능하게 된다.

도 3는 본 발명의 일실시예에 따른 동적부하 감소 시스템의 학습부를 보다 상세히 설명한 구성도이다.

도면에 도시한 바와 같이, 본 발명의 일실시예에 따른 동적부하 감소 시스템(201)의 학습부(230)는 신경망 네트워크(231), 학습 모듈(232), 보상검출모듈(232), 역전파모듈(233)를 포함하여 구성될 수 있다.

앞서 설명한 바와 같이 학습부(230)는 전처리부(220)에서 변환된 이진화 문턱값을 강화학습 신경망 네트워크(231)에 입력하여 기계적 제어값을 생성하고, 생성된 기계적 제어값은 제어부(240)에 전달되어 동적부하를 최소화하도록 하는 동작 제어에 활용되게 된다.

이 때, 각 단계에서 생성된 기계적 제어값에 의해 제어부(240)가 동작하고 나면, 다음 단계의 변환된 이진화 문턱값 정보를 수신하여 보상검출모듈(232)에 전달하여 저장하고, 보상검출모듈(232)은 이전 단계의 상태(State), 행동(Action)과 현재 단계의 상태를 비교하여 이전 단계의 보상을 검출한 뒤, 역전파모듈(233)에 전달하게 된다. 이후 역전파모듈(233)은 전달받은 보상을 파라미터로 하여 신경망 네트워크(231)의 큐 네트워크(Q-Network)의 가중치 요소(Weigting-Factor)를 갱신하여 학습이 진행될수록 안정적인 동적부하 해소가 가능하도록 한다.

도 4은 본 발명의 일실시예에 따른 동적부하 감소 시스템에 적용되는 강화학습을 개략적으로 설명한 도면이다.

도면에 도시한 바와 같이, 본 발명에 따른 강화학습을 사용하는데 있어 환경에 대한 모델 역시 중요한 요소 중 하나인데 에이전트가 주어진 환경과 상호작용을 할 때 상태(state), 행동(action), 보상(reward)이라는 조건들을 이용한다. 여기에서 환경은 상태로 표현이 되며 에이전트는 적절한 정책에 따라 행동을 취하게 된다. 특정 시각 t에 행동을 취하면 행동에 대한 보상이 이루어지며 상태 a가 b로 변화되는 방식으로 진행된다. 강화학습의 환경 모델은 마르코프 속성을 만족하는 마르코프 의사결정 과정(Markov Decision Process:MDP)을 사용하는데, 마르코프 속성은 주어진 환경에서 적합한 환경의 상태 신호인데 이 모든 신호를 사용자에게 알려줄 수 없기 때문에 현재의 상태를 중요시 판단하여 오직 시각 t의 상태와 행동에만 의존하는 독립적인 속성을 갖는다.

도 5는 본 발명의 일실시예에 따른 동적부하 감소 시스템에 적용되는 내부 신경망 네트워크를 나타내는 도면이다.

신경망 네트워크 입력 측에서 과거의 3축 가속도 데이터를 반영하기 위해 최초 5단계 진행 이후 현재 단계(시간) t 부터 이전 단계 t-4 까지의 이진화 문턱값으로 나타낸 3축 가속도 데이터들을 순환 신경망을 통해 전 처리한다. 이는 과거 데이터를 현재와 다음 단계에 반영하여 제어의 정확도를 높이기 위함이다. 즉, 강화학습 신경망(Deep Q-Network) 과 순환 신경망을 융합한 딥러닝 모델로서 실시간 시계열 데이터 학습 및 제어를 가능하도록 한다.

상기 순환 신경망 모델에 있어서, 해당 모델은 5개의 Weight와 Bias를 가지며 이는 이전 5단계의 3축 가속도를 연산하기 위한 Weighting Factor이다.

도 6는 본 발명의 일실시예에 따른 동적부하 감소 시스템이 적용된 전기 이동체의 일례를 도시한 도면이다.

도면에 도시한 바와 같이, 이동체에 액체전해질을 이용하는 에너지저장장치가 탑재되었을 때, X, Y, Z축 각각에서 입력되는 가속도를 전처리하고, 학습부에서 강화학습을 통해 액체전해질이 안정화될 수 있도록 하는 목표 가속도를 산출하여 이를 유지하기 위한 동작제어 명령을 생성하고, 생성된 명령에 따라 에너지저장장치에 운동을 가함으로써, X, Y, Z축 각각에서 목표 가속도를 최대한 달성할 수 있도록 한다.

다양한 상황에 대한 학습이 지속됨에 따라서, 입력되는 가속도에 따라 액체전해질을 안정화시킬 수 있는 동작제어 명령이 개선되게 되고, 이를 통해 에너지저장장치의 에너지 효율을 극대화할 수 있게 된다.

도 7은 본 발명의 일실시예에 따른 동적부하 감소 방법의 흐름을 나타내는 흐름도이다.

본 발명에 따른 동적부하 감소 방법은 중앙처리장치(CPU) 및 메모리를 구비하는 동적부하 감소 시스템(201)에서 동작하는 방법에 관한 것으로, 이와 같은 컴퓨팅 시스템에서 동작하도록 소프트웨어 등을 이용하여 구현될 수 있다.

따라서, 상술한 동적부하 감소 시스템(201)에 대하여 설명된 특징적인 구성을 모두 포함하고 있으며, 아래의 설명에서 생략되어 설명되지 않은 내용도 상술한 동적부하 감소 시스템(201)에 대한 설명을 참조하여 구현될 수 있다.

가속도 정보 수신 단계(S701)는 가속도 센서로부터 액체전해질을 포함하는 에너지저장장치에 가해지는 3축 가속도 정보를 수신한다. 상술한 바와 같이, 이동체에 가해지는 충격은 X, Y, Z축 각각에 대한 직선 운동과 회전 운동으로 총 12가지 요소로 구분될 수 있는데, 이는 X, Y, Z 축에 대한 가속도 정보로 검출될 수 있다. 따라서, 가속도 정보 수신 단계(S701)는 상기 에너지저장장치에 부착되어 상기 에너지저장장치에 가해지는 가속도를 측정하도록 구성된 가속도 센서로부터 X, Y, Z의 3축 가속도 정보를 수신할 수 있다.

가속도 정보 수신 단계(S701)에서는 실시간으로 측정되는 센서 정보를 수신할 수 있으며, 일정한 시간간격으로 단계적으로 수신되는 센서 정보를 이용하여 단계별 동작이 이루어지도록 구성될 수도 있다.

전처리 단계(S702)는 상기 수신한 가속도 정보를 이진화 문턱값으로 변환한다. 강화학습 등의 딥러닝 연산의 특성상 큰 연산량이 요구되므로, 실시간 학습 및 적용이 어려운 문제점이 있는데, 본 발명에 따른 상기 전처리부를 통해 파라미터의 양을 3축 가속도 즉, 세 가지로 최소화함으로써, 실시간 제어값 학습 및 적용이 가능한 것이다. 특히, 강화학습 등의 딥러닝 연산에서 네트워크 학습효율 향상을 위해 입력 값은 이진화 문턱값으로 변환되는 것이 바람직하다.

전처리 단계(S702)는 3축 가속도 정보를 이진화 문턱값으로 변환하기 위하여 아래 [수식 2]에서와 같은 시그모이드 활성화 함수를 이용할 수 있는데, 이 밖에도 딥러닝 데이터 전처리에 활용되는 다양한 방법이 적용될 수 있고, 그 구체적인 전처리 방법에 의하여 본 발명이 제한되는 것은 아니다.

[수식 2]

학습 단계(S703)는 상기 변환된 이진화 문턱값을 강화학습 신경망 네트워크에 입력하여 기계적 제어값을 생성한다. 이 때, 강화학습은 특정 시각에 에이전트가 선택 가능한 행동과 그 행동에 따른 상태가 주어지는데 과거에 학습한 지식을 기반으로 가장 좋은 결과를 기대할 수 있는 행동을 선택하는 방식을 취한다. 이러한 특성 때문에 특정한 목적에 맞게 사용되는 감독학습과는 달리 동적인 환경이나 학습 시스템과의 상호 작용이 필요한 시스템에서 활용이 가능하다.

또한, 학습 단계(S703)에서 본 발명에 따른 강화학습[도면 3]을 사용하는데 있어 환경에 대한 모델 역시 중요한 요소 중 하나인데 에이전트가 주어진 환경과 상호작용을 할 때 상태(state), 행동(action), 보상(reward)이라는 조건들을 이용한다. 여기에서 환경은 상태로 표현이 되며 에이전트는 적절한 정책에 따라 행동을 취하게 된다. 특정 시각 t에 행동을 취하면 행동에 대한 보상이 이루어지며 상태 a가 b로 변화되는 방식으로 진행된다. 강화학습의 환경 모델은 마르코프 속성을 만족하는 마르코프 의사결정 과정(Markov Decision Process:MDP)을 사용하는데, 마르코프 속성은 주어진 환경에서 적합한 환경의 상태 신호인데 이 모든 신호를 사용자에게 알려줄 수 없기 때문에 현재의 상태를 중요시 판단하여 오직 시각 t의 상태와 행동에만 의존하는 독립적인 속성을 갖는다.

학습 단계(S703)는 상기 강화학습의 에이전트 상호작용 요소인 상태(state), 행동(action), 보상(reward)를 각각 보상검출모듈, 제어모듈, 역전파모듈에서 각각 사용하는 파라미터로 설정한다.

학습 단계(S703)는 상기 동작제어 명령을 제어장치에 전달한 이후의 상기 변환된 이진화 문턱값을 수신하여 상기 신경망 네트워크의 가중치를 갱신한다.

학습 단계(S703)는 상기 강화학습 신경망 연산의 결과로써 3축에 대한 각각 네 가지 운동을 선정하여 총 12개의 기계적 제어값을 도출하는데, 이후 도출된 기계적 제어값을 이용한 제어가 이루어지고 나면, 이후 다음 단계의 3축 가속도를 기기에서 전달받아 학습부의 보상검출모듈에 전달하여 정보를 저장한다. 보상검출모듈에서는 지난 단계의 상태(State), 행동(Action)과 현재 단계의 상태를 비교하여 지난 단계의 보상을 검출하여 역전파 모듈에 전달한다. 이후 역전파 모듈은 전달받은 보상을 파라미터로 하여 신경망 네트워크의 Q-Network의 Weighting Factor를 갱신하여 학습이 진행될수록 안정적으로 동적부하를 해소하는 것이 가능하다.

학습 단계(S703)에서의 상기 일련의 과정을 거친 뒤 신경망 네트워크의 Weighting Factor는 액체전해질을 안정된 상태로 유지할 수 있도록 동적부하를 해소할 수 있다. 나아가 기기의 결함 또는 운송체의 결함으로 인해 작동에 하자가 발생해 기존의 입력데이터와 차이를 보이게 되는 경우 본 발명에서 제시된 모델은 실시간으로 그 변화를 실시간으로 학습하여 능동적인 대응을 통해 안정적인 동적부하 해소가 가능하다.

학습 단계(S703)는 상기 에너지저장장치의 에너지 효율을 기초로 보상을 산출하여, 상기 신경망 네트워크의 가중치를 갱신한다. 신경망 네트워크에서 보상을 산출하는 방법으로 12가지 운동 요소가 최소화되어 안정되는 상태를 이용할 수 있는데, 경우에 따라서는 운동 요소가 최소화되도록 안정시키는 것보다 더 좋은 해결 방안이 존재할 수 있다. 근본적으로는 에너지저장장치의 에너지효율이 떨어지지 않도록 극대화하는 것이 목적이기 때문에, 에너지 효율을 기초로 보상을 산출하는 것이 바람직하다.

학습 단계(S703)는 적어도 이전의 5단계의 3축 가속도 정보를 순환 신경망 계열의 네트워크에 입력하여 현재의 가속도 변화상태 정보를 생성하고, 상기 생성된 가속도 변화상태 정보를 상기 강화학습 신경망 네트워크에 입력한다. 학습 단계(S703)의 신경망 네트워크 입력 측에서 과거의 3축 가속도 데이터를 반영하기 위해 최초 5단계 진행 이후 현재 단계(시간) t 부터 이전 단계 t-4 까지의 이진화 문턱값으로 나타낸 3축 가속도 데이터들을 순환 신경망을 통해 전 처리한다. 이는 과거 데이터를 현재와 다음 단계에 반영하여 제어의 정확도를 높이기 위함이다.

즉, 학습 단계(S703)는 강화학습 신경망(Deep Q-Network) 과 순환 신경망을 융합한 딥러닝 모델을 이용하여 실시간 시계열 데이터 학습 및 제어를 가능하도록 한다. 상기 순환 신경망 모델에 있어서, 해당 모델은 5개의 Weight와 Bias를 가지며 이는 이전 5단계의 3축 가속도를 연산하기 위한 Weighting Factor이다.

학습 단계(S703)에서 사용되는 강화학습 신경망 모델에 있어서, 해당 모델은 N개의 층으로 이루어 지며 각각 Weighting Factor들을 가지고 있다. 강화학습 신경망은 기존 강화학습 기법인 Q-Learning의 Q-Table을 Q-Network로 대체한 것으로 N개의 층 내에서 복잡한 합성 곱(Convolution) 연산을 통해 무수한 경우의 입력을 처리하는 Q함수의 역할을 한다.

제어 단계(S704)는 상기 생성된 기계적 제어값을 기초로 동작제어 명령을 생성하여 상기 에너지저장장치를 기계적으로 제어하는 제어장치에 전달한다. 상기 동작제어 명령은 상기 3축 각각에 대한 양방향 직선운동 및 양방향 회전운동으로 구성되는 12가지 운동 동작을 포함하여 구성될 수 있다. 이를 통하여 상술한 바와 같이 에너지저장장치에 가해지는 모든 충격을 표현할 수 있게 된다.

제어 단계(S704)는 상기 학습 단계(S703)에서 생성된 기계적 제어값 중 가장 높은 수치의 제어값을 산출하고, 이를 기초로 동작제어 명령을 생성할 수 있다. 학습부(230)에서는 복수의 기계적 제어값들이 도출되게 되는데, 이 중 가장 효율적인 제어값을 선택하여 제어 동작을 진행해야 한다. 따라서, 도출된 제어값의 수치에 따라 정렬하고 가장 높은 수치를 나타내는 제어값을 선정하여 제어 동작을 진행하도록 할 수 있다. 또한, 제어부(240)는 상기 학습부(230)에서 생성된 기계적 제어값 중 가장 높은 수치의 3개의 제어값을 산출하고, 이 중 임의의 1개의 제어값을 선택하여 이를 기초로 동작제어 명령을 생성하는 것도 가능하다. 이 때, 상위 3개의 수치를 가지는 제어값의 수치 차이가 정해진 기준치를 초과하는 경우에는 3개 중 임의의 1개를 선택하는 것이 아니라, 높은 값만을 선정하도록 예외처리 함으로써, 보다 높은 성능을 나타내도록 할 수도 있다.

제어 단계(S704)에서 생성된 동작제어 명령은 상기 제어장치에 전달되어, 모터, 유압기 등 다양한 기계장치를 활용하여 에너지저장장치에 동적부하를 상쇄하기 위한 힘을 가하도록 할 수 있고, 이를 통해 에너지저장장치는 이동체의 움직임에도 불구하고 에너지 효율을 극대화하는 것이 가능하게 된다.

본 발명에 따른 동적부하 감소 방법은 컴퓨터가 실행하도록 기능시키기 위한 프로그램으로 제작되어 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

컴퓨터로 읽을 수 있는 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CDROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있다.

201: 동적부하 감소 시스템
210: 가속도 정보 수신부
220: 전처리부
230: 학습부
240: 제어부

Claims

가속도 센서로부터 액체전해질을 포함하는 에너지저장장치에 가해지는 3축 가속도 정보를 수신하는 가속도 정보 수신부;
상기 수신한 가속도 정보를 이진화 문턱값으로 변환하는 전처리부;
상기 변환된 이진화 문턱값을 강화학습 신경망 네트워크에 입력하여 기계적 제어값을 생성하는 학습부 및
상기 생성된 기계적 제어값을 기초로 동작제어 명령을 생성하여 상기 에너지저장장치를 기계적으로 제어하는 제어장치에 전달하는 제어부
를 포함하는 동적부하 감소 시스템.
제1항에 있어서,
상기 동작제어 명령은
상기 3축 각각에 대한 양방향 직선운동 및 양방향 회전운동으로 구성되는 12가지 운동 동작을 포함하는 것
을 특징으로 하는 동적부하 감소 시스템.
제1항에 있어서,
상기 학습부는
상기 동작제어 명령을 제어장치에 전달한 이후의 상기 변환된 이진화 문턱값을 수신하여 상기 신경망 네트워크의 가중치를 갱신하는 것
을 특징으로 하는 동적부하 감소 시스템.
제3항에 있어서,
상기 학습부는
상기 에너지저장장치의 에너지 효율을 기초로 보상을 산출하여, 상기 신경망 네트워크의 가중치를 갱신하는 것
을 특징으로 하는 동적부하 감소 시스템.
제1항에 있어서,
상기 학습부는
적어도 이전의 5단계의 3축 가속도 정보를 순환 신경망 계열의 네트워크에 입력하여 현재의 가속도 변화상태 정보를 생성하고,
상기 생성된 가속도 변화상태 정보를 상기 강화학습 신경망 네트워크에 입력하는 것
을 특징으로 하는 동적부하 감소 시스템.
제1항에 있어서,
상기 제어부는
상기 학습부에서 생성된 기계적 제어값 중 가장 높은 수치의 제어값을 산출하고, 이를 기초로 동작제어 명령을 생성하는 것
을 특징으로 하는 동적부하 감소 시스템.
제1항에 있어서,
상기 제어부는
상기 학습부에서 생성된 기계적 제어값 중 가장 높은 수치의 3개의 제어값을 산출하고, 이 중 임의의 1개의 제어값을 선택하여 이를 기초로 동작제어 명령을 생성하는 것
을 특징으로 하는 동적부하 감소 시스템.
중앙처리장치 및 메모리를 구비하는 동적부하 감소 시스템에서 동작하는 동적부하 감소 방법에 있어서,
가속도 센서로부터 액체전해질을 포함하는 에너지저장장치에 가해지는 3축 가속도 정보를 수신하는 가속도 정보 수신 단계;
상기 수신한 가속도 정보를 이진화 문턱값으로 변환하는 전처리 단계;
상기 변환된 이진화 문턱값을 강화학습 신경망 네트워크에 입력하여 기계적 제어값을 생성하는 학습 단계 및
상기 생성된 기계적 제어값을 기초로 동작제어 명령을 생성하여 상기 에너지저장장치를 기계적으로 제어하는 제어장치에 전달하는 제어 단계
를 포함하는 동적부하 감소 방법.
제8항에 있어서,
상기 동작제어 명령은
상기 3축 각각에 대한 양방향 직선운동 및 양방향 회전운동으로 구성되는 12가지 운동 동작을 포함하는 것
을 특징으로 하는 동적부하 감소 방법.
제8항에 있어서,
상기 학습 단계는
상기 동작제어 명령을 제어장치에 전달한 이후의 상기 변환된 이진화 문턱값을 수신하여 상기 신경망 네트워크의 가중치를 갱신하는 것
을 특징으로 하는 동적부하 감소 방법.
제10항에 있어서,
상기 학습 단계는
상기 에너지저장장치의 에너지 효율을 기초로 보상을 산출하여, 상기 신경망 네트워크의 가중치를 갱신하는 것
을 특징으로 하는 동적부하 감소 방법.
제8항에 있어서,
상기 학습 단계는
적어도 이전의 5단계의 3축 가속도 정보를 순환 신경망 계열의 네트워크에 입력하여 현재의 가속도 변화상태 정보를 생성하고,
상기 생성된 가속도 변화상태 정보를 상기 강화학습 신경망 네트워크에 입력하는 것
을 특징으로 하는 동적부하 감소 방법.
제8항에 있어서,
상기 제어 단계는
상기 학습부에서 생성된 기계적 제어값 중 가장 높은 수치의 제어값을 산출하고, 이를 기초로 동작제어 명령을 생성하는 것
을 특징으로 하는 동적부하 감소 방법.
제8항에 있어서,
상기 제어 단계는
상기 학습부에서 생성된 기계적 제어값 중 가장 높은 수치의 3개의 제어값을 산출하고, 이 중 임의의 1개의 제어값을 선택하여 이를 기초로 동작제어 명령을 생성하는 것
을 특징으로 하는 동적부하 감소 방법.
제8항 내지 제14항 중 어느 한 항의 방법을 컴퓨터가 실행하도록 기능시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.