KR102193776B1

KR102193776B1 - 강화학습 기반 센서 데이터 관리 방법 및 시스템

Info

Publication number: KR102193776B1
Application number: KR1020190175671A
Authority: KR
Inventors: 우홍욱; 정승환; 유광표; 유민종; 염익준
Original assignee: 성균관대학교 산학협력단
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-12-22
Also published as: US20210201084A1

Abstract

본 발명은 강화학습 기반 센서 데이터 관리 시스템에 있어서, 센서 네트워크에 포함된 복수의 센서 각각에 대응되어, 각각의 센서로부터 수신하는 데이터를 업데이트하는 복수의 가상화된 오브젝트와, 어플리케이션이 요구하는 데이터 품질을 나타내는 요청(query)들을 관리하는 가상 오브젝트 계층부; 및 상기 복수의 가상화된 오브젝트의 현재 상태 정보 및 상기 어플리케이션의 요청들에 기초하여, 상기 센서 네트워크의 액션 공간의 크기를 추상화하는 추상화된 액션을 산출하고, 산출된 추상화된 액션과 각 가상화된 오브젝트 간의 위치관계에 기초하여, 상기 복수의 가상화된 오브젝트에 대한 점수를 산출하며, 산출된 점수를 바탕으로 복수의 가상화된 오브젝트에 우선순위를 매겨서 우선순위에 따라 각각의 센서로부터 수신되는 데이터를 상기 복수의 가상화된 오브젝트에 업데이트하는 데이터 오케스트레이터부를 포함한다.

Description

강화학습 기반 센서 데이터 관리 방법 및 시스템{REINFORCEMENT LERNING BASED SENSOR DATA MANAGEMENT METHOD AND SYSTEM}

본 발명은 센서 데이터 관리 기법에 관한 것으로서, 보다 상세하게는, 딥 러닝 기반의 강화학습을 사용하여 센서들의 업데이트를 스케줄링함으로써, 다양한 자원의 제약 아래에서도 효율적으로 센서 데이터를 관리할 수 있는 강화학습 기반 센서 데이터 관리 방법 및 시스템에 관한 것이다.

현대의 사물 인터넷 기술의 발전을 통한 초 연결은 물리적 세계와 디지털 세계의 통합을 의미하는 디지털 트윈의 실현을 가능하게 했다. 이 디지털 트윈은 물리적 세계를 추상화하여 디지털화함으로써, 물리적 센서 데이터와 디지털 데이터의 원활한 동기화를 목표로 한다.

그러나, 물리적 개체와 디지털 데이터 간의 동기화를 위한 자원이 제한된 환경에서는 어플리케이션 수준에서 요구하는 데이터 품질을 만족하기 어렵다. 자율주행 어플리케이션을 이용한 모의실험(simulation)을 진행한 결과에 따르면, 업데이트에 사용되는 자원의 제한이나, 업데이트의 주기(센서의 샘플링 주기), 업데이트 지연 시간(네트워크 지연시간)이 길어짐에 따라 성능이 떨어지는 것을 관찰하였다.

도 1은 구동 시뮬레이터를 사용한 예제 테스트에서 제한된 시스템 자원의 영향을 보여준다. 도 1에서, Y 축의 주행 점수는 테스트된 에이전트의 주행 능력을 나타낸다. 감지 메커니즘에 대해 더 많은 자원 제한 조건이 지정됨에 따라 점수가 저하되는 것을 알 수 있다. X 축에서는 (a) 자원 제한 비율, (b) 프레임의 업데이트 시간 간격, 및 (c) 프레임의 업데이트 지연과 같이 구성 가능한 파라미터를 기반으로 자원 사용에 부과되는 제한 수준을 여러 합성 단계로 설정하였다. 예를 들어, 자원 제한은 데이터 전송을 위해 제한된 대역폭 가용성 및 다중 협시야각 센서 또는 다중 카메라 감지 시스템이 있는 네트워크 시스템의 처리를 에뮬레이팅하여 장면 이미지에서 새로 업데이트된 부분의 일부를 지정한다. 마찬가지로, 업데이트 시간 간격과 업데이트 지연은 시간 제한과 불완전한 데이터 동기화를 에뮬레이트하는 다양한 상황을 만들었다. 예상대로 제한이 많을수록 주행 점수 수준이 크게 떨어지는 것을 알 수 있다.

또한, 기존의 딥 러닝 기반의 강화학습은 액션 공간(Action Space)이 커짐에 따라 학습에 어려움을 겪는 문제점을 가지고 있다. 일반적인 데이터 관리 시스템의 경우 센서 데이터의 수에 따라 선택할 수 있는 액션의 경우의 수가 급격히 증가하는 추세를 보인다. 예를 들어, 256개의 센서 중에서 20 %의 센서를 업데이트하는 액션의 경우의 수는

가지이다. 이러한 문제점 때문에 기존의 강화학습을 적용하여 데이터 관리를 수행한 연구들의 경우, 모의실험에서 사용한 센서의 개수가 십 수개 미만이기 때문에, 많은 센서들이 존재하는 실제 환경에 적용하기 어려운 문제점이 있었다.

특허 등록번호 10-1030345 (“실시간 방송 시스템 및 그 방법")(2011.04.13.)

따라서, 본 발명은 상기 문제점을 해결하기 위해, 동기화를 위한 자원이 제한된 환경에서 효율적인 데이터 관리를 통해 데이터 품질 의존도가 높은 어플리케이션의 성능을 향상시킬 수 있는 강화학습 기반 센서 데이터 관리 방법 및 시스템을 제공하고자 한다.

상기 목적을 달성하기 위해, 본 발명에서 제공하는 강화학습 기반 센서 데이터 관리 시스템은, 센서 네트워크에 포함된 복수의 센서 각각에 대응되어, 각각의 센서로부터 수신하는 데이터를 업데이트하는 복수의 가상화된 오브젝트와, 어플리케이션이 요구하는 데이터 품질을 나타내는 요청(query)들을 관리하는 가상 오브젝트 계층부; 및 상기 복수의 가상화된 오브젝트의 현재 상태 정보 및 상기 어플리케이션의 요청들에 기초하여, 상기 센서 네트워크의 액션 공간의 크기를 추상화하는 추상화된 액션을 산출하고, 산출된 추상화된 액션과 각 가상화된 오브젝트 간의 위치관계에 기초하여, 상기 복수의 가상화된 오브젝트에 대한 점수를 산출하며, 산출된 점수를 바탕으로 복수의 가상화된 오브젝트에 우선순위를 매겨서 우선순위에 따라 각각의 센서로부터 수신되는 데이터를 상기 복수의 가상화된 오브젝트에 업데이트하는 데이터 오케스트레이터부를 포함한다.

바람직하게는, 상기 복수의 가상화된 오브젝트의 현재 상태 정보는 가상화된 오브젝트가 가장 최근에 업데이트되었던 시점부터 현재까지의 시간 간격을 나타내는 노후도, 가상화된 오브젝트의 업데이트를 결정한 후, 업데이트하는 데 필요한 시간을 나타내는 업데이트 수행 시간, 및 가상화된 오브젝트의 업데이트가 완료될 때까지 남은 시간을 나타내는 남은 수행 시간을 포함하고, 상기 어플리케이션의 각 요청은 각각의 가상화된 오브젝트에 대한 노후도 상한 및 마감기한을 포함할 수 있다.

바람직하게는, 상기 데이터 오케스트레이터부는 각 가상화된 오브젝트의 상기 노후도, 상기 업데이트 수행 시간, 및 상기 남은 수행 시간과, 상기 어플리케이션의 요청들과, 맥락(context)을 입력으로 기설정된 정책에 기초하여 상기 센서 네트워크의 액션 공간보다 작은 크기의 액션 공간을 갖는 추상화된 액션을 산출할 수 있다.

바람직하게는, 상기 데이터 오케스트레이터부는 상기 추상화된 액션과 각 가상화된 오브젝트 간의 거리에 기초하여 상기 복수의 가상화된 오브젝트에 대한 점수를 산출할 수 있다.

바람직하게는, 상기 가상 오브젝트 계층부는 상기 어플리케이션이 요구한 요청들에 대해서, 요청이 만족한 경우, 양의 값을 상기 데이터 오케스트레이터부의 보상으로 넘겨주고, 요청이 위반된 경우, 음의 값을 상기 데이터 오케스트레이터부의 보상으로 넘겨줄 수 있다.

또한, 상기 목적을 달성하기 위해, 본 발명에서 제공하는 강화학습 기반 센서 데이터 관리 방법은, 강화학습 기반 센서 데이터 관리 시스템이, 센서 네트워크에 포함된 복수의 센서 각각에 대응되어, 각각의 센서로부터 수신하는 데이터를 업데이트하는 복수의 가상화된 오브젝트와, 어플리케이션이 요구하는 데이터 품질을 나타내는 요청(query)들을 마련하는 단계; 상기 강화학습 기반 센서 데이터 관리 시스템이, 상기 복수의 가상화된 오브젝트의 현재 상태 정보 및 상기 어플리케이션의 요청들에 기초하여, 상기 센서 네트워크의 액션 공간의 크기를 추상화하는 추상화된 액션을 산출하는 단계; 상기 강화학습 기반 센서 데이터 관리 시스템이, 산출된 추상화된 액션과 각 가상화된 오브젝트 간의 위치관계에 기초하여, 상기 복수의 가상화된 오브젝트에 대한 점수를 산출하는 단계; 및 상기 강화학습 기반 센서 데이터 관리 시스템이, 산출된 점수를 바탕으로 복수의 가상화된 오브젝트에 우선순위를 매겨서 우선순위에 따라 각각의 센서로부터 수신되는 데이터를 상기 복수의 가상화된 오브젝트에 업데이트하는 단계를 포함한다.

바람직하게는, 상기 추상화된 액션을 산출하는 단계에서, 상기 강화학습 기반 센서 데이터 관리 시스템은, 각 가상화된 오브젝트의 상기 노후도, 상기 업데이트 수행 시간, 및 상기 남은 수행 시간과, 상기 어플리케이션의 요청들과, 맥락(context)을 입력으로 기설정된 정책에 기초하여 상기 센서 네트워크의 액션 공간보다 작은 크기의 액션 공간을 갖는 추상화된 액션을 산출할 수 있다.

바람직하게는, 상기 점수를 산출하는 단계에서, 상기 강화학습 기반 센서 데이터 관리 시스템은, 상기 추상화된 액션과 각 가상화된 오브젝트 간의 거리에 기초하여 상기 복수의 가상화된 오브젝트에 대한 점수를 산출할 수 있다.

바람직하게는, 상기 강화학습 기반 센서 데이터 관리 시스템이, 상기 어플리케이션이 요구한 요청들에 대해서, 요청이 만족한 경우, 양의 값을 보상으로 넘겨주고, 요청이 위반된 경우, 음의 값을 보상으로 넘겨주는 단계를 더 포함할 수 있다.

본 발명에서 제공하는 강화학습 기반 센서 데이터 관리 방법 및 시스템은 네트워크 대역폭이 제한된 환경에서 어플리케이션의 성능을 향상시킬 수 있다.

또한, 강화학습 기반 센서 데이터 관리 방법 및 시스템은 강화학습 기법을 이용하여 데이터 관리를 수행하기 때문에 다양한 자동화 시스템에 적용할 수 있을 뿐만 아니라, 동적으로 변화하는 물리적 환경(센서 네트워크 상황 변화, 어플리케이션의 요구 수준 변화 등)에 유동적으로 대처할 수 있다.

또한, 강화학습 기반 센서 데이터 관리 방법 및 시스템은 어플리케이션 계층과 물리적 계층 사이에서 데이터 관리를 수행하는 프레임워크를 추가하는 형태로 구현되어, 기존에 존재하는 다양한 시스템들에 쉽게 적용할 수 있고, 이를 통해 이식성이 높을 것으로 기대된다.

도 1은 구동 시뮬레이터를 사용한 예제 테스트에서 제한된 시스템 자원의 영향을 보여주는 도면이다.
도 2는 본 발명의 일실시예에 따른 강화학습 기반 센서 데이터 관리 시스템의 개략적인 구성을 나타낸 블록 구성도이다.
도 3은 본 발명의 일실시예에 따른 강화학습 기반 센서 데이터 관리 시스템의 자세한 구성 및 동작 원리를 설명하기 위한 블록 구성도이다.
도 4는 본 발명의 일실시예에 따른 위치 인식 액션 추상화부의 추상화된 액션 산출 방법 및 점수 산출 방법을 설명하기 위한 도면이다.
도 5는 가상화된 오브젝트의 배치 예를 보여주는 도면이다.
도 6은 추상화된 액션의 배치 예를 보여주는 도면이다.
도 7은 본 발명에 따른 강화학습 기반 센서 데이터 관리 시스템에서 가상 오브젝트 계층의 작동 알고리즘에 대한 의사 코드이다.
도 8은 본 발명의 일실시예에 따른 강화학습 기반 센서 데이터 관리 방법을 나타낸 흐름도이다.
도 9는 본 발명의 성능 평가를 위한 모의 실험의 구조를 보여주는 도면이다.
도 10은 도 9의 모의 실험에 대한 결과를 보여주는 그래프이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 설명하되, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 한편 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한 상세한 설명을 생략하여도 본 기술 분야의 당업자가 쉽게 이해할 수 있는 부분의 설명은 생략하였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 2는 본 발명의 일실시예에 따른 강화학습 기반 센서 데이터 관리 시스템의 개략적인 구성을 나타낸 블록 구성도이다.

도 2를 참조하면, 본 발명에 따른 강화학습 기반 센서 데이터 관리 시스템(100)은 가상 오브젝트 계층부(Virtual Object Layer, VOL)(110) 및 데이터 오케스트레이터부(Orchestrator, ORC)(120)를 포함할 수 있다.

가상 오브젝트 계층부(110)는 어플리케이션 계층에 물리적 환경을 오브젝트로 추상화한 구체화된 뷰(Materalized view)를 제공한다. 즉, 가상 오브젝트 계층부(110)는 연속적으로 업데이트되는 복수의 가상화된 오브젝트와 어플리케이션이 요구하는 데이터 품질을 나타내는 요청(Query)들을 관리하는 역할을 수행한다.

여기서, 각각의 가상화된 오브젝트는 노후도(o.s), 업데이트 수행 시간(o.p), 및 남은 수행 시간(o.r)의 3가지 메타데이터로 표현될 수 있다. 노후도는 가상화된 오브젝트가 가장 최근에 업데이트된 시점부터 현재까지의 시간 간격을 의미한다. 업데이트 수행 시간은 해당 가상화된 오브젝트의 업데이트의 수행을 결정한 후, 가상화된 오브젝트가 업데이트되는 데 필요한 시간을 의미한다. 남은 수행 시간은 가상화된 오브젝트의 업데이트가 완료될 때까지 남은 시간을 의미한다.

요청은 각각의 가상화된 오브젝트에 대한 노후도 상한(q.b)과 마감기한(q.d)으로 표현될 수 있다.

데이터 오케스트레이터부(120)는 복수의 가상화된 오브젝트의 현재 상태와 어플리케이션의 요청 등을 파악하여 센서 데이터의 업데이트를 딥 러닝 기반의 강화학습을 이용하여 스케줄링함으로써, 자원 효율적인 데이터 관리를 수행한다.

구체적으로는, 데이터 오케스트레이터부(120)는 가상 오브젝트 계층부(110)로부터 복수의 가상화된 오브젝트의 현재 상태 정보와 어플리케이션의 요청들을 전달받아, 센서 네트워크의 액션 공간의 크기를 추상화하는 추상화된 액션을 산출하고, 산출된 추상화된 액션과 각 가상화된 오브젝트 간의 위치관계에 기초하여, 복수의 가상화된 오브젝트에 대한 우선순위를 위한 점수를 산출하며, 산출된 점수를 바탕으로 복수의 가상화된 오브젝트에 대한 점수를 매겨서 우선순위에 따라 각각의 센서로부터 수신되는 데이터를 복수의 가상화된 오브젝트에 업데이트한다.

이를 통해, 본 발명에 따른 강화학습 기반 센서 데이터 관리 시스템(100)은 큰 이산 액션 공간 문제를 완화시켜, 기존의 연속적인 공간에 대한 강화학습 알고리즘인 SAC(Soft Actor Critic)와 PPO(Proximal Policy Optimization)를 효과적으로 사용할 수 있다.

도 3은 본 발명의 일실시예에 따른 강화학습 기반 센서 데이터 관리 시스템의 자세한 구성 및 동작 원리를 설명하기 위한 블록 구성도이다.

도 3을 참조하면, 가상 오브젝트 계층부(110)는 시스템 상태부(System State)(112) 및 상태 관리부(State Manager)(114)를 포함할 수 있다.

시스템 상태부(112)는 오브젝트 집합, 요청 집합, 및 맥락을 저장한다. 오브젝트 집합은 복수의 가상화된 오브젝트와 함께, 각 가상화된 오브젝트의 현재 상태 정보로서, 노후도(o.s), 업데이트 수행 시간(o.p), 및 남은 수행 시간(o.r)을 포함한다. 요청 집합은 각각의 가상화된 오브젝트에 대한 노후도 상한(q.b)과 마감기한(q.d)을 포함한다.

상태 관리부(114)는 센서 네트워크에 포함된 복수의 센서로부터 수신하는 데이터를 각 센서에 대응되는 가상화된 오브젝트에 업데이트한다. 이때, 상태 관리부(114)는 후술하는 데이터 오케스트레이터부(120)의 자원 관리부(124)에서 설정한 우선순위에 따라 복수의 가상화된 오브젝트를 업데이트한다.

또한, 상태 관리부(114)는 매시간마다 어플리케이션으로부터 수신한 요청들을 저장할 수 있다.

또한, 상태 관리부(114)는 어플리케이션이 요구한 요청들에 대해서, 요청이 만족한 경우, 양의 값을 후술하는 데이터 오케스트레이터부(120)의 강화학습 에이전트부(122-1)의 보상으로 넘겨주고, 요청이 위반된 경우, 음의 값을 강화학습 에이전트부(122-1)의 보상으로 넘겨준다. 예를 들면, 상태 관리부(114)는 모든 가상화된 오브젝트들의 노후도가 해당 요청의 노후도 상한보다 작고, 요청의 마감기한이 끝나지 않은 경우, 해당 요청이 만족되었다고 판단한다. 이와 반대로, 상태 관리부(114)는 요청의 마감기한이 지난 경우, 해당 요청이 위반되었다고 판단한다.

데이터 오케스트레이터부(120)는 크게 위치 인식 액션 추상화부(Locality Aware Action Abstraction, LA3)(122) 및 자원 관리부(Resource Manager)(124)를 포함한다.

위치 인식 액션 추상화부(122)는 가상 오브젝트 계층부(110)로부터 각 가상화된 오브젝트의 현재 상태 정보와 어플리케이션으로부터 요청받은 질의(query)를 전달받아, 업데이트할 오브젝트들을 선택하는 정책을 학습한다. 이를 위해, 위치 인식 액션 추상화부(122)는 강화학습 에이전트부(Reinforcement Learning Agent)(122-1) 및 액션 변환부(Action Transformation Function(122-2)를 포함할 수 있다.

강화학습 에이전트부(122-1)는 각 가상화된 오브젝트의 노후도, 업데이트 수행 시간, 및 남은 수행 시간과, 어플리케이션의 요청들과, 맥락(context)을 입력으로 기설정된 정책에 기초하여 센서 네트워크의 액션 공간보다 작은 크기의 액션 공간을 갖는 추상화된 액션을 산출한다.

액션 변환부(122-2)는 강화학습 에이전트부(122-1)에 의해 산출된 추상화된 액션과 각 가상화된 오브젝트 간의 위치관계, 예를 들면, 거리에 기초하여 복수의 가상화된 오브젝트에 대한 우선순위를 위한 점수를 산출한다. 본 발명에 따른 강화학습 에이전트부(122-1)의 추상화된 액션 산출 및 액션 변환부(122-2)의 점수 산출 방법에 대해서는 이하의 도 4에서 상세히 설명하기로 한다.

자원 관리부(124)는 액션 변환부(122-2)에서 산출된 각각의 가상화된 오브젝트들에 대한 점수를 기반으로 복수의 가상화된 오브젝트에 우선순위를 부여하고, 우선순위에 따라 각각의 센서로부터 수신한 데이터를 상태 관리부(114)로 전달한다.

도 4는 본 발명의 일실시예에 따른 위치 인식 액션 추상화부의 추상화된 액션 산출 방법 및 점수 산출 방법을 설명하기 위한 도면이다.

도 4를 참조하면, 강화학습 에이전트부(122-1)는 아래 수학식 1에 의해 정의되는 추상화 액션 함수를 이용하여 추상화된 액션을 산출한다.

여기서, A(.)| 함수는 강화학습을 의미한다. 강화학습 에이전트부(122-1)는 추상화 액션 함수의 입력으로서, 노후도, 업데이트 수행 시간, 및 남은 수행 시간과 현재 존재하는 요청(query)들, 그리고 마지막으로 맥락(context)을 사용한다. 강화학습 에이전트부(122-1)는 상술한 입력에 기설정된 정책(policy π)을 적용하여 센서 네트워크의 액션 공간보다 작은 크기의 액션 공간을 갖는 추상화된 액션(ρ)을 산출한다. 여기서, 추상화된 액션(ρ)은

와 같이 u1. U2, u3,...로 이루어진 파라미터 집합이며, 각각 VOL이라는 공간의 특정 위치에 매핑된다.

액션 변환부(122-2)는 앞서 강화학습 에이전트부(122-1)에 의해 산출된 추상화된 액션(ρ)을 이용하여 T (·)|ρ라는 액션 변환 함수(Action Transform Function)을 만들어내고, 추상화된 액션(ρ)을 이용하여 각각의 가상화된 오브젝트(Oi,j)의 점수를 평가한다. 이 액션 변환 함수는 아래의 수학식 2에 의해 정의된다.

여기서, Sn은 ρn의 위치이며, Oi,j - Sn 은 n번째 추상화된 액션(ρ)의 위치와 오브젝트 Oi,j 사이의 거리를 나타낸다.

예를 들면, VOL이 5x5 (N=25)이고, |ρ|가 4인 경우, 도 5와 같이 표현될 수 있다.

도 5를 참조하면, O2,3은 2행 3열의 가상화된 오브젝트를 의미하며, 추상화된 액션(ρ)은 [u1, u2, u3, u4]로 이루어진 집합이다.

이어서, 위의 예시에서 추상화된 액션(ρ)의 크기가 4이기 때문에, 도 6에 도시된 바와 같이, S = [(2,2), (2,4), (4,2), (4,4)]에 ρ = [u1, u2, u3, u4]를 매핑한다. 이때, 다른 가상화된 오브젝트들과의 거리를 고려하여 Sn이 가능한 고르게 분산되도록 매핑하는 것이 바람직하다.

액션 변환부(122-2)는 액션 변환 함수에 4개의 추상화된 액션(ρ)을 입력하여 각 가상화된 오브젝트의 점수를 산출한다. 예를 들어, O3,2의 점수는 아래 수학식 3에 의해 계산될 수 있다.

여기서 || O3,2 - S1 ||은 앞서 설명했듯이, O3,2와 S1 사이의 거리를 나타낸다. S1이 (2,2)이기 때문에 O3,2와의 거리를 두 위치 벡터의 상한 노름(supreme norm)으로 구한다.

만약 위 예시에서 u2라는 값이 u1, u3, u4에 비해 크게 나타난 경우, s2와 가까운 거리의 오브젝트들은 거리가 가깝기 때문에,

값이 다른 가상화된 오브젝트에 비해 클 것이며, 가상화된 오브젝트의 점수 T(o)는 높아질 것이다. 즉, u2가 커지면 u2가 매핑된 s2 주위의 가상화된 오브젝트가 선택될 가능성이 높아진다. 이는 VOL에 지역성(locality)이 존재한다는 것을 의미한다. Κ(kappa)는 각 Sn의 점수 Un의 영향력의 범위를 나타낸다. 여기서, Κ 값이 커짐에 따라 분모 값들이 커져서 추상화된 액션(ρ)가 먼 거리의 오브젝트의 점수에 끼치는 영향이 줄어들게 되는 것이다.

이와 같은 방식으로, 본 발명에 따른 위치 인식 액션 추상화부(122)는 N개의 가상화된 오브젝트에 각각 점수를 매겨 높은 점수를 가지는 k개의 가상화된 오브젝트를 선택함으로써, 결과적으로 작은 크기의 액션(ρ)을 이용하여 N개의 가상화된 오브젝트에서 k개의 가상화된 오브젝트를 선택할 수 있다. 따라서, 기존의 강화학습에서 액션 공간의 크기가 커짐에 따라 학습 속도 및 성능이 저하되는 문제점을 해결할 수 있다.

이하에서는, 도 3을 참조하여 본 발명에 따른 센서 데이터 관리 시스템(100)의 전체적인 동작을 설명하기로 한다.

(1) 위치 인식 액션 추상화부(122)는 기설정된 시간 단위로 복수의 가상화된 오브젝트의 현재 상태 정보(예를 들면, 가상화된 오브젝트의 메타데이터 정보와 질의 정보 등)를 가상 오브젝트 계층부(110)로부터 전달받아 강화학습 에이전트부(122-1)에 입력한다.

(2) 위치 인식 액션 추상화부(122)는 강화학습 에이전트부(122-1)에서 출력되는 추상화된 액션을 액션 변환 함수를 사용하여 각각의 가상화된 오브젝트에 대한 점수로 변환한다.

(3)-(4) 자원 관리부(124)는 위치 인식 액션 추상화부(122)에 의해 산출된 점수를 바탕으로 복수의 가상화된 오브젝트에 점수를 매겨서 높은 우선순위를 가진 가상화된 오브젝트들부터 업데이트를 수행한다.

(5)-(6) 자원 관리부(124)는 물리적 환경과 연결된 센서 네트워크로부터 전달받은 데이터를 상태 관리부(114)로 전달하여 가상화된 오브젝트들을 업데이트한다.

(7) 상태 관리부(114)는 어플리케이션이 요구한 요청들에 대해서, 요청이 만족했다면 양의 값을, 요청이 위반되었다면 음의 값을 매겨서 강화학습 에이전트부(122-1)의 보상으로 넘겨준다. 상태 관리부(114)의 보상 방법은 도 7의 알고리즘 1에 구체적으로 나타나 있다.

도 7을 참조하면, 센서가 업데이트되면, 상태 관리부(114)는 해당되는 가상화된 오브젝트의 값과 노후도를 갱신하고, 어플리케이션으로부터 새로운 요청을 가져온다. 그리고 나서, 상태 관리부(114)는 어플리케이션에 대해 보류 중인 모든 요청을 평가하고, 보상 피드백을 데이터 오케스트레이터부(120)로 보낸다. 이때, 상태 관리부(114)는 위반된 요청에 대해서는 부정적인 피드백 -Δ를 보내고, 만족스러운 요청에 대해서는 긍정적인 피드백 +Δ를 보낸다(여기서, Δ > 0). 시스템 상태[qset; oset; ctx]가 지속적으로 업데이트되고 공유되면, 데이터 오케스트레이터부(120)의 강화학습 에이전트부(122-1)는 액션을 구동하기 위해 정책을 사용하고, 스케줄링 결정을 내릴 수 있다.

도 8은 본 발명의 일실시예에 따른 강화학습 기반 센서 데이터 관리 방법을 나타낸 흐름도이다.

도 8을 참조하면, 강화학습 기반 센서 데이터 관리 시스템(100)은, 센서 네트워크에 포함된 복수의 센서 각각에 대응되어, 각각의 센서로부터 수신하는 데이터를 업데이트하는 복수의 가상화된 오브젝트와, 어플리케이션이 요구하는 데이터 품질을 나타내는 요청(query)들을 마련한다(S810). 여기서, 복수의 가상화된 오브젝트의 현재 상태 정보는 가상화된 오브젝트가 가장 최근에 업데이트된 시점부터 현재까지의 시간 간격을 나타내는 노후도, 가상화된 오브젝트의 업데이트를 결정한 후, 업데이트하는 데 필요한 시간을 나타내는 업데이트 수행 시간, 및 가상화된 오브젝트의 업데이트가 완료될 때까지 남은 시간을 나타내는 남은 수행 시간을 포함하고, 어플리케이션의 각 요청은 각각의 가상화된 오브젝트에 대한 노후도 상한 및 마감기한을 포함한다.

강화학습 기반 센서 데이터 관리 시스템(100)은, 복수의 가상화된 오브젝트의 현재 상태 정보 및 어플리케이션의 요청들에 기초하여, 센서 네트워크의 액션 공간의 크기를 추상화하는 추상화된 액션을 산출한다(S820). 이때, 강화학습 기반 센서 데이터 관리 시스템(100)은, 각 가상화된 오브젝트의 노후도, 업데이트 수행 시간, 및 남은 수행 시간과, 어플리케이션의 요청들과, 맥락(context)을 입력으로 기설정된 정책에 기초하여 센서 네트워크의 액션 공간보다 작은 크기의 액션 공간을 갖는 추상화된 액션을 산출한다.

강화학습 기반 센서 데이터 관리 시스템(100)은, 산출된 추상화된 액션과 각 가상화된 오브젝트 간의 위치관계에 기초하여, 복수의 가상화된 오브젝트에 대한 우선순위를 위한 점수를 산출한다(S830). 이때, 강화학습 기반 센서 데이터 관리 시스템(100)은, 추상화된 액션과 각 가상화된 오브젝트 간의 거리에 기초하여 복수의 가상화된 오브젝트에 대한 점수를 산출한다.

강화학습 기반 센서 데이터 관리 시스템(100)은, 산출된 점수를 바탕으로 복수의 가상화된 오브젝트에 우선순위를 매겨서 우선순위에 따라 각각의 센서로부터 수신되는 데이터를 복수의 가상화된 오브젝트에 업데이트한다(S840).

강화학습 기반 센서 데이터 관리 시스템(100)은, 어플리케이션이 요구한 요청들에 대해서, 요청이 만족하는지 여부를 판단하고(S850), 요청이 만족한 경우, 양의 값을 보상으로 넘겨준다(S860). 강화학습 기반 센서 데이터 관리 시스템(100)은, 요청이 위반된 경우, 음의 값을 보상으로 넘겨준다(S852). 예를 들면, 강화학습 기반 센서 데이터 관리 시스템(100)은 모든 가상화된 오브젝트들의 노후도가 해당 요청의 노후도 상한보다 작고, 요청의 마감기한이 끝나지 않은 경우, 해당 요청이 만족되었다고 판단한다. 이와 반대로, 강화학습 기반 센서 데이터 관리 시스템(100)은 요청의 마감기한이 지난 경우, 해당 요청이 위반되었다고 판단한다.

도 9는 본 발명의 성능 평가를 위한 모의 실험의 구조를 보여주는 도면이다.

도 9는 본 발명에 따른 강화학습 기반 센서 데이터 관리 시스템(100)이 드라이빙 에이전트와 게임 환경 (시뮬레이터) 사이의 중재자 역할을 하는 전체 시스템 환경을 보여준다. 강화학습 기반 센서 데이터 관리 시스템(100)은 게임 환경으로부터 드라이빙 에이전트로 데이터 업데이트를 제어 및 전송할 수 있는 데이터 계층을 제공한다.

프레임 워크의 일반적인 통합 구조 외에도 단일 그룹 내의 이미지 픽셀이 개별 센서에 의해 함께 감지되는 것처럼 이미지 픽셀 그룹이 VOL의 가상화된 오브젝트에 대응되는 오브젝트-이미지 매퍼가 구현된다. 이 설계는 여러 센서가 있는 어플리케이션을 에뮬레이션하기 위한 것이다. 시뮬레이터 자체는 이미지 감지 메커니즘에 대한 세부 사항을 가정하고 있지 않지만, 자동차에는 여러 개의 카메라 센서가 장착된 것으로 가정한다.

각 시간 단계에서 데이터 오케스트레이터(120)는 앞서 설명한 것과 동일한 방식으로 특정 자원 제약 조건에서 가상화된 오브젝트에 대한 업데이트를 선택적으로 스케줄링할 수 있다.

도 10은 도 9의 모의 실험에 대한 결과를 보여주는 그래프이다.

앞선 도 9의 모의 실험의 평가를 위해, 본 발명에 따른 위치 인식 액션 추상화부(LA3)를 종래에 사용되는 SOF(Stalest Object first) 및 RA(Random Action)와 같은 비 RL 휴리스틱(heuristics)과 다른 기준 RO(Random Object)와 비교한다. RO는 어떠한 액션 임베딩없이 각 시간 단계에서 임의로 오브젝트별 액션을 수행한다. 이것은 어떠한 액션 변환 함수도 사용하지 않는다는 점에서 RA와 다르다. 이때, 내부적으로 생성된 모든 요청들 q.d의 마감기한을 1로 설정했으므로 EDF(Earliest Deadline First)는 기준에서 제외된다.

먼저 다양한 자원 제한에서 강화학습 기반 센서 데이터 관리 시스템(100)으로 시뮬레이터를 테스트하였다. 도 10은 자원 제한 (X축)에 대한 정규화된 주행 점수를 보여준다. 도시된 바와 같이, LA3는 대부분의 경우 다른 것보다 더 우수한 성능을 보이며, 20 %의 제한에서 SOF보다 18.3 % 더 높은 성능을 나타낸다. 더 중요한 것은 LA3는 100 %의 제안 성능과 비교할 때 30%의 제한에서도 주행 점수의 96.2 %를 유지한다. 이 시뮬레이터 결과는 LA3를 통해 제한 조건이 높은 주행 환경에서 드라이빙 에이전트를 안정적으로 구동할 수 있음을 보여준다. 예를 들어, VOL에는 센서 데이터 업데이트의 30 %만 선택적으로 적용되고, 대역폭 감소를 위해 70 %가 억제된다.

이 시뮬레이션 테스트에서는, 운전 장면 이미지를 입력 상태로 지속적으로 가져오는 RL 기반 드라이빙 에이전트를 사용하여 조향 및 가속과 관련된 결정을 내린다. 원래 시뮬레이션 설정에서 고해상도 입력에 지연된 결정이 발생하여 주행 점수가 낮아지는 경우가 종종 있었다. 그러나, 본 발명에 따른 강화학습 기반 센서 데이터 관리 시스템(100)의 데이터 오케스트레이터(120)는 적은 양의 자원을 소비하는 입력을 관리하면서도 여전히 우수한 데이터 품질을 드라이빙 에이전트에 제공한다. 이것은 드라이빙 에이전트가 더 높은 점수를 획득할 수 있게 한다. 결과적으로, 정교한 기능 엔지니어링이나 이미지 처리없이 RL 기반 데이터 관리를 사용하여 이러한 안정성을 달성할 수 있다.

상술한 예시적인 시스템에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다.

또한, 당업자라면 순서도에 나타낸 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

Claims

센서 네트워크에 포함된 복수의 센서 각각에 대응되어, 각각의 센서로부터 수신하는 데이터를 업데이트하는 복수의 가상화된 오브젝트와, 어플리케이션이 요구하는 데이터 품질을 나타내는 요청(query)들을 관리하는 가상 오브젝트 계층부; 및
상기 복수의 가상화된 오브젝트의 현재 상태 정보 및 상기 어플리케이션의 요청들에 기초하여, 상기 센서 네트워크의 액션 공간의 크기를 추상화하는 추상화된 액션을 산출하고, 산출된 추상화된 액션과 각 가상화된 오브젝트 간의 위치관계에 기초하여, 상기 복수의 가상화된 오브젝트에 대한 점수를 산출하며, 산출된 점수를 바탕으로 복수의 가상화된 오브젝트에 우선순위를 매겨서 우선순위에 따라 각각의 센서로부터 수신되는 데이터를 상기 복수의 가상화된 오브젝트에 업데이트하는 데이터 오케스트레이터부;
를 포함하는 강화학습 기반 센서 데이터 관리 시스템.
제1항에 있어서,
상기 복수의 가상화된 오브젝트의 현재 상태 정보는 가상화된 오브젝트가 가장 최근에 업데이트되었던 시점부터 현재까지의 시간 간격을 나타내는 노후도, 가상화된 오브젝트의 업데이트를 결정한 후, 업데이트하는 데 필요한 시간을 나타내는 업데이트 수행 시간, 및 가상화된 오브젝트의 업데이트가 완료될 때까지 남은 시간을 나타내는 남은 수행 시간을 포함하고,
상기 어플리케이션의 각 요청은 각각의 가상화된 오브젝트에 대한 노후도 상한 및 마감기한을 포함하는 것을 특징으로 하는 강화학습 기반 센서 데이터 관리 시스템.
제2항에 있어서,
상기 데이터 오케스트레이터부는 각 가상화된 오브젝트의 상기 노후도, 상기 업데이트 수행 시간, 및 상기 남은 수행 시간과, 상기 어플리케이션의 요청들과, 맥락(context)을 입력으로 기설정된 정책에 기초하여 상기 센서 네트워크의 액션 공간보다 작은 크기의 액션 공간을 갖는 추상화된 액션을 산출하는 것을 특징으로 하는 강화학습 기반 센서 데이터 관리 시스템.
제2항에 있어서,
상기 데이터 오케스트레이터부는 상기 추상화된 액션과 각 가상화된 오브젝트 간의 거리에 기초하여 상기 복수의 가상화된 오브젝트에 대한 점수를 산출하는 것을 특징으로 하는 강화학습 기반 센서 데이터 관리 시스템.
제1항에 있어서,
상기 가상 오브젝트 계층부는 상기 어플리케이션이 요구한 요청들에 대해서, 요청이 만족한 경우, 양의 값을 상기 데이터 오케스트레이터부의 보상으로 넘겨주고, 요청이 위반된 경우, 음의 값을 상기 데이터 오케스트레이터부의 보상으로 넘겨주는 것을 특징으로 하는 강화학습 기반 센서 데이터 관리 시스템.
강화학습 기반 센서 데이터 관리 시스템이, 센서 네트워크에 포함된 복수의 센서 각각에 대응되어, 각각의 센서로부터 수신하는 데이터를 업데이트하는 복수의 가상화된 오브젝트와, 어플리케이션이 요구하는 데이터 품질을 나타내는 요청(query)들을 마련하는 단계;
상기 강화학습 기반 센서 데이터 관리 시스템이, 상기 복수의 가상화된 오브젝트의 현재 상태 정보 및 상기 어플리케이션의 요청들에 기초하여, 상기 센서 네트워크의 액션 공간의 크기를 추상화하는 추상화된 액션을 산출하는 단계;
상기 강화학습 기반 센서 데이터 관리 시스템이, 산출된 추상화된 액션과 각 가상화된 오브젝트 간의 위치관계에 기초하여, 상기 복수의 가상화된 오브젝트에 대한 점수를 산출하는 단계; 및
상기 강화학습 기반 센서 데이터 관리 시스템이, 산출된 점수를 바탕으로 복수의 가상화된 오브젝트에 우선순위를 매겨서 우선순위에 따라 각각의 센서로부터 수신되는 데이터를 상기 복수의 가상화된 오브젝트에 업데이트하는 단계:
를 포함하는 강화학습 기반 센서 데이터 관리 방법.
제6항에 있어서,
상기 복수의 가상화된 오브젝트의 현재 상태 정보는 가상화된 오브젝트가 가장 최근에 업데이트되었던 시점부터 현재까지의 시간 간격을 나타내는 노후도, 가상화된 오브젝트의 업데이트를 결정한 후, 업데이트하는 데 필요한 시간을 나타내는 업데이트 수행 시간, 및 가상화된 오브젝트의 업데이트가 완료될 때까지 남은 시간을 나타내는 남은 수행 시간을 포함하고,
상기 어플리케이션의 각 요청은 각각의 가상화된 오브젝트에 대한 노후도 상한 및 마감기한을 포함하는 것을 특징으로 하는 강화학습 기반 센서 데이터 관리 방법.
제7항에 있어서, 상기 추상화된 액션을 산출하는 단계에서,
상기 강화학습 기반 센서 데이터 관리 시스템은, 각 가상화된 오브젝트의 상기 노후도, 상기 업데이트 수행 시간, 및 상기 남은 수행 시간과, 상기 어플리케이션의 요청들과, 맥락(context)을 입력으로 기설정된 정책에 기초하여 상기 센서 네트워크의 액션 공간보다 작은 크기의 액션 공간을 갖는 추상화된 액션을 산출하는 것을 특징으로 하는 강화학습 기반 센서 데이터 관리 방법.
제7항에 있어서, 상기 점수를 산출하는 단계에서,
상기 강화학습 기반 센서 데이터 관리 시스템은, 상기 추상화된 액션과 각 가상화된 오브젝트 간의 거리에 기초하여 상기 복수의 가상화된 오브젝트에 대한 점수를 산출하는 것을 특징으로 하는 강화학습 기반 센서 데이터 관리 방법.
제6항에 있어서,
상기 강화학습 기반 센서 데이터 관리 시스템이, 상기 어플리케이션이 요구한 요청들에 대해서, 요청이 만족한 경우, 양의 값을 보상으로 넘겨주고, 요청이 위반된 경우, 음의 값을 보상으로 넘겨주는 단계;
를 더 포함하는 것을 특징으로 하는 강화학습 기반 센서 데이터 관리 방법.