KR102240442B1

KR102240442B1 - 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템

Info

Publication number: KR102240442B1
Application number: KR1020190050978A
Authority: KR
Inventors: 김중헌; 권도현
Original assignee: 중앙대학교 산학협력단
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2021-04-15
Also published as: KR20200126822A

Abstract

실시예의 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템은 차량의 정보 및 기지국의 정보를 제공받아 저장하는 정보 저장부와, 상기 제공된 정보를 이용하여 심층강화학습을 수행하는 심층강화학습부와, 상기 학습된 정보를 기초로 상기 차량에 연결될 상기 기지국에 상기 비디오 데이터의 품질 정보 및 상기 비디오 데이터의 용량을 할당하는 제어부를 포함할 수 있다.
실시예는 DDPG 학습 알고리즘을 이용하여 학습시킴으로써, 대규모 차량 네트워크에서 빅 데이터를 끊김없이 전송할 수 있는 효과가 있다.

Description

심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템{Quality-Aware Deep Reinforcement Learning for Proactive Caching in Millimeter-Wave Vehicular Networks And System using the same}

실시예는 대규모 자동차 네트워크에 적용하기 위한 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템에 관한 것이다.

현재 4세대(4G) 통신 시스템 상용화 이후 증가 추세에 있는 무선 데이터 트래픽 수요를 충족시키기 위해, 개선된 5세대(5G) 통신 시스템 또는 프리-5G 통신 시스템을 개발하기 위한 노력이 이루어지고 있다.

높은 데이터 전송률을 달성하기 위해 5G 통신 시스템은 초고주파(mmWave) 대역(예를 들어, 60GHz 대역)에서의 구현이 고려되고 있다.

mmWave의 특성 상 직진성이 강한 신호 특징과 전파 범위의 축소성 때문에 자동차 네트워크에 적용되었을 때 가까운 거리에 mmWave 기지국이 나란히 배치되는 것을 생각해볼 수 있는데, 일반적인 도로가 아니라 고속도로인 경우 빠른 이동성을 가진 차량은 짧은 범위의 셀 커버리지를 금방 벗어나게 된다.

즉 비디오 딜리버리 서비스를 받는 차량이 mmWave 기반의 비디오 데이터를 전송받을 경우, 잦은 핸드 오프(hand-off)를 통해 비디오 서비스를 받는 라우팅 경로 설정 및 링크 정보에 따른 비디오 품질 선정 등이 계산에 대한 오버헤드가 크게 발생하게 된다.

수 초동안의 링크 셋업 시간을 고려했을 때, 이러한 오버헤드는 원활한 비디오 서비스 이용을 불가능하게 만드는 요인이다. 이로 인해 제공받는 비디오 데이터가 끊기는 등의 품질 저하를 발생시키게 된다.

종래에는 DQN(Deep Q-Network) 방식을 이용한 선제적 캐싱 방식이 있으나, 이산적인 숫자로 학습시켜 대규모 차량 네트워크에 적용하기 위한 학습은 한계가 있다.

상술한 문제점을 해결하기 위해 실시예는 차량이 다른 기지국으로 이동할 시 끊김없이 비디오 데이터를 효과적으로 수신할 수 있는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템을 제공하는 것을 그 목적으로 한다.

실시예의 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템은 차량의 정보 및 기지국의 정보를 제공받아 저장하는 정보 저장부와, 상기 제공된 정보를 이용하여 심층강화학습을 수행하는 심층강화학습부와, 상기 학습된 정보를 기초로 상기 차량에 연결될 상기 기지국에 상기 비디오 데이터의 품질 정보 및 상기 비디오 데이터의 용량을 할당하는 제어부를 포함할 수 있다.

상기 정보 저장부는 상기 차량의 연결 상태 정보, 상기 차량에 대해 상기 기지국이 얼만큼의 용량을 확보해 놓았는지의 정보, 상기 비디오 데이터가 저장된 상기 차량의 버퍼부 가용 상태 및 상기 차량으로부터 제공되는 비디오 데이터의 품질 정보를 포함하는 입력정보를 포함할 수 있다.

상기 심층강화학습부는 상기 입력정보를 이용하여 경험 데이터를 생성하고, 상기 경험 데이터를 샘플링하여 학습시킬 수 있다,.

상기 경험 데이터는 상기 입력정보를 포함하는 현재 상태, 상기 현재 상태에서 전환된 후속 상태, 상기 후속 상태로 전환되기 위해 실행되는 액션 및 상기 액션에 대한 보상을 포함할 수 있다.

상기 심층강화학습부는 상기 보상을 최대화하기 위한 상기 액션을 최적화할 수 있다.

상기 차량과 상기 기지국은 mmWave 파장대의 무선 통신을 사용할 수 있다.

상기 심층강화학습부는 DDPG 알고리즘을 포함할 수 있다.

상기 제어부는 상기 차량의 버퍼부의 용량이 가득찬 신호가 수신되면 상기 비디오 데이터를 전송하지 않을 수 있다.

상기 제어부는 상기 차량의 이동이 지연되는 신호가 수신되면 상기 차량 및 상기 기지국으로부터 제공된 정보를 삭제할 수 있다.

또한, 실시예의 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법은 차량의 정보를 수집하는 단계와, 기지국의 정보를 수집하는 단계와, 상기 차량 및 상기 기지국의 정보를 입력 받아 심층강화학습을 이용하여 상기 차량에 연결될 상기 기지국에 상기 비디오 데이터의 품질 정보 및 상기 비디오 데이터의 용량을 할당하는 단계를 포함할 수 있다.

상기 차량의 정보는 상기 차량의 연결 상태 정보, 상기 차량에 정보 저장 가용 상태 및 상기 차량으로부터 제공되는 비디오 데이터의 품질 정보를 포함하고, 상기 기지국의 정보는 상기 차량에 대해 얼마만큼의 저장 용량을 확보해 놓았는지의 정보를 포함할 수 있다.

상기 심층강화학습은 상기 차량의 정보 및 상기 기지국의 정보를 이용하여 경험 데이터를 생성하고, 상기 경험 데이터를 샘플링하여 학습시킬 수 있다.

상기 경험 데이터는 상기 차량의 정보 및 상기 기지국의 정보를 포함하는 현재 상태, 상기 현재 상태에서 전환된 후속 상태, 상기 후속 상태로 전환되기 위해 실행되는 액션 및 상기 액션에 대한 보상을 포함할 수 있다.

상기 심층강화학습는 보상을 최대화하기 위한 상기 액션을 최적화시킬 수 있다.

또한, 실시예의 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템은 비디오 데이터가 저장되는 버퍼부를 포함하는 차량과, 상기 차량에 이동 경로에 설치되어 상기 차량의 버퍼부에 비디오 데이터를 순차적으로 전송하는 복수의 기지국과, 상기 차량 및 상기 기지국의 정보를 입력 받아 심층 강화 학습을 이용하여 상기 차량에 연결될 상기 기지국에 상기 비디오 데이터의 품질 정보 및 상기 비디오 데이터의 용량을 할당하는 서버를 포함할 수 있다.

실시예는 DDPG 학습 알고리즘을 이용하여 학습시킴으로써, 대규모 차량 네트워크에서 빅 데이터를 끊김없이 전송할 수 있는 효과가 있다.

또한, 실시예는 DDPG 학습 알고리즘을 이용하여 학습시킴으로써, 연속적인 동작의 제어가 가능한 효과가 있다.

또한, 실시예는 DDPG 학습 알고리즘을 이용하여 학습시킴으로써, 학습 시간을 단축할 수 있는 효과가 있다.

또한, 실시예는 DDPG 학습 알고리즘을 이용하여 학습시킴으로써, 즉각적으로 캐싱을 수행할 수 있는 효과가 있다.

도 1은 실시예에 따른 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템을 나타낸 도면이다.
도 2는 실시예에 따른 서버의 동작을 나타낸 도면이다.
도 3은 실시예에 따른 서버의 구성을 나타낸 블럭도이다.
도 4는 심층 강화 학습부의 알고리즘을 나타낸 도면이다.
도 5는 서로 다른 학습률에 따른 보상 수렴 경향을 나타낸 그래프이다.
도 6은 전체 시스템 보상 수렴값을 나타낸 그래프이다.
도 7은 서로 다른 학습률에 따른 비디오 데이터의 평균 품질과 캐시의 크기를 나타낸 그래프이다.
도 8은 서로 다른 학습률에 따른 수렴도를 나타낸 그래프이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.

도 1은 실시예에 따른 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템을 나타낸 도면이고, 도 2는 실시예에 따른 서버의 동작을 나타낸 도면이고, 도 3은 실시예에 따른 서버의 구성을 나타낸 블럭도이고, 도 4는 심층 강화 학습부의 알고리즘을 나타낸 도면이고, 도 5는 서로 다른 학습률에 따른 보상 수렴 경향을 나타낸 그래프이고, 도 6은 전체 시스템 보상 수렴값을 나타낸 그래프이고, 도 7은 서로 다른 학습률에 따른 비디오 데이터의 평균 품질과 캐시의 크기를 나타낸 그래프이고, 도 8은 서로 다른 학습률에 따른 수렴도를 나타낸 그래프이다.

도 1을 참조하면, 실시예에 따른 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템은 차량(100)들과, 상기 차량(100)들에 비디오 데이터를 제공하는 복수의 기지국(200)과, 상기 차량(100)에 연결될 상기 기지국(200)에 상기 비디오 데이터의 품질 정보 및 상기 비디오 데이터의 용량을 할당하는 서버(Agent, 300)를 포함할 수 있다.

차량(100)은 대용량의 빅 데이터를 수신받아 비디오를 시청할 수 있다. 차량(100)에는 비디오 데이터를 수신받을 수 있는 버퍼부(110)가 설치될 수 있다. 버퍼부(110)는 차량(100)의 내부에 설치된 컴퓨터, 디스플레이 유닛 등을 포함할 수 있다. 버퍼부(110)는 메모리를 포함할 수 있다.

기지국(200)은 도로 상에 일정 간격으로 설치될 수 있다. 기지국(200)은 차량에 빅 데이터 예컨대, 비디오 데이터를 송신할 수 있다. 기지국(200)은 차량(100)과 mmWave 파장대의 무선 통신을 수행할 수 있다. 기지국(200)은 mmWave의 특성 상 전파 범위가 작기 때문에 이를 고려하여 기지국(200) 간의 거리를 설정할 수 있다.

기지국(200)은 차량(100)의 정보를 수신할 수 있다.

기지국(200)은 차량(100)의 연결 정보를 수신할 수 있다. 보다 상세하게, 기지국(200)은 기지국(200)에 연결된 차량(100)의 위치 정보를 수신할 수 있다.

기지국(200)은 차량(100)의 버퍼부(110)의 가용 상태를 수신할 수 있다. 보다 상세하게, 기지국(200)은 차량(100)의 버퍼부(110)에 얼만큼의 데이터 용량이 차 있는지에 대한 정보를 수신할 수 있다.

기지국(200)은 차량(100)의 버퍼부(110)에 저장된 비디오 데이터의 품질 정보를 수신할 수 있다. 보다 상세하게, 기지국(200)은 차량(100)의 버퍼부(110)에 저장된 비디오 데이터 품질의 평균 정보를 수신할 수 있다.

기지국(200)은 차량(100)의 연결 정보, 버퍼부(110)의 가용 상태, 버퍼부(110)에 저장된 비디오 데이터의 품질 정보를 서버(300)에 제공할 수 있다. 또한, 기지국(200)은 차량(100)에 제공될 비디오 데이터의 용량에 대해 얼마만큼의 용량을 확보해 놓았는지에 대한 정보를 서버(300)에 제공할 수 있다. 이를 위해 기지국(200)에는 캐시부(210)가 마련될 수 있다. 캐시부(210)는 메모리일 수 있다.

상기에서는 하나의 특정 차량에 대해 기지국에 역할에 대해 설명하였으나, 기지국은 여러대의 차량과 정보를 송수신할 수 있다.

실시예는 mmWave 파장 범위로 통신을 수행하기 때문에 인근 차량들과 서로 영향을 받지 않게 된다.

서버(300)는 차량(100)의 정보 및 기지국(200)의 정보를 제공받아 차량(100)에 연결될 기지국(200)에 차량에 제공될 비디오 데이터를 미리 제공할 수 있다. 서버(300)는 비디오 데이터의 품질 및 비디오 데이터의 용량을 차량(100)에 연결될 기지국(200)에 제공할 수 있다. 이로 인해 차량(100)은 끊김 없이 비디오 데이터를 수신받을 수 있다. 서버(300)는 외부의 미디어 서버(400)로 부터 비디오 데이터를 수신받을 수 있다. 미디어 서버(400)는 유튜브, 페이스북 등 다양한 미디어 사업자의 서버일 수 있다.

도 2에 도시된 바와 같이, 서버(300)는 차량(100)의 연결될 복수의 기지국(200)과 무선 통신을 통해 데이터를 송수신할 수 있다. 서버(300)는 차량(100)에 연결될 기지국(200)을 미리 파악하고, 파악된 기지국(200)에 차량(100)에 제공될 비디오 데이터를 미리 전송할 수 있다.

도 3에 도시된 바와 같이, 서버(300)는 정보 수집부(310)와, 심층강화학습부(320) 및 제어부(330)를 포함할 수 있다.

정보 수집부(310)는 차량(100) 및 기지국(200)으로부터 수집된 정보를 저장할 수 있다. 정보는 차량(100)의 연결 정보, 버퍼부(110)의 가용 상태, 버퍼부(110)에 저장된 비디오 데이터의 품질 정보 및 기지국(200)에 확보된 용량 정보를 포함할 수 있다. 정보 수집부(310)는 적어도 하나 이상의 메모리를 포함할 수 있으며, 각각의 메모리는 각각의 정보를 저장할 수 있다.

심층강화학습부(320)는 정보 수집부(310)에 저장된 4개의 입력 정보를 이용하여 경험 데이터를 생성하고, 생성된 경험 데이터를 이용하여 서버(300)의 행동을 결정하게 된다. 서버(300)는 심층강화학습부(320)를 통해 최적의 의사 결정을 하게 된다. 여기서, 최적의 의사 결정은 기지국(200)에 전송하는 최적의 비디오 데이터의 품질 및 용량의 결정을 포함할 수 있다.

경험 데이터는 4개의 입력 정보에 근거하여 현재 상태, 현재 상태에서 전환된 후속 상태, 후속 상태로 전환되기 위해 실행되는 서버(300)의 액션 및 액션에 대한 보상 함수를 포함할 수 있다. 심층강화학습부(320)는 보상함수가 최대화하기 위해 서버(300)의 액션을 최적화하게 된다.

심층강화학습부(320)는 DDPG 알고리즘을 포함할 수 있다. 심층강화학습부(320)는 DDPG알고리즘에 의해 위 동작들을 구현할 수 있게 된다.

도 4에 도시된 바와 같이, DDPG 알고리즘은 평가 네트워크(Q)와 액터 네트워크(A)를 포함할 수 있다. 먼저, 평가 네트워크(Q)과 액터 네트워크(A)를 초기화할 수 있다.(Line 1). 이어서, 초기의 평가 네트워크(Q)과 액터 네트워크(A)를 최종의 평가 네트워크(Q')과 액터 네트워크(A')로 업데이트할 수 있다(Line 2). 이때, 평가 네트워크과 액터 네트워크를 업데이트 하면서 웨이트(θ)를 최적화시킬 수 있다.

는 경험 데이터를 나타낼 수 있다. s는 현재 상태 스테이트, s'은 후속 상태의 스테이트, a는 현태 상태에서의 액터의 행동, r은 액션에 대한 보상(R)을 나타낸다.

보상 함수 R은 아래 수학식 1에 의해 결정될 수 있다.

[수학식 1]

여기서,

는 퀄리티(quality reward),

는 패킷 드랍(packet drop reward),

는 상황에 대한 보상 함수(frozeness reward)를 의미한다.

손실함수 L은 아래 수학식 2에 의해 결정될 수 있다.

[수학식 2]

의사 결정은 손실이 최소화되도록 최적화할 수 있다. 손실이 최소화가 된다는 말은 보상이 최대화된다는 의미이다. 손실은 캐싱 용량의 손실로 볼 수 있으며, 이로 인해 캐싱 용량의 손실이 최소화되도록 최적화함을 의미할 수 있다.

이와 같이, 경험 데이터를 통해 웨이트를 최적화시켜 최적화된 의사 결정을 도출할 수 있게 된다.

제어부(330)는 심층강화학습부(320)로부터 측정된 최적의 의사 결정으로부터 차량(100)에 연결된 기지국(200)에 최적의 비디오 데이터의 품질 및 용량을 할당하게 된다.

제어부(330)는 차량(100)으로부터 제공되는 정보로부터 버퍼부(110)가 가득차 있다고 수신되면 비디오 데이터를 기지국(200)에 전송하게 않게 된다. 이로 부터 불필요한 작업을 제거할 수 있게 된다.

제어부(330)는 차량(100)의 이동이 지연되면 차량(100) 및 기지국(200)으로부터 제공된 정보를 삭제하고, 이에 비디오 데이터를 기지국(200)에 전송하지 않게 된다. 제어부(330)는 일정 시간 이내에 차량(100)의 이동이 감지되지 않으면 차량(100)의 이동이 지연되었다고 판단할 수 있다.

도 5a에 도시된 바와 같이, 붉은색 선과 녹색 선 사이의 갭은 학습 단계 동안 품질에 대한 보상을 나타낸다. 에피소드 전체에 걸쳐 그들 사이의 갭이 커지며 학습 단계를 통해 개선됨을 알 수 있다.

비슷하게 도 5b 및 도 5c의 경우, 초기에는 마이너스 값으로 불량을 나타내고 있으나, 에피소드를 통해 개선되었음을 알 수 있다.

도 6에 도시된 바와 같이, 전체 시스템의 보상 수렴은 작은 학습률의 경우 학습 후반기에 수렵된 성능을 보였으나, 다른 경우 보다 더 안정된 상태에서 수렴되었음을 알 수 있다.

도 7에 도시된 바와 같이, 비디오의 평균 품질과 캐시의 크기는 학습률이 10^-4일 경우에 보다 향상된 것을 알 수 있다.

도 8에 도시된 바와 같이, 학습률이 10^-4일 경우, 학습률이 10^-3일 경우에 비해 안정적으로 보상 수렴이 나타남을 알 수 있다.

실시예에 따른 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템은 DDPG 알고리즘을 통해 대규모 차량 네트워크에서 빅 데이터를 끊김없이 전송할 수 있는 효과가 있다.

상기에서는 대규모 차량 네트워크 구조에 적용된 실시예를 설명하였으나, 이에 한정되지 않는다.

예를 들어, SDN/NFV의 비디오 캐싱 분야에도 적용될 수 있다. SDN(Software-Defined Networking)과 NFV(Network Function Virtualization)은 종래 네트워크 장비를 기존 H/W 중심에서 S/W 중심으로 변화시키고자 하는 새로운 네트워크 개념이다.

이러한 SDN/NFV 네트워크서는 데이터 계층 및 제어 계층의 분리로 제어계층에 본 발명인 심층강화학습 에이전트가 탑재되어 최적 비디오 캐싱 경로 학습을 적용할 수 있다.

SDN/NFV의 데이터 계층에서 각 노드 사이의 링크는 시시각각 전송 가능한 트래픽이 변화하며, 노드들의 버퍼 상태로 변화기 때문에 최적 키디오 캐싱 경로 학습은 이들의 머퍼 및 링크의 캐패시트 상황을 관측하고 최적 캐싱 경로의 학습이 필요하다고 할 수 있기 때문에 SDN/NFV에서 선제적 비디오 캐싱을 수행할 수 있다.

이를 통해 학습을 통해 제어 계층에서 저지연으로 데이터 계층의 어떤 노드를 통해 목적 노드에 비디오를 전송할 지 파악하고, 이 경로상에 비디오를 미리 캐싱하면 목적 노드의 사용자가 저지연의 비디오 서비스를 받을 수 있는 효과가 있다.

또한, ICN의 키디오 캐싱 분야에 적용될 수 있다. ICN(Informatin-Centric Networking)은 종래 A라는 비디오를 서버에 요청하면 해당 비디오가 저장된 주소를 통해 비디오를 딜리버리하는 '주소기반방식'에서 벗어나 선제적으로 사용자 주변의 해당 컨텐츠를 미리 캐싱할 수 있다.

즉, 사용자별 선호 비디오 데이터에 대한 기존 추천 알고리즘을 적용하고, 추천 대상 비디오가 선정되면 이를 요청한 사용자의 주변 기지국으로 특정 품질 및 기지국의 캐시 용량을 미리 선점할 수 있게 된다.

또한, MEC의 비디오 캐싱 분야에 적용될 수 있다. MEC(Mobile Edge Computing)은 클라우드 서비스의 등장 이후 분산 노드들로 추세가 변화한 모바일 네트워크의 형태이다.

MEC는 모바일 장치들이 가장 아래단의 에지단에 존재하고, 상위에 클라우드와 같은 서버 형태의 중앙 장치가 존재하게 된다. 이 중앙 장치를 거쳐 컨텐츠 서버로 에지단의 모바일 장치들이 비디오를 요청하는 시나리오로 이루어진다. 이때, 서버 역할의 중앙 서버는 산하의 모바일 장치들이 어떤 품질의 비디오를 얼마나 캐시 용량을 미리 할당하여 끊김없는 서비스를 제공할 수 있을지 학습할 수 있게 된다.

100: 차량
110: 버퍼부
200: 기지국
210: 캐시부
300: 서버

Claims

차량의 정보 및 상기 차량의 이동 경로에 설치된 복수의 기지국의 정보를 제공받아 저장하는 정보 저장부;
상기 제공된 정보를 이용하여 심층강화학습을 수행하는 심층강화학습부; 및
상기 심층강화학습으로 학습된 정보를 기초로 상기 차량에 연결될 기지국에 비디오 데이터의 품질 정보 및 상기 비디오 데이터의 용량을 할당하는 제어부;를 포함하고,
상기 정보 저장부는 차량의 연결 상태 정보, 차량에 대해 상기 기지국이 얼마만큼의 용량을 확보해 놓았는지의 정보, 상기 비디오 데이터가 저장된 차량의 버퍼부 가용 상태 및 차량으로부터 제공되는 비디오 데이터의 품질 정보를 포함하는 입력정보를 포함하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.
삭제
제1항에 있어서,
상기 심층강화학습부는 상기 입력정보를 이용하여 경험 데이터를 생성하고, 상기 경험 데이터를 샘플링하여 학습시키는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.
제3항에 있어서,
상기 경험 데이터는 상기 입력정보를 포함하는 현재 상태, 상기 현재 상태에서 전환된 후속 상태, 상기 후속 상태로 전환되기 위해 실행되는 액션 및 상기 액션에 대한 보상을 포함하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.
제4항에 있어서,
상기 심층강화학습부는 상기 보상을 최대화하기 위한 상기 액션을 최적화하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.
제1항에 있어서,
상기 차량과 상기 기지국은 mmWave 파장대의 무선 통신을 사용하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.
제1항에 있어서,
상기 심층강화학습부는 DDPG 알고리즘을 포함하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.
제1항에 있어서,
상기 제어부는 상기 차량의 버퍼부의 용량이 가득찬 신호가 수신되면 상기 비디오 데이터를 전송하지 않는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.
제1항에 있어서,
상기 제어부는 상기 차량의 이동이 지연되는 신호가 수신되면 상기 차량 및 상기 기지국으로부터 제공된 정보를 삭제하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.
차량의 정보를 수집하는 단계;
상기 차량의 이동 경로에 설치된 복수의 기지국의 정보를 수집하는 단계; 및
상기 차량 및 상기 복수의 기지국의 정보를 입력 받아 심층강화학습을 이용하여 상기 차량에 연결될 기지국에 비디오 데이터의 품질 정보 및 상기 비디오 데이터의 용량을 할당하는 단계;를 포함하고,
포함하고,
상기 차량의 정보는 상기 차량의 연결 상태 정보, 상기 차량에 정보 저장 가용 상태 및 상기 차량으로부터 제공되는 비디오 데이터의 품질 정보를 포함하고, 상기 기지국의 정보는 상기 차량에 대해 얼마만큼의 저장 용량을 확보해 놓았는지의 정보를 포함하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법.
삭제
제10항에 있어서,
상기 심층강화학습은 상기 차량의 정보 및 상기 기지국의 정보를 이용하여 경험 데이터를 생성하고, 상기 경험 데이터를 샘플링하여 학습시키는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법.
제12항에 있어서,
상기 경험 데이터는 상기 차량의 정보 및 상기 기지국의 정보를 포함하는 현재 상태, 상기 현재 상태에서 전환된 후속 상태, 상기 후속 상태로 전환되기 위해 실행되는 액션 및 상기 액션에 대한 보상을 포함하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법.
제13항에 있어서,
상기 심층강화학습는 보상을 최대화하기 위한 상기 액션을 최적화시키는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법.
비디오 데이터가 저장되는 버퍼부를 포함하는 차량;
상기 차량의 이동 경로에 설치되어 상기 차량의 버퍼부에 비디오 데이터를 순차적으로 전송하는 복수의 기지국; 및
상기 차량 및 상기 복수의 기지국의 정보를 입력 받아 심층 강화 학습을 이용하여 상기 차량에 연결될 기지국에 상기 비디오 데이터의 품질 정보 및 상기 비디오 데이터의 용량을 할당하는 서버;를 포함하고,
상기 차량의 정보는 상기 차량의 연결 상태 정보, 상기 차량에 정보 저장 가용 상태 및 상기 차량으로부터 제공되는 비디오 데이터의 품질 정보를 포함하고, 상기 기지국의 정보는 상기 차량에 대해 얼마만큼의 저장 용량을 확보해 놓았는지의 정보를 포함하는 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 시스템.