KR102626094B1 - 무선 통신을 위한 dqn 기반 자원관리 방법 - Google Patents

무선 통신을 위한 dqn 기반 자원관리 방법 Download PDF

Info

Publication number
KR102626094B1
KR102626094B1 KR1020210161654A KR20210161654A KR102626094B1 KR 102626094 B1 KR102626094 B1 KR 102626094B1 KR 1020210161654 A KR1020210161654 A KR 1020210161654A KR 20210161654 A KR20210161654 A KR 20210161654A KR 102626094 B1 KR102626094 B1 KR 102626094B1
Authority
KR
South Korea
Prior art keywords
policy
policy model
model
management method
target
Prior art date
Application number
KR1020210161654A
Other languages
English (en)
Other versions
KR20230075242A (ko
Inventor
최영준
덩야펑
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020210161654A priority Critical patent/KR102626094B1/ko
Publication of KR20230075242A publication Critical patent/KR20230075242A/ko
Application granted granted Critical
Publication of KR102626094B1 publication Critical patent/KR102626094B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/80Actions related to the user profile or the type of traffic
    • H04L47/805QOS or priority aware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 무선 통신을 위한 DQN 기반 자원관리 방법에 관한 것으로, 무선 통신 서비스를 제공하는 서버에서 수행되는 방법으로서, a) QoS 요구 및 타겟 정책을 받는 단계와, b) 상기 a) 단계에서 요청받은 타겟 정책과 동일한 정책 모델이 없으면, 유사한 정책 모델을 선택하는 단계와, c) 상기 b) 단계에서 선택된 정책 모델을 입력으로 하고, 보상으로 서로 다른 QoS 요구사항의 데이터 레이트 합으로 하는 DQN을 통해 강화학습하여, 갱신된 정책 모델을 구하는 단계와, d) 갱신된 정책 모델에 따라 무선 통신 서비스를 위한 리소스들을 선택하는 단계를 포함할 수 있다.

Description

무선 통신을 위한 DQN 기반 자원관리 방법{DQN-based resource management method for wireless communication}
본 발명은 무선 통신을 위한 DQN 기반 자원관리 방법에 관한 것으로, 더 상세하게는 서비스 만족도를 고려한 자원관리 방법에 관한 것이다.
DQN(Deep Q Network)는 구글 딥마인드가 개발한 알고리즘으로서, 강화학습 가능한 심층신경망을 사용하는 인공지능이다.
강화학습은 기계학습의 하위 분야로 어떤 상태에서 어떤 행동을 취하는 것이 가장 큰 보상을 받을 수 있는지 학습한다.
이러한 강화학습을 기반으로 하는 다양한 기술들이 제안되고 있으며, 등록특허 10-2257536(강화학습 기반 신경망 모델을 이용한 VANET의 분산혼잡제어 방법 및 장치, 2021년 5월 24일 등록)에는 V2X 통신 서비스를 위한 무선채널의 채널혼잡 비율(CBR), 차량의 채널점유 비율(CR) 등을 강화학습 신경망 모델에 적용하여 차량의 최대 채널점유 비율 및 최대 송신전력을 결정하는 구성이 기재되어 있다.
이처럼 강화학습 신경망 모델은 입력되는 데이터와 신경망 모델의 구성에 의해 다양한 분야에서 응용될 수 있다.
최근 무선통신을 이용한 데이터의 송수신이 활발해지고, 대용량의 스트리밍 데이터들의 사용이 증가하면서, 무선통신사들은 고객 유치를 위하여 더 우수한 데이터 속도를 제공하기 위한 노력을 하고 있다.
QoS(Quality of Service)는 사전에 합의 또는 정의된 통신 서비스 품질을 의미한다. 네트워크상에서 일정 정도 이하의 지연시간이나 데이터 손실률 등을 보장하며, 전송 서비스의 좋고 나쁨을 정의한다.
이동통신사는 사용자 QoS의 관리를 위해 특정 사용자가 과도한 데이터를 사용하지 못하도록 과다 트래픽 사용자의 데이터 속도를 제한하는 방식으로 전체적인 QoS 관리를 수행하고 있다.
그러나 이러한 종래 QoS의 관리 방식은 사용자의 트래픽양에 따른 제한으로, 해당 사용자의 입장에서는 서비스 품질에 불만을 가질 요소가 있으며, 전체적인 QoS 관리를 위한 새로운 방식이 요구되고 있다.
상기와 같은 문제점들을 감안한 본 발명이 해결하고자 하는 기술적 과제는, 다양한 통신 방식 정책을 수립하고, 현재 정책과 목표 정책을 비교하여, 현재 정책이 목표 정책에 근접할 수 있는 최상의 정책을 선택하여, 전송 방식을 변경함으로써, 소비자들이 QoS 향상을 체감할 수 있는 무선 통신을 위한 DQN 기반 자원관리 방법을 제공함에 있다.
상기와 같은 과제를 해결하기 위한 본 발명 무선 통신을 위한 DQN 기반 자원관리 방법은, 무선 통신 서비스를 제공하는 서버에서 수행되는 방법으로서, a) QoS 요구 및 타겟 정책을 받는 단계와, b) 상기 a) 단계에서 요청받은 타겟 정책과 동일한 정책 모델이 없으면, 유사한 정책 모델을 선택하는 단계와, c) 상기 b) 단계에서 선택된 정책 모델을 입력으로 하고, 보상으로 서로 다른 QoS 요구사항의 데이터 레이트 합으로 하는 DQN을 통해 강화학습하여, 갱신된 정책 모델을 구하는 단계와, d) 갱신된 정책 모델에 따라 무선 통신 서비스를 위한 리소스들을 선택하는 단계를 포함할 수 있다.
본 발명의 실시 예에서, 상기 b) 단계에서, 동일한 정책 모델이 있으면, 그 동일한 정책 모델을 수행하는 리소스를 선택할 수 있다.
본 발명의 실시 예에서, 상기 유사한 정책 모델의 선택은, 타겟 정책과 정책 모델들의 요소를 비교하고, 비교결과에 따라 정책 모델 세트를 결정하는 과정과, 정책 모델 세트 중 우선순위가 가장 낮은 정책 모델 세트를 선택하는 과정을 포함할 수 있다.
본 발명의 실시 예에서, 상기 타겟 정책의 요소는 처리량(u), 대기시간(w), 신뢰성(v)이며, 정책 모델의 요소인 처리량(x), 대기시간(y), 신뢰성(z)과 비교할 수 있다.
본 발명의 실시 예에서, 상기 정책 모델은 각 요소가 모두 타겟 정책 요소에 비하여 더 큰 값을 가지는 것으로 하되, 상기 정책 모델 세트는, 정책 모델의 요소 모두가 상기 타겟 정책 요소의 대응 요소보다 50% 이상 큰 값을 가지는 제4세트와, 정책 모델의 요소 중 두 가지 요소가 상기 타겟 정책 요소의 대응 요소보다 50% 이상 큰 값을 가지는 제3세트와, 정책 모델의 요소 중 한 가지 요소가 상기 타겟 정책 요소의 대응 요소보다 50% 이상 큰 값을 가지는 제2세트와, 정책 모델의 모든 요소가 상기 타겟 정책의 모든 대응 요소들에 비하여 50% 미만으로 큰 값을 가지는 제1세트로 구분될 수 있다.
본 발명의 실시 예에서, 상기 제1세트, 상기 제2세트, 상기 제3세트, 상기 제4세트의 순으로 우선순위가 높은 것으로 하되, 정책 모델 세트가 다수인 경우 우선순위가 낮은 세트의 정책 모델을 이용하여 강화 학습을 수행할 수 있다.
본 발명의 실시 예에서, 상기 d) 단계를 수행한 후, 갱신된 정책 모델이 QoS를 만족하는 경우, 새로운 정책 모델로 저장할 수 있다.
본 발명의 실시 예에서, 상기 c) 단계의 DQN은, 관측(Observation), 액션(Action), 보상(Reward)을 통해 강화 학습을 수행하되, 상기 관측은, 대기열에 있는 패킷으로 인한 지연 시간, 마지막 피리어드 동안 선택된 리소스 블록, 감지된 리소스 블록의 SIMR(Signal to Interference & Noise Ratio) 및 대기열의 길이일 수 있다.
본 발명의 실시 예에서, 상기 액션은, 초기화시 단일 전송(base), 중복 전송(redundant), 추가 전송(addition) 중 하나의 리소스 블록을 랜덤하게 선택할 수 있다.
본 발명은 IRM(Invariant Risk Minimization)과 DQN(Deep Q Network)을 이용하여, QoS 요구 및 타겟 정책을 고려하여 적당한 정책 모델을 검색하여 서비스를 제공하며, 적당한 정책 모델을 검색할 수 없을 때에는 우선순위에 따라 최상의 서비스 정책을 적용함으로써, 사용자가 직접 느끼는 QoS를 향상시킬 수 있는 효과가 있다.
도 1은 본 발명 무선 통신을 위한 DQN 기반 자원관리 방법을 수행하기 위한 IRM 프레임워크의 예시도이다.
도 2는 본 발명의 순서도이다.
이하, 본 발명 무선 통신을 위한 DQN 기반 자원관리 방법에 대하여 첨부한 도면을 참조하여 상세히 설명한다.
본 발명의 실시 예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해 제공되는 것이며, 아래에 설명되는 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 아래의 실시 예들로 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 발명을 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 명세서에서 사용된 용어는 특정 실시 예를 설명하기 위하여 사용되며, 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용된 바와 같이 단수 형태는 문맥상 다른 경우를 분명히 지적하는 것이 아니라면, 복수의 형태를 포함할 수 있다. 또한, 본 명세서에서 사용되는 경우 "포함한다(comprise)" 및/또는"포함하는(comprising)"은 언급한 형상들, 숫자, 단계, 동작, 부재, 요소 및/또는 이들 그룹의 존재를 특정하는 것이며, 하나 이상의 다른 형상, 숫자, 동작, 부재, 요소 및/또는 그룹들의 존재 또는 부가를 배제하는 것이 아니다. 본 명세서에서 사용된 바와 같이, 용어 "및/또는"은 해당 열거된 항목 중 어느 하나 및 하나 이상의 모든 조합을 포함한다. 
본 명세서에서 제1, 제2 등의 용어가 다양한 부재, 영역 및/또는 부위들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들 및/또는 부위들은 이들 용어에 의해 한정되지 않음은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역 또는 부위를 다른 부재, 영역 또는 부위와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역 또는 부위는 본 발명의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역 또는 부위를 지칭할 수 있다.
이하, 본 발명의 실시 예들은 본 발명의 실시 예들을 개략적으로 도시하는 도면들을 참조하여 설명한다. 도면들에 있어서, 예를 들면, 제조 기술 및/또는 공차에 따라, 도시된 형상의 변형들이 예상될 수 있다. 따라서, 본 발명의 실시 예는 본 명세서에 도시된 영역의 특정 형상에 제한된 것으로 해석되어서는 아니 되며, 예를 들면 제조상 초래되는 형상의 변화를 포함하여야 한다.
또한, 본 발명은 이동통신 서비스를 제공하는 서비스 시스템에서 수행되는 방법에 관한 것으로, 발명의 설명과정에서의 각 단계들의 수행 주체는 통신 서비스 서버인 것으로 이해되어야 한다.
도 1은 본 발명 무선 통신을 위한 DQN 기반 자원관리 방법을 수행하기 위한 IRM 프레임워크의 예시도이고, 도 2는 본 발명 무선 통신을 위한 DQN 기반 자원관리 방법의 순서도이다.
본 발명은 무선통신 서비스 서버에서 수행되는 것이며, 여기서 무선통신 서비스 서버는 하나의 단위장치 뿐만 아니라 복수의 단위장치의 기능적 결합을 포함하는 것으로 이해되어야 한다.
도 1과 도 2를 각각 참조하면, 먼저, 어플리케이션 레이어(10)는 서비스 정책을 IRM 레이어(20)에 요청한다(S20).
이때 서비스 정책 요청은 QoS 요구와 타겟 정책(Target policy)을 제공한다.
즉, 무선 통신 서비스의 적정한 서비스 품질 요구와 목표하는 정책에 대한 정보를 제공한다. 이때 정책은 처리량(throughput), 지연시간(delay), 신뢰성(reliability)에 대한 정책일 수 있다.
어플리케이션 레이어(10)는 작업자와 IRM 레이어(20)를 연결하는 인터페이스 레이어로 이해될 수 있으며, 다양한 사용자 인터페이스를 제공할 수 있다.
그 다음, IRM 레이어(20)는 입력된 QoS 요구 및 타겟 정책을 포함하는 서비스 정책 요구에 부합하는 서비스 정책 모델이 있는지 확인한다(S21).
IRM 레이어(20)는 스토리지 영역(22)에 다양한 서비스 정책 모델과 배치를 저장하고 있으며, 논리적 제어 영역(24)에서는 스토리지 영역(22)의 서비스 정책 모델과 입력된 서비스 정책 요구를 비교하여 동일한 서비스 정책 모델이 있는지 확인한다.
그 다음, 동일한 서비스 정책 모델이 있으면, S22단계와 같이 서비스 정책 모델을 로드하고, 배치에 따라 물리적 레이어 리소스 앱스트랙션(Abstraction, 23)의 리소스를 선택(S23)한다.
그 다음, 서비스 종료 여부를 확인하여(S24) 모든 리소스가 선택된 경우, 종료한다.
여기서 리소스는 무선 통신 서비스를 제공하기 위한 기술적 수단들을 포함하며, 특히 단일 전송, 이중화 전송 등의 전송 방식 변경을 위한 리소스를 포함할 수 있다.
상기 S21단계의 확인 결과 서비스 정책 요구에 부합하는 서비스 정책 모델이 없는 경우에는 논리적 제어 영역(24)은 유사한 서비스 정책 모델을 로드한다(S25).
유사한 서비스 정책 모델은 타겟 정책과는 동일하지는 않으나 처리량, 대기시간, 신뢰성의 값이 최대한 유사한 서비스 정책 모델인 것으로 한다.
여기서 검색 및 로드된 서비스 정책 모델(x Mbps, y ms, z%)와 타겟 정책(u Mbps, w ms, v%)를 비교하여 처리량(x, u), 대기시간(y, w), 신뢰성(z, v)을 각각 비교하여 더 큰 값의 서비스 정책 모델을 선택할 수 있다.
즉, x>u, y>w, z>v의 관계가 성립하는 서비스 정책 모델을 선택하는 것이 가장 바람직하다.
이때 선택 가능성이 있는 서비스 정책 모델과 타겟 정책의 비교 결과를 이용하여 S0, S1, S2, S3의 4가지 정책 세트를 구하고, 그 정책 세트 중 하위 세트를 선택하여 로드한다.
S3는 서비스 정책 모델의 처리량(x), 대기시간(y), 신뢰성(z) 모두가 타겟 정책의 처리량(u), 대기시간(w), 신뢰성(v) 각각에 대하여 50% 이상 큰 값인 경우로 하고, 다음 우선순위인 S2는 처리량, 대기시간, 신뢰성 중 두 개의 요소는 타겟 정책의 처리량, 대기시간 또는 신뢰성보다 50%이상 큰 값을 가지는 정책 세트로 한다.
또한, S1는 서비스 정책 모델의 3개 요소 중 하나의 요소만 타겟 정책의 대응 요소보다 50%이상 큰 값을 가지며, 나머지 요소들은 50% 미만으로 큰 값을 가지는 정책 세트인 것으로 한다.
마지막으로, S0는 서비스 정책 모델의 3개 요소 모두가 타겟 정책의 대응 요소보다 50% 미만으로 큰 세트를 나타낸다.
즉, S3의 처리량(x), 대기시간(y), 신뢰성(z) 각각은 x≥1.5u, y≥1.5w, z≥1.5v의 관계를 만족하는 서비스 정책 모델이며, S0는 1.5u> x >u, 1.5w> y >w, 1.5v> z >v를 만족한다.
이처럼 선택된 서비스 정책 모델의 세트 중 하나를 선택하게 되는데, 자원의 관리 효율을 높이기 위하여 만족하는 서비스 정책 세트 중 가장 하위의 세트를 선택한다.
예를 들어 타겟 정책과 유사하다고 판단된 서비스 정책 모델이 S2와 S1 세트로 판단될 경우, 우선순위가 가장 하위인 S1 세트의 서비스 정책 모델을 선택하여 로드한다.
그 다음, DQN(21)을 이용한 트랜스퍼 학습을 수행(Transfer learning enable)한다(S26).
DQN(21)은 입력된 값을 이용하여 최상의 QoS를 강화학습하는 것으로, 보상(reward)은 서로 다른 QoS 요구사항의 데이터 레이트 합으로 설정한다.
DQN(21)은 관측(Observation), 액션(Action), 보상(Reward)을 통해 학습한다. 특히 누적 보상을 최대화할 수 있는 액션을 선택하도록 학습한다.
관측은 대기열에 있는 패킷으로 인한 지연 시간, 마지막 피리어드 동안 선택된 리소스 블록(RB), 감지된 리소스 블록의 SIMR(Signal to Interference & Noise Ratio), 대기열의 길이인 것으로 한다.
그 다음, 액션의 초기화에서 리소스 블록을 선택한다. 리소스 블록은 단일 전송(base), 중복 전송(redundant), 추가 전송(addition)이며, 이를 랜덤하게 선택한다.
단일 전송은 단일 패킷만 전송하고, 추가 전송은 두 개의 패킷을 전송하며, 중복 전송은 단일 패킷과 그 단일 패킷과 동일한 패킷을 보내기 위하여 redundant가 사용된다.
각 전송 유형에는 인덱스 동작이 포함되며, 인덱스 동작은 더하기 1, 빼기 1 또는 더하기 0(유지)인 것으로 할 수 있다.
이와 같은 과정을 통해 선택 입력된 서비스 정책 모델은 타겟 정책에 근접한 서비스 정책 모델로 갱신되고, 그 서비스 정책 모델을 이용한 무선 통신 서비스를 제공하기 위한 리소스들이 선택된다(S27).
그 다음, 현재 갱신된 서비스 정책이 QoS를 만족하는지 확인하고, 만족하면 현재 갱신된 서비스 정책을 새로운 모델로 하여 저장하고, 학습을 종료한다(S29).
그 다음, 서비스 종료 여부를 확인하여, 모든 리소스가 선택될 때까지 반복한다(S30). 리소스의 선택 결과는 최종 물리적 레이어(30)에서의 무선 통신을 위한 리소스 선택을 수행한다.
본 발명은 상기 실시예에 한정되지 않고 본 발명의 기술적 요지를 벗어나지 아니하는 범위 내에서 다양하게 수정, 변형되어 실시될 수 있음은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어서 자명한 것이다.
10:어플리케이션 레이어
20:IRM 레이어
21:DQN
22:스토리지 영역
23:물리적 레이어 리소스 앱스트랙션
24:논리적 제어 영역
30:물리적 레이어

Claims (9)

  1. 무선 통신 서비스를 제공하는 서버에서 수행되는 방법으로서,
    a) QoS 요구 및 타겟 정책을 받는 단계;
    b) 상기 a) 단계에서 요청받은 타겟 정책과 동일한 정책 모델이 없으면, 유사한 정책 모델을 선택하는 단계;
    c) 상기 b) 단계에서 선택된 정책 모델을 입력으로 하고, 보상으로 서로 다른 QoS 요구사항의 데이터 레이트 합으로 하는 DQN을 통해 강화학습하여, 갱신된 정책 모델을 구하는 단계; 및
    d) 갱신된 정책 모델에 따라 무선 통신 서비스를 위한 리소스들을 선택하는 단계를 포함하되,
    상기 유사한 정책 모델의 선택은,
    타겟 정책과 정책 모델들의 요소를 비교하고, 비교결과에 따라 정책 모델 세트를 결정하는 과정; 및
    정책 모델 세트 중 우선순위가 가장 낮은 정책 모델 세트를 선택하는 과정을 포함하는 자원관리 방법.
  2. 제1항에 있어서,
    상기 b) 단계에서,
    동일한 정책 모델이 있으면, 그 동일한 정책 모델을 수행하는 리소스를 선택하는 것을 특징으로 하는 자원관리 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 타겟 정책의 요소는 처리량(u), 대기시간(w), 신뢰성(v)이며,
    정책 모델의 요소인 처리량(x), 대기시간(y), 신뢰성(z)과 비교되는 것을 특징으로 하는 자원관리 방법.
  5. 제4항에 있어서,
    상기 정책 모델은 각 요소가 모두 타겟 정책 요소에 비하여 더 큰 값을 가지는 것으로 하되,
    상기 정책 모델 세트는,
    정책 모델의 요소 모두가 상기 타겟 정책 요소의 대응 요소보다 50% 이상 큰 값을 가지는 제4세트;
    정책 모델의 요소 중 두 가지 요소가 상기 타겟 정책 요소의 대응 요소보다 50% 이상 큰 값을 가지는 제3세트;
    정책 모델의 요소 중 한 가지 요소가 상기 타겟 정책 요소의 대응 요소보다 50% 이상 큰 값을 가지는 제2세트; 및
    정책 모델의 모든 요소가 상기 타겟 정책의 모든 대응 요소들에 비하여 50% 미만으로 큰 값을 가지는 제1세트로 구분되는 것을 특징으로 하는 자원관리 방법.
  6. 제5항에 있어서,
    상기 제1세트, 상기 제2세트, 상기 제3세트, 상기 제4세트의 순으로 우선순위가 높은 것으로 하되,
    정책 모델 세트가 다수인 경우 우선순위가 낮은 세트의 정책 모델을 이용하여 강화 학습을 수행하는 자원관리 방법.
  7. 제1항에 있어서,
    상기 d) 단계를 수행한 후,
    갱신된 정책 모델이 QoS를 만족하는 경우, 새로운 정책 모델로 저장하는 것을 특징으로 하는 자원관리 방법.
  8. 제1항에 있어서,
    상기 c) 단계의 DQN은,
    관측(Observation), 액션(Action), 보상(Reward)을 통해 강화 학습을 수행하되,
    상기 관측은,
    대기열에 있는 패킷으로 인한 지연 시간, 마지막 피리어드 동안 선택된 리소스 블록, 감지된 리소스 블록의 SIMR(Signal to Interference & Noise Ratio) 및 대기열의 길이인 것을 특징으로 하는 자원관리 방법.
  9. 제8항에 있어서,
    상기 액션은,
    초기화시 단일 전송(base), 중복 전송(redundant), 추가 전송(addition) 중 하나의 리소스 블록을 랜덤하게 선택하는 자원관리 방법.
KR1020210161654A 2021-11-22 2021-11-22 무선 통신을 위한 dqn 기반 자원관리 방법 KR102626094B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210161654A KR102626094B1 (ko) 2021-11-22 2021-11-22 무선 통신을 위한 dqn 기반 자원관리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210161654A KR102626094B1 (ko) 2021-11-22 2021-11-22 무선 통신을 위한 dqn 기반 자원관리 방법

Publications (2)

Publication Number Publication Date
KR20230075242A KR20230075242A (ko) 2023-05-31
KR102626094B1 true KR102626094B1 (ko) 2024-01-16

Family

ID=86544024

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210161654A KR102626094B1 (ko) 2021-11-22 2021-11-22 무선 통신을 위한 dqn 기반 자원관리 방법

Country Status (1)

Country Link
KR (1) KR102626094B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102067439B1 (ko) * 2012-10-22 2020-01-20 한국전자통신연구원 소프트웨어 정의 네트워킹 기반 네트워크에서 서비스 품질 제공 방법 및 그 장치
KR102030128B1 (ko) * 2018-02-28 2019-11-08 한국과학기술원 기계학습을 이용한 무선 백홀망 자원할당방법 및 자원할당 장치

Also Published As

Publication number Publication date
KR20230075242A (ko) 2023-05-31

Similar Documents

Publication Publication Date Title
El Helou et al. A network-assisted approach for RAT selection in heterogeneous cellular networks
Ahn et al. QoS provisioning dynamic connection-admission control for multimedia wireless networks using a Hopfield neural network
EP3318008B1 (en) Negotiating quality of service for data flows
Quang et al. Multi-domain non-cooperative VNF-FG embedding: A deep reinforcement learning approach
JP4977762B2 (ja) カーネルを使用した動的ネットワーク選択
JP5214822B2 (ja) 輻輳処理時端末を選択する方法及び装置
Mollahasani et al. Dynamic CU-DU selection for resource allocation in O-RAN using actor-critic learning
Zhou et al. Learning from peers: Deep transfer reinforcement learning for joint radio and cache resource allocation in 5G RAN slicing
CN109996248A (zh) 用于无线通信的电子设备和方法以及计算机可读存储介质
CN107509220B (zh) 一种基于历史强化学习的车联网负载均衡接入方法
De Rango et al. Utility-based predictive services for adaptive wireless networks with mobile hosts
Han et al. A deep reinforcement learning based approach for channel aggregation in IEEE 802.11 ax
Priscoli et al. Capacity-constrained Wardrop equilibria and application to multi-connectivity in 5G networks
Mason et al. A multi-agent reinforcement learning architecture for network slicing orchestration
Abiko et al. Proposal of allocating radio resources to multiple slices in 5G using deep reinforcement learning
KR102626094B1 (ko) 무선 통신을 위한 dqn 기반 자원관리 방법
US9025446B2 (en) Carrier selection policy for joint scheduling for carrier aggregation in an LTE-advanced system
CN101197777B (zh) 用于建立双向连接的方法
CN105992365B (zh) 一种资源分配、业务订制方法及装置
Suga et al. Joint resource management with reinforcement learning in heterogeneous networks
Xiang et al. A deep reinforcement learning based content caching and mode selection for slice instances in fog radio access networks
Calisti et al. An agent-based middleware for adaptive roaming in wireless networks
Zhang et al. Opportunistic scheduling for OFDM systems with fairness constraints
KR100523996B1 (ko) 이동통신 시스템의 패킷 스케줄링 시스템 및 방법
Kattepur et al. MUESLI: Multi-objective radio resource slice management via reinforcement learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant