KR20230070820A

KR20230070820A - 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법 및 장치

Info

Publication number: KR20230070820A
Application number: KR1020210156799A
Authority: KR
Inventors: 최우열; 레헤누마 타스님 로도시
Original assignee: 조선대학교산학협력단
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2023-05-23
Also published as: US20230156556A1

Abstract

본 발명은 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법은,

Description

밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법 및 장치{A method and apparatus for user association based on fuzzy logic and accelerated reinforcement learning for dense cloud wireless network}

본 발명은 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법 및 장치에 관한 것으로, 더욱 상세하게는 밀집 클라우드 무선 네트워크에서 퍼지 논리 기반 핸드오버의 트리거 여부를 결정하고, 강화 학습 기반 타겟 RRH를 결정하기 위한 사용자 접속 방법 및 장치에 관한 것이다.

기존의 셀룰러 네트워크 핸드오버 정책은 수신된 신호 강도를 기반으로 하고 있다. 기존의 핸드오버 메커니즘은 5G 네트워크의 소규모 셀 기반 C-RAN에는 적합하지 않을 수 있다.

이 경우 사용자 단말과 RRH 간의 연결이 자주 변경되어 네트워크에서 불필요한 핸드오버가 발생할 수 있다.

빈번한 핸드오버는 과도한 시그널링 오버헤드, 낮은 에너지 효율성 및 네트워크 처리량 감소로 이어진다.

수신된 신호와 함께 효율적인 핸드오버 메커니즘을 개발하기 위해 많은 다른 제어 매개변수를 고려해야 한다.

효과적인 핸드오버 관리 및 사용자 단말과 RRH의 재연결을 위한 다양한 연구가 진행되고 있으나 미흡한 상황이다.

네트워크에서 핸드오버 수를 줄이기 위해 다른 매개변수가 사용되었으며, 3GPP에 따라 6개의 핸드오버 이벤트와 2개의 핸드오버 제어 매개변수는 정의되었다.

다른 이벤트의 경우, 핸드오버 트리거 조건을 제어하기 위해 핸드오버 제어 매개변수가 조절되었다. 핸드오버 제어 매개변수 최적화와 적절한 RRH 선택이 연구되었지만 네트워크 효율성을 유지하려면 두 최적화를 모두 통합할 필요가 있다.

[특허문헌 1] 한국공개특허 제10-2017-0121877호

본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법 및 장치를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은 퍼지 로직 함수(fuzzy logic function)에 기반하여 TTT(time-to-trigger) 값이라는 핸드오버 제어 파라미터를 최적화하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은 강화 학습(RL) 모델을 사용하여 연결이 더 오래 유지되도록 타겟 RRH를 선택하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법은, (a) 사용자 단말의 위치 정보를 수신하는 단계; (b) 상기 사용자 단말의 위치 정보에 기반하여 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH(remote radio head) 간 거리를 결정하는 단계; (c) 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH 간 거리에 기반하여 상기 사용자 단말의 핸드오버의 트리거 여부를 결정하는 단계; 및 (d) 상기 핸드오버의 트리거 여부에 기반하여, 상기 사용자 단말의 상기 서빙 RRH로부터 타겟 RRH로의 핸드오버를 수행하는 단계;를 포함할 수 있다.

실시예에서, 상기 (c) 단계는, 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH 간 거리를 퍼지 논리 함수(fuzzy logic function)에 적용하여, 상기 사용자 단말로부터 수신되는 신호에 대한 수신 신호 세기가 임계값보다 작아진 후 상기 사용자 단말과 서빙 RRH 간 연결 유지 시간을 나타내는 TTT(time-to-trigger) 값을 조절하는 단계; 상기 조절된 TTT 값에 기반하여 상기 사용자 단말의 핸드오버의 트리거 여부를 결정하는 단계;를 포함할 수 있다.

실시예에서, 상기 (d) 단계는, 상기 사용자 단말과 서빙 RRH 간 거리와 상기 서빙 RRH의 커버리지에 기반하여 상기 사용자 단말과 서빙 RRH의 근접도(proximity)를 산출하고, 상기 사용자 단말과 서빙 RRH 간 거리의 변화량과 상기 사용자 단말의 이동 속도에 기반하여 상기 서빙 RRH에 대한 상기 사용자 단말의 방향 변위를 산출하는 단계; 상기 사용자 단말과 서빙 RRH의 근접도와 상기 사용자 단말의 방향 변위를 강화 학습(reinforce learning) 모델에 적용하여 다수의 후보 RRH 중 상기 타겟 RRH를 결정하는 단계; 및 상기 결정된 타겟 RRH로의 핸드오버를 수행하는 단계;를 포함할 수 있다.

실시예에서, 상기 (d) 단계는, 상기 사용자 단말의 예상 위치와 상기 사용자 단말과 서빙 RRH의 근접도 및 상기 사용자 단말의 방향 변위에 기반하여 상기 강화 학습 모델의 가상 보상(virtual reward)을 생성하는 단계; 상기 강화 학습 모델의 가상 보상과 실제 보상(actual reward)을 매핑하여 상기 가상 학습 모델을 수렴시키는 단계; 상기 수렴된 강화 학습 모델에 기반하여 상기 다수의 후보 RRH 중 상기 타겟 RRH를 결정하는 단계; 및 상기 결정된 타겟 RRH로의 핸드오버를 수행하는 단계;를 포함할 수 있다.

실시예에서, 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 장치는, 사용자 단말의 위치 정보를 수신하는 통신부; 및 상기 사용자 단말의 위치 정보에 기반하여 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH(remote radio head) 간 거리를 결정하고, 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH 간 거리에 기반하여 상기 사용자 단말의 핸드오버의 트리거 여부를 결정하고, 상기 핸드오버의 트리거 여부에 기반하여, 상기 사용자 단말의 상기 서빙 RRH로부터 타겟 RRH로의 핸드오버를 수행하는 제어부;를 포함할 수 있다.

실시예에서, 상기 제어부는, 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH 간 거리를 퍼지 논리 함수(fuzzy logic function)에 적용하여, 상기 사용자 단말로부터 수신되는 신호에 대한 수신 신호 세기가 임계값보다 작아진 후 상기 사용자 단말과 서빙 RRH 간 연결 유지 시간을 나타내는 TTT(time-to-trigger) 값을 조절하고, 상기 조절된 TTT 값에 기반하여 상기 사용자 단말의 핸드오버의 트리거 여부를 결정할 수 있다.

실시예에서, 상기 제어부는, 상기 사용자 단말과 서빙 RRH 간 거리와 상기 서빙 RRH의 커버리지에 기반하여 상기 사용자 단말과 서빙 RRH의 근접도(proximity)를 산출하고, 상기 사용자 단말과 서빙 RRH 간 거리의 변화량과 상기 사용자 단말의 이동 속도에 기반하여 상기 서빙 RRH에 대한 상기 사용자 단말의 방향 변위를 산출하고, 상기 사용자 단말과 서빙 RRH의 근접도와 상기 사용자 단말의 방향 변위를 강화 학습(reinforce learning) 모델에 적용하여 다수의 후보 RRH 중 상기 타겟 RRH를 결정하고, 상기 결정된 타겟 RRH로의 핸드오버를 수행할 수 있다.

실시예에서, 상기 제어부는, 상기 사용자 단말의 예상 위치와 상기 사용자 단말의 서빙 RRH의 근접도 및 상기 사용자 단말의 방향 변위에 기반하여 상기 강화 학습 모델의 가상 보상을 생성하고, 상기 강화 학습 모델의 가상 보상과 실제 보상을 매핑하여, 상기 가상 학습 모델을 수렴시키고, 상기 수렴된 강화 학습 모델에 기반하여 상기 다수의 후보 RRH 중 상기 타겟 RRH를 결정하고, 상기 결정된 타겟 RRH로의 핸드오버를 수행할 수 있다.

상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.

그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.

본 발명의 일 실시예에 의하면, 사용자 단말의 QoS를 유지하면서 연결 지속 시간을 더 길게 유지하고 핸드오버 횟수를 최소화할 수 있다.

본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 퍼지 논리 함수 기반 TTT 값 최적화 과정을 도시한 도면이다.
도 3a는 본 발명의 일 실시예에 따른 사용자 단말과 서빙 RRH 간 거리 입력에 대한 소속 함수 그래프를 도시한 도면이다.
도 3b는 본 발명의 일 실시예에 따른 사용자 단말의 이동 속도 입력에 대한 소속 함수 그래프를 도시한 도면이다.
도 3c는 본 발명의 일 실시예에 따른 TTT 값에 대한 소속 함수 그래프를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법을 도시한 도면이다.
도 5a는 본 발명의 일 실시예에 따른 예상 영역 생성의 예를 도시한 도면이다.
도 5b는 본 발명의 일 실시예에 따른 중첩 영역 생성의 예를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 네트워크 레이아웃의 예를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 핸드오버 수에 대한 강화 학습 모델의 커버리지 성능 그래프를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 평균 보상에 대한 강화 학습 모델의 커버리지 성능 그래프를 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 RRH의 수에 대한 핸드오버의 횟수 성능 그래프를 도시한 도면이다.
도 10은 본 발명의 일 실시예에 따른 RRH의 수에 대한 평균 사용자 단말과 RRH의 연관 기간 성능 그래프를 도시한 도면이다.
도 11은 본 발명의 일 실시예에 따른 사용자 단말의 수에 대한 핸드오버의 횟수 성능 그래프를 도시한 도면이다.
도 12는 본 발명의 일 실시예에 따른 사용자 단말의 수에 대한 평균 사용자 단말과 RRH의 연관 기간 성능 그래프를 도시한 도면이다.
도 13은 본 발명의 일 실시예에 따른 사용자 단말의 이동 속도에 대한 핸드오버의 횟수 성능 그래프를 도시한 도면이다.
도 14는 본 발명의 일 실시예에 따른 사용자 단말의 이동 속도에 대한 평균 사용자 단말과 RRH의 연관 기간 성능 그래프를 도시한 도면이다.
도 15는 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법을 도시한 도면이다.
도 16은 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 장치의 기능적 구성을 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.

청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.

본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.

이하, 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법 및 장치를 설명한다.

도 1은 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 시스템(100)을 도시한 도면이다.

도 1을 참고하면, 사용자 접속 시스템(100)은 사용자 단말(110), 서빙 RRH(remote radio head)(122), 타겟 RRH(124), BBU(base band unit) 컨트롤러(130) 및 코어 네트워크 서버(140)를 포함할 수 있다.

이 경우, 각 RRH는 BBU 컨트롤러(130)와 프론트홀 링크(fronthaul link)로 연결될 수 있고, BBU 컨트롤러(130)와 코어 네트워크 서버(140)는 백홀(backhaul link)로 연결될 수 있다.

일 실시예에서, C-RAN에서 기지국은 BBU 컨트롤러(130)와 RRH(122, 124)를 포함할 수 있다. 여러 사이트의 BBU 컨트롤러(130)는 클라우드 컴퓨팅 및 가상화 기술을 사용하여 중앙 집중화되고 가상화될 수 있다.

C-RAN의 중앙 집중식 및 가상화 아키텍처는 동적 트래픽 변동에 적응하고 부하 분산, 비용 절감 및 간섭 최소화를 달성하는 이점을 제공할 수 있다.

C-RAN에서 RRH(122, 124)는 프론트홀(Fronthaul) 링크를 통해 BBU 컨트롤러(130)에 연결됩니다. 여기서, BBU 컨트롤러(130)는 ‘BBU 풀(pool)’ 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.

또한, RRH들 간 간섭은 BBU 컨트롤러(130)에서 중앙 집중식 협력 처리를 통한 공동 조절에 의해 완화될 수 있다.

그러나 제한된 프론트홀 용량으로 인해 하나의 서빙 RRH(122)가 특정 시간에 지원할 수 있는 사용자 단말(110)의 수가 제한될 수 있다.

일 실시예에서, C-RAN의 RRH가 겹겹이 조밀하게 배치되어 사용자 단말(110)은 서로 다른 속도로 이동할 수 있다.

이로 인해, 사용자 단말(110)이 짧은 시간 내에 한 RRH의 커버리지에서 다른 RRH의 커버리지로 이동할 때 빈번한 핸드오버가 발생할 수 있다.

특정 위치에서 사용자 단말(110)은 둘 이상의 RRH(122, 124) 범위에 있을 수 있다. 또한 여러 RRH로부터 높은 신호를 수신할 수 있다.

서빙 RRH(122)와의 연결이 자주 변경되지 않도록 핸드오버를 효과적으로 실행하는 것이 필요할 수 있다. 핸드오버 동안 사용자 단말(110)은 연결이 더 오래 유지되는 RRH에 연결될 수 있다.

또한, 핸드오버 트리거 조건에 대한 매개변수 선택을 최적화할 수 있다. 또한, 매개변수는 최소 데이터 속도로 연결을 유지하면서 핸드오버 수를 줄이기 위해 사용될 수 있다.

사용자 단말(110)의 이동성으로 인해 현재 수신 신호가 강하더라도 다음 타임스탬프에서 연결이 끊어질 수 있다.

따라서, 다음 시간에 가능한 위치를 근사할 수 있도록 매개변수가 선택될 수 있다.

또한, 핸드오버 시 사용자 단말(110)과의 연관을 위한 다수의 후보 RRH 중 타겟 RRH(124)가 선택될 수 있다.

또한, 사용자 단말(110)의 연결을 위해 RRH 선택을 수행하는 대신 전체 핸드오버 횟수를 줄이기 위해 선택된 RRH가 더 긴 기간 동안 연결을 유지하도록 수행될 수 있다.

본 발명에 따르면, C-RAN에서 사용자 재결합 문제를 조사하고 사용자 단말(110)의 QoS 요구 사항을 유지하면서 빈번한 핸드오버 횟수를 최소화할 수 있다.

제안하는 기법에서는 핸드오버 트리거 조건을 결정하고, TTT(time-to-trigger)라는 핸드오버 제어 파라미터를 최적화한다.

여기서, TTT는 사용자 단말(110)이 서빙 RRH(122)로부터 수신한 신호의 수신 신호 세기가 임계값 미만이 된 후 사용자 단말(110)과 서빙 RRH(122) 간의 연결이 유지되는 지속 시간을 나타낼 수 있다.

BBU 컨트롤러(130)는 핸드오버를 시작하기 위해 사용자 단말(110)의 수신 신호 세기와 함께 사용자 단말(110)의 이동 속도와 사용자 단말(110)과 서빙 RRH(122) 사이의 거리를 고려할 수 있다.

또한, TTT는 퍼지 논리 함수와 함께 이러한 매개변수를 사용하여 최적화될 수 있다.

또한, BBU 컨트롤러(130)는 퍼지 로직 함수의 판단에 따라 핸드오버 이벤트가 시작될 때 사용자 단말(110)에 대한 타겟 RRH(124)를 선택할 수 있다.

또한, BBU 컨트롤러(130)는 강화 학습(reinforce learning, RL) 모델을 사용하여 연결이 더 오래 유지되도록 타겟 RRH(124)를 선택할 수 있다. 여기서, 강화 학습 모델은 ‘RL 알고리즘’ 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.

또한, BBU 컨트롤러(130)는 예측 기반 가상 보상 생성 및 가상 보상과 실제 보상의 매핑을 수행하여, 강화 학습 모델이 더 빠르게 수렴되도록 할 수 있다. 이는, 재연결을 위한 핸드오버 동안 핸드오버 트리거링과 타겟 RRH 선택을 모두 최적화하기 위함일 수 있다.

또한, BBU 컨트롤러(130)는 예측 기반 가상 보상 업데이트를 활용하여 사용자 연관을 위한 RL 알고리즘의 학습 속도를 높일 수 있다. 이 가속 기술은 향상된 성능으로 더 빠른 수렴을 촉진할 수 있다.

일 실시예에서, 핸드오버 트리거 조건은 수신 신호 세기, 사용자 단말(110)과 서빙 RRH(122) 사이의 거리, 사용자 단말(110)의 이동 속도를 고려하여, 퍼지 논리를 사용하여 TTT 값을 조절하여 최적화될 수 있다.

이렇게 하면 연결을 유지하는 동안 네트워크에서 조기 핸드오버가 발생하지 않을 수 있다.

일 실시예에서, BBU 컨트롤러(130)는 핸드오버 트리거 조건이 충족된 후 강화 학습 모델을 사용하여 사용자 단말(110)에 대한 타겟 RRH(124)를 선택할 수 있다. 이는, 사용자 단말(110)과 타겟 RRH(124)의 연결을 가능한 오랫동안 유지하기 위함일 수 있다.

일 실시예에서, 강화 학습 모델에 대한 상태 공간(state space)은 사용자 단말(110) 및 RRH 정보를 기반으로 구성되며, 연관(association)을 위한 타겟 RRH(124)를 선택하는데 사용되며, 보상 함수는 행동의 목적을 반영할 수 있다.

일 실시예에서, BBU 컨트롤러(130)는 강화 학습 모델의 융합을 가속화하기 위해 특정 조건에서 실제 보상과 함께 예측 기반 가상 보상을 생성할 수 있다.

일 실시예에서, 사용자 접속 시스템(100)은 네트워크에 조밀하게 배치된 m개의 mmWave 소형 RRH를 포함할 수 있다. 예를 들어, 사용자 접속 시스템(100)은 C-RAN 아키텍처를 포함할 수 있다.

RRH는 중첩 방식으로 분산되어 전체 네트워크 용량을 늘리면서 서비스 불가 영역을 최소화할 수 있다.

RRH 세트는 M으로 표시될 수 있습니다. 여기서 M=1, 2, ... , m로 나타낼 수 있다.

또한, 네트워크에는 일정한 확률로 자유롭게 움직이는 n개의 사용자 단말(110)이 포함될 수 있다. 여기서, 사용자 단말 집합은 N이며, N=1, 2, ... , N로 나타낼 수 있다.

모든 RRH는 프런트홀 링크를 통해 BBU 컨트롤러(130)에 연결될 수 있다. BBU 컨트롤러(130)는 매번 사용자 단말(110)로부터 받은 정보와 사용자 단말(110)과 RRH 간 연결을 제어할 수 있다.

이 때,

=1, 2, ..., T로 나타낼 수 있는 시간 슬롯 t로 균일하게 분할된 시간 기간이 고려될 수 있다. 각 사용자 단말(110)의 위치는 시간대별로 변경될 수 있다.

사용자 단말(110)의 위치 좌표는 i

N에 대해 (x_i, y_i)로 나타낼 수 있다. 또한, RRH의 위치는 j

M에 대해 (x_j, y_j)로 나타낼 수 있다.

일 실시예에서, C-RAN과 사용자 단말(110)에 대해 몇 가지 가정이 이루어질 수 있다.

RRH(122, 124)에 대하여, 모든 mmWave 소형 RRH의 전송 범위는 동일하다고 가정하고 커버리지 영역은 반경 R인 원으로 나타낼 수 있다.

mmWave RRH에는 mmWave 시스템에 빔포밍을 제공하는데 필요한 지향성 안테나가 장착되어 있다.

그러나 RRH의 용량에 따라 특정 시간에 RRH가 지원할 수 있는 사용자 단말(110)의 수가 제한됩니다.

BBU 컨트롤러(130)에 대하여, BBU 컨트롤러(130)는 네트워크 정보를 획득할 수 있다. 네트워크 정보는 연결된 RRH를 통해 얻은 사용자 리포트를 기반으로 주기적으로 업데이트될 수 있다.

모든 RRH의 위치 좌표 및 커버리지 영역도 BBU 컨트롤러(130)에 알려질 수 있다. BBU 컨트롤러(130)는 핸드오버 및 연관 결정을 수행하기 위한 알고리즘을 실행한 다음 RRH로 전송할 수 있다.

사용자 단말(110)의 연결에 대하여, 각 사용자 단말(110)은 단일 안테나 장치를 갖추고 있을 수 있다. 즉, 한 사용자 단말(110)은 특정 시간 t에 네트워크의 하나의 서빙 RRH(122)에만 연결할 수 있다.

사용자 단말(110)은 수정된 랜덤 워크 이동성 모델을 사용하여 네트워크에서 이동할 수 있다.

사용자 단말(110)은 위치 서비스(예: GPS)를 갖추고 있다고 가정하고 특정 조건이 충족되면 사용자 단말(110)은 위치 정보를 서빙 RRH(122)에 송신할 수 있다.

전파 모델에 대하여, mmWave RRH의 채널은 3GPP 표준 LOS 모델을 기반으로 한다고 가정할 수 있다. LOS 모델은 사용자 단말과 RRH 사이에 존재하는 가시선 mmWave 링크를 결정할 수 있다.

또한, RRH가 겹치는 고밀도 mmWave 네트워크에서 NLOS 연결을 고려하지 않을 수 있다.

일 실시예에서, 경로 손실 모델은 <수학식 1>과 같이 나타낼 수 있다.

여기서, D_i,j는 사용자 단말 i와 RRH j 사이의 거리를 나타내고,

와

는 각각 측정된 거리에 대한 부동 절편(floating intercept) 및 기울기의 최소 제곱 맞춤(least square fit)을 나타낸다. o²는 로그-정규 음영 분산(log-normal shadowing variance)을 나타낸다.

일 실시예에서, D_i,j는 <수학식 2>와 같이 나타낼 수 있다.

일 실시예에서, mmWave 대역의 빔포밍으로 인해 사용자 단말 간 간섭을 무시할 수 있다. 따라서 사용자 단말 i가 RRH j로부터 수신한 신호의 신호 대 잡음비(SNR)를 <수학식 3>과 같이 나타낼 수 있다.

여기서, P_j는 RRH j의 송신 전력, P_n은 잡음 전력,

은 안테나 이득을 나타낸다.

일 실시예에서, RRH j에는 지향성 안테나가 장착되어 있고 사용자 단말 i에게는 무지향성 안테나가 장착되어 있을 수 있다. 따라서,

은 RRH에서 사용자 단말까지의 이탈각(angle of departure)

의 함수이며, <수학식 4>와 같이 나타낼 수 있다.

여기서,

는 메인 로브(main lobe)의 안테나 이득,

은 사이드 로브(side lobe)의 안테나 이득,

는 안테나 메인 로브의 너비를 나타낸다.

또한, 빔 트래킹은 사용자 단말 i와 RRH j 사이의 mmWave 연결을 유지하기 위해 완벽하게 사용될 수 있다. 따라서 사용자 단말 i는 메인 로브에서 높은 안테나 이득을 얻을 수 있다.

RRH j가 한 번에 서비스할 수 있는 사용자 단말 i의 수는 RRH가 생성할 수 있는 빔의 수와 같을 수 있다.

RRH j가 단일 시간 기간에 최대 빔

을 생성할 수 있으며, 이는

사용자 단말에게 동시에 서비스를 제공할 수 있음을 의미할 수 있다.

RRH j와 관련된 모든 사용자 단말은 대역폭 자원을 균등하게 할당받을 수 있다. 따라서 Shannon 용량 공식에 따라 RRH j에 연결된 사용자 단말 i가 달성한 처리량은 <수학식 5>와 같이 나타낼 수 있다.

여기서, BW_j는 RRH j의 대역폭을 나타내고 U_j는 RRH j가 서비스하는 사용자 단말의 수를 나타낸다.

처음에 모든 사용자 단말은 수신된 SNR을 기반으로 RRH와 연결될 수 있다. 사용자 단말은 가장 높은 SNR을 얻는 RRH와 연결될 수 있다.

사용자 단말 i와 RRH j 사이의 연관 지시자(association indicator)

는 사용자 단말 i가 RRH j와 연관되어 있는지 여부를 나타내며 <수학식 6>과 같이 나타낼 수 있다.

일 실시예에서, QOS 모델에 대해, SNR 임계값

및 TTT(time-to-trigger)

의 두 가지 메트릭을 사용하여 서빙 RRH(122)가 있는 사용자 단말(110)의 QoS 요구 사항을 유지할 수 있다.

는 사용자 단말-RRH 연결을 유지하는데 필요한 최소 SNR이고,

는 사용자 단말이 임계값 이하의 SNR을 얻으면서 연결을 유지하는 기간을 나타낼 수 있다.

사용자 단말(110)은 측정 리포트를 서빙 RRH(122)로 보내기 전에 0이

될 때까지 기다릴 수 있다.

사용자 단말 i의 QoS 요구 사항은 <수학식 7>의 조건이 만족될 때 충족될 수 있다.

여기서, T_c와 T_c'는 연속 2회에서의 각 핸드오버 시간을 나타내고, t는 사용자 단말(110)이 임계값보다 큰 SNR을 획득하는 시간을 나타내며, 이는 사용자 단말(110)의 QoS 만족도를 나타낸다.

핸드오버 트리거 조건에 대하여, 서빙 RRH(122)의 SNR 값이 임계값 SNR 값보다 작아지는 경우를 의미합니다. 일 실시예에서, 설명의 편의를 위하여 신호 세기의 예시로 SNR 값을 사용하였지만, 이에 제한되지 않으며, 다양한 신호 세기 값이 사용될 수 있다.

트리거 조건은 <수학식 8>과 같이 나타낼 수 있다.

여기서, HOM은 핑퐁 핸드오버를 줄이기 위해 추가된 핸드오버 마진을 나타낸다. 따라서, 단순화를 위해 이 값은 0으로 설정될 수 있다.

종래의 핸드오버 이벤트는 수학식 8의 조건이 TTT라고 하는 미리 정의된 시간을 만족할 때 발생한다.

핸드오버 이벤트가 트리거되면 사용자 단말(110)은 서빙 RRH(122)로부터 수신된 SNR을 모니터링할 수 있다.

수신된 SNR이 TTT 시간 동안 임계값 SNR을 초과하지 않는 경우 사용자 단말(110)은 측정 리포트를 서빙 RRH(122)로 송신할 수 있다.

사용자 단말(110)이 송신한 측정 리포트의 빈도는 네트워크 사업자에 의해 설정될 수 있다.

본 발명에 따르면, 핸드오버 제어 파라미터인 TTT 값은 이른 핸드오버와 늦은 핸드오버를 최소화하기 위해 조절될 수 있다. 이 경우, TTT 값이 높으면 핸드오버가 너무 늦어지고 TTT 값이 낮으면 핸드오버가 빨라질 수 있다.

도 2는 본 발명의 일 실시예에 따른 퍼지 논리 함수 기반 TTT 값 최적화 과정을 도시한 도면이다.

도 2를 참고하면,BBU 컨트롤러(130)는 무선 링크 장애 없이 연결이 계속되도록 TTT를 조절할 수 있다. 본 발명에 따르면, BBU 컨트롤러(130)는 TTT의 값을 조절하기 위해 이 동작에 퍼지 논리 함수를 적용할 수 있다. 이에, 최적화된 TTT 시간 동안 사용자 단말(110)은 현재 서비스 RRH와의 연결을 유지할 수 있다.

일 실시예에서, 퍼지 논리 함수를 사용한 TTT 값의 최적화를 위하여, 퍼지 논리 함수는 퍼지 규칙을 통해 제어 입력 세트를 제어 출력 세트에 매핑하는 추론 방법을 나타낼 수 있다.

퍼지 논리 프로세스는 모든 입력 값을 소속 함수로 퍼지화, 규칙 집합에 기반한 퍼지 추론 및 출력 함수의 역퍼지화라는 세 단계로 구성될 수 있다. 퍼지 입력은 언어 변수와 연결됩니다.

각 입력에 대해 이러한 언어 변수를 사용하여 규칙이 생성될 수 있다. 추론 엔진은 출력 매개변수를 업데이트하기 위한 최상의 규칙을 선택할 수 있다. 출력은 각 규칙에 대한 결론을 결정할 수 있다.

BBU 컨트롤러(130)는 퍼지 논리 함수를 통해 서빙 RRH로부터 사용자 단말이 수신한 SNR이 임계값 SNR

미만이 될 때 TTT 값을 조절할 수 있다.

종래의 대부분의 핸드오버 방식은 수신된 SNR을 기반으로 핸드오버를 수행하는 것을 고려하지만, 소규모 RRH 기반 C-RAN 시나리오에서는 불필요하고 빈번한 핸드오버로 이어질 수 있다. 또한, RRH는 일부 RRH의 적용 범위가 겹치도록 배치될 수 있다. 따라서, 사용자 단말(110)은 여러 RRH에서 동시에 SNR을 얻을 수 있다. 이것은 사용자 단말(110)이 SNR만을 기반으로 하는 RRH와 연관되는 경우 핑퐁 핸드오버를 유발할 수 있다. 또한, 사용자 단말(110)은 다음 기간에 서빙 SNR이 낮아지면 이전 RRH로 돌아갈 수 있다.

따라서, 본 발명에 따르면, BBU 컨트롤러(130)는 사용자 단말과 서빙 RRH의 거리와 사용자 단말의 이동 속도를 고려하여 서비스를 제공하는 RRH의 적용 범위 내에 있는 기간을 결정할 수 있다.

두 개의 입력, 즉, 사용자 단말의 이동 속도 vi와 사용자 단말과 서빙 RRH의 거리 D_i,j를 퍼지화할 수 있다.

삼각 소속 함수(triangular membership function)를 사용하여 각 퍼지 입력에 세 개의 언어 변수가 할당될 수 있다.

삼각 소속 함수

는 하한 a, 상한 b 및 m 값으로 정의할 수 있다. 여기서, a < m < b일 수 있다. 입력 x의 각 요소는 0과 1 사이의 값에 매핑될 수 있다.

따라서, 삼각형 소속 함수는 <수학식 9>와 같이 나타낼 수 있다.

퍼지 규칙 세트에는 두 개의 입력 값과 하나의 출력 값 사이에 가능한 모든 관계가 포함될 수 있다.

각 입력에는 두 개의 언어 변수가 있기 때문에 입력 변수의 모든 조합으로 총 9개의 규칙이 생성될 수 있다.

언어 변수의 수가 퍼지 규칙의 수를 결정하므로 언어 변수의 수는 3으로 설정될 수 있다.

많은 수의 퍼지 규칙은 더 많은 메모리 요구 사항과 계산 시간을 초래하는 반면, 적은 수의 퍼지 규칙은 부정확한 추론으로 이어질 수 있다. 이 경우, 도 2와 같이, 퍼지 프로세스의 출력은

로 나타낼 수 있다.

도 3a는 본 발명의 일 실시예에 따른 사용자 단말과 서빙 RRH 간 거리 입력에 대한 소속 함수 그래프를 도시한 도면이다. 도 3b는 본 발명의 일 실시예에 따른 사용자 단말의 이동 속도 입력에 대한 소속 함수 그래프를 도시한 도면이다. 도 3c는 본 발명의 일 실시예에 따른 TTT 값에 대한 소속 함수 그래프를 도시한 도면이다.

도 3a 내지 3c를 참고하면, <수학식 9>에 표시된 대로 해당 소속 함수의 정도(degree)를 가진 입력의 언어적 변수(linguistic variable)를 나타낼 수 있다.

속도 v_i는 느림, 보통, 빠름으로 구분되고, 거리 D_i,j는 근접, 중간, 원거리로 구분될 수 있다.

시행 착오 접근 방식(trial and error approach)을 사용하여 소속 함수의 코어 너비(core width)와 경계 영역(boundary region)이 선택될 수 있다.

교차(intersection)가 많을수록 여러 규칙이 자주 활성화될 수 있으므로 인접 언어 변수(adjacent linguistic variable)의 교차 영역(intersecting area)을 적절하게 선택할 수 있다.

중첩되지 않을수록 유연성과 부드러움(flexibility and smoothness)이 약해질 수 있다.

Mamdani 유형 추론 방법은 입력을 TTT 값인 퍼지 시스템의 출력에 매핑하는데 사용될 수 있다.

TTT 값의 경우 출력에서 합리적인 세분성을 달성하기 위해 삼각 소속 함수 세트를 사용할 수 있다: 매우 낮음, 낮음, 중간, 높음 및 매우 높음.

일 실시예에서, 퍼지 논리 기반 TTT 최적화 절차는 <표 1>과 같이 나타낼 수 있다.

이 경우, 초기에

은 0으로 설정되고 사용자 단말의 이동이 시작될 수 있다.

사용자 단말 i가 핸드오버 트리거 조건을 충족하면 RRH j로부터 사용자 단말 i의 수신 SNR

가 미리 정의된 임계 SNR 값

이하가 되며 퍼지 규칙 프로세스가 활성화될 수 있다.

TTT 값은 퍼지 규칙을 사용하여 업데이트될 수 있다. TTT는 0이 될 때까지 계속 감소하며 사용자 단말(110)은 동일한 연결로 네트워크에서 계속 이동할 수 있다.

TTT 종료 후 수신된 SNR 조건이 유지되면 핸드오버 이벤트가 초기화될 수 있다.

수신된 SNR이 TTT 동안 임계값보다 커지면 사용자 단말(110)은 핸드오버를 고려하지 않을 수 있다.

후보 RRH 선택에 대하여, BBU 컨트롤러(130)는 TTT 종료 후 사용자 단말(110)에 대한 적합한 타겟 RRH(124)를 선택할 수 있다.

측정 리포트를 BBU 컨트롤러(130)로 보내는 사용자 단말 i의 경우, BBU 컨트롤러(130)는 사용자 단말(110)이 근처의 RRH로부터 수신한 SNR 값을 기반으로 후보 RRH를 선택할 수 있다. 또한, BBU 컨트롤러(130)는 후보 RRH로 선정된 RRH 중에서 타겟 RRH(124)를 선택할 수 있다.

일 실시예에서, A_k는 시간 t에서 사용자 단말 i에 대해 핸드오버 이벤트가 발생할 때 사용 가능한 RRH의 집합을 나타내며, <수학식 10>과 같이 나타낼 수 있다.

여기서, k는 후보 RRH의 인덱스를 나타낸다.

이를 통해, BBU 컨트롤러(130)는 사용자 단말-RRH 연결이 더 오래 유지되는 세트 A_k의 RRH와 사용자 단말 i를 연결할 수 있다.

일 실시예에서, 사용자 단말(110)이 TTT의 끝에서 서빙 RRH(124)에 측정 리포트를 보낼 때, BBU 컨트롤러(130)는 아래에서 설명되는 강화 학습 모델을 기반으로 사용자 단말(110)에 대한 적절한 타겟 RRH(124)를 선택할 수 있다. 여기서, 강화 학습 모델은 ‘RL 알고리즘’ 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.

도 4는 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법을 도시한 도면이다. 일 실시예에서, 도 4의 각 단계는 BBU 컨트롤러(130)에 의해 수행될 수 있다.

도 4를 참고하면, S401 단계는, 사용자 단말(110)과 서빙 RRH(122) 간 최초 연관(association)을 수행하는 단계이다. 즉, 사용자 단말(110)과 사용자 접속을 수행할 수 있다.

S403 단계는, 사용자 단말(110)과 서빙 RRH(122) 간 신호에 대한 신호 세기를 결정하는 단계이다.

S405 단계는, 신호 세기가 임계값보다 작은지 여부를 결정하는 단계이다. 일 실시예에서, 신호 세기가 임계값보다 작지 않은 경우, S403 단계로 진행할 수 있다.

S407 단계는, 신호 세기가 임계값보다 작은 경우, 퍼지 논리 함수 기반 TTT 값을 조절하는 단계이다.

S409 단계는, 조절된 TTT 값에 따라 핸드오버의 트리거 여부를 결정하는 단계이다. 일 실시예에서, 핸드오버의 트리거를 수행하지 않는 것으로 결정된 경우, S403 단계로 진행할 수 있다.

S411 단계는, 핸드오버의 트리거를 수행하는 것으로 결정된 경우, 후보 RRH 세트를 결정하는 단계이다. 여기서, 후보 RRH 세트는 다수의 후보 RRH를 포함할 수 있다.

S413 단계는, 강화 학습 모델에 기반하여 다수의 후보 RRH 중 타겟 RRH를 결정하는 단계이다.

S415 단계는, 타겟 RRH로의 핸드오버를 수행하는 단계이다.

다시 말해, 일 실시예에서, 강화 학습 모델 기반 타겟 RRH(124)의 선택에 대하여, 강화 학습 모델은 환경과 상호 작용하는 학습을 위한 에이전트를 포함할 수 있다.

에이전트는 상태(state) s_t

S를 관찰하여 각 결정 시간 t

T에서 행동(action) a_t

A를 취할 수 있다. 그런 다음, 다음 상태 s_t+1

S로 이동하고 피드백 메커니즘으로 보상 r_t를 받을 수 있다.

보상은 문제의 목적을 나타내며 에이전트의 목표는 전체 보상을 최대화하는 것일 수 있다.

상태를 행동으로 매핑하는 정책

를 정의할 수 있다.

에이전트의 목표는 누적 보상을 최대화하는 최적의 정책

을 학습하는 것일 수 있다.

Q-학습(learning)과 같은 대부분의 강화 학습 모델은 각 반복의 보상을 다음 연속 단계를 기반으로 하는 할인된 보상(discounted reward)으로 간주할 수 있다.

미래의 보상(future reward)은 각 핸드오버 이벤트 동안 현재 행동에 영향을 미치지 않기 때문에 이것은 제한될 수 있다.

강화 학습 모델에서 모든 상태는 서로 독립적이며 받은 보상은 실행된 행동에만 관련될 수 있다. 따라서 에이전트는 종종 최상의 보상을 제공하는 행동을 학습할 수 있다.

컨텍스트 밴딧(Contextual bandits)은 상당히 단순한 강화 학습 모델의 하위 집합입니다. 결과가 관찰되기 전에 한 단계만 존재할 수 있다.

컨텍스트 밴딧은 컨텍스트 또는 상태 정보가 고려되는 멀티암드 밴딧 접근(multiarmed bandit approach) 방식의 확장일 수 있다.

멀티암드 밴딧과 달리, 상태는 보상이 각 행동과 연관되는 방식에 영향을 미치므로, 상태가 변경됨에 따라, 모델은 행동 선택을 조절하는 방법을 학습해야 할 수 있다.

일 실시예에서, 보상은 환경 상태에 따라 달라질 수 있으며, 보상은 다른 상태에서 취한 동일한 행동에 대해 달라질 수 있다.

강화 학습 모델은 컨텍스트(상태)를 관찰하고 사용 가능한 여러 행동에서 행동을 수행하고 해당 행동의 결과(보상)를 관찰할 수 있다.

강화 학습 모델에서, 각 결정 시간 t에서 후보 RRH k

Ak(t)는 특정 상태에서 사용 가능한 행동일 수 있다.

핸드오버 이벤트가 <표 1>에 따라 트리거되면 중앙 집중식 BBU 컨트롤러(130)의 에이전트는 사용자 단말(110)과 RRH 간 연관 정보를 포함하는 상태를 관찰하고 탐색(exploration) 또는 활용(exploitation)을 통해 타겟 RRH(124)를 선택하고, 즉각적인 보상을 받을 수 있다.

이를 통해, 사용자 단말(110)이 사용자 단말(110)의 QoS 요구 사항을 충족하면서 더 오랜 시간 동안 연결을 유지할 수 있는 RRH와 사용자 단말(110)을 다시 연결할 수 있다.

강화 학습 모델은 사용자 단말(110)의 속도, 방향, 이동 각도 및 연관된 RRH로부터의 거리를 기반으로 사용자 단말(110)과 RRH의 연관을 학습할 수 있다.

일 실시예에서, 상태 구성(state construction)에 대하여, 핸드오버 이벤트가 트리거되면 에이전트는 서빙 RRH(122)와 서빙 RRH(122)의 연관 특징(association feature)을 식별할 수 있다. 여기서, 서빙 RRH(122)의 연관 특징은 에이전트의 상태를 구성할 수 있다.

일 실시예에서, 상태 공간(state space) S는 서빙 RRH(122)의 인덱스, 사용자 단말(110)과 RRH 사이의 거리, 사용자 단말(110)과 RRH 사이의 각도 및 RRH를 향한 사용자 단말(110)의 방향이라는 네 가지 요소를 포함할 수 있다.

시간 t의 특정 상태 s_t에서 에이전트는 트리거된 핸드오버 이벤트에서 사용자 단말-RRH 연관 정보를 학습할 수 있다.

따라서, 상태의 요소는

로 나타낼 수 있다.

여기서, j는 서빙 RRH 인덱스, D_i,j는 사용자 단말 i와 RRH j 사이의 거리,

는 사용자 단말 i와 RRH j 사이의 각도,

는 RRH j를 향한 사용자 단말 i의 이동 방향을 나타낸다.

연관 특징을 결합하면 임의의 사용자 단말 I 및 RRH j에 대해 연관 특징을 x_i,j=(D_i,j ,

,

)로 나타낼 수 있다.

여기서, x는 사용자 단말 i와 RRH j의 연관의 특징을 나타낸다. x_i,j

X_i,j는 전체 특징 집합에서 x_th 연관 특징을 나타낸다.

로 표시된 시간 t에서 사용자 단말 i가 요청한 모든 핸드오버 이벤트에 대해 RRH j

M과 관련된 상태를 나타낸다. 단순화를 위해 시간 t의 상태를 s_t로 나타낸다.

일 실시예에서, 상태에서 연관 특징의 요소는 연속 값일 수 있다. 이 매개변수에 대한 모든 값을 취하면 상태 공간이 무한해지고 에이전트가 수렴에 도달하지 않을 수 있다.

강화 학습 모델은 환경에서 작동하기 위해 이산 상태 공간이 필요할 수 있다.

따라서, 상태 공간의 요소에 대한 이산 값을 얻을 필요가 있다.

사용자 단말(110)과 RRH 사이의 거리 D_i,j는 D_i,j

1, 2, 3, 4, 5가 되도록 5개의 청크로 구분될 수 있다. 값이 작을수록 사용자 단말(110)과 RRH 사이의 거리가 가까워질 수 있다.

D_i,j=1은 사용자 단말(110)이 RRH와 가장 가까운 거리에 있음을 의미하고 D_i,j=5는 RRH와 가장 먼 거리에 있음을 의미할 수 있다.

사용자 단말(110)과 RRH의 연관 특징에서 각

의 값은 8개의 범주로 나뉘며,

1, 2, 3, 4, 5, 6, 7, 8로 주어질 수 있다. 여기서 -180

180

일 수 있다.

j를 향한 i의 방향

은 내부 방향과 외부 방향의 두 그룹으로 구분될 수 있다.

시간 t에서의 거리와 시간 t-1에서의 거리의 차이로부터 계산할 수 있다. 시간 t에서 사용자 단말 i와 RRH j 사이의 거리는 D_i,j ^t로 표시될 수 있다. 또한, 시간 t-1에서 거리는 D_i,j ^t-1일 수 있다.

D_i,j ^t > D_i,j ^t-1이면 사용자 단말(110)과 RRH의 거리가 멀어지는 것을 의미할 수 있다. 이 경우, 사용자 단말(110)은 RRH에서 바깥쪽으로 이동할 수 있다.

마찬가지로, D_i,j ^t > D_i,j ^t-1은 현재 시간의 거리가 이전 시간의 거리보다 작으므로 사용자 단말(110)이 RRH에서 안쪽 방향으로 이동하고 있음을 나타낸다.

D_i,j ^t=D_i,j ^t-1은 사용자 단말의 움직임이나 RRH 방향의 변화가 없음을 의미할 수 있다.

행동(action)에 대하여, BBU 컨트롤러(130)의 에이전트는 후보 RRH 집합 Ak에서 타겟 RRH(124)를 선택할 수 있다.

선택된 타겟 RRH인 at

Ak(t)에서와 같이, 시간 t에서의 행동 a_t를 나타낼 수 있다.

시간 t에서 상태 s_t에서 가능한 행동의 수는 사용 가능한 RRH k의 수를 나타낼 수 있다.

보상(reward)에 대하여, BBU 컨트롤러(13)의 에이전트의 보상 함수는 에이전트가 누적 보상을 최대화하는 행동을 취하도록 동기를 부여하도록 결정될 수 있다.

가장 오랫동안 연관을 유지할 사용자 단말(110)을 위한 타겟 RRH(124)를 선택하는 것이기 때문에 이를 위해 보상이 결정될 수 있다.

따라서, 시간 t에서 행동 a_t를 취하기 위해 상태 s_t에서 보상 함수 r_t는 <수학식 11>과 같이 나타낼 수 있다.

여기서, T_c는 핸드오버가 발생한 시간을 의미하며, 사용자 단말(110)은 행동 a_t에 의해 선택된 타겟 RRH(124)에 접속하고, T_c'는 다음 핸드오버 시간을 나타낸다. 여기서, t는 반복 카운터 시간을 초로 나타낸다. T_c 및 T_c'는 각각 핸드오버의 시작 및 종료 카운터를 나타낸다.

일 실시예에서, 시간 단위는 동일할 수 있으나, 여기서는 편의상 연결 시간을 나타내기 위해 T_c 및 T_c'로 나타낸다.

따라서, 보상에는 사용자 단말과 RRH의 연결이 유지되는 기간이 포함될 수 있다. 보상을 최대화한다는 것은 연결 지속 시간도 최대화된다는 것을 의미하므로 총 핸드오버 횟수가 최소화될 수 있다.

다음 핸드오버가 발생할 때까지 이를 계산할 수 없기 때문에 조치를 취한 직후에 rt를 얻지는 않을 수 있다.

탐색-활용 전략(EXPLORATION-EXPLOITATION STRATEGY)에 대하여, 핸드오버 이벤트가 발생하면 BBU 컨트롤러(130)의 에이전트는 후보 RRH 집합 A_k에서 하나의 타겟 RRH(124)를 선택하여 총 핸드오버 횟수를 줄일 수 있다.

탐색-활용 트레이드오프는 로컬 최적에 갇히지 않고 최상의 행동을 선택할 때 강화 학습 모델의 핵심 과제일 수 있다. 이 문제를 해결하기 위해

-그리디(greedy) 정책이 사용될 수 있다.

-그리디 정책에서 확률로 에이전트는 사용 가능한 행동 집합에서 임의의 행동을 선택할 수 있다. 이 단계는 탐색이라고 지칭될 수 있다.

그렇지 않으면 에이전트는 활용 단계에서 보상을 최대화하는 행동을 선택할 수 있다.

시간 t에서 핸드오버 이벤트가 발생하면 정책 k^*는 <수학식 12>를 만족하는 후보 RRH 집합 A_k(t)에서 타겟 RRH(124)를 선택하는 것일 수 있다.

일 실시예에서, <표 2>는 전체 강화 학습 기반 RRH 선택 절차를 나타낼 수 있다.

<표 2>는 TTT 종료 후 핸드오버 이벤트가 트리거될 때 호출될 수 있다. 앞에서 설명한 것처럼 현재 시간은 T_c로 기록될 수 있다.

에이전트는 상태 s_t를 관찰하고 후보 RRH 세트 A_k에서 재연결을 위해 사용 가능한 모든 RRH를 확인할 수 있다.

-greedy 정책의 경우 랜덤 변수를 사용하여 탐색 또는 활용을 결정할 수 있다.

활용 단계에서 가상 보상은 두 가지 경우에서 가장 좋은 행동을 선택하기 위해 계산될 수 있다.

에이전트가

와 같이 이전에 탐색되지 않은 상태에 있거나, 에이전트가 일부 행동

만 탐색한 상태에 있는 경우, 가상 보상이 계산될 수 있다.

이 보상은 미래 위치 예측 메커니즘을 기반으로 상태 s_t에서 사용 가능한 모든 행동 k에 대해 계산될 수 있다. 이 메커니즘은 강화 학습 모델의 더 빠른 수렴을 위해 사용되며, 본 발명에서는 이를 가속 기법(acceleration technique)이라고 지칭할 수 있다.

첫 번째 조건이 상태 s_t가 새로운 상태가 되도록 충족되면, 에이전트는 최대 가상 보상이 r^k _t,v로 정의되는 행동을 수행할 수 있다.

두 번째 경우, 에이전트는 사용 가능한 모든 행동에 대한 가상 보상을 유사하게 계산할 수 있다.

그런 다음 상태 s_t에서 탐색된 행동

에 대한 실제 보상과 가상 보상을 사용하여 바이어스 값(bias value) b를 계산할 수 있다.

그 후 탐색된 모든 행동에 대해 가상 보상 값과 바이어스 값을 곱하여 탐색되지 않은 행동

에 대해 새 보상

이 계산될 수 있다. 여기서

는 특정 상태에서 탐색되지 않은 행동의 집합을 나타낸다.

모든 탐색 및 미탐색 행동에 대해 에이전트가 가장 높은 보상을 받는 행동을 선택할 수 있다. 여기서 보상은 탐색한 행동에 대한 실제 보상

과 새로 계산된 보상

을 모두 의미할 수 있다.

마지막으로, s_t에서 사용 가능한 모든 행동이 이전에 탐색된 경우 에이전트는 최대 보상이 있는 행동을 선택할 수 있다.

도 5a는 본 발명의 일 실시예에 따른 예상 영역 생성의 예를 도시한 도면이다. 도 5b는 본 발명의 일 실시예에 따른 중첩 영역 생성의 예를 도시한 도면이다.

도 5a 및 5b를 참고하면, 가속 기법(acceleration technique)에 대하여, 가상 보상을 계산하기 위해 사용자 단말(110)의 과거 궤적을 사용하여 언어 기반 추정(Lagrange-based extrapolation)을 사용한 예측 방법을 사용할 수 있다.

그런 다음, 사용자 단말(110)의 대략적인 미래 위치를 활용하여 RRH와 중첩 영역이 생성될 수 있다. 여기서, 사용자 단말(110)의 미래 위치는 ‘예상 위치’ 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.

미래의 중첩 지역은 사용자 단말(110)이 특정 RRH의 적용 범위에 머무를 수 있는 기간을 반영할 수 있다.

따라서, 에이전트는 중첩 영역 값과 근접도 및 방향을 기반으로 해당 상태-행동 쌍에 대한 가상 보상을 업데이트할 수 있다.

일 실시예에서, 미래 위치 예측에 대하여, Lagrange 다항식은 임의의 함수에 대한 근사값을 생성하기 위해 사용될 수 있다. 위치는 시간에 대해 2차원 공간에서 계산될 수 있다.

몇 개의 연속 타임 스탬프에서 사용자 단말(110)의 과거 위치 좌표를 사용하여 다음 타임 스탬프의 미래 위치에 대한 Lagrange 방법의 추정 특징을 활용할 수 있다.

Lagrange 방법은 이러한 좌표를 사용하여 사용자 단말(110)의 이동 경로를 설명하는 다항식을 생성할 수 있다.

시간 t에서, 시간에 대한 사용자 단말 i의 위치는 (X_i,t, Y_i,t)로 표시될 수 있다.

차수 n에 대한 n+1 데이터 포인트에 대한 사용자 단말(110)의 위치 좌표를 결정할 수 있다. 여기서 n=1, 2, ..., t-1로 나타낼 수 있다.

시간에 대한 X축과 Y축 값을 따로 생성할 수 있고, 추정값을 통해 사용자 단말(110)의 미래 위치를 결정할 수 있다.

X축 값 X_i,t' 및 Y축 값 Y_i,t'가 있는 차수 n에 대한 시간 t'에서 사용자 단말 i의 미래 위치는 <수학식 13> 및 <수학식 14>와 같이 나타낼 수 있다.

여기서, p와 q는 연속 타임스탬프의 데이터 포인트 값을 나타낸다. t'는 사용자 단말(110)의 미래 위치가 대략적인 시간을 나타낸다.

다음 타임 스탬프 t‘에 대한 사용자 단말 i의 미래 위치는

로 표시될 수 있다.

일 실시예에서, 중첩 영역 생성(Overlapping region creation)에 대하여, 예측된 위치

에서 사용자 단말(110)의 이동 속도를 기반으로 예상 영역이 생성될 수 있다.

예상 영역은 사용자 단말(110)이 몇 개의 연속적인 미래 타임스탬프에 있을 수 있는 모든 가능한 위치를 포함하는 원 C_e을 나타낼 수 있다.

예상 영역 원 C_e는 반경 ρ로 미래 위치

를 중심으로 사용자 단말 i에 대해 생성되며, 이는 다음과 같이 주어진 사용자 단말(110)의 예측 변위(predicted displacement)를 사용하여 <수학식 15>와 같이 나타낼 수 있다.

여기서, t'는 위치가 근사화될 때의 미래 타임스탬프를 나타내고 t는 현재 타임스탬프를 나타낸다.

BBU 컨트롤러(130)는 예상 영역 원과 RRH 커버리지 범위 원 사이의 중첩 영역을 계산할 수 있다.

사용자 단말(110)과 RRH 사이의 중첩 영역은 사용자 단말(110)이 해당 RRH의 커버리지 내에 머무를 수 있는 기간을 결정하기 위해 사용될 수 있다.

Oe,h로 표시되는 두 원 C_e와 C_h 사이의 중첩 영역(

)은 d_c로 표시되는 두 원의 중심 사이의 거리와 두 원의 반지름에 기반하여 결정될 수 있다.

일 실시예에서, 중첩 영역 O_e,h은 <수학식 16>과 같이 나타낼 수 있다.

여기서,

;

및

값은 <수학식 17> 및 <수학식 18>과 같이 나타낼 수 있다.

여기서,

는 예상 영역 원 Ce의 반경을 나타내고 R은 RRH 커버리지 범위 원 C_h의 반경을 나타낸다. C_e < C_h 이므로 C_e가 완전히 C_h내부에 있을 수 있다.

이 경우, 중첩되는 면적은 Area(C_e)와 같으며 <수학식 19>와 같이 나타낼 수 있다.

여기서, ρ는 원 C_e의 반지름을 나타냅니다.

일 실시예에서, 가상 보상 계산에 대하여, 사용자 단말 i의 예상 영역과 시간 t에서 RRH j의 커버리지 범위 사이의 중첩 영역 O_e,h를 최대화하는 것은 사용자 단말(110)과 RRH의 연관 기간(duration)을 최대화하는 것과 동일할 수 있다.

이 중첩 영역은 특정 활용 조건(certain exploitation condition)이 발생할 때 시간 t에서 사용 가능한 모든 행동 k에 대한 가상 보상 r^t _vk를 계산하는데 사용될 수 있다.

또한, 가상 보상 함수는 사용자 단말 i와 RRH j의 근접도(proximity)과 사용자 단말의 방향 변위(directional displacement)를 포함할 수 있다.

일 실시예에서, 근접도 P_i,j는 <수학식 20>과 같이 나타낼 수 있다.

여기서, D_i,j는 사용자 단말 i와 RRH j 사이의 거리를 나타내고, R은 RRH의 커버리지 범위를 나타낸다.

이 근접도는 사용자 단말 i가 RRH j와 얼마나 가까운지를 나타낼 수 있다. 즉, 근접도가 높을수록 사용자 단말(110)이 해당 RRH에 더 가깝다는 것을 의미할 수 있다.

또한, 방향 변위는 상태 공간에서 계산된 방향

과 관련이 있을 수 있다. 이 경우, RRH j를 향한 사용자 단말 i의 방향 변위

는 <수학식 21>과 같이 나타낼 수 있다.

여기서, v_i는 사용자 단말 i의 속도를 나타낸다.

의 양수 값은 사용자 단말 i가 RRH j 쪽으로 이동함을 나타내고, 음수 값은 사용자 단말 i가 바깥쪽 방향으로 이동함을 나타낸다.

중첩 영역과 함께 근접도 및 방향 변위의 값을 최대화하면 사용자 단말(110)이 해당 RRH 아래에 더 오래 머물 가능성이 높아질 수 있다.

따라서, 모든 결정 시간 t에서 각 후보 RRH에 대한 가상 보상은 <수학식 22>와 같이 나타낼 수 있다.

가상 보상(virtual reward)은 실제 보상(actual reward)과 매핑되어 바이어스 값 b를 계산하기 위해 사용될 수 있다.

바이어스는 <표 2>에 표시된 대로 특정 활용 단계에 대한 새로운 보상을 계산하는 데 사용될 수 있다.

도 6은 본 발명의 일 실시예에 따른 네트워크 레이아웃의 예를 도시한 도면이다.

도 6을 참고하면, 성능 평가를 위하여, 본 발명에 따른 FLRL-AC(fuzzy logic-based handover parameter optimization and RL-based RRH selection with the acceleration technique)을 평가할 수 있다.

본 발명에 따른 방식의 성능을 평가하기 위해 기존의 SNR 기반 핸드오버(SBH) 방식과 비교할 수 있다.

또한, 퍼지 로직 기반의 TTT 최적화와 강화 학습 모델의 가속 기법의 성능을 평가할 수 있다.

이를 위해 FLRL과 RL-AC의 두 가지 방식을 구현할 수 있다.

종래의 SBH(SNR-based handover)는 가장 높은 SNR을 기반으로 사용자 단말 연결을 위한 RRH를 선택한다.

본 발명의 경우, 행동에서와 동일한 핸드오버 트리거 조건이 사용될 수 있다.

RL-AC는 퍼지 논리가 없는 가속 기술을 사용하는 강화 학습 모델 기반 RRH 선택을 나타낼 수 있다. 이 경우, TTT는 RL-AC에서 최적화되지 않는다.

본 발명에 따른 가속 기법은 FLRL-AC에 적용될 수 있다.

또한, RL-AC는 가속 기법만으로 RL 기반 사용자 단말 연계의 효율성을 나타낸다.

FLRL에서 가속 기술은 RL 기반 RRH 선택에 사용되지 않는다. 여기에서는 퍼지 논리 기반 TTT 최적화가 사용될 수 있다. 이 기법은 RL 기반 사용자 단말 연관 기술과 함께 퍼지 논리 기반 TTT 최적화 알고리즘의 성능을 평가하는 데 사용될 수 있다.

예시적인 시뮬레이션 환경으로, 1000m x 1000m 정사각형 영역을 포함하고 무작위로 배치된 특정 수의 소규모 RRH로 구성된 C-RAN 환경이 고려될 수 있다. 다만, 본 시뮬레이션 환경은 제한되지 일 예시일 뿐 제한되지 않는다.

모든 RRH의 커버리지 범위는 동일하며 각각 원형 영역으로 표시되는 다른 이웃 RRH와 중첩될 수 있다. RRH의 수는 기본적으로 50으로 설정될 수 있다.

RRH의 송신 전력은 30dBm, 잡음 전력은 -77dBm으로 설정될 수 있다.

<수학식 1>에서 경로 손실 계산을 위한 매개변수는 반송파 주파수 28GHz 및 LOS 통신에 해당할 수 있다. RRH에 할당되는 대역폭은 500MHz로 설정될 수 있다.

RRH가 동시에 서비스할 수 있는 사용자 단말(110)의 수는 s 10으로 설정될 수 있다.

사용자 단말(110)은 시뮬레이션 영역에 무작위로 분포되었고 수정된 무작위 보행 모델로 네트워크에서 이동할 수 있다.

사용자 단말(110)의 수와 사용자 단말(110)의 속도는 각각 200 및 6 m/s일 수 있다.

강화 학습 모델의

-greedy 정책의 경우 값은 초기에 1로 설정되고 감쇠는 0.99로 설정될 수 있다. 최소값은 0.1로 설정될 수 있다.

본 발명에서 사용된 시뮬레이션 매개변수는 <표 3>과 같이 나타낼 수 있다.

50개의 RRH와 200명의 사용자 단말이 있는 네트워크 레이아웃은 도 6과 같이 나타낼 수 있다.

검은색 선은 각 RRH의 적용 범위를 나타내고 빨간색 원은 네트워크의 사용자 단말(110)을 나타낸다. 파란색 직선은 사용자 단말(110)의 이동 경로를 나타낸다. 사용자 단말(110)은 수정된 무작위 보행으로 직선을 통해 이동할 수 있다.

다양한 매개변수를 고려하여 본 발명에 따른 방법의 성능을 평가할 수 있다.

사용자 단말당 핸드오버 횟수와 다른 방식과 비교하여 얻은 평균 보상의 측면에서 다른 매개변수를 사용한 평가 결과를 확인할 수 있다.

평균 보상(average reward)은 사용자 단말-RRH 연결에 대한 평균 연결 잔여 시간을 나타낸다.

본 발명에 따르면, QoS를 유지하면서 연결 지속 시간을 더 길게 유지하고 핸드오버 수를 줄이는 것이므로 이 두 메트릭은 비교된 방식보다 본 발명에 따른 방식의 성능을 정확하게 반영할 수 있다.

또한, 사용자 단말-RRH 연관 기간은 QoS 만족의 성능을 평가하기 위한 메트릭으로 사용될 수 있다.

QoS 모델에서 알 수 있듯이 사용자 단말(110)이 임계값보다 큰 SNR을 얻는 기간은 사용자 단말(110)의 QoS 만족도를 나타낼 수 있다. 이에, 핸드오버는 수신된 SNR이 임계값보다 작아지면 트리거될 수 있다.

따라서, 사용자 단말-RRH 연관 기간을 최대화하는 것은 사용자 단말(110)의 QoS 만족도를 최대화하는 것과 유사하다고 할 수 있다.

도 7은 본 발명의 일 실시예에 따른 핸드오버 수에 대한 강화 학습 모델의 커버리지 성능 그래프를 도시한 도면이다.

도 7을 참고하면, 컨버전스(Convergence) 평가를 위하여, FLRL만으로 FLRL-AC의 수렴을 분석할 수 있다. 주된 이유는 본 발명에 따른 가속 기술을 사용할 때의 이점을 입증하기 위해서 일 수 있다.

이를 위해, 에피소드 수가 증가함에 따라 총 핸드오버 횟수와 평균 보상을 확인할 수 있다.

기본 네트워크 매개변수를 유지하고 시뮬레이션을 위해 100,000회 반복에 대해 두 가지 방식을 실행할 수 있다.

10,000개 에피소드당 총 핸드오버 수와 RL 알고리즘의 수렴을 확인할 수 있으며, 두 알고리즘 모두 결국 수렴에 도달하지만 FLRL-AC가 FLRL보다 빠르게 수렴되는 것을 확인할 수 있다.

또한, FLRL-AC는 20,000개 에피소드로 수렴하는 반면 FLRL은 40,000개 에피소드 후에 수렴함을 확인할 수 있다. 이 결과는 본 발명에 따른 가상 보상 기반 가속 기술의 장점을 입증한다.

BBU 컨트롤러(130)의 에이전트는 가속 기술을 사용하여 더 나은 조치를 취하는 방법을 배우므로 전체 핸드오버 수도 더 감소할 수 있다.

도 8은 본 발명의 일 실시예에 따른 평균 보상에 대한 강화 학습 모델의 커버리지 성능 그래프를 도시한 도면이다.

도 8을 참고하면, 평균 보상 측면에서 강화 학습 모델의 수렴 성능 비교를 확인할 수 있다.

평균 보상은 강화 학습 모델의 보상 함수에 표시된 대로 사용자 단말(110)이 특정 RRH에 연결된 지속 시간을 나타내는 사용자 단말-RRH 연결의 평균 지속 시간을 나타낼 수 있다.

FLRL-AC가 수렴에 더 빨리 도달하여 FLRL보다 성능이 우수하며 이전 결과와 유사함을 나타낼 수 있다.

초기에는 탐색 단계로 인해 성능이 천천히 향상될 수 있다. 활용이 시작되면 에이전트는 가상 보상을 계산하여 조치를 취하기 시작할 수 있다. 따라서 성능이 더 빨리 향상될 수 있다.

가속 기술을 사용하여 FLRL-AC는 20,000개의 에피소드로 수렴될 수 있다.

도 9는 본 발명의 일 실시예에 따른 RRH의 수에 대한 핸드오버의 횟수 성능 그래프를 도시한 도면이다.

도 9를 참고하면, RRH의 다양한 밀도에 대하여, RRH 수에 대해 30, 40, 50, 60, 70, 80, 90 및 100의 8가지 값을 선택하고 각 인스턴스에 대해 10000번의 반복(시간 단위) 동안 실행할 수 있다.

사용자 단말(110)의 수와 사용자 단말(110)의 이동 속도를 기본값으로 유지하면서 사용자 단말당 핸드오버 수를 확인할 수 있다.

이 경우, 본 발명에 따른 FLRL-AC에 대한 핸드오버 수가 종래의 FLRL, RL-AC 및 SBH에 대한 핸드오버 수보다 현저히 적은 것을 확인할 수 있다.

이 결과에서 FL 기반 TTT 최적화 및 가속 기술을 모두 사용하는 이점을 실현할 수 있다. 핸드오버 횟수는 RRH가 50개일 때 가장 적음을 확인할 수 있다.

RRH의 밀도는 핸드오버 횟수에 영향을 미칠 수 있다. 동일한 지역에 일정 수의 RRH가 배치될 때 RL 에이전트가 최상의 RRH를 선택할 수 있는 더 많은 옵션을 갖기 때문일 수 있다.

그러나, 30개의 RRH가 있는 경우 사용자 단말은 더 적은 수의 RRH의 적용 범위 아래로 이동하고 에이전트는 더 이상 머물지 않을 수 있는 사용자 단말(110)에 대해 RRH를 선택할 수 있다.

또한, C-RAN 환경에서 밀도가 50보다 높으면 핸드오버 횟수가 약간 증가할 수 있다. 이 변동은 활용 단계가 시작될 때까지 에이전트의 탐색 기간에 기인할 수 있다.

도 10은 본 발명의 일 실시예에 따른 RRH의 수에 대한 평균 사용자 단말과 RRH의 연관 기간 성능 그래프를 도시한 도면이다.

도 10을 참고하면, RRH 밀도 및 기타 매개변수를 동일하게 유지하고 제안된 방식의 평균 사용자 단말-RRH 연관 기간을 비교할 수 있다.

FLRL-AC는 평균 사용자 단말-RRH 연결 기간 측면에서 다른 모든 비교 방식보다 성능이 뛰어남을 확인할 수 있다.

RRH의 개수가 30개에서 50개로 증가하면 지속시간이 증가하고 RRH의 개수가 증가함에 따라 다시 감소함을 확인할 수 있다.

이는 30개의 RRH가 있을 때 사용자 단말(110)이 더 적은 수의 RRH의 적용 범위 아래로 이동하고 에이전트가 더 이상 머물지 않을 수 있는 사용자 단말(110)에 대해 RRH를 선택할 수 있기 때문일 수 있다.

다시 말하지만 에이전트가 다른 RRH를 선택하고 보상을 학습할 때 에이전트의 탐색 기간으로 인해 50 RRH 이상 동안 지속 시간이 감소하기 시작할 수 있다.

후보 RRH 집합이 커지면 에이전트가 최상의 행동으로 수렴하는 데 더 오랜 시간이 필요할 수 있다.

도 11은 본 발명의 일 실시예에 따른 사용자 단말의 수에 대한 핸드오버의 횟수 성능 그래프를 도시한 도면이다.

도 11을 참고하면, 다양한 사용자 단말 수에 대하여, 핸드오버 횟수 측면에서 본 발명에 따른 방식의 성능을 검증하기 위해 C-RAN 환경에서 사용자 단말(110)의 수를 변경할 수 있다.

RRH가 50개인 기본 네트워크 설정에서 사용자 단말(110)의 수를 100, 150, 200, 250, 300, 350, 400으로 변경할 수 있다.

본 발명에 따른 FLRL-AC가 다양한 사용자 단말의 수에 대해 사용자 단말당 핸드오버 수 측면에서 다른 알고리즘보다 성능이 우수함을 확인할 수 있다.

초기에는 RL-AC에 대한 핸드오버 횟수가 FLRL에 비해 적었지만 사용자 단말(110)의 수는 350명으로 증가하고 핸드오버 횟수는 소폭 증가함을 확인할 수 있다.

따라서, 가속 기술은 네트워크의 사용자 단말의 수가 증가함에 따라 느려짐을 확인할 수 있다.

도 12는 본 발명의 일 실시예에 따른 사용자 단말의 수에 대한 평균 사용자 단말과 RRH의 연관 기간 성능 그래프를 도시한 도면이다.

도 12를 참고하면, 평균 사용자 단말-RRH 연결 기간의 성능을 확인할 수 있다.

본 발명에 따른 FLRL-AC는 다른 모든 비교 방식을 능가했으며 평균 지속 시간은 사용자 단말(110)의 수가 200일 때 기본 설정에서 가장 높음을 확인할 수 있다.

네트워크의 사용자 단말(110)의 수가 200명 이상으로 증가함에 따라 성능이 약간 감소함을 확인할 수 있다.

FLRL 및 RL-AC의 성능은 다양한 사용자 단말(110)의 수를 가진 평균 사용자 단말-RRH 연결 기간에 대해 거의 유사함을 확인할 수 있다.

도 13은 본 발명의 일 실시예에 따른 사용자 단말의 이동 속도에 대한 핸드오버의 횟수 성능 그래프를 도시한 도면이다.

도 13을 참고하면, 다양한 사용자 단말(110)의 이동 속도에 대하여, 사용자 단말(110)의 속도는 본 발명에 따른 방법의 성능에 중요한 영향을 미침을 확인할 수 있다.

핸드오버 제어 매개변수는 사용자 단말(110)의 이동 속도에 직접적으로 의존할 수 있다.

따라서, 사용자 단말(110)의 저속, 중속, 고속을 고려하여 사용자 단말(110)의 이동 속도를 변화시키면서 본 발명에 따른 방법의 성능을 확인할 수 있다.

본 발명에 따른 FLRL-AC는 사용자 단말당 핸드오버 횟수 측면에서 다른 방식보다 더 나은 성능을 보임을 확인할 수 있다.

RL-AC의 핸드오버 횟수는 처음에 FLRL보다 적음을 확인할 수 있다.

속도가 증가하면 사용자 단말(110)의 이동 속도를 직접 고려하지 않기 때문에 RL-AC에 대한 핸드오버 횟수가 증가할 수 있다. 다.

핸드오버 트리거링은 사용자 단말-RRH 거리 및 사용자 단말(110)의 이동 속도를 기반으로 FL로 수행되기 때문에 TTT는 속도가 증가함에 따라 FLRL-AC 및 RL-AC 모두에 최적화될 수 있다.

도 14는 본 발명의 일 실시예에 따른 사용자 단말의 이동 속도에 대한 평균 사용자 단말과 RRH의 연관 기간 성능 그래프를 도시한 도면이다.

도 14를 참고하면, 다양한 사용자 단말(110)의 이동 속도에 따른 평균 사용자 단말-RRH 연결 기간을 확인할 수 있다.

연결 지속 시간은 사용자 단말(110)의 이동 속도가 증가함에 따라 감소함을 확인할 수 있다.

이동 속도가 증가함에 따라 사용자 단말(110)은 RRH의 커버리지 영역에서 매우 빠르게 멀어질 수 있으며, 수신된 SNR이 매우 낮을 수 있다.

따라서, 핸드오버 조건이 트리거되고 모든 조건이 충족되면 BBU 컨트롤러(130)의 에이전트에 의해 타겟 RRH(124)가 선택될 수 있다.

본 발명에 따른 FLRL-AC는 TTT 최적화 및 가속 기술로 인해 다른 모든 방식보다 성능이 우수함을 관찰할 수 있다.

본 발명에 따르면, 빈번한 핸드오버를 줄이기 위해 사용자 단말(110)이 핸드오버 트리거 조건과 RRH 선택을 최적화할 수 있다.

먼저 특정 임계값에 도달한 후 서빙 RRH(122)와의 연결을 유지하는데 필요한 시간을 조절하기 위해 퍼지 논리 기반 솔루션이 구현될 수 있다.

핸드오버 이벤트가 발생했을 때 연결이 더 오래 유지되도록 타겟 RRH(124)를 선택하는 강화 학습 모델이 사용될 수 있다.

강화 학습 모델의 보다 빠른 수렴을 위해 사용자 단말(110)의 미래 위치 예측을 기반으로 한 가속 기법이 사용될 수 있다.

본 발명에 따르면, 각 RRH 선택 기간에 가상 보상을 제공하여 강화 학습 모델에서 탐색-활용 트레이드 오프를 해결할 수 있다.

불확실한 상황에서 RRH 선택을 위해 가상 보상과 실제 보상이 매핑될 수 있다. 가상 보상을 통합하면 강화 학습 모델의 수렴이 빨라질 수 있다.

도 15는 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법을 도시한 도면이다.

도 15를 참고하면, S1501 단계는, 사용자 단말(110)의 위치 정보를 수신하는 단계이다. 일 실시예에서, 상기 위치 정보는 사용자 단말(110) 또는 서빙 RRH(122)로부터 수신될 수 있다.

S1503 단계는, 사용자 단말(110)의 위치 정보에 기반하여 사용자 단말(110)의 이동 속도 및 사용자 단말(110)과 서빙 RRH(122) 간 거리를 결정하는 단계이다.

S1505 단계는, 사용자 단말(110)의 이동 속도 및 사용자 단말(110)과 서빙 RRH(122) 간 거리에 기반하여 사용자 단말(110)의 핸드오버의 트리거 여부를 결정하는 단계이다.

일 실시예에서, 사용자 단말(110)의 이동 속도 및 사용자 단말(110)과 서빙 RRH(122) 간 거리를 퍼지 논리 함수(fuzzy logic function)에 적용하여, 사용자 단말(110)로부터 수신되는 신호에 대한 수신 신호 세기가 임계값보다 작아진 후 사용자 단말(110)과 서빙 RRH(122) 간 연결 유지 시간을 나타내는 TTT(time-to-trigger) 값을 조절하고, 상기 조절된 TTT 값에 기반하여 사용자 단말(110)의 핸드오버의 트리거 여부를 결정할 수 있다.

S1507 단계는, 핸드오버의 트리거 여부에 기반하여, 사용자 단말(110)의 서빙 RRH(122)로부터 타겟 RRH(124)로의 핸드오버를 수행하는 단계이다.

일 실시예에서, 사용자 단말(110)과 서빙 RRH(122) 간 거리와 서빙 RRH의 커버리지에 기반하여 사용자 단말(110)과 서빙 RRH의 근접도(proximity)를 산출할 수 있다.

또한, 사용자 단말(110)과 서빙 RRH(122) 간 거리의 변화량과 사용자 단말(110)의 이동 속도에 기반하여 서빙 RRH에 대한 사용자 단말(110)의 방향 변위를 산출할 수 있다.

또한, 사용자 단말(110)과 서빙 RRH(122)의 근접도와 사용자 단말(110)의 방향 변위를 강화 학습(reinforce learning) 모델에 적용하여 다수의 후보 RRH 중 타겟 RRH(124)를 결정하고, 결정된 타겟 RRH(124)로의 핸드오버를 수행할 수 있다.

일 실시예에서, 사용자 단말(110)의 예상 위치와 사용자 단말(110)과 서빙 RRH(122)의 근접도 및 사용자 단말(110)의 방향 변위에 기반하여 강화 학습 모델의 가상 보상(virtual reward)을 생성할 수 있다.

또한, 강화 학습 모델의 가상 보상과 실제 보상(actual reward)을 매핑하여 가상 학습 모델을 수렴시킬 수 있다.

또한, 수렴된 강화 학습 모델에 기반하여 다수의 후보 RRH 중 타겟 RRH(124)를 결정하고, 결정된 타겟 RRH(124)로의 핸드오버를 수행할 수 있다.

도 16은 본 발명의 일 실시예에 따른 밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 장치(1600)의 기능적 구성을 도시한 도면이다. 일 실시예에서, 도 16의 사용자 접속 장치(1600)는 도 4의 각 단계는 BBU 컨트롤러(130)를 포함할 수 있다.

도 16을 참고하면, 사용자 접속 장치(1600)는 통신부(1610), 제어부(1620) 및 저장부(1630)를 포함할 수 있다.

통신부(1610)는 사용자 단말(110)의 위치 정보를 수신할 수 있다. 일 실시예에서, 상기 위치 정보는 사용자 단말(110) 또는 서빙 RRH(122)로부터 수신될 수 있다.

일 실시예에서, 통신부(1610)는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(1610)의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.

제어부(1620)는 사용자 단말(110)의 위치 정보에 기반하여 사용자 단말(110)의 이동 속도 및 사용자 단말(110)과 서빙 RRH(remote radio head) 간 거리를 결정하고, 사용자 단말(110)의 이동 속도 및 사용자 단말(110)과 서빙 RRH(122) 간 거리에 기반하여 사용자 단말(110)의 핸드오버의 트리거 여부를 결정하며, 핸드오버의 트리거 여부에 기반하여, 사용자 단말(110)의 서빙 RRH(122)로부터 타겟 RRH(124)로의 핸드오버를 수행할 수 있다.

일 실시예에서, 제어부(1620)는 사용자 단말(110)과 서빙 RRH(122) 간 거리와 서빙 RRH(122)의 커버리지에 기반하여 사용자 단말(110)과 서빙 RRH(122)의 근접도를 산출하고, 사용자 단말(110)과 서빙 RRH(122) 간 거리의 변화량과 사용자 단말(110)의 이동 속도에 기반하여 서빙 RRH(122)에 대한 사용자 단말(110)의 방향 변위를 산출할 수 있다.

또한, 제어부(1620)는 사용자 단말(110)과 서빙 RRH(122)의 근접도와 사용자 단말(110)의 방향 변위를 강화 학습 모델에 적용하여 다수의 후보 RRH 중 타겟 RRH(124)를 결정하고, 결정된 타겟 RRH(124)로의 핸드오버를 수행할 수 있다.

일 실시예에서, 제어부(1620)는 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(1620)는 CP(communication processor)라 지칭될 수 있다. 제어부(1620)는 본 발명의 다양한 실시예에 따른 사용자 접속 장치(1600)의 동작을 제어할 수 있다.

저장부(1630)는 퍼지 논리 함수 및 강화 학습 모델을 저장할 수 있다.

일 실시예에서, 저장부(1630)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 저장부(1630)는 제어부(1620)의 요청에 따라 저장된 데이터를 제공할 수 있다.

도 16을 참고하면, 사용자 접속 장치(1600)는 통신부(1610), 제어부(1620) 및 저장부(1630)를 포함할 수 있다. 본 발명의 다양한 실시 예들에서 장치(1600)는 도 16에 설명된 구성들이 필수적인 것은 아니어서, 도 16에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.

이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.

본 명세서에 개시된 다양한 실시예들은 순서에 관계없이 수행될 수 있으며, 동시에 또는 별도로 수행될 수 있다.

일 실시예에서, 본 명세서에서 설명되는 각 도면에서 적어도 하나의 단계가 생략되거나 추가될 수 있고, 역순으로 수행될 수도 있으며, 동시에 수행될 수도 있다.

본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.

본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.

100: 사용자 접속 시스템
110: 사용자 단말
122: 서빙 RRH
124: 타겟 RRH
130: BBU 컨트롤러
140: 코어 네트워크 서버
1600:사용자 접속 장치
1610: 통신부
1620: 제어부
1630: 저장부

Claims

(a) 사용자 단말의 위치 정보를 수신하는 단계;
(b) 상기 사용자 단말의 위치 정보에 기반하여 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH(remote radio head) 간 거리를 결정하는 단계;
(c) 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH 간 거리에 기반하여 상기 사용자 단말의 핸드오버의 트리거 여부를 결정하는 단계; 및
(d) 상기 핸드오버의 트리거 여부에 기반하여, 상기 사용자 단말의 상기 서빙 RRH로부터 타겟 RRH로의 핸드오버를 수행하는 단계;
를 포함하는,
밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법.
제1항에 있어서,
상기 (c) 단계는,
상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH 간 거리를 퍼지 논리 함수(fuzzy logic function)에 적용하여, 상기 사용자 단말로부터 수신되는 신호에 대한 수신 신호 세기가 임계값보다 작아진 후 상기 사용자 단말과 서빙 RRH 간 연결 유지 시간을 나타내는 TTT(time-to-trigger) 값을 조절하는 단계;
상기 조절된 TTT 값에 기반하여 상기 사용자 단말의 핸드오버의 트리거 여부를 결정하는 단계;
를 포함하는,
밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법.
제1항에 있어서,
상기 (d) 단계는,
상기 사용자 단말과 서빙 RRH 간 거리와 상기 서빙 RRH의 커버리지에 기반하여 상기 사용자 단말과 서빙 RRH의 근접도(proximity)를 산출하고, 상기 사용자 단말과 서빙 RRH 간 거리의 변화량과 상기 사용자 단말의 이동 속도에 기반하여 상기 서빙 RRH에 대한 상기 사용자 단말의 방향 변위를 산출하는 단계;
상기 사용자 단말과 서빙 RRH의 근접도와 상기 사용자 단말의 방향 변위를 강화 학습(reinforce learning) 모델에 적용하여 다수의 후보 RRH 중 상기 타겟 RRH를 결정하는 단계; 및
상기 결정된 타겟 RRH로의 핸드오버를 수행하는 단계;
를 포함하는,
밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법.
제3항에 있어서,
상기 (d) 단계는,
상기 사용자 단말의 예상 위치와 상기 사용자 단말과 서빙 RRH의 근접도 및 상기 사용자 단말의 방향 변위에 기반하여 상기 강화 학습 모델의 가상 보상(virtual reward)을 생성하는 단계;
상기 강화 학습 모델의 가상 보상과 실제 보상(actual reward)을 매핑하여 상기 가상 학습 모델을 수렴시키는 단계;
상기 수렴된 강화 학습 모델에 기반하여 상기 다수의 후보 RRH 중 상기 타겟 RRH를 결정하는 단계; 및
상기 결정된 타겟 RRH로의 핸드오버를 수행하는 단계;
를 포함하는,
밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 방법.
사용자 단말의 위치 정보를 수신하는 통신부; 및
상기 사용자 단말의 위치 정보에 기반하여 상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH(remote radio head) 간 거리를 결정하고,
상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH 간 거리에 기반하여 상기 사용자 단말의 핸드오버의 트리거 여부를 결정하고,
상기 핸드오버의 트리거 여부에 기반하여, 상기 사용자 단말의 상기 서빙 RRH로부터 타겟 RRH로의 핸드오버를 수행하는 제어부;
를 포함하는,
밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 장치.
제5항에 있어서,
상기 제어부는,
상기 사용자 단말의 이동 속도 및 상기 사용자 단말과 서빙 RRH 간 거리를 퍼지 논리 함수(fuzzy logic function)에 적용하여, 상기 사용자 단말로부터 수신되는 신호에 대한 수신 신호 세기가 임계값보다 작아진 후 상기 사용자 단말과 서빙 RRH 간 연결 유지 시간을 나타내는 TTT(time-to-trigger) 값을 조절하고,
상기 조절된 TTT 값에 기반하여 상기 사용자 단말의 핸드오버의 트리거 여부를 결정하는,
밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 장치.
제5항에 있어서,
상기 제어부는,
상기 사용자 단말과 서빙 RRH 간 거리와 상기 서빙 RRH의 커버리지에 기반하여 상기 사용자 단말과 서빙 RRH의 근접도(proximity)를 산출하고, 상기 사용자 단말과 서빙 RRH 간 거리의 변화량과 상기 사용자 단말의 이동 속도에 기반하여 상기 서빙 RRH에 대한 상기 사용자 단말의 방향 변위를 산출하고,
상기 사용자 단말과 서빙 RRH의 근접도와 상기 사용자 단말의 방향 변위를 강화 학습(reinforce learning) 모델에 적용하여 다수의 후보 RRH 중 상기 타겟 RRH를 결정하고,
상기 결정된 타겟 RRH로의 핸드오버를 수행하는,
밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 장치.
제7항에 있어서,
상기 제어부는,
상기 사용자 단말의 예상 위치와 상기 사용자 단말의 서빙 RRH의 근접도 및 상기 사용자 단말의 방향 변위에 기반하여 상기 강화 학습 모델의 가상 보상을 생성하고,
상기 강화 학습 모델의 가상 보상과 실제 보상을 매핑하여, 상기 가상 학습 모델을 수렴시키고,
상기 수렴된 강화 학습 모델에 기반하여 상기 다수의 후보 RRH 중 상기 타겟 RRH를 결정하고,
상기 결정된 타겟 RRH로의 핸드오버를 수행하는,
밀집 클라우드 무선 네트워크에서 퍼지 논리 및 강화 학습 기반 사용자 접속 장치.