KR20220018582A

KR20220018582A - 네트워크 최적화 방법, 장치 및 저장 매체

Info

Publication number: KR20220018582A
Application number: KR1020227000603A
Authority: KR
Inventors: 친정 씨에
Original assignee: 지티이 코포레이션
Priority date: 2019-07-02
Filing date: 2020-06-22
Publication date: 2022-02-15
Also published as: WO2021000757A1; JP7367080B2; EP3979685A1; CN112188505A; EP3979685B1; US20220264330A1; CN112188505B; JP2022539789A; EP3979685A4; KR102566310B1

Abstract

본 발명은 네트워크 최적화 방법, 장치 및 저장 매체를 개시한다. 상기 방법은 제1영역의 셀(cell)에 존재하는 문제를 모델링하여 N개의 에이전트(agent), 모델링 방법 및 훈련 방법을 얻는 단계; -여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고, 포함된 셀의 지리적 위치가 연속적이고, 제1영역의 윤곽이 외부로 돌출되는 모양이며, N이 1보다 크거나 같은 정수임-; 및 각 에이전트에 대하여 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키거나, 또는 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하거나, 또는 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법을 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키고, 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는 단계;를 포함한다.

Description

네트워크 최적화 방법, 장치 및 저장 매체

본 출원은 2019년 07월 02일자로 출원된 중국특허 출원번호 제201910591464.7호에 대한 우선권을 주장하며, 그 모든 내용은 참조로 본 출원에 편입된다.

본 개시의 실시예는 이동 통신 분야에 관한 것으로, 특히 네트워크 최적화 방법, 장치 및 저장 매체에 관한 것이다. 하지만 이에 한정되지 않는다.

현재, LTE(Long Term Evolution) 중 SON(Self-Organizing Network)에 실제 적용되는 자기 최적화 방법의 대부분은 인위적으로 설정된 전문가 규칙에 기초하고 있다. 네트워크 중 셀의 성능지표가 특정 조건에 부합될 경우, 자동으로 특정 조정 동작을 수행하고 셀의 파라미터를 수정하여 네트워크 자기 최적화의 목적을 달성한다.

기존 무선 네트워크의 자기 최적화 알고리즘은 전통 네트워크 자기 최적화 알고리즘 및 AI 기반 네트워크 자기 최적화 알고리즘의 두 가지로 나눌 수 있다.

여기서, 전통 네트워크 자기 최적화 알고리즘은 주로 인위적으로 규정한 규칙 테이블에 따라 네트워크 자기 최적화를 진행하는 바, 즉 자기 최적화가 가동될 경우, 다양한 네트워크 상태를 검색하고 전문가가 제정한 규칙 테이블에 따라 어떠한 조정을 실행해야 할지 결정한다. 이러한 자기 최적화 방법은 동일한 규칙을 자기 최적화에 참여한 모든 설비에 적용하게 되는데, 사실상 각 기지국마다 처한 환경, 성능 등 조건이 많이 다르므로 설비마다 자기 최적화 효과가 일정하지 않다. 예를 들어, 특허번호 제CN106714239A호에 개시된 부하 균형 알고리즘(Load Balancing Algorithm)은, 일정한 한계, 규칙(rule) 및 임계치를 이용하여 성능 및 환경이 다른 셀에 대하여 맞춤형 조정을 진행할 수 없으므로 처한 환경이 특이하거나 또는 설비 성능이 부족한 셀 또는 기지국에 대한 자기 최적화 조정 효과가 바람직하지 못하다.

AI기반 네트워크 자기 최적화 알고리즘은 AI알고리즘을 네트워크 자기 최적화 분야에 도입하였으나 현재 대부분은 실험실 환경에 제한되어 있고, 기존 네트워크 로딩 환경을 효과적으로 모델링할 수 없거나 기존 네트워크의 방대한 설비 수량에 의한 멀티 에이전트의 수렴 문제를 해결할 수 없고 단일 에이전트 모델을 사용할 수 밖에 없다. 이로 인해 모든 설비가 하나의 에이전트를 공동으로 사용하게 되므로 맞춤형 조정을 구현할 수 없다. 예를 들어, "Fuzzy Rule-Based Reinforcement Learning for Load Balancing Techniques in Enterprise LTE Femtocells"인 논문에 개시된 심화 학습을 이용하여 부하 균형을 처리하는 자기 최적화 방법인 경우, 시뮬레이션 환경인 3층 건물 중의 6개 마이크로 셀에서 알고리즘 수렴을 구현하였으며, CDR(Call Dropping Ratio)가 낮아지는 효과를 달성했다. 그러나 이는 간섭이 완전히 배제되고, 설비 성능이 완전히 동일한 실험실 시나리오에서만 가능하다. 또한, 상기 논문은 단일 에이전트의 모델만 사용하고 자기 최적화에 참여한 모든 설비가 단일 에이전트 모델을 공동으로 사용하므로 맞춤형 훈련 및 조정을 진행할 수 없다.

본 개시의 실시예는 설비 별로 맞춤형 훈련 및/또는 자기 최적화 조정을 진행하여 자기 최적화 효과를 향상시킬 수 있는 네트워크 최적화 방법 및 장치를 제공한다.

본 개시의 실시예는 네트워크 최적화 방법을 제공한다. 상기 방법은,

제1영역의 셀(cell)에 존재하는 문제를 모델링하여 N개의 에이전트(agent), 모델링 방법 및 훈련 방법을 얻는 단계; -여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고, 포함된 셀의 지리적 위치가 연속적이고, 제1영역의 윤곽이 외부로 돌출되는 모양이고, N이 1보다 크거나 같은 정수임-; 및

각 에이전트에 대하여 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키거나, 또는 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하거나, 또는 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법을 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키고, 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는 단계;를 포함한다.

본 개시의 실시예는 프로세서, 및 상기 프로세서에 의해 실행될 때 상기 임의의 네트워크 최적화 방법을 구현하는 명령어가 저장된 컴퓨터 판독 가능한 저장 매체;를 포함하는 네트워크 최적화 장치를 제공한다.

본 개시의 실시예는 프로세서에 의해 실행될 때 상기 임의의 네트워크 최적화 방법의 단계를 구현하는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체를 제공한다.

본 개시의 실시예는 네트워크 최적화 장치를 제공한다. 상기 장치는,

제1영역의 셀에 존재하는 문제를 모델링하여 N개의 에이전트, 모델링 방법 및 훈련 방법을 얻는 모델링 모듈; -여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고 포함된 셀의 지리적 위치가 연속적이고 제1영역의 윤곽이 외부로 돌출되는 모양이며 N이 1보다 크거나 같은 정수임-; 및

각 에이전트에 대하여 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키거나, 또는 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하거나, 또는 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법을 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키고, 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는 훈련 최적화 모듈을 포함한다.

본 개시의 실시예의 기타 특징과 장점은 후속 명세서에서 설명될 것이고, 부분적으로 명세서에서 자명하게 되거나 본 개시의 실시예를 실시하는 것을 통해 이해하게 될 것이다. 본 개시의 실시예의 목적과 기타 장점은 명세서, 특허청구범위, 및 도면에 특별히 도시된 구조에 의해 구현 및 획득할 수 있다.

도면은 본 발명의 실시예에 따른 기술방안의 이해를 돕기 위한 것으로서, 명세서의 일부를 구성하며, 본 발명의 실시예와 함께 본 발명의 실시예에 따른 기술방안을 해석하기 위한 것일 뿐, 본 발명의 실시예의 기술방안에 대해 한정하지 않는다.
도 1은 본 개시의 일 실시예에 따른 네트워크 최적화 방법의 플로우 차트이다.
도 2(a)는 본 개시의 실시예의 제1영역의 셀을 에이전트로 하는 개략도이다.
도 2(b)는 본 개시의 실시예의 제1영역의 셀 페어를 에이전트로 하는 개략도이다.
도 3은 본 개시의 실시예의 상호 인접한 에이전트를 나타내는 개략도이다.
도 4는 본 개시의 실시예의 보상 분배를 나타내는 개략도이다.
도 5(a)는 본 개시의 실시예의 문제 셀에 존재한 문제가 같은 유형에 속한 셀을 동일한 제2영역으로 분류하는 개략도이다.
도 5(b)는 본 개시의 실시예에서 도 2(a)의 제2영역에 의해 결정된 제1영역의 개략도이다.
도 6은 본 개시의 다른 일 실시예에 따른 네트워크 최적화 방법의 플로우 차트이다.
도 7은 본 개시의 다른 일 실시예에 따른 네트워크 최적화 방법의 플로우 차트이다.
도 8은 본 개시의 실시예에서 심층 Q학습(DQN, Deep Q-Learning) 알고리즘을 이용하여 모델을 훈련하는 플로우를 나타내는 개략도이다.
도 9은 본 개시의 실시예에 따른 네트워크 최적화 장치의 배치 구조를 나타내는 개략도이다.
도 10은 본 개시의 다른 일 실시예에 따른 네트워크 최적화 장치의 구성을 나타내는 개략도이다.
도 11은 본 개시의 실시예에 따른 네트워크 최적화 장치의 일 예시적 실례의 구성을 나타내는 개략도이다.
도 12는 본 개시의 실시예의 멀티 에이전트 심화 학습 시나리오의 1회 반복을 나타내는 개략도이다.
도 13은 본 개시의 실시예의 멀티 에이전트 환경에서 각 에이전트의 1회 반복을 나타내는 개략도이다.
도 14는 본 개시의 실시예에서 DQN을 이용하여 구현된 심화 학습 모듈의 서브 모듈 구성을 나타내는 개략도이다.
도 15는 본 개시의 다른 일 실시예에 따른 네트워크 최적화 장치의 구성을 나타내는 개략도이다.

이하 도면을 결합하여 본 개시의 실시예에 대해 구체적으로 설명하도록 한다. 충돌되지 않는 전제하에 본 개시의 실시예 및 실시예의 특징들은 임의로 조합될 수 있음을 유의해야 한다.

도면의 플로우 차트에 예시된 단계들은 예를 들어, 컴퓨터 시스템에서 컴퓨터-실행가능 명령어들의 세트에 의해 실행될 수 있다. 플로우 차트에 논리적 순서를 예시하였지만, 예시되거나 설명된 단계들은 일부 경우에 예시되거나 설명된 것과 상이한 순서로 실행될 수 있다.

도 1을 참조하면, 본 개시의 일 실시예는 단계100과 단계101을 포함하는 네트워크 최적화 방법을 제공한다.

단계100: 제1영역의 셀에 존재하는 문제를 모델링하여 N개의 에이전트, 모델링 방법 및 훈련 방법을 얻되, 여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고, 포함된 셀의 지리적 위치가 연속적이고, 제1영역의 윤곽이 외부로 돌출되는 모양이며, N이 1보다 크거나 같은 정수이다.

본 개시의 실시예에서, 전체 네트워크의 셀을 모델링하지 않고 제1영역의 셀만 모델링하는 이유는, 전체 네트워크의 셀의 수량이 아주 방대하므로 모든 셀에 대하여 모델훈련 및/또는 네트워크 최적화를 모두 수행하면 계산 오버헤드가 아주 커지는데, 이렇게 할 필요도 없기 때문이다.

일 예시적 실례에서, 이하 방식을 이용하여 모델링할 수 있다.

문제 유형, 모델링 방법 및 훈련 방법 사이의 대응관계를 미리 설정하고;

대응관계에서 제1영역에 포함된 셀에 존재하는 문제가 속한 문제 유형에 대응하는 모델링 방법 및 훈련 방법을 검색하고, 검색된 모델링 방법 및 훈련 방법은 모델링하고 모델에 대하여 심화 학습 훈련을 수행하되, 여기서, 상기 모델링 방법은 상기 에이전트의 생성 방법, 상기 에이전트의 상태 정의 방법, 상기 에이전트의 동작 정의 방법, 상기 에이전트의 보상 함수의 정의 방법 및 상기 에이전트의 동작 선택 초기 정책의 정의 방법을 포함하고, 상기 훈련 방법은 심화 학습 방법을 이용하여 동작 선택 초기 정책을 조정하는 방법을 포함하며,

상기 에이전트의 생성 방법에 따라 N개의 상기 에이전트를 생성하는 방식이다.

본 개시의 실시예에서, 에이전트의 생성 방법에 따라 N개의 상기 에이전트를 생성하는 단계는,

상기 제1영역의 셀에 존재하는 문제가 복수의 셀 사이의 협동 작업(예컨대, 커버리지 문제)과 관련이 없는 경우, 상기 제1영역 중 하나의 상기 셀을 하나의 상기 에이전트로 하고, 상기 셀들을 각각 다른 상기 에이전트와 대응시키는 것;

상기 제1영역의 셀에 존재하는 문제가 복수의 셀 사이의 협동 작업과 관련(예컨대, 용량 문제, 부하 균형 문제)이 있는 경우, 상기 제1영역 중 인접 관계가 있는 하나의 셀 페어(pair)를 하나의 상기 에이전트로 하고, 인접 관계가 있는 셀 페어(pair)들을 각각 다른 상기 에이전트와 대응시키는 것; 중 어느 하나 또는 하나 이상을 포함한다.

즉, N은 제1영역에 포함된 셀의 수량이고, N개의 에이전트는 제1영역에 포함된 N개의 셀이며, 도 2(a)에 도시된 바와 같이, 제1영역에 셀1， 셀2， 셀3， 셀4， 셀5， 셀6을 포함한다고 가정하면, 각 셀은 하나의 독립된 에이전트로서 에이전트들 사이에 중첩이 존재하지 않는다.

일 예시적 실례에서, 제1영역의 셀의 지리적 위치정보, 셀 사이의 핸드오버 빈도 및 셀의 구성 파라미터에 따라 두 셀 사이에 인접 관계가 있는지 여부를 결정한다. 예를 들어, 하나의 셀의 구성 파라미터 중의 주요 인근 영역에 다른 하나의 셀을 포함하고 두 셀의 지리적 위치가 상호 인접되고 두 셀 사이의 핸드오버 빈도가 최고인 경우, 두 셀 사이에 인접관계가 존재한다고 판단하고; 두 셀의 지리적 위치가 인접되지 않거나 두 셀 사이의 핸드오버 빈도가 최고가 아닌 경우, 두 셀 사이에 인접관계가 존재하지 않는다고 판단한다.

예를 들어, 도 2(b)에 도시된 바와 같이, 제1영역에 셀1, 셀2, 셀3, 셀4, 셀5 및 셀6이 포함되고 셀 사이의 지리적 위치관계가 도 2(b)에 도시된 바와 같다고 가정하면, 셀 페어1-3, 셀 페어1-2, 셀 페어1-5 등을 각각 에이전트로 할 수 있고 다른 에이전트들 사이에는 부분적 중첩이 존재할 있다.

셀의 지리적 위치정보, 셀의 이전 핸드오버 빈도 및 셀의 구성 파라미터는 모두 네트워크 관리 시스템(Network Management System, NMS)으로부터 획득할 수 있으며, 기지국으로부터 직접 획득할 수도 있다.

단계101: 각 에이전트에 대하여, 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시킨다.

본 개시의 실시예에서, 에이전트의 성능 데이터는 에이전트에 대응하는 셀의 성능 데이터를 의미한다. 셀의 성능 데이터는 네트워크 관리 시스템으로부터 획득할 수 있으며, 기지국으로부터 직접 획득할 수도 있다. 본 개시의 실시예는 셀의 성능 데이터의 구체적인 획득 방식에 대하여 한정하지 않는다.

본 개시의 실시예에서, 상기 에이전트의 동작 선택 초기 정책의 정의 방법에 따라 상기 에이전트의 동작 선택 초기 정책을 결정하고, 상기 에이전트의 동작 선택 초기 정책을 상기 에이전트의 초기 모델로 한다.

본 개시의 실시예에서, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키는 단계는 다음 단계를 포함한다.

제i번째 반복에서 수렴조건을 만족하지 않은 경우,

제1확률에서 랜덤 동작을 선택하고 전송하여 랜덤 동작이 에이전트에 대응하는 셀에서 유효하도록 하고; 심화 학습 방법에서 수행한 적이 없는 동작을 탐색하여 심화 학습 방법을 최적화함으로써 훈련 정확도를 높인다. 여기서, 상기 랜덤 동작은 새로운 최적 해답을 탐색하는데 사용된다.

제2확률에서 상기 에이전트의 제i번째 반복에 대응하는 성능 데이터 및 상기 에이전트의 상태 정의 방법에 따라 상기 에이전트의 제i번째 반복에 대응하는 상태를 결정하고, 상기 에이전트의 제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 상기 훈련 방법에 따라 상기 에이전트의 제i-1번째 반복에서 조정된 정책을 조정하고, 상기 에이전트의 제i번째 반복에 대응하는 상태, 상기 에이전트의 제1데이터 및 상기 에이전트의 동작 정의 방법에 따라 에이전트의 제i번째 반복에 대응하는 최적화 동작을 계산하고 전송하여 에이전트의 제i번째 반복에 대응하는 최적화 동작이 에이전트에 대응하는 셀에서 유효하도록 하고;

여기서, 제1확률 및 제2확률의 합은 1이고, i는 1보다 크거나 같은 정수 이며;

여기서, 상기 에이전트의 제1 데이터는,

상기 에이전트의 제i번째 반복에서 조정된 정책; 또는

상기 에이전트의 제i번째 반복에서 조정된 정책 및 인접한 에이전트의 평균 동작을 포함한다.

유의해야 할 것은, 제1번째 반복에서 에이전트의 제1번째 반복에 대응하는 상태 및 훈련 방법에 따라 에이전트의 초기 정책을 조정한다.

일 예시적 실례에서, 제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 훈련 방법에 따라 에이전트의 정책을 조정하는 단계는,

제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 상기 에이전트의 보상 함수 값의 정의 방법에 따라 제i-1번째 반복에 대응하는 보상 함수 값을 계산하고, 제i-1번째 반복에 대응하는 보상 함수 값에 따라 상기 에이전트의 제i-1번째 반복에서 조정된 정책을 조정하는 단계를 포함한다.

일 예시적 실례에서, 셀을 에이전트로 하는 경우, 예를 들어, 커버리지 문제인 경우, 에이전트의 제i-1번째 반복에 대응하는 보상 함수 값은 에이전트의 제i-1번째 반복에 대응하는 커버리지 상황에 따라 계산될 수 있으며; 커버리지 상황이 좋을수록 보상 함수 값이 높으며; 기타 문제인 경우, 보상 함수 값의 계산 방법은 문제 유형에 따라 다르다.

셀을 에이전트로 하는 경우, 에이전트 중 셀의 상태변화는 모두 에이전트의 동작에 의해 발생된 것이 아니며, 상호 인접한 에이전트의 동작의 영향을 받을 수도 있다. 따라서, 상호 인접한 에이전트의 수량, 상호 인접한 에이전트의 평균 동작 폭 및 에이전트 자체의 동작 폭에 따라 보상 함수 값을 계산할 수 있다. 즉, 제i-1번째 반복에 대응하는 보상 함수 값은 에이전트에 대응하는 모든 셀의 상태변화에 따라 에이전트의 제i-1번째 반복에 대응하는 동작에 의해 발생된 비율에 의해 계산될 수 있다.

예를 들어, 부하 균형 자기 최적화를 수행할 때, 동작은 셀 사이의 핸드오버 파라미터를 조정하는 것이며, 셀 페어(a pair of cells)를 에이전트로 하되, 1회 반복에서 셀 페어(1-2) 및 인접한 에이전트의 동작 방향 및 폭은 도 4에 도시된 바와 같다. 도 4에서, 화살표는 핸드오버 방향을 표시하고, 화살표 위의 문자는 핸드오버 파라미터의 조정 폭을 표시하며, 셀1의 사용자가 기타 셀로 보내지고, 셀2는 인접 영으로부터 보내진 사용자를 수용할 경우, 셀1의 상태변화 중 셀 페어(1-2)의 동작에 의해 발생되는 비율은 R1-2/1이고, 계산방식은 다음과 같다.

즉, 셀1의 상태변화 중 0.25의 비율은 셀 페어1-2의 동작에 의해 발생된 것이다. 같은 원리로 셀2의 상태변화 중 셀 페어1-2의 동작에 의해 발생된 비율을 계산하므로 셀1의 상태변화 중 셀 페어1-2의 동작에 의해 발생된 비율 및 셀2의 상태변화 중 셀 페어1-2의 동작에 의해 발생된 비율의 합인 셀 페어1-2의 동작에 의해 발생된 보상 함수 값을 계산할 수 있다.

일 예시적 실례에서, 셀을 에이전트로 하는 경우에 있어서, 상호 인접한 에이전트는 대응하는 셀이 지리적 위치 상에서 인접한 에이전트를 의미한다. 도 3에 도시된 바와 같이, 제1영역에 셀1, 셀2, 셀3, 셀4, 셀5, 셀6, 셀7 및 셀8의 8개 셀이 포함된다고 가정하면, 셀2의 지리적 위치와 인접한 셀은 셀1, 셀4 및 셀6을 포함하므로 셀2에 대응하는 에이전트와 인접한 에이전트는 셀1, 셀4 및 셀6에 대응하는 에이전트를 포함하고; 셀2에 대응하는 에이전트와 인접한 에이전트의 평균 동작을 계산할 때, 셀1, 셀4 및 셀6에 대응하는 에이전트의 평균 동작을 계산해야 하고;

셀 페어를 에이전트로 하는 경우에 있어서, 인접하는 에이전트는 대응하는 셀 페어에 포함된 셀의 교집합이 공집합이 아닌 에이전트를 의미하고; 도 3에 도시된 바와 같이, 제1영역에 셀1, 셀2, 셀3, 셀4, 셀5, 셀6, 셀7 및 셀8의 8개 셀이 포함된다고 가정하면, 셀 페어1-2에 있어서, 셀 페어1-2가 셀 페어1-3, 셀 페어1-8, 셀 페어2-4 및 셀 페어2-6 각각에 포함된 셀과의 교집합이 공집합이 아니므로 셀 페어1-2에 대응하는 에이전트와 인접한 에이전트는 셀 페어1-3, 셀 페어1-8, 셀 페어2-4 및 셀 페어2-6에 대응하는 에이전트를 포함하고; 셀 페어1-2에 대응하는 에이전트와 인접한 에이전트의 평균 동작을 계산할 때, 셀 페어1-3, 셀 페어1-8, 셀 페어2-4 및 셀 페어2-6에 대응하는 에이전트의 평균 동작, 즉 a13, a18, a24, a26의 평균값을 계산해야 한다.

일 예시적 실례에서, 상호 인접한 에이전트의 평균 동작은 평균장 이론에 의해 계산될 수 있다. 구체적으로, 상호 인접한 에이전트의 평균 동작은, 상호 인접한 에이전트의 제i번째 반복에 대응하는 상태 및 인접한 에이전트의 제i번째 반복에서 조정된 정책에 의해 계산된 상호 인접한 에이전트의 제i번째 반복에 대응하는 초기 동작의 평균값을 의미할 수 있거나, 또는

상호 인접한 에이전트의 제i번째 반복에 대응하는 최적화 동작의 평균값을 의미할 수 있다.

어떤 경우 특정 에이전트의 최적화 동작을 계산할 때,

인접한 에이전트의 최적화 동작이 아직 계산되지 않은 경우, 인접한 에이전트의 평균 동작에 의해 계산하지 않고, 인접한 에이전트의 제i번째 반복에 대응하는 상태 및 인접한 에이전트의 제i번째 반복에서 조정된 정책에 의해 계산하거나; 또는 인접한 에이전트의 제i번째 반복에 대응하는 상태, 인접한 에이전트의 제i번째 반복에서 조정된 정책 및 인접한 에이전트의 제i번째 반복에 대응하는 초기 동작의 평균값에 의해 계산하며;

일부 인접한 에이전트의 최적화 동작만 계산된 경우, 인접한 에이전트의 제i번째 반복에 대응하는 상태, 인접한 에이전트의 제i번째 반복에서 조정된 정책 및 계산된 일부 인접한 에이전트의 평균 동작에 의해 계산하거나; 또는 인접한 에이전트의 제i번째 반복에 대응하는 상태, 상호 인접한 에이전트의 제i번째 반복에서 조정된 정책, 계산된 일부 인접한 에이전트의 평균 동작 및 나머지 일부 인접한 에이전트의 제i번째 반복에 대응하는 초기 동작의 평균값에 의해 계산하고;

모든 인접한 에이전트의 최적화 동작이 계산된 경우, 인접한 에이전트의 제i번째 반복에 대응하는 상태, 인접한 에이전트의 제i번째 반복에서 조정된 정책 및 모든 인접한 에이전트의 평균 동작에 의해 계산한다.

본 개시의 실시예에서, 무선 네트워크에서 각 셀, 각 셀 페어, 각 기지국 사이에 서로 미치는 영향이 큰 바, 즉, 각 에이전트의 동작들 사이에 서로 미치는 영향이 크므로 일반적인 모델훈련은 무선 네트워크 환경에서 수렴되기 어렵다. 본 개시의 실시예는 평균장 이론에 의해 인접한 에이전트의 동작을 평균 동작으로 간소화하여 계산에 포함시키므로 모델훈련의 수렴성을 강화하고 수렴 속도를 가속화시켰다.

일 예시적 실례에서, 에이전트의 제i번째 반복에 대응하는 최적화 동작 또는 랜덤 동작의 전송은,

에이전트의 제i번째 반복에 대응하는 최적화 동작 또는 랜덤 동작을 네트워크 관리 시스템으로 전송하면 네트워크 관리 시스템은 에이전트의 제i번째 반복에 대응하는 최적화 동작 또는 랜덤 동작에 의해 에이전트에 대응하는 셀의 구성 파라미터를 수정하여 유효화시키거나;

또는, 에이전트의 제i번째 반복에 대응하는 최적화 동작 또는 랜덤 동작에 의해 조정이 필요한 에이전트에 대응하는 셀의 구성 파라미터 및 조정 값을 결정하여 네트워크 관리 시스템으로 전송하면 네트워크 관리 시스템은 조정이 필요한 에이전트에 대응하는 셀의 구성 파라미터 및 조정 값에 의해 에이전트에 대응하는 셀의 구성 파라미터를 수정하여 유효화시키는 방식을 통해 구현될 수 있으며;

기타 방식을 통해 구현할 수도 있다.

본 개시의 다른 일 실시예에서, 제1번째 반복 전에 상기 방법은 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장하는 단계를 더 포함하고; 상기 방법은,

상기 제i번째 반복에서, 상기 에이전트에 대응하는 셀의 제i번째 반복에 대응하는 성능 데이터가 제i-1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화되지 않은 경우, 상기 제1확률에서 랜덤 동작을 선택하여 상기 에이전트의 제i번째 반복에 대응하는 최적화 동작으로 하거나, 또는 제2확률에서 에이전트의 제i번째 반복에 대응하는 성능 데이터에 따라 에이전트의 제i번째 반복에 대응하는 상태를 결정하는 단계를 계속하여 수행하는 단계;

상기 에이전트의 제i번째 반복에 대응하는 성능 데이터가 제i-1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화될 경우, 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장된 구성 파라미터로 회복하는 단계;를 더 포함한다.

본 개시의 실시예에서, 모델훈련 과정에서 새로운 동작의 탐색으로 인해 네트워크의 조정이 좋지 않을 수 있다. 네트워크의 성능이 설정된 폭을 초과한 만큼 악화될 때 상기 방법을 통해 네트워크의 최초 상태로 즉시 회복할 수 있다.

본 개시의 다른 일 실시예에서, 에이전트를 생성하기 전에, 상기 방법은 제1영역에 포함된 셀을 결정하거나 제1영역을 결정하는 단계를 더 포함한다.

구체적으로, 네트워크 중의 모든 셀의 히스토리 성능 데이터를 획득하고; 각 상기 셀에 대하여, 상기 셀의 히스토리 성능 데이터에 따라 상기 셀이 정상 셀인지 아니면 문제 셀인지를 결정하는 단계; 문제 셀 중 존재하는 문제가 같은 유형에 속한 셀을 동일한 제2영역으로 분류하고; 각각의 상기 제2영역에 대하여, 상기 제2영역에 포함된 셀의 지리적 위치관계 및 상기 제2영역의 윤곽에 따라 상기 제1영역을 결정한다.

본 개시의 실시예에서, 셀의 히스토리 성능 데이터는 네트워크 관리 시스템으로부터 획득할 수 있으며, 기지국으로부터 집적 획득할 수도 있다. 본 개시의 실시예는 셀의 히스토리 성능 데이터의 구체적인 획득방식에 대하여 한정하지 않는다.

본 개시의 실시예에서, 셀의 히스토리 성능 데이터에 의해 근본 원인 분석법(root cause analysis method; RCA)을 이용하여 셀이 정상 셀인지 아니면 문제 셀인지를 판단한다. 문제 셀인 경우, 문제 셀에 존재하는 문제를 판단하고, 문제 셀에 존재하는 문제가 속한 문제 유형에 따라 문제 셀을 분류하여 각 문제 유형에 대응하는 제2영역을 얻으며, 예를 들어, 용량 문제 셀, 커버리지 문제 셀 등으로 각각 구분한다. 근본 원인 분석법은 기존 네트워크에 이미 존재하는 근본 원인 분석법을 멀티플렉스할 수 있으며 기타 근본 원인 분석법을 이용할 수도 있다. 본 개시의 실시예는 근본 원인 분석법의 구체적 구현에 대하여 한정하지 않는다.

본 개시의 실시예에서, 제2영역에 포함된 셀의 지리적 위치관계 및 상기 제2영역의 윤곽에 의해 상기 제1영역을 판단하는 단계는,

상기 제2영역에 포함된 셀의 지리적 위치가 연속적이고 상기 제2영역의 윤곽이 외부로 돌출되는 모양인 경우, 상기 제2영역을 상기 제1영역로 하는 것과;

상기 제2영역에 포함된 셀의 지리적 위치가 비 연속적이거나 상기 제2영역의 윤곽이 외부로 돌출되는 모양이 아닌 경우, 상기 제1영역에 포함된 셀의 지리적 위치가 연속적이고 상기 제1영역의 윤곽이 외부로 돌출되는 모양이 되도록 상기 제2영역 및 상기 제2영역에 포함된 셀을 제외한 최소 수량의 다른 셀을 상기 제1영역에 가입시키는 것; 중 어느 하나 또는 하나 이상을 포함한다.

제1영역의 윤곽은 외부로 돌출되는 모양이 아닌 경우, 예를 들어, 내부로 오목한 모양인 경우, 자기 최적화 효과를 약화시키고, 자기 최적화된 후 효과에 대한 평가가 객관적이지 못하므로 심화 학습 방법의 훈련 효과가 좋지 않다. 예를 들어, 도 5(a)와 같이 조건에 미달한 영역에 대하여, 부하 균형 자기 최적화를 진행하게 되면, 셀3의 사용자는 셀4로 언 로딩(unloading)될 수 밖에 없으며, 셀5, 셀6도 같은 문제가 존재하게 된다. 조정 효과를 평가할 때, 셀1, 셀2가 최적화 영역에 포함되지 않으므로 평가 범위에 포함되지 않는다. 그러나 셀1, 셀2이 최적화 영역과 긴밀하게 연관되면(최적화 목표 셀로 둘러싸인 경우), 최적화 영역의 조정은 셀1, 셀2의 성능을 희생을 대가로 할 가능성이 있다. 그러나 셀1, 셀2가 최적화 영역에 속하지 않으므로 이러한 영향이 무시되는데 이는 심화 학습 훈련에 영향을 미치게 된다.

일 예시적 실례에서, 제1영역에 가입된 기타 셀은 정상 셀이 될 수 있고, 존재하는 문제의 유형이 제2영역에 포함된 셀에 존재하는 문제의 유형과 다른 셀이 될 수도 있다. 제1영역의 문제 셀에 대해 모델훈련 및/또는 네트워크 최적화를 더 잘 수행하기 위하여 기타 셀을 제1영역에 가입시킨다.

본 개시의 실시예에서, 도 5(a)에 도시된 바와 같이, 셀3,셀4,셀5 및 셀6은 모두 용량 문제가 존재하고, 셀1 및 셀2는 용량 문제가 존재하지 않는다. 그러므로 셀3,셀4,셀5 및 셀6을 같은 제2영역으로 구분한다. 도 5(b)에 도시된 바와 같이, 셀3,셀4,셀5 및 셀6으로 구성된 제2영역의 윤곽이 내부로 오목한 모양이므로 제1영역의 윤곽이 외부로 돌출되는 모양이 되도록 셀1 및 셀2을 제1영역에 병합해야 한다.

본 개시의 실시예는 N개의 에이전트를 생성하여 에이전트 별로 각각 다른 모델훈련 및/또는 네트워크 최적화를 진행하고, 멀티 에이전트를 이용하여 셀 별로(즉, 설비 별로) 모델훈련 및/또는 네트워크 최적화를 구현하여 각 에이전트가 다양한 경우에 자기의 실제 상황에 가장 적합한 자기 최적화 조정을 진행할 수 있어 전반적인 자기 최적화 효과를 향상시켰다.

도 6을 참조하면, 본 개시의 다른 일 실시예는 단계600 및 단601를 포함하는 네트워크 최적화 방법을 제공한다.

단계600: 제1영역의 셀(cell)에 존재하는 문제를 모델링하여 N개의 에이전트(agent), 모델링 방법 및 훈련 방법을 얻는다. -여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고, 포함된 셀의 지리적 위치가 연속적이고, 제1영역의 윤곽이 외부로 돌출되는 모양이고, N이 1보다 크거나 같은 정수이다.

단계600의 구체적 구현 과정은 전술된 실시예의 단계100의 구체적 구현 과정과 같으므로 중복하여 설명하지 않는다.

단계601: 각 에이전트에 대하여, 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행한다.

본 개시의 실시예에서, 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는 단계는,

제j번째 반복에서, 상기 에이전트의 제j번째 반복에 대응하는 성능 데이터 및 상기 에이전트의 상태 정의 방법에 따라 상기 에이전트의 제j번째 반복에 대응하는 상태를 결정하고, 상기 에이전트의 제j번째 반복에 대응하는 상태, 상기 에이전트의 제2데이터 및 상기 에이전트의 동작 정의 방법에 따라 에이전트의 제j번째 반복에 대응하는 최적화 동작을 계산하고 전송하여 에이전트의 제j번째 반복에 대응하는 최적화 동작이 에이전트에 대응하는 셀에서 유효하도록 하는 것을 포함하고; 여기서, j는 1보다 크거나 같은 정수이고;

여기서, 상기 에이전트의 제2데이터는,

상기 에이전트의 훈련된 정책(즉, 훈련된 모델, 다르게 말하면 마지막 번째 반복에서 조정된 정책);

또는 상기 에이전트의 훈련된 정책 및 인접하는 에이전트의 평균 동작을 포함한다.

본 개시의 실시예에서, 인접한 에이전트의 평균 동작의 계산 방법은 전술한 실시예와 같으므로 여기서 중복 설명하지 않는다.

본 개시의 실시예에서, 에이전트의 제j번째 반복에 대응하는 최적화 동작을 계산하는 구체적인 과정은 전술한 실시예와 유사하다. 유일한 차이점은 본 실시예는 각 반복에서 에이전트의 정책을 재차 갱신할 필요가 없이 각 반복에서 동일한 정책, 즉 훈련된 정책을 사용하는 것이다.

본 개시의 실시예에서, 에이전트의 성능 데이터는 에이전트에 대응하는 셀의 성능 데이터를 가리킨다. 셀의 성능 데이터는 네트워크 관리 시스템으로부터 획득할 수 있으며, 기지국으로부터 직접 획득할 수도 있다. 본 개시의 실시예는 셀의 성능 데이터의 구체적인 획득 방식에 대하여 한정하지 않는다.

본 개시의 다른 일 실시예에는, 제1번째 반복 전에, 상기 방법은 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장하는 단계를 더 포함하고; 상기 방법은,

상기 제j번째 반복에서, 상기 에이전트의 제j번째 반복에 대응하는 성능 데이터가 제j－1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화될 경우, 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장된 구성 파라미터로 회복하는 단계;

상기 제j번째 반복에서, 상기 에이전트에 대응하는 셀의 제j번째 반복에 대응하는 성능 데이터가 제j－1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화되지 않은 경우, 상기 에이전트의 제j번째 반복에 대응하는 상태 및 상기 에이전트의 제2데이터에 따라 에이전트의 제j번째 반복에 대응하는 최적화 동작을 계산하는 단계를 계속하여 수행하는 단계;를 더 포함한다.

본 개시의 다른 일 실시예에서, 에이전트를 생성하기 전에, 상기 방법은 제1영역에 포함된 셀을 판단하거나 제1영역을 판단하는 단계를 더 포함한다.

본 개시의 실시예에서, 제1영역을 판단하는 방법은 전술한 실시예와 같으므로 여기서 중복 설명하지 않는다.

도 7을 참조하면, 본 개시의 다른 일 실시예는 단계700 및 단계701를 포함하는 네트워크 최적화 방법을 제공한다.

단계700: 제1영역의 셀(cell)에 존재하는 문제를 모델링하여 N개의 에이전트(agent), 모델링 방법 및 훈련 방법을 얻는다. -여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고, 포함된 셀의 지리적 위치가 연속적이고, 제1영역의 윤곽이 외부로 돌출되는 모양이고, N이 1보다 크거나 같은 정수이다.

단계700의 구체적인 구현 과정은 전술한 실시예의 단계100의 구체적인 구현 과정과 같으므로 여기서 중복 설명하지 않는다.

단계701: 각 에이전트에 대하여, 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키고 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행한다.

본 개시의 실시예에서, 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련하는 구체적인 구현 과정은 전술한 실시예의 단계101의 구체적인 구현 과정과 같으므로 여기서 중복 설명하지 않는다.

에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대하여 네트워크 최적화를 진행하는 과정은 전술한 실시예의 단계601의 구체적인 구현 과정과 같다. 유일한 차이점은 j가 M+1보다 크거나 같은 정수이고, M이 모델훈련의 최대 반복 횟수인 것이다.

본 개시의 실시예에서, 제1영역을 결정하는 방법은 전술한 실시예와 같으므로 여기서 중복 설명하지 않는다.

이하, 두 개의 실례를 들어 본 개시의 실시예에 따른 네트워크 최적화 방법의 구체적인 구현 과정을 설명한다. 예시된 실례는 설명의 편의를 위해 제공된 것일 뿐 본 개시의 실시예의 보호범위를 한정하지 않는다.

실례1

단계1: 서버를 설치하고, 네트워크 관리 시스템을 연결하여 도 11에 도시된 바와 같은 알고리즘의 각 모듈을 서버에 배치한다.

단계2: 데이터 수집 모듈은 네트워크 관리 시스템으로부터 네트워크에 있는 모든 셀의 히스토리 성능 데이터를 획득하고, 영역 구분 모듈은 모든 셀의 히스토리 성능 데이터를 분석하여 문제 영역(즉, 제1영역)을 구분하고; 네트워크 관리 시스템으로부터 문제 영역의 모든 셀의 실시간 성능 데이터를 획득하고, 네트워크 관리 시스템으로부터 핸드오버 데이터(핸드오버 빈도를 포함), 구성 파라미터와 같은 기타 데이터를 획득할 수도 있다. 본 실례에 예시된 문제 영역A는 20개 셀을 포함하고, 부하 불균형 문제가 존재하며, 영역의 셀들 사이에 부하 차이가 크다.

단계3: 에이전트 생성 모듈은 데이터 수집 모듈이 얻은 데이터 및 영역 구분 모듈에서 구분한 문제 영역 결과를 획득한다. 에이전트 생성 모듈은 상기 데이터에 의해 상기 문제 영역에 존재하는 문제가 복수의 셀 사이의 협동 작업과 관련이 있는지 판단하고, 셀 페어를 에이전트로 선택하며, 셀 사이의 핸드오버 데이터, 셀의 지리적 위치정보 등 데이터에 의해 문제 영역 내의 셀 페어 리스트, 즉, 에이전트 리스트를 계산한다. 또한, 에이전트 사이의 인접 관계를 저장한다.

단계4: 안전 롤백(rollback) 모듈은 데이터 수집 모듈, 영역 구분 모듈의 출력을 획득하고, 최적화 이전의 문제 영역의 모든 구성 파라미터를 기록하고, 목표 영역의 핵심 지표의 모니터링을 시작한다. 본 실시예의 문제 영역에 부하 불균형 문제가 존재하므로 문제 영역의 셀 페어 사이의 핸드오버 파라미터를 최적화한다. 그러므로 모니터링하는 데이터 지표는 셀의 핸드오버 기록 데이터, 영역의 전체 핸드오버 기록, 셀의 평균 CQI(Channel Quality Indicator), SINR(Signal to Interference Plus Noise Ratio) 등 지표를 포함한다. 이와 관련된 지표들이 크게 악화될 경우, 심화 학습의 반복을 중지하고 파라미터 전송 모듈에게 심화 학습의 전송 동작을 정지할 것을 통지하고, 이전에 저장한 문제 영역의 초기 구성 파라미터를 전송한다.

단계5: 심화 학습 모듈은 기타 모듈로부터 제공된 데이터를 획득한다. 제1번째 반복 시작 전에, 심화 학습 모듈은 기타 모듈로부터 제공된 정보에 의해 문제를 모델링한다.

본 실례에서, 문제 영역에는 주로 부하 불균형 문제가 존재하므로 심화 학습 모듈은 부하 균형화를 조정 수단으로 정의한다.

에이전트 생성 모듈은 에이전트 구분 결과를 출력한다. 즉, 셀 페어를 에이전트로 하고, 문제 영역의 에이전트 리스트(즉, 셀 페어 리스트)를 출력한다.

에이전트 중 두 셀 사이의 핸드오버 파라미터(주로 인접한 셀 별 오프셋(OCN, Cell Individual Offset))의 수정을 조정 동작으로 정의한다.

셀 페어의 상태는 셀 페어 중 두 셀의 PRB(Physical Resource Block) 이용율 차이, 두 셀 사이의 활성화 사용자 수의 차이 및 두 셀의 평균CQI를 포함하는 것으로 정의한다.

여기서, PRB 이용율 차이 및 활성화 사용자 수의 차이는 에이전트 중 부하의 불균형 정도를 나타내고, 평균CQI는 그 중에서 사용자의 채널 평균 품질 수준을 나타낸다. 본 실례의 심화 학습 목적은 CQI가 대폭 악화되지 않은 전제하에 전술한 부하 불균형 정도를 나타내는 두 지표가 좋아지게 하는 것이다.

에이전트의 보상 함수를 다음과 같이 정의한다.

R＝αR_agent+βR_global;

여기서, R_agent는 에이전트 자체의 보상 값이고, R는 에이전트의 보상 함수 값이고, α는 에이전트 자체의 보상 값의 가중(weight) 계수이고,β는 글로벌 보상 값의 가중 계수이고, R_global는 글로벌 보상 값이며, R_agent는 에이전트의 상태변화에 의해 계산되며, 그 계산식은 다음과 같다.

R_agent＝a₁f₁(PRb₁-PRb₂)+a₂f₂(AU₁-AU₂)+a₃f₃(CQI'-CQI);

여기서, 제1항의 f₁(PRb₁-PRb₂)는 PRB 이용율 차이가 소정 임계치보다 작은지 여부를 계산하되, "예"인 경우 PRB 이용율의 차이가 작음을 의미하고, 이 수치를 이용하여 이 부분의 보상을 계산하고; 제2항의 함수 f₂(AU₁-AU₂)f₂는 활성화 사용자 수의 차이가 임계치보다 작은지 여부를 계산하되, "예"인 경우 부하 차이가 작음을 의미하며, 보상을 계산하고; 제3항의 함수f₃(CQI'-CQI)f₃는 CQI의 변화를 계산하되, 1회 조정한 후 CQI가 대폭 악화되면, 과도하게 많은 사용자가 신호 품질이 나쁜 셀로 이동하였음을 의미하므로 이때 이 부분의 페널티를 계산한다. 상기 3개 항은 a₁, a₂, a₃ 계수를 통해 보상에 차지하는 비율을 설정한다. 또한, R_global은 글로벌 보상 값으로써 글로벌 보상을 통해 영역 내의 복수의 에이전트들이 협동 작업하게 하며, 그 계산식은 다음과 같다.

R_global＝b₁f₄(PRB_std,AU_std)+b₂f₅(△CQI_avg)+b₃f₆(△HO);

여기서, 제1항의 함수f₄(PRB _std,AU _std)f₄는 영역 중 PRB 이용율과 활성화 사용자 수의 표준차 변화를 계산하고, 상기 두 표준차가 감소하면 영역 내의 부하가 더욱 균형함을 의미하고, 폭에 따라 보상을 계산하고; 제2항의 함수f₅(△CQI_avg)f₅는 영역 내의 전체 CQI의 변화를 계산하며, 영역 내의 CQI가 전체적으로 나빠지면 대량의 사용자가 신호가 좋지 않은 셀로 조정되었음을 의미하므로 이때 페널티를 계산하고; 제3항의 f₆(△HO)f₆는 영역 내의 전체 핸드오버 횟수를 계산하며, 영역 내의 전체 핸드오버 횟수가 대폭 상승할 경우 페널티를 계산한다. 상기 3개 항은 b₁, b₂, b₃ 계수를 통해 전체 보상에 차지하는 비율을 설정한다. 본 실시예에서, 셀 페어를 에이전트로 하므로 보상을 계산할 때 보상 배분의 문제가 존재하지만, 비례 계수를 계산하는 방식을 통해 이러한 문제를 해결한다.

단계6: 심화 학습 모듈은 문제를 모델링한 후, 심화 학습 반복 계산을 시작한다. 본 실시예는 DQN 심화 학습 알고리즘을 이용하여 반복 훈련을 수행한다. 반복 프로세스는 도 8에 도시된 바와 같으며, 매번 반복에서 알고리즘은 에이전트의 현재 상태를 획득하고, 각 에이전트의 정책 네트워크를 이용하여 상기 상태에서의 최적화 동작을 계산하고 또한 새로운 좋은 해결책을 탐색하기 위한 랜덤 동작을 선택하는 일정한 확률이 존재한다. 주변의 평균 동작을 결합하여 각 에이전트의 전송 동작을 계산한다. 매번 반복에서 현재 동작의 계산 및 전송을 제외하고, 각 에이전트에 대하여 알고리즘은 그 이전번 반복의 상태와 현재 상태의 차이를 계산하며, 이에 따라 보상을 계산하며, 이전번 반복에서의 해당 에이전트의 동작을 결합하여 심화 학습 반복에 필요한 쿼드러플릿(quadruplet)(S, A, R, S')(즉, 상태, 동작, 보상, 다음 상태)을 획득하며, DQN 알고리즘은 쿼드러플릿을 해당 에이전트의 경험 재생 라이브러리에 저장한 후, 각 에이전트의 뉴런 네트워크에 대하여 경험 재생 훈련을 수행한다. 본 실시예에서 심화 학습으로 생성된 에이전트 동작은 단계5에 기재된 바와 같이 셀 페어의 핸드오버 파라미터(주로 OCN이다)이다.

단계7: 동작 전송 모듈은 심화 학습 모듈에서 출력한 에이전트의 동작 파라미터를 수신하고, 네트워크 관리 시스템으로 발송한다. 단계6로부터 시작하여 동작 파라미터를 발송하여 유효될 때까지가 1회 반복이다. 단계6으로 리턴하여 반복(iteration)를 순환 진행하되, DQN 알고리즘의 수렴조건을 만족할 때까지 한다.

단계8: 반복하여 수렴되면, 반복은 보상 및 뉴런 네트워크를 수정하는 파라미터를 더 이상 계산하지 않으며, 반복에 랜덤 동작을 사용하여 탐색하지 않는다. 매번 반복할 때마다 각 에이전트의 상태를 수집하며, 훈련된 정책 네트워크를 이용하여 동작을 계산하고, 평균 동작을 결합하여 전송할 동작을 계산하여 네트워크 관리 시스템으로 전송하여 최적화 조정을 수행한다.

실례2

단계11: 서버를 설치하고 네트워크 관리 시스템을 연결하여 도 11에 도시된 바와 같은 알고리즘의 각 모듈을 서버에 배치한다.

단계12: 데이터 수집 모듈은 네트워크 관리 시스템으로부터 네트워크에 있는 모든 셀의 히스토리 성능 데이터를 획득하고, 영역 구분 모듈은 모든 셀의 히스토리 성능 데이터를 분석하여 문제 영역(즉, 제1영역)을 구분하고; 네트워크 관리 시스템으로부터 문제 영역의 모든 셀의 실시간 성능 데이터를 획득하고, 네트워크 관리 시스템으로부터 핸드오버 데이터(핸드오버 빈도를 포함), 구성 파라미터와 같은 기타 데이터를 획득할 수도 있다. 본 실례에서 예시된 문제 영역 B는 12개 셀을 포함하고, 커버리지 문제가 존재하는 동시에 일부 사용자 신호가 좋지 않아 셀 안테나의 하향 경사각 및 전송 파워를 조정해야 한다.

단계13: 에이전트 생성 모듈은 영역 구분 모듈에서 출력한 결과를 획득하며, 문제 영역에 커버리지 문제가 존재하므로 셀 안테나의 하향 경사각 및 전송 파워를 조정해야 하며, 셀을 에이전트로 정의하고, 영역 내 에이전트 리스트(셀 리스트)를 출력해야 한다. 또한, 에이전트 생성 모듈은 에이전트 사이의 인접 관계를 계산할 수도 있다. 본 실시예에서, 셀 사이의 인접 관계는 중첩 커버리지 정도 및 영역 구분 모듈에서 출력한 지리적 위치정보에 의해 계산한다.

단계14: 안전 롤백 모듈은 데이터 수집 모듈로부터 현재의 구성 파라미터를 획득하여 저장한다. MR(Measurement Report) 데이터 중 해당 영역 내에 체류하는 사용자의 RSRP(Reference Signal Receiving Power) 값, 네트워크 관리 성능 데이터 중 영역 내의 셀의 평균CQI, 셀의 처리율(throughput rate)을 포함하는, 당해 영역의 성능 지표에 대한 모니터링을 시작한다. 영역 성능 지표가 소정 임계치를 초과한 만큼 악화할 경우 심화 학습 조정을 중지하고 저장된 초기 구성 파라미터를 전송한다.

단계15: 심화 학습 모듈은 첫번째 반복을 시작하기 전에 문제 시나리오를 모델링한다.

영역 구분 모듈 및 에이전트 생성 모듈으로부터 출력된 결과를 수신하며, 커버리지 문제를 해결해야 하며, 각 셀을 에이전트로 한다.

에이전트의 상태가 셀 중 사용자의 평균 RSRP(MR데이터 통계로부터), 셀 평균CQI, 셀 처리율, 셀의 현재 전송 파워, 현재 안테나의 하향 경사각을 포함한다고 정의한다.

에이전트의 동작이 셀 안테나의 하향 경사각에 대한 조절, 셀의 전송 파워에 대한 조절을 포함한다고 정의한다.

에이전트의 보상은 개체 보상 및 전체 보상 두 부분을 포함한다고 정의한다. 여기서, 개체 보상은 해당 에이전트에 체류하는 사용자의 평균RSRP 개선 정도, 셀 평균CQI 개선 정도, 셀 처리율 증가폭을 포함하며, 그외 또 하나의 페널티인 안테나 하향 경사를 더 포함한다. 셀 전송 파워는 폭을 증가하고 상기 4개 항은 설정 가능한 4개 계수를 통해 각자가 차지하는 비율을 조정하며 전체 보상은 최적화 영역의 전체 상황을 나타내며, 영역 내의 모든 사용자의 평균RSRP 변화, 영역 내의 모든 셀의 평균CQI 변화, 영역 전체의 처리율 변화 및 영역 전체의 전송 파워 변화를 포함한다. 여기서, 앞의 3개 항은 보상 계산에 사용되고, 전송 파워 변화는 페널티 값을 계산하는데 사용된다. 이러한 보상 설계는 심화 학습 알고리즘으로 하여금 전송 파워를 최대한 증가시키지 않은 전제하에서 영역 내의 커버리지 상황을 개선하도록 한다.

단계16: 심화 학습 모듈은 모델링한 후 반복 훈련을 시작한다. 본 실시예는 DQN 심화 학습 알고리즘을 이용하여 구현하는 것을 예시하고 있다. DQN을 이용하여 본 실시예를 구현하는 프로세스는 도 8에 도시된 바와 같다. 모델링 부분은 단계15에서 이미 완성되었다. DQN 알고리즘은 각 에이전트의 정책 뉴런 네트워크를 초기화한다. 반복(iteration)을 시작한 후, 매번 반복에서, 각 에이전트는 랜덤 동작을 선택할 일정한 확률이 있다. 그렇지 않으면, 해당 에이전트의 상태에 의해 정책 네트워크를 통해 최적화 동작을 생성하고 해당 에이전트의 주변 평균 동작을 결합하여 전송 동작을 결정한다. 평균 동작의 계산 범위는 에이전트 생성 모듈에서 생성된 에이전트 사이의 인접관계에 의해 결정된다. 매번 반복에서, 에이전트에 대하여, 알고리즘은 전번의 반복 상태, 전번의 반복 동작, 현재 상태를 모두 수집하고 동작 보상을 계산하여 심화 학습의 반복 훈련에 필요한 쿼드러플릿 데이터를 획득하고 이를 각 에이전트의 경험 라이브러리에 추가한다. DQN 알고리즘은 각 에이전트의 경험 라이브러리를 이용하여 각 에이전트의 뉴런 네트워크에 대하여 경험 재생 훈련을 수행한다.

단계17: 동작 전송 모듈은 심화 학습 모듈에서 출력한 동작을 수신하고 동작 데이터를 통합하여 파라미터 리스트에 추가한 후 네트워크 관리 시스템으로 전송한다. 안전 롤백 모듈에서 발송한 롤백 명령어를 수신한 경우, 동작 전송 모듈은 심화 학습 모듈에서 생성된 모든 동작의 전송을 멈추고, 안전 롤백 모듈에 저장된 초기 구성 파라미터를 바로 전송한다. 단계16과 단계17은 하나의 반복이며, DQN 알고리즘이 수렴될 때까지 단계16으로 되돌아가서 반복한다.

단계18: DQN 알고리즘이 수렴조건에 도달한 경우, 반복 훈련을 더 이상 수행하지 않는다. 즉, 동작을 생성할 때 랜덤 동작을 사용하지 않고, 모든 동작은 상태에 따라 정책 네트워크를 통해 평균 동작을 결합하여 생성된 최적화 동작이다. 또한, 매번 반복마다 보상 계산 및 뉴런 네트워크 파라미터의 갱신을 더 이상 수행하지 않고, 최적화 동작의 전송만 수행한다.

본 개시의 다른 일 실시예는 네트워크 최적화 장치를 제공한다. 도 15에 도시된 바와 같이, 상기 장치는 프로세서(1501) 및 컴퓨터 판독 가능한 저장 매체(1502)를 포함한다. 상기 컴퓨터 판독 가능한 저장 매체(1502)에는 상기 프로세서(1501)에 의해 실행될 때 상기 어느 한 네트워크 최적화 방법을 구현하는 명령어가 저장된다.

도 9에 도시된 바와 같이, 본 개시의 실시예에 따른 네트워크 최적화 장치는 네트워크 관리 시스템에 연결된 서버에 설치될 수 있고, 네트워크 내의 별개 설비일 수도 있으나, 본 개시의 실시예는 네트워크 최적화 장치의 형식에 대해 구체적으로 한정하지 않는다.

본 개시의 다른 일 실시예는 프로세서에 의해 실행될 때 상기 임의의 한 네트워크 최적화 방법의 단계를 구현하는 컴퓨터 프로그램이 저장되는 컴퓨터 판독 가능한 저장 매체를 제공한다.

도 10를 참조하면, 본 개시의 다른 일 실시예는 네트워크 최적화 장치를 제공한다. 상기 장치는,

본 개시의 실시예에서 모델링 모듈(1001)은,

미리 설정된 문제 유형, 모델링 방법 및 훈련 방법 사이의 대응 관계에서, 상기 제1영역에 포함된 셀에 존재한 문제가 속한 문제 유형에 대응하는 모델링 방법 및 훈련 방법을 검색하고;

상기 에이전트의 생성 방법에 따라 N개의 상기 에이전트를 생성하는데 사용된다.

여기서, 상기 모델링 방법은 상기 에이전트의 생성 방법, 상기 에이전트의 상태 정의 방법, 상기 에이전트의 동작 정의 방법, 상기 에이전트의 보상 함수(reward function)의 정의 방법 및 상기 에이전트의 동작 선택 초기 정책의 정의 방법을 포함하고, 상기 훈련 방법은, 심화 학습 방법을 이용하여 동작 선택 초기 정책을 조정하는 방법을 포함한다.

본 개시의 실시예에서, 모델링 모듈(1001)은,

네트워크 중의 모든 셀의 히스토리 성능 데이터를 획득하고;

각 상기 셀에 대하여, 상기 셀의 히스토리 성능 데이터에 의해 상기 셀이 정상 셀인지 아니면 문제 셀인지를 결정하고;

문제 셀에 존재하는 문제가 같은 유형에 속한 셀을 동일한 제2영역으로 분류하고;

각각의 상기 제2영역에 대하여, 상기 제2영역에 포함된 셀의 지리적 위치관계 및 상기 제2영역의 윤곽에 따라 상기 제1영역을 결정하는데 구체적으로 사용된다.

본 개시의 실시예에서, 모델링 모듈(1001)은,

상기 제2영역에 포함된 셀의 지리적 위치가 비 연속적이거나 상기 제2영역의 윤곽이 외부로 돌출되는 모양이 아닌 경우, 상기 제1영역에 포함된 셀의 지리적 위치가 연속적이고 상기 제1영역의 윤곽이 외부로 돌출되는 모양이 되도록 상기 제2영역 및 상기 제2영역에 포함된 셀을 제외한 최소 수량의 다른 셀을 상기 제1영역에 가입시키는 것; 중 하나 또는 하나 이상의 방식을 이용하여 상기 제2영역에 포함된 셀의 지리적 위치관계 및 상기 제2영역의 윤곽에 따라 상기 제1영역을 결정하는데 구체적으로 사용된다.

본 개시의 실시예에서, 모델링 모듈(1001)은,

상기 제1영역의 셀에 존재하는 문제가 복수의 셀 사이의 협동 작업과 관련이 없는 경우, 상기 제1영역 중 하나의 상기 셀을 하나의 상기 에이전트로 하고, 상기 셀들은 각각 다른 상기 에이전트와 대응하는 방식;

상기 제1영역의 셀에 존재하는 문제가 복수의 셀 사이의 협동 작업과 관련이 있는 경우, 상기 제1영역 중 인접 관계가 있는 하나의 셀 페어(pair)를 하나의 상기 에이전트로 하고, 인접 관계가 있는 셀 페어(pair)들은 각각 다른 상기 에이전트와 대응하는 방식; 중 어느 하나 또는 하나 이상을 이용하여 상기 에이전트의 생성 방법에 따라 N개의 상기 에이전트를 생성하는데 구체적으로 사용된다.

본 개시의 실시예에서, 훈련 최적화 모듈(1002)은,

상기 에이전트의 동작 선택 초기 정책의 정의 방법에 따라 상기 에이전트의 동작 선택 정책을 결정하여 상기 에이전트의 동작 선택 정책을 상기 에이전트의 모델로 하는 방식을 이용하여 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 모델을 결정하는데 사용된다.

훈련 최적화 모듈(1002)은,

제i번째 반복에서 수렴조건을 만족하지 않은 경우,

제1확률에서 랜덤 동작을 선택하고 전송하여 상기 랜덤 동작이 상기 에이전트에 대응하는 셀에서 유효하도록 하며;

제2확률에서 상기 에이전트의 제i번째 반복에 대응하는 성능 데이터 및 상기 에이전트의 상태 정의 방법에 따라 상기 에이전트의 제i번째 반복에 대응하는 상태를 결정하고, 상기 에이전트의 제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 상기 훈련 방법에 따라 상기 에이전트의 제i-1번째 반복에서 조정된 정책을 조정하고, 상기 에이전트의 제i번째 반복에 대응하는 상태, 상기 에이전트의 제1데이터 및 상기 에이전트의 동작 정의 방법에 따라 에이전트의 제i번째 반복에 대응하는 최적화 동작을 계산하고 전송하여 상기 에이전트의 제i번째 반복에 대응하는 최적화 동작이 상기 에이전트에 대응하는 셀에서 유효하도록 하는 방식을 이용하여 심화 학습 방법으로 에이전트의 모델을 훈련하는데 사용된다.

여기서, 제1확률과 제2확률의 합은 1이고, i는 1보다 크거나 같은 정수 이고;

여기서, 상기 에이전트의 제1데이터는,

상기 에이전트의 제i번째 반복에서 조정된 정책; 또는

본 개시의 실시예에서, 훈련 최적화 모듈(1002)은,

제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 상기 에이전트의 동작 정의 방법에 따라 제i-1 번째 반복에 대응하는 보상 함수 값을 계산하고, 제i-1번째 반복에 대응하는 보상 함수 값에 따라 상기 에이전트의 제i-1번째 반복에서 조정된 정책을 조정하는 방식을 이용하여, 에이전트의 제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 훈련 방법에 따라 에이전트의 제i-1번째 반복에서 조정된 정책을 조정하는데 구체적으로 사용된다.

본 개시의 실시예에서, 훈련 최적화 모듈(1002)은,

상기 제i번째 반복에서, 상기 에이전트에 대응하는 셀의 제i번째 반복에 대응하는 성능 데이터가 제i-1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화되지 않은 경우, 상기 제1확률에서 랜덤 동작을 선택하여 상기 에이전트의 제i번째 반복에 대응하는 최적화 동작으로 하거나, 또는 제2확률에서 에이전트의 제i번째 반복에 대응하는 성능 데이터에 따라 에이전트의 제i번째 반복에 대응하는 상태를 결정하는 단계를 계속하여 수행하는데 더 사용된다.

본 개시의 실시예에서, 훈련 최적화 모듈(1002)은,

제1번째 반복 전에, 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장하고;

상기 제i번째 반복에서 상기 에이전트의 제i번째 반복에 대응하는 성능 데이터가 제i-1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화될 경우, 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장된 구성 파라미터로 회복하는데 더 사용된다.

본 개시의 실시예에서, 훈련 최적화 모듈(1002)은,

제j번째 반복에서, 상기 에이전트의 제j번째 반복에 대응하는 성능 데이터 및 상기 에이전트의 상태 정의 방법에 따라 상기 에이전트의 제j번째 반복에 대응하는 상태를 결정하고, 상기 에이전트의 제j번째 반복에 대응하는 상태, 상기 에이전트의 제2데이터 및 상기 에이전트의 동작 정의 방법에 따라 에이전트의 제j번째 반복에 대응하는 최적화 동작을 계산하고 전송하여 에이전트의 제j번째 반복에 대응하는 최적화 동작이 에이전트에 대응하는 셀에서 유효하도록 하는 방식을 이용하여 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는데 사용되며,

여기서, j는 1보다 크거나 같은 정수이고, M+1보다 크거나 같은 정수이고, M은 모델훈련을 수행하는 최대 반복 횟수이며;

여기서, 상기 에이전트의 제2데이터는,

상기 에이전트의 훈련된 정책; 또는

상기 에이전트의 훈련된 정책 및 인접한 에이전트의 평균 동작을 포함한다.

본 개시의 실시예에서, 훈련 최적화 모듈(1002)은,

상기 제j번째 반복에서, 상기 에이전트에 대응하는 셀의 제j번째 반복에 대응하는 성능 데이터가 제j－1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화되지 않은 경우, 상기 에이전트의 제j번째 반복에 대응하는 상태 및 상기 에이전트의 제2데이터에 따라 에이전트의 제j번째 반복에 대응하는 최적화 동작을 계산하는 단계를 계속하여 수행하는데 더 사용된다.

본 개시의 실시예에서, 훈련 최적화 모듈(1002)은,

제1번째 반복 전에, 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장하;

상기 제j번째 반복에서, 상기 에이전트의 제j번째 반복에 대응하는 성능 데이터가 제j－1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화될 경우, 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장된 구성 파라미터로 회복하는데 더 사용된다.

상기 네트워크 최적화 장치의 구체적 구현 과정은 상기 설명된 실시예의 네트워크 최적화 방법의 구체적 구현 과정과 동일하므로 여기서 중복 설명하지 않는다.

일 예시적 실례에서, 도 11에 도시된 바와 같이, 본 개시의 실시예에 따른 네트워크 최적화 장치는 다음 것을 포함한다.

(1) 본 개시는 멀티 에이전트의 심화 학습에 의해 무선 네트워크의 파라미터 최적화를 진행하고, 주된 프로그램은 서버에 배치된다. 네트워크 관리 시스템으로부터 실시간 네트워크 관리 성능 데이터를 획득하고 최적화 동작을 생성하여 네트워크 관리 시스템으로 전송하며, 배치 구조는 도 9에 도시된 바와 같다.

(2) 도 11에 도시된 바와 같이, 본 개시의 실시예에 따른 네트워크 최적화 장치는 주로 데이터 수집 모듈, 에이전트 생성 모듈, 영역 구분 모듈, 심화 학습 모듈, 동작 전송 모듈 및 안정 롤백 모듈을 포함한다. 여기서, 심화 학습 모듈은 본 알고리즘의 핵심이다.

(3) 데이터 수집 모듈은 전체 알고리즘의 입력으로서, 네트워크 관리 시스템으로부터 데이터(선택적으로, 데이터의 출처는 네트워크 관리 시스템에 국한되지 않는다)를 획득하여 다른 모듈에 제공한다. 셀 성능 데이터, 핸드오버 데이터, 구성 파라미터 등 데이터를 포함한다.

(4) 영역 구분 모듈은 자기 최적화 목표 영역을 구분하는데 사용된다. 현재 네트워크 내에 셀의 수량이 매우 방대하므로 모든 셀에 대해 자기 최적화 훈련 계산을 진행하는데 이 경우 오버헤드가 크고 그를 필요가 없다고 본다. 영역 구분 모듈은 무선 네트워크로부터 문제가 있는 영역을 구분하도록 구성된다. 후속 심화 학습에 기반한 자기 최적화 알고리즘은 영역 구분 모듈이 출력한 문제 영역에서 진행한다.

상기 모듈의 프로세스는 주로 히스토리 데이터 집계, 근본 원인(root cause) 분석, 지리적 위치 분석의 3개 단계로 나뉜다. 첫째, 히스토리 데이터 집계에서, 네트워크 중의 각 셀의 히스토리 데이터를 수집하여 저장하고; 둘째, 근본 원인 분석에서, 각 셀의 히스토리 데이터에 따라 모든 셀을 문제 셀과 정상 셀로 구분하고 문제 셀을 문제 유형 별로 분류하는데, 예를 들어 용량 문제 셀, 커버 문제 셀 등으로 구분하고, 근본 원인 분석은 현재 네트워크에 이미 존재하는 근본 원인 분석법(기타 근본 원인 분석 방법을 선택 가능)을 멀리플렉싱하고; 세 번째, 지리적 위치 분석에서, 문제 셀의 종류 및 위치 분포에 따라, 지도와 결합하여 문제 영역을 구분하고 구분된 문제 영역은 지리적으로 연속적이어야 한다. 도 5(a) 및 도 5(b)에 도시된 바와 같이, 셀1, 셀2, 셀3, 셀4, 셀5, 셀6은 지리적으로 가까이 있고, 셀3, 셀4, 셀5, 셀6에 용량문제가 존재할 경우, 문제 영역은 A와 같이 셀1과 셀2를 포함하는 것으로 구분하여 문제 영역이 지리적 위치면에서 연속되게 해야 하며, B와 같은 구분 방식에 의해 지리적 불연속이 되지 않게 해야 한다. 영역 구분 모듈은 최종적으로 문제 영역 및 문제 영역의 근본 원인 분석 결과를 출력하게 된다. 영역 구분 모듈은 문제 영역을 위치 결정하여 심화 학습 자기 최적화의 범위를 축소시키고, 불필요한 훈련으로 인해 발생한 시간 및 계산 오버헤드를 줄일 수 있다.

(5) 에이전트 생성 모듈은 에이전트를 생성하도록 구성된다. 에이전트 생성 모듈은 데이터 수집 모듈이 출력한 네트워크 관리 데이터 및 영역 구분 모듈이 출력한 문제 영역 및 존재하는 문제를 획득하게 된다. 에이전트 생성 모듈은 문제 영역에 존재하는 문제에 따라 셀 또는 셀 페어(a pair of cells)를 에이전트로 할 것인지를 선택한다. 문제 영역에 존재하는 문제가 복수의 셀 사이의 협동 작업과 관련이 있는 경우 셀 페어(a pair of cells)를 에이전트로 사용하고, 문제 영역에 존재하는 문제가 복수의 셀 사이의 협동 작업과 관련이 없는 경우 셀을 에이전트로 사용한다. 셀을 에이전트로 사용할 경우, 에이전트 생성 모듈이 출력한 에이전트는 문제 영역에 포함되어 있는 셀이고; 셀 페어(a pair of cells)를 에이전트로 사용할 때, 에이전트 생성 모듈이 출력한 에이전트는 문제 영역에 포함되어 있는 셀 페어(a pair of cells)이다. 셀 및 셀 페어(a pair of cells)를 각각 에이전트로 사용할 때, 에이전트 사이의 관계는 도 2(a) 및 도 2(b)에 도시된 바와 같다. 그런 다음, 에이전트 생성 모듈은 셀의 위치정보, 셀의 핸드오버 관계, 파라미터 구성 등 데이터에 의해 각 셀 사이의 인접 관계를 계산하고 셀 페어(a pair of cells) 리스트를 생성한다.

(6) (선택적으로)안전 롤백 모듈은 알고리즘의 안전 조치이다. 알고리즘이 운행을 시작하여 제1번째 조정을 진행하기 전에, 안전 롤백 모듈은 알고리즘에 관한 모든 네트워크 관리 구성 파라미터를 기록하여 저장한다. 알고리즘이 반복 조정하는 과정에, 안전 롤백 모듈은 최적화 영역의 성능 파라미터를 지속적으로 주목하는데, 설정된 폭을 초과한 만큼 성능이 악화되면, 안전 롤백 모듈은 최적화 영역의 최적화 동작의 전송을 정지하고, 상기 영역의 구성 파라미터를 저장된 조정 전의 구성 파라미터로 회복한다. 심화 학습 알고리즘은 새로운 동작의 탐색으로 인해 네트워크의 조정이 좋지 않으며, 안전 롤백 모듈은 네트워크 성능이 임계치를 초과한 만큼 악화되면 네트워크의 초기 상태로 즉시 회복할 수 있다.

(7) 심화 학습 모듈은 본 방법의 핵심 모듈이다. 심화 학습 모듈의 주요한 2개 단계는 문제 영역에 대해 멀티 에이전트 모델링을 진행하고, 영역 내의 모든 에이전트에 대해 반복 훈련을 진행하는 것이다.

심화 학습 모듈은 먼저 영역 구분 모듈의 출력을 수신하여 하나의 문제 영역(여러 셀을 포함) 및 상기 문제 영역에 존재하는 문제를 얻고, 상기 영역의 주요한 문제에 따라 자기 최적화 목표를 결정한다. 심화 학습 모듈은 영역 구분 모듈로부터 자기 최적화의 목표 셀 리스트를 획득하고, 에이전트 생성 모듈로부터 셀 또는 셀 페어(a pair of cells)를 에이전트로 하는 에이전트 정보 및 에이전트 리스트를 획득한다. 영역 내의 모든 셀 페어(a pair of cells)는 공동으로 멀티 에이전트의 시나리오를 구성한다. 에이전트를 정의한 후, 심화 학습 모듈은 문제 유형에 따라 에이전트의 상태, 조정 동작, 보상 함수를 정의한다.

멀리 에이전트 심화 학습의 시나리오는 도 12에 도시된 바와 같다. 매번 반복에서, 알고리즘은 실시간 네트워크 관리 성능 데이터를 획득하고, 각 에이전트는 이로부터 당해 에이전트의 성능 데이터를 획득한 후 상태 정의에 따라 성능 데이터에 의해 당해 에이전트의 현재 상태를 식별한다. 본 알고리즘 중 멀티 에이전트 사이의 동작 및 상태는 서로 볼 수 있으며, 각 에이전트는 에이전트 사이의 인접 관계에 따라 당해 에이전트와 인접한 모든 에이전트의 동작을 검색하고 평균장 이론에 의해 인접한 에이전트의 평균 동작을 계산할 수 있다. 평균 동작의 계산 범위는 도 3에 도시된 바와 같다. 각 에이전트는 자체의 정책에 따라 자체 상태 및 주변 평균 동작에 의해 현재 최적화 동작을 계산하고, 동작 전송 모듈로 동작 데이터를 출력한다. 알고리즘은 파라미터를 전송한 후 에이전트의 상태변화를 지속적으로 주목하고, 보상을 계산하는 방식으로 전송된 동작을 평가한 후 이에 기초하여 에이전트의 동작 선택 정책을 수정한다. 도 13은 각 에이전트의 1회 반복 상황이다.

셀 페어(a pair of cells)를 에이전트로 할 경우, 에이전트 보상을 계산할 때 비례 계수를 참조해야 한다. 특정 셀 페어(a pair of cells) 중 두 셀의 성능 상태의 변화는 모두 상기 에이전트 동작에 기인한 것이 아니며, 인접한 다른 에이전트 동작의 영향도 받을 수 있다. 그러므로 인접한 에이전트의 개수, 평균 동작 및 자체 동작 폭에 의해 비례 계수, 즉 셀 성능 상태의 변화에서 상기 에이전트 동작 결과의 점유율을 계산한다. 부하 균형 자기 최적화를 진행할 때, 동작은 셀 사이의 핸드오버 파라미터를 조절하는 것이며, 셀 페어를 에이전트로 하여 1회 반복에서 셀 페어1-2 및 그와 인접한 에이전트의 동작 방향과 폭은 도 8에 도시된 바와 같으며, 셀1의 사용자가 다른 셀로 보내지고 셀2가 인접한 셀로부터 보내진 사용자를 수용하면 셀1의 성능 지표 변화에서 셀 페어1-2 동작에 의해 발생한 비율은 R1-2/1이며, 그 계산식은 다음과 같다.

즉, 셀1의 상태변화 중 0.25의 비율은 셀 페어(1-2)의 동작에 의해 발생된 것이다. 동일한 원리로 셀2의 상태변화 중 셀 페어1-2의 동작에 의해 발생한 비율을 계산하므로 셀1의 상태변화 중 셀 페어1-2의 동작에 의해 발생한 비율 및 셀2의 상태변화 중 셀 페어1-2의 동작에 의해 발생한 비율의 합인 셀 페어1-2의 동작에 의해 발생한 보상 함수 값을 계산할 수 있다.

도 8은 DQN 심화 학습 알고리즘을 이용하여 상기 멀티 에이전트 심화 학습을 구현하는 플로우 차트(선택적으로, 기타 심화 학습 알고리즘을 선택 가능)이다. 도 8에 도시된 바와 같이, 프로세스는 멀티 에이전트 모델링(도 8의 앞 부분의 프로세스), 심화 학습 반복 훈련(도 8의 순환 부분의 프로세스)의 두 주된 부분으로 구분할 수 있다. 상기 알고리즘 중 각 에이전트는 의사 결정하는 뉴런 네트워크를 유지보수하였으며, 뉴런 네트워크의 파라미터를 갱신하여 동작 선택 정책을 최적화한다. 이러한 심화 학습 알고리즘을 이용하여 구현할 경우, 심화 학습 모듈은 온라인 추리 모듈, 경험 풀, 오프라인 훈련 모듈 및 지속화 모듈 등 여러 서브 모듈을 포함하며, 그 구성은 도 14에 도시된 바와 같다. 여기서, 온라인 추리 모듈은 각 에이전트의 정책에 따라 추리하고, 기록을 보상과 같이 경험 풀에 저장하고, 오프라인 훈련 모듈은 도 12의 상기 시나리오에 따라 도 4에 기재된 반복 프로세스에 의해 각 에이전트를 반복 훈련하며, 지속화 모듈을 통해 파라미터가 갱신된 에이전트를 온라인 추리 모듈로 갱신한다.

(8) 동작 전송 모듈은 주로 파라미터를 네트워크 관리 시스템으로 전송하는 역할을 한다. 도 11에 도시된 바와 같이, 동작 전송 모듈은 심화 학습 모듈의 출력 및 안전 롤백 모듈의 출력을 수신한다. 동작 전송 모듈에서 전송한 파라미터는 두 유형이 있으며, 제1 유형은 정상 심화 학습 반복이 전송한 동작 파라미터로서, 이러한 전송은 모든 반복에서 진행되며; 제2 유형은 안전 롤백 모듈에서 생긴 파라미터 전송으로서, 안전 롤백 모듈에서 조정 영역의 네트워크 관리 성능 지표 악화가 설정된 임계치를 초과했음을 검출한 경우, 조정 전에 저장된 모든 네트워크 관리 구성 파라미터를 동작 전송 모듈로 출력하여 전송하므로 조정 영역의 모든 네트워크 관리 구성 파라미터를 조정하기 전의 상태로 롤백한다.

본 개시의 실시예는 제1영역의 셀(cell)에 존재하는 문제를 모델링하여 N개의 에이전트(agent), 모델링 방법 및 훈련 방법을 얻는 단계; -여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고, 포함된 셀의 지리적 위치가 연속적이고, 제1영역의 윤곽이 외부로 돌출되는 모양이고, N이 1보다 크거나 같은 정수임-; 각 에이전트에 대하여 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키거나, 또는 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하거나, 또는 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법을 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키고, 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는 단계;를 포함한다. 본 개시의 실시예는 N개의 에이전트를 생성하여 에이전트 별로 각각 다른 모델훈련 및/또는 네트워크 최적화를 진행하고, 멀티 에이전트를 이용하여 셀 별로(즉, 설비 별로) 모델훈련 및/또는 네트워크 최적화를 구현하여 각 에이전트가 다양한 경우에 자기의 실제 상황에 가장 적합한 자기 최적화 조정을 진행할 수 있어 전반적인 자기 최적화 효과를 향상시켰다.

본 기술분야의 통상의 기술자는 상술된 방법들의 일부 또는 전부 단계, 시스템, 디바이스의 기능 모듈들/유닛들이 소프트웨어, 펌웨어, 하드웨어, 및 이들의 적합한 조합으로서 구현될 수 있다는 것을 이해할 것이다. 하드웨어 구현 방식에서, 상기 설명에 언급된 기능 모듈들/유닛들 사이의 구분은 물리적 어셈블리들의 구분에 반드시 대응하지는 않고; 예를 들어, 하나의 물리적 어셈블리가 다수의 기능들을 가질 수도 있거나, 또는 하나의 기능 또는 단계가 다수의 물리적 어셈블리들에 의해 협력하여 수행될 수도 있다. 어셈블리들의 일부 또는 전부는 디지털 신호 프로세서 또는 마이크로프로세서와 같은 프로세서에 의해 실행되는 소프트웨어로서, 또는 하드웨어로서, 또는 주문형 집적 회로와 같은 집적 회로로서 구현될 수도 있다. 그러한 소프트웨어는 컴퓨터 저장 매체(또는 비일시적 매체) 및 통신 매체(또는 일시적 매체)를 포함하는 컴퓨터 판독 가능한 매체를 통해 분포될 수 있다. 본 기술분야의 통상의 기술자에게 잘 알려져 있는 바와 같이, 용어 "컴퓨터 저장 매체"라는 용어는 정보(예컨대, 컴퓨터 판독 가능한 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터)의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성 매체, 착탈식 및 비착탈식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다목적 디스크(digital versatile disk)(DVD) 또는 다른 광디스크 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 원하는 정보를 저장하는 데 사용될 수도 있고 컴퓨터에 의해 액세스될 수도 있는 임의의 다른 매체를 포함하지만, 이에 제한되지 않는다. 한편, 통신 매체는 전형적으로, 컴퓨터 판독 가능한 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호의 다른 데이터를 포함하고, 임의의 정보 전달 매체들을 포함할 수도 있다는 것이 본 기술분야의 통상의 기술자에게 잘 알려져 있다.

본 개시의 실시예들에서 개시된 구현 방식들은 상술된 바와 같지만, 설명된 내용은 단지, 본 개시의 실시예들의 이해를 용이하게 하기 위해 사용되는 구현 방식들일 뿐이고, 본 개시의 실시예들을 제한하도록 의도되지 않는다. 본 개시의 실시예가 속하는 기술분야의 통상의 기술자는 본 개시의 실시예에 의해 개시된 사상 및 범위를 벗어나지 않은 전제하에 구현의 형태 및 세부 사항에 대해 임의의 수정 및 변화를 행할 수 있으며, 본 개시의 실시예의 특허보호범위는 첨부된 청구항에 의해 해석된다.

Claims

제1영역의 셀(cell)에 존재하는 문제를 모델링하여 N개의 에이전트(agent), 모델링 방법 및 훈련 방법을 얻는 단계; -여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고, 포함된 셀의 지리적 위치가 연속적이고, 제1영역의 윤곽이 외부로 돌출되는 모양이며, N이 1보다 크거나 같은 정수임-; 및
각 에이전트에 대하여, 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키거나, 또는 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하거나, 또는 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키고, 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는 단계;를 포함하는 네트워크 최적화 방법.
청구항 1에 있어서,
상기 제1영역의 셀에 존재하는 문제를 모델링하여 N개의 에이전트, 모델링 방법 및 훈련 방법을 얻는 단계는,
미리 설정된 문제 유형, 모델링 방법 및 훈련 방법 사이의 대응 관계에서 상기 제1영역에 포함된 셀에 존재한 문제가 속한 문제 유형에 대응하는 모델링 방법 및 훈련 방법을 검색하는 단계, -여기서, 상기 모델링 방법은 상기 에이전트의 생성 방법, 상기 에이전트의 상태 정의 방법, 상기 에이전트의 동작 정의 방법, 상기 에이전트의 보상 함수(reward function)의 정의 방법 및 상기 에이전트의 동작 선택 초기 정책의 정의 방법을 포함하고, 상기 훈련 방법은, 심화 학습 방법을 이용하여 동작 선택 초기 정책을 조정하는 방법을 포함함;-
상기 에이전트의 생성 방법에 따라 N개의 상기 에이전트를 생성하는 단계;를 포함하는 네트워크 최적화 방법.
청구항 2에 있어서,
상기 에이전트의 생성 방법에 따라 N개의 상기 에이전트를 생성하는 단계는,
상기 제1영역의 셀에 존재하는 문제가 복수의 셀 사이의 협동 작업과 관련이 없는 경우, 상기 제1영역 중 하나의 상기 셀을 하나의 상기 에이전트로 하고, 상기 셀들은 각각 다른 상기 에이전트와 대응하는 것;
상기 제1영역의 셀에 존재하는 문제가 복수의 셀 사이의 협동 작업과 관련이 있는 경우, 상기 제1영역 중 인접 관계가 있는 하나의 셀 페어(pair)를 하나의 상기 에이전트로 하고, 인접 관계가 있는 셀 페어(pair)들은 각각 다른 상기 에이전트와 대응하는 것; 중 어느 하나 또는 하나 이상을 포함하는 네트워크 최적화 방법.
청구항 1에 있어서,
상기 제1영역을 결정하는 단계는,
네트워크 중의 모든 셀의 히스토리 성능 데이터를 획득하는 단계;
각 상기 셀에 대하여, 상기 셀의 히스토리 성능 데이터에 따라 상기 셀이 정상 셀인지 아니면 문제 셀인지를 결정하는 단계;
문제 셀에 존재하는 문제가 같은 문제 유형에 속한 셀을 동일한 제2영역으로 분류하는 단계;
각각의 상기 제2영역에 대하여, 상기 제2영역에 포함된 셀의 지리적 위치관계 및 상기 제2영역의 윤곽에 따라 상기 제1영역을 결정하는 단계를 포함하는 네트워크 최적화 방법.
청구항 4에 있어서,
상기 제2영역에 포함된 셀의 지리적 위치관계 및 상기 제2영역의 윤곽에 따라 상기 제1영역을 결정하는 단계는,
상기 제2영역에 포함된 셀의 지리적 위치가 연속적이고 상기 제2영역의 윤곽이 외부로 돌출되는 모양인 경우, 상기 제2영역을 상기 제1영역로 하는 것과;
상기 제2영역에 포함된 셀의 지리적 위치가 비 연속적이거나 상기 제2영역의 윤곽이 외부로 돌출되는 모양이 아닌 경우, 상기 제1영역에 포함된 셀의 지리적 위치가 연속적이고 상기 제1영역의 윤곽이 외부로 돌출되는 모양이 되도록 상기 제2영역 및 상기 제2영역에 포함된 셀을 제외한 최소 수량의 다른 셀을 상기 제1영역에 가입시키는 것; 중 어느 하나 또는 하나 이상을 포함하는 네트워크 최적화 방법.
청구항 1에 있어서,
상기 모델링 방법은 상기 에이전트의 생성 방법, 상기 에이전트의 상태 정의 방법, 상기 에이전트의 동작 정의 방법, 상기 에이전트의 보상 함수의 정의 방법 및 상기 에이전트의 동작 선택 초기 정책의 정의 방법을 포함하고; 상기 훈련 방법은 심화 학습 방법을 이용하여 동작 선택 정책을 조정하는 방법을 포함하고;
상기 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하는 단계는,
상기 에이전트의 동작 선택 초기 정책의 정의 방법에 따라 상기 에이전트의 동작 선택 초기 정책을 결정하고, 상기 에이전트의 동작 선택 초기 정책을 상기 에이전트의 초기 모델로 하는 것을 포함하고;
상기 심화 학습 방법을 이용하여 에이전트의 초기 모델을 훈련시키는 단계는,
제i번째 반복에서 수렴조건을 만족하지 않은 경우,
제1확률에서 랜덤 동작을 선택하고 전송하여 상기 랜덤 동작이 상기 에이전트에 대응하는 셀에서 유효하도록 하며;
제2확률에서 상기 에이전트의 제i번째 반복에 대응하는 성능 데이터 및 상기 에이전트의 상태 정의 방법에 따라 상기 에이전트의 제i번째 반복에 대응하는 상태를 결정하고, 상기 에이전트의 제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 상기 훈련 방법에 따라 상기 에이전트의 제i-1번째 반복에서 조정된 정책을 조정하고, 상기 에이전트의 제i번째 반복에 대응하는 상태, 상기 에이전트의 제1데이터 및 상기 에이전트의 동작 정의 방법에 따라 에이전트의 제i번째 반복에 대응하는 최적화 동작을 계산하고 전송하여 상기 에이전트의 제i번째 반복에 대응하는 최적화 동작이 상기 에이전트에 대응하는 셀에서 유효하도록 하며;
여기서, 제1확률과 제2확률의 합은 1이고, i는 1보다 크거나 같은 정수 이고;
여기서, 상기 에이전트의 제1데이터는,
상기 에이전트의 제i번째 반복에서 조정된 정책; 또는
상기 에이전트의 제i번째 반복에서 조정된 정책 및 인접한 에이전트의 평균 동작을 포함하는 네트워크 최적화 방법.
청구항 6에 있어서,
상기 제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 훈련 방법에 따라 상기 에이전트의 제i-1번째 반복에서 조정된 정책을 조정하는 단계는,
제i-1번째 반복에 대응하는 상태, 제i번째 반복에 대응하는 상태 및 상기 에이전트의 보상 함수 값의 정의 방법에 따라 제i-1번째 반복에 대응하는 보상 함수 값을 계산하고, 제i-1번째 반복에 대응하는 보상 함수 값에 따라 상기 에이전트의 제i-1번째 반복에서 조정된 정책을 조정하는 단계를 포함하는 네트워크 최적화 방법.
청구항 6에 있어서,
상기 제i번째 반복에서, 상기 에이전트에 대응하는 셀의 제i번째 반복에 대응하는 성능 데이터가 제i-1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화되지 않은 경우, 상기 제1확률에서 랜덤 동작을 상기 에이전트의 제i번째 반복에 대응하는 최적화 동작으로 선택하거나, 또는 제2확률에서 에이전트의 제i번째 반복에 대응하는 성능 데이터 및 상기 에이전트의 상태 정의 방법에 따라 에이전트의 제i번째 반복에 대응하는 상태를 결정하는 단계를 계속하여 수행하는 네트워크 최적화 방법.
청구항 6에 있어서,
제1번째 반복 전에, 상기 방법은 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장하는 단계를 더 포함하고;
상기 방법은,
상기 제i번째 반복에서 상기 에이전트의 제i번째 반복에 대응하는 성능 데이터가 제i-1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화될 경우, 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장된 구성 파라미터로 회복하는 단계를 더 포함하는 네트워크 최적화 방법.
청구항 1에 있어서,
상기 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는 단계는,
제j번째 반복에서, 상기 에이전트의 제j번째 반복에 대응하는 성능 데이터 및 상기 에이전트의 상태 정의 방법에 따라 상기 에이전트의 제j번째 반복에 대응하는 상태를 결정하고, 상기 에이전트의 제j번째 반복에 대응하는 상태, 상기 에이전트의 제2데이터 및 상기 에이전트의 동작 정의 방법에 따라 에이전트의 제j번째 반복에 대응하는 최적화 동작을 계산하고 전송하여 에이전트의 제j번째 반복에 대응하는 최적화 동작이 에이전트에 대응하는 셀에서 유효하도록 하는 것을 포함하고; 여기서, j는 1보다 크거나 같은 정수이고, M+1보다 크거나 같은 정수이고, M은 모델훈련을 수행하는 최대 반복 횟수이며;
여기서, 상기 에이전트의 제2데이터는,
상기 에이전트의 훈련된 정책; 또는
상기 에이전트의 훈련된 정책 및 인접한 에이전트의 평균 동작을 포함하는 네트워크 최적화 방법.
청구항 10에 있어서,
상기 제j번째 반복에서, 상기 에이전트에 대응하는 셀의 제j번째 반복에 대응하는 성능 데이터가 제j－1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화되지 않은 경우, 상기 에이전트의 제j번째 반복에 대응하는 상태 및 상기 에이전트의 제2데이터에 따라 에이전트의 제j번째 반복에 대응하는 최적화 동작을 계산하는 단계를 계속하여 수행하는 네트워크 최적화 방법.
청구항 10에 있어서,
제1번째 반복 전에, 상기 방법은 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장하는 단계를 더 포함하고;
상기 방법은,
상기 제j번째 반복에서, 상기 에이전트의 제j번째 반복에 대응하는 성능 데이터가 제j－1번째 반복에 대응하는 성능 데이터에 비해 설정된 폭을 초과한 만큼 악화될 경우, 상기 에이전트에 대응하는 셀의 구성 파라미터를 저장된 구성 파라미터로 회복하는 단계를 더 포함하는 네트워크 최적화 방법.
프로세서, 및
상기 프로세서에 의해 실행될 때 청구항 1 내지 청구항 12 중 어느 한 항에 따른 네트워크 최적화 방법을 구현하는 명령어가 저장된 컴퓨터 판독 가능한 저장 매체;를 포함하는 네트워크 최적화 장치.
프로세서에 의해 실행될 때 청구항 1 내지 청구항 12 중 어느 한 항에 따른 네트워크 최적화 방법의 단계를 구현하는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체.
제1영역의 셀에 존재하는 문제를 모델링하여 N개의 에이전트, 모델링 방법 및 훈련 방법을 얻는 모델링 모듈; -여기서, 상기 제1영역에 포함된 셀에 존재하는 문제가 같은 문제 유형에 속한 셀의 비율이 설정된 임계치보다 크거나 같고, 포함된 셀의 지리적 위치가 연속적이고 제1영역의 윤곽이 외부로 돌출되는 모양이며 N이 1보다 크거나 같은 정수임-; 및
각 에이전트에 대하여, 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법에 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키거나, 또는 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하거나, 또는 모델링 방법 및 훈련 방법에 따라 상기 에이전트의 초기 모델을 결정하고, 모델링 방법 및 훈련 방법을 따라 심화 학습 방법으로 에이전트의 초기 모델을 훈련시키고, 에이전트의 훈련된 모델에 따라 에이전트에 대응하는 셀에 대해 네트워크 최적화를 진행하는 훈련 최적화 모듈을 포함하는 네트워크 최적화 장치.