TWI700649B

TWI700649B - 基於深度強化學習之無線通訊網路波束選擇方法

Info

Publication number: TWI700649B
Application number: TW108145529A
Authority: TW
Inventors: 陳昱安; 方敬勻; 蔡佳霖; 湯凱傑; 龍蒂涵; 唐之璇
Original assignee: 中華電信股份有限公司
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-08-01
Also published as: TW202123095A

Abstract

一種自動化學習無線通訊網路波束選擇之方法，旨在利用深度強化學習優勢降低因無線通訊網路數目上升而造成波束選擇空間指數上升，其中該方法包含訓練一回授式神經網路模型以用於選擇聯合最佳波束。本發明能減少無線通訊網路選擇傳輸波束的方向所花費的搜索時間，並能根據即時的回饋來更新神經網路模型的神經網路參數，從而達到線上學習的目的與優點。

Description

基於深度強化學習之無線通訊網路波束選擇方法

本發明係關於一種基於深度強化學習之網路無線通訊網路波束選擇方法。

行動網路維運障礙排除與服務品質優化作業，往往是行動網路即時運作與高品質服務中不可缺少的環結。基於人工智慧之聯合最佳波束選擇問題中，一類是採取監督式學習方式進行，亦即背景執行基於0-範數之最佳化問題，此類問題無可析解造成即時運作困難性，透過訓練一分類式類神經網路並以前述最佳解作為貼標機制可解決此問題。但隨著人工智慧技術日益成長及行動網路架構日趨複雜，貼標機制設計與取得日趨不易，若再以監督式學習為基準而尋求其他貼標機制將造成系統負荷。另一類解法乃透過強化學習，藉由紀錄各狀態與動作後之訊號躁聲比作為評價該動作之優劣，惟此方式受限於創建之表單大小，亦即只能學習一對一之對應。

由此可見，上述習用之方法仍有諸多缺失，並非一良善之設計，而需加以改進。

本發明引入深層類神經網路取代前述表單並提供更大之支撐集合，且將離散狀態集合轉為可接受連續狀態集合，此能提供更一般化的接收輸入。基於此深度強化學習之模型能於訓練完成後提供即時之無線通訊網路聯合最佳波束選擇方向。

本發明的一種基於深度強化學習之無線通訊網路波束選擇方法，用於縮短利用神經網路模型選擇聯合最佳波束的運算時間，其中基於深度強化學習之無線通訊網路波束選擇方法包括：a.蒐集無線通訊網路之關聯於核心網路信令、無線接取端資料與告警系統輸出訊息的多個特徵值，並基於無線通訊網路的環境變動或負載變化決定是否更新些特徵值。b.取得包括深層殘差式卷積神經網路、動作機率輸出類神經網路以及動作評價輸出類神經網路的神經網路模型，透過深層殘差式卷積神經網路對這些特徵值進行特徵濃縮以產生濃縮特徵，並且將濃縮特徵輸入至動作機率輸出類神經網路，藉以產生機率輸出，其中動作機率輸出類神經網路的輸入端與動作評價輸出類神經網路的輸入端分別連接至深層殘差式卷積神經網路的輸出端。c.根據機率輸出選擇傳輸波束，並且根據對無線通訊網路的隨機探索結果以及傳輸波束的服務品質(quality of service, QoS)來決定更新神經網路模型。d.更新神經網路模型，包括：取得關聯於至少一基地台的波束的訓練資料，其中訓練資料包括波束方向、服務品質、波束傳輸前特徵值以及波束傳輸後特徵值；使用深層殘差式卷積神經網路和動作評價輸出類神經網路以根據波束傳輸前特徵值計算出第一分數向量並且根據波束傳輸後特徵值計算出第二分數向量；將折扣後的第二分數向量加上服務品質以產生第三分數向量；計算第三分數向量和第一分數向量的差值平方產生差值向量，並且對差值向量的所有元素進行加總以產生第一目標函數；用最小化第一目標函數來更新深層殘差式卷積神經網路以及動作評價輸出類神經網路，並且基於更新後的深層殘差式卷積神經網路以及動作評價輸出類神經網路來更新第一分數向量和第二分數向量；使用深層殘差式卷積神經網路和動作機率輸出類神經網路以根據波束傳輸前特徵值產生機率矩陣；計算第二分數向量和第一分數向量的第二差值向量；根據機率矩陣產生第二目標函數，其中第二目標函數為取對數後的機率矩陣乘上所述第二差值向量後的交叉熵；用最大化第二目標函數來更新深層殘差式卷積神經網路以及動作機率輸出類神經網路；使用該深層殘差式卷積神經網路和該動作機率輸出類神經網路以根據該波束傳輸前特徵值計算出第二機率矩陣；根據該第二機率矩陣產生第三目標函數，其中該第三目標函數為取對數後的該第二機率矩陣的交叉熵；以及用最大化第三目標函數來更新深層殘差式卷積神經網路、動作評價輸出類神經網路以及動作機率輸出類神經網路，其中在更新深層殘差式卷積神經網路、動作機率輸出類神經網路與動作評價輸出類神經網路的至少其中之一時，執行以下步驟：採用倒傳遞訓練方法並以逐層加深隱藏層的方式進行更新，直到訓練誤差低於第一閾值時停止更新；基於測試誤差高於第二閾值而調慢訓練學習率；以及採用RMSprop最佳化器或Momentum Adam最佳化器。e.根據更新後的神經網路模型選擇聯合最佳波束。

本發明提出之深層殘差式卷積神經網路之輸入處理方式能篩選出具有顯著效益的特徵，此乃考量網路複雜性以及輸出即時性，故本發明採權重可覆用之深層殘差式卷積神經網路來縮小網路訓練負荷且基於深層殘差式卷積神經網路之架構可有效將神經網路模型延伸至可接收任意輸入並擬合機率輸出的動作機率輸出類神經網路與可根據特徵值產生評價分數的動作評價輸出類神經網路。此架構屬於一種轉移學習，為一種能降低網路連線層數且能根據機率輸出與評價分數而基於迭代學習逼近聯合最佳波束的選擇策略。本發明能在每次迭代中選擇最大機率之波束方向且可因應環境變動而更新聯合最佳波束的選擇策略。

本發明旨在利用深度強化學習優勢降低因無線通訊網路數目上升而造成波束選擇空間指數上升而引起長時間搜索的問題。本發明的方法首先產生深層殘差式卷積神經網路之輸入資料，包括根據資料庫中的參考訊號接收功率分布圖，結合鄰近無線通訊網路波束選擇造成之參考訊號接收功率分布圖或基於接收訊號強度指示之分布圖來達到輸入端特徵提取。提取的特徵甚至可包含無線通訊網路與使用者相對位置，增加輸入特徵多樣性，且充分利用無線通道空間特徵。深層殘差式卷積神經網路可基於權重覆用特性來縮小訓練負荷。神經網路模型的架構採用回授式的架構，其能根據回授資料來優化神經網路參數。此外，訓練過程尚可考慮狀態動作空間隨機探索議題使其能避免因訓練初期之資料不足而造成訓練模型無法適應環境調整。引入回授與自學習機制，對於動作神經網路之預測執行結果與事先定義服務需求進行比對，以即時回饋資料以修正神經網路參數或調整神經網路模營的架構，達到線上學習目的與較佳環境變動魯棒性（robust）。

本發明旨在利用深度強化學習優勢降低因無線通訊網路數目上升而引起的過長搜索時間。本發明係利用裝設於網路機房的訊務品質監測儀器自動化地監測網路各方面訊務，並與告警系統中的告警歷史訊息，一併送往資料儲存庫進行儲存。本發明可利用一基地台的無線通訊網路參考訊號接收功率分布圖，結合鄰近基地台的無線通訊網路波束選擇造成之參考訊號接收功率分布圖或基於接收訊號強度指示之分布圖來達到輸入資料的特徵提取。若資料庫系統中之接取端資料無法有效反映網路細節品質指標，則可取網路核心資料作為輸入資料。本發明所採用的深層殘差式卷積神經網路可基於權重覆用的特性來縮小網路訓練負荷，其中任何有意義之特徵均可於深層殘差式卷積神經網路的輸入層進行疊加。另一方面，動作機率輸出類神經網路以及動作評價輸出類神經網路等回授式深層類神經網路可承接深層殘差式卷積神經網路的輸出，根據例如訊號躁聲比或服務品質等相關參數計算出波束方向被選擇之機率以及該波束方向之評價分數，並且採用倒傳遞深層類神經網路的訓練方法更新神經網路模型。回授式深層類神經網路的輸出的平方差或交叉熵等資訊可用以作為更新神經網路模型的參考。訓練過程中可考慮深層學習網路隱藏層數量、最佳化器與訓練學習率的選擇。此外，訓練過程尚可考慮無線通訊網路的隨機探索議題以避免因訓練初期之資料不足而造成訓練模型無法適應環境調整或縮短因無線環境隨機變動後需重新執行最佳波束方向之搜索時間。上述過程需經過迭代以逐漸逼近最佳解。本發明透過在每次迭代中選擇被使用機率最高的波束，以透過貪婪式搜索策略逐漸找出聯合最佳波束，其中波束選擇之機率可因應於對環境的隨機探索結果而改變。本發明引入回授與自學習機制，對於動作機率輸出類神經網路與動作評價輸出類神經網路之預測執行結果與事先定義服務需求進行比對，以即時回饋資料並進行參數修正或架構調整，達到線上學習目的與優點。

圖1根據本發明的一實施例繪示一種基於深度強化學習之無線通訊網路波束選擇方法的流程圖，其中該方法可用於縮短利用神經網路模型選擇聯合最佳波束的運算時間，其中聯合最佳波束為評估一波束對多個基地台（或多個無線通訊網路）之特徵值的影響所選擇出的最佳波束。若一基地台根據本發明選擇聯合最佳波束作為傳輸波束，將可顯著地改善鄰近各個基地台的服務品質，達到群組優化的目的。聯合最佳波束可通過戶外大瓦數無線通訊網路或基於自組織網路管控之小瓦數微型無線通訊網路傳送，本發明不限於此。

在步驟S110中，由例如基地台蒐集無線通訊網路之關聯於核心網路信令、無線接取端資料與告警系統輸出訊息的多個特徵值。

具體來說，可例如根據接收自無線通訊網路的參考訊號繪製參考訊號接收功率分布圖，並且繪示出基地台與其服務之用戶終端的相對位置以作為計算出上述多個特徵值的參考。

在一實施例中，可根據到達時間 (Time of Arrival, ToA)或到達角度(Angle of Arrival, AoA)推算出該些特徵值。

在一實施例中，該些特徵值可包括關聯於使用者的座標系數或座標網格分類。舉例來說，可基於訓練好的前向神經網路而根據時間差參數、基地台位置與天線傾角等參數產生上述的座標系數或座標網格分類。

在一實施例中，核心網路信令、無線接取端資料或告警系統輸出訊息可來自於資料庫，並且該資料庫可包括行動網路標準參數，其中該行動網路標準參數可關聯於例如組態管理(Configuration Management, CM)、性能管理(Performance Management, PM)、障礙管理(Fault Management, FM)、無線網路關鍵性能指標(Key Performance Indicators, KPI)或用戶終端量測回報(Measurement Report, MR)。

在一實施例中，由無線通訊網路所提供的終端網路服務的通訊標準可包括CDMA、WCDMA、HSPA、HSPA+、LTE、WiMAX、WiFi或LTE-A。

在一實施例中，無線接取端資料可包括參考訊號接收功率、參考訊號接收質量或接收訊號強度指示。

在一實施例中，核心網路信令可包括封包掉包率、傳輸延遲數、頻寬利用率、通道容量或使用者使用應用類別。

在步驟S120中，判斷無線通訊網路是否發生環境變動或負載變化。若是，則返回步驟S110以重新取得更新後的多個特徵值。若否，則進入步驟S130。

在步驟S130中，取得訓練好的神經網路模型，並且根據多個特徵值產生機率輸出，其中神經網路模型的架構例如是常見的Deep Q-learning架構或Deep Sarsa架構，本發明不限於此。圖2根據本發明的一實施例繪示神經網路模型100的示意圖。神經網路模型100包括深層殘差式卷積神經網路110、動作機率輸出類神經網路120以及動作評價輸出類神經網路130，其中動作機率輸出類神經網路120的輸入端與動作評價輸出類神經網路130的輸入端分別連接至深層殘差式卷積神經網路110的輸出端。深層殘差式卷積神經網路110可用於對該些特徵值進行特徵濃縮以產生濃縮特徵，並且將濃縮特徵輸入至動作機率輸出類神經網路120，藉以產生用以選擇傳輸波束的機率輸出。另一方面，深層殘差式卷積神經網路110的權重覆用特性可使其多個神經元共用相同的權重。如此，能加速萃取出實體通道特徵的過程，使產生聯合最佳波束的過程更加快速。

在本實施例中，神經網路模型100的架構以及神經網路參數例如是根據如表一所示的內容設定，但本發明不限於此。

在一實施例中，神經網路模型100的（包括深層殘差式卷積神經網路110、動作機率輸出類神經網路120以及動作評價輸出類神經網路130）的初始神經網路參數例如是由隨機的方式產生。舉例來說，初始神經網路參數可以是由模擬軟體隨機產生。初始神經網路參數也可以是由模擬軟體提供的可用以加快訓練速度的預設值。

在一實施例中，神經網路模型100的（包括深層殘差式卷積神經網路110、動作機率輸出類神經網路120以及動作評價輸出類神經網路130）的初始神經網路參數例如是根據對應於歷史聯合最佳波束的神經網路參數所產生的。此即基於轉移學習的方式強制現有的神經網路模型100學習舊有的可覆用權重，從而加快訓練速度。

在一實施例中，前述的多個特徵值可以向量的方式輸入至支援多維度的神經網路模型100，或以序列的方式輸入至支持單維度的神經網路模型100。

在一實施例中，可根據統計假說檢定或主成份分析方法等方式篩選蒐集自無線通訊網路的多個特徵值。

在步驟S140中，根據產生自神經網路模型100的動作機率輸出類神經網路120的機率輸出選擇傳輸波束。若機率輸出對應於多個波束，亦即，機率輸出為由分別對應於不同波束的多個機率所組成機率向量，則可從該機率向量選擇對應於最大機率的波束來作為傳輸波束。若在步驟S110所取得多個特徵值關聯於多個基地台（或多個無線通訊網路），代表傳輸波束與多個基地台相關聯。因此，該傳輸波束可視為是考量了該些基地台之服務品質的聯合波束。

在一實施例中，若前述的機率輸出對應於二個波束，則可根據binary_crossentropy函數設定動作機率輸出類神經網路120的輸出層。若前述的機率輸出對應於超過二個波束，則可根據Softmax函數設定動作機率輸出類神經網路120的輸出層。在一實施例中，可根據Sigmoid函數設定動作機率輸出類神經網路120的輸出層。

在步驟S150中，可根據對無線通訊網路的隨機探索結果以及傳輸波束的服務品質來決定是否更新神經網路模型100。若決定更新神經網路模型100，則進入步驟S160。若決定不更新神經網路模型100，則結束圖1的流程，並將在步驟S140所產生的傳輸波束視為聯合最佳波束。

具體來說，若傳輸波束的服務品質不符合預設的服務需求，則決定調整神經網路模型100的神經網路參數以更新神經網路模型100。傳輸波束（或神經網路模型100的輸出）的表現可關聯於訊號噪聲比或用戶訊務量等關聯於無線通訊網路的參數。

另一方面，可基於一定的機率進行無線通訊網路環境的隨機探索，並且根據隨機探索結果決定是否更新神經網路模型100。此作法能避免學習次佳策略，亦能增加最佳解之魯棒性。

在步驟S160中，可更新神經網路模型100。圖3根據本發明的一實施例繪示更新神經網路的步驟S160的流程圖。

在步驟S161中，可取得關聯於至少一基地台的波束的訓練資料，其中訓練資料可包括波束方向、服務品質、波束傳輸前特徵值以及波束傳輸後特徵值等參數。波束傳輸前特徵值指示波束發射前所測量到的特徵值。波束傳輸後特徵值指示波束發射後所測量到的特徵值。訓練資料可與單一或多個個基地台有關。若訓練資料關聯於多個基地台，則代表根據基於訓練資料所訓練的神經網路模型100的輸出所選擇的傳輸波束為對應於多個基地台的聯合波束。

在步驟S162中，更新深層殘差式卷積神經網路110以及動作評價輸出類神經網路130。具體來說，可使用深層殘差式卷積神經網路110和動作評價輸出類神經網路130以根據波束傳輸前特徵值計算出第一分數向量並且根據波束傳輸後特徵值計算出第二分數向量。一筆訓練資料例如可產生

的第一分數向量以及

的第二分數向量，其中n為關聯於訓練資料的基地台的數量。接著，可將折扣（discount）後的第二分數向量加上訓練資料中的服務品質以計算出第三分數向量，如方程式(1)所示，其中

為介於0至1之間的折扣係數。取折扣的目的在於避免連續搜索造成服務品質取值過大。

…(1)

在一實施例中，可以經過後向視角學習的第二分數向量替代折扣後的第二分數向量以產生第三分數向量，其中後向視角學習例如包括資格跡追蹤(Eligibility Trace)等方法。

在取得第三分數向量後，可計算第三分數向量與第一分數向量的差值平方以產生差值向量，並且對差值向量的所有元素進行加總以產生第一目標函數，如方程式(2)所示。接著，可用最小化第一目標函數的方式來更新（或訓練）深層殘差式卷積神經網路110和動作評價輸出類神經網路130，並且基於更新後的深層殘差式卷積神經網路110和動作評價輸出類神經網路130來更新前述的第一分數向量以及第二分數向量。

第一目標函數=「

…(2)

在步驟S163中，更新深層殘差式卷積神經網路110以及動作機率輸出類神經網路120。具體來說，可使用深層殘差式卷積神經網路110和動作機率輸出類神經網路120以根據波束傳輸前特徵值產生K的機率矩陣，其中K為可選的波束數量。機率矩陣例如是m

的矩陣，其中m為訓練資料的筆數、n為關聯於訓練資料的基地台的數量並且r為可選擇之波束方向。

接著，可根據機率矩陣產生一第二目標函數，其中該第二目標函數為取對數後的機率矩陣乘上第二分數向量和第一分數向量的差值向量後的交叉熵。具體來說，可將機率矩陣取對數，並且乘以第二分數向量和第一分數向量的差值向量（此步驟的目的為減少變異數引起之震盪效應），如方程式(3)所示。

…(3)

在產生矩陣後，根據所計算矩陣的列向量與列向量本身的內積，藉以產生第二目標函數，如方程式(4)所示，其中

為矩陣的第i個列向量、m為訓練資料的筆數，並且第二目標函數為如方程式(3)所示的矩陣的交叉熵。接著，可用最大化第二目標函數（例如：最大化第二目標函數的向量中的每一個元素的平方和）的方式來更新（或訓練）深層殘差式卷積神經網路110和動作機率輸出類神經網路120。

…(4)

在更新深層殘差式卷積神經網路110、動作機率輸出類神經網路120以及動作評價輸出類神經網路130的過程中，可選擇性地執行以下步驟以改善所訓練出之類神經網路的性能。例如，採用倒傳遞訓練方法並以逐層加深隱藏層的方式進行動作機率輸出類神經網路120及/或動作評價輸出類神經網路130的更新，直到訓練誤差低於一閾值時停止更新。又例如，基於測試誤差高於一閾值而調慢訓練學習率，從而避免過擬合(overfitting)的情形發生，亦即訓練誤差率遞減而測試誤差率卻呈現U型結構。再例如，採用RMSprop最佳化器或Momentum Adam最佳化器，或在深層殘差式卷積神經網路110之中加入池化層，以避免深層殘差式卷積神經網路110於倒傳遞時受到梯度消失影響而陷入區域（而非全域）最佳解。另一方面，隱藏層使用的激勵函數例如為ReLU函數。

在一實施例中，步驟S160更包括步驟S164。在步驟S164中，可執行基於最大化熵之倒傳遞網路訓練。此步驟的目的在於適時地增加無線通道環境隨機探索，避免錯失可能存在之更佳波束方向。另一方面，此步驟亦能增加選出之傳輸波束的魯棒性以適應通訊環境的改變。

首先，可取得第二訓練資料。第二訓練資料可關聯於至少一基地台的波束，並可包括波束方向、服務品質、波束傳輸前特徵值以及波束傳輸後特徵值等參數。而後，可使用深層殘差式卷積神經網路110和動作機率輸出類神經網路120以根據第二訓練資料的波束傳輸前特徵值產生第二機率矩陣。

接著，可根據第二機率矩陣產生第三目標函數，其中第三目標函數為取對數後的第二機率矩陣的交叉熵。具體來說，可將第二機率矩陣乘以取對數後的該第二機率矩陣以產生第二矩陣，如方程式(5)所示。

…(5)

在產生第二矩陣後，可將對應於第二矩陣的列向量的每個元素相加以產生第三目標函數，如方程式(6)所示，其中

為第二矩陣的第j個列向量的所有元素的總和、x為第二訓練資料的筆數，並且第三目標函數為如方程式(5)所示的矩陣的交叉熵。最後，可用最大化第三目標函數（例如：最大化第三目標函數的向量中的每一個元素的平方和）的方式來更新（或訓練）深層殘差式卷積神經網路110和動作機率輸出類神經網路120。

…(6)

在執行完步驟S160而完成神經網路模型100的更新後，可重回步驟S140以根據更新的神經網路模型100選擇出聯合最佳波束。聯合最佳波束的相關配置可提供給一基地台使用，以改善該基地台及其鄰近基地台的通訊品質。 [ 特點及功效 ]

深層類神經網路之訓練常受限於須有貼標資料，且無線通訊網路聯合波束選擇空間隨無線通訊網路數目增加而呈指數增加。本發明所提供之基於深度強化學習之無線通訊網路波束選擇方法，係基於深層殘差式卷積神經網路並搭配動作評價輸出類類神經網路與動作機率輸出類神經網路，從而自適性學習如何因應環境變化調整波束方向來滿足使用者穩定服務的需求。本發明可快速地進行通道的特徵抓取，且深層殘差式卷積神經網路使用參數覆用的技術可以大大地縮短訓練時間，同時避免傳統表單學習方法造成之支撐空間不足而無法製造高度一般化的輸入。與其他習用技術相互比較時，本發明具備下列優點：

1.本發明提出之深度強化學習無線通訊網路波束選擇方法，同時考量核心網路信令與無線接取端資料來蒐集有效特徵，具體取用資料視應用類型而定，並以此為特徵工程，再輸入基於深度殘差式卷積神經網路。

2.本發明所使用之神經網路模型可將傳統基於表單學習之強化學習視為特例，提供更大之支撐集合且更一般化。

3.動作機率輸出類神經網路選擇基於目前傳播環境與神經網路參數來挑選最大機率者進行波束發射。動作評價輸出類神經網路則針對該波束選擇方向執行評分。兩神經網路互相交叉作動來逐漸逼近波束最佳方向。

4.在深度學習與機器學習等隸屬監督式學習方法受限於須有貼標資料，波束選擇問題於最佳化理論中屬0-範數問題。此問題無法析解，需仰賴迭代演算法逼近最佳解，故應跳脫使用監督式學習方式來找解，而應選擇基於互動式之強化學習演算法為基底。

5.無線通訊環境變化快速且使用者動態移動將造成最佳波束選擇困難，故應於深度強化學習演算法中適度引入隨機搜索機制，避免無法跳脫區域最佳解的窘境，此作法亦可擴增特徵空間搜索程度來加強魯棒性。

6.將訓練之動作輸出深層類神經網路與事先定義之服務品質進行兩者比較，並將此經驗回授至神經網路模型的輸入來修正深層殘差式卷積神經網路之參數，達到線上學習之優點。

上列詳細說明乃針對本發明之一可行實施例進行具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本發明之專利範圍中。表一

無線通訊網路模擬數目	B
無線通訊網路波束方向量化數目	N
動作機率輸出類神經網路輸出維度	B x N
深層殘差式卷積神經網路之核函數大小	5 x 5
深層殘差式卷積神經網路之步伐大小	1
訓練學習率	η = 1e-6
隱藏層使用之激勵函數	Rectified Linear Unit
輸出層使用之激勵函數	Softmax
最佳化器	RMSprop或Momentum Adam
最佳化器之衰減速率	ρ = 0.9
最佳化器之學習率	ε= 1e-5
批尺寸	512
損失函數(二類與多類)	binary_crossentropy, softmax
優化指標	MSE、Entropy
P-value	> 1e-6

100:神經網路模型 110:深層殘差式卷積神經網路 120:動作機率輸出類神經網路 130:動作評價輸出類神經網路 S110、S120、S130、S140、S150、S160、S161、S162、S163、S164:步驟

圖1根據本發明的一實施例繪示一種基於深度強化學習之無線通訊網路波束選擇方法的流程圖。圖2根據本發明的一實施例繪示神經網路模型的示意圖。圖3根據本發明的一實施例繪示更新神經網路的步驟的流程圖。

S110、S120、S130、S140、S150、S160:步驟

Claims

一種基於深度強化學習之無線通訊網路波束選擇方法，用於縮短利用神經網路模型選擇聯合最佳波束的運算時間，其中該基於深度強化學習之無線通訊網路波束選擇方法包括： a. 蒐集無線通訊網路之關聯於核心網路信令、無線接取端資料與告警系統輸出訊息的多個特徵值，並基於該無線通訊網路的環境變動或負載變化決定更新該些特徵值； b. 取得包括深層殘差式卷積神經網路、動作機率輸出類神經網路以及動作評價輸出類神經網路的該神經網路模型，透過該深層殘差式卷積神經網路對該些特徵值進行特徵濃縮以產生濃縮特徵，並且將該濃縮特徵輸入至該動作機率輸出類神經網路，藉以產生機率輸出，其中該動作機率輸出類神經網路的輸入端與該動作評價輸出類神經網路的輸入端分別連接至該深層殘差式卷積神經網路的輸出端； c. 根據該機率輸出選擇傳輸波束，並且根據對該無線通訊網路的隨機探索結果以及該傳輸波束的服務品質來決定更新該神經網路模型； d. 更新該神經網路模型，包括：取得關聯於至少一基地台的波束的訓練資料，其中該訓練資料包括波束方向、服務品質、波束傳輸前特徵值以及波束傳輸後特徵值；使用該深層殘差式卷積神經網路和該動作評價輸出類神經網路以根據該波束傳輸前特徵值計算出第一分數向量並且根據該波束傳輸後特徵值計算出第二分數向量；將折扣後的該第二分數向量加上該服務品質以產生第三分數向量；計算該第三分數向量和該第一分數向量的差值平方以產生差值向量，並且對該差值向量的所有元素進行加總以產生第一目標函數；用最小化該第一目標函數來更新該深層殘差式卷積神經網路以及該動作評價輸出類神經網路，並且基於更新後的該深層殘差式卷積神經網路以及該動作評價輸出類神經網路來更新該第一分數向量和該第二分數向量；使用該深層殘差式卷積神經網路和該動作機率輸出類神經網路以根據該波束傳輸前特徵值產生機率矩陣；計算該第二分數向量和該第一分數向量的第二差值向量；根據該機率矩陣產生第二目標函數，其中該第二目標函數為取對數後的該機率矩陣乘上該第二差值向量後的交叉熵；用最大化該第二目標函數來更新該深層殘差式卷積神經網路以及該動作機率輸出類神經網路；使用該深層殘差式卷積神經網路和該動作機率輸出類神經網路以根據該波束傳輸前特徵值計算出第二機率矩陣；根據該第二機率矩陣產生第三目標函數，其中該第三目標函數為取對數後的該第二機率矩陣的交叉熵；以及用最大化該第三目標函數來更新該深層殘差式卷積神經網路、該動作評價輸出類神經網路以及該動作機率輸出類神經網路，其中在更新該深層殘差式卷積神經網路、該動作機率輸出類神經網路與該動作評價輸出類神經網路的至少其中之一時，執行以下步驟：採用倒傳遞訓練方法並以逐層加深隱藏層的方式進行更新，直到訓練誤差低於第一閾值時停止更新；基於測試誤差高於第二閾值而調慢訓練學習率；以及採用RMSprop最佳化器或Momentum Adam最佳化器；以及 e. 根據更新後的該神經網路模型選擇該聯合最佳波束。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，更包括：根據到達時間 (Time of Arrival, ToA)或到達角度(Angle of Arrival , AoA)來計算該些特徵值；將時間差參數、基地台位置與天線傾角輸入至前向神經網路以產生該些特徵值中的座標系數或輸入至卷積神經網路以產生該些特徵值中的座標網格分類。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中根據對該無線通訊網路的該隨機探索結果以及該傳輸波束的該服務品質來決定更新該神經網路模型的步驟包括：基於該服務品質與預設的服務需求不符而決定調整該神經網路模型的神經網路參數。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該些特徵值以向量的方式輸入至支援多維度的該神經網路模型，或以序列的方式輸入至支持單維度的該神經網路模型。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該深層殘差式卷積神經網路包括多個神經元共用相同的權重。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該核心網路信令、該無線接取端資料和該告警系統輸出訊息來自於資料庫，並且該資料庫包括行動網路標準參數，其中該行動網路標準參數關聯於組態管理(Configuration Management, CM)、性能管理(Performance Management, PM)、障礙管理(Fault Management, FM)、無線網路關鍵性能指標(Key Performance Indicators, KPI)與用戶終端量測回報(Measurement Report, MR)。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中由該無線通訊網路所提供的終端網路服務的通訊標準包括CDMA、WCDMA、HSPA、HSPA+、LTE、WiMAX、WiFi及LTE-A的其中之一。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該聯合最佳波束通過戶外大瓦數無線通訊網路以及基於自組織網路管控之小瓦數微型無線通訊網路的其中之一傳送。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，更包括：隨機產生該神經網路模型的初始神經網路參數。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，更包括：根據對應於歷史聯合最佳波束的神經網路參數設定該神經網路模型的初始神經網路參數。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，更包括：根據統計假說檢定和主成份分析方法的其中之一篩選蒐集自該無線通訊網路的該些特徵值。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該神經網路模型的輸出關聯於訊號躁聲比和用戶訊務量的至少其中之一。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，更包括：以經過後向視角學習的第二分數向量替代折扣後的該第二分數向量以產生該第三分數向量，其中該後向視角學習包括資格跡追蹤(Eligibility Trace)。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中更新該神經網路模型的步驟更包括：執行基於最大化熵之倒傳遞網路訓練，包括：取得第二訓練資料；使用該深層殘差式卷積神經網路和該動作機率輸出類神經網路以根據該第二訓練資料的第二波束傳輸前特徵值產生第二機率矩陣；將該第二機率矩陣乘以取對數後的該第二機率矩陣以產生第二矩陣；將對應於該第二矩陣的列向量的每個元素相加以產生第三目標函數；以及用最大化該第三目標函數來更新該深層殘差式卷積神經網路和該動作機率輸出類神經網路。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，更包括：基於該機率輸出對應於二個波束而根據binary_crossentropy函數設定該動作機率輸出類神經網路的輸出層，並且基於該機率輸出對應於超過二個波束而根據Softmax函數設定該輸出層。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該無線接取端資料包括參考訊號接收功率、參考訊號接收質量以及接收訊號強度指示的至少其中之一。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該核心網路信令包括封包掉包率、傳輸延遲數、頻寬利用率、通道容量以及使用者使用應用類別的至少其中之一。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該訓練資料對應於多個無線通訊網路的至少其中之一。
如申請專利範圍第1項所述之基於深度強化學習之無線通訊網路波束選擇方法，其中該神經網路模型的架構包括Deep Q-learning架構與Deep Sarsa架構的其中之一。