TWI756438B

TWI756438B - 用於無線通訊的電子設備和方法

Info

Publication number: TWI756438B
Application number: TW107119148A
Authority: TW
Inventors: 趙友平; 王靜雲; 孫晨; 郭欣
Original assignee: 日商索尼股份有限公司
Priority date: 2017-10-25
Filing date: 2018-06-04
Publication date: 2022-03-01
Also published as: CN109714772A; US20200236560A1; TW201918109A; WO2019080771A1; EP3700247A4; US11140561B2; CN110809893A; EP3700247A1

Abstract

本揭露提供了用於無線通訊的電子設備和方法，該電子設備包括：處理電路，被配置為：以無線網路的無線網路拓撲結構作為狀態，為預定範圍內的使用者確定協調存取點集合；以及回應於無線網路拓撲結構的變化，重新為使用者確定協調存取點集合，其中，無線網路拓撲結構包括使用者的分布和存取點的分布。

Description

用於無線通訊的電子設備和方法

本發明的實施例一般係關於無線通訊領域，具體地關於以使用者為中心網路（User Centric Network，UCN）中的資源管理，更具體地關於用於無線通訊的電子設備和方法。

隨著通訊網路飛速發展，使用者移動資料速率需求的指數型增長，此外，設備的移動性、靈活配置等也給未來無線網路帶來了挑戰。超密集網路（Ultra-Dense Networks, UDN）部署微型化小基站，成為能夠滿足日益增長的移動資料速率需求的一種有效技術方式。而小基站的密集以及靈活配置使得實現以使用者為中心的網路（UCN），以支援巨量之移動使用者及設備的有效通訊成為可能。UCN允許每個使用者聯合選擇多個存取點比如基站進行協調傳輸，以便最大機率地滿足所有使用者的服務品質需求。因此，以使用者為中心超密集網路（User-centric Ultra-Dense Networks，UUDN）將成為未來網路的主要趨勢。　　另外，隨著人工智慧和物聯網的興起，機器學習等人工智慧方法也是近來研究的熱點之一，無線網路類比人的思維方式使資源管理等更加智慧化。

在下文中給出關於本發明的簡要概述，以便提供關於本發明的某些態樣的基本理解。應當理解，這個概述並不是關於本發明的窮舉性概述。它並不是意圖確定本發明的關鍵或重要部分，也不是意圖限定本發明的範圍。其目的僅僅是以簡化的形式給出某些概念，以此作為稍後論述的更詳細描述的導言。　　根據本發明的一個態樣，提供了一種用於無線通訊的電子設備，包括：處理電路，被配置為：以無線網路的無線網路拓撲結構作為狀態，為預定範圍內的使用者確定協調存取點集合；以及回應於無線網路拓撲結構的變化，重新為使用者確定協調存取點集合，其中，無線網路拓撲結構包括使用者的分布和存取點的分布。　　根據本發明的另一個態樣，提供了一種用於無線通訊的方法，包括：以無線網路的無線網路拓撲結構作為狀態，為預定範圍內的使用者確定協調存取點集合；以及回應於無線網路拓撲結構的變化，重新為使用者確定協調存取點集合，其中，無線網路拓撲結構包括使用者的分布和存取點的分布。　　依據本發明的其它態樣，還提供了用於實現上述方法的電腦程式碼和電腦程式產品以及其上記錄有該用於實現上述方法的電腦程式碼的電腦可讀儲存媒體。　　根據本發明的電子設備和方法能夠實現動態的協調存取點集合（Access Point Group，APG）的選擇，更好地滿足所有使用者的通訊要求。　　通過以下結合附圖對本發明的較佳實施例的詳細說明，本發明的這些以及其他優勢將更加明顯。

在下文中將結合附圖對本發明的示範性實施例進行描述。為了清楚和簡明起見，在說明書中並未描述實際實施方式的所有特徵。然而，應該瞭解，在研發任何這種實際實施例的過程中必須做出很多特定於實施方式的決定，以便實現研發人員的具體目標，例如，符合與系統及業務相關的那些限制條件，並且這些限制條件可能會隨著實施方式的不同而有所改變。此外，還應該瞭解，雖然研發工作有可能是非常複雜和費時的，但對得益於本揭露內容的本技術領域中具有通常知識者而言，這種研發工作僅僅是例行的任務。　　在此，還需要說明的一點是，為了避免因不必要的細節而模糊了本發明，在附圖中僅僅示出與根據本發明的方案密切相關的設備結構和/或處理步驟，而省略了與本發明關係不大的其他細節。＜第一實施例＞　　圖1示出UUDN的一個場景示意圖。其中，在使用者設備（User Equipment，UE，下文中也稱為使用者）周圍存在多個存取點（Access Point，AP），UE通過使用不同的AP進行協調傳輸。並且，各個AP與頻譜管理裝置比如頻譜協調器（Spectrum Coordinator，SC）可通訊地連接，SC為其管理範圍內的UE確定協調APG，協調APG為與相應的UE存在協調關係、即為該UE提供通訊存取服務的AP的集合。此外，本地SC與相鄰SC還可以適當地通訊以交換資訊。可以看出，與傳統的蜂巢式網路架構相比，圖1的網路架構的特點在於AP的數目眾多，甚至多於UE的數目。　　本文中所述的AP可以是任何提供網絡通訊服務的節點，比如基站、小基站等。基站可以被實現為任何類型的演進型節點B（eNB），諸如巨eNB和小eNB。小eNB可以為覆蓋比巨型社區小的社區的eNB，諸如微微eNB、微eNB和家庭（毫微微）eNB。代替地，基站可以被實現為任何其他類型的基站，諸如NodeB和基站收發台（BTS）。基站可以包括：被配置為控制無線通訊的主體（也稱為基站設備）；以及設置在與主體不同的地方的一個或多個遠端無線頭端（RRH）。另外，各種類型的終端均可以通過暫時地或半持久性地執行基站功能而作為基站工作。　　UE或者使用者可以是任何終端設備或者提供服務的無線通訊設備。例如，終端設備可以被實現為移動終端（諸如智慧型電話、平板個人電腦（PC）、筆記型PC、可攜式遊戲終端、可攜式/加密狗型移動路由器和數位攝像裝置）或者車載終端（諸如汽車導航設備）。終端設備還可以被實現為執行機器對機器（M2M）通訊的終端（也稱為機器類型通訊（MTC）終端）。此外，終端設備可以為安裝在上述終端中的每個終端上的無線通訊模組（諸如包括單個晶片的積體電路模組）。　　此外，圖1中所示的SC僅是頻譜管理裝置的一個實例，還可以使用其他的頻譜管理裝置的形式，比如頻譜存取系統（Spectrum Access System，SAS）等，這些均不是限制性的。　　在圖1所示的場景中，使用者甚至存取點均可以處於移動狀態，因此，使用者的協調APG的動態選擇有助於維持穩定和高品質的通訊。為此，本實施例提供了一種用於無線通訊的電子設備100，如圖2所示，電子設備100包括：確定單元101，被配置為以無線網路的無線網路拓撲結構作為狀態，為預定範圍內的使用者確定協調存取點集合（APG）；以及更新單元102，被配置為回應於無線網路拓撲結構的變化，重新為使用者確定協調存取點集合。　　其中，確定單元101和更新單元102可以由一個或多個處理電路實現，該處理電路例如可以實現為晶片。電子設備100例如可以位於圖1中所示的頻譜管理裝置（比如SC或SAS）上，或者可通訊地連接到頻譜管理裝置。　　在該實施例中，電子設備100可以採用強化學習演算法來為預定範圍內的使用者確定協調APG。其中，預定範圍例如可以為電子設備所在的頻譜管理裝置的管理範圍的至少一部分。　　強化學習演算法將學習看作試探評價過程，學習從環境狀態到行為的映射，使得所選擇的行為能夠獲得環境最大的獎賞，即，使得外部環境對學習系統在某種意義下的評價（或整個系統的運行性能）為最佳。本文中所用的強化學習演算法例如可以包括Q-learning演算法、差分學習演算法等，其中，可以將無線網路拓撲結構作為狀態。　　在一個實例中，無線網路拓撲結構包括使用者的分布和存取點的分布。換言之，當使用者以及/或者存取點發生移動時，或者特定的使用者以及/或者存取點的開關狀態發生變化時，無線網路拓撲結構發生變化。如圖1中所示，當UE沿著黑色虛線箭頭的方向從下往上移動時，無線網路拓撲結構發生變化，例如對應於圖中所示的狀態S_t 、S_t+1 、和S_t+2 。在這種情況下，前一個狀態下確定的使用者的協調APG在新的狀態下可能不再適用，例如無法滿足該使用者的通訊需求，因此，更新單元102回應於這種變化重新為使用者確定協調APG，從而為使用者提供穩定的、持續的通訊服務。　　在一個實例中，無線網路拓撲結構的變化包括使用者的位置的變化，該變化由使用者檢測得到，使用者在檢測到變化時，向電子設備100報告該變化，並請求電子設備100為其重新確定協調APG。在其他實例中，例如，網路拓撲結構的變化還包括存取點的位置的變化，則存取點也向電子設備100報告其位置的變化，相應地，電子設備100也可以基於該變化來重新確定使用者的協調APG。　　例如，確定單元101可以將使用者與存取點的協調關係作為強化學習演算法中的行為，並且針對每個行為，基於在作出該行為時使用者的通訊品質需求的滿足程度以及所帶來的網路負擔來計算該行為的評價。通常，使用者對於其通訊品質有特定要求，當實施某一行為時，使用者的通訊品質要求的滿足程度指示了該行為的評價的一態樣。使用者的通訊品質需求例如可以用使用者所要求的服務品質（Quality of Service）來表示，具體地，如下文所述，可以用訊號干擾雜訊比（Signal to interference and noise ratio，SINR）臨界值來表示。但是，應該理解，這僅是實例，並不是限制性的。　　此外，當從前一狀態改變到當前狀態時，行為也相應地改變，例如從前一狀態下確定的行為改變到某一行為，行為的改變意味著UE的協調APG的改變，因此將發生AP的切換操作，引起網路負擔。就行為的評價而言，期望該網路負擔儘量小，因此，網路負擔指示了行為的評價的另一態樣。　　在一個實例中，確定單元101基於評價最高的行為來確定當前狀態下使用者的協調APG。換言之，確定單元101將評價最高的行為確定為要實施的行為，從而確定了各個使用者的協調APG。例如，評價最高的行為係與其他行為相比，作出該行為時使用者的通訊品質需求滿足程度最高以及所帶來的網路負擔最小的行為。　　在下文中，為了便於理解，將以Q-learning演算法為例對實施例的各個態樣進行描述。但是，應該理解，這並不是限制性的，其他強化學習演算法也可以適用於本發明。　　假設預定範圍記憶體在N個使用者，M個AP，則使用者與存取點的協調關係、即強化學習演算法中的行為（也可稱為個體）可以用如下矩陣來表示。

（1）　　其中，

表示第n個使用者與第m個AP之間的協調關係，例如，當

為1時，表示第n個使用者與第m個AP之間具有協調關係，當

為0時，表示第n個使用者與第m個AP之間沒有協調關係。　　為了便於操作，還可以將（1）改變為式（2）所示的向量形式。

（2）　　即，將式（1）的各個列重新排列為一列。當存在多個行為時，將每個行為作為一列，可以構成行為矩陣。　　首先，針對某一個狀態比如狀態S_t ，可以初始地產生多個行為，即產生具有不同取值的多個A_i 。例如，還可以設置預定條件來限定所產生的行為，預定條件例如包括如下中的一或多者：所產生的行為應使得每個使用者的通訊品質滿足其通訊品質需求；相對於前一狀態下所確定的行為的網路負擔不超過預定負擔臨界值。例如，通訊品質需求可以用SINR臨界值來表示。　　如上所述，將該狀態下實施每一個行為時各個使用者的通訊品質需求的滿足程度以及所帶來的網路負擔作為該行為的評價。在Q-learning演算法中，行為的評價用Q-value表示，各個行為的評價構成Q-value矩陣。　　例示性地，確定單元101可以利用每一個使用者的SINR臨界值和估計的相應使用者的SINR來計算該使用者的通訊品質需求的滿足程度。當估計的相應使用者的SINR越接近該使用者的SINR臨界值時，該使用者的通訊品質需求的滿足程度越高。例如，確定單元101可以綜合考慮各個使用者的通訊品質需求的滿足程度。　　在一個實例中，使用者的通訊品質需求的滿足程度包括所有使用者的效用值以及不滿足使用者的SINR的代價值，其中，使用者的效用值由效用函數計算得到，效用函數為估計的使用者的SINR與該使用者的SINR臨界值的比值的非線性函數，代價值取決於相應使用者的SINR臨界值與估計的SINR之間的差。效用值用以表示相應使用者的SINR相對於SINR臨界值的滿足程度，代價值用以表示相應使用者的SINR相對於SINR臨界值的不足程度。　　例如，在狀態S_t 下實施行為A_i 時，使用者的通訊品質需求的滿足程度

可以用下式（3）來計算：

（3）　　其中，

為第n個使用者的效用值，由使用者的效用函數計算獲得，例如可以通過下式（4）計算獲得；σ為代價因數，

為第n 個使用者的SINR臨界值，

為估計的第n 個使用者的SINR。

（4）　　其中，tanh( )為雙曲正切函數，ξ 為擴展因數（例如為3.5834），η 為對稱中心（例如為0.8064）。圖3示出作為實例的該效用函數的曲線，如圖3所示，當使用者的SINR超過SINR臨界值時，效用函數曲線的變化變得相對緩慢，逼近於1，以避免一個使用者的SINR過高造成R值過大。應該理解，效用函數並不限於式（4）所示的形式，而是可以適當地修改。　　在以上計算中

例如可以由使用者提供，而

可以採用各種通訊系統模型來估計獲得。作為一個實例，可以如下計算

：

（5）　　其中，p_j 和p_k 分別為第j 個AP和第k 個AP的功率，

和

分別為第n個使用者到第j個AP和第k個AP的距離，α為路徑損耗因數，

為第n 個使用者的協調APG，

為第n 個使用者的干擾APG，

為使用者接收器處的雜訊功率，干擾APG指的是為其他使用者提供通訊存取服務從而對所討論的第n個使用者造成干擾的AP的集合。　　如上式（3）至（5）所示，確定單元101計算出使用者的通訊品質需求的滿足程度，在Q-learning演算法中，該滿足程度相當於獎勵值。在上述計算過程中，使用了使用者的位置資訊、存取點的位置資訊和發射功率以及使用者的通訊品質需求比如SINR臨界值。　　此外，確定單元101還可以被配置為針對每一個行為，使用該行為與前一狀態下所確定的行為之間的差別作為該行為所帶來的網路負擔。例如，在確定單元101將評價最高的行為確定為要實施的行為時，前一狀態下所確定的行為即為前一狀態下評價最高的行為。當當前狀態為初始狀態時、即不存在前一狀態時，可以將網路負擔設置為0。　　在一個實例中，確定單元101可以將在實施某一行為的情況下，與前一狀態下所確定的行為相比，所要進行的網路切換操作的操作量作為該行為帶來的網路負擔。　　如前所述，行為可以用協調關係的二進制矩陣表示，在這種情況下，網路負擔可以用行為間的漢明距離表示，如下式（6）所示。實際上，在行為由0或1構成的情況下，行為間的漢明距離的物理意義為兩種APG選擇方案之間的協調AP切換數目。在Q-learning演算法中，該網路負擔相當於代價值。

（6）　　其中，

為前一狀態S_t-1 下所確定實施的行為，σ為代價因數，

表示漢明距離計算。如前所述，當狀態S_t 為初始狀態時，可以將

設置為0。　　在另一個實例中，可以僅在作出所述行為時帶來的網路負擔超過預定負擔臨界值時才將該網路負擔納入考慮。此時，可以採用下式（7）來計算網路負擔：

（7）　　其中，

為預定網路負擔臨界值、即預定漢明距離臨界值。如式（7）所示，僅在

與

之間的漢明距離大於

時，才計算網路負擔，否則將網路負擔視為0。在該計算中，使用了預定網路負擔臨界值，該臨界值可以由AP提供。　　結合上述式（3）和式（7），可以如下計算行為的評價，從而獲得狀態

下的Q-value矩陣

，

的每一個元素計算如下。

（8）　　其中，Q-value矩陣

為T×1維的矩陣，T為行為的數量。根據所獲得的Q-value矩陣

，例如可以選擇最大的Q-value所對應的行為、即評價最高的行為作為該狀態

下的APG選擇結果。在這種情況下，可以使得儘量滿足各個使用者的通訊品質需求，同時減小AP切換引起的網路負擔。　　應該理解，上述APG選擇的計算過程可以是線上即時執行的，也可以是離線進行的，或者二者結合的。　　如圖4所示，電子設備100還可以包括：儲存單元103，被配置為針對每一個狀態，將該狀態下的每一個行為與針對該行為計算的評價相關聯地儲存為評價矩陣。　　其中，儲存單元103可以採用各種記憶體來實現。評價例如可以包括前述使用者的通訊品質需求的滿足程度（比如，

）和執行行為所帶來的網路負擔（比如，

）兩態樣。　　可以理解，在建立了這樣的評價矩陣之後，更新單元102可以被配置為在狀態發生變化時，在存在針對變化後的狀態的評價矩陣的情況下，基於該評價矩陣的內容來確定變化後的狀態下要採用的行為。具體地，可以根據當前狀態來選擇該狀態下的適當的行為、比如評價最高的行為。在選定了行為之後，UE與AP間的協調關係隨之確定。這樣，可以減小計算負荷，提高處理速度，實現在使用者移動狀態下的快速、穩定的APG切換。　　另一態樣，在不存在針對變化後的狀態的評價矩陣的情況下，則如上所述針對該變化後的狀態建立評價矩陣。　　此外，更新單元102還可以被配置為在狀態發生變化時，利用在前一狀態下執行所確定的行為時使用者的實際通訊品質的資訊來更新儲存單元103中儲存的前一狀態下所執行的行為的評價。其中，使用者的實際通訊品質由使用者測量而獲得。　　例如，更新單元102可以用基於使用者的實際通訊品質計算的通訊品質需求的滿足程度來代替所儲存的由估計得到的通訊品質需求的滿足程度。在狀態由

改變為

且在狀態

下所確定的行為係

的情況下，更新單元102例如可以用下式（9）來代替所儲存的

：

（9）　　其中，

為第n 個使用者的實際SINR，且在計算式（9）的

時也使用

，例如在使用式（4）計算

時tanh函數的分子上為

。　　通過使用實際通訊品質的資訊來更新評價矩陣，在某狀態下所確定的行為對應的實際通訊品質不佳的情況下，如果後續再返回到該狀態時，則不會選擇之前選擇的行為，從而有助於提高通訊品質。　　在另一個實例中，在更新評價矩陣時，還可以考慮變化後的狀態、即當前狀態與前一狀態之間的相關性。例如，更新單元102被配置為用如下計算的值來代替前一狀態下所執行的行為的評價中有關使用者的通訊品質需求的滿足程度的部分：前一狀態下使用者的通訊品質需求的實際滿足程度與當前狀態下所估計的使用者的通訊品質需求的最高滿足程度的加權和。　　例如，在狀態由

改變為

且在狀態

下所確定的行為係

的情況下，更新單元102例如可以用下式（10）來代替所儲存的

：

（10）　　其中，

如式（9）所示，

為在狀態

下找到一個行為A使R (S_t+1 ,A )在所有行為的R值中最大；γ 為折扣因數，表示前一狀態與當前狀態的相關度；如果γ = 0，表示R值只和前一狀態的R值相關。　　此外，更一般地，作為狀態的無線網路拓撲結構還可以包括其他可變的參數，比如如下中的一或多者：UE的通訊品質需求，AP的最大發射功率，AP的預定網路負擔臨界值等。換言之，這些參數的變化也可以使得更新單元102重新確定APG，或者更新儲存的前一狀態下所執行的行為的評價。　　綜上所述，根據本實施例的電子設備100通過使用強化學習演算法來針對不同的狀態確定協調APG，從而能夠實現動態的APG的選擇，更好地滿足所有使用者的通訊品質要求。此外，雖然以上以強化學習演算法作為實例進行了描述，但是並限於此，還可以使用其他演算法來進行協調APG的確定。＜第二實施例＞　　圖5示出根據本發明的另一個實施例的用於無線通訊的電子設備200的功能模組方塊圖，除了圖2所示的各個單元之外，電子設備200還包括：分組單元201，被配置為在每一個狀態下，通過以使用者為中心對存取點進行分組並在使用者的分組內為相應使用者選擇協調APG來獲得行為。　　類似地，分組單元201可以由一個或多個處理電路實現，該處理電路例如可以實現為晶片。此外，雖然圖5中未示出，但是電子設備200也可以包括參照圖4所示的儲存單元103。　　例如，分組單元201可以根據使用者與存取點之間的歐氏距離來進行分組。下式（11）示出用歐氏距離計算的存取點對使用者的隸屬參數值：

（11）　　其中，u_j 代表第j個UE，x_i 代表第i個AP，在不同狀態下，無線網路中AP和UE的位置不同，其隸屬參數值也不同。AP到UE的歐氏距離越小，則隸屬參數值越大。如果AP對哪個UE的隸屬參數值較大，則將AP分配給該UE。這樣，建立了各個UE的分組。　　確定單元101在使用者的分組內為相應使用者隨機選擇協調存取點集合並將滿足預定條件的使用者與存取點的協調關係作為行為。與第一實施例中類似，預定條件可以包括以下中的一或多者：每個使用者的通訊品質滿足其通訊品質需求；採用該協調關係時，相對於前一狀態下所確定的行為的網路負擔不超過預定負擔臨界值。　　本實施例與第一實施例的區別在於行為的產生不同。例如，當使用二進制矩陣來表示行為時，在本實施例中，將與UE的分組以外的AP對應的位均設置為不具有協調關係的值（比如，0）。　　因此，根據本實施例的電子設備200通過包括分組單元201，可以縮小使用者的協調AP的選擇範圍，從而容易獲得更合理的行為，提高選擇準確度並減輕計算負荷。＜第三實施例＞　　圖6示出根據本發明的另一個實施例的用於無線通訊的電子設備300的功能模組方塊圖，除了圖2所示的各個單元之外，電子設備300還包括：估計單元301，被配置為針對每一個狀態，基於初步獲得的行為來估計新的行為。　　類似地，估計單元301可以由一個或多個處理電路實現，該處理電路例如可以實現為晶片。此外，雖然圖6中未示出，但是電子設備300也可以包括參照圖4所示的儲存單元103、參照圖5所述的分組單元201等。　　在第一實施例和第二實施例中，通過為使用者隨機選擇AP的方式來初步產生行為。在本實施例中，為了提高效率，可以進一步基於初步獲得的行為來估計新的行為。　　例如，估計單元301可以使用基因演算法（Genetic Algorithm，GA）來估計新的行為。　　具體地，估計單元301可以從初步獲得的行為中選擇N_p 個具有較優R值的行為構成基因演算法的初始族群（Populations）。計算初始族群的網路適應度（fitness）矩陣，族群的網路適應度矩陣根據每個行為的Q-value得到，如下式（12）所示。

（12）　　其中，P_i 為族群中的第i個個體、即第i個行為，Δ為逼近於0的值，

為在S_t 狀態下的P_i 對應的Q-value。　　接下來執行選擇操作，例如採用輪盤賭選擇法，依據初始族群中的個體的網路適應度值計算每個個體在子代中出現的機率，並按照此機率隨機選擇N_p 個個體構成子代族群，其中機率p_i 如下式（13）所示：

（13）　　然後執行交叉操作，從所構成的子代族群中隨機選擇兩個個體A_m 和A_n ，隨機選擇多點進行多點交叉，從而產生新的個體或族群。例如，將第m 個個體A_m 和第n 個個體A_n 在i 位的交叉操作如下式（14）所示：

（14）　　應該理解，式（14）中的個體僅是示意性的，並不對本發明構成限制。　　接下來執行變異操作，從交叉操作後獲得的族群中隨機選擇一個個體，並隨機選擇該個體中的一點進行變異以便產生更加優秀的個體。由於個體的染色體是0或1，因此變異操作為將染色體0變異為1，或者將1變為0。這樣，就獲得了新的個體、即新的行為。　　估計單元301可以重複執行選擇操作、執行操作和變異操作，以產生多個新的行為。例如，可以預先設置重複操作的次數。　　在一個實例中，估計單元301還被配置為僅在通過基因演算法估計的行為滿足預定條件時將該行為作為新的行為。類似地，預定條件例如可以包括以下中的一或多者：每個使用者的通訊品質滿足其通訊品質需求；採用該行為時，相對於前一狀態下所確定的行為的網路負擔不超過預定負擔臨界值。　　以上獲得的新的行為加入到初步獲得的行為中以構成新的行為集合，確定單元101使用強化學習演算法來確定行為的評價（比如，第一實施例中所述的Q-value值），從而選擇評價最高的行為作為當前狀態下要實施的行為，以確定各個使用者的協調APG。　　根據本實施例的電子設備300通過估計方法比如基因演算法來獲得新的行為，從而擴展了行為集合，使得能夠更準確地確定最優的協調APG。＜第四實施例＞　　圖7示出根據本發明的另一個實施例的用於無線通訊的電子設備400的功能模組方塊圖，除了圖2所示的各個單元之外，電子設備400還包括：收發單元401，被配置為接收所述使用者的位置資訊以及通訊品質需求中的一或多者，接收所述存取點的位置資訊、最大發射功率資訊以及預定網路負擔臨界值中的一或多者，以及向存取點發送所確定的協調存取點集合的資訊。　　其中，收發單元401例如可以通過通訊介面來實現。通訊介面例如包括網路介面、或者天線和收發電路等。此外，雖然圖7中未示出，但是電子設備400還可以包括參照圖4所示的儲存單元103、參照圖5所述的分組單元201、參照圖6所描述的估計單元301等。　　收發單元401所接收的上述資訊用於使用者的協調APG的確定以及更新。例如，當作為狀態的無線網路拓撲結構發生變化時，收發單元401將重新獲取上述各個資訊。　　此外，收發單元401還被配置為接收使用者的實際通訊品質的資訊。例如，當狀態發生變化時，使用者向電子設備400報告在變化前的狀態下執行所確定的行為而獲得的實際通訊品質比如實際的SINR以及效用值。　　其中，使用者的位置資訊以及通訊品質需求可以經由存取點提供給收發單元401，也可以直接提供給收發單元401。　　為了便於理解，圖8示出當電子設備400設置在頻譜管理裝置（例如SC或SAS）上時，使用者（UE）、存取點（AP）和頻譜管理裝置之間的資訊流程的示意圖。　　首先，UE向頻譜管理裝置請求協調通訊的AP，並報告其位置資訊和通訊品質需求的資訊比如SINR臨界值。AP向頻譜管理裝置報告其位置資訊、最大發射功率資訊、預定網路負擔臨界值等。在AP的位置固定的情況下，AP可以僅在系統初始化時報告其位置資訊。如前所述，UE可以直接向頻譜管理裝置報告相關資訊，也可以經由AP報告相關資訊。在後一種情況下，AP報告的資訊還包括使用者的位置資訊和通訊品質需求的資訊。　　頻譜管理裝置在獲取上述各種資訊之後，進行使用者的協調APG的選擇。具體地，頻譜管理裝置可以採用第一實施例中所具體描述的Q-learning強化學習演算法，選擇Q-value最大的行為，從而確定各個使用者的協調APG。應該注意，在頻譜管理裝置中儲存了針對多個狀態的評價矩陣的情況下，如果當前狀態也包含在已儲存的狀態中，則可以利用已經儲存的評價矩陣來選擇行為，而不必重複執行強化學習演算法。　　接下來，頻譜管理裝置將所確定的協調APG的資訊發送給AP，以使得AP能夠基於該資訊來協調UE。　　在圖8的實例中，假設僅有UE的位置會發生變化。因此，UE例如週期性地確定其位置是否發生變化，當位置發生變化或者變化達到一定程度時，意味著無線網路拓撲結構發生變化，UE需要重新請求協調APG。此時，UE向頻譜管理裝置提供其變化後的位置資訊。此外，UE還向頻譜管理裝置提供其在變化前的狀態下執行所確定的行為時的實際效用值和SINR值。頻譜管理裝置基於UE提供的實際效用值和SINR值來更新前一狀態下所確定的行為的Q-value。此外，頻譜管理裝置還基於UE當前的位置資訊來重新選擇當前狀態下要執行的行為，例如，可以如上所述通過執行Q-learning強化學習演算法來進行選擇。或者，在頻譜管理裝置中儲存有針對當前狀態的評價矩陣的情況下，可以通過查找該評價矩陣來選擇要執行的行為。類似地，頻譜管理裝置將所確定的協調APG的資訊發送給AP，以使得AP能夠基於該資訊來協調UE。　　應該理解，圖8所示的資訊流程僅是示意性的，而非限制性的。　　下面，為了更進一步示出本發明的技術的細節和效果，將給出應用本發明的技術的兩個模擬實例。首先參照圖9至圖13描述第一個模擬實例。圖9示出該模擬實例的模擬場景的示意圖，其中，三角形代表UE，方塊代表AP，虛線和箭頭指示了其中一個UE的運動軌跡。圖9中示出UE的四個不同的位置，分別代表狀態S₁ 、S₂ 、S₃ 和S₄ 。　　模擬中所採用的參數列舉如下：工作頻率，3.5GHz；通道頻寬，10MHz；UE的數目，3個；發射功率，0dBm；AP的數目，16個；UE的SINR臨界值，7dB；UE接收器處的雜訊係數，5dB；基因演算法中的族群進化次數，10；交叉比率，0.7；變異比率，0.1；個體數量，10；漢明距離臨界值，5。　　在狀態S₁ 下，UE將位置資訊和通訊品質需求的資訊上傳至頻譜管理裝置，AP將位置資訊、最大發射功率資訊以及漢明距離臨界值上傳至頻譜管理裝置。頻譜管理裝置產生一些初步行為並基於這些初步行為使用基因演算法產生新的行為，初步行為和新的行為構成行為矩陣

，圖10的左側示出狀態S₁ 下的行為矩陣

的實例，每一行代表一種行為、即AP和UE間的一種協調關係，共有18種行為。每一種行為用48位元的二進位序列表示，其中，有M（在本例中M=16）個AP ，則1~M位代表使用者1和AP之間的協調關係，M+1~2M位代表使用者2和AP的協調關係，以此類推。　　頻譜管理矩陣利用前述Q-learning演算法產生與

對應的Q-value矩陣

，如圖10的右側所示。Q-value矩陣利用前述式（3）至（5）和（7）至（8）計算獲得。在本模擬實例中，狀態S₁ 為初始狀態，

為零矩陣。　　頻譜管理裝置選擇Q-value矩陣中的最大值所對應的行為、例如行為15，並告知AP基於該行為來協調UE。圖11示出執行行為15的結果的示意圖。其中，用同樣線型的圓圈圈出來的UE和AP具有協調關係。　　接下來，由於UE的移動而變換到狀態S₂ 。UE將新的位置資訊、在狀態S₁ 下執行行為15而獲得的實際SINR及效用值上傳至頻譜管理裝置。頻譜管理裝置根據這些資訊利用公式（9）計算執行行為15所獲得的實際通訊品質滿足程度，並如公式（10）所示來更新

中的R_15的值。在公式（10）中，γ 設置為0。　　頻譜管理裝置利用基因演算法來更新狀態S₁ 下的行為矩陣，以獲得狀態S₂ 下的行為矩陣

，如圖12的左側所示。類似地，頻譜管理裝置利用前述Q-learning演算法產生與

對應的Q-value矩陣

，如圖12的右側所示。Q-value矩陣利用前述式（3）至（5）和（7）至（8）計算獲得。　　頻譜管理裝置選擇Q-value矩陣中的最大值所對應的行為、例如行為11，並告知AP基於該行為來協調UE。圖13示出執行行為11的結果的示意圖。其中，用同樣線型的圓圈圈出來的UE和AP具有協調關係。　　在狀態繼續變化至狀態S₃ 和S₄ 時，頻譜管理裝置執行與狀態S₂ 下類似的操作，在此不再贅述。　　下面參照圖14至圖17描述第二個模擬實例。圖14和圖15示出該模擬實例的兩個模擬場景，其中，虛線和箭頭示出其中一個UE的運動軌跡。在圖14所示的模擬場景1中，UE沿虛線做往復運動，因此狀態從S₁ →S₉ →S₁ 。在圖15所示的模擬場景2中，UE沿虛線構成的長方形迴圈運動。在兩種場景中，均假定其餘的UE和AP位置不變。初始狀態為t=0時的S₁ ，其餘狀態按UE移動的位置依次類推。　　模擬中所採用的參數列舉如下：工作頻率，28GHz；通道頻寬，10MHz；UE的數目，6個；發射功率，0dBm；AP的數目，60個；UE的SINR臨界值，7dB；UE接收器處的雜訊係數，5dB；基因演算法中的族群進化次數，10；交叉比率，0.7；變異比率，0.1；個體數量，10；波束寬度，

；漢明距離臨界值在模擬場景1中為5，在模擬場景2中為10。　　除了本發明所提出的基於強化學習演算法的APG選擇，為了對比，還針對模擬場景1進行了如下對比演算法的APG選擇的模擬：使用基因演算法來獲取新的行為，但僅基於APG重新選擇的切換臨界值、即漢明距離臨界值T_d 來確定行為。圖16示出基於模擬場景1獲得的使用者滿意率的累積分布函數（CDF）的對比圖。其中，實線為強化學習演算法對應的CDF曲線，兩條曲線從上至下分別為漢明距離臨界值為5的對比演算法對應的CDF曲線和漢明距離臨界值為20的對比演算法對應的CDF曲線。可以看出，基於強化學習的演算法的性能優於對比演算法的性能。　　圖17示出UE在模擬場景2中沿著長方形軌跡移動，在不同圈數下滿足使用者通訊品質需求比如QoS要求的比例。可以看出，隨著圈數的增加，UE的滿意率也隨之增加，即強化學習演算法的效果隨著時間的推移越來越顯著。＜第五實施例＞　　在上文的實施方式中描述用於無線通訊的電子設備的過程中，顯然還揭露了一些處理或方法。下文中，在不重複上文中已經討論的一些細節的情況下給出這些方法的概要，但是應當注意，雖然這些方法在描述用於無線通訊的電子設備的過程中揭露，但是這些方法不一定採用所描述的那些部件或不一定由那些部件執行。例如，用於無線通訊的電子設備的實施方式可以部分地或完全地使用硬體和/或韌體來實現，而下面討論的用於無線通訊的方法可以完全由電腦可執行的程式來實現，儘管這些方法也可以採用用於無線通訊的電子設備的硬體和/或韌體。　　圖18示出根據本發明的一個實施例的用於無線通訊的方法的流程圖，如圖18所示，該方法包括：以無線網路的無線網路拓撲結構作為狀態，為預定範圍內的使用者確定協調APG（S12）；以及回應於無線網路拓撲結構的變化，重新為使用者確定協調APG（S17），其中，無線網路拓撲結構可以包括使用者的分布和存取點的分布。例示性地，在步驟S12中可以使用強化學習演算法來確定協調APG。　　在步驟S12中，將使用者與存取點的協調關係作為強化學習演算法中的行為，並且針對每個行為，基於在作出該行為時使用者的通訊品質需求的滿足程度以及所帶來的網路負擔來計算該行為的評價。例如，基於評價最高的行為來確定當前狀態下使用者的協調APG。其中，評價最高的行為可以為與其他行為相比，作出該行為時使用者的通訊品質需求滿足程度最高以及所帶來的網路負擔最小的行為。　　在一個實例中，利用每一個使用者的訊號干擾雜訊比臨界值和估計的相應使用者的訊號干擾雜訊比來計算使用者的通訊品質需求的滿足程度。使用者的通訊品質需求的滿足程度可以包括所有使用者的效用值以及不滿足使用者的訊號干擾雜訊比的代價值，其中，使用者的效用值由效用函數計算得到，效用函數為估計的使用者的訊號干擾雜訊比和相應使用者的訊號干擾雜訊比臨界值的比值的非線性函數，代價值取決於相應使用者的訊號干擾雜訊比臨界值與估計的該使用者的訊號干擾雜訊比之間的差。　　此外，針對每個行為，可以使用該行為與前一狀態下確定的行為之間的差別作為該行為所帶來的網路負擔。行為可以用協調關係的二進制矩陣表示，網路負擔可以用行為間的漢明距離表示。可以僅在作出該行為時帶來的網路負擔超過預定負擔臨界值時將該網路負擔納入考慮。　　此外，如圖18中的虛線框所示，上述方法還可以包括如下步驟：接收使用者的位置資訊以及通訊品質需求中的一或多者，以及存取點的位置資訊、最大發射功率資訊以及預定網路負擔臨界值中的一或多者（S11），以及向存取點發送所確定的協調存取點集合的資訊（S13）。在步驟S11中接收的資訊用於步驟S12中的計算。　　上述方法還可以包括步驟S14：針對每一個狀態，將該狀態下的每一個行為與針對該行為計算的評價相關聯地儲存為評價矩陣。這樣，在狀態發生變化時，在存在針對變化後的狀態的評價矩陣的情況下，基於評價矩陣的內容來確定變化後的狀態下要採用的行為。　　此外上述方法還包括步驟S15：在狀態發生變化時，接收使用者的實際通訊品質的資訊。進一步地，上述方法還包括步驟S16：利用在前一狀態下執行所確定的行為時使用者的實際通訊品質的資訊來更新所儲存的前一狀態下所執行的行為的評價，即更新評價矩陣的內容。　　例如，可以用如下計算的值來代替前一狀態下所執行的行為的評價中有關使用者的通訊品質需求的滿足程度的部分：前一狀態下使用者的通訊品質需求的實際滿足程度與當前狀態下所估計的使用者的通訊品質需求的最高滿足程度的加權和。　　此外，雖然圖18中未示出，但是上述方法還可以包括如下步驟：在每一個狀態下，通過以使用者為中心對所述存取點進行分組並在使用者的分組內為相應使用者選擇協調存取點集合來獲得行為。例如，可以根據使用者與存取點之間的歐氏距離來進行分組。在這種情況下，在使用者的分組內為相應使用者隨機選擇協調存取點集合並將滿足預定條件的使用者與存取點的協調關係作為行為。預定條件例如可以包括以下中的一或多者：每個使用者的通訊品質滿足其通訊品質需求；採用該協調關係時，相對於前一狀態下所確定的行為的網路負擔不超過預定負擔臨界值。　　此外，在獲取行為時，還可以針對每一個狀態，基於初步獲得的行為來估計新的行為。例如，使用基因演算法來估計新的行為。還可以僅在通過基因演算法估計的行為滿足上述預定條件時才將該行為作為新的行為。　　注意，上述方法的細節在第一至第四實施例中已經進行了詳細描述，在此不再重複。　　本揭露內容的技術能夠應用於各種產品。例如，電子設備100至400可以被實現為任何類型的伺服器，諸如塔式伺服器、機架式伺服器以及刀片式伺服器。電子設備100至400可以為安裝在伺服器上的控制模組（諸如包括單個晶片的積體電路模組，以及插入到刀片式伺服器的槽中的卡或刀片（blade））。 [關於伺服器的應用實例] 　　圖19是示出可以應用本揭露內容的技術的伺服器700的示意性配置的實例的方塊圖。伺服器700包括處理器701、記憶體702、儲存裝置703、網路介面704以及匯流排706。　　處理器701可以為例如中央處理單元（CPU）或數位訊號處理器（DSP），並且控制伺服器700的功能。記憶體702包括隨機存取記憶體（RAM）和唯讀記憶體（ROM），並且儲存資料和由處理器701執行的程式。儲存裝置703可以包括儲存媒體，諸如半導體記憶體和硬碟。　　網路介面704為用於將伺服器700連接到通訊網路705的通訊介面。通訊網路705可以為諸如演進分組核心網路（EPC）的核心網路或者諸如網際網路的分組資料網路（PDN）。　　匯流排706將處理器701、記憶體702、儲存裝置703和網路介面704彼此連接。匯流排706可以包括各自具有不同速度的兩個或更多個匯流排（諸如高速匯流排和低速匯流排）。　　在圖19所示的伺服器700中，參照圖2、圖5和圖6所描述的確定單元101、更新單元102、分組單元201、估計單元301等可以由處理器701實現。參照圖4描述的儲存單元103例如可以由記憶體702或儲存裝置703實現，參照圖7描述的收發單元401例如可以由網路介面704實現，其功能的一部分也可以由處理器701實現。例如，處理器701可以通過執行確定單元101、更新單元102等的功能來執行協調APG的選擇和更新。　　以上結合具體實施例描述了本發明的基本原理，但是，需要指出的是，對本技術領域中具有通常知識者而言，能夠理解本發明的方法和裝置的全部或者任何步驟或部件，可以在任何計算裝置（包括處理器、儲存媒體等）或者計算裝置的網路中，以硬體、韌體、軟體或者其組合的形式實現，這是本技術領域中具有通常知識者在閱讀了本發明的描述的情況下利用其基本電路設計知識或者基本程式設計技能就能實現的。　　而且，本發明還提出一種儲存有機器可讀取的指令碼的程式產品。所述指令碼由機器讀取並執行時，可執行上述根據本發明實施例的方法。　　相應地，用於承載上述儲存有機器可讀取的指令碼的程式產品的儲存媒體也包括在本發明的揭露中。所述儲存媒體包括但不限於軟碟、光碟、磁光碟、記憶卡、記憶條等等。　　在通過軟體或韌體實現本發明的情況下，從儲存媒體或網路向具有專用硬體結構的電腦（例如圖20所示的通用電腦2000）安裝構成該軟體的程式，該電腦在安裝有各種程式時，能夠執行各種功能等。　　在圖20中，中央處理單元（CPU）2001根據唯讀記憶體（ROM）2002中儲存的程式或從儲存部分2008載入到隨機存取記憶體（RAM）2003的程式執行各種處理。在RAM 2003中，也根據需要儲存當CPU 2001執行各種處理等等時所需的資料。CPU 2001、ROM 2002和RAM 2003經由匯流排2004彼此連接。輸入/輸出介面2005也連接到匯流排2004。　　下述部件連接到輸入/輸出介面2005：輸入部分2006（包括鍵盤、滑鼠等等）、輸出部分2007（包括顯示器，比如陰極射線管（CRT）、液晶顯示器（LCD）等，和揚聲器等）、儲存部分2008（包括硬碟等）、通訊部分2009（包括網路介面卡比如LAN卡、數據機等）。通訊部分2009經由網路比如網際網路執行通訊處理。根據需要，驅動器2010也可連接到輸入/輸出介面2005。可卸除媒體2011比如磁片、光碟、磁光碟、半導體記憶體等等根據需要被安裝在驅動器2010上，使得從中讀出的電腦程式根據需要被安裝到儲存部分2008中。　　在通過軟體實現上述系列處理的情況下，從網路比如網際網路或儲存媒體比如可卸除媒體2011安裝構成軟體的程式。　　本技術領域中具有通常知識者應當理解，這種儲存媒體不局限於圖20所示的其中儲存有程式、與設備相分離地分發以向使用者提供程式的可卸除媒體2011。可卸除媒體2011的例子包含磁片（包含軟碟（註冊商標））、光碟（包含光碟唯讀記憶體（CD-ROM）和數位多功能光碟（DVD））、磁光碟（包含迷你碟（MD）（註冊商標））和半導體記憶體。或者，儲存媒體可以是ROM 2002、儲存部分2008中包含的硬碟等等，其中存有程式，並且與包含它們的設備一起被分發給使用者。　　還需要指出的是，在本發明的裝置、方法和系統中，各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應該視為本發明的等效方案。並且，執行上述系列處理的步驟可以自然地按照說明的順序按時間循序執行，但是並不需要一定按時間循序執行。某些步驟可以並行或彼此獨立地執行。　　最後，還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設備所固有的要素。此外，在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。　　以上雖然結合附圖詳細描述了本發明的實施例，但是應當明白，上面所描述的實施方式只是用於說明本發明，而並不構成對本發明的限制。對於本技術領域中具有通常知識者來說，可以對上述實施方式作出各種修改和變更而沒有背離本發明的實質和範圍。因此，本發明的範圍僅由所附的申請專利範圍及其等效含義來限定。

100‧‧‧電子設備101‧‧‧確定單元102‧‧‧更新單元103‧‧‧儲存單元200‧‧‧電子設備201‧‧‧分組單元300‧‧‧電子設備301‧‧‧估計單元400‧‧‧電子設備401‧‧‧收發單元S11‧‧‧步驟S12‧‧‧步驟S13‧‧‧步驟S14‧‧‧步驟S15‧‧‧步驟S16‧‧‧步驟S17‧‧‧步驟700‧‧‧伺服器701‧‧‧處理器702‧‧‧記憶體703‧‧‧儲存裝置704‧‧‧網路介面705‧‧‧通訊網路706‧‧‧匯流排2000‧‧‧通用電腦2001‧‧‧中央處理單元(CPU)2002‧‧‧唯讀記憶體(ROM)2003‧‧‧隨機存取記憶體(RAM)2004‧‧‧匯流排2005‧‧‧輸入/輸出介面2006‧‧‧輸入部分2007‧‧‧輸出部分2008‧‧‧儲存部分2009‧‧‧通訊部分2010‧‧‧驅動器2011‧‧‧可卸除媒體

為了進一步闡述本發明的以上和其它優勢和特徵，下面結合附圖對本發明的具體實施方式作進一步詳細的說明。所述附圖連同下面的詳細說明一起包含在本說明書中並且形成本說明書的一部分。具有相同的功能和結構的元件用相同的參考標號表示。應當理解，這些附圖僅描述本發明的典型示例，而不應看作是對本發明的範圍的限定。在附圖中：　　圖1示出UUDN的一個場景示意圖；　　圖2示出根據本發明的一個實施例的用於無線通訊的電子設備的功能模組方塊圖；　　圖3示出效用函數的一個實例的曲線圖；　　圖4示出根據本發明的一個實施例的用於無線通訊的電子設備的功能模組方塊圖；　　圖5示出根據本發明的另一個實施例的用於無線通訊的電子設備的功能模組方塊圖；　　圖6示出根據本發明的另一個實施例的用於無線通訊的電子設備的功能模組方塊圖；　　圖7示出根據本發明的另一個實施例的用於無線通訊的電子設備的功能模組方塊圖；　　圖8示出使用者、存取點和頻譜管理裝置之間的資訊流程的示意圖；　　圖9示出一個模擬實例的模擬場景的示意圖；　　圖10示出行為矩陣和Q-value矩陣的一個實例的圖；　　圖11示出執行了所確定的行為的結果的示意圖；　　圖12示出行為矩陣和Q-value矩陣的另一個實例的圖；　　圖13示出執行了所確定的行為的結果的示意圖；　　圖14示出另一個模擬實例的模擬場景1的示意圖；　　圖15示出另一個模擬實例的模擬場景2的示意圖；　　圖16示出基於模擬場景1獲得的使用者滿意率的累積分布函數（CDF）的對比圖；　　圖17示出在模擬場景2中使用者沿著長方形軌跡移動，在不同圈數下滿足使用者通訊品質需求的比例的曲線圖；　　圖18示出根據本發明的一個實施例的用於無線通訊的方法的流程圖；　　圖19是示出可以應用本揭露內容的技術的伺服器700的示意性配置的實例的方塊圖；以及　　圖20是其中可以實現根據本發明的實施例的方法和/或裝置和/或系統的通用個人電腦的例示性結構的方塊圖。

100‧‧‧電子設備

101‧‧‧確定單元

102‧‧‧更新單元

Claims

一種用於無線通訊的電子設備，包括：處理電路，被配置為：以無線網路的無線網路拓撲結構作為狀態，為預定範圍內的使用者的分布中的該使用者確定協調存取點集合；以及回應於該無線網路拓撲結構的變化，重新為該使用者確定該協調存取點集合，其中，該無線網路拓撲結構包括該使用者的該分布和存取點的分布，其中，該處理電路被配置為將該使用者與該存取點的分布中的該各個存取點的複數個協調關係中的該各個協調關係作為相應行為，並且針對該每個行為，基於在作出該行為時該使用者的通訊品質需求的滿足程度以及所帶來的網路負擔來計算該相應行為的評價，其中，該處理電路被配置為基於評價最高的該相應行為來確定當前狀態下該使用者的協調存取點集合，其中，該複數個協調關係中的各個協調關係對應複數個狀態中的狀態，該電子設備還包括記憶體，被配置為針對一個狀態，將該狀態下的每一個行為與針對該行為所確定的評價相關聯地儲存為相應的評價矩陣，其中，該處理電路被配置為在該複數個狀態中任何狀態發生變化時，利用在前一狀態下執行該行為時該使用者的實際通訊品質的資訊來更新該記憶體中儲存的相應該前一狀態所執行的該行為的評價。
根據請求項1所述的電子設備，其中，該評價最高的行為係與其他行為相比，作出該行為時使用者的通訊品質需求滿足程度最高以及所帶來的網路負擔最小的行為。
根據請求項1所述的電子設備，其中，該處理電路被配置為利用每一個使用者的訊號干擾雜訊比臨界值和估計的該使用者的訊號干擾雜訊比來確定該使用者的通訊品質需求的滿足程度。
根據請求項3所述的電子設備，其中，該使用者的通訊品質需求的滿足程度包括所有使用者的效用值以及不滿足使用者的訊號干擾雜訊比的代價值，其中，使用者的效用值由效用函數計算得到，該效用函數為估計的訊號干擾雜訊比和訊號干擾雜訊比臨界值的比值的非線性函數，該代價值取決於相應使用者的訊號干擾雜訊比臨界值與估計的該使用者的訊號干擾雜訊比之間的差。
根據請求項1所述的電子設備，其中，該處理電路被配置為針對每個行為，使用該行為與前一狀態下確定的行為之間的差別作為該行為所帶來的網路負擔，該網路負擔用行為間的漢明距離表示。
根據請求項1所述的電子設備，其中，在作出該行為的網路負擔超過預定負擔臨界值時將該網路負擔納入考慮。
根據請求項1所述的電子設備，其中，該處理電路還被配置為在該狀態發生變化時，在存在針對變化後的狀態的評價矩陣的情況下，基於該評價矩陣的內容來確定該變化後的狀態下要採用的行為。
根據請求項1所述的電子設備，其中，該處理電路被配置為用如下計算的值來代替該前一狀態下所執行的行為的評價中有關該使用者的通訊品質需求的滿足程度的部分：該前一狀態下使用者的通訊品質需求的實際滿足程度與當前狀態下所估計的使用者的通訊品質需求的最高滿足程度的加權和。
根據請求項1所述的電子設備，其中，該處理電路被配置為：在一個狀態下，通過以使用者為中心對該存取點進行分組並在使用者的分組內為相應使用者選擇協調存取點集合來獲得該行為。
根據請求項9所述的電子設備，其中，該處理電路被配置為根據使用者與存取點之間的歐氏距離來進行該分組。
根據請求項9所述的電子設備，其中，該處理電路被配置為在使用者的分組內為相應使用者隨機選擇協調存取點集合並將滿足預定條件的使用者與存取點的協調關係作為該行為。
根據請求項11所述的電子設備，其中，該預定條件包括以下中的一或多者：每個使用者的通訊品質滿足其通訊品質需求；採用該協調關係時，相對於前一狀態下所確定的行為的網路負擔不超過預定負擔臨界值。
根據請求項1所述的電子設備，其中，該處理電路還被配置為針對一個狀態，基於初步獲得的行為來估計新的行為。
根據請求項13所述的電子設備，其中，該處理電路被配置為使用基因演算法來估計新的行為，該處理電路被配置為僅在通過基因演算法估計的行為滿足預定條件時將該行為作為該新的行為。
根據請求項1所述的電子設備，還包括：收發電路，被配置為接收該使用者的位置資訊以及通訊品質需求中的一或多者，以及該存取點的位置資訊、最大發射功率資訊以及預定網路負擔臨界值中的一或多者，以及該收發電路還被配置為向該存取點發送所確定的協調存取點集合的資訊。
根據請求項15所述的電子設備，其中，該收發電路還被配置為接收該使用者的實際通訊品質的資訊。
一種用於由包含處理電路之裝置進行無線通訊的方法，包括：以無線網路的無線網路拓撲結構作為狀態，為預定範圍內的使用者的分布中的該使用者確定協調存取點集合；以及回應於該無線網路拓撲結構的變化，重新為該使用者確定該協調存取點集合，其中，該無線網路拓撲結構包括該使用者的該分布和存取點的分布，其中，將該使用者與該存取點的分布中的該各個存取點的複數個協調關係中的該各個協調關係作為相應行為，並且針對該每個行為，基於在作出該行為時該使用者的通訊品質需求的滿足程度以及所帶來的網路負擔來計算該相應行為的評價，其中，基於評價最高的該相應行為來確定當前狀態下該使用者的協調存取點集合，其中，該複數個協調關係中的各個協調關係對應複數個狀態中的狀態；針對一個狀態，將該狀態下的每一個行為與針對該行為所確定的評價相關聯地儲存為相應的評價矩陣，在該複數個狀態中任何狀態發生變化時，利用在前一狀態下執行該行為時該使用者的實際通訊品質的資訊來更新儲存的相應該前一狀態所執行的該行為的評價。
一種電腦可讀儲存媒體，包括電腦可執行指令，該電腦可執行指令在由處理器執行時使得執行根據請求項17所述的方法。