TW202046649A

TW202046649A - 用於選擇符碼偵測器的系統及方法

Info

Publication number: TW202046649A
Application number: TW109113461A
Authority: TW
Inventors: 權赫準; 宋基逢
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2019-04-23
Filing date: 2020-04-22
Publication date: 2020-12-16
Also published as: KR102632254B1; US10931360B2; KR20200124599A; US20200343962A1

Abstract

本文提供一種用於選擇符碼偵測器的方法及系統。一種方法包括：為第k資源元素（RE）提取第一特徵集合，其中k是大於1的整數；自第一資源元素至第(k-1)資源元素提取第二特徵集合；以及基於所提取的所述第一特徵集合及所提取的所述第二特徵集合，使用強化學習（RL）神經網路為所述第k資源元素選擇符碼偵測器。

Description

用於選擇符碼偵測器的系統及方法

本發明大體而言是有關於無線通訊系統。具體而言，本發明是有關於一種利用強化學習（RL）神經網路來提供多輸入多輸出（MIMO）偵測器選擇的系統及方法。

在無線通訊系統（例如，長期演進（long term evolution，LTE）、第五代新無線電（5^th generation new radio，5G NR））中，多輸入多輸出（multiple input multiple output，MIMO）符碼偵測器計算MIMO層中經編碼位元的對數似然比（log-likelihood-ratio，LLR）。可使用各種類型的偵測方法來確定LLR。此類偵測方法的複雜度自極高複雜度（例如，最大似然（maximum likelihood，ML））至低複雜度（例如，最小均方誤差（minimum mean square error，MMSE））不等。通常，以錯誤率（error rate）為偵測方法衡量的效能與複雜度成反比。因此，ML具有最小錯誤率，而MMSE具有最大錯誤率。

通常，使用一個偵測器來獲得所有資源元素（resource element，RE）的LLR，而不論RE中的頻道條件如何。當選擇使用此種靜態偵測器時，會在複雜度與錯誤率之間進行權衡。若期望低錯誤率，則使用高複雜度偵測器。另一方面，若使用低複雜度偵測器，則錯誤率增加。

根據一個實施例，一種用於選擇符碼偵測器的方法包括：為第k RE提取第一特徵集合，其中k是大於1的整數；自第一RE至第(k-1) RE提取第二特徵集合；以及基於所提取的所述第一特徵集合及所提取的所述第二特徵集合，使用強化學習（reinforcement learning，RL）神經網路為所述第k RE選擇符碼偵測器。

根據一個實施例，一種用於選擇符碼偵測器的系統包括記憶體及處理器，所述處理器被配置成：為第k RE提取第一特徵集合，其中k是大於1的整數；自第一RE至第(k-1) RE提取第二特徵集合；以及基於所提取的所述第一特徵集合及所提取的所述第二特徵集合，使用RL神經網路為所述第k RE選擇符碼偵測器。

在下文中，參照附圖來詳細闡述本發明的實施例。應注意，儘管示出於不同圖式中，然而相同的元件將由相同的參考編號標示。在以下說明中，提供例如詳細配置及組件等具體細節僅是為了幫助全面理解本發明的實施例。因此，對於熟習此項技術者而言應顯而易見的是，可在不背離本發明的範圍的條件下對本文所述實施例作出各種改變及潤飾。另外，為清晰及簡潔起見，不再對眾所習知的功能及構造予以贅述。以下所述用語是慮及本發明中的功能而定義的用語，且可根據使用者、使用者的意圖、或習慣而有所不同。因此，應基於本說明書通篇的內容來確定各用語的定義。

本發明可具有各種潤飾及各種實施例，以下參照附圖來詳細闡述所述實施例中的一些實施例。然而應理解，本發明並非僅限於所述實施例，而是包括處於本發明的範圍內的所有潤飾、等效形式、及替代形式。

儘管可使用包括例如「第一」、「第二」等序數的用語來闡述各種元件，然而結構性元件不受所述用語限制。所述用語僅用於將一個元件與另一元件區分開。例如，在不背離本發明的範圍的條件下，可將第一結構性元件稱作第二結構性元件。相似地，亦可將第二結構性元件稱作第一結構性元件。本文中所使用的用語「及/或」包括一或多個相關聯項的任意及全部組合。

本文所使用的用語僅用於闡述本發明的各種實施例，而非旨在限制本發明。除非上下文中清楚地另外指明，否則單數形式旨在亦包括複數形式。在本發明中，應理解，用語「包括」或「具有」是指示特徵、數目、步驟、操作、結構性元件、部件、或其組合的存在，且不排除一或多個其他特徵、數目、步驟、操作、結構性元件、部件、或其組合的存在或添加的可能性。

除非不同地進行定義，否則本文中所使用的所有用語具有與由熟習本發明所屬技術者所理解的含義相同的含義。例如在常用字典中所定義的用語等此類用語應被解釋為具有與其在相關技術領域中的上下文含義相同的含義，且除非在本發明中進行清楚定義，否則不應將其解釋為具有理想或過於正式的含義。

根據一個實施例的電子裝置可為各種類型的電子裝置其中之一。電子裝置可包括例如可攜式通訊裝置（例如，智慧型電話）、電腦、可攜式多媒體裝置、可攜式醫療裝置、照相機、穿戴式裝置或家用電器。根據本發明的一個實施例，電子裝置並非僅限於上述該些裝置。

在本發明中使用的用語並非旨在限制本發明，而是旨在包括對應實施例的各種變化、等效形式或替代形式。關於附圖的說明，可使用相似的參考編號來指代相似或相關的元件。對應於一個項的名詞的單數形式可包括一或多個事物，除非相關上下文另外清楚地指示。本文中所使用的例如「A或B」、「A及B中的至少一者」、「A或B中的至少一者」、「A、B或C」、「A、B及C中的至少一者」以及「A、B或C中的至少一者」等片語中的每一者可包括在對應的一個片語中一起列舉的項的所有可能的組合。在本文中所使用的例如「第一（1^st ）」、「第二（2^nd ）」、「第一（first）」及「第二（second）」等用語可用於區分各組件，但並非旨在在其他態樣（例如，重要性或次序）限制所述組件。本發明的目的是，若在存在或不存在用語「以操作方式」或「以通訊方式」的情況下將一個元件（例如，第一元件）稱為「與」另一元件（例如，第二元件）「耦合」、「耦合至」所述另一元件、「與」所述另一元件「連接」、或「連接至」所述另一元件，則其指示所述元件可直接地（例如，有線地）、無線地或經由第三元件與所述另一元件耦合。

在本文中所使用的用語「模組」可包括在硬體、軟體或韌體中實施的單元，且可與其他用語（例如，「邏輯」、「邏輯區塊）、「部件」及「電路系統」）互換地使用。模組可為適於執行一或多個功能的單個整體組件或其最小單元或部件。例如，根據一個實施例，可以應用專用積體電路（application-specific integrated circuit，ASIC）的形式實施模組。

符碼偵測器區塊在基頻數據機內具有相對較高的功率消耗。符碼偵測器的功率消耗水準隨著調變階數（modulation order）或層數增加而增加。符碼偵測器可每RE地運行。由於符碼偵測器的高使用頻率，期望降低符碼偵測器的功率消耗並利用5G中所支援的全速度。

在衰落頻道（fading channel）中，頻道隨著時間及頻率而波動。此種波動意味著RE可能在相對好的頻道處需要功率較不密集的符碼偵測器且在相對差的頻道處需要功率較密集的符碼偵測器。本系統及方法包括為每一RE選擇所期望符碼偵測器的學習過程。

對於Q學習，將對頻道及訊號的觀測轉換成狀態（state），且將偵測器決策視為動作（action）。將每一偵測器的複雜度或等效功率消耗與解碼結果一起反映至獎勵（reward），所述解碼結果受所有RE的所有決策影響。

藉由反覆更新來改善Q值。藉由在兩個世界中遵循中間結果來調整對錯誤率進行約束的參數。模擬結果表明，所揭露的利用RL進行的公式化在區塊錯誤率（block error rate，BLER）及偵測利用率兩方面是有效的。

本系統及方法將預處理（pre-processing）及後處理（post-processing）均移動至基於RL的模式選擇中，即添加了將過去決策反映至當前狀態的回饋路徑。因此，預期演算法本身可自動地處置基於多層感知機（multi-layer perceptron，MLP）的方案的處理。此種方法使得基於RL的方案能夠獨立於人類，且能夠用自己的演算法來解決問題。

根據一個實施例，本系統及方法提供了不使用對樣本的試探性操縱（heuristic manipulation）進行的RL公式化、藉由盡可能使用最不複雜的偵測器達成的功率節省以及支援5G規範的資料驅動型模擬器（data-driven simulator）。

在無線系統中，基頻接收機包括頻道估計器、符碼偵測器及頻道解碼器。在該些元件中，符碼偵測器在第k RE處主要以二個變數運行，即所接收訊號

及所估計頻道元素

，其中k =1…K 。在不失一般性的情況下，假設層數與發射天線的數目相同，且在訊號被傳送至符碼偵測器之前，雜訊已被白化。

符碼偵測器的用途是為與經調變符碼對應的每一位元產生對數似然比（LLR），所述LLR被轉發至頻道解碼器。存在許多符碼偵測器，每一符碼偵測器在不同的複雜度等級下生成不同品質的LLR。本系統及方法提供一種推薦最低複雜度偵測器使得LLR的品質足夠好以被正確解碼的演算法。

圖1示出根據實施例具有符碼偵測器的用於MDP公式化的系統100的圖。系統100包括符碼偵測器102、LLR緩衝器104、頻道解碼器106、頻道特徵提取區塊108、延遲器（delay）110及LLR特徵提取區塊112、偵測器選擇區塊116及得分映射區塊（score mapping block）118。偵測器選擇區塊116是決定偵測器等級（detector level）的地方（例如，為偵測第k RE處的訊號，是僅最小均方估計（minimum mean square estimation，MMSE）偵測器即足夠還是需要最大似然（ML）偵測器）。在藉由RL被公式化並取得輸入（即，頻道及LLR）後，深度網路決定哪一偵測器是恰當的（即，足以有助於成功解碼以及足以降低複雜度）。偵測器選擇區塊116的目標是達成接近ML（最大複雜度偵測器）的效能，同時達成接近MMSE（最小複雜度偵測器）的複雜度。此二種偵測器分別是最不複雜偵測器及最複雜偵測器的實例。應理解，可利用更多偵測器等級。偵測器選擇區塊116自頻道特徵提取區塊108接收一或多個頻道特徵，並自LLR特徵提取區塊112接收一或多個LLR特徵。頻道特徵提取區塊108提取代表第k RE處的當前頻道品質的頻道特徵。LLR特徵提取區塊112提取代表直至第(k -1) RE為止的過去頻道品質的LLR特徵。LLR特徵是利用已產生並儲存於LLR緩衝器104中的LLR值來表達。例如，若所有先前的RE均選擇ML偵測器使得LLR品質足夠高，則當前RE將有很大機率選擇低複雜度偵測器，即預期使解碼器增益補償單位元錯誤。

假定第k RE，自

及

提取頻道特徵及LLR特徵。狀態

包括此二個特徵。頻道特徵代表

的瞬時頻道有多好。除

之外，亦可使用

來提取頻道特徵。LLR特徵被設計成反映直至第(k -1) RE為止已決定了哪些動作。LLR資訊

是由所有層的自第一RE至第(k -1) RE序連的LLR形成的集合，且被表達為

，其中

是自在第k RE處選擇的偵測器產生的LLR。以空集合來初始化

。在TB中的所有RE上，每一狀態包括狀態集合S ，狀態集合S 表示

的所有可能實現，其中k = 1,…,K 。

在得分映射區塊118處，偵測器選擇區塊116的輸出被轉換成複雜度得分

。低複雜度偵測器（例如，MMSE）以較高的得分映射，而高複雜度偵測器（例如，ML）以較低的得分映射。只要來自頻道解碼器106的解碼結果

通過如方程式（1）中定義的循環冗餘檢查（cyclic redundancy check，CRC），選擇低複雜度偵測器來最大化獎勵

之和即為有益的。

（1）

如本文所述，利用狀態、動作及獎勵之間的傳統索引記號，使得狀態

及動作

為第k RE產生獎勵

，而非

。

圖2示出根據實施例與單個TB對應的單個回合200的圖。可利用在RL上下文中使用的用語來抽象化方程式（1）的公式化。一個回合被定義為一個遊戲，以探索與單個TB相關聯的所有RE。自初始RE 202開始，偵測器選擇區塊116確定偵測器的類型（即，動作

），且回合在第(T -1) RE 204處結束。使用二個有區別的性質來代表當前特徵及過去特徵，所述當前特徵及過去特徵包括第k RE處的狀態

。定義了總共八個特徵，包括三個頻道特徵及五個LLR特徵。

圖3示出根據實施例使用RL神經網路進行偵測器選擇的流程圖300。在302處，系統提取代表當前環境的頻道特徵。系統可自RE中的頻道矩陣提取頻道特徵。頻道特徵包括對角間頻道功率比（diagonal-to-diagonal channel power ratio）、條件數（condition number）及僅使用

的總頻道功率（即，弗羅貝尼烏斯（frobenius）範數）。

在304處，系統提取LLR特徵。系統可使用直至前一RE為止所累積的LLR來提取LLR特徵。LLR特徵是使用LLR緩衝器104的輸出

而產生，且包括經正規化RE位置（k /T ~ [0,1)）、LLR分佈的絕對值、均值

、標準偏差

及軟符碼分佈。LLR特徵由方程式（2）代表：

（2）

其中

對應於欲一起解碼的TB內的相對RE位置，

及

對應於過去RE的LLR特徵的均值及標準偏差值，且

及

對應於過去RE處的星座圖（constellation map）上的軟符碼分佈及其均值/標準偏差。

對於軟符碼分佈，使用LLR

，可計算每一星座點的符碼概率。第k RE及第l 層的符碼概率如方程式（3）中所定義：

（3）

其中

是第m 個雙極性位元。然後，使用

的均值及標準偏差，如方程式（4）中：

（4）

下標1:k -1表示自1至k -1的索引。將得分指派給偵測器是在得分分佈~

下管控狀態

及動作

的策略

。然後，獎勵

對應於單個回合中複雜度得分與解碼懲罰（decoding penalty）之和。

在306處，系統基於所提取的頻道特徵及所提取的過去環境特徵使用RL神經網路為每一RE選擇符碼偵測器。利用最佳化問題在數學上公式化所揭露的方法，以在滿足錯誤率應被恰當維持的約束下最大化總的複雜度得分。此表達為方程式（5）：

（5）

其中

是指示解碼是否在k =T -1時失敗的二元事件。

是在同一回合處使用最複雜偵測器ML時的錯誤事件。隨機變數

表示在策略

下代表狀態動作演進的遊戲軌跡。同樣地，

代表在同一回合處偵測器ML的遊戲軌跡。僅在每回合的最後一個RE處才得到解碼結果。換言之，其中k >T 的

對獎勵或約束沒有貢獻，而是對

有貢獻。為了求解方程式（5），引入拉格朗日（Lagrange）乘數

來建立拉格朗日函數，如方程式（6）中。

（6）

詳細而言，拉格朗日函數演變成方程式（7）：

（7）

其中(a )是自以下事實而導出：

獨立於

，且若k >T ，則

= 0。(b )陳述現在以複雜度得分及解碼結果來定義對所揭露遊戲的獎勵，其中解碼失敗是以其懲罰參數（例如，拉格朗日乘數

）來懲罰。

當將策略網路（policy network）與價值網路（value network）一起啟用時，藉由使用若干種技術（例如，策略梯度演算法（policy-gradient algorithm）及行動者-評論者演算法（actor-critic algorithm））來更新

以調整複雜度得分至偵測器的映射。當僅啟用價值網路時，複雜度得分規則不變，同時藉由深度Q網路（deep Q-network，DQN）依據Q學習而調整

來最大化預期回報（expected return）。表1中提供了演算法1。表 1

如演算法1所示，重複迭代，直至所述演算法的錯誤率與ML的錯誤率相較足夠可靠為止。為了最小化錯誤率的敏感性，已利用方程式（8）執行模擬：

（8）

而非利用方程式（9）：

（9）

其中數值1/16及對數函數是藉由實證經驗而選擇的。應理解，可利用任何其他度量來判斷演算法結果是否可靠。

可基於深度學習（deep learning，DL）技術來選擇MIMO模式。使用MLP的MIMO模式選擇可使用頻道特徵。換言之，圖1所示系統100可在沒有來自LLR緩衝器104的回饋路徑的情況下使用。

對於離線訓練（offline training），以恰當標籤自

中的每一者產生頻道特徵。MLP訓練沒有回合的概念，使得可在所有樣本中任意選擇

。MLP網路被訓練來生成策略，如在方程式（10）中。

（10）

利用後處理來改善所述策略，所述後處理計算

與

（其中

）之間的裕度（margin）且重新標記偵測器類型以確保可靠的錯誤率。更新後的標籤被迭代地重新訓練。

線上程序（online procedure）為簡單的，以便在訓練後的MLP網路上正向傳播

的頻道特徵。然後，如在方程式（11）中選擇應對應於最低複雜度但足夠可靠的偵測器的最佳動作。

（11）

圖4示出根據一個實施例與模擬器相關聯的RL程序的圖。可在環境與代理（agent）之間執行RL以進行MIMO模式選擇。表2中提供的演算法2依據模擬器與神經網路之間的交互作用而重述演算法1。在表2中，第一「for」循環對應於循環410，第二「for」循環對應於循環412，且第三「for」循環對應於循環414。表 2

RL系統400包括用於測試RL區塊錯誤率（BLER）的BLER模擬器區塊402、產生策略的策略模擬器區塊404、目標Q值更新區塊406及Q函數迴歸區塊408。模擬器404以狀態/動作/獎勵四元組(s ,a ,s ′,r )來收集樣本，即遵循每回合的軌跡。為了幫助引導狀態以對其進行探索，本系統及方法僅在第一輪處使用頻道特徵。然後，所收集的樣本形成重放緩衝器（replay buffer），並使用離策略（off-policy）Q網路加以改善以最大化預期未來獎勵。為了改良策略，在區塊406及408處使用改善後的樣本並利用其狀態及動作至獎勵的映射來執行Q學習。重複該些步驟，直至在當前解碼懲罰下，Q值足夠可靠為止。然後，更新解碼懲罰參數µ ，使得在更新後的懲罰下重新產生樣本並將其饋送至重放緩衝器中。

所揭露演算法包括二次迭代。第一次迭代（被稱為外迭代（outer iteration））是針對用於以新解碼懲罰參數來收集樣本的θ (Q )，並迭代直至N max。第二次迭代（被稱為內迭代（inner iteration））是針對用以改善樣本品質的Q學習，並迭代直至K max。另外，雖然第二次迭代並非是串列迭代（serial iteration），但藉由並列迭代直至M max，會改良Q學習估計。

通常，RL演算法以如下問題開始：如何在404處以四元組(s ,a ,s ′,r )形式收集樣本以及何時更新預期未來平均獎勵（即，Q (s,a )）。不鼓勵使用每一回合的樣本或彼此足夠接近的回合內的樣本來過於頻繁地更新Q值，此歸因於該些樣本中嵌入了相關性。對自大緩衝器提取的樣本間的相關性的最小化已達成，且被稱為重放緩衝器或轉變資料集（dataset of transitions）。

執行串列作業及並列作業以分別更新RL結果及收集樣本。Q網路包括目標Q值更新406及Q函數迴歸408，此二者均以串列方式迭代地執行。迴歸本身是利用其自己的迭代進行，以為估計確保恰當水準的均方誤差（mean-square-error，MSE）。引導型決策產生初始Q值，如在方程式（12）中。

（12）

基於Q學習的決策依賴於在每一時刻自迴歸估計的

。因此，利用足以探索所有狀態的數目個樣本來訓練

是重要的。例如，假定狀態

，即使在訓練中已主要選擇了動作

，亦需要經歷不同的

。否則，

與

相較將未被定義或被不可靠地估計，此可能會引起意外行為。因此，ϵ貪婪演算法（greedy algorithm）對於在訓練時給出訪問意外動作的機會並確保所估計

較小至關重要。

在ϵ貪婪決策下，如在方程式（13）中產生Q值。

（13）

以同一Q值來利用max運算子，以選擇及評估動作。此引起選擇高估值的機會，並導致向上偏差（upward bias）。作為另一選擇，藉由使用不同的Q值來分離選擇及評估，此稱為雙重Q學習或雙重DQN。換言之，當前Q網路

用於選擇動作，且較舊的Q網路

用於評估動作。因此，方程式（13）被更新為方程式（14）。

（14）

以多個網路初始化在MLP網路上訓練更新後的

。網路初始化可為前一次外迭代的Q值參數、前一次內迭代的Q值參數或者來自沙維爾（Xavier）方法的隨機輸入。若Q值參數存在，則其將用作訓練的初始參數。亦利用來自沙維爾方法的隨機輸入來探索不同的初始化。

退出條件被定義為

及m >M th或m =M max。此種條件確保了所估計MSE足夠可靠，且在給定節點數目的情況下，至少預期網路得到充分利用。如在方程式（15）中計算MSE：

（15）

其中

是第i 樣本的所估計Q值。

圖5示出根據一個實施例的偵測器選擇的流程圖500。在502處，系統將頻道特徵及LLR特徵與動作一起注入至訓練後的網路。在504處，系統判斷是否測試了所有動作。若未測試所有動作，則系統重複至502。若測試了所有動作，則在506處，系統找到與最大Q值對應的最佳動作。在508處，系統使用與最佳動作對應的偵測器。

圖6示出根據一個實施例用於偵測器選擇的系統的圖。系統600將LLR特徵、頻道特徵及基於初始神經網路的動作注入至附加神經網路602中。在完成對神經網路602的訓練之後，系統600生成獎勵604並獲得網路權重（Q）606。系統600然後將LLR特徵、頻道特徵及基於先前Q 606的動作注入至神經網路602中。系統600生成獎勵608並重複所述過程。

圖7示出根據一個實施例的網路環境700中的電子裝置701的方塊圖。參照圖7，網路環境700中的電子裝置701可經由第一網路798（例如，短程無線通訊網路）與電子裝置702通訊，或經由第二網路799（例如，遠程無線通訊網路）與電子裝置704或伺服器708通訊。電子裝置701可經由伺服器708與電子裝置704通訊。電子裝置701可包括處理器720、記憶體730、輸入裝置750、聲音輸出裝置755、顯示裝置760、音訊模組770、感測器模組776、介面777、觸覺模組779、照相機模組780、電源管理模組788、電池789、通訊模組790、用戶識別模組（subscriber identification module，SIM）796、或天線模組797。在一個實施例中，可自電子裝置701省略所述組件中的至少一者（例如，顯示裝置760或照相機模組780），或者可將一或多個其他組件添加至電子裝置701。在一個實施例中，所述組件中的一些組件可被實施為單個積體電路（integrated circuit，IC）。例如，感測器模組776（例如，指紋感測器、虹膜感測器或照度感測器）可被嵌入於顯示裝置760（例如，顯示器）中。

處理器720可執行例如軟體（例如，程式740）以控制與處理器720耦合的電子裝置701的至少一個其他組件（例如，硬體或軟體組件），且可執行各種資料處理或計算。作為資料處理或計算的至少一部分，處理器720可將自另一組件（例如，感測器模組776或通訊模組790）接收的命令或資料載入於揮發性記憶體732中，處理儲存於揮發性記憶體732中的命令或資料，並將所得的資料儲存於非揮發性記憶體734中。處理器720可包括主處理器721（例如，中央處理單元（central processing unit，CPU）或應用處理器（application processor，AP））以及能夠獨立於主處理器721運行或與主處理器721相結合地運行的輔助處理器723（例如，圖形處理單元（graphics processing unit，GPU）、影像訊號處理器（image signal processor，ISP）、感測器集線器處理器（sensor hub processor）或通訊處理器（communication processor，CP）。另外或作為另一選擇，輔助處理器723可適於消耗較主處理器721少的功率，或執行特定功能。輔助處理器723可被實施為與主處理器721分離或被實施為主處理器721的一部分。

當主處理器721處於非現用（例如，睡眠）狀態時，輔助處理器723可代替主處理器721來控制與電子裝置701的組件中的至少一個組件（例如，顯示裝置760、感測器模組776或通訊模組790）相關的至少一些功能或狀態，或者當主處理器721處於現用狀態（例如，執行應用程式）時與主處理器721一起進行上述控制。根據一個實施例，輔助處理器723（例如，ISP或CP）可被實施為在功能上與輔助處理器723相關的另一個組件（例如，照相機模組780或通訊模組790）的一部分。

記憶體730可儲存電子裝置701的至少一個組件（例如，處理器720或感測器模組776）所使用的各種資料。所述各種資料可包括例如軟體（例如，程式740）以及用於與其相關的命令的輸入資料或輸出資料。記憶體730可包括揮發性記憶體732或非揮發性記憶體734。

程式740可作為軟體被儲存於記憶體730中，且可包括例如作業系統（operating system，OS）742、中間軟體744或應用程式746。

輸入裝置750可自電子裝置701的外部（例如，使用者）接收電子裝置701的其他組件（例如，處理器720）將使用的命令或資料。輸入裝置750可包括例如麥克風、滑鼠或鍵盤。

聲音輸出裝置755可向電子裝置701的外部輸出聲音訊號。聲音輸出裝置755可包括例如揚聲器或接收器。揚聲器可用於一般目的，例如播放多媒體或錄製，且接收器可用於接收來電。根據一個實施例，接收器可被實施為自揚聲器分離或被實施為揚聲器的一部分。

顯示裝置760可在視覺上向電子裝置701的外部（例如，使用者）提供資訊。顯示裝置760可包括例如顯示器、全像裝置（hologram device）、或投影儀以及用於控制顯示器、全像裝置以及投影儀中的對應一者的控制電路系統。根據一個實施例，顯示裝置760可包括適於偵測觸控的觸控電路系統、或適於量測由觸控所產生的力的強度的感測器電路系統（例如，壓力感測器）。

音訊模組770可將聲音轉換為電性訊號，反之亦可。根據一個實施例，音訊模組770可經由輸入裝置750獲得聲音，或經由聲音輸出裝置755或與電子裝置701直接地（例如，有線地）或無線地耦合的外部電子裝置702的耳機而輸出聲音。

感測器模組776可偵測電子裝置701的操作狀態（例如，電源或溫度）或電子裝置701外部的環境狀態（例如，使用者的狀態），且然後產生與所偵測狀態對應的電性訊號或資料值。感測器模組776可包括例如手勢感測器、陀螺儀感測器、大氣壓力感測器、磁性感測器、加速度感測器、抓握感測器、接近感測器、顏色感測器、紅外線（infrared，IR）感測器、生物識別感測器（biometric sensor）、溫度感測器、濕度感測器或照度感測器。

介面777可支援將用於電子裝置701的一或多個指定協定，以直接地（例如，有線地）或無線地與外部電子裝置702耦合。根據一個實施例，介面777可包括例如高清晰度多媒體介面（high definition multimedia interface，HDMI）、通用串列匯流排（universal serial bus，USB）介面、安全數位（secure digital，SD）卡介面、或音訊介面。

連接端子778可包括連接器，電子裝置701可經由所述連接器與外部電子裝置702實體連接。根據一個實施例，連接端子778可包括例如HDMI連接器、USB連接器、SD卡連接器或音訊連接器（例如，耳機連接器）。

觸覺模組779可將電性訊號轉換為機械刺激（例如，振動或運動）或電性刺激，所述機械刺激或電性刺激可由使用者藉由觸覺或動覺辨識。根據一個實施例，觸覺模組779可包括例如馬達、壓電元件或電性刺激器。

照相機模組780可捕獲靜止影像或移動影像。根據一個實施例，照相機模組780可包括一或多個透鏡、影像感測器、影像訊號處理器或閃光燈。

電源管理模組788可管理被供應至電子裝置701的電源。電源管理模組788可被實施為例如電源管理積體電路（power management integrated circuit，PMIC）的至少一部分。

電池789可向電子裝置701的至少一個組件供電。根據一個實施例，電池789可包括例如不可再充電的一次電池、可再充電的二次電池、或燃料電池。

通訊模組790可支援在電子裝置701與外部電子裝置（例如，電子裝置702、電子裝置704或伺服器708）之間建立直接（例如，有線）通訊通道或無線通訊通道，並經由所建立的通訊通道執行通訊。通訊模組790可包括一或多個能夠獨立於處理器720（例如，AP）運行的通訊處理器且支援直接（例如，有線）通訊或無線通訊。根據一個實施例，通訊模組790可包括無線通訊模組792（例如，蜂巢式通訊模組、短程無線通訊模組或全球導航衛星系統（global navigation satellite system，GNSS）通訊模組）或有線通訊模組794（例如，區域網路（local area network，LAN）通訊模組或電源線通訊（power line communication，PLC）模組）。該些通訊模組中的對應一者可經由第一網路798（例如短程通訊網路，例如藍芽^TM 、直接無線保真（wireless-fidelity，Wi-Fi）或紅外線資料協會（Infrared Data Association，IrDA）的標準）或第二網路799（例如遠程通訊網路，例如蜂巢式網路、網際網路或電腦網路（例如，LAN或廣域網路（wide area network，WAN）））與外部電子裝置進行通訊。這些不同類型的通訊模組可被實施為單個組件（例如，單個IC），或者可被實施為彼此分開的多個組件（例如，多個IC）。無線通訊模組792可使用儲存於用戶識別模組796中的用戶資訊（例如，國際行動用戶識別（international mobile subscriber identity，IMSI））來在通訊網路（例如，第一網路798或第二網路799）中識別及認證電子裝置701。

天線模組797可向電子裝置701的外部（例如，外部電子裝置）發射訊號或電力，或自電子裝置701的外部（例如，外部電子裝置）接收訊號或電力。根據一個實施例，天線模組797可包括一或多個天線，且可例如由通訊模組790（例如，無線通訊模組792）自所述一或多個天線選擇適用於在通訊網路（例如第一網路798或第二網路799）中使用的通訊方案的至少一個天線。然後，可經由所選擇的至少一個天線在通訊模組790與外部電子裝置之間發射或接收訊號或電力。

上述組件中的至少一些組件可相互耦合，並且經由與外部設備之間的通訊方案（例如匯流排、通用輸入及輸出（general purpose input and output，GPIO）、串列周邊介面（serial peripheral interface，SPI）或行動產業處理器介面（mobile industry processor interface，MIPI）在其之間傳遞訊號（例如，命令或資料）。

根據一個實施例，命令或資料可經由與第二網路799耦合的伺服器708在電子裝置701與外部電子裝置704之間發射或接收。電子裝置702及704中的每一者可為與電子裝置701相同類型或不同類型的裝置。將在電子裝置701處執行的全部或部分操作可在外部電子裝置702、704或708中的一或多者處執行。例如，若電子裝置701應自動、或因應於來自使用者或另一裝置的請求而執行功能或服務，則電子裝置701可請求一或多個外部電子裝置來執行所述功能或服務的至少一部分而非自身執行所述功能或服務，或除自身執行所述功能或服務以外還請求上述外部電子裝置來執行所述功能或服務的至少一部分。接收請求的一或多個外部電子裝置可執行所請求的功能或服務的至少一部分、或與所述請求相關的附加功能或附加服務，並將執行的結果傳送至電子裝置701。電子裝置701可提供所述結果（在將所述結果進行進一步的處理或不作進一步處理的情況下）作為對所述請求的答覆的至少一部分。為此，例如，可使用雲端計算、分佈式計算或客戶端-伺服器計算技術。

一個實施例可被實施為包括一或多個指令的軟體（例如，程式740），所述指令儲存於可由機器（例如，電子裝置701）讀取的儲存媒體（例如，內部記憶體736或外部記憶體738）中。例如，電子裝置701的處理器可調用儲存於儲存媒體中的一或多個指令中的至少一者，並在使用或不使用在所述處理器的控制下的一或多個其他組件的情況下來執行所述指令。因此，可操作機器以根據調用的至少一個指令執行至少一個功能。所述一或多個指令可包括由編譯器產生的碼或可由解譯器執行的碼。可以非暫時性儲存媒體的形式提供機器可讀取儲存媒體。用語「非暫時性」表示儲存媒體是有形的裝置，並且不包括訊號（例如，電磁波），但此用語不區分資料半永久儲存於儲存媒體中的情形與資料臨時儲存於儲存媒體中的情形。

根據一個實施例，本發明的方法可包括並設置於電腦程式產品中。電腦程式產品可作為產品在賣方與買方之間進行交易。電腦程式產品可以機器可讀取儲存媒體（例如，光碟唯讀記憶體（compact disc read only memory，CD-ROM））的形式分配，或者藉由應用商店（例如，（電子市場（Play Store）^TM ）在線上分配（例如，下載或上傳），或直接在兩個使用者裝置（例如，智慧型電話）之間分配。若在線上分配，則電腦程式產品的至少一部分可被臨時產生或至少臨時儲存於機器可讀取儲存媒體（例如，製造商的伺服器的記憶體、應用程式商店的伺服器，或中繼伺服器）中。

根據一個實施例，上述組件中的每一組件（例如，模組或程式）可包括單個實體或多個實體。可省略上述組件中的一或多者，或者可添加一或多個其他組件。作為另一選擇或另外，多個組件（例如，模組或程式）可整合至單個組件中。在此情況下，整合的組件仍可以與整合前由多個組件中的相應一者執行的功能相同或類似的方式執行所述多個組件中的每一者的一或多個功能。由所述模組、程式或其他組件執行的操作可依序地、並行地、重複地或探試性地進行，或者可以不同的次序執行或省略所述操作中的一或多者，或者可添加一或多個其他操作。

儘管已在本發明的詳細說明中闡述了本發明的某些實施例，然而本發明可在不背離本發明的範圍的條件下被修改為各種形式。因此，本發明的範圍不應僅基於所述實施例來確定，而是更確切而言應基於隨附申請專利範圍及其等效範圍來確定。

100、600:系統 102:符碼偵測器 104:對數似然比（LLR）緩衝器 106:頻道解碼器 108:頻道特徵提取區塊 110:延遲器 112:LLR特徵提取區塊 116:偵測器選擇區塊 118:得分映射區塊 200:單個回合 202:初始資源元素（RE） 204:第(T -1) RE 300、500:流程圖 302、304、306、502、504、506、508:操作 400:強化學習（RL）系統 402:區塊錯誤率（BLER）模擬器區塊 404:策略模擬器區塊/模擬器 406:目標Q值更新區塊/區塊/目標Q值更新 408:Q函數迴歸區塊/區塊/Q函數迴歸 410、412、414:循環 602:神經網路 604、608:獎勵 606:網路權重（Q） 700:網路環境 701、702、704:電子裝置 708:電子裝置/伺服器 720:處理器 721:主處理器 723:輔助處理器 730:記憶體 732:揮發性記憶體 734:非揮發性記憶體 736:內部記憶體 738:外部記憶體 740:程式 742:作業系統（OS） 744:中間軟體 746:應用程式 750:輸入裝置 755:聲音輸出裝置 760:顯示裝置 770:音訊模組 776:感測器模組 777:介面 778:連接端子 779:觸覺模組 780:照相機模組 788:電源管理模組 789:電池 790:通訊模組 792:無線通訊模組 794:有線通訊模組 796:用戶識別模組（SIM） 797:天線模組 798:第一網路 799:第二網路

藉由結合附圖閱讀以下詳細說明，本發明的某些實施例的以上及其他態樣、特徵、及優點將更顯而易見，在附圖中：圖1示出根據實施例具有符碼偵測器的用於馬可夫決策過程（Markov decision process，MDP）公式化（formulation）的系統的圖。圖2示出根據實施例與單個傳輸區塊（transport block，TB）對應的單個回合（episode）的圖。圖3示出根據實施例使用RL神經網路進行偵測器選擇的流程圖。圖4示出根據一個實施例與模擬器相關聯的RL程序的圖。圖5示出根據一個實施例的偵測器選擇的流程圖。圖6示出根據一個實施例用於偵測器選擇的系統的圖。圖7示出根據實施例的網路環境中的電子裝置的方塊圖。

300:流程圖

302、304、306:操作

Claims

一種用於選擇符碼偵測器的方法，包括：為第k資源元素（RE）提取第一特徵集合，其中k是大於1的整數；自第一資源元素至第(k-1)資源元素提取第二特徵集合；以及基於所提取的所述第一特徵集合及所提取的所述第二特徵集合，使用強化學習（RL）神經網路為所述第k資源元素選擇符碼偵測器。
如請求項1所述的方法，其中所述第一特徵集合基於所述第k資源元素的頻道矩陣。
如請求項1所述的方法，其中所述第二特徵集合是基於所累積的對數似然比（LLR）。
如請求項1所述的方法，其中所述第二特徵集合包括經正規化位置、對數似然比（LLR）分佈的絕對值、或軟符碼分佈。
如請求項1所述的方法，其中所述強化學習神經網路包括多層感知機（MLP）。
如請求項1所述的方法，其中所述強化學習神經網路產生與偵測器的複雜度對應的複雜度得分。
如請求項6所述的方法，其中所述符碼偵測器是基於所產生的所述複雜度得分來選擇。
如請求項1所述的方法，其中所述強化學習神經網路產生指示解碼是否將成功的解碼懲罰。
如請求項8所述的方法，其中所述解碼懲罰是基於拉格朗日乘數懲罰參數。
如請求項1所述的方法，其中所述強化學習神經網路是使用深度Q網路（DQN）來訓練。
一種用於選擇符碼偵測器的系統，包括：記憶體；以及處理器，被配置成：為第k資源元素（RE）提取第一特徵集合，其中k是大於1的整數；自第一資源元素至第(k-1)資源元素提取第二特徵集合；以及基於所提取的所述第一特徵集合及所提取的所述第二特徵集合，使用強化學習（RL）神經網路為所述第k資源元素選擇符碼偵測器。
如請求項11所述的系統，其中所述第一特徵集合基於所述第k資源元素的頻道矩陣。
如請求項11所述的系統，其中所述第二特徵集合是基於所累積的對數似然比（LLR）。
如請求項11所述的系統，其中所述第二特徵集合包括經正規化位置、對數似然比（LLR）分佈的絕對值、或軟符碼分佈。
如請求項11所述的系統，其中所述強化學習神經網路包括多層感知機（MLP）。
如請求項11所述的系統，其中所述強化學習神經網路產生與偵測器的複雜度對應的複雜度得分。
如請求項16所述的系統，其中所述符碼偵測器是基於所產生的所述複雜度得分來選擇。
如請求項11所述的系統，其中所述強化學習神經網路產生指示解碼是否將成功的解碼懲罰。
如請求項18所述的系統，其中所述解碼懲罰是基於拉格朗日乘數懲罰參數。
如請求項11所述的系統，其中所述強化學習神經網路是使用深度Q網路（DQN）來訓練。