WO2021227508A1

WO2021227508A1 - 基于深度强化学习的工业5g动态多优先级多接入方法

Info

Publication number: WO2021227508A1
Application number: PCT/CN2020/139322
Authority: WO
Inventors: 于海斌; 刘晓宇; 许驰; 曾鹏; 金曦; 夏长清
Original assignee: 中国科学院沈阳自动化研究所
Priority date: 2020-05-09
Filing date: 2020-12-25
Publication date: 2021-11-18
Also published as: CN111628855B; US20220217792A1; CN111628855A

Abstract

本发明涉及工业5G网络技术，具体地说，是基于深度强化学习的工业5G动态多优先级多接入方法，包括以下步骤：建立工业5G网络模型；建立基于深度强化学习的动态多优先级多信道接入神经网络模型；采集工业5G网络内全部工业5G终端多个时隙的状态、动作、奖励信息作为训练数据；使用采集的数据训练神经网络模型，直至丢包率和端到端时延满足工业通信要求；收集当前时隙工业5G网络内全部工业5G终端的状态信息，作为神经网络模型输入，进行多优先级信道分配，工业5G终端根据信道分配结果进行多接入。本发明能够高效、实时地对工业5G网络内不同优先级的工业5G终端进行多信道分配，确保大规模并发接入。

Description

基于深度强化学习的工业5G动态多优先级多接入方法

技术领域

本发明提供基于深度强化学习的工业5G网络动态多优先级多信道接入方法，针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信(Ultra-Reliable and Low Latency Communication，URLLC)要求，考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题，特别涉及工业5G终端的丢包率和端到端时延约束，属于工业5G网络技术领域。

背景技术

随着工业4.0的发展，大量的分布式工业5G终端互联互通，产生了海量的具有不同实时性、可靠性传输要求的数据。为实现灵活可定制的智能制造过程，分布式工业5G终端间使用工业无线网络实现数据通信。实时性、可靠性是数据通信最重要的服务质量要求，工业5G网络以其高可靠低时延和大规模机器间通信的性能保证，成为工业无线网络的通信使能技术。

多信道接入允许工业5G终端的大规模并发接入，能够有效地提高频谱利用效率，然而传统的多信道接入算法一般是基于已知的系统模型的，对于大规模机器间通信的工业场景，工业5G终端数量和数据是时变的，难以获得准确的系统模型。数据传输的高可靠低时延是工业通信中最重要的服务质量要求，工业5G终端产生的数据对于传输的实时性、可靠性的要求是时变的，然而传统工业生产过程中终端的优先级一般是恒定的，难以保证海量的时变的数据的实时性、可靠性传输要求。

对于大规模的工业5G终端动态多优先级多信道接入，不仅难以获得准确的系统模型，而且会造成算法的状态空间爆炸。深度强化学习，能够利用深度学习估计系统模型，结合强化学习求解动态多优先级多信道接入，有效地解决了系统模型建模难和状态空间爆炸问题。

发明内容

为实现上述发明目的，本发明的目的在于针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信要求，考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题，提供基于深度强化学习的工业5G网络动态多优先级多接入方法，实现特定丢包率和端到端时延约束下的工业5G终端的动态多优先级多接入。

本发明采用如下技术方案：基于深度强化学习的工业5G动态多优先级多接入方法，对于工业5G网络，通过训练神经网络模型实现信道分配，包括以下步骤：

1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型；

2)采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据，训练神经网络模型；

3)收集当前时隙工业5G网络内全部工业5G终端的状态信息，作为神经网络模型输入，通过神经网络模型进行多优先级信道分配，工业5G终端根据信道分配结果进行多接入。

所述工业5G网络包括：1台工业5G基站，1台边缘计算服务器，以及N个工业5G终端；

所述边缘计算服务器，与工业5G基站相连，用于训练深度强化学习神经网络模型；

所述工业5G基站，从边缘计算服务器下载训练后的神经网络模型，用于调度工业5G终端的动态多优先级的多信道接入；

所述工业5G终端，与工业5G基站通过工业5G网络连接，用于产生不同传输要求的工业数据。

对于工业5G网络，建立工业5G网络模型，包括：确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。

所述建立基于深度强化学习的动态多优先级多信道接入神经网络模型，如下：

构建q-eval深度神经网络和q-next深度神经网络两个结构相同的神经网络模型，神经网络参数params＝[x _in，x _rnn，x _fc，x _out，w，b]，其中，x _in表示输入层神经元个数，并等于工业5G终端n(n∈N)的状态向量s _n长度，N表示工业5G终端个数，x _rnn表示循环神经网络层神经元个数，x _fc表示全连接层神经元个数，x _out表示输出层神经元个数并等于工业5G终端n的动作向量a _n长度，w表示权重，b表示偏置；

其中，q-eval深度神经网络用于获得工业5G终端n当前状态向量s _n的动作向量a _n的估值函数Q(s _n，a _n)；q-next神经网络模型用于选择工业5G终端n的下一个状态向量s _n的最大动作向量a′ _n的估值函数

利用强化学习

更新q-eval深度神经网络参数w、b；其中，α表示学习速率，γ表示折扣比例，r _n表示工业5G终端n在当前状态s _n执行动作向量a _n获得的奖励；

q-next深度神经网络的初始化参数与q-eval深度神经网络的初始化参数相同，q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新，q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。

所述训练数据，包括：

工业5G终端n在时隙t(t∈T)的状态向量s _n(t)＝[c _n(t)，ack _n(t)，p _n(t)，cf(t)]，其中c _n(t)表示工业5G终端n在时隙t开始时选择的信道c(c∈C)，ack _n(t)表示工业5G终端n在时隙t结束时数据是否发送成功，p _n(t)表示工业5G终端n在时隙t的优先级p(p∈P)，cf(t)表示时隙t所有信道c的占用率；

工业5G终端n在时隙t的动作向量

其中

表示工业5G终端n在时隙t被分配的信道c(c∈C)；

工业5G终端n在时隙t的奖励向量r _n(t)＝[r _n(t)]，其中r _n(t)表示工业5G终端n在时隙t结束时获得的奖励。

所述训练神经网络模型，包括以下步骤：

(1)将工业5G终端n时隙t的状态向量s _n(t)＝[c _n(t)，ack _n(t)，p _n(t)，cf(t)]输入q-eval深度神经网络；

(2)通过q-eval深度神经网络选择动作向量：根据ε-greedy算法选择动作向量，以概率ε随机选择动作向量，即信道，或者以概率1-ε选择获得估值函数最大(即

)的动作向量，即信道；

(3)根据动作向量a _n(t)获得奖励r _n(t)和观测o _n(t)；

(4)根据工业5G终端n时隙t的状态向量s _n(t)和动作向量a _n(t)，获得工业5G终端n下一时隙t+1的状态向量s′ _n(t+1)，存储<s _n(t)，a _n(t)，r _n(t)，s′ _n(t+1)>作为经验池经验，每个时隙的<s _n(t)，a _n(t)，r _n(t)，s′ _n(t+1)>作为一个经验；

(5)将s′ _n(t+1)输入q-next深度神经网络获得

以及目标估计值

(6)从经验池中使用经验回放法随机抽取M个经验，计算每个经验的Q _target和

并根据均方误差损失函数

和梯度下降

更新q-eval深度神经网络参数w、b，其中η表示神经网络学习速率，θ(t)表示时隙t的神经网络超参数；

(7)重复迭代I次q-eval深度神经网络后，复制q-eval深度神经网络参数w、b给q-next深度神经网络；

(8)重复迭代(1)-(7)直至均方误差损失函数收敛，此时得到的q-eval深度神经网络作为训练后的神经网络模型。

得到训练的神经网络模型后，对该神经网络模型进行优化：

收集工业5G网络内全部工业5G终端的历史时隙的状态信息，通过该神经网络模型得到多优先级信道分配结果；当该分配结果的网络性能符合要求时，即丢包率、系统全局丢包率、端对端时延均小于对应的网络性能指标，则该神经网络模型作为最终的训练后的神经网络模型，用于进行最终的多优先级信道分配；

否则，重复步骤1)-2)，直到神经网络模型符合要求为止。

所述网络性能指标包括：

丢包率

其中

表示在时隙t信道c是否被分配给工业5G终端n；

与工业5G终端n优先级p相关；

表示时隙t开始时工业5G终端n在信道c上准备传输的数据包数量，

表示时隙t结束时工业5G终端n在信道c上成功传输的数据包数量；

系统全局丢包率

其中

表示全部N个工业5G终端在时隙t成功传输的数据包数量，

表示全部N个工业5G终端在时隙t等待传输的数据包数量；

端到端时延定义为

其中

定义为工业5G终端n的传播时延，即电磁波从一个工业5G终端发送端到另一个工业5G终端接收端所经历的时延；

定义为工业5G终端n的传输时延，即从数据包的第一个比特被发送到最后一个比特被发送所经历的时延；

定义为工业5G终端n的排队时延，即数据包到达工业5G终端到离开工业5G终端所经历的时延；d _hw定义为硬件时延，即工业5G终端的硬件性能造成的时延。

所述收集当前工业5G网络内全部工业5G终端的状态信息，作为神经网络模型输入，通过神经网络模型进行多优先级信道分配，包括以下步骤：

收集当前时隙t工业5G网络内全部N个工业5G终端的状态向量

作为训练好的神经网络模型输入，得到输出动作向量

根据得到的输出动作向量，工业基站调度工业5G终端接入信道。

基于深度强化学习的工业5G动态多优先级多接入系统，包括：

边缘计算服务器，用于建立基于深度强化学习的动态多优先级多信道接入神经网络模型并训练；

工业5G终端，用于产生不同传输要求的工业数据，收集终端的状态信息、动作信息、奖励信息；

工业5G基站，用于下载训练后的神经网络模型，并将工业5G终端的状态信息作为该神经网络模型输入，通过该神经网络模型进行多优先级信道分配。

本发明具有以下有益效果及优点：

1、本发明针对工业5G的高可靠低时延通信需求，将工业5G终端数据传输要求的实时性、可靠性的时变性映射为工业5G终端的动态优先级，使用基于深度强化学习的动态多优先级多信道接入算法解决了工业5G网络中大量的分布式工业5G终端间通信以及海量的实时性、可靠性要求各异的数据造成的传统方法建模难和算法状态空间爆炸的问题，有效地保证了高实时数据的可靠传输和不同优先级的工业5G终端之间的信道接入分配。

2、本发明具有较强的通用性和实用性，能够自适应地处理工业5G终端、信道变化，能够有效地保证工业5G终端的动态多优先级多接入，实现特定丢包率和端到端时延约束下的稳定传输，提高系统安全性和稳定性。

附图说明

图1是本发明方法流程图；

图2是系统模型图；

图3是深度强化学习架构图。

具体实施方式

下面结合附图对本发明进行详细说明。

本发明涉及工业5G网络技术，包括以下步骤：建立工业5G网络模型，确定工业5G终端数量、优先级以及信道数；建立基于深度强化学习的动态多优先级多信道接入神经网络模型，并初始化模型参数；采集工业5G网络内全部工业5G终端多个时隙的状态、动作、奖励信息作为训练数据；使用采集的数据训练神经网络模型，直至丢包率和端到端时延满足工业通信要求；收集当前时隙工业5G网络内全部工业5G终端的状态信息，作为神经网络模型输入，进行多优先级信道分配，工业5G终端根据信道分配结果进行多接入。本发明针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信要求，发明了基于深度强化学习的动态多优先级多信道接入算法。该方法充分考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题，能够高效、实时地对不同优先级的工业5G终端进行多信道分配，确保大规模并发接入。

本发明主要包括以下实现过程，如图1，包括以下步骤：

步骤1：建立工业5G网络模型，确定工业5G终端数量、优先级以及信道数；

步骤2：建立基于深度强化学习的动态多优先级多信道接入神经网络模型，并初始化模型参数；

步骤3：采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据；

步骤4：使用采集的训练数据训练神经网络模型，直至丢包率和端到端时延满足工业通信要求；

步骤5：收集当前时隙工业5G网络内全部工业5G终端的状态信息，作为神经网络模型输入，进行多优先级信道分配，工业5G终端根据信道分配结果进行多接入。

该实施例是按照如图1所示的流程实施的，具体步骤如下：

1、建立工业5G网络模型，如图2，确定工业5G终端数量、优先级以及信道数：

(1)工业5G网络包括：1台工业5G基站，1台边缘计算服务器，以及N个工业5G终端；其中，边缘计算服务器与工业5G基站相连，用于训练深度强化学习神经网络模型；工业5G基站从边缘计算服务器下载更新训练的神经网络模型，用于调度动态多用户优先级的多信道接入；工业5G终端，与工业5G基站通过工业5G网络连接，用于产生不同传输要求的工业数据；

(2)确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。其中，优先级p与传输数据的实时性、可靠性相关，实时性、可靠性传输要求越高，工业5G终端优先级越高。工业5G网络模型主要包括两类情况：工业设备数量N小于信道数C，工业设备数量N大于等于信道数C。

2、建立基于深度强化学习的动态多优先级多信道接入神经网络模型，并初始化模型参数，如图3，包括以下步骤：

(1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型，包括输入层、循环神经网络(Recurrent Neural Network，RNN)层，全连接层，输出层；

(2)初始化深度神经网络参数params＝[x _in，x _rnn，x _fc，x _out，w，b]，其中，x _in表示输入层神经元个数，并等于工业5G终端n(n∈N)的状态向量s _n长度，N表示工业5G终端个数，x _rnn表示循环神经网络层神经元个数，x _fc表示全连接层神经元个数，x _out表示输出层神经元个数并等于工业5G终端n的动作向量a _n长度，w表示权重，b表示偏置；

(3)构建q-eval和q-next两个结构相同的深度神经网络，其中：q-eval深度神经网络用于获得工业5G终端n(n∈N)当前状态向量s _n的动作向量a _n的估值函数Q(s _n，a _n)；q-next深度神经网络通过选择工业5G终端n的下一个状态向量s _n的最大动作向量a _n的估值函数

利用强化学习

更新q-eval深度神经网络参数。其中，α表示学习速率，γ表示折扣比例，r _n表示工业5G终端n在当前状态s _n执行动作向量a _n获得的奖励。q-next深度神经网络的初始化参数与q-eval深度神经网络相同，q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新，q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。

3、采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据包括：

(1)工业5G终端n(n∈N)在时隙t(t∈T)的状态向量s _n(t)＝[c _n(t)，ack _n(t)，p _n(t)，cf(t)]，其中c _n(t)表示工业5G终端n在时隙t时选择的信道，大小为C+1的向量V _c，即当工业5G终端n选择信道c时，V _c的第c+1个值为1，其余值为0，当工业5G终端n选择不发送时，V _c的第0个值为1，其余值为0；ack _n(t)表示工业5G终端n在时隙t结束数据是否发送成功，如果ack _n(t)＝0，表示工业5G终端n在时隙t发送数据失败；如果ack _n(t)＝1，表示工业5G终端n在时隙t发送数据成功；ack _n(t)从观测o _n(t)获取；p _n(t)表示工业5G终端n在时隙t的优先级，由工业5G终端n在时隙t要发送的数据的实时性和可靠性要求决定，数据的实时性和可靠性要求越高，p _n(t)值越小，优先级越高；cf(t)表示时隙t所有信道c的占用率，大小为C+1的向量V _cf，即每当有一个工业5G终端选择信道c传输时，V _cf的第c+1个值加1，每当有一个工业5G终端选择不发送时，V _cf的第0个值加1，信道c的数值越高，表明选择选择信道c的工业5G终端越多；

(2)工业5G终端n在时隙t的动作向量

其中

是大小为C+1的向量

当工业5G终端n在时隙t被分配信道c(c∈C)传输数据时，

的第c+1个的估值函数最大，当工业5G终端n在时隙t被分配不发送数据时，

的第0个的估值函数最大；

(3)工业5G终端n在时隙t的奖励向量r _n(t)＝[r _n(t)]，其中r _n(t)表示工业5G终端n在时隙t结束获得的奖励，奖励值与数据传输是否成功和工业5G终端优先级相关。如果工业5G终端n在时隙t发送数据失败，无论工业5G终端优先级，工业5G终端n获得的奖励为负值；如果工业5G终端n在时隙t发送数据成功，工业5G终端优先级越高，工业5G终端n获得的奖励越高，为正值。

4、使用采集的数据训练神经网络模型，直至丢包率和端到端时延满足工业控制通信要求，其中神经网络训练过程包括以下步骤：

(1)将工业5G终端n时隙t状态向量s _n(t)＝[c _n(t)，ack _n(t)，p _n(t)，cf(t)]输入q-eval深度神经网络；

(2)根据ε-greedy算法选择动作向量，设定概率ε，以概率ε随机选择动作向量，即信道，或者以概率1-ε选择获得估值函数最大(即

)的动作向量，即信道；

(3)根据动作向量a _n(t)计算获得的奖励r _n(t)和观测o _n(t)；

(4)根据工业5G终端n时隙t的状态向量s _n(t)和动作向量a _n(t)，获得工业5G终端n下一时隙t+1的状态向量s′ _n(t+1)，存储<s _n(t)，a _n(t)，r _n(t)，s′ _n(t+1)>作为经验池经验；每个时隙的< s _n(t)，a _n(t)，r _n(t)，s′ _n(t+1)>作为一个经验；

(5)将s′ _n(t+1)输入q-next深度神经网络获得

以及目标估计值

并根据均方误差损失函数

和梯度下降

(8)重复迭代(1)-(7)直至均方误差损失函数收敛。

5、使用采集的数据训练神经网络模型，直至丢包率和端到端时延满足工业控制通信要求，其中丢包率和端到端时延性能指标包括：

(1)

表示在时隙t信道c是否被分配给工业5G终端n，如果

表示在时隙t信道c没有被分配给工业5G终端n，如果

表示在时隙t信道c被分配给工业5G终端n；高优先级工业5G终端能够有较高概率接入信道传输数据，低优先级工业5G终端有较低概率接入信道传输数据，即工业5G终端n的优先级越高，

的概率越高；

(2)假定信道容量充足，能够满足工业5G终端最大数据包的发送需求。当工业5G终端数N小于等于信道数C，所有工业5G终端都能接入信道传输数据，工业5G终端n丢包率

当工业5G终端数N大于信道数C，工业5G终端n丢包率

工业5G终端n优先级p越高，

概率越高。

(3)假定信道容量充足，能够满足终端最大数据包的发送需求。当工业5G终端数N小于等于信道数C，所有工业5G终端都能接入信道传输数据，系统全局丢包率ρ(t)＝0；当工业5G终端数N大于信道数C，系统全局丢包率

其中

表示全部N个工业5G终端在时隙t成功传输的数据包数量，

表示全部N个工业5G终端在时隙t等待传输的数据包数量；

(4)端到端时延定义为

其中

定义为工业5G终端n的传播时延，即电磁波从发送端到接收端所经历的时延；

定义为工业5G终端n的排队时延，即数据包到达工业5G终端到离开工业5G终端所经历的时延，工业5G终端n优先级p越高，排队时延越小；d _hw定义为硬件时延，即工业5G终端的硬件性能造成的时延。

(5)判断

ρ(t)和

是否满足具体系统模型下的性能要求，如果满足，模型训练完成，否则，继续训练模型直至满足性能要求。

6、收集当前时隙工业5G网络内全部工业5G终端的状态信息，作为神经网络模型输入，进行多优先级信道分配；工业5G终端根据信道分配结果进行多接入包括：

(1)收集当前时隙t工业5G网络内全部N个工业5G终端的状态向量

作为训练好的神经网络模型输入，得到输出动作向量

(2)根据得到的输出动作向量，工业基站集中调度工业5G终端接入信道。

Claims

基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，对于工业5G网络，通过训练神经网络模型实现信道分配，包括以下步骤：

1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型；

2)采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据，训练神经网络模型；

3)收集当前时隙工业5G网络内全部工业5G终端的状态信息，作为神经网络模型输入，通过神经网络模型进行多优先级信道分配，工业5G终端根据信道分配结果进行多接入。
根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，所述工业5G网络包括：1台工业5G基站，1台边缘计算服务器，以及N个工业5G终端；

所述边缘计算服务器，与工业5G基站相连，用于训练深度强化学习神经网络模型；

所述工业5G基站，从边缘计算服务器下载训练后的神经网络模型，用于调度工业5G终端的动态多优先级的多信道接入；

所述工业5G终端，与工业5G基站通过工业5G网络连接，用于产生不同传输要求的工业数据。
根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，对于工业5G网络，建立工业5G网络模型，包括：确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。
根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，所述建立基于深度强化学习的动态多优先级多信道接入神经网络模型，如下：

构建q-eval深度神经网络和q-next深度神经网络两个结构相同的神经网络模型，神经网络参数params＝[x _in，x _rnn，x _fc，x _out，w，b]，其中，x _in表示输入层神经元个数，并等于工业5G终端n(n∈N)的状态向量s _n长度，N表示工业5G终端个数，x _rnn表示循环神经网络层神经元个数，x _fc表示全连接层神经元个数，x _out表示输出层神经元个数并等于工业5G终端n的动作向量a _n长度，w表示权重，b表示偏置；

其中，q-eval深度神经网络用于获得工业5G终端n当前状态向量s _n的动作向量a _n的估值函数Q(s _n，a _n)；q-next神经网络模型用于选择工业5G终端n的下一个状态向量s _n的最大动作向量a′ _n的估值函数

利用强化学习
更新q-eval深度神经网络参数w、b；其中，α表示学习速率，γ表示折扣比例，r _n表示工业5G终端n在当前状态s _n执行动作向量a _n获得的奖励；

q-next深度神经网络的初始化参数与q-eval深度神经网络的初始化参数相同，q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新，q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。
根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，所述训练数据，包括：

工业5G终端n在时隙t(t∈T)的状态向量s _n(t)＝[c _n(t)，ack _n(t)，p _n(t)，cf(t)]，其中c _n(t)表示工业5G终端n在时隙t开始时选择的信道c(c∈C)，ack _n(t)表示工业5G终端n在时隙t结束时数据是否发送成功，p _n(t)表示工业5G终端n在时隙t的优先级p(p∈P)，cf(t)表示时隙t所有信道c的占用率；

工业5G终端n在时隙t的动作向量
其中
表示工业5G终端n在时隙t被分配的信道c(c∈C)；

工业5G终端n在时隙t的奖励向量r _n(t)＝[r _n(t)]，其中r _n(t)表示工业5G终端n在时隙t结束时获得的奖励。
根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，所述训练神经网络模型，包括以下步骤：

(1)将工业5G终端n时隙t的状态向量s _n(t)＝[c _n(t)，ack _n(t)，p _n(t)，cf(t)]输入q-eval深度神经网络；

(2)通过q-eval深度神经网络选择动作向量：根据ε-greedy算法选择动作向量：以概率ε随机选择动作向量，即信道，或者以概率1-ε选择获得估值函数最大即
的动作向量，即信道；

(3)根据动作向量a _n(t)获得奖励r _n(t)和观测o _n(t)；

(4)根据工业5G终端n时隙t的状态向量s _n(t)和动作向量a _n(t)，获得工业5G终端n下一时隙t+1的状态向量s′ _n(t+1)，存储<s _n(t)，a _n(t)，r _n(t)，s′ _n(t+1)>作为经验池经验，每个时隙的<s _n(t)，a _n(t)，r _n(t)，s′ _n(t+1)>作为一个经验；

(5)将s′ _n(t+1)输入q-next深度神经网络获得
以及目标估计值

(6)从经验池中使用经验回放法随机抽取M个经验，计算每个经验的Q _target和
并根据均方误差损失函数
和梯度下降
更新q-eval深度神经网络参数w、b，其中η表示神经网络学习速率，θ(t)表示时隙t的神经网络超参数；

(7)重复迭代I次q-eval深度神经网络后，复制q-eval深度神经网络参数w、b给q-next深度神经网络；

(8)重复迭代(1)-(7)直至均方误差损失函数收敛，此时得到的q-eval深度神经网络作为训练后的神经网络模型。
根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，得到训练的神经网络模型后，对该神经网络模型进行优化：

收集工业5G网络内全部工业5G终端的历史时隙的状态信息，通过该神经网络模型得到多优先级信道分配结果；当该分配结果的网络性能符合要求时，即丢包率、系统全局丢包率、端对端时延均小于对应的网络性能指标，则该神经网络模型作为最终的训练后的神经网络模型，用于进行最终的多优先级信道分配；

否则，重复权利要求1中的步骤1)-2)，直到神经网络模型符合要求为止。
根据权利要求7所述的基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，所述网络性能指标包括：

丢包率
其中
表示在时隙t信道c是否被分配给工业5G终端n；
与工业5G终端n优先级p相关；
表示时隙t开始时工业5G终端n在信道c上准备传输的数据包数量，
表示时隙t结束时工业5G终端n在信道c上成功传输的数据包数量；

系统全局丢包率
其中
表示全部N个工业5G终端在时隙t成功传输的数据包数量，
表示全部N个工业5G终端在时隙t等待传输的数据包数量；

端到端时延定义为
其中
定义为工业5G终端n的传播时延，即电磁波从一个工业5G终端发送端到另一个工业5G终端接收端所经历的时延；
定义为工业5G终端n的传输时延，即从数据包的第一个比特被发送到最后一个比特被发送所经历的时延；
定义为工业5G终端n的排队时延，即数据包到达工业5G终端到离开工业5G终端所经历的时延；d _hw定义为硬件时延，即工业5G终端的硬件性能造成的时延。
根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法，其特征在于，所述收集当前工业5G网络内全部工业5G终端的状态信息，作为神经网络模型输入，通过神经网络模型进行多优先级信道分配，包括以下步骤：

收集当前时隙t工业5G网络内全部N个工业5G终端的状态向量
作为训练好的神经网络模型输入，得到输出动作向量

根据得到的输出动作向量，工业基站调度工业5G终端接入信道。
基于深度强化学习的工业5G动态多优先级多接入系统，其特征在于，包括：

边缘计算服务器，用于建立基于深度强化学习的动态多优先级多信道接入神经网络模型并训练；

工业5G终端，用于产生不同传输要求的工业数据，收集终端的状态信息、动作信息、奖励信息；

工业5G基站，用于下载训练后的神经网络模型，并将工业5G终端的状态信息作为该神经网络模型输入，通过该神经网络模型进行多优先级信道分配。