WO2022110980A1

WO2022110980A1 - 一种基于深度强化学习的智能网络编码方法和设备

Info

Publication number: WO2022110980A1
Application number: PCT/CN2021/118099
Authority: WO
Inventors: 王琪; 刘建敏; 徐勇军; 王永庆
Original assignee: 中国科学院计算技术研究所
Priority date: 2020-11-26
Filing date: 2021-09-14
Publication date: 2022-06-02
Also published as: CN112564712A; CN112564712B

Abstract

本发明提供一种基于深度强化学习的网络编码方法，所述方法包括：源节点将要发送的信息划分成K个片，根据源节点编码模型确定每个片的编码系数，生成并向下一跳节点发送编码包；中间节点接收前一节点发送的编码包，将收到的编码包再次编码，根据中间节点编码模型确定编码系数，生成并向下一跳节点发送编码包，其中所述源节点和中间节点编码模型通过对DQN网络训练得到。本发明可以根据网络动态变化来自适应地调节编码系数，改善解码效率，并具备良好的模型泛化能力，能泛化于具有不同网络规模和不同链路质量下的网络，本发明分别在源节点和中间节点上分布式执行的各自的编码系数优化模型，简化了编码系数优化实施并且改善了DQN训练的稳定性。

Description

一种基于深度强化学习的智能网络编码方法和设备

技术领域

本发明涉及信息技术领域，尤其涉及网络编码方法。

背景技术

线性网络编码是一类网络编码，由选自有限域中的编码系数对数据进行线性组合。与利用非线性组合函数的非线性网络编码相比，线性网络编码具有较低的复杂度和更简单的模型，因此已经得到了深入的研究和广泛的应用。

线性网络编码的基本思想是网络中的节点通过从有限域中选取编码系数对原始数据进行线性编码以形成新的编码数据并进行转发，接收节点通过相应的解码操作可以恢复出原始数据。线性网络编码方法主要包括确定性网络编码算法和随机线性网络编码算法。确定性网络编码算法可以保证目标节点成功解码，但是它需要全局信息，例如网络拓扑和链路容量。现实中存在多种拓扑，为不同类型的网络设计特定的编码方法不切实际。此外，它不适用于动态网络，因为从分布式节点实时收集全局信息非常复杂，无法大规模应用。在随机线性网络编码中，节点使用独立、随机选取在某限域的编码系数，对需要发送的数据进行线性组合。相关研究已经证明，只要有限域足够大，随机线性网络编码可以确保每个接收节点能够以较高的概率完成解码，即接收节点对应的全局编码系数矩阵是满秩的。由于随机线性网络编码的主要特征是随机选择线性组合的系数，因此随机线性网络编码适用于拓扑未知或变化的网络，因为它可以轻松地以分布式方式实现。例如一个具有编码能力的节点有三个数据包X、Y、Z需要发送，该节点可以随机选取编码系数a ₁、a ₂、a ₃、b ₁、b ₂、b ₃、c ₁、c ₂、c ₃，然后使用编码系数将数据包组合为a ₁X+a ₂Y+a ₃Z、b ₁X+b ₂Y+b ₃Z、c ₁X+c ₂Y+c ₃Z，再将这些组合发送出去。接收节点收到3个编码组合后，当矩阵

满轶时，通过线性运算，可以解出原始信息包X、Y、Z。

各种原因都可能造成解码失败，不仅是由中间节点所提取线性相关系数造成，也有可能是因为网络不稳定导致的丢包使得中间节点未接收到一些用于解码的分组。在随机线性网络编码中，系数是从一个伽罗华域中以相等的概率随机提取的。因此，这种编码方法无法根据网络动态变化(包括网络链路质量和中间节点数量的变化)来调整编码系数造成的解码效率低的问题。

发明内容

本发明针对上述问题，根据本发明的第一方面，提出一种网络编码方法，所述网络包括源节点和中间节点，所述方法包括：

源节点将要发送的信息划分成K个片x ₁,x ₂,…,x _K，K为大于1的整数，根据源节点编码模型确定每个片的编码系数g(x ₁)，g(x ₂)，...，g(x _K)，将K个片编码，生成编码包P _S，并向下一跳节点发送编码包P _S，其中所述源节点编码模型通过对DQN网络训练得到，其中使用各步环境状态

作为训练输入，ss _k为第k步的环境状态，x _k为信息包的第k个片，

为该源节点的下一跳中间节点的缓冲区里所存储的近期收到的M个编码包，M为大于1的整数；

中间节点接收前一节点发送的编码包，将收到的编码包P _j编码M次，根据中间节点编码模型确定每次的编码系数g(P _j(1))，g(P _j(2)),…g(P _j(M))，生成编码包P _new，并向下一跳节点发送编码包P _new，其中所述中间节点编码模型通过对DQN网络训练得到，其中使用各步环境状态

作为训练输入，s _k为第k步的环境状态，P _new为当前编码包，P _j(k)为该中间节点缓冲区中的第k个编码包，

为该中间节点下一跳节点z的缓冲区里所存储的近期收到的M个编码包。

在本发明的一个实施例中，其中所述源节点编码模型包括目标网络N _s和执行网络N _snode，所述源节点编码模型的训练包括步骤：

步骤110：从经验回放存储器M _s中随机采样经验来训练N _s；

步骤120：将N _s训练后的DQN参数发给源节点，以对N _snode进行更新；和/或

步骤130：在源节点上，将环境状态ss _k作为N _snode的DQN模型的输入，输出每个行为对应的Q值，以贪心策略概率ε选择行为来决定原始信息的K个片的编码系数,执行后，收集源节点与环境交互的经验，并将该经验存储到经验回放存储器M _s中。

在本发明的一个实施例中，其中中间节点编码模型包括目标网络N _R和执行网络N _Rnode，所述中间节点编码模型的训练包括：

步骤210：在经验回放存储器M _R中随机采样经验来训练N _R；

步骤220：将N _R训练后的DQN参数发给各中间节点，以对N _Rnode进行更新；和/或

步骤230：在各中间节点上，将环境状态s _k作为N _Rnode的DQN模型的输入，输出每个行为对应的Q值，以贪心策略概率ε选择行为来决定中间节点缓冲区的M个包的编码系数,执行后，收集中间节点与环境交互的经验，并将该经验存储到经验回放存储器M _R中。

在本发明的一个实施例中，其中对N _s进行训练包括：

将网络编码的环境状态ss _k做为N _s的输入,通过最小化损失函数

对神经网络进行训练，k取值为1…K，其中Q _t arg et为N _s计算的目标Q值；

a _k表示第k步的行为；

r _k表示第k步采取行为后的奖励；

θ _k表示第k步的DQN的网络参数。

在本发明的一个实施例中，其中对N _R进行训练包括：

将网络编码的环境状态s _k做为N _R的输入,通过最小化损失函数

对神经网络进行训练，k取值为1…M，其中

Q _t arg et为N _R计算的目标Q值；

a _k表示第k步的行为；

r _k表示第k步采取行为后的奖励；

θ _k表示第k步的DQN的网络参数。

在本发明的一个实施例中，其中对于N _s：

a _k为信息的第k个片x _k的编码系数，a _k∈A _S，其中，A _S＝{0,1,...,(q-1)},q是伽罗华域的域值大小；

当该源节点发送的编码包能够使得由该源节点的下一跳中间节点缓冲区里的编码包所形成的线性系统的秩增加时，r _k为1，否则，r _k为0。

在本发明的一个实施例中，其中对于N _R：

a _k为第k个包的编码系数,a _k∈A _R,其中A _R＝{0,1,...,(q-1)}，q是伽罗华域的域值大小；

当该中间节点发送的编码包能够使得由该中间节点的下一跳节点缓冲区里的编码包所形成的线性系统的秩增加时，r _k为1，否则，r _k为0。

在本发明的一个实施例中，其中，如果源节点没有收到ACK，源节点的ss _k的

不变；如果中间节点没有收到ACK,该中间节点的s _k的

不变。

在本发明的一个实施例中，其中源节点通过以下方式生成编码包P _S：

P _S＝G _S·X,其中，X＝[x ₁,x ₂,...,x _K],G _S＝[g(x ₁),g(x ₂),...,g(x _K)]。

在本发明的一个实施例中，其中，中间节点的M次编码中的第k次编码包括：

k＝1时，

k＞1时，

P _j(k)为该中间节点的缓冲区中的第k个编码包，k取值为1…M。

根据本发明的第二方面，提供一种计算机可读存储介质，其中存储有一个或者多个计算机程序，所述计算机程序在被执行时用于实现本发明的网络编码方法。

根据本发明的第三方面，提供一种网络编码的计算系统，包括存储装置、以及一个或者多个处理器；其中，所述存储装置用于存储一个或者多个计算机程序，所述计算机程序在被所述处理器执行时用于实现本发明的网络编码方法。

与现有技术相比，本发明的实施例的优点在于：

本发明与现有技术相比，具有以下优点：

1.由于本发明创新性地提出了利用深度强化学习自适应地选择编码系数方法，与现有技术相比，本发明可以根据网络动态变化(包括网络链路质量和中间节点数量的变化)来自适应地调节编码系数，以适应高动态变化的网络环境，改善解码效率。

2.本发明使用马尔科夫决策过程(MDP)来制定编码系数优化问题，其中网络变化可以自动且连续地表示为MDP状态转换。此外，本发明具备良好的模型泛化能力，能泛化于具有不同网络规模和不同链路质量下的网络，使得该发明可以适应网络的动态变化。

3.本发明实现了分布式编码系数优化机制，基于深度Q网络(Deep Q-learning Network，DQN)的编码系数优化模型网络被预先设置的优化器集中式训练，同时，基于DQN的源节点和中间节点的编码系数优化模型分别在源节点和中间节点上分布式执行，进而简化了编码系数优化实施并且改善了DQN训练的稳定性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了根据本发明实施例的源节点网络编码流程图；

图2示出了根据本发明实施例的中间节点网络编码流程图；

图3示出了根据本发明实施例的用于深度强化学习智能网络编码的设备的功能配置框图；

图4示出了根据本发明实施例的多跳线性网络拓扑图；

图5示出了根据本发明实施例的多跳并行网络拓扑图；

图6示出了根据本发明实施例的多跳线性网络的仿真实验结果图；

图7示出了根据本发明实施例的多跳并行网络的仿真实验结果图；

图8示出了根据本发明实施例的在不同网络规模上的泛化能力的仿真实验结果图；

图9示出了根据本发明实施例的在不同链路质量上的泛化能力的仿真实验结果图；

图10示出了本发明实施例、基准编码算法与RL-aided SNC三种方法的仿真实验结果与真实试验平台结果的对比图。

具体实施方式

针对背景技术指出的问题，发明人进行了研究，提出了一种基于深度强化学习的网络编码方法，下面结合附图和具体实施例，对本方法进行详细描述。

概括说来，在本发明中，网络包括源节点、中间节点和接收信息的目的节点。信息产生于源节点，由源节点发出，经过中间节点，最终由目的节点接收。源节点将信息划分成多个片，确定每个片的编码系数，将这些片编码，生成编码包，并向下一跳节点发送编码包。中间节点接收编码包，为收到的编码包确定每个包的编码系数，将多个编码包再次编码，生成新的编码包，并向下一跳节点发送新的编码包。

本发明采用深度强化学习方法DQN确定编码系数，DQN方法的模型中包含多个步骤，多个环境状态，在每个环境状态可采取多种行为，每种行为对应不同的奖励。在本发明中，每个步骤对应于为每一片或每个包确定编码系数，在该步骤的行为为所确定的编码系数，环境状态为相关的信息片或多个编码包。DQN使用Q值评价每个行为，在每个环境状态下的多个行为中，使得Q值最大的行为为最佳行为，也就是在该环境状态下应当采取的行为。DQN要从整体上寻找最佳方案，因此该最佳行为是从一系列行为的整体上评价的，即在当前环境状态下此行为可使所有步骤累积奖励最佳。

Q值的计算基于奖励，采用如下公式：Q _k＝r _k+γmax Q _k+1,k为正整数，第k步的Q值Q _k依赖于k+1步的Q值，具体地，为k+1步所有行为的Q值中的最大值max Q _k+1，γ为折扣因子，0≤γ≤1，r _k为第k步奖励，而最后一步的Q值即为最后一步的奖励。

DQN通过训练神经网络，使神经网络可以计算每个环境状态的每个行为对应的Q值。DQN的训练方法为从真实环境中采集输入与输出，其中，输入为环境状态，输出为行为的Q值，将环境状态输入卷积神经网络CNN后，计算出行为的Q值，使用损失函数来表达计算的目标Q值与真实Q值之间的误差，以减小该误差为目的，对神经网络参数进行训练。在实际执行过程中，尽管Q值最大的行为为最佳行为，但是为了平衡学习与探索，会尝试采取新的行为,例如采用贪心策略，即用较小的概率ε(ε＜1)选择采取未知的行为，而用1-ε选择采取通过学习已知的Q值最大的行为。

现有的DQN还包括：样本回放缓冲区(Replay Buffer)或者叫做经验回放(Experience replay)，以及目标网络(Target Network)。为了减轻相关问题带来的影响，尽可能地将训练与执行两个部分解耦，本发明引入了一个新的网络，仍然命名为目标网络(Target Network)，而将原本的目标网络称为执行网络(Behavior Network)。

在训练开始时，两个网络模型使用完全相同的参数。在执行过程中，Behavior Network负责与环境交互，得到交互样本。在训练过程中，由Q-Learning得到的目标Q值由Target Network计算得到；然后用它和Behavior Network在与环境交互中获得的Q值进行比较，得出误差，通过减小误差，对Target Network进行训练，不断更新Target Network的模型，再将更新后的模型同步到Behavior Network，更新Behavior Network的模型。

每当训练完成一定轮数的迭代，Behavior Network模型的经验就会同步给Target Network，这样就可以进行下一个阶段的训练了。通过使用Target Network，计算Q值的模型在一段时间内将被固定，这样模型可以减轻模型的波动性。

本发明的Target Network包括两个神经网络N _s和N _R，N _s用于源节点，由预先设置的优化器O _s训练，N _R用于所有中间节点，由预先设置的优化器O _R训练，O _s和O _R各有一个存储器用于存储经验，经验包括各步骤的环境状态、行为、奖励。O _s的存储器为M _s，O _R的存储器为M _R。本发明的Behavior Network包括在源节点上部署的一套神经网络N _snode以及在所有的中间节点上都各自部署的一套神经网络N _Rnode。N _snode为对N _s的复制，N _Rnode为对N _R的复制。对N _snode和N _Rnode不进行训练，而是在各节点上对它们输入环境状态后获取行为对应的Q值。

本发明的基于深度强化学习的网络编码方法包括两个部分：集中式训练过程和分布式执行过程。在集中式训练过程中，基于DQN的编码系数优化模型网络被预先设置的优化器集中式训练。在分布式执行过程，基于DQN的源节点和中间节点的编码系数优化模型分别在源节点和中间节点上分布式执行，并将执行产生的经验送回优化器进行训练，边执行，边训练，以加快DQN的训练的速度。

(1)在集中式训练过程中，源节点优化器O _s从经验回放存储器M _s中随机采样经验来训练源节点N _s的DQN，输入源节点环境状态ss _k(源节点环境状态的具体内容将在下文详细描述)，通过最小化预先设置的损失函数对神经网络N _s进行训练，N _s的输出为该环境状态ss _k下选择行为a _k后获得最优累积奖励值Q值Q _k。其中，损失函数为：

在损失函数中，Q _t arg et为N _s计算出的目标Q值，q(ss _k,a _k；θ _k)为根据经验所知在该环境状态ss _k下，选择行为a _k后的Q值,θ _k表示在当前决策步k下的所述DQN的网络参数。

同样的，中间节点优化器O _R从经验回放存储器M _R中随机采样经验来训练中间节点N _R的DQN，输入中间节点环境状态s _k(中间节点环境状态的具体内容将在下文详细描述)，通过最小化预先设置的损失函数对神经网络N _R 进行训练，N _R的输出为该环境状态s _k下选择行为a _k后获得最优累积奖励值Q值Q _k。其中，损失函数为：

在损失函数中，Q _t arg et为N _R计算出的目标Q值，q(s _k,a _k；θ _k)为根据经验所知在该环境状态s _k下，选择行为a _k后的Q值，θ _k表示在当前决策步k下的所述DQN的网络参数。

一旦DQN的参数被更新，集中优化器O _s和O _R会将更新后的DQN参数发送给网络中的每个源节点和中间节点。源和中间节点利用所收到DQN参数更新该节点上的神经网络N _snode和N _Rnode的DQN参数。

(2)在分布式执行过程中，对于源节点，根据其所观察到的当前环境状态ss _k，将ss _k作为源节点N _snode的DQN模型的输入，输出每个行为对应的Q值，以贪心策略概率ε(例如ε＝0.1)选择一个行为来决定原始信息的第k个片的编码系数，一个行为a _k执行后，该源节点获得一个奖励值r _k，优化器O _s收集源节点与环境交互的经验(ss _k,a _k,r _k,ss _k+1)，并将该经验存储到经验回放存储器M _s中；对于中间节点i，根据其所观察到的环境状态s _k，将s _k作为中间节点N _Rnode的DQN模型的输入，输出每个行为对应的Q值，以贪心策略概率ε(例如ε＝0.1)选择一个行为来决定该中间节点缓冲区的第k个包的编码系数，一个行为a _k执行后，该中间节点获得一个奖励值r _k，优化器O _R收集中间节点与环境交互的经验(s _k,a _k,r _k,s _k+1)，并将经验存储到经验回放存储器M _R中。

以下结合本发明的实施例介绍源节点和中间节点编码的具体方法及其对应的环境状态、行为和奖励。

源节点的编码与其对应的环境状态、行为和奖励

图1示出了基于深度强化学习的源节点的编码过程：一个信息X(X＝[x ₁,x ₂,…,x _K])划分成K个片，K为大于1的整数，这K个片的编码系数优化过程视为一个马尔科夫过程(MDP)，该MDP包含了K个决策步，在第k(k＝1,2,…,K)个决策步中，第k个片x _k的编码系数被确定；

具体地，基于深度强化学习的源节点编码系数优化模型中的深度强化学习智能体与网络环境两大模块设计如下：

(1)源节点视为深度强化学习智能体；

(2)抽象环境为由源节点和该源节点的所有下一跳中间节点形成的网络，包括源节点、该源节点的所有下一跳中间节点，以及该源节点与该源节点的所有下一跳中间节点所形成的链路。

(3)深度强化学习智能体观察当前决策步k的环境状态ss _k，并根据环境状态ss _k采取一个行为a _k作用于环境，环境将反馈一个奖励r _k给深度强化学习智能体，以实现深度强化学习智能体与环境的交互。

根据本发明的一个实施例，在当前决策步k下，该源节点所观察到的环境状态ss _k为：

环境状态ss _k包括一个信息包的第k个片x _k和该源节点的下一跳中间节点的缓冲区里所存储的近期收到的M(例如M＝10)个编码包

M为大于1的整数，即

其中，P _S(l)是该源节点的下一跳中间节点缓冲区中的第l个编码包。

具体地，在当前环境状态ss _k下，该源节点执行行为a _k：

在每个决策步k下，该源节点选择一个行为a _k∈A _S来决定信息包的第k个片x _k的编码系数g(x _k)，g(x _k)＝a _k,其中，A _S＝{0,1,...,(q-1)}，q是伽罗华域(Galois field)的域值大小，在一个实施例中，q＝2，在另一个实施例中，q为正整数。

根据本发明的一个实施例，在当前环境状态ss _k下，该源节点执行行为a _k后，收到来自环境的奖励r _k为：

当该源节点发送的编码包能够使得由该源节点的下一跳中间节点缓冲区里的编码包所形成的线性系统的秩增加，r _k＝1，否则，r _k＝0。

经历K个决策步后，一个信息包的K个片的编码系数均被确定，那么源节点利用所确定的编码系数对K个片进行编码并发送编码后的包P _S，P _S＝G _S·X，其中，X＝[x ₁,x ₂,...,x _K],G _S＝[g(x ₁),g(x ₂),...,g(x _K)]。

在一个实施例中，本节点保留发给下一跳节点的编码包以形成源节点上的下一跳中间节点缓冲区

并通过发送后下一跳节点反馈的ACK确认下一跳节点是否收到编码包。如果本节点没有收到ACK，这说明下一跳节点没有收到编码包，则

不会发生变化，即源节点发送下一个编码包时，其状态ss _k中的

相对于发送当前包并没有发生改变。如果本节点收到ACK，这说明下一跳节点成功收到编码包，则

发生变化，即该源节点发送下一个编码包时，其状态ss _k中的

相对于发送当前包发生了改变。由此可见ACK包是否接受是由链路质量决定的，进而链路质量会影响缓冲区

所存储的编码包，所以源节点的编码模型可以根据网络链路质量的变化来自适应地调节编码系数。

在一个实施例中，在所有K个步骤都执行完，发送给下一跳节点，确定步骤1至K的K个步骤的奖励，这K个步骤的奖励相同。由于本节点在缓冲区

中保留了下一跳节点所接受的编码包，因此不论本节点是否收到ACK，本节点都可以根据所发送的编码包是否会改变

里编码包所形成的线性系统的秩来评价行为。

中间节点的编码与其对应的环境状态、行为和奖励

图2示出了基于深度强化学习的中间节点编码过程，当前中间节点i对所收到的来自该中间节点i的上一跳节点j的编码包P _j再次编码的过程视为一个马尔科夫过程(MDP)，该MDP包含了M(例如M＝10)个决策步，在第k(k＝1,2,…,M)个决策步中，该中间节点i决定该中间节点i的缓冲区里的第k个编码包的编码系数，并将第k个编码包与当前编码包P _new进行异或操作。在第一个决策步中，即k＝1时，P _new＝P _j。

根据本发明的一个实施例，基于深度强化学习的中间节点编码系数优化模型中的深度强化学习智能体与网络环境两大模块设计如下：

(1)中间节点视为深度强化学习智能体；

(2)抽象环境为由当前中间节点i和该中间节点i的下一跳节点形成的网络，包括该中间节点i、该中间节点i的下一跳节点，以及该中间节点i与该中间节点i的下一跳节点z所形成的链路；

(3)深度强化学习智能体观察当前决策步k的环境状态s _k，并根据环境状态s _k采取一个行为a _k作用于环境，环境将反馈一个奖励r _k给深度强化学习智能体，以实现深度强化学习智能体与环境的交互。

根据本发明的一个实施例，在当前决策步k下，该中间节点i所观察到的环境状态s _k为：

环境状态s _k包括当前编码包P _new，该中间节点i缓冲区

中的第k个编码包P _j(k)以及该中间节点i的下一跳节点z的缓冲区里所存储的近期收到的M(M＝10)个编码包

即

其中，P _i(l)是该中间节点i的下一跳节点z的缓冲区中的第l个编码包，并且P _j(1),P _j(l),…,P _j(M)的接收早于P _j的接收。

根据本发明的一个实施例，在当前环境状态s _k下，该中间节点i执行行为a _k：

在每个决策步k下，该中间节点i选择一个行为a _k∈A _R来决定该中间节点缓冲区里的第k个包的编码系数g(P _j(k))，g(P _j(k))＝a _k，其中，A _R＝{0,1,...,(q-1)}，q是伽罗华域(Galois field)的域值大小,在一个实施例中，q＝2，在另一个实施例中，q为正整数。

根据本发明的一个实施例，在当前环境状态s _k下，该中间节点i执行行为a _k后，收到来自环境的奖励r _k为：

当该中间节点i发送的编码包能够使得由该中间节点i的下一跳节点z缓冲区里的编码包所形成的线性系统的秩增加，r _k＝1；否则，r _k＝0。

第k个决策步后，当前编码包P _new被重新编码，即

特别地，当k＝1，

经历M个决策步后，该中间节点i收到的来自其上一跳节点j的编码包P _j被重新编码M次，最终该中间节点i发送最后一个决策步M编码后的编码包P _new。

在一个实施例中，本节点保留发给下一跳节点的编码包以形成中间节点上的下一跳中间节点缓冲区

不会发生变化，即该中间节点i发送下一个编码包时，其状态s _k中的

发生变化，即该中间节点i发送下一个编码包时，其状态s _k中的

所存储的编码包，所以中间节点的编码模型可以根据网络链路质量的变化来自适应地调节编码系数。

在一个实施例中，在所有M个步骤都执行完，发送给下一跳节点，确定步骤1至M的M个步骤的奖励，这M个步骤的奖励相同。由于本节点在缓冲区

里编码包所形成的线性系统的秩来评价行为。

。

图3示出了根据本发明实施例的用于深度强化学习的智能网络编码的设备功能配置框图。该设备包括：源节点编码系数优化单元，配置为通过源节点的深度强化学习编码系数优化模型来优化源节点上的数据包的编码系数；中间节点编码系数优化单元，配置为通过中间点的深度强化学习编码系数优化模型来优化中间节点上的数据包的编码系数；智能网络编码单元，配置为根据优化的编码系数对信息进行编码；数据包转发单元，配置为转发编码后的数据包。

下面对本发明的仿真和平台验证实验对于本发明的效果给予说明。

本实例使用基于Python3.5的框架TensorFlow 1.15来构建本发明所述的一种基于深度强化学习的智能网络编码方法及其深度神经网络的体系结构。在本实例中，考虑了一个具有单源，多中间节点和单目的地的多跳线性网络拓扑和多跳并行网络拓扑,图4示出了多跳线性网络拓扑图，图5示出了多跳并行网络拓扑图。

使用解码率和开销这2个性能指标对本发明所述的一种基于深度强化学习的智能网络编码方法进行评估。在分析实验结果之前，先对本实验所涉及的概念和术语进行简单的说明：

解码率：目的节点收到P个数据包后，可以成功解码(恢复原始信息)的概率；

开销：用于衡量不同编码算法的解码效率，我们可以定义开销

其中，K是一个信息被划分的包的数量，E是使用网络编码时多余的数据包数量，Nr是在目标节点接收的数据包数量。

链路质量：本专利用包错误率(Packet error rate,PER)表示链路质量。对给定的信号与干扰加噪声比(Signal to Interference plus Noise Ratio,SINR)值γ，数据包错误传输的概率

其中N _b是一个数据包的大小(单位：bit)；BER(γ)是对给定的SINR值γ的位错误率，它取决于物理层采用的技术和信道的统计特征。

图6显示了在多跳线性网络拓扑中，每条链路的包的错误率是0.1的情况下，本发明实例的解码率与源节点发送数据包的数量和中间节点数量的关系。可以看出，随着源节点发送数据包的数量的增加和中间节点数量的增加，目标节点成功解码的概率被改善。此外，在目标节点收到相同数据包的情况下，K越大，目标节点解码的概率越低。在K＝5的情况下，中间节点的数量(N)等于2,4,6,8时的开销分别是12.2％、15.1％、19.2％和20.1％。在K＝10的情况下，中间节点的数量(N)等于2,4,6,8时的开销分别是2.5％,4.2％,4.5％和5.2％。中间节点数越多，数据包经过更长的路径(更多的中间节点)才能传到目的节点，包的总丢失率较大，有些信息包无法传到目的节点，因此源节点需要发送很多冗余的信息，导致目的节点最终收到的数据包数Nr增加(开销公式中的分子)，所以开销会增大。

图7显示了在多跳并行网络拓扑中，源节点与中间节点间的链路的包的错误率是0.1，中间节点与目标节点间的链路的包的错误率是0.3，源节点与目标节点间的链路的包的错误率是0.8情况下，本发明实例的解码率与源节点发送数据包的数量和中间节点的数量关系。可以看出，随着源节点发送数据包的数量的增加和中间节点数量的增加，目标节点成功解码的概率被改善。此外，在目标节点收到相同数据包的情况下，K越大，目标节点解码的概率越低。在K＝5的情况下，中间节点的数量(N)等于2,6,10,14时的开销分别是12.2％、15.1％、19.2％和20.1％。在K＝10的情况下，中间节点的数量(N)等于2,6,10,14时的开销分别是4.8％,4.1％,3.8％和3.1％。

图8显示了在线性拓扑下，每条链路的包的错误率是0.1的情况下，本发明在不同中间节点数量上的泛化能力。我们首先在中间节点数量N＝1的情况下，为本发明实例训练一个DQN模型，定义为Train _N＝1。然后我们使用训练好的DQN模型来测试在其他中间节点数量下的解码率，我们将这些测试结果定义为(Test _N＝i,Train _N＝1，i＝2,4,6,8)。最后，我们将这些结果与在相同中间节点数量下的训练和测试结果(定义为Test _N＝i,Train _N＝i,i＝2,4,6,8)进行比较。可以看出，在本发明事例中，(Test _N＝i,Train _N＝1，i＝2,4,6,8)结果与(Test _N＝i,Train _N＝i，i＝2,4,6,8)结果较为吻合，且在N＝2,4,6,8下，均方根误差(RMSE)分别是0.0034、0.0072、0.011和0.015，这验证了本发明方法在不同网络规模上的泛化能力。

图9显示了在线性拓扑下，中间节点数量N＝1的情况下，本发明在不同链路质量上的泛化能力。在图4的源S和中间节点R1间的链路的包的错误率PER _S-R1＝0.3，且中间节点R1与目标节点D间的链路的包的错误率PER _R1-D＝0.3的情况下，为本发明实例训练一个DQN模型，定义为

然后我们使用训练好的DQN模型来测试在其他链路质量下(PER _S-R1＝0,PER _R1-D＝0)，(PER _S-R1＝0.1,PER _R1-D＝0.3)，(PER _S-R1＝0.1,PER _R1-D＝0.5)的解码率，我们将这些测试结果定义为

并用

代表在链路质量为PER _S-R1＝w,PER _R1-D＝y下训练的DQN模型在链路质量PER _S-R1＝u,PER _R1-D＝v下进行测试的测试结果,在图中

的标注为

最后，将这些结果与在相同链路质量下的训练和测试结果

进行比较。可以看出，在本发明事例中，

结果与

结果较为吻合，且在链路质量(PER _S-R1＝0,PER _R1-D＝0)，(PER _S-R1＝0.1,PER _R1-D＝0.3)，(PER _S-R1＝0.1,PER _R1-D＝0.5)下，均方根误差(Root Mean Square Error,RMSE)分别是0、0.002和0.003，这验证了本发明方法在不同链路质量上的泛化能力。

最后，在真实的试验平台上评估本发明实例的性能，配置本发明的源节点编码系数优化单元、中间节点编码系数优化单元、智能网络编码单元和数据包转发单元，并使用Raspberry Pi 3 B+型进行实验。Raspberry Pi 3B+具有1.4GHz ARM A53处理器，1GB RAM以及集成的无线和蓝牙功能。我们利用TensorFlow Lite将本发明实例已训练好的DQN模型部署到Raspberry Pi 3B+。本实验中，将本发明实例与传统的基准编码算法和现有的基于强化学习编码算法(RL-aided SNC:Dynamic Sparse Coded Multi-Hop Transmissions using Reinforcement Learning)的编码算法进行比较。在基准编码算法中，源节点使用传统的喷泉码，同时中间节点使用随机网络编码算法。同时我们比较了在仿真环境下得到的解码结果和在真实的试验平台上的解码结果。

图10显示了在多跳线性拓扑下，每条链路的包的错误率等于0.1，K＝5的情况下，本发明实例与传统的基准编码算法和现有的基于强化学习编码算法RL-aided SNC的解码率比较。可以看出，在相同的中间节点数量下，本发明的解码率效率高。此外，可以看到仿真结果与真实试验平台得到的结果较为一致。在仿真环境和真实试验平台下，三种编码算法的解码结果的均方根误差分别是0.0042、0.0153、0.0379。

本实例的实验结果说明了本发明所述的基于深度强化学习的智能网络编码方法较现有编码方法有更高的解码率和更低的开销。

需要说明的是，上述实施例中介绍的各个步骤并非都是必须的，本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

一种网络编码方法，所述网络包括源节点和中间节点，所述方法包括：

源节点将要发送的信息划分成K个片x ₁,x ₂,…,x _K，K为大于1的整数，根据源节点编码模型确定每个片的编码系数g(x ₁)，g(x ₂)，...，g(x _K)，将K个片编码，生成编码包P _S，并向下一跳节点发送编码包P _S，其中所述源节点编码模型通过对DQN网络训练得到，其中使用各步环境状态
作为训练输入，ss _k为第k步的环境状态，x _k为信息包的第k个片，
为该源节点的下一跳中间节点的缓冲区里所存储的近期收到的M个编码包，M为大于1的整数；

中间节点接收前一节点发送的编码包，将收到的编码包P _j编码M次，根据中间节点编码模型确定每次的编码系数g(P _j(1))，g(P _j(2)),…g(P _j(M))，生成编码包P _new，并向下一跳节点发送编码包P _new，其中所述中间节点编码模型通过对DQN网络训练得到，其中使用各步环境状态
作为训练输入，s _k为第k步的环境状态，P _new为当前编码包，P _j(k)为该中间节点缓冲区中的第k个编码包，
为该中间节点下一跳节点z的缓冲区里所存储的近期收到的M个编码包。
根据权利要求1所述的方法，其中所述源节点编码模型包括目标网络N _s和执行网络N _snode，所述源节点编码模型的训练包括步骤：

步骤110：从经验回放存储器M _s中随机采样经验来训练N _s；

步骤120：将N _s训练后的DQN参数发给源节点，以对N _snode进行更新；和/或

步骤130：在源节点上，将环境状态ss _k作为N _snode的DQN模型的输入，输出每个行为对应的Q值，以贪心策略概率ε选择行为来决定原始信息的K个片的编码系数,执行后，收集源节点与环境交互的经验，并将该经验存储到经验回放存储器M _s中。
根据权利要求1所述的方法，其中中间节点编码模型包括目标网络N _R和执行网络N _Rnode，所述中间节点编码模型的训练包括：

步骤210：在经验回放存储器M _R中随机采样经验来训练N _R；

步骤220：将N _R训练后的DQN参数发给各中间节点，以对N _Rnode进行更新；和/或

步骤230：在各中间节点上，将环境状态s _k作为N _Rnode的DQN模型的输入，输出每个行为对应的Q值，以贪心策略概率ε选择行为来决定中间节点缓冲区的M个包的编码系数,执行后，收集中间节点与环境交互的经验，并将该经验存储到经验回放存储器M _R中。
根据权利要求2所述的方法，其中对N _s进行训练包括：

将网络编码的环境状态ss _k做为N _s的输入,通过最小化损失函数
对神经网络进行训练，k取值为1…K，其中Q _target为N _s计算的目标Q值；

a _k表示第k步的行为；

r _k表示第k步采取行为后的奖励；

θ _R表示第k步的DQN的网络参数。
根据权利要求3所述的方法，其中对N _R进行训练包括：

将网络编码的环境状态s _k做为N _R的输入,通过最小化损失函数
对神经网络进行训练，k取值为1…M，其中

Q _target为N _R计算的目标Q值；

a _k表示第k步的行为；

r _k表示第k步采取行为后的奖励；

θ _k表示第k步的DQN的网络参数。
根据权利要求4所述的方法，其中对于N _s：

a _k为信息的第k个片x _k的编码系数，a _k∈A _S，其中，A _S＝{0,1,...,(q-1)},q是伽罗华域的域值大小；

当该源节点发送的编码包能够使得由该源节点的下一跳中间节点缓冲区里的编码包所形成的线性系统的秩增加时，r _k为1，否则，r _k为0。
根据权利要求5所述的方法，其中对于N _R：

a _k为第k个包的编码系数,a _k∈A _R,其中A _R＝{0,1,...,(q-1)}，q是伽罗华域的域值大小；

当该中间节点发送的编码包能够使得由该中间节点的下一跳节点缓冲区里的编码包所形成的线性系统的秩增加时，r _k为1，否则，r _k为0。
根据权利要求1所述的方法，其中，如果源节点没有收到ACK，源节点的ss _k的
不变；如果中间节点没有收到ACK,该中间节点的s _k的
不变。
根据权利要求1所述的方法，其中源节点通过以下方式生成编码包P _S：

P _S＝G _S·X,其中，X＝[x ₁,x ₂,...,x _K],G _S＝[g(x ₁),g(x ₂),...,g(x _K)]。
根据权利要求1所述的方法，其中，中间节点的M次编码中的第k次编码包括：

k＝1时，

k＞1时，

P _j(k)为该中间节点的缓冲区中的第k个编码包，k取值为1…M。
一种计算机可读存储介质，其中存储有一个或者多个计算机程序，所述计算机程序在被执行时用于实现如权利要求1-10任意一项所述的方法。
一种网络编码的计算系统，包括

存储装置、以及一个或者多个处理器；

其中，所述存储装置用于存储一个或者多个计算机程序，所述计算机程序在被所述处理器执行时用于实现如权利要求1-10任意一项所述的方法。