WO2020238224A1

WO2020238224A1 - 一种基于机器学习的量子通信系统的主动反馈控制方法

Info

Publication number: WO2020238224A1
Application number: PCT/CN2020/070401
Authority: WO
Inventors: 王琴; 刘靖阳
Original assignee: 南京邮电大学
Priority date: 2019-05-31
Filing date: 2020-01-06
Publication date: 2020-12-03
Also published as: CN110365473A; CN110365473B; US11817911B2; US20220182152A1

Abstract

一种基于机器学习的量子通信系统的主动反馈控制方法，在量子密钥分发系统的传输过程中，本发明利用已预先训练完成的双层LSTM网络，根据外界环境中实时温度、湿度、激光器光强起伏，以及过去时刻的电压变化预测下一时刻接收端的相位调制器的零相位电压值，并通过固定时间间隔对网络进行更新，使该LSTM网络能够长时间准确预测，从而保证量子密钥分发系统长时间高效稳定运行。本发明通过主动预测、反馈控制的方法，极大地提高了量子密钥分发系统的传输效率。本发明不仅限于应用在量子密钥分发系统或相位编码系统之中，也同样适用于基于其他编码方式的量子密钥分发系统或量子通信网络之中。

Description

一种基于机器学习的量子通信系统的主动反馈控制方法

技术领域

本发明属于量子信息技术领域，具体涉及一种基于机器学习的量子通信系统的主动反馈控制方法。

背景技术

量子密码是量子通信的核心，它的安全与否直接决定着量子通信系统的安全性。量子密码的安全性建立在量子力学的基本原理之上，同时通过结合香农提出的“一次一密”(OTP)定理，原则上可以为合法用户(Alice、Bob)提供无条件安全性的量子通信。自从第一个量子密码协议——BB84协议提出以来，量子密码无论是在理论上还是在实验上均取得了巨大的进步。现有实用化的量子密码系统可以使用不同的编码方式，比如相位、偏振、时间-能量编码等，其中基于相位编码的系统应用最为广泛。但是由于该类系统中存在着相位漂移问题，因而需要不断对发送端和接收端的相位进行实时校准。目前使用最广泛的是干涉环扫描-传输的方法，该方法每隔一段时间实现对系统相位的补偿。然而，在干涉环扫描程序工作期间，量子密码系统无法传输信号，导致系统整体效率较低。为了提高量子密码系统的传输效率，可以使用基于FPGA的相位实时补偿技术，但这种方法需要比较高昂的硬件开销，同时也增加了整个量子密码系统的复杂度。

发明内容

本发明目的在于针对上述现有技术的不足，提出了一种基于机器学习的量子通信系统主动反馈控制方法，该方法可以应用于量子密钥分发(QKD)系统中。在QKD系统的稳定调相阶段，利用已预先训练完成的双层LSTM网络根据实时环境温度、湿度、激光器光强及过去时刻的电压变化预测下一时刻Bob端的相位调制器的零相位电压值，并通过固定时间间隔的对网络进行更新，使LSTM网络能够长时间准确预测，从而使得量子密钥分发系统始终保持稳定的高效率运行状态。本发明方案在不提高系统硬件复杂度的前提下极大的提高了量子密钥分发系统的传输效率。

一种基于机器学习的量子通信系统的主动反馈控制方法，所述方法将长短期记忆神经网络(LSTM)的机器学习模型应用于量子通信系统之中，并且以相位编码的量子密钥分发(QKD)作为其中一个应用场景，但不仅限于QKD系统或相位编码系统；该QKD系统至少包括两个用户端Alice端和Bob端；

所述方法依次包括训练阶段、预测阶段和更新阶段；

训练阶段：

根据时间前后将训练数据分为很多序列，序列的长度代表该段数据的时间跨度，序列中每一个时间点的数据由相应的特征和标签组成；其中，所述特征可以由环境温度、湿度、激光器的强度、当前时间点的电压以及前四个时间点的电压组成；所述标签则可以由下一个时间点的电压组成；在训练网络时，使用Adam优化算法，整个训练过程至少需270轮，所有数据在输入进网络前需经过Z-score的标准化；

预测阶段：

训练完成后的LSTM网络可以接入Bob端的相位调制器的相位电压调控系统，LSTM网络在该阶段需要从温湿度探测器实时读取当前时间的温度、湿度，从光功率计实时读取当前激光光强，从移位寄存器实时读取五个时间点的位移电压，这五个时间点的电压分别为当前时间点的电压值以及前四个时刻的电压值；网络根据输入数据预测出下一个时间点的零相位电压，并将该电压值输入Bob端的相位调制器，以此实现系统的相位稳定控制；

更新阶段：

为使LSTM具备长时间准确预测的能力，采取了预测与更新相结合的工作模式；在网络预测一段时间后，通过短暂运行干涉环扫描程序以获取准确的零相位电压并反馈回LSTM网络，LSTM根据准确的标签值使用误差逆传播方法更新其权重与偏置值，更新后的LSTM网络则重新转为预测模式。

进一步地，所述训练阶段中，序列中每一个时间点的数据，典型的特征由温度、湿度、激光光强、位移电压组成，其中，位移电压可以由一个当前电压和前四个时刻的电压组成，但不仅仅限于以上给出的典型特征，可以根据实际需求选择其他数值。

进一步地，所述主动反馈控制方法的反馈控制可以由干涉环扫描程序完成，其反馈过程以更新LSTM网络为目的；将干涉环扫描程序扫描出的实时电压反馈回LSTM网络，使网络更新其权重与偏置电压值；所述主动反馈控制方法的反馈控制不仅仅限于以上提到的干涉环扫描程序完成，也可以通过包括偏振扫描在内的其他扫描程序完成。

进一步地，所述主动反馈控制方法的训练阶段与预测阶段可以互相分开，本方法采用在每次预测前连续更新网络的方式使得LSTM网络只需根据预测阶段的实际情况进行微调，从而实现了训练阶段与预测阶段的分离。

进一步地，所述主动反馈控制方法将双层LSTM网络用于QKD系统的稳定调相过程，但不仅仅限于使用双层LSTM网络，可以根据实际量子通信系统的复杂程度对网络结构做相应调整。

本发明的有益效果为：相比常规的干涉环扫描程序以及基于FPGA的相位实时补偿方案，本发明方案采用基于软件控制的长短期记忆神经网络的预测和反馈控制方法，不需要加入额外的硬件设备，不仅消除了使用额外设备所带来的系统复杂度，同时也避免了可能的侧信道漏洞风险。而且该方法可以极大地提高整个QKD系统的传输效率，实现实时的基于软件控制的相位补偿控制，并且间隔的更新过程也能使系统长时间稳定运行。本发明能够在保证与传统方法同等误码水平的条件下，QKD系统长时间高效率地稳定运行。

附图说明

图1是本发明方案的流程图。

图2是本发明实施例的LSTM网络的内部结构图。

图3是本发明中序列中每一个时间点的数据的结构图。

图4是本发明实施例使用的QKD系统实验装置图。

图5是本发明与“扫描-传输”方案的误码对比图。

图6是本发明的长时间运行测试结果图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明方案的相位电压控制系统主要通过使用LSTM网络来预测零点相位电压。以下为该LSTM网络的工作原理：

LSTM网络由一连串重复的神经网络模块所组成。如图1所示，其核心为细胞传送带C _t。LSTM网络训练所学习到的知识沿这条传送带进行传递，并贯穿整个链条。而LSTM网络是通过门结构来删除或添加信息到细胞状态。一个LSTM块有三个门结构来控制一个细胞单元的状态，分别称为忘记门、输入门和输出门。

首先是忘记门决定了由上一个LSTM块传递而来的哪些信息需要被丢弃。当前状态的特征x _t和上一LSTM块的输出h _t会经过相对应的权重W _f和偏执b _f的处理，而后通过一个sigmoid激活函数σ的处理，其输出结果f _t如下：

f _t＝σ(W _f·[h _t-1,x _t]+b _f)。

下一步网络通过两个过程实现了特定信息的输入。首先，一个由sigmoid层组成的输入门起到更新细胞内信息的作用，公式如下：

i _t＝σ(W _i·[ht _-1,x _t]+b _i)，

接着一个tanh层将有助于网络实现记忆功能的信息以向量的形式添加进细胞结构，公式如下：

细胞结构通过与上述两个门结构的乘法操作实现细胞内记忆信息的更新，公式如下：

最后，将细胞状态通过tanh层的处理并与输出门做乘法操作，实现特定信息的输出，公式如下：

O _t＝σ(W _o·[h _t-1,x _t]+b _o)，

h _t＝O _t×tanh(C _t)。

通过以上方式的计算，LSTM网络能够实现信息的长期记忆效果。

下面将详细介绍基于长短期记忆神经网络的量子密钥分发相位预测与反馈控制方案的实现过程：

训练阶段：

考虑到LSTM网络的时间记忆特性，训练阶段需根据时间前后将训练数据分为很多序列，序列的长度代表该段数据的时间跨度，序列中每一个时间点的数据由相应的特征和标签组成。其中，特征由环境温度、湿度、激光器的强度、当前时间点的电压以及前四个时间点的电压组成。而标签则由下一个时间点的电压组成。

训练阶段首先收集训练数据，该过程先使用传统的干涉环扫描程序，用于获取Bob端的相位调制器所加的零相位电压随时间变化的数据，并将温度、湿度、激光器强度随时间变化的数据与零相位电压数据拼接。该数据的每一行为某时刻的具体特征值，每一列为一个特征在时间变化。每一段训练数据由3600个数据点组成，总共十段训练数据。本发明方案所使用的实验系统的占空比为0.5，即每传输10秒之后需要另外10秒时间用于补偿相位。因此，每一段训练数据对应的时间跨度为20小时。

在训练网络时，本发明方案使用Adam优化算法，训练过程的指标为均方误差，整个训练过程至少需270轮，所有数据在输入进网络前需经过Z-score的标准化。

预测阶段：

训练完成后的LSTM网络应接入Bob端的相位调制器的相位电压调控系统，LSTM网络在该阶段需要从温湿度探测器实时读取当前时间的温度、湿度，从光功率计实时读取当前激光光强，从移位寄存器实时读取五个时间点的位移电压，这五个时间点的电压分别为当前时间点的电压值以及前四个时刻的电压值。网络根据输入数据预测出下一个时间点的零相位电压，并将该电压值输入Bob端的相位调制器，以此实现系统的相位稳定控制。

本发明方案采用连续预测25个电压值后改为更新模式的方式，其中每次连续预测的时间跨度为5分钟。

更新阶段：

为使LSTM具备长时间准确预测的能力，本发明方案采取了预测与更新相结合的工作模式。在网络预测一段时间后，通过短暂运行干涉环扫描程序以获取准确的零相位电压并反馈回LSTM网络，LSTM根据准确的标签值使用误差逆传播方法更新其权重与偏置值，更新后的LSTM网络则重新转为预测模式。其中每次更新阶段的时间为50秒。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图3是本发明方案的实验装置图。Alice端，激光器(重复频率 1MHz、中心波长1550nm)输出激光给1:99的分束器(BS)，该分束器将光束分为两路，1％的光送入光功率计，99％的光送入Alice端的法拉第迈克尔逊干涉环(FMI)。每一个送入FMI的光脉冲都被随机地编码为BB84协议中的一个态，而后经过商用单模光纤传输给接收端Bob。

Bob端随机选择X基或Z基对量子态进行测量，测量通过Bob端的FMI完成。在Alice端和Bob端均放置有控制箱(CB)以及电脑，这两项设备用于运行LSTM网络以及给相位调制器输送电压。本发明方案同时配有光功率计(OPM)、温湿度探测器(THD)、单光子探测器(SPD)分别用于实时记录激光光强、温度、湿度、光子计数率。本发明方案的实验系统所使用的单光子探测器为工作于门模式的InGaAs探测器。

本发明方案实验经过了50公里和150公里光纤的检测，同时也与传统的干涉环扫描程序进行了结果对比。传输过程分别使用了三种强度(信号态强度0.5、诱骗态强度0.1、真空态强度0)对光脉冲进行调制。同时本发明方案的实验系统的本底误码为1.23％，探测器效率为10％，暗计数率为0.8MHz。

图4为本发明方案与传统方案的误码对比图。图4(a)和(b)分别显示了48小时内50km和150km下系统信号态量子比特误码率(QBER)的变化。从两幅图可以看出，本发明方案的QBER结果与传统的干涉曲线扫描方案基本处于同一水平，这证明了本发明方案的稳定性与可靠性。图4(c)展示了成码率实验的结果与理论仿真结果的对比，图中实线为理论仿真结果，方形点为传统方案的实验结果，圆形点为本发明方案的实验结果。

图5是本发明方案长时间运行的测试结果图。图中，在系统连续运行的十天内，QBER没有表现出明显的上升，证明了本发明方案长时间运行依然可以维持预测的准确性和系统QBER的稳定。

综上，本发明实验验证了一种基于长短期记忆神经网络的量子密钥分发系统相位预测与反馈控制方案，利用预测电压加更新网络的方法，能够将QKD系统的传输效率提高至83％以上，同时还能保证系统的QBER保持在与传统方案同等大小的水平。此外本发明方案还可以扩展到任何QKD协议及系统。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

一种基于机器学习的量子通信系统的主动反馈控制方法，其特征在于：

所述方法将长短期记忆神经网络(LSTM)的机器学习模型应用于量子通信系统之中，并且以相位编码的量子密钥分发(QKD)作为其中一个应用场景，但不仅限于QKD系统或相位编码系统；该QKD系统至少包括两个用户端Alice端和Bob端；

所述方法依次包括训练阶段、预测阶段和更新阶段；

训练阶段：

根据时间前后将训练数据分为很多序列，序列的长度代表该段数据的时间跨度，序列中每一个时间点的数据由相应的特征和标签组成；其中，所述特征可以由环境温度、湿度、激光器的强度、当前时间点的电压以及前四个时间点的电压组成；所述标签则可以由下一个时间点的电压组成；在训练网络时，使用Adam优化算法，整个训练过程至少需270轮，所有数据在输入进网络前需经过Z-score的标准化；

预测阶段：

训练完成后的LSTM网络可以接入Bob端的相位调制器的相位电压调控系统，LSTM网络在该阶段需要从温湿度探测器实时读取当前时间的温度、湿度，从光功率计实时读取当前激光光强，从移位寄存器实时读取五个时间点的位移电压，这五个时间点的电压分别为当前时间点的电压值以及前四个时刻的电压值；网络根据输入数据预测出下一个时间点的零相位电压，并将该电压值输入Bob端的相位调制器，以此实现系统的相位稳定控制；

更新阶段：

为使LSTM具备长时间准确预测的能力，采取了预测与更新相结合的工作模式；在网络预测一段时间后，通过短暂运行干涉环扫描程序以获取准确的零相位电压并反馈回LSTM网络，LSTM根据准确的标签值使用误差逆传播方法更新其权重与偏置值，更新后的LSTM网络则重新转为预测模式。
根据权利要求1所述的一种基于机器学习的量子通信系统的主动反馈控制方法，其特征在于：所述训练阶段中，序列中每一个时间点的数据，典型的特征由温度、湿度、激光光强、位移电压组成，其中，位移电压可以由一个当前电压和前四个时刻的电压组成，但不仅仅限于以上给出的典型特征，可以根据实际需求选择其他数值。
权利要求1所述的一种基于机器学习的量子通信系统的主动反馈控制方法，其特征在于：所述主动反馈控制方法的反馈控制可以由干涉环扫描程序完成，其反馈过程以更新LSTM网络为目的；将干涉环扫描程序扫描出的实时电压反馈回LSTM网络，使网络更新其权重与偏置电压值；所述主动反馈控制方法的反馈控制不仅仅限于以上提到的干涉环扫描程序完成，也可以通过包括偏振扫描在内的其他扫描程序完成。
权利要求1所述的一种基于机器学习的量子通信系统的主动反馈控制方法，其特征在于：所述主动反馈控制方法的训练阶段与预测阶段可以互相分开，本方法采用在每次预测前连续更新网络的方式使得LSTM网络只需根据预测阶段的实际情况进行微调，从而实现了训练阶段与预测阶段的分离。
权利要求1所述的一种基于机器学习的量子通信系统的主动反馈控制方法，其特征在于：所述主动反馈控制方法将双层LSTM网络用于QKD系统的稳定调相过程，但不仅仅限于使用双层LSTM网络，可以根据实际量子通信系统的复杂程度对网络结构做相应调整。