WO2023213051A1

WO2023213051A1 - 一种基于csi信号到达角估计的静态人体姿势估计方法

Info

Publication number: WO2023213051A1
Application number: PCT/CN2022/125127
Authority: WO
Inventors: 肖甫; 徐铭明; 郭政鑫; 胡海; 桂林卿; 盛碧云; 周剑; 蔡惠
Original assignee: 南京邮电大学
Priority date: 2022-05-06
Filing date: 2022-10-13
Publication date: 2023-11-09
Also published as: CN114581958A; CN114581958B

Abstract

一种基于CSI信号到达角估计的静态人体姿势估计方法，通过CSI估计感知区域内的信号到达角并构建图像，利用师生网络从图像估计人体姿势。具体如下：首先使用带有移动轨道的接收天线柱，在不同的高度收集感知区域内的CSI信号。其次构造二维AoA图像特征，利用MUSIC算法将CSI信息转换为一维AoA数据，并将不同高度的一维AoA数据组合为二维AoA图像，设计环境降噪算法以消除静态环境因素，增强人体感知部分。最后构建师生网络模型，使用基于视觉的教师网络对基于二维AoA图像的学生网络进行监督，最终学生网络模型能独立地由CSI估计人体姿势。本方法能够识别多种静态人体姿势，以较低成本获得较高预测准确率。

Description

一种基于CSI信号到达角估计的静态人体姿势估计方法

技术领域

本发明涉及人体姿势估计技术领域，具体涉及一种基于CSI信号到达角估计的静态人体姿势估计方法。

背景技术

随着以人为本的计算机应用技术的高速发展，例如智能家居，体感游戏，健康检测，活动记录等面向人体活动的应用迫切需要易用的人体姿势检测技术。传统的人体姿势检测技术往往需要使用者佩戴传感器或部署摄像头，增加了使用成本并可能侵犯隐私。新兴的室内无线感知技术借助于无线电磁信号来感知人体活动，无需用户佩戴额外的传感器并且易于部署。人体姿势估计技术还可以进一步划分为单一姿势识别和以人体骨骼点为基础的姿势识别，单一姿势识别仅能识别出固定的几个姿势，而基于人体骨骼点的姿势估计则输出人体骨骼点的位置和关联。

目前人体姿势估计技术主要使用视觉方法，RF信号，毫米波雷达等。然而，这些技术往往需要用户购买额外的硬件并且感知精度较差。基于视觉的人体姿势估计方法分析人体活动时拍摄的图像，利用机器学习算法判断图像中人物的姿势或骨骼点位置，已经得到了广泛的应用。然而，随着人们隐私意识的提高，视觉方法需要使用的摄像机可能造成隐私泄露，因而受到了抵触。基于RF信号的人体姿势估计方法利用调制的电磁波对目标所在区域进行扫描，分析感知区域内的信号变化，进而可以实现人体姿势估计，但该方案需要昂贵的专用设备，还需要专业人员进行设备的部署，因而受到了许多限制。基于毫米波雷达的人体姿势估计方法使用毫米波设备发射信号波束并接收回波来分析感知区域内的人体活动状态，进而估计人体姿势，可以估计出3D人体骨骼点和人的活动轨迹，但是使用的设备价格昂贵，并且其较高的信号发射功率在生活环境下可能对人体健康造成影响，难以广泛部署。

发明内容

本发明的目的是提供一种基于CSI信号到达角估计的静态人体姿势估计方法，通过广泛部署的Wi-Fi设备接收感知区域内的CSI数据，估计感知区域内的信号到达角，并构建二维到达角图像，利用师生网络从二维到达角图像中估计人体姿势，具有较高的估计精度和较低的使用成本。

一种基于CSI信号到达角估计的静态人体姿势估计方法，包括如下步骤：

步骤1：在感知区域内摆放带有移动轨道的接收天线柱，利用固定的发射天线向安装在移动轨道上的接收天线发送Wi-Fi数据包，接收天线移动到多个指定的高度采集CSI数据，并同步采集图像数据；

步骤2：提取CSI数据中的相位信息，构造为一维AoA图像，将不同高度的一维AoA图像组合成二维AoA图像；

步骤3：利用环境降噪算法消除二维AoA图像中的环境干扰因素；

步骤4：将图像数据输入教师网络获得人体骨骼点坐标的监督数据，将监督数据和降噪后的二维AoA图像输入学生网络进行训练；

步骤5：在识别人体姿势时，在感知区域内摆放带有移动轨道的接收天线柱，利用固定的发射天线向安装在移动轨道上的接收天线发送Wi-Fi数据包，接收天线移动到多个指定的高度，在每个高度采集一个CSI数据，将不同高度采集的CSI数据经步骤2和3提取特征后，将特征进行插值处理后，输入步骤4中已训练的学生网络模型中，输出感知区域内目标的人体骨骼点预测坐标。

进一步地，步骤2中，对于一个高度采集的单个CSI数据包中第i根接收天线的第k个子载波的相位数据φ _i,k，其相位误差模型表示为：

其中，θ _k是原始相位，

是非线性误差，f _s是子载波之间的频率空间，δ是由多径传播导致的传播时延，β是线性相位误差，Z是高斯白噪声；

通过电缆直接连接收发天线，获得无环境干扰的相位φ _k′，使用线性拟合求解出非线性和线性相位误差

β、以及接收天线之间存在的同步相位误差

进一步地，步骤2中，提取CSI数据中包含的56个子载波的相位数据，并将三根接收天线的相位数据进行同步和误差校正；当接收天线移动到高度i时，从采集的CSI信号中利用MUSIC算法计算ToF和AoA联合估计的MUSIC频谱P _MUSIC(τ,θ)，其中τ是飞行时间，θ是到达角；将MUSIC频谱P _MUSIC(τ,θ)转换为一维AoA图像，图像包含1×181个像素点，第k个像素点计算为：

在8个不同高度分别采集CSI数据并将其转换为一维AoA图像，将8张一维AoA图像组合成完整的二维AoA图像：

2D AoA image＝(img ₁ img ₂…img ₈) ^T

进一步地，步骤3中，环境降噪算法的具体方法如下：

步骤3-1：统计并分析静态环境下15s采集的采样点A处的1500个数据包的P _MUsIC，用分布函数分析其ToF _static时间范围和分布情况；

F _ToFstatic(x)＝P(ToF _static≤x)

根据ToF分布的实际情况将ToF分为若干段，ToF的分布区间为[X _min,X _max]，根据ToF的数值切分成L个不等长的ToF段，对于第k个ToF段[x _kl,x _kr]，其分布为P(x _kl≤ToF≤x _kr)；

步骤3-2：根据区间ToF段和分布利用指数加权函数计算加权矩阵weight(ToF _static)，对于区间inter＝[x _kl,x _kr]：

其中，β是由ToF长短决定的参数，α是衰减因子，根据需要降低的环境因素强度设置；

步骤3-3：在动态环境下采集采样点A处的单个数据包的P _MUSIC后，分析动态环境下单个数据包的P _MUSIC的飞行时间ToF _dynamic，利用步骤3-2中获得的权重函数weight()计算环境降噪后的P′ _MUSIC：

P _MUSIC(ToF _dynamic,AoA)′

＝P _MUSIC(ToF _dynamic,AoA)×weight(ToF _dynamic)

进一步地，步骤4中，设计的神经网络包含教师网络和学生网络，学生网络包含输入层，残差块和输出层；教师网络的输入为图像，输出为人体骨骼点坐标；学生网络的输入是大小为32×181的二维AoA图像，输入层使用步长为2，大小为7×7的卷积核并将通道数提升至64；使用了四个残差块，每个残差块包含2个残差层，残差块的第一个残差层使用步长为2，大小为3×3的卷积核，第二个残差层与第一个残差层结构相同，步长为1；输出层使用扁平层将数据一维化后输入全连接层，最终输出预测的人体骨骼点坐标。

进一步地，步骤4中，对于获得的2D AoA image∈R ^8×181，使用傅里叶插值法将数据插值为2D AoA image′∈R ^32×181。

本发明达到的有益效果为：提出一种基于CSI信号到达角估计的人体姿势估计方法，通过商用Wi-Fi设备采集CSI数据，估计感知区域内的信号到达角，并构建二维到达角图像，利用师生网络从二维到达角图像中估计静态人体姿势，具有非接触式感知，高估计精度和低成本的优点。

附图说明

图1是本发明实施例中的基于CSI信号到达角估计的人体姿势估计方法的流程示意图。

图2是本发明实施例中的实验场景示意图。

图3是本发明实施例中的学生网络的网络结构示意图。

图4是本发明实施例中的人体姿势估计的预测结果示意图。

图5是本发明实施例中的COCO18的骨骼关键点示意图。

图6是本发明实施例中的COCO18和Body10两种骨骼点

图7是本发明实施例中的环境降噪算法对骨骼点识别精度的影响示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，本发明提供了一种基于CSI信号到达角估计的静态人体姿势估计方法，其过程如下所述：

步骤1：如图2所示，在感知区域内摆放带有移动轨道的接收天线柱，利用固定的发射天线向移动轨道上的接收天线发送Wi-Fi数据包，接收天线移动到多个指定的高度采集CSI数据，并同步采集图像数据。

步骤2：在八个不同的高度各采集3000个CSI数据包，提取CSI数据中的相位信息，构造为一维AoA图像，将不同高度的一维AoA图像组合成二维AoA图像。

具体地，对于一个高度采集的单个CSI数据包中第i根接收天线的第k个子载波的相位数据φ _i,k，其相位误差模型可表示为：

其中，θ _k是原始相位，

是非线性误差，f _s是子载波之间的频率空间，δ是由多径传播导致的传播时延，Ω是线性相位误差，Z是高斯白噪声。

通过电缆直接连接收发天线，获得无环境干扰的相位φ _k′，使用线性拟合求解出非线性相位误差

线性相位误差Ω，以及接收天线之间存在的同步相位误差

对三根天线的CSI相位(φ _1,1～56,φ _2,1～56,φ _3,1～56),当接收天线移动到高度i时，从采集的CSI信号中利用MUSIC算法计算ToF和AoA联合估计的MUSIC频谱P _MUSIC(τ,θ)，其中τ是飞行时间，θ是到达角。将MUSIC频谱P _MUSIC(τ,θ)转换为一维AoA图像，图像包含1×181个像素点，第k个像素点计算为：

此处公式中的k就是频谱中的角度，一维AoA图像的每个像素点对应于角度上的1度，有181个像素点是因为包含0度。

2D AoA image＝(img ₁ img ₂…img ₈) ^T

步骤3：利用环境降噪算法消除二维AoA图像中的环境干扰因素：

步骤3-1：统计并分析静态环境下15s采集的采样点A处的1500个数据包的P _MUSIC，用分布函数分析其ToF _static时间范围和分布情况，

F _ToFstatic(x)＝P(ToF _static≤x)

根据ToF分布的实际情况将ToF分为若干段，ToF的分布区间为[X _min,X _max]，根据ToF的数值切分成L个不等长的ToF段，对于第k个ToF段[x _kl,x _kr]，其分布为P(x _kl≤ToF≤x _kr)。

其中，β是由ToF长短决定的参数，α是衰减因子，根据需要降低的环境因素强度设置。

P _MUSIC(ToF _dynamic,AoA)′

＝P _MUSIC(ToF _dynamic,AoA)×weight(ToF _dynamic)

步骤4：将图像数据输入教师网络获得人体骨骼点坐标的监督数据，将监督数据和降噪后的AoA图像输入学生网络进行训练。

设计的神经网络包含教师网络和学生网络，学生网络包含输入层，残差块和输出层。教师网络的输入为图像，输出为人体骨骼点坐标。如图3所示，学生网络的输入是大小为32×181的二维AoA图像，输入层使用步长为2，大小为7×7的卷积核并将通道数提升至64；使用了四个残差块，每个残差块包含2个残差层，残差块的第一个残差层使用步长为2，大小为3×3的卷积核，第二个残差层与第一个残差层相同，但步长为1；输出层使用扁平层将数据一维化后输入全连接层，最终输出预测的人体骨骼点坐标。

步骤5：在识别人体姿势时，在感知区域内摆放带有移动轨道的接收天线柱，利用固定的发射天线向安装在移动轨道上的接收天线发送Wi-Fi数据包，接收天线移动到多个指定的高度，在每个高度采集一个CSI数据，将不同高度采集的CSI数据经步骤2和3提取特征后，将特征进行插值处理：

对于获得的2D AoA image∈R ^8×181，使用傅里叶变换插值法将数据插值为2D AoA image′∈R ^32×181。

将2D AoA image输入步骤4中已训练的学生网络模型中，输出感知区域内目标的人体骨骼点预测坐标。

步骤1-4的流程对应于机器学习中的训练阶段，训练时需要在每个高度采集大量数据用以训练学生网络，每个高度采集30s，8个高度采集需花费5分钟；步骤5是对人体姿势进行识别，对于于机器学习中的测试阶段，测试时每个高度仅需要采集一个数据，一个数据的采集仅需要10毫秒，算上滑轨移动时间，8个高度的数据采集可以在10s内完成。实际使用时，使用训练好的学生网络模型进行姿势识别，仅需要较少的数据采集时间，如使用射频开关，此过程可减少到1s内。

为了评估本方法在不同时间和不同场景下的可靠性，在以下三个实验场景中进行了实验：1.实验室A：实验室形状不规则，靠近墙壁堆放了一些实验器材；2.实验室B：长方形实验室，靠墙有多个书桌和铁质文件柜；c.走廊：狭长并有一侧窗户。

为了评估不同身高和体型对本方法的影响，选择6位不同性别，身高和体型的志愿者。数据集包含了6个志愿者分别在3个环境下采集的5个动作，分别为：站立，叉手，平举双手，双手向上，坐姿。每个动作包含8个采样点，每个采样点采集1500个CSI样本，总共采集了1080000个CSI样本，生成了135000个2D AoA图像。同时，我们使用相机采集每个志愿者每个动作的图片，并使用OpenPose获得人体骨骼点的标签。数据的75％被用于训练网络，剩余的25％被用于测试网络。

图4展示了本方法在Lab B上对静态人体的5个不同姿势进行估计的骨骼点结果：第一行图像是采集的对象5个不同姿势的图片及利用OpenPose预测的人体关键点；第二行图像则是采集的对象的5个不同姿势的及本专利的关键点预测。预测结果显示本方法能准确估计人体的不同姿势，预测结果与基于视觉的方法OpenPose差别不大。

为了更好的评估本方法所预测人体骨骼点与annotation outputted by OpenPose之间的差距，使用Percentage of Correct Keypoint(PCK)：

其中，L是一个逻辑函数，表达式为真时输出1，表达式为假时输出0；N是测试的样本的数量，i代指第i个人体关键点，i∈COCO18 or Body10；pd _i是预测点关键点，gt _i是ground-truth，

是关键点i预测值与真实值的欧式距离；length _std是用于标准化误差的参数，a是允许预测点在真实值附近的范围大小。

1.整体识别率：

由于不同的志愿者的身高和体型各不相同，使用志愿者的头部长度hl作为标准化参数。采用COCO18时，以PCK@0.5hl计算，本方法在三个不同场景下的平均关键点识别率为85.5％(A:88.4％,B:91.8％,C:76.3％)；采用Body10时，以PCK@0.5hl计算，本方法在三个不同场景下的平均关键点识别率为83.5％(A:85.4％,B:91.8％,C:73.4％)。与Wi-Pose和WiSPPN相比，本方法的精度显著提高，在PCK指标设置的较低(PCK@40,length _std＝1)时能获得18％的识别率提升；在PCK指标设置的较高时(PCK@25,length _std＝1)，Wi-Pose和WiSPPN均无法识别，而本方法仍能获得85％的识别率。

表一骨骼点识别率

2.不同骨骼点的识别精度：

人体骨骼的关键点分布在人体的不同部位，无线信号在不同关键点的反射特性也不同。因此，每个关键点的预测精度是不同的。表二给出了COCO18和Body10两种骨骼点表示标准，参考图5-6。表三和表四给出了COCO18 PCK@25和Body10 PCK@25下每个关键点的平均预测精度。结果表明，所有骨架关键点在COCO18和Body10中的平均预测精度均为88％。左右手腕在相同环境下的预测精度低于其他关键点，在COCO18中为79％，在Body10中为80％。推断这是因为手腕有时会远离躯干，这使得预测变得更加困难。

表二COCO18和Body10骨骼点列表

表三COCO18PCK@25下骨骼点平均识别精度(百分比)

表四Body10PCK@25下骨骼点平均识别精度(百分比)

3.环境降噪算法对于识别精度的影响：

本方法利用环境降噪算法来减少环境因素的影响。图7分别给出了本方法使用环境降噪算法评估数据的预测准确度和原始数据的预测准确度。结果表明，环境降噪算法在所有环境中的预测精度都提高了5％。将PCK指标从PCK@50提高到PCK@10时，环境降噪算法的提高从2.6％提高到9.5％。此外，对于走廊杂环境，环境降噪算法的数据在PCK@25时有7％的提升。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

一种基于CSI信号到达角估计的静态人体姿势估计方法，其特征在于：所述人体姿势估计方法包括如下步骤：

步骤1：在感知区域内摆放带有移动轨道的接收天线柱，利用固定的发射天线向安装在移动轨道上的接收天线发送Wi-Fi数据包，接收天线移动到多个指定的高度，在每个高度采集多个CSI数据，并同步采集图像数据；

步骤2：提取CSI数据中的相位信息，构造为一维AoA图像，将不同高度的一维AoA图像组合成二维AoA图像；

步骤3：利用环境降噪算法消除二维AoA图像中的环境干扰因素；

步骤4：将图像数据输入教师网络获得人体骨骼点坐标的监督数据，将监督数据和降噪后的二维AoA图像输入学生网络进行训练；

步骤5：在识别人体姿势时，在感知区域内摆放带有移动轨道的接收天线柱，利用固定的发射天线向安装在移动轨道上的接收天线发送Wi-Fi数据包，接收天线移动到多个指定的高度，在每个高度采集一个CSI数据，将不同高度采集的CSI数据经步骤2和3提取特征后，将特征进行插值处理后，输入步骤4中已训练的学生网络模型中，输出感知区域内目标的人体骨骼点预测坐标。
根据权利要求1所述的一种基于CSI信号到达角估计的静态人体姿势估计方法，其特征在于：步骤2中，对于一个高度采集的单个CSI数据包中第i根接收天线的第k个子载波的相位数据φ _i,k，其相位误差模型表示为：

其中，θ _k是原始相位，
是非线性误差，f _s是子载波之间的频率空间，δ是由多径传播导致的传播时延，Ω是线性相位误差，Z是高斯白噪声；

通过电缆直接连接收发天线，获得无环境干扰的相位φ _k′，使用线性拟合求解出非线性相位误差
线性相位误差Ω、以及接收天线之间存在的同步相位误差
根据权利要求1所述的一种基于CSI信号到达角估计的静态人体姿势估计方法，其特征在于：步骤2中，提取CSI数据中包含的56个子载波的相位数据，并将三根接收天线的相位数据进行同步和误差校正；当接收天线移动到高度i时，从采集的CSI信号中利用MUSIC算法计算ToF和AoA联合估计的MUSIC频谱P _MUSIC(τ,θ)，其中τ是飞行时间，θ是到达角；将MUSIC频谱P _MUSIC(τ,θ)转换为一维AoA图像，图像包含1×181个像素点，高度为i的一维AoA图像的第k个像素点计算为：

在8个不同高度分别采集CSI数据并将其转换为一维AoA图像，将8张一维AoA图像组合成完整的二维AoA图像：

2D AoA image＝(img ₁ img ₂ … img ₈) ^T
根据权利要求1所述的一种基于CSI信号到达角估计的静态人体姿势估计方法，其特征在于：步骤3中，环境降噪算法的具体方法如下：

步骤3-1：统计并分析静态环境下15s采集的采样点A处的1500个数据包的P _MUSIC，用分布函数分析静态环境下飞行时间ToF _static时间范围和分布情况；

根据ToF分布的实际情况将ToF分为若干段，ToF的分布区间为[X _min,X _max]，根据ToF的数值切分成L个不等长的ToF段，对于第k个ToF段[x _kl,x _kr]，其分布为P(x _kl≤ToF≤x _kr)；

步骤3-2：根据区间ToF段和分布利用指数加权函数计算加权矩阵weight(ToF _static)，对于区间inter＝[x _kl,x _kr]：

其中，β是由ToF长短决定的参数，α是衰减因子，根据需要降低的环境因素强度设置；

步骤3-3：在动态环境下采集采样点A处的单个数据包的P _MUSIC后，分析动态环境下单个数据包的P _MUSIC的飞行时间ToF _dynamic，利用步骤3-2中获得的权重函数weight()计算环境降噪后的P′ _MUSIC：

P _MUSIC(ToF _dynamic,AoA)′＝P _MUSIC(ToF _dynamic,AoA)×weight(ToF _dynamic)
根据权利要求1所述的一种基于CSI信号到达角估计的静态人体姿势估计方法，其特征在于：步骤4中，设计的神经网络包含教师网络和学生网络，学生网络包含输入层，残差块和输出层；教师网络的输入为图像，输出为人体骨骼点坐标；学生网络的输入是大小为32×181的二维AoA图像，输入层使用步长为2，大小为7×7的卷积核并将通道数提升至64；残差块包含2个残差层，残差块的第一个残差层使用步长为2，大小为3×3的卷积核，第二个残差层与第一个残差层结构相同，步长为1；输出层使用扁平层将数据一维化后输入全连接层，最终输出预测的人体骨骼点坐标。
根据权利要求1所述的一种基于CSI信号到达角估计的静态人体姿势估计方法，其特征在于：步骤4中，对于获得的2D AoA image∈R ^8×181，使用傅里叶插值法将数据插值为2D AoA image′∈R ^32×181。