WO2022257187A1

WO2022257187A1 - 一种非接触式疲劳检测方法及系统

Info

Publication number: WO2022257187A1
Application number: PCT/CN2021/101744
Authority: WO
Inventors: 刘三女牙; 杨宗凯; 赵亮; 秦洪亮; 都一鸣; 叶世豪; 朱晓亮; 戴志诚
Original assignee: 华中师范大学
Priority date: 2021-06-11
Filing date: 2021-06-23
Publication date: 2022-12-15
Also published as: CN113420624A; US20240023884A1; CN113420624B

Abstract

一种非接触式疲劳检测方法及系统，其中的方法主要包括：向待检测者发送毫米波雷达信号，并接收从待检测者反射的回波信号，确定生命体征信号的时频域特征、非线性特征以及时序特征(S101)；获取待检测者的脸部视频图像，基于脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征(S102)；将生命体征信号的时频域特征、非线性特征以及时序特征与待检测者人脸的时域特征和空域特征融合，得到融合后的特征(S103)；将融合后的特征输入到分类器，进行待检测者的疲劳状态识别，判断待检测者是否处于疲劳状态(S104)。该方法将两种检测技术融合，从而有效抑制主客观因素的干扰，提高疲劳检测的精度。

Description

一种非接触式疲劳检测方法及系统

【技术领域】

本发明属于信息技术领域，更具体地，涉及一种非接触式疲劳检测方法及系统。

【背景技术】

非接触式的疲劳状态检测已逐渐被应用在学术界和工业界的很多情境中，如：驾驶疲劳检测、学习疲劳检测等。现有的疲劳状态检测大多基于视频图像处理技术，即：通过提取视频中人脸图像特征，如：眨眼频率及眼部轮廓变化等特征，判断其疲劳状态。尽管该技术已有较高的准确率，但仍存在诸多缺陷，如：容易受光线昏暗、光照不均、面部偏转倾斜等客观因素的影响，从而导致检测误差；容易受被试伪装，如：通过假装闭眼、伪装面部表情等掩饰其真实状态等主观因素的影响，从而对测试带来极大干扰。

而与此同时，由于生理信号具有独特性和稳定性等优点，基于生理信号的疲劳状态检测不断发展。概括来说，基于生理信号的疲劳检测一般包括以下两种：(1)基于可穿戴设备提取生理信号，如：心电图、光电容积脉搏波描记法、脑电图，作为一种接触式检测手段，该方式在实际生活中存在不便携带等问题；(2)基于毫米波雷达提取生理信号，如：呼吸和心率，作为一种非接触式检测手段，该方式已逐渐在工业汽车领域受到广泛关注。基于毫米波雷达的疲劳检测具有功耗小、精度高等优点，但也仍存在一定问题：就信号采集而言，毫米波雷达易受环境噪声及被试肢体运动等因素的干扰，现有方法尚无法妥善解决；就信号处理而言，现有检测手段往往局限于时频域特征计算，其中，时频域特征如峰峰间隔，而没有关注其非线性特征及时序特征。

【发明内容】

针对现有技术的缺陷，本发明的目的在于提供一种非接触式疲劳检测方法及系统，旨在解决现有基于视频图像处理技术的疲劳检测易受环境客观因素、人为主观因素等干扰，现有基于毫米波雷达的疲劳检测技术易受环境噪声及被试肢体运动等因素干扰问题。

为实现上述目的，第一方面，本发明提供了一种非接触式疲劳检测方法，包括如下步骤：

向待检测者发送毫米波雷达信号，并接收从待检测者反射的回波信号；对所述回波信号进行杂波抑制、回波选择后提取待检测者的生命体征信号，并确定生命体征信号的时频域特征、非线性特征以及时序特征；所述生命体征信号包括：呼吸信号和心率信号；

获取待检测者的脸部视频图像，基于所述脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征；

将所述生命体征信号的时频域特征、非线性特征以及时序特征与所述待检测者人脸的时域特征和空域特征融合，得到融合后的待检测者特征；

将融合后的待检测者特征输入到预训练好的分类器，进行待检测者的疲劳状态识别，判断待检测者是否处于疲劳状态；所述分类器基于融合后的待检测者特征将待检测者的状态划分为：警觉、正常以及疲劳三种状态；其中，警觉和正常状态均为非疲劳状态。

在一个可选的示例中，所述基于所述脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征，具体为：

对脸部视频图像进行人脸检测，提取人脸特征点，得到人脸特征点序列；

基于人脸特征点序列，根据特征点中眼睛和眉毛区域点位信息，计算出人脸中间点的位置，采用仿射变换对当前脸部视频图像中的人脸进行校准和对齐；

将对齐后的脸部视频图像数据集调整为预设大小的图片，以L帧图像为一组生成一个帧序列，并借鉴时间敏感性网络处理流程，将帧序列划分成K个部分，从每个部分里随机选取一帧作为最终的输入帧，得到一个K帧的序列，生成一个数据集；其中，L和K均为大于0的整数；

将所述数据集输入到残差网络ResNet50中，提取脸部视频图像的空间特征；

采用混合注意力模块提取帧间关联特征，所述混合注意力模块由自注意力模块和空间注意力模块两部分组成；具体为：将所提取的空间特征输入自注意力模块，提取单帧的关联特征；将单帧关联特征输入空间注意力模块提取相邻帧间的空间关联特征；将所述空间特征与单帧的关联特征、相邻帧间的空间关联特征相融合，并将融合后的特征输入到门控循环单元(Gated recurrent unit，GRU)，提取脸部视频图像的时间特征；

将脸部视频图像的空间特征和时间特征输入到全连接层，用全连接层参数表征待检测者人脸的空域特征和时域特征。

在一个可选的示例中，所述对所述回波信号进行杂波抑制、回波选择后提取待检测者的生命体征信号，并确定生命体征信号的时频域特征、非线性特征以及时序特征，具体为：

对所述回波信号进行波形重构，具体为：采用小波带通滤波剔除噪声，分别提取其中的呼吸信号和心率信号，作为生命体征信号；

利用时频分析和非线性分析技术，分别提取生命体征信号的时域特征、频域特征和非线性特征；对呼吸信号，提取的时域特征、频域特征和非线性特征包括均值、方差、功率谱密度、分形维数和近似熵；对心率信号，提取的时域特征包括单拍频特征和多拍频特征；提取的频域特征包括：低频分量、高频分量、低频高频比、频谱的峰度以及偏度；提取的非线性特征包括：近似熵、样本熵、李氏指数、Hurst指数以及去趋势波动指数；所述单拍频特征目的是提取每次心跳的瞬时变化特征；所述多拍频特征和频域特征目的是提取多次心跳的长期变化特征；所述非线性特征的目的是进一步提取心率的非线性变化特征，所述非线性特征与疲劳状态具备很强的相关性，可提高分类器疲劳状态识别精度；

利用深度学习技术，提取时序特征：首先，在检测窗口内，设置子滑动窗口，分别提取各子滑动窗口内生命体征信号的时域特征、频域特征和非线性特征；其次，按时间顺序将提取的相关特征依次放入卷积神经网络CNN与双向长短期记忆神经网络BiLSTM组合的模型，提取其全连接层的特征，作为生命体征信号的时序特征；

基于统计分析和机器学习，从提取的特征中筛选出与疲劳状态分类相关性相对较高的特征，作为最终的生命体征信号的时频域特征、非线性特征以及时序特征。

在一个可选的示例中，所述将生命体征信号的时频域特征、非线性特征以及时序特征与所述待检测者人脸的时域特征和空域特征融合，得到融合后的待检测者特征，具体为：

采用多项式特征生成和深度特征合成技术，融合滑动检测窗口及其子窗口的生命体征信号的时频域特征、非线性特征以及时序特征和待检测者人脸的时域特征和空域特征，得到初步融合特征；

将初步融合特征与生命体征信号的时频域特征、非线性特征以及时序特征和待检测者人脸的时域特征和空域特征合并；得到合并后的特征；

采用Transformer模型，基于注意力机制分别筛选滑动检测窗口及其子窗口的所述合并后的特征；其中，对于滑动窗口，基于注意力机制进行特征选择；对于子窗口，按时间顺序将相关特征依次放入Transformer时序模型后，基于注意力机制进行特征选择；将滑动窗口及子窗口所选择的特征进行合并，得到融合后的待检测者特征。

在一个可选的示例中，所述分类器通过如下步骤训练：

确定训练样本，所述训练样本包括多个训练者的融合特征；每个训练者的融合特征包括该训练者的毫米波雷达特征和脸部视频特征；所述毫米波雷达特征包括：生命体征信号的时频域特征、非线性特征以及时序特征；所述脸部视频特征包括：人脸的时域特征和空域特征；

在每个训练者的融合特征对应的数据集中加入状态标签，组成每个训练者的训练数据集；所述状态标签指示所述融合特征对应的训练者状态；其中，训练者状态属于警觉、正常以及疲劳三种状态中的一种；

将每个训练者的训练数据集输入到分类器中，以结合其中的状态标签训练学习分类器，得到训练后的分类器。

第二方面，本发明提供了一种非接触式疲劳检测系统，包括：

毫米波特征确定单元，用于向待检测者发送毫米波雷达信号，并接收从待检测者反射的回波信号；对所述回波信号进行杂波抑制、回波选择后提取待检测者的生命体征信号，并确定生命体征信号的时频域特征、非线性特征以及时序特征；所述生命体征信号包括：呼吸信号和心率信号；

脸部视频特征确定单元，用于获取待检测者的脸部视频图像，基于所述脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征；

特征融合单元，用于将所述生命体征信号的时频域特征、非线性特征以及时序特征与所述待检测者人脸的时域特征和空域特征融合，得到融合后的待检测者特征；

疲劳检测单元，用于将融合后的待检测者特征输入到预训练好的分类器，进行待检测者的疲劳状态识别，判断待检测者是否处于疲劳状态；所述分类器基于融合后的待检测者特征将待检测者的状态划分为：警觉、正常以及疲劳三种状态；其中，警觉和正常状态均为非疲劳状态。

在一个可选的示例中，所述脸部视频特征确定单元，对脸部视频图像进行人脸检测，提取人脸特征点，得到人脸特征点序列；基于人脸特征点序列，根据特征点中眼睛和眉毛区域点位信息，计算出人脸中间点的位置，采用仿射变换对当前脸部视频图像中的人脸进行校准和对齐；将对齐后的脸部视频图像数据集调整为预设大小的图片，以L帧图像为一组生成一个帧序列，并借鉴时间敏感性网络处理流程，将帧序列划分成K个部分，从每个部分里随机选取一帧作为最终的输入帧，得到一个K帧的序列，生成一个数据集；其中，L和K均为大于0的整数；将所述数据集输入到残差网络ResNet50中，提取脸部视频图像的空间特征；采用混合注意力模块提取帧间关联特征，所述混合注意力模块由自注意力模块和空间注意力模块两部分组成；具体为：将所提取的空间特征输入自注意力模块，提取单帧的关联特征；将单帧关联特征输入空间注意力模块提取相邻帧间的空间关联特征；将所述空间特征与单帧的关联特征、相邻帧间的空间关联特征相融合，并将融合后的特征输入到门控循环单元GRU，提取脸部视频图像的时间特征；以及将脸部视频图像的空间特征和时间特征输入到全连接层，用全连接层参数表征待检测者人脸的空域特征和时域特征。

在一个可选的示例中，所述毫米波特征确定单元对所述回波信号进行波形重构，具体为：采用小波带通滤波剔除噪声，分别提取其中的呼吸信号和心率信号，作为生命体征信号；利用时频分析和非线性分析技术，分别提取生命体征信号的时域特征、频域特征和非线性特征；对呼吸信号，提取的时频域和非线性特征包括均值、方差、功率谱密度、分形维数和近似熵；对心率信号，提取的时域特征包括单拍频特征和多拍频特征；提取的频域特征包括：低频分量、高频分量、低频高频比、频谱的峰度以及偏度；提取的非线性特征包括：近似熵、样本熵、李氏指数、Hurst指数以及去趋势波动指数；所述单拍频特征目的是提取每次心跳的瞬时变化特征；所述多拍频特征和频域特征目的是提取多次心跳的长期变化特征；所述非线性特征的目的是进一步提取心率的非线性变化特征，所述非线性特征与疲劳状态具备很强的相关性，可提高分类器疲劳状态识别精度；利用深度学习技术，提取时序特征：首先，在检测窗口内，设置子滑动窗口，分别提取各子滑动窗口内生命体征信号的时域特征、频域特征和非线性特征；其次，按时间顺序将提取的相关特征依次放入卷积神经网络CNN与双向长短期记忆神经网络BiLSTM组合的模型，提取其全连接层的特征，作为生命体征信号的时序特征；基于统计分析和机器学习，从提取的特征中筛选出与疲劳状态分类相关性相对较高的特征，作为最终的生命体征信号的时频域特征、非线性特征以及时序特征。

在一个可选的示例中，所述特征融合单元，采用多项式特征生成和深度特征合成技术，融合滑动检测窗口及其子窗口的生命体征信号的时频域特征、非线性特征以及时序特征和待检测者人脸的时域特征和空域特征，得到初步融合特征；将初步融合特征与生命体征信号的时频域特征、非线性特征以及时序特征和待检测者人脸的时域特征和空域特征合并；得到合并后的特征；采用Transformer模型，基于注意力机制分别筛选滑动检测窗口及其子窗口的所述合并后的特征；其中，对于滑动窗口，基于注意力机制进行特征选择；对于子窗口，按时间顺序将相关特征依次放入Transformer时序模型后，基于注意力机制进行特征选择；将滑动窗口及子窗口所选择的特征进行合并，得到融合后的待检测者特征。

在一个可选的示例中，该系统还包括分类器训练单元，用于确定训练样本，所述训练样本包括多个训练者的融合特征；每个训练者的融合特征包括该训练者的毫米波雷达特征和脸部视频特征；所述毫米波雷达特征包括：生命体征信号的时频域特征、非线性特征以及时序特征；所述脸部视频特征包括：人脸的时域特征和空域特征；在每个训练者的融合特征对应的数据集中加入状态标签，组成每个训练者的训练数据集；所述状态标签指示所述融合特征对应的训练者状态；其中，训练者状态属于警觉、正常以及疲劳三种状态中的一种；将每个训练者的训练数据集输入到分类器中，以结合其中的状态标签训练学习分类器，得到训练后的分类器。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供了一种非接触式疲劳检测方法及系统，同时采集待检测者的毫米波数据及视频图像数据，在毫米波雷达检测部分，通过毫米波收发模块，向被试发送毫米波雷达信号并采集其回波信号，从中提取呼吸和心率等生命体征信号并计算其相关特征；在视频图像检测部分，通过视频采集设备连续采集被试人脸面部信息并提取相关特征；最终，将两种方式所提取的特征进行融合，并在此基础上进行疲劳检测，将两种技术融合从而有效抑制主客观因素的干扰，通过混合注意力机制提取视频图像的时间和空间特征，通过非线性分析和深度学习提取毫米波雷达的非线性特征和时序特征，进一步提高疲劳检测的精度。该方法采用非接触式技术进行疲劳检测，灵活性较强，弥补了单一检测技术的缺陷，提高了检测的鲁棒性。

【附图说明】

图1为本发明实施例提供的非接触式疲劳检测方法流程图；

图2为本发明实施例提供的特征融合部分流程图；

图3为本发明实施例提供的非接触式疲劳检测系统框图；

图4为本发明实施例提供的滑动窗口示意图；

图5为本发明实施例提供的CNN+BiLSTM结构示意图；

图6为本发明实施例提供的心率信号的单拍频波形及其特征点示意图；

图7为本发明实施例提供的非接触式疲劳检测系统架构图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为本发明实施例提供的非接触式疲劳检测方法流程图；如图1所示，包括如下步骤：

S101，向待检测者发送毫米波雷达信号，并接收从待检测者反射的回波信号；对所述回波信号进行杂波抑制、回波选择后提取待检测者的生命体征信号，并确定生命体征信号的时频域特征、非线性特征以及时序特征；所述生命体征信号包括：呼吸信号和心率信号；

具体为：向待检测者发射毫米波雷达信号，并接收从该被试反射的回波信号；对所述回波信号进行杂波抑制和回波选择后，提取被试的生命体征信号(含：呼吸和心率)；从被试的生命体征信号中提取其相应的时频域特征、非线性特征和时序特征；执行特征融合，选择与疲劳状态相关的典型特征。

S102，获取待检测者的脸部视频图像，基于所述脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征；

具体为：获取视频图像中的人脸位置信息并提取其特征点；将人脸特征点对齐并生成输入数据集；采用ResNet网络提取视频数据的空间特征；采用混合注意力模块提取单帧关联特征和帧间关联特征，并执行特征融合；将融合后的特征输入GRU单元提取时间特征，并将特征输出到全连接层，以表征提取的人脸空域特征和时域特征。

S103，将所述生命体征信号的时频域特征、非线性特征以及时序特征与所述待检测者人脸的时域特征和空域特征融合，得到融合后的待检测者特征；

可以理解的是，将毫米波雷达和视频图像处理技术所得到的特征进行融合，具体来说，其流程见图2，若毫米波存在异常，如：存在环境干扰或被试在测试过程中持续性晃动等，则无毫米波特征输出，删除检测窗口内的毫米波数据，基于视频图像进行疲劳检测；若视频图像存在异常而无法检测到人脸，如：存在环境光线昏暗、人脸倾斜偏转等；则无视频图像特征输出，删除检测窗口内的视频数据，基于毫米波雷达进行疲劳检测；若毫米波和视频图像均没检测到被试，则因无特征执行后续计算而显示无被试对象，重新进入循环，在下一个检测窗口内继续执行疲劳检测；若被试在两种方式下的检测结果均无异常，则综合利用毫米波检测和视频图像检测所提取的特征，在融合二者特征的基础上，进行疲劳检测。

S104，将融合后的待检测者特征输入到预训练好的分类器，进行待检测者的疲劳状态识别，判断待检测者是否处于疲劳状态；所述分类器基于融合后的待检测者特征将待检测者的状态划分为：警觉、正常以及疲劳三种状态；其中，警觉和正常状态均为非疲劳状态。

在一个具体的实施例中，步骤S101通过如下过程实现：向被试发射毫米波雷达信号；接收从被试反射回来的回波信号；对所述回波信号进行杂波抑制、回波选择后提取被试的生命体征信号；分别计算各滑动检测窗口内，生命体征信号的时频域、非线性和时序特征。

在一个具体的实施例中，步骤S102通过如下过程实现：实时采集被试视频图像信息；提取人脸特征点；人脸对齐；生成输入数据集；输入ResNet网络进行空间特征提取；输入混合注意力模块进行帧间关联特征提取；输入GRU单元进行时间特征提取；特征输入全连接层。

本发明提供一种非接触式疲劳检测方法及系统，具有可靠性高、鲁棒性强、功率小、便利性好等优点。其检测原理为：首先，检测系统同时监测毫米波数据和视频图像数据，其中毫米波模块向被试发射低功耗毫米波，并检测该信号从人体(如：胸腔等)反射所产生的回波信号，从中提取心率及呼吸等生命体征信号，计算其时频域、非线性和时序特征。其次，对于视频图像数据，执行人脸检测、人脸特征点提取、人脸对齐等操作，并在此基础上提取其时域空域特征信息。最后，在毫米波和视频图像特征融合的基础上，基于分类器执行疲劳检测。

图3为本发明实施例提供的非接触式疲劳检测系统框图，如图3所示，主要包括：

(一)毫米波雷达部分

其中，毫米波雷达部分主要包括：(1)毫米波收发模块；(2)实时信号处理模块；(3)特征提取模块。

(1)毫米波收发模块具体为：发射毫米波并接受毫米波回波信号。具体来说，发射端产生线性调频信号，经过功率放大器后由发射天线发出周期为T _f的Chirp(即：线性调频脉冲)，调频带宽为B的锯齿波，其帧周期(即锯齿波重复周期，每个帧周期内包含多个Chirp)为T _i。接收端接收天线检测接收环境中来自各种物体及人体等反射所产生的回波信号并进行预处理。

(2)实时信号处理模块具体为：执行回波信号的实时采集和处理，提取心率及呼吸信号。主要包括：回波信号的实时采集、杂波抑制、回波选择、波形重构四个步骤。具体处理过程如下：

(2-1)实时采集。通过Socket模块监听UDP端口，实时捕获UDP数据包并在上位机保存原始数据。

(2-2)杂波抑制。毫米波的回波信号中可能包括各种杂波干扰。分别采用自适应背景减法和奇异值分解，滤除来自桌子、墙等静态物体(反射信号)的平稳噪声和来自运动物体(反射信号)的非平稳噪声。

(2-3)回波选择。对被试所在的距离进行精准定位，并从回波信号矩阵Q中选出表征该距离单元的一列信号，其中即包含了被试心率及呼吸的原始信号。具体来说，首先，对回波信号的每一行分别做傅里叶变换，得到一个N×M的距离矩阵R。其中：N表示帧的个数，M表示每个Chirp的采样点数；矩阵R的每一列表征一个距离单元。接着，计算每个距离单元上的能量和，

第三，找出最大能量和所在的列m _max，该列所表征的距离单元即为被试到疲劳检测系统之间的距离。第四，从矩阵Q中提取其第m _max列信号，利用反正切函数计算相位并执行相位解缠操作。

(2-4)波形重构。采用小波带通滤波剔除噪声，分别提取呼吸和心率信号，其中呼吸和心率的通带[f _L，f _H]分别为：[0.1-0.6]Hz和[0.8-2.5]Hz。

(3)特征提取模块，综合利用时频域分析、非线性分析和深度学习提取相关特征。在一个可选的实施例中，设置滑动检测窗口(例如：设置长度为20s，步长为1s的滑动窗口)作为缓冲区，提取窗口内毫米波数据和视频图片数据的相关特征，如图4所示。具体来说，基于毫米波雷达的特征提取部分包括两个步骤：特征计算与特征选择：

(3-1)特征计算。计算滑动检测窗口内呼吸和心率信号的特征。其具体操作流程为，首先，综合利用时频分析和非线性分析技术，分别提取生命体征信号的时域、频域和非线性特征。其中，对呼吸信号，提取的时频域和非线性特征包括均值、方差、功率谱密度、分形维数和近似熵。具体来说，以心率信号为例，其特征如下表1所示，主要包括：bpm、ibi、sdnn、sdsd、rmssd、pnn20、pnn50等时域特征；低频分量、高频分量、低频高频比等频域特征；以及近似熵、样本熵、李氏指数、Hurst指数等非线性特征。其次，提取时序特征。在检测窗口内，设置子滑动窗口(例如：在20s检测窗口内，进一步设置窗口长度为10s、步长为1s的子滑动窗口，将检测窗口进一步细分)，分别提取各子窗口内的时域、频域和非线性特征后，按时间顺序将相关特征依次放入CNN+BiLSTM模型，提取其全连接层的特征，对心率及呼吸信号的动态变化进行量化。其中，CNN+BiLSTM模型如流程图5所示，含1个CNN层，2个BiLSTM层，1个Attention层，2个Dense层。

表1心率信号特征表

具体地，单拍频特征目的是提取每次心跳的瞬时变化特征；所述多拍频特征和频域特征目的是提取多次心跳的长期变化特征；所述非线性特征的目的是进一步提取心率的非线性变化特征，所述非线性特征与疲劳状态具备很强的相关性，可提高分类器疲劳状态识别精度。

(3-2)特征选择。筛选与疲劳状态相关的典型特征。首先，在特征预处理的基础上，剔除冗余特征，执行异常特征处理和标准化操作。其次，采用多项式特征生成和深度特征合成技术，实现时频特征、非线性特征和时序特征的汇聚与融合。最后，综合采用统计分析(如：PCA和递归消除等)和机器学习(如：随机森林特征选择)，初步筛选与疲劳状态分类标签相关性较高的特征。

(二)视频图像处理部分

其中，视频图像处理部分主要包括：(1)视频采集模块；(2)实时信号处理模块；(3)特征提取模块。

(1)视频采集模块具体为：使用视频采集设备实时采集被试的视频图像数据，将数据实时回传至上位机并保存，以便于及时处理。

(2)实时信号处理模块主要包含人脸检测、人脸对齐和生成数据集三个步骤，具体处理过程如下：

(2.1)人脸检测。提取人脸特征点序列，即在一个可选的实施例中，获取视频图像中的人脸数据，并进行人脸特征点提取。首先，采用harr特征提取方法，通过检测图像的灰度变化，提取人脸感兴趣(range of interest， ROI)区域，对区域内像素坐标求和。然后，采用dlib库中的landmark算法，提取面部的68个特征点(含：眉毛、眼睛、鼻子、嘴部和面部轮廓等)，得到特征点序列p ^(t)：

其中

为视频中第t帧时的第i个关键点的坐标位置。

(2.2)人脸对齐。基于人脸特征点序列，根据眼睛和眉毛区域的点位信息，计算出人脸中间点的位置，采用仿射变换对当前视频序列中的人脸进行校准和对齐。

(2.3)生成输入数据集。首先，将对齐后的人脸数据集调整为224*224大小的图片；其次，将每个视频图像中的疲劳状态对应标签进行编码；然后，以L帧为一组生成一个帧序列(L为滑动窗口内视频的总帧数)。由于视频采样频率不同(例如：25fps或30fps)，L存在差异，因此借鉴时间敏感型网络(Temporal Segment Networks，TSN)处理流程，将视频帧分为K个部分，从每个部分里随机选取一帧作为最终的输入帧，得到一个K帧的序列与对应疲劳状态标签拼接生成一个输入数据集。

(3)特征提取模块具体为：对上述步骤生成的数据集进行特征提取，并借助分类器给出疲劳检测的识别结果。首先，将数据集输入到残差网络ResNet50中，提取视频序列的空间特征；其次，采用混合注意力模块(该模块由自注意力模块和空间注意力模块两部分组成)，提取帧间关联特征：将所提取的空间特征输入自注意力模块，提取单帧的关联特征；将单帧关联特征输入空间注意力模块提取相邻帧间的空间关联特征；执行特征融合操作，将空间特征与单帧关联特征、相邻帧间的关联特征相融合。接着，将融合后的特征输入GRU单元，提取视频序列的时间特征。最后，将特征向量调整维度后输入一个全连接层，用该全连接层参数表征视频序列的时间和空间特性。

(三)技术融合部分包括：(1)算法设计；(2)特征融合；(3)疲劳检测。

(1)算法设计具体为，在毫米波技术和视频图像技术融合时，对当前测试状态进行判断。(i)若视频图像存在异常(如：环境光线太暗或人脸倾斜偏转)而无法检测到人脸，则(无视频特征输出，删除滑动检测窗口内视频数据)基于毫米波雷达特征进行疲劳检测；(ii)若毫米波存在异常(如被试在测试过程中持续性晃动或存在其他强干扰)，则(无毫米波特征输出，删除滑动检测窗口内毫米波数据)基于视频图像特征进行疲劳检测；(iii)若视频和毫米波均异常，则显示检测异常或无待测目标，并重新返回循环继续监测；(iv)若视频和毫米波均正常，则在二者特征融合的基础上，借助分类器进行疲劳状态识别。

(2)特征融合具体为，首先，采用多项式特征生成和深度特征合成技术，融合滑动检测窗口及其子滑动窗口的毫米波特征和视频图像特征，初步实现两种技术相关特征的融合。将初步融合后的特征和毫米波特征和视频图像特征合并，组成合并特征；其次，采用Transformer模型，基于注意力机制分别筛选滑动检测窗口及其子窗口相关合并特征。其中，对于滑动窗口，基于注意力机制进行特征选择；对于子窗口，按时间顺序将相关特征依次放入Transformer时序模型后，基于注意力机制进行特征选择；将滑动窗口及子窗口所选择的特征进行合并，得到融合后的特征。

(3)疲劳检测具体为，基于Transformer构建三分类模型，对警觉、正常、疲劳三种状态进行识别。实验采用准确率、混淆矩阵、ROC曲线和AUC面积作为疲劳检测的评价指标。其中准确率值和AUC面积越大，识别的效果越好；混淆矩阵显示具体每种类别的预测准确率。

具体地，三分类模型，即分类器通过如下步骤训练：

图7为本发明实施例提供的非接触式疲劳检测系统架构图，如图6所示，包括：

毫米波特征确定单元710，用于向待检测者发送毫米波雷达信号，并接收从待检测者反射的回波信号；对所述回波信号进行杂波抑制、回波选择后提取待检测者的生命体征信号，并确定生命体征信号的时频域特征、非线性特征以及时序特征；所述生命体征信号包括：呼吸信号和心率信号；

脸部视频特征确定单元720，用于获取待检测者的脸部视频图像，基于所述脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征；

特征融合单元730，用于将所述生命体征信号的时频域特征、非线性特征以及时序特征与所述待检测者人脸的时域特征和空域特征融合，得到融合后的待检测者特征；

疲劳检测单元740，用于将融合后的待检测者特征输入到预训练好的分类器，进行待检测者的疲劳状态识别，判断待检测者是否处于疲劳状态；所述分类器基于融合后的待检测者特征将待检测者的状态划分为：警觉、正常以及疲劳三种状态；其中，警觉和正常状态均为非疲劳状态。

分类器训练单元750，用于确定训练样本，所述训练样本包括多个训练者的融合特征；每个训练者的融合特征包括该训练者的毫米波雷达特征和脸部视频特征；所述毫米波雷达特征包括：生命体征信号的时频域特征、非线性特征以及时序特征；所述脸部视频特征包括：人脸的时域特征和空域特征；在每个训练者的融合特征对应的数据集中加入状态标签，组成每个训练者的训练数据集；所述状态标签指示所述融合特征对应的训练者状态；其中，训练者状态属于警觉、正常以及疲劳三种状态中的一种；将每个训练者的训练数据集输入到分类器中，以结合其中的状态标签训练学习分类器，得到训练后的分类器。

具体地，图7中各个单元的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

为验证本发明所提出的非接触式疲劳检测方法及系统的可靠性，本实施例招募了12名被试分别参与了两次、持续时间分别为10分钟的测试(两次测试，一次为疲劳状态下的测试、另一次为非疲劳状态下测试)。每次测试前，被试均需填写卡罗林斯卡嗜睡量表(Karolinska sleepiness scale)，用于评估其疲劳等级；在测试过程中，分别采用手机和毫米波设备，采集视频和毫米波数据，进行疲劳检测。其检测结果如表2所示。由表2可知，首先，毫米波非线性特征的引入，可显著提高疲劳检测识别精度，即：准确率、精准率、F1值和AUC面积的值均提高了0.05以上。以准确率为例，随着非线性特征的引入，准确率从0.698提高到0.752。其次，本发明所提出的疲劳检测方法及系统，其中毫米波引入了非线性特征，进一步结合毫米波时序特征和视频特征进行疲劳检测，可以准确识别疲劳状态，其识别准确率达到0.979，可以准确识别疲劳状态，其识别准确率达到0.979。

表2疲劳检测结果对比表(10折交叉验证平均结果)

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种非接触式疲劳检测方法，其特征在于，包括如下步骤：

向待检测者发送毫米波雷达信号，并接收从待检测者反射的回波信号；对所述回波信号进行杂波抑制、回波选择后提取待检测者的生命体征信号，并确定生命体征信号的时频域特征、非线性特征以及时序特征；所述生命体征信号包括：呼吸信号和心率信号；

获取待检测者的脸部视频图像，基于所述脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征；

将所述生命体征信号的时频域特征、非线性特征以及时序特征与所述待检测者人脸的时域特征和空域特征融合，得到融合后的待检测者特征；

将融合后的待检测者特征输入到预训练好的分类器，进行待检测者的疲劳状态识别，判断待检测者是否处于疲劳状态；所述分类器基于融合后的待检测者特征将待检测者的状态划分为：警觉、正常以及疲劳三种状态；其中，警觉和正常状态均为非疲劳状态。
根据权利要求1所述的非接触式疲劳检测方法，其特征在于，基于所述脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征，具体为：

对脸部视频图像进行人脸检测，提取人脸特征点，得到人脸特征点序列；

基于人脸特征点序列，根据特征点中眼睛和眉毛区域点位信息，计算出人脸中间点的位置，采用仿射变换对当前脸部视频图像中的人脸进行校准和对齐；

将对齐后的脸部视频图像数据集调整为预设大小的图片，以L帧图像为一组生成一个帧序列，并借鉴时间敏感性网络处理流程，将帧序列划分成K个部分，从每个部分里随机选取一帧作为最终的输入帧，得到一个K 帧的序列，生成一个数据集；其中，L和K均为大于0的整数；

将所述数据集输入到残差网络ResNet50中，提取脸部视频图像的空间特征；

采用混合注意力模块提取帧间关联特征，所述混合注意力模块由自注意力模块和空间注意力模块两部分组成；具体为：将所提取的空间特征输入自注意力模块，提取单帧的关联特征；将单帧关联特征输入空间注意力模块提取相邻帧间的空间关联特征；将所述空间特征与单帧的关联特征、相邻帧间的空间关联特征相融合，并将融合后的特征输入到门控循环单元GRU，提取脸部视频图像的时间特征；

将脸部视频图像的空间特征和时间特征输入到全连接层，用全连接层参数表征待检测者人脸的空域特征和时域特征。
根据权利要求1所述的非接触式疲劳检测方法，其特征在于，所述对所述回波信号进行杂波抑制、回波选择后提取待检测者的生命体征信号，并确定生命体征信号的时频域特征、非线性特征以及时序特征，具体为：

对所述回波信号进行波形重构，具体为：采用小波带通滤波剔除噪声，分别提取其中的呼吸信号和心率信号，作为生命体征信号；

利用时频分析和非线性分析技术，分别提取生命体征信号的时域特征、频域特征和非线性特征；对呼吸信号，提取的时域特征、频域特征和非线性特征包括均值、方差、功率谱密度、分形维数和近似熵；对心率信号，提取的时域特征包括单拍频特征和多拍频特征；提取的频域特征包括：低频分量、高频分量、低频高频比、频谱的峰度以及偏度；提取的非线性特征包括：近似熵、样本熵、李氏指数、Hurst指数以及去趋势波动指数；所述单拍频特征目的是提取每次心跳的瞬时变化特征；所述多拍频特征和频域特征目的是提取多次心跳的长期变化特征；所述非线性特征的目的是进一步提取心率的非线性变化特征，所述非线性特征与疲劳状态具备很强的相关性，可提高分类器疲劳状态识别精度；

利用深度学习技术，提取时序特征：首先，在检测窗口内，设置子滑动窗口，分别提取各子滑动窗口内生命体征信号的时域特征、频域特征和非线性特征；其次，按时间顺序将提取的相关特征依次放入卷积神经网络CNN与双向长短期记忆神经网络BiLSTM组合的模型，提取其全连接层的特征，作为生命体征信号的时序特征；

基于统计分析和机器学习，从提取的特征中筛选出与疲劳状态分类相关性相对较高的特征，作为最终的生命体征信号的时频域特征、非线性特征以及时序特征。
根据权利要求1所述的非接触式疲劳检测方法，其特征在于，所述将生命体征信号的时频域特征、非线性特征以及时序特征与所述待检测者人脸的时域特征和空域特征融合，得到融合后的待检测者特征，具体为：

采用多项式特征生成和深度特征合成技术，融合滑动检测窗口及其子窗口的生命体征信号的时频域特征、非线性特征以及时序特征和待检测者人脸的时域特征和空域特征，得到初步融合特征；

将初步融合特征与生命体征信号的时频域特征、非线性特征以及时序特征和待检测者人脸的时域特征和空域特征合并，得到合并后的特征；

采用Transformer模型，基于注意力机制分别筛选滑动检测窗口及其子窗口的所述合并后的特征；其中，对于滑动窗口，基于注意力机制进行特征选择；对于子窗口，按时间顺序将相关特征依次放入Transformer时序模型后，基于注意力机制进行特征选择；将滑动窗口及子窗口所选择的特征进行合并，得到融合后的待检测者特征。
根据权利要求1至4任一项所述的非接触式疲劳检测方法，其特征在于，所述分类器通过如下步骤训练：

确定训练样本，所述训练样本包括多个训练者的融合特征；每个训练者的融合特征包括该训练者的毫米波雷达特征和脸部视频特征；所述毫米波雷达特征包括：生命体征信号的时频域特征、非线性特征以及时序特征；所述脸部视频特征包括：人脸的时域特征和空域特征；

在每个训练者的融合特征对应的数据集中加入状态标签，组成每个训练者的训练数据集；所述状态标签指示所述融合特征对应的训练者状态；其中，训练者状态属于警觉、正常以及疲劳三种状态中的一种；

将每个训练者的训练数据集输入到分类器中，以结合其中的状态标签训练学习分类器，得到训练后的分类器。
一种非接触式疲劳检测系统，其特征在于，包括：

毫米波特征确定单元，用于向待检测者发送毫米波雷达信号，并接收从待检测者反射的回波信号；对所述回波信号进行杂波抑制、回波选择后提取待检测者的生命体征信号，并确定生命体征信号的时频域特征、非线性特征以及时序特征；所述生命体征信号包括：呼吸信号和心率信号；

脸部视频特征确定单元，用于获取待检测者的脸部视频图像，基于所述脸部视频图像进行人脸检测和对齐，以提取待检测者人脸的时域特征和空域特征；

特征融合单元，用于将所述生命体征信号的时频域特征、非线性特征以及时序特征与所述待检测者人脸的时域特征和空域特征融合，得到融合后的待检测者特征；

疲劳检测单元，用于将融合后的待检测者特征输入到预训练好的分类器，进行待检测者的疲劳状态识别，判断待检测者是否处于疲劳状态；所述分类器基于融合后的待检测者特征将待检测者的状态划分为：警觉、正常以及疲劳三种状态；其中，警觉和正常状态均为非疲劳状态。
根据权利要求6所述的非接触式疲劳检测系统，其特征在于，所述脸部视频特征确定单元，对脸部视频图像进行人脸检测，提取人脸特征点，得到人脸特征点序列；基于人脸特征点序列，根据特征点中眼睛和眉毛区域点位信息，计算出人脸中间点的位置，采用仿射变换对当前脸部视频图像中的人脸进行校准和对齐；将对齐后的脸部视频图像数据集调整为预设大小的图片，以L帧图像为一组生成一个帧序列，并借鉴时间敏感性网络处理流程，将帧序列划分成K个部分，从每个部分里随机选取一帧作为最终的输入帧，得到一个K帧的序列，生成一个数据集；其中，L和K均为大于0的整数；将所述数据集输入到残差网络ResNet50中，提取脸部视频图像的空间特征；采用混合注意力模块提取帧间关联特征，所述混合注意力模块由自注意力模块和空间注意力模块两部分组成；具体为：将所提取的空间特征输入自注意力模块，提取单帧的关联特征；将单帧关联特征输入空间注意力模块提取相邻帧间的空间关联特征；将所述空间特征与单帧的关联特征、相邻帧间的空间关联特征相融合，并将融合后的特征输入到门控循环单元GRU，提取脸部视频图像的时间特征；以及将脸部视频图像的空间特征和时间特征输入到全连接层，用全连接层参数表征待检测者人脸的空域特征和时域特征。
根据权利要求6所述的非接触式疲劳检测系统，其特征在于，所述毫米波特征确定单元对所述回波信号进行波形重构，具体为：采用小波带通滤波剔除噪声，分别提取其中的呼吸信号和心率信号，作为生命体征信号；利用时频分析和非线性分析技术，分别提取生命体征信号的时域特征、频域特征和非线性特征；对呼吸信号，提取的时域特征、频域特征和非线性特征包括均值、方差、功率谱密度、分形维数和近似熵；对心率信号，提取的时域特征包括单拍频特征和多拍频特征；提取的频域特征包括：低频分量、高频分量、低频高频比、频谱的峰度以及偏度；提取的非线性特征包括：近似熵、样本熵、李氏指数、Hurst指数以及去趋势波动指数；所述单拍频特征目的是提取每次心跳的瞬时变化特征；所述多拍频特征和频域特征目的是提取多次心跳的长期变化特征；所述非线性特征的目的是进一步提取心率的非线性变化特征，所述非线性特征与疲劳状态具备很强的相关性，可提高分类器疲劳状态识别精度；利用深度学习技术，提取时序特征：首先，在检测窗口内，设置子滑动窗口，分别提取各子滑动窗口内生命体征信号的时域特征、频域特征和非线性特征；其次，按时间顺序将所提取的相关特征依次放入卷积神经网络CNN与双向长短期记忆神经网络BiLSTM组合的模型，提取其全连接层的特征，作为生命体征信号的时序特征；基于统计分析和机器学习，从提取的特征中筛选出与疲劳状态分类相关性相对较高的特征，作为最终的生命体征信号的时频域特征、非线性特征以及时序特征。
根据权利要求6所述的非接触式疲劳检测系统，其特征在于，所述特征融合单元，采用多项式特征生成和深度特征合成技术，融合滑动检测窗口及其子窗口的生命体征信号的时频域特征、非线性特征以及时序特征和待检测者人脸的时域特征和空域特征，得到初步融合特征；将初步融合特征与生命体征信号的时频域特征、非线性特征以及时序特征和待检测者人脸的时域特征和空域特征合并；得到合并后的特征；采用Transformer模型，基于注意力机制分别筛选滑动检测窗口及其子窗口的所述合并后的特征；其中，对于滑动窗口，基于注意力机制进行特征选择；对于子窗口，按时间顺序将相关特征依次放入Transformer时序模型后，基于注意力机制进行特征选择；将滑动窗口及子窗口所选择的特征进行合并，得到融合后的待检测者特征。
根据权利要求6至9任一项所述的非接触式疲劳检测系统，其特征在于，还包括分类器训练单元，用于确定训练样本，所述训练样本包括多个训练者的融合特征；每个训练者的融合特征包括该训练者的毫米波雷达特征和脸部视频特征；所述毫米波雷达特征包括：生命体征信号的时频域特征、非线性特征以及时序特征；所述脸部视频特征包括：人脸的时域特征和空域特征；在每个训练者的融合特征对应的数据集中加入状态标签，组成每个训练者的训练数据集；所述状态标签指示所述融合特征对应的训练者状态；其中，训练者状态属于警觉、正常以及疲劳三种状态中的一种；将每个训练者的训练数据集输入到分类器中，以结合其中的状态标签训练学习分类器，得到训练后的分类器。