WO2021238344A1

WO2021238344A1 - 一种基于视频的人体心率及面部血容积精确检测方法和系统

Info

Publication number: WO2021238344A1
Application number: PCT/CN2021/080905
Authority: WO
Inventors: 鲍虎军; 徐晓刚; 王小龙
Original assignee: 浙江大学
Priority date: 2020-05-25
Filing date: 2021-03-16
Publication date: 2021-12-02
Also published as: CN111626182A; US20220218218A1; CN111626182B

Abstract

一种基于视频的心率及脸部血液容积精确检测方法和系统，首先，对包含人面部的视频帧图像进行人脸检测，并提取时间维度上的人脸图像序列以及面部关键位置点，得到时间维度上面部总体信号和面部roi信号集合；其次，构建并训练心率预测模型，并根据所提取的面部关键位置点，定位并提取额头、面颊位置的数据，得到时间维度上面部关键位置图像序列，对该序列进行压缩得到时间维度上的面部信号，将该信号作为心率预测模型的输入样本；再次，基于面部总体信号和面部roi信号集合，检测面部血液容积分布；最后，分别采用心率预测模型和频谱分析方法检测心率值，融合检测结果，使检测方法具备了很强的鲁棒性，适用于较为复杂的应用场景。

Description

一种基于视频的人体心率及面部血容积精确检测方法和系统

技术领域

本发明涉及利用摄像头采集人面部视频，基于图像处理、深度学习以及信号处理技术，精确检测人体心率和面部血液容积分布。

背景技术

人体心率和面部血液容积分布是衡量人体生理健康程度的重要指标。目前，测量人体心率主要方式是心电信号检测、光电信号检测等手段，这些检测手段的共同特征是需要检测设备紧贴人体皮肤，通过皮肤电位变化信号或者血液容积信号对心率进行检测，但是被测量者需要佩戴传感器这一局限，限制了该测量方式的适用范围。目前，通过摄像头进行远端人体生理指标检测成为了当前研究的热点，由于外界环境的复杂性容易对远端检测方式容易造成干扰，为了消除上述干扰，通常单独或者综合采用小波分解、独立成分分析(ICA)、主成分分析(PCA)以及希尔伯特黄变换(HHT)等信号分解方法去除噪声，然而在外界噪声较强时，依靠信号分解方法不能很好的消除掉噪声影响，主要基于以下2点原因：1、信号分解模型往往是通用分解算法，未引入人体心率生理特征这一先验信息；2、对分解结果的选择上依赖主观判断，即从分解结果中选择最接近心率特征的信号，缺乏客观依据。为了提高检测方法的鲁棒性和精确性，本发明采用深度学习技术、频谱分析以及相关计算方法对人体心率和面部血液容积分布进行检测，并采用卡尔曼滤波算法融合心率检测结果，实现对人体心率的精确检测。

发明内容

为了提高人体心率和面部血液容积分布检测效益，本发明提出了一种新的人体心率和面部血液容积分布检测方法和系统，该方法基于摄像头采集的人脸视频，对视频中面部数据进行分析、处理，通过模型预测以及信号处理的方式，实现人体心率及面部血液容积分布检测。

本发明通过以下技术方案来实现：一种基于视频的人体心率及面部血容积精确检测方法，该方法包括以下步骤：

(1)检测视频帧图像中人面部区域，提取时间维度上人脸图像序列和面部关键位置点；基于人脸图像序列提取面部总体信号和面部roi信号集合；对信号进行预处理；

(2)基于预处理后的面部roi信号集合，计算心率值和面部血液容积分布；

(3)利用基于LSTM和残差卷积神经网络模型构建的多模态心率检测模型；得到基于心率分布概率的预测心率值；

(4)基于卡尔曼滤波方法融合步骤(2)和步骤(3)的心率结果，得到融合心率检测结果。

本发明还公开了一种基于视频的人体心率及面部血容积精确检测系统，其特征在于包括：

图像检测模块，其用于检测视频帧图像中人面部区域，提取时间维度上人脸图像序列和面部关键位置点；基于人脸图像序列提取面部总体信号和面部roi信号集合；

预处理模块，对图像检测模块提取的面部总体信号和面部roi信号进行预处理；

基于频谱的心率计算模块，其基于预处理后的面部roi信号集合，采用线性加权的方式计算参考信号，并计算参考信号频谱，根据频谱峰值得到心率值，并根据参考信号频谱和面部roi信号频谱计算面部血液容积分布；

多模态心率检测模型，其基于LSTM和残差卷积神经网络模型构建，用于得到基于心率分布概率的预测心率值；

融合模块，根据基于频谱的心率计算模块的心率值和多模态心率检测模型的预测心率值，得到融合心率值检测结果。

与现有技术相比，本发明所具有的优点是：

1)基于融合方法提高了心率测量的鲁棒性和检测精度。采用综合心率检测方式提升了检测过程的抗干扰能力和心率检测精度，首先采用基于信号频谱峰值方式检测心率，综合采用脸部全局检测和脸部roi子块检测相结合的方式，提升该方式的检测能力，在实际应用中该方法鲁棒性较差，人面部移动或者外部光照强度变化等因素都会对检测结果造成较大影响。因此，采用多模态深度学习模型预测被测试对象的心率值，该检测方式基于统计学习原理，根据信号时频特征实现心率估计，在此基础上，采用卡尔曼滤波方式，综合上述两种测量结果，提升心率检测的鲁棒性和检测精度。

2)基于心率的面部血容积估计方法。提出了一种基于心率值估计面部血容积分布的方法，通过对比人面部血容积实际分布和实验结果，可知基于心率值的面部血容积分布估计结果符合人脸部实际血容积分布。

3)基于机器学习方法心率值快速检测。提出了一种基于多模态深度学习技术和面部视频数据的心率检测方法，采用基于CNN和LSTM结构的深度学习模型对数据的空间结构特征和时间序列特征进行分析，实现对人体心率的快速检测。同时，采用在训练样本集中增加人脸晃动、光照明暗变化样本等技巧，提高模型的抗干扰能力。

附图说明

图1本发明方法流程图；

图2心率检测模型结构图；

图3脸部关键区域示意图；

图4面部血液容积检测结果1；

图5面部血液容积检测结果2；

图6面部血液容积检测结果3。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，为本发明的流程示意图。在本发明的一个具体实施例中，本发明以如下具体步骤实施：

(1)数据提取及预处理。基于人脸检测模型，提取时间维度上人脸图像序列，并对人脸图像序列进行压缩，基于此，提取面部总体信号和面部roi(region of interesting，roi)信号集合，并对信号进行预处理，预处理所采用方法不限于带通滤波等方法。

(1.1)采用卷积网络模型检测视频帧图像中人面部区域和面部关键点，分别生成时间维度上人脸图像序列和面部关键位置点序列，如公式1所示，其中： MTCNN()为卷积网络模型，frame _i为视频第i帧图像，face _i为视频第i帧图像提取得到的人脸图像，critical_pos _i为人脸图像对应的关键位置点。

face _i,critical_pos _i＝MTCNN(frame _i) (1)

人脸图像序列，如公式2所示，其中：face_seq为人脸图像序列，face _i为第i帧视频对应的人脸图像，T为视频帧序列长度。

face_seq＝{face ₁,face ₂,...,face _i,...,face _T} (2)

(1.2)基于上述人脸图像序列，分别提取面部总体信号和面部roi(region of interesting，roi)信号集合。面部总体信号计算如公式3所示，其中：face_sig为压缩后的信号，PCompress()为压缩函数，用于计算人脸图像序列中每一幅人脸图像的平均像素强度，face_seq为人脸图像序列。

face_sig＝PCompress(face_seq) (3)

为了便于分析信号的分布，采用R×R大小的roi子块划分人脸图像，得到时间维度上的roi子块图像序列，如公式4所示，其中：face_roi _i表示第i个roi子块图像序列，face_roi_seq为所有roi子块图像序列构成的集合。

face_roi_seq＝{face_roi ₁,face_roi ₂,...,face_roi _i,...,face_roi _m×n} (4)

在此基础上，对每个子块图像序列进行压缩，如公式5所示，其中：face_roi_seq为所有roi子块图像序列构成的集合，PCompress()为压缩函数，用于计算集合中每一个roi图像序列对应的时间维度上的平均像素强度信号，face_roi_sig为压缩后得到的信号集合，其中每一个元素为roi子块图像序列压缩得到的信号。

face_roi_sig＝PCompress(face_roi_seq) (5)

其中：

face_roi_sig＝{face_roi_sig ₁,...,face_roi_sig _i,...,face_roi_sig _m×n} (6)

公式6中，face_roi_sig _i为第i个roi子块图像序列对应的压缩后的信号，m×n为roi子块数量。

(1.3)信号预处理，对面部总体信号和面部roi信号集合进行预处理，预处理所采用方法不限于带通滤波方法，如公式7、8所示。其中：face_sig_r和face_roi_sig_r分别为信号预处理结果，sigprocess为信号预处理函数。

face_sig_r＝sigprocess(face_sig) (7)

roi_sig_r＝sigprocess(face_roi_sig) (8)

其中：

face_sig_r＝{face_sig_r ₁,...,face_sig_r _i,...,face_sig_r _T}

roi_sig_r＝{roi_sig_r ₁,...,roi_sig_r _i,...,roi_sig_r _m×n}

式中，T为视频帧数量，m×n为roi子块数量。

(2)计算心率值和面部血液容积分布。基于步骤(1)计算得到面部总体信号和面部roi信号集合，在此基础上，检测面部血液容积分布。

(2.1)采用线性加权的方式计算参考信号，如公式9所示，其中：sig_ref为参考信号，roi_sig_r为面部roi信号集合。

weight_set＝{w ₁,w ₂,...,w _i,...,w _m×n}

其中：weight_set为权重集合，m×n为roi子块数量。

(2.2)基于参考信号，计算心率值。计算过程如公式11、12所示，其中：sig_ref为参考信号，sig_ref_sd为参考信号频谱，heart_rate_ref为心率值，该心率值对应于频谱峰值。信号频谱计算不仅限于lomb-scargle谱分析方法。

sig_ref_sd＝fft(sig_ref) (11)

heart_rate_ref＝max_freq(sig_ref_sd) (12)

(2.3)面部血液容积分布计算。如公式13所示，其中：sig_ref_sd为参考信号频谱，v为计算得到的血液容积分布。其中，血容积计算所采用数据不仅限于参考信号频谱。

v＝Volume(sig_ref_sd) (13)

其中，Volume()为计算血容积函数，其具体形式如公式14所示。

公式14中，fs _ref为参考信号频谱，fs _roi为面部roi信号频谱，

为卷积算子，m、n分别为roi子块数量在横纵坐标上的最大值。

(3)基于深度学习方法构建心率检测模型。基于步骤(1.1)提取得到的面部关键位置点，将包含额头、面颊部分图像序列作为训练样本，并基于LSTM和残差卷积神经网络(Resnet)模型构建了多模态心率检测模型。

(3.1)训练样本提取。基于步骤(1.1)提取得到的人脸关键位置点，并构成时间维度上的关键点序列，如公式15所示，其中：critical_pos _i为第i帧视频图像中人脸关键位置点集合，img _i为第i帧视频图像。

face _i,critical_pos _i＝MTCNN(img _i) (15)

其中，critical_pos _i的集合形式如式16所示，k为人脸关键点数量。

基于人脸关键位置点，选取额头、左右面颊区域在时间维度上构成的图像序列，在图像空间维度上压缩选取的图像构建训练样本，如公式17所示，其中：sig_c _i为第i帧图像压缩后的结果，img_c _i为上述关键位置图像序列中第i帧图像，PCompress()为压缩函数。

sig_c _i＝PCompress(img_c _i) (17)

其中：

sig_c＝{sig_c ₁,sig_c ₂,...,sig_c _i,...,sig_c _T}

式中，sig_c为图像序列压缩后得到的信号集合，T为视频长度。

(3.2)初始化训练样本数据，如公式18所示，其中：sig_nor为规范化后信号，mean()为均值计算函数，var()为方差计算函数，样本数据初始化不仅限于所述方法。

(3.3)构建基于LSTM(长短时记忆网络)架构的心率检测子模型。该子模型主要包含了1D-CNN(1维卷积神经网络)和LSTM两种网络结构。首先，将步骤(3.2)得到的sig_nor信号作为训练样本，基于1D-CNN模型提取sig_nor信号对应的初步特征，在此基础上，采用LSTM结构提取信号对应的时间序列特征，最后，采用注意力机制融合LSTM模型各个阶段输出特征向量，如公式19所示，其中：LSTM()为基于LSTM架构的心率检测模型，sig_nor为步骤(3.2)得到规范化信号，feature _lstm为该子模型输出特征向量。

feature _lstm＝LSTM(sig_nor) (19)

(3.4)构建基于Resnet架构的心率检测子模型。该子模型主要基于残差网络模型(Resnet)提取信号的时域波形特征，将sig_nor信号作为子模型的输入样本，该子模型的输出特征向量如公式20所示，其中：Resnet为基于Resnet架构的心率检测模型，sig_nor为步骤(3.2)得到规范化信号，feature _resnet为该子模型输出特征向量。

feature _resnet＝Resnet(sig_nor) (20)

(3.5)融合步骤(3.3)和(3.4)所述子模型，构建多模态心率检测模型。串联步骤(3.3)和步骤(3.4)中子模型的输出特征，并采用全连接网络(FCN)的结构形式预测心率。预测基本过程如公式21所示，其中：res_pro为模型预测结果向量，FCN()为全连接层，Concat()为向量合并函数。

res_pro＝FCN(Concat(feature _lstm,feature _resnet)) (21)

在此基础上预测心率值，提取心率值基本过程如公式22所示，其中：heart_rate_pre为心率预测值，mean()为均值函数，max_reg()为查找最大概率值对应的心率范围函数。

heart_rate_pre＝mean(max_reg(res_pro)) (22)

(4)基于卡尔曼滤波方法融合心率检测结果。基于步骤(2)、(3)计算得到的心率值，以信号质量评估值和深度学习模型估值作为动态调节卡尔曼滤波器的状态变量，用于动态融合两种心率测量方式的结果，从而获取心率检测值的最佳估计，提高心率检测的鲁棒性。

卡尔曼滤波模型如公式23、24所示，其中：x _k、z _k分别为预测值和测量值，A、B分别为状态矩阵和控制矩阵，H为预测空间到测量空间的转换矩阵，w _k-1、v _k分别为预测误差和测量误差。

x _k＝Ax _k-1+Bu _k+w _k-1 (23)

z _k＝Hx _k+v _k (24)

基于公式25、26融合两种测量方式得到的心率值，其中：x′ _k为融合后的心率值结果，x _k为步骤(3)得到的预测心率值，z _k为步骤(2)得到的心率值，K为融合系数，H表示预测空间到测量空间的转换矩阵，在心率测量工作中H＝1。Pk为预测方差，其对应于步骤(3)中预测概率值。Rk为测量方差，对应于步骤 (2.3)所述参考信号的信噪比。

x' _k＝x _k+K(z _k-Hx _k) (25)

本发明公开了一种基于视频的人体心率及面部血容积精确检测系统，用于实现本发明的方法，其包括：

如图2所示，为本发明的多模态心率检测模型结构图；多模态心率检测模型的结构图。图2左侧子图(Resnet)为CNN网络模型部分，负责检测数据的空间结构特征，右侧子图(LSTM)为LSTM网络模型部分，负责检测数据时间序列特征，综合上述两个子网络模型输出特征，采用softmax方式预测心率值。

图3脸部关键区域示意图；本发明中脸部关键区域指图示中的额头、面颊部分。

图4面部血液容积检测结果1，保持头部稳定状态，从结果中可以看出额头遮挡部分以及面颊部分光照较差的部分没有检测到血容积，符合实验预期；

图5面部血液容积检测结果2，采用躺姿稳定头部，并保持光照均匀，从结果中可以看出整个面部血容积检测结果均匀，符合实验预期；

图6面部血液容积检测结果3，刻意小幅度晃动头部，相比图5所示检测结果，可以看出面部血容积检测结果存在噪声，符合实验预期。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

一种基于视频的人体心率及面部血容积精确检测方法，其特征在于所述方法包括以下步骤：

(1)检测视频帧图像中人面部区域，提取时间维度上人脸图像序列和面部关键位置点；基于人脸图像序列提取面部总体信号和面部roi信号集合；对信号进行预处理；

所述的步骤(1)具体为：

(1.1)采用卷积网络模型检测视频帧图像中人面部区域和面部关键点，分别生成时间维度上人脸图像序列和面部关键位置点序列；

(1.2)基于上述人脸图像序列，分别提取面部总体信号和面部roi信号集合；面部总体信号计算如公式3所示，其中：face_sig为压缩后的信号，PCompress()为压缩函数，用于计算人脸图像序列中每一幅人脸图像的平均像素强度，face_seq为人脸图像序列；

face_sig＝PCompress(face_seq)   (3)

采用R×R大小的roi子块划分人脸图像，得到时间维度上的roi子块图像序列，如公式4所示，其中：face_roi _i表示第i个roi子块图像序列，face_roi_seq为所有roi子块图像序列构成的集合，m×n为roi子块数量；

face_roi_seq＝{face_roi ₁,face_roi ₂,...,face_roi _i,...,face_roi _m×n}   (4)

对每个roi子块图像序列进行压缩，如公式5所示，其中：face_roi_seq为所有roi子块图像序列构成的集合，PCompress()为压缩函数，用于计算集合中每一个roi子块图像序列对应的时间维度上的平均像素强度信号，face_roi_sig为压缩后得到的信号集合，即面部roi子块信号集合，其中每一个元素为roi子块图像序列压缩得到的信号；

face_roi_sig＝PCompress(face_roi_seq)    (5)

其中：

face_roi_sig＝{face_roi_sig ₁,...,face_roi_sig _i,...,face_roi_sig _m×n}    (6)

公式6中，face_roi_sig _i为第i个roi子块图像序列对应的压缩后的信号，m×n为roi子块数量；

(1.3)对面部总体信号和面部roi信号集合进行预处理，消除指定频率范围以外的噪声信号；

(2)基于预处理后的面部roi信号集合，计算心率值和面部血液容积分布；

(3)利用基于LSTM和残差卷积神经网络模型构建的多模态心率检测模型；得到基于心率分布概率的预测心率值；

(4)基于卡尔曼滤波方法融合步骤(2)和步骤(3)的心率值结果，得到融合心率值检测结果。
根据权利要求1所述的基于视频的人体心率及面部血容积精确检测方法，其特征在于所述的步骤(2)具体为：

(2.1)采用线性加权的方式计算参考信号，如公式9所示，其中：sig_ref为参考信号，roi_sig_r为预处理后的面部roi信号集合，m×n为roi子块数量；

weight_set＝{w ₁,w ₂,...,w _i,...,w _m×n}

roi_sig_r＝sigprocess(face_roi_sig) (8)

其中：weight_set为计算得到的权重集合；sigprocess()为信号预处理函数；

(2.2)基于参考信号，采用lomb-scargle谱分析方法计算参考信号频谱，基于此得到心率值，心率值对应于频谱峰值；

(2.3)计算面部血液容积分布。
根据权利要求2所述的基于视频的人体心率及面部血容积精确检测方法，其特征在于所述的步骤(2.3)具体为：

如公式13所示，sig_ref_sd为参考信号频谱，v为计算得到的血液容积分布；

v＝Volume(sig_ref_sd) (13)

其中，Volume()为计算血容积函数，其具体形式如公式14所示；

公式14中，fs _ref为参考信号频谱，fs _roi为面部roi信号频谱，
为卷积算子，m、n分别为roi子块在横纵坐标方向上的数量最大值。
根据权利要求1所述的基于视频的人体心率及面部血容积精确检测方法，其特征在于所述的步骤(3)中，基于LSTM和残差卷积神经网络模型构建的多模态心率检测模型的训练方法为：

(3.1)训练样本提取

基于步骤(1)提取得到的人脸关键位置点，构成时间维度上的关键点序列，基于人脸关键位置点，选取额头、左右面颊区域在时间维度上构成的图像序列，在图像空间维度上压缩选取的图像构建训练样本；训练样本为图像序列压缩后得到的信号集合；

(3.2)初始化训练样本数据，得到规范化后信号sig_nor；

(3.3)构建基于LSTM架构的心率检测子模型

该子模型包含了1D-CNN和LSTM两种网络结构，首先，将步骤(3.2)得到的sig_nor信号作为训练样本，基于1D-CNN模型提取sig_nor信号对应的初步特征，在此基础上，采用LSTM结构提取信号对应的时间序列特征，最后，采用注意力机制融合LSTM模型各个阶段输出特征向量；

(3.4)构建基于Resnet架构的心率检测子模型

该子模型基于残差网络模型提取信号的时域波形特征，将sig_nor信号作为子模型的输入样本，输出特征向量feature _resnet；

(3.5)融合步骤(3.3)和(3.4)所述子模型，构建多模态心率检测模型

串联步骤(3.3)和步骤(3.4)中子模型的输出特征，并采用全连接网络的结构形式预测心率；

预测基本过程如公式21所示，其中：res_pro为模型预测结果向量，FCN()为全连接层，Concat()为向量合并函数；

res_pro＝FCN(Concat(feature _lstm,feature _resnet)) (21)

在此基础上预测心率值，提取心率值基本过程如公式22所示，其中：heart_rate_pre为心率预测值，mean()为均值函数，max_reg()为查找最大概率值对应的心率范围函数；

heart_rate_pre＝mean(max_reg(res_pro)) (22)。
根据权利要求1所述的基于视频的人体心率及面部血容积精确检测方法，其特征在于所述的步骤(4)具体为：

基于公式25、26融合两种测量方式得到的心率值，

x' _k＝x _k+K(z _k-Hx _k) (25)

其中：x′k为融合后的心率值结果，x _k为步骤(3)得到的预测心率值，z _k为步骤(2)得到的心率值，K为融合系数，P _k为预测方差，R _k为测量方差，H和H ^T分别为预测值与真实值之间的关系矩阵及其转置形式。