WO2023279557A1

WO2023279557A1 - 基于眨眼同步及双目移动检测的伪造视频检验方法及系统

Info

Publication number: WO2023279557A1
Application number: PCT/CN2021/122345
Authority: WO
Inventors: 王中元; 王闻捷; 韩镇; 邹勤
Original assignee: 武汉大学
Priority date: 2021-07-09
Filing date: 2021-09-30
Publication date: 2023-01-12
Also published as: CN113627256B; CN113627256A

Abstract

本发明公开了一种基于眨眼同步及双目移动检测的伪造视频检验方法及系统，包括视频预处理、眨眼检测、双目转动角度一致性计算、伪造检测等模块；本发明根据深度伪造视频左右眼的眨眼不同步、扫视方位不一致的特性，分析双目眨眼及眼部移动时的差异，进行伪造人脸视频检测。本发明具有鉴别结果可信度高、对图像折损导致的取证线索弱化鲁棒的双重特点。

Description

基于眨眼同步及双目移动检测的伪造视频检验方法及系统

技术领域

本发明属于人工智能安全技术领域，涉及一种深度伪造视频检验方法及系统，具体涉及一种基于眨眼同步及双目移动检测的伪造视频检验方法及系统。

背景技术

深度伪造(DeepFake)指利用机器学习模型，将图片或视频合并叠加到源图片或视频上，借助神经网络技术进行大样本学习，将个人的声音、面部表情及身体动作拼接合成虚假内容的人工智能技术。这种技术能对声音、图像或视频进行数字处理以模仿某特定人物，并且随着输入神经网络的训练样本量不断增加，训练生成的数据和图像会越来越逼真，产生众多虚假视频和音频内容，使辨别信息真伪变得困难。

国内外对检测深度伪造人脸的研究既有传统机器学习方法，也有深度学习方法。2018年，Darius Afchar等采用了深度学习的方法对DeepFake、Face2Face等软件生成的伪造人脸进行了检测。2019年6月，美国南加州大学和加州大学伯克利分校的研究人员合作研发出新AI工具，可识别出DeepFake虚假视频，其识别准确率达到92％。该工具可通过训练确定每个人讲话或做表情时面部各器官的特定细节动作，而虚假视频则没有这些细节。研究人员还计划通过识别人声的独特节奏和特征，来进一步提高AI识别假视频的成功率。2020年，微软亚洲研究院和北京大学联合提出了FaceShifter和FaceX-Ray，前者是一种高保真、能够感知遮挡的AI“换脸工具”，后者则是针对伪造人脸图像的通用检测工具，取得业界领先的性能的同时，所需数据量也少得多。

然而，取证线索弱化是AI发展带来的必然挑战。采用先进AI技术操纵的视频图像的伪造痕迹本身就很微弱，加上视频图像的压缩、缩放、格式转换等后处理，进一步弱化了取证线索。因此，应发展对视频图像折损稳健的检测算法。

发明内容

为了解决上述技术问题，本发明基于LRCN模型的眨眼检测算法及卷积神经网络的分类器，提供了一种基于眨眼同步及双目移动检测的伪造视频检验方法及系统。

本发明的方法所采用的技术方案是：一种基于眨眼同步及双目移动检测的伪造视频识别方法，包括以下步骤：

步骤1：针对待检验的视频数据进行数据预处理，获取眼部序列数据；

步骤2：眨眼检测；

基于LRCN神经网络模型，从眼部序列中训练一个识别精度达到预设值的眨眼检测网络；利用眨眼检测网络，对预处理的眼部序列进行眨眼动作识别，获取眨眼数据，并输出眼部此时闭合的概率；

步骤3：针对步骤2的结果，计算双目转动角度一致性，通过眼部序列数据分别计算左右眼移动信息，获取双目转动角度的一致性；

步骤4：伪造视频检测；

训练一个基于卷积神经网络二分类模型，以步骤2中获取的眨眼数据及步骤3中获取的双目转动角度的一致性数据作为输入，进行深度伪造视频的检测。

本发明的系统所采用的技术方案是：一种基于眨眼同步及双目移动检测的伪造视频检验系统，包括以下模块：

模块1，用于针对待检验的视频数据进行数据预处理，获取眼部序列数据；

模块2，用于眨眼检测；

模块3，用于针对模块2的结果，计算双目转动角度一致性，通过眼部序列数据分别计算左右眼移动信息，获取双目转动角度的一致性；

模块4，用于伪造视频检测；

训练一个基于卷积神经网络二分类模型，以模块2中获取的眨眼数据及模块3中获取的双目转动角度的一致性数据作为输入，进行深度伪造视频的检测。

本发明的优点和积极效果：

(1)本发明利用伪造视频眼部运动时产生的不一致性进行视频鉴伪工作，包括左右眼的眨眼不同步、扫视方位不一致。双目运动的同步性是人类长期进化的下意识行为，难以模仿，而且深度伪造技术短期内难以逼真生成这类细微行为，因此，鉴别算法具有高可信特点。

(2)本发明利用的眨眼及眼球转动特征线索，对视频图像的压缩、缩放等造成的折损效应不敏感，因而对伪造痕迹弱化的抵抗力强。

附图说明

图1为本发明实施例的方法原理图。

图2为本发明实施例的眼部注视方向计算示意图；

图3为本发明实施例的LRCN神经网络模型示意图；

图4为本发明实施例二分类模型示意图；

图5为本发明实施例的左右眼的眨眼状态检测实验结果示意图，上图是伪造人脸，下图是真实人脸；

图6为本发明实施例的左右眼的眨眼状态序列的统计直方图，横坐标代表余弦相似度，纵坐标代表样本数；左图是伪造人脸，右图是真实人脸。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于眨眼同步及双目移动检测的伪造视频识别方法，包括以下步骤：

步骤1.1：在视频的每一帧中检测人脸区域，提取面部特征点，包括眼睛、鼻子和嘴巴位置。为避免视频帧间头部移动和面部朝向改变对面部分析造成干扰，通过面部特征点将面部对齐，使得对齐后的人脸位于图像中心、保持眼部水平；

步骤1.2：从对齐的面部区域中提取出两个矩形区域，使其分别包含左眼和右眼特征点，然后将矩形在水平方向上放大1.25倍，垂直方向上放大1.75倍，使得眼睛区域始终包含在裁剪区域中。将每帧所识别的眼部区域按时序组合，生成输入视频的眼部序列。

步骤2：眨眼检测；

基于LRCN神经网络模型，从眼部序列中训练一个识别精度达到预设值的眨眼检测网络；利用眨眼检测网络，对预处理的眼部序列进行眨眼动作识别，获取眨眼数据，并输出眼部此时闭合的概率；其中，0表示眼部完全展开，1表示眼部完全闭合。

请见图3，本实施例的LRCN神经网络模型，包括特征提取模块、序列学习模块和状态预测模块；所述特征提取模块由串联的卷积层、池化层及全连接层组成；所述序列学习模块由长短期记忆网络组成，使用随时间梯度下降方法进行训练；所述状态预测模块包括全连接层；所述特征提取模块的输出进入序列学习模块，其输出经过状态预测模块后输出。

通过眼部序列数据分别计算左右眼移动信息，获取双目转动角度的一致性；

步骤3.1：从眼部序列中进一步提取眼睑、虹膜和瞳孔位置特征点，依据这些特征点，分别计算出左右眼的ROI区域，对ROI区域中每个像素点x _i计算其梯度g _i，进而计算出g _i的归一化向量d _i；则眼球的预估中心点c为：

其中，N为连续观测帧的数目，g _i表示像素点x _i的梯度，c ^*表示c的优化值；

眼睛的注视方向可以表示为眼球中心到瞳孔的向量g＝(g _x,g _y,g _z)，g _x、g _y、g _z分别表示眼球坐标系中X轴、Y轴和Z轴的分量，如图2所示：

步骤3.2：用

和

分别表示连续两帧注视方向。定义i帧与i-1帧之间的眼部的转动角为θ ⁱ，可表示为：

用

表示左眼的转动角，

表示右眼的转动角，则双目转动角度的一致性C _BAS可以表示为：

N为连续观测帧的数目，

分别是对应变量的均值。双目转动角度一致性描述了左眼与右眼扫视时是否以相同的角度转动。左右眼的转动角度相一致对于真实视频是天然成立的，但在伪造视频中却很难被仿造。真实视频中的眼部C _BAS会大于伪造视频，当取值范围大于0.8时可判定为强一致。

步骤4：伪造视频检测；

请见图4，本实施例的基于卷积神经网络二分类模型，包括若干串联的卷积网络，所述卷积网络由卷积层和池化层组成；所述卷积网络输出通过全连接层处理后输出。

步骤4.1：构建基于卷积神经网络的二分类模型，采用Inception网络结构增加模型性能；

步骤4.2：将眨眼概率与双目转动一致性相结合，组成一组新特征，将特征作为模型的输入，使用交叉熵损失训练。

请见图5，为本实施例的左右眼的眨眼状态检测实验结果，上图是伪造人脸，下图是真实人脸。可以看出，真实人脸的左右眼的眨眼状态序列更一致。而且上图的伪造人脸被模糊处理了，这表明本发明方法对图像的质量折损有较强的鲁棒性。

请见图6，为实施例的左右眼的眨眼状态序列的统计直方图及其拟合分布，横坐标代表余弦相似度，纵坐标代表样本数。左图是伪造人脸，右图是真实人脸，可以看出，伪造人脸接近正态分布、分布在余弦相似度低值区间，而真实人脸接近伽马分布、分布在高值区间。余弦相似度可以衡量两个序列的一致性，表明本发明方法能够根据眨眼一致性准确地判断伪造人脸。

上述试验证明了本发明具有鉴别结果可信度高、对图像折损导致的取证线索弱化鲁棒的双重特点。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

一种基于眨眼同步及双目移动检测的伪造视频检验方法，其特征在于，包括以下步骤：

步骤1：针对待检验的视频数据进行数据预处理，获取眼部序列数据；

步骤2：眨眼检测；

基于LRCN神经网络模型，从眼部序列中训练一个识别精度达到预设值的眨眼检测网络；利用眨眼检测网络，对预处理的眼部序列进行眨眼动作识别，获取眨眼数据，并输出眼部此时闭合的概率；

步骤3：针对步骤2的结果，计算双目转动角度一致性，通过眼部序列数据分别计算左右眼移动信息，获取双目转动角度的一致性；

步骤4：伪造视频检测；

训练一个基于卷积神经网络二分类模型，以步骤2中获取的眨眼数据及步骤3中获取的双目转动角度的一致性数据作为输入，进行深度伪造视频的检测。
根据权利要求1所述的基于眨眼同步及双目移动检测的伪造视频检验方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：在视频的每一帧中检测人脸区域，提取面部特征点，包括眼睛、鼻子和嘴巴位置；通过面部特征点将面部对齐，使得对齐后的人脸位于图像中心、保持眼部水平；

步骤1.2：从对齐的面部区域中提取出两个矩形区域，使其分别包含左眼和右眼特征点，将每帧所识别的眼部区域按时序组合，生成输入视频的眼部序列。
根据权利要求2所述的基于眨眼同步及双目移动检测的伪造视频检验方法，其特征在于：步骤1.2中，将矩形区域在水平方向上和垂直方向上放大，使得眼睛区域始终包含在裁剪区域中。
根据权利要求1所述的基于眨眼同步及双目移动检测的伪造视频检验方法，其特征在于：步骤2的所述LRCN神经网络模型，包括特征提取模块、序列学习模块和状态预测模块；所述特征提取模块由串联的卷积层、池化层及全连接层组成；所述序列学习模块由长短期记忆网络组成，使用随时间梯度下降方法进行训练；所述状态预测模块包括全连接层；所述特征提取模块的输出进入序列学习模块，其输出经过状态预测模块后输出。
根据权利要求1所述的基于眨眼同步及双目移动检测的伪造视频检验方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：从眼部序列中进一步提取眼睑、虹膜和瞳孔位置特征点，依据这些特征点，分别计算出左右眼的ROI区域，对ROI区域中每个像素点x _i计算其梯度g _i，进而计算出g _i的归一化向量d _i；则眼球的预估中心点c为：

其中，N为连续观测帧的数目，g _i表示像素点x _i的梯度，c ^*表示c的优化值；

眼睛的注视方向表示为眼球中心到瞳孔的向量g＝(g _x,g _y,g _z)，g _x、g _y、g _z分别表示眼球坐标系中X轴、Y轴和Z轴的分量；

步骤3.2：用
和
分别表示连续两帧注视方向；定义i帧与i-1帧之间的眼部的转动角为θ ⁱ，为：

用
表示左眼的转动角，
表示右眼的转动角，则双目转动角度的一致性C _BAS为：

其中，
分别是对应变量的均值。
根据权利要求1-5任一项所述的基于眨眼同步及双目移动检测的伪造视频检验方法，其特征在于：步骤4的所述基于卷积神经网络二分类模型，包括若干串联的卷积网络，所述卷积网络由卷积层和池化层组成；所述卷积网络输出通过全连接层处理后输出。
一种基于眨眼同步及双目移动检测的伪造视频检验系统，其特征在于，包括以下模块：

模块1，用于针对待检验的视频数据进行数据预处理，获取眼部序列数据；

模块2，用于眨眼检测；

基于LRCN神经网络模型，从眼部序列中训练一个识别精度达到预设值的眨眼检测网络；利用眨眼检测网络，对预处理的眼部序列进行眨眼动作识别，获取眨眼数据，并输出眼部此时闭合的概率；

模块3，用于针对模块2的结果，计算双目转动角度一致性，通过眼部序列数据分别计算左右眼移动信息，获取双目转动角度的一致性；

模块4，用于伪造视频检测；

训练一个基于卷积神经网络二分类模型，以模块2中获取的眨眼数据及模块3中获取的双目转动角度的一致性数据作为输入，进行深度伪造视频的检测。