WO2023116736A1

WO2023116736A1 - 一种基于视频数据的抽动症辅助筛查系统

Info

Publication number: WO2023116736A1
Application number: PCT/CN2022/140523
Authority: WO
Inventors: 李劲松; 周天舒; 田雨; 吴君雅
Original assignee: 浙江大学
Priority date: 2021-12-24
Filing date: 2022-12-21
Publication date: 2023-06-29
Also published as: CN113990494A; CN113990494B

Abstract

一种基于视频数据的抽动症辅助筛查系统，利用视频数据自动识别抽动症状，通过基于多示例学习的三维卷积神经网络，采用结合三维通道注意力和三维空间注意力模块对三维卷积神经网络学习的特征进行优化，采用时间平滑约束对损失函数进行优化，能够提高模型对抽动检测能力，并且结合临床问诊转化的健康信息问卷数据，形成抽动症辅助筛查系统，提高筛查识别效率,并且通过非直接接触方式减少患者在陌生环境的紧张和不适。通过视频数据采集和抽动检测的方式，简化其中最为耗时的症状观察过程，并通过数据融合分析和可视化，给筛查患者提供疾病的初步认知，也为医生后续诊断和治疗提供参考和依据。

Description

一种基于视频数据的抽动症辅助筛查系统

技术领域

本发明涉及医疗健康信息技术领域，尤其涉及一种基于视频数据的抽动症辅助筛查系统。

背景技术

根据中华医学会儿科学分会神经学组提出的《儿童抽动障碍诊断与治疗专家共识(2017实用版)》 ^[1]，当一个人发病年龄在18岁以前，一年内同时表现出多种运动和一种或多种声音抽动，同时排除其他内科疾病(如病毒感染后脑炎等)或物质影响(如可卡因等)时，可确诊为多发性抽动症(Tourette syndrome，TS)，其中持续性观察与检查性交谈部分需要花费较长时间。然而儿童一般天性好动，患者抽动症状产生时难以引起家长重视，使得多数患者儿童确诊时病情已经发展较为严重，影响治疗效果，加上不同患者症状严重程度差异较大，具有难以准确估计的长期预后，因此也需要定期前往医院就诊复查。

人工智能和机器学习技术在医学领域已广泛应用，在抽动症识别检测领域，利用抽动症患者大脑皮层网络活动数据对患者抽动动作进行检测 ^[2]和利用可穿戴设备记录分析抽动症患者站立与行走期间的运动数据检测抽动动作 ^[3]等方法都有较好的应用，但目前视频数据还很少应用。抽动患者视频数据分析模拟了医生临床诊断时对患者的观察过程，而在日常生活中，视频数据容易获取且实施过程简单。针对抽动症患者早期发现较为困难的问题，本发明利用深度学习领域的三维卷积神经网络模型来检测正面录制视频中的异常抽动动作，结合临床门诊的健康信息综合分析，提出基于视频数据的抽动检测方法及抽动症辅助筛查系统。

根据现有的诊断流程，医生需要花较长的时间去观察确认患者的抽动特征，需要跟病人和家属询问确认近期及之前发生的抽动特点、饮食习惯、生活习惯、家族病史等；并且在问诊过程中，患者可能会因为到新环境或者接触到陌生人而产生抑制性状态，不利于实际病情诊断和评估。目前抽动症患者抽动症状依靠主要通过根据抽动症临床诊断的复杂流程，且很多抽动患者抽动症状不易察觉的问题，而现有抽动检测方法依靠深度脑刺激或者穿戴式设备采集数据，数据采集方式较为复杂。

[1]中华医学会儿科学分会神经学组.儿童抽动障碍诊断与治疗专家共识(2017实用版)[J].中华实用儿科临床杂志,2017,32(15):1137–1140.

[2]Jonathan B.Shute et al.,“Thalamocortical network activity enables chronic tic detection in humans with Tourette syndrome,”NeuroImage:Clinical,vol.12,pp.165–172,Feb.2016,doi:10.1016/j.nicl.2016.06.015.

[3]Michel.Bernabei et al.,“Automatic detection of tic activity in the Tourette Syndrome,”in 2010 Annual International Conference of the IEEE Engineering in Medicine and Biology,Aug.2010,pp.422–425,doi:10.1109/IEMBS.2010.5627374。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于视频数据的抽动症辅助筛查系统，利用视频数据自动识别抽动症状，通过基于多示例学习的三维卷积神经网络，采用结合三维通道注意力和三维空间注意力模块对三维卷积神经网络学习的特征进行优化，采用时间平滑约束对损失函数进行优化，能够提高模型对抽动检测能力，并且结合临床问诊转化的健康信息问卷数据，形成抽动症辅助筛查系统，提高筛查识别效率，并且通过非直接接触方式减少患者在陌生环境的紧张和不适。本发明通过视频数据采集和抽动检测的方式，简化其中最为耗时的症状观察过程，并通过数据融合分析和可视化，给筛查患者提供疾病的初步认知，也为医生后续诊断和治疗提供参考和依据。

本发明的目的是通过以下技术方案来实现的：一种基于视频数据的抽动症辅助筛查系统，该系统包括抽动动作检测模块、健康信息采集处理模块、视觉数据获取模块和融合分析模块；

所述视觉数据获取模块用于采集筛查者面部视频数据，输入到抽动动作检测模块；

所述抽动动作检测模块包括数据预处理模块、视觉特征分析模块、抽动动作异常分数生成模块和多示例策略训练模块；

所述数据预处理模块将视觉数据获取模块采集的视频数据处理成适用于深度学习网络的时序图像数据，输入到视觉特征分析模块；

所述视觉特征分析模块通过基于三维通道注意力和三维空间注意力的三维卷积神经网络模型进行视频数据特征分析；所述三维卷积神经网络模型具有依次连接的p个包含一层三维卷积层的卷积块和q个包含两层三维卷积层的卷积块；所述q个包含两层三维卷积层的卷积块中均以并行方式接入三维通道注意力模块和三维空间注意力模块，提取卷积计算后的特征图的三维通道注意力特征和三维空间注意力特征，生成的特征图输入由全连接层网络模型组成的抽动动作异常分数生成模块，获得抽动动作异常分数值，通过异常分数阈值分析判断是否存在抽动动作；同时异常分数值形成时序数据输入到融合分析模块；

所述多示例策略训练模块基于对照组示例和抽动组示例对视觉特征分析模块中的网络模型进行多示例学习策略训练，所述对照组示例和抽动组示例分别通过各自的视频数据抽取若干段固定连续帧得到；通过视觉特征分析模块得到抽动组和对照组不同示例的抽动异常分数，基于排序损失函数计算每一次训练的损失值，并更新视觉特征分析模块中的网络模型参数；

所述健康信息采集处理模块基于抽动症临床诊断过程采集并统计筛查者的健康信息，并对采集的健康信息数据进行数值型转化，输入到融合分析模块；

所述融合分析模块用于将数值型处理后的健康信息数据和异常分数值形成的时序数据分别通过分类模型计算得到抽动或正常的识别概率，再利用贝叶斯加法融合规则进行两种结果的相加融合，将最大值对应类别作为判定结果；通过峰值检测算法得到抽动峰值个数和时序位点，从帧序列回溯原视频得到峰值时间定位，得到抽动发生时间；通过阈值筛选抽动峰值发生前后区间，定位得到每次抽动发生持续时间；根据异常分数值、抽动发生时间和每次抽动持续时间绘制对应分析视频的抽动异常分数值变化曲线和抽动动作热力图，并根据原视频时长计算每分钟抽动发生频次和持续时间；融合分析模块的分析结果为患者提供下一步检查建议以及提供自身抽动情况反馈信息，同时也为医生提供患者抽动情况辅助筛查信息。

进一步地，所述数据预处理模块对视频数据预处理过程具体为：将采集的面部视频数据经过人脸检测算法OpenFace定位每一帧视频图像中人脸的区域，去除原始视频图像中与抽动动作无关的环境信息，聚焦筛查者面部抽动动作，并保存处理后的图像。

进一步地，所述三维通道注意力模块将经过卷积和池化后的大小为(Channel,Dimension,Height,Weight)的特征图F _3D通过平均池化压缩成大小为(Channel,1,1,1)的平均时序特征F _3D′，通过多层感知机MLP和Sigmoid激活函数对每个通道的重要性进行预测计算，得到三维通道注意力特征F _3D-C,具体计算为：

F _3D-C＝Sigmoid(MLP(F _3D′))。

进一步地，所述三维空间注意力模块将经过卷积和池化后的大小为(Channel,Dimension,Height,Weight)的特征F _3D通过平均池化压缩成大小为(1,Dimension,Height,Weight)的平均空间特征F _3D″,然后通过Sigmoid激活函数得到空间注意力特征F _3D-S，具体计算为：

F _3D-S＝Sigmoid(F _3D″)。

进一步地，所述三维通道注意力模块和三维空间注意力模块以并行方式接入包含两层三维卷积层的三维卷积块中，分别与特征F _3D进行相乘并相加操作，最后得到输出特征F _A的计算公式为：

其中

为相乘操作。

进一步地，所述多示例策略训练模块的训练过程具体如下：抽动组示例和对照组示例分别构成抽动多示例包

和对照多示例包

通过视觉特征分析模块中的网络模型得到抽动组和对照组的所有示例的抽动异常分数集{k _a}和{k _n}，分别计算得到抽动多示例包和对照多示例包中异常分数最大值

和

获取抽动多示例包和对照多示例包异常分数值最大值前后各两个示例的异常分数值，用

和

分别表示抽动多示例包和对照多示例包最大概率疑似抽动动作发生持续阶段，用持续阶段异常分数平均值表示最大概率疑似抽动动作的异常分数值，抽动多示例包中疑似存在抽动动作最大概率

和对照多示例包中疑似抽动动作最大概率

计算公式如下：

其中，i为抽动多示例包异常分数值最大值对应的第i个示例，j为对照多示例包中异常分数值最大值对应的第j个示例；计算过程中，若出现i-2≤0或者i-1≤0或者i+1＞N _a或者i+2＞N _a或者j-2≤0或者j-1≤0或者j+1＞N _n或者j+2＞N _n，则对应示例的异常分数值不存在，不计入均值计算；N _a为抽动多示例包中示例个数，N _n为对照多示例包中示例个数；

通过排序损失函数计算每一次训练的损失值L，并通过梯度下降算法和反向传播更新视觉特征分析模块中的网络参数；基于多示例学习策略的排序损失L ₁计算公式如下：

损失函数中添加平滑约束项L ₂，表达式如下：

其中，m为抽动多示例包

中第m个示例，N _a表示抽动多示例包

中示例个数；

基于多示例学习策略的排序损失函数L表达如下：

L＝L ₁+λL ₂

其中λ为惩罚系数，数值越高代表平滑约束项的惩罚越重。

进一步地，所述多示例策略训练模块的训练过程中，采用指数衰减函数进行学习率Lr的迭代，表达式为：

Lr＝0.95 ^epoch_t*lr

其中，epoch_t为当前训练轮次，lr＝0.001为初始学习率。

进一步地，所述多示例策略训练模块的训练过程中，将对照组示例的视频数据和抽动组示例的视频数据通过添加随机高斯噪声、随机颜色抖动、随机旋转、随机剪裁方式进行数据扩增，模拟视频数据采集过程中出现的成像质量变化、色彩变化、人脸方向变化、镜头远近变化情况。

进一步地，所述健康信息采集处理模块采集的健康信息包括人口统计学信息、生活习惯、饮食习惯、家族史和家庭观察记录。

进一步地，所述融合分析模块中，利用健康信息采集处理模块进行数值化处理后的健康信息数据训练高斯核SVM分类器，得到识别概率；视觉特征分析模块输出的数据包含时序信息，采用LSTM网络和Softmax函数进行训练分析，得到识别概率。

本发明的有益效果：

1.本发明通过非植入式非穿戴式的方式采集视频数据，方式便捷，摄像设备普适性好，系统可植入性高。

2.本发明利用视频数据分析检测抽动动作，患者不用和医生面对面交流的方式减少患者在陌生环境的紧张和不适，更能表现真实病情。

3.本发明通过视频数据分析和健康信息数据融合分析，抽动筛查结果可给患者和家长提供疾病知识普及，也可给医生对病情评估和管理提供参考。

4.本发明可通过通信网络实现远程抽动识别检测，减少患者及家长前往专科医院的次数，减少时间和旅途成本。

附图说明

图1为联合通道注意力和空间注意力模块的三维卷积神经网络结构示意图。

图2为视觉模型分析训练流程示意图。

图3为基于机器视觉的抽动症辅助筛查系统示意图。

图4为融合分析和可视化模块和筛查结果可视化示例示意图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

本发明根据抽动症筛查和诊断中的局限性，提出了一种基于视频数据的抽动症辅助筛查系统，该系统包括抽动动作检测模块、健康信息采集处理模块、视觉数据获取模块和融合分析模块；

视觉数据获取模块用于采集本系统分析所需视觉数据，通过两种方式实现：一是通过系统配置的摄像设备，正面采集筛查者即时面部视频数据；二是通过本地上传接口，传入筛查者以往采集并存留正面视频数据。为使后续分析结果顺利进行，采集的视频数据要求至少60秒，无上限设置。采集到的视频数据输入到抽动动作检测模块；

所述数据预处理模块将视觉数据获取模块采集的视频数据处理成适用于深度学习网络的时序图像数据，具体为：将采集的面部视频数据经过人脸检测算法OpenFace定位每一帧视频图像数据中人脸的区域，去除原始视频图像中与抽动动作无关的环境信息，聚焦筛查者面部抽动动作，并截取人脸区域部分，并且按照帧的顺序，并保存成128*128大小的图像。在后续训练过程中，通过添加随机高斯噪声、随机颜色抖动、随机旋转、随机剪裁等数据扩增方式增加训练过程中数据量，模拟视频录制过程中出现的成像质量变化、色彩变化、人脸方向变化、镜头远近变化等情况，增强数据特征提取能力，最终保存成112*112大小的图像，并输入到视觉特征分析模块。

所述视觉特征分析模块通过基于三维通道注意力和三维空间注意力的三维卷积神经网络模型进行视频数据特征分析；通过三维卷积核在时序数据上做卷积操作，可以同时考虑时间特征和空间特征，适用于视频数据分析。由于不同的抽动症患者抽动的部位不一定相同，除了对整个面部的特征提取还需要特别关注局部抽动部位特征，因此通过联合三维通道注意力模块(3D-Channel Attention)和三维空间注意力模块(3D-Spatial Attention)改进三维卷积神经网络以提升模型提取视觉特征能力。如图1所示，三维卷积神经网络由5个三维卷积块依次连接构成，包括2个由一层三维卷积层和一层最大池化层组成的ConvBlock-A(三维卷积组合A)和3个由两层三维卷积层、一层最大池化层、一个三维通道注意力模块和一个三维空间注意力模块组成的ConvBlock-B(三维卷积组合B)。

其中三维通道注意力模块是将卷积块中经过卷积和池化后产生大小为(Channel,Dimension,Height,Weight)的特征F _3D通过平均池化操作压缩成(Channel,1,1,1)大小的平均时序特征F _3D′，然后通过多层感知机MLP和Sigmoid激活函数对每个通道的重要性进行预测计算，得到三维通道注意力特征F _3D-C,具体计算为：

F _3D-C＝Sigmoid(MLP(F _3D′))

三维空间注意力模块是将卷积块中经过卷积和池化后产生大小为(Channel,Dimension,Height,Weight)的特征F _3D通过平均池化操作压缩成(1,Dimension,Height,Weight)平均空间特征F _3D″,然后通过Sigmoid激活函数得到空间注意力特征F _3D-S，具体计算为：

F _3D-S＝Sigmoid(F _3D″)

为减少模型的复杂度和参数的计算量，三维通道注意力模块和三维空间注意力模块以并行方式接入三维卷积块结构中，分别与前一过程特征F _3D进行相乘并相加操作，最后得到 ConvBlock-B输出的视觉特征F _A的计算公式为：

其中

为相乘操作。

所述抽动动作异常分数生成模块将视觉特征分析模块输出的视觉特征F _A输入到抽动异常分数生成网络进行进一步分析，抽动异常分数生成网络模型由三层全连接层组成，神经元个数分别为512、64、1，前两层全连接层通过ReLU函数激活，最后一层通过Sigmoid函数激活，最后生成抽动异常分数，用于后续学习训练。

所述多示例策略训练模块通过基于多示例学习策略(Multi-Instance Learning，MIL)的排序损失函数Ranking Loss对视觉特征分析模块中的网络模型训练学习。

在经典的多示例方法下，模型对一个基于一组训练包的分类器进行学习，每个包bag由多个训练示例instance组成，阳性包至少包含一个正的示例，阴性包的所有示例都为负示例。待分析的视频数据视为多示例学习策略中的包，将视频数据分成连续不重合的16帧时序数据作为包中的示例，该模型利用构建的三维卷积网络模型，对每个示例的时序数据进行特征学习，并且通过构建的抽动异常分数生成网络得到每个示例对应的分数作为抽动动作异常分数值，分数值范围为0～1，0代表无抽动动作，1代表有抽动动作，分数值的高低代表存在抽动动作的可能性。所有示例中分数值最高的示例的分数代表整个包(即整段视频)存在抽动动作的可能性。

在模型训练阶段，通过事先采集的抽动症患者组和正常对照组自然状态下正面面部视频数据各200分钟，每1分钟为一个示例包，每16帧图像作为一个示例。数据集按照训练集70％、测试集30％的比例随机分配成两组。训练集用于模型训练，测试集用于模型测试。如图2所示，每次由抽动组和对照组两组数据进行学习训练，对照组视频数据和抽动组视频数据路径上的三维卷积神经网络模型实行模型参数共享机制，抽动组和对照组分别构成抽动多示例包

和对照多示例包

通过视觉特征分析模块中的网络得到抽动组和对照组的所有示例的抽动异常分数集{k _a}和{k _n}，分别计算得到抽动多示例包和对照多示例包中异常分数最大值

和

根据抽动动作发生具有一定时长的持续性的特点，获取抽动多示例包和对照多示例包异常分数值最大值前后各两个示例的异常分数值，用

和

分别表示抽动多示例包和对照多示例包最大概率疑似抽动动作发生持续阶段，用持续阶段异常分数平均值表示最大概率疑似抽动动作的异常分数值，排除由于如眨眼等普通动作产生的短暂动作发生，抽动多示例包中疑似存在抽动动作最大概率

和对照多示例包中疑似抽动动作最大概率

计算公式如下：

另外考虑到多示例包中的各个示例也具有时序性，因此在抽动组多示例包中每个示例之间的抽动异常分数应该具有平滑性，由此在损失函数中增加平滑约束项L ₂，表达式如下：

其中m代表抽动多示例包

中的第m个示例，N _a表示抽动多示例包

中示例个数。

最终基于多示例学习策略的排序损失函数L＝L ₁+λL ₂，具体表达式如下：

其中λ为惩罚系数，数值越高代表平滑约束项的惩罚越重。本发明使用λ＝0.5用于模型训练。

在模型训练过程中，高分辨率训练模型性能好但训练速度慢，低分辨率训练模型性能差但训练速度快，因此利用数值分析中多网格训练的方法，将批数量B、示例帧数K、视频帧图像的长度H和宽度W等模型参数作为参数网格grid，从粗粒度到细粒度进行参数优化。其中，批数量B、示例帧数K、视频帧图像的长度H和宽度W的默认值设定为B＝8，K＝16，H＝112，W＝112，训练过程中参数网格以[

(B，K，H，W)]的顺序依次载入模型迭代训练，每组参数持续2个轮次epoch，一共进行50个轮次训练截止。

为了提高模型收敛效率，采用指数衰减函数进行学习率Lr的迭代，表达式为：

Lr＝0.95 ^epoch_t*lr

其中epoch_t为当前训练轮次，lr＝0.001为初始学习率。

在得到训练好的上述网络模型之后，在模型测试阶段，每个待分析视频视作一个多示例包，并按照16帧/个示例分成多个示例，每个示例通过学习好的三维卷积神经网络得到视觉特征，并通过抽动异常分数生成网络获得异常分数值，所有示例的异常分数值中最大的分数作为待分析视频的总体抽动异常分数值，根据统计概率以0.5为阈值，通过阈值分析判断是否存在抽动动作，同时所有示例的异常分数值形成时序数据输入到融合分析模块。测试结果如表1所示：

表1

	准确率(Accuracy)	查全率(Precision)	召回率(Recall)
基线	0.7798(±0.017)	0.8368(±0.032)	0.7886(±0.016)
本发明	0.9302＊(±0.026)	0.9144＊(±0.040)	0.9396＊(±0.032)

其中基线方法采用无修改的三维卷积神经网络和交叉熵函数组成的模型，*表示本发明结果和基线结果对比具有统计学差异，证明了本发明在视频数据抽动检测上的有效性。

抽动症辅助筛查系统融合健康问卷数据分析以及可视化分析，如图3所示，所述健康信息采集处理模块按照临床诊断过程，采集健康信息包括人口统计学信息、生活习惯、饮食习惯、家族史和家庭观察记录等，具体包括性别(男1，女0)、年龄、是否发现过异常抽动动作(是1，否0)、家族中是否有抽动症状患者(是1，否0)、睡眠是否正常(是1，否0)、是否晚睡(是1，否0)、是否喜欢喝茶或咖啡(是1，否0)、是否经常运动(是1，否0)等，根据统计信息绘制统计分布图，并根据括号内容对收集的数据进行数值型转化，输入到融合分析模块。

如图4所示，所述融合分析模块将数值型处理后的健康信息数据和异常分数值形成的时序数据进行融合分析。在数据融合分析阶段，同一个体X的健康信息数据和异常分数值形成的时序数据分别通过分类模型计算得到抽动或正常的识别概率，再利用贝叶斯融合规则进行两种结果的相加融合。利用数值化处理后的健康信息数据训练高斯核SVM分类器，得到识别概率

其中i为抽动或正常；异常分数值形成的时序数据包含时序信息，因此构建单层128个神经元的LSTM网络和Softmax函数进行训练分析，得到识别概率

其中i为抽动或正常。由于上述两组数据特征是相互独立的，因此采用贝叶斯理论的加法融合规则计算总体识别概率

其中P _x为类别先验概率，取值为0.5，M为总类别，取值为2，最后通过总体识别概率中最大值对应的类别作为判定结果的规则

得到最终判定结果，其中i为抽动或正常。通过峰值检测算法得到抽动峰值个数和时序位点，从帧序列回溯原视频得到峰值时间定位，得到抽动发生时间；通过阈值筛选抽动峰值发生前后区间，定位得到每次抽动发生持续时间；根据异常分数值、抽动发生时间和每次抽动持续时间绘制对应分析视频的抽动异常分数值变化曲线和抽动动作热力图，并根据原视频时长计算每分钟抽动发生频次和持续时间；作为视频所属患者抽动严重程度的参考依据；根据融合分析模块的最终判定结果、抽动异常分数值变化曲线、抽动动作热力图以及健康信息的统计分布图形成可视化的分析结果，为患者提供下一步检查建议以及提供自身抽动情况反馈信息，同时也可为医生提供患者抽动概况，为下一步诊断治疗提供辅助信息。

实施案例：

筛查者通过本发明系统首先进入健康信息采集处理模块，在系统中输入年龄、性别、疾病史、生活作息习惯等健康数据，然后通过视觉数据获取模块录制1-5分钟正面视频或者通过上传按钮传入个人手机上保存的正面视频，系统通过初步检测，判断视频是否符合分析要求，确认符合分析要求后，通过视觉特征分析模块对视频数据进行预处理、视频数据特征分析、抽动检测等过程，得到具有时序特征的异常分数值和抽动检测结果，再根据融合分析模块给出筛查结果，若筛查结果为阳性，则提示进行后续检查诊断，并给出可视化的分析结果和抽动片段给临床医生参考；若筛查结果为阴性，则提示未发现抽动异常和相关检测数据，供临床医生参考。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

一种基于视频数据的抽动症辅助筛查系统，其特征在于，该系统包括抽动动作检测模块、健康信息采集处理模块、视觉数据获取模块和融合分析模块；

所述视觉数据获取模块用于采集筛查者面部视频数据，输入到抽动动作检测模块；

所述抽动动作检测模块包括数据预处理模块、视觉特征分析模块、抽动动作异常分数生成模块和多示例策略训练模块；

所述数据预处理模块将视觉数据获取模块采集的视频数据处理成适用于深度学习网络的时序图像数据，输入到视觉特征分析模块；

所述视觉特征分析模块通过基于三维通道注意力和三维空间注意力的三维卷积神经网络模型进行视频数据特征分析；所述三维卷积神经网络模型具有依次连接的p个包含一层三维卷积层的卷积块和q个包含两层三维卷积层的卷积块；所述q个包含两层三维卷积层的卷积块中均以并行方式接入三维通道注意力模块和三维空间注意力模块，提取卷积计算后的特征图的三维通道注意力特征和三维空间注意力特征，生成的特征图输入由全连接层网络模型组成的抽动动作异常分数生成模块，获得抽动动作异常分数值，通过异常分数阈值分析判断是否存在抽动动作；同时异常分数值形成时序数据输入到融合分析模块；

所述多示例策略训练模块基于对照组示例和抽动组示例对视觉特征分析模块中的网络模型进行多示例学习策略训练，对照组示例和抽动组示例分别通过各自的视频数据抽取若干段固定连续帧得到；通过视觉特征分析模块得到抽动组和对照组不同示例的抽动异常分数，基于排序损失函数计算每一次训练的损失值，并更新视觉特征分析模块中的网络模型参数；

所述健康信息采集处理模块基于抽动症临床诊断过程采集并统计筛查者的健康信息，并对采集的健康信息数据进行数值型转化，输入到融合分析模块；

所述融合分析模块用于将数值型处理后的健康信息数据和异常分数值形成的时序数据分别通过分类模型计算得到抽动或正常的识别概率，再利用贝叶斯加法融合规则进行两种结果的相加融合，将最大值对应类别作为判定结果；通过峰值检测算法得到抽动峰值个数和时序位点，从帧序列回溯原视频得到峰值时间定位，得到抽动发生时间；通过阈值筛选抽动峰值发生前后区间，定位得到每次抽动发生持续时间；根据异常分数值、抽动发生时间和每次抽动持续时间绘制对应分析视频的抽动异常分数值变化曲线和抽动动作热力图，并根据原视频时长计算每分钟抽动发生频次和持续时间；融合分析模块的分析结果为患者提供下一步检查建议以及提供自身抽动情况反馈信息，同时也为医生提供患者抽动情况辅助筛查信息。
根据权利要求1所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述数据预处理模块对视频数据预处理过程具体为：将采集的面部视频数据经过人脸检测算法OpenFace定位每一帧视频图像中人脸的区域，去除原始视频图像中与抽动动作无关的环境信息，聚焦筛查者面部抽动动作，并保存处理后的图像。
根据权利要求1所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述三维通道注意力模块将经过卷积和池化后的大小为(Channel,Dimension,Height,Weight)的特征图F _3D通过平均池化压缩成大小为(Channel,1,1,1)的平均时序特征F _3D′，通过多层感知机MLP和Sigmoid激活函数对每个通道的重要性进行预测计算，得到三维通道注意力特征F _3D-C,具体计算为：

F _3D-C＝Sigmoid(MLP(F _3D′))。
根据权利要求3所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述三维空间注意力模块将经过卷积和池化后的大小为(Channel,Dimension,Height,Weight)的特征F _3D通过平均池化压缩成大小为(1,Dimension,Height,Weight)的平均空间特征F _2D″,然后通过Sigmoid激活函数得到空间注意力特征F _3D-S，具体计算为：

F _3D-S＝Sigmoid(F _3D″)。
根据权利要求4所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述三维通道注意力模块和三维空间注意力模块以并行方式接入包含两层三维卷积层的三维卷积块中，分别与特征F _3D进行相乘并相加操作，最后得到输出特征F _A的计算公式为：

其中
为相乘操作。
根据权利要求1所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述多示例策略训练模块的训练过程具体如下：抽动组示例和对照组示例分别构成抽动多示例包
和对照多示例包
通过视觉特征分析模块中的网络模型得到抽动组和对照组的所有示例的抽动异常分数集{k _a}和{k _n}，分别计算得到抽动多示例包和对照多示例包中异常分数最大值
和
获取抽动多示例包和对照多示例包异常分数值最大值前后各两个示例的异常分数值，用
和
分别表示抽动多示例包和对照多示例包最大概率疑似抽动动作发生持续阶段，用持续阶段异常分数平均值表示最大概率疑似抽动动作的异常分数值，抽动多示例包中疑似存在抽动动作最大概率
和对照多示例包中疑似抽动动作最大概率
计算公式如下：

其中，i为抽动多示例包异常分数值最大值对应的第i个示例，j为对照多示例包中异常分数值最大值对应的第j个示例；计算过程中，若出现i-2≤0或者i-1≤0或者i+1＞N _a或者i+2＞N _a或者j-2≤0或者j-1≤0或者j+1＞N _n或者j+2＞N _n，则对应示例的异常分数值不存在，不计入均值计算；N _a为抽动多示例包中示例个数，N _n为对照多示例包中示例个数；

通过排序损失函数计算每一次训练的损失值L，并通过梯度下降算法和反向传播更新视觉特征分析模块中的网络参数；基于多示例学习策略的排序损失L ₁计算公式如下：

损失函数中添加平滑约束项L ₂，表达式如下：

其中，m为抽动多示例包
中第m个示例，N _a表示抽动多示例包
中示例个数；

基于多示例学习策略的排序损失函数L表达如下：

L＝L ₁+λL ₂

其中λ为惩罚系数，数值越高代表平滑约束项的惩罚越重。
根据权利要求6所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述多示例策略训练模块的训练过程中，采用指数衰减函数进行学习率Lr的迭代，表达式为：

Lr＝0.95 ^epoch_t*lr

其中，epoch_t为当前训练轮次，lr＝0.001为初始学习率。
根据权利要求6所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述多示例策略训练模块的训练过程中，将对照组示例的视频数据和抽动组示例的视频数据通过添加随机高斯噪声、随机颜色抖动、随机旋转、随机剪裁方式进行数据扩增，模拟视频数据采集过程中出现的成像质量变化、色彩变化、人脸方向变化、镜头远近变化情况。
根据权利要求1所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述健康信息采集处理模块采集的健康信息包括人口统计学信息、生活习惯、饮食习惯、家族史和家庭观察记录。
根据权利要求1所述的一种基于视频数据的抽动症辅助筛查系统，其特征在于，所述融合分析模块中，利用健康信息采集处理模块进行数值化处理后的健康信息数据训练高斯核SVM分类器，得到识别概率；视觉特征分析模块输出的数据包含时序信息，采用LSTM网络和Softmax函数进行训练分析，得到识别概率。