WO2022067668A1

WO2022067668A1 - 基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质

Info

Publication number: WO2022067668A1
Application number: PCT/CN2020/119413
Authority: WO
Inventors: 胡金星; 王传胜
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-07

Abstract

一种基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质。所述方法包括：采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像及沙尘图像，生成用于训练模型的数据集；构建卷积神经网络模型LFNet（S30），将数据集输入LFNet模型进行迭代训练，得到最优模型参数（S40）；卷积神经网络模型LFNet包括骨架特征提取模型、主要特征提取模型和变尺度特征融合模型；骨架特征提取模型通过三个不同尺度的卷积提取输入图像的主要特征；主要特征提取模型用于对主要特征进行进一步的特征提取，生成三组特征图；变尺度特征融合模型对三组特征图进行自适应融合，输出检测结果。能够提高模型在沙尘和灰霾等异常天气下的鲁棒性，使模型获得更好的检测结果。

Description

基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质

技术领域

本申请属于火灾检测技术领域，特别涉及一种基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质。

背景技术

火灾检测在安全监控中起着至关重要。目前，传统的火灾检测方法为基于图像先验的方法，该方法是基于图像的颜色和形状进行火灾检测，然而由于颜色和运动特征的鲁棒性和误码率往往受到预先设定的参数的影响，导致在复杂的环境中无法应用，且定位准确度易受区域影响。

监测是一项繁琐而耗时的工作，尤其是在不确定的监视环境下，它在时间、空间甚至规模上都具有很大的不确定性。基于传感器的探测器在误码率和感知范围方面的性能有限，因此，它无法探测到远距离或小型火灾。近年来，随着深度学习技术的迅速发展，卷积神经网络(CNN)被应用于火灾探测。然而，现有基于深度学习的火灾检测方法还存在以下不足：

一、基于深度学习的方法需要大量的遥感图像作为训练数据，由于真实遥感图像的稀缺性，模型的训练具有很大的挑战性。

二、基于深度学习的火灾检测模型规模太大，不适合用于资源受限的设备。

三、现有算法的复杂度太高，无法进行实时检测。

四、抗干扰能力弱，容易受到灰霾、粉尘等恶劣监测环境的影响。

五、大多数火灾检测算法只关注单一环境，因此，在不确定的环境中会出现较高的错误率。

综上所述，现有的火灾检测方法在算法复杂度、应用场景范围、模型大小等方面都具有很大的改进空间。

发明内容

本申请提供了一种基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种基于视频图像目标检测的火灾检测方法，包括：

采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像及沙尘图像，生成用于训练模型的数据集；

构建卷积神经网络模型LFNet，将所述数据集输入LFNet模型进行迭代训练，得到最优模型参数；所述卷积神经网络模型LFNet包括骨架特征提取模型、主要特征提取模型和变尺度特征融合模型；所述骨架特征提取模型通过三个不同尺度的卷积提取输入图像的主要特征；所述主要特征提取模型用于对所述主要特征进行进一步的特征提取，生成三组特征图；所述变尺度特征融合模型对所述三组特征图进行自适应融合，输出检测结果；

将待检测火灾图像输入训练好的LFNet模型，通过LFNet模型输出待检测火灾图像的火灾定位区域以及火灾类型。

本申请实施例采取的技术方案还包括：所述采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像及沙尘图像前包括：

获取原始自然图像；所述原始自然图像包括没有火灾报警区域的非报警图像和真实的火灾报警图像。

本申请实施例采取的技术方案还包括：所述采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像包括：

所述大气散射模型分别采用至少两种传输速率分别模拟生成不同浓度的灰霾图像；所述灰霾图像成像公式为：

I(x)＝J(x)t(x)+ɑ(1-t(x))

上述公式中，I(x)是模拟出来的灰霾图像，J(x)是输入的无雾图像，ɑ是大气光值，t(x)是场景传输速率。

本申请实施例采取的技术方案还包括：所述采用基于大气散射模型的数据增强算法将原始自然图像转换为沙尘图像包括：

所述大气散射模型采用固定透射率和大气光值，结合三种颜色模拟生成不同浓度的沙尘图像；所述沙尘图像模拟公式为：

D(x)＝J(x)t(x)+a(C(x)*(1-t(x)))

上述公式中，D(x)为模拟出的沙尘图像，J(x)为输入的无雾图像，C(x)为颜色值。

本申请实施例采取的技术方案还包括：所述将所述数据集输入LFNet模型进行迭代训练包括：

所述骨架特征提取模型分别采用$3*3$、$5*5$和$7*7$尺度的卷积提取输入图像的特征，得到尺寸分别为$13*13$、$26*26$和$52*52$的特征图；所述主要特征提取模型对所述主要特征进行进一步的特征提取，生成大小分别为$52*52$、$26*26$、$13*13$的三组特征图；所述变尺度特征融合模型将所述三组特征图映射到不同的卷积核和步长进行卷积，并拼接所有相同大小的卷积，得到三组特征映射，利用基于信道的注意机制操作所述三组特征映射，得到大小分别为$13*13$、$26*26$和$52*52$的特征图，分别用于检测小、中、大型物体。

本申请实施例采取的技术方案还包括：所述将数据集输入LFNet模型进行迭代训练还包括：

分别选取均方误差和交叉熵作为损失函数进行模型优化。

本申请实施例采取的技术方案还包括：所述损失函数具体为：

统计火灾区域的路径的亮度、暗通道值和R通道数据，将所述统计数据视为燃烧直方图先验，写成CHP的公式：

上述公式中，R()代表图像的R通道，SCP(x)是图像亮度与暗通道的差值；

SCP(x)＝||v(x)-DCP(x)||

上述公式中，v(x)是图像的亮度，DCP(x)是图像暗通道的值；

LCHP＝||CHP(I)-CHP(R)|| ²

上述公式中，CHP代表燃烧直方图先验，CHP(I)和CHP(R)分别代表目标检测算法选中的区域和标注的区域的CHP值；

所述损失函数为将三个不同的损失函数进行加权求和：

L _CHP＝βL _CE+γL _MSE+δL _CHP

上述公式中，L _CHP为最终的损失函数，L _CE为交叉熵损失函数，L _MSE为均方差损失函数，L _CHP为燃烧直方图先验损失。

本申请实施例采取的另一技术方案为：一种基于视频图像目标检测的火灾检测系统，包括：

数据集构建模块：用于采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像及沙尘图像，生成用于训练模型的数据集；

LFNet模型训练模块：用于构建卷积神经网络模型LFNet，将所述数据集输入LFNet模型进行迭代训练，得到最优模型参数；所述卷积神经网络模型LFNet包括骨架特征提取模型、主要特征提取模型和变尺度特征融合模型；所述骨架特征提取模型通过三个不同尺度的卷积提取输入图像的主要特征；所述主要特征提取模型用于对所述主要特征进行进一步的特征提取，生成三组特征图；所述变尺度特征融合模型对所述三组特征图进行自适应融合，输出检测结果；所述检测结果包括火灾图像的火灾定位区域以及火灾类型。

本申请实施例采取的又一技术方案为：一种终端，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现所述基于视频图像目标检测的火灾检测方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以控制基于视频图像目标检测的火灾检测。

本申请实施例采取的又一技术方案为：一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行所述基于视频图像目标检测的火灾检测方法。

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质通过使用基于大气散射模型的数据增强算法将原始图像转换为受不同程度的灰霾或沙尘图像，生成用于训练模型的数据集，并构建适用于不确定环境下火灾烟雾探测的卷积神经网络模型LFNet，能够提高模型在沙尘和灰霾等异常天气下的鲁棒性，使模型获得更好的检测结果。同时，由于本申请实施例的LFNet模型尺寸较小，可以降低计算成本，并有利于LFNet模型应用于资源受限的设备。

附图说明

图1是本申请实施例的基于视频图像目标检测的火灾检测方法的流程图；

图2是本申请实施例基于大气散射模型的灰霾和沙尘图像模拟效果示意图；

图3是本申请实施例的卷积神经网络模型的框架图；

图4是本申请实施例的变尺度特征融合模型的结构图；

图5是本申请实施例的基于信道的注意机制的结构图；

图6为本申请实施例的基于视频图像目标检测的火灾检测系统结构示意图；

图7为本申请实施例的终端结构示意图；

图8为本申请实施例的存储介质的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参阅图1，是本申请实施例的基于视频图像目标检测的火灾检测方法的流程图。本申请实施例的基于视频图像目标检测的火灾检测方法包括以下步骤：

S10：获取原始自然图像；

本步骤中，获取的原始自然图像包括293个没有火灾报警区域的非报警图像和5073个真实的火灾报警图像。利用非报警图像可以提高训练算法对非报警目标的鲁棒性，降低检测器的误码率。利用真实的火灾报警图像可以提高目标检测模型的检测能力。

S20：采用基于大气散射模型的数据增强算法将原始自然图像转换为受不同类型及不同程度的异常天气影响的新合成图像，生成用于训练模型的数据集；

本步骤中，由于现有的智能监控算法通常会忽略灰霾或沙尘等异常天气对性能的影响，导致监测算法在不确定气候条件下的鲁棒性较差。为了解决上述不足，本发明考虑了异常天气对火灾探测算法的影响问题，通过基于大气散射模型的数据增强方法分别模拟不同程度的灰霾图像及沙尘图像，从而将原始自然图像转换为受不同程度的灰霾或沙尘天气影响的新合成图像，构建用于训练和测试火灾检测模型的大规模基准数据集，以提高目标检测模型在沙尘和灰霾等异常天气下的鲁棒性。

进一步地，请参阅图2，是本申请实施例基于大气散射模型的灰霾和沙尘图像模拟效果示意图，其中，(a)为原始图像，(b)、(c)和(d)分别为不同传输速率的大气散射模型合成的灰霾图像，(e)、(f)和(g)分别为采用固定透射率和大气光值，结合三种不同颜色模拟的沙尘图像。灰霾图像成像公式为：

I(x)＝J(x)t(x)+ɑ(1-t(x)) (1)

公式(1)中，I(x)是模拟出来的灰霾图像，J(x)是输入的无雾图像，ɑ是大气光值，t(x)是场景传输速率，该速率描述了视图中未散射并到达相机传感器的部分。为了模拟不同浓度的灰霾天气，本申请实施例将大气光值ɑ设为0.8，将透射率分别设为0.8、0.6和0.4。

由于深度信息在图像除尘任务中不起主要作用，因此假定传输不随图像的深度而改变。通过先验统计，本申请实施例选择了三种适合模拟沙尘图像的颜色分别进行模拟，沙尘图像模拟公式为：

D(x)＝J(x)t(x)+a(C(x)*(1-t(x))) (2)

公式(2)中，D(x)为模拟出的沙尘图像，J(x)为输入的无雾图像，C(x)为选择的颜色值。

S30：构建卷积神经网络模型LFNet；

本申请实施例中，卷积神经网络模型的框架如图3所示。LFNet由公共卷积层、瓶颈构建块、参数校正线性单元、组规范化等组成，包括：骨架特征提取模型、主要特征提取模型和变尺度特征融合模型，各模型功能具体为：

骨架特征提取模型：用于提取输入图像的主要特征。为了提取更丰富的图像特征，首先分别采用$3*3$、$5*5$和$7*7$尺度的卷积提取输入图像的特征，扩大接受野，提取更多的图像特征。通过三个不同尺度的卷积后，得到尺寸分别为$13*13$、$26*26$和$52*52$的特征图。基于上述，通过采用多尺度卷积进行特征图提取，可以提取出像素周围不同大小的特征信息，这对于火灾图像尤为重要。

主要特征提取模型：用于对骨架特征提取模型提取的主要特征进行进一步的特征提取，并生成大小分别为$52*52$、$26*26$、$13*13$的三组特征图，每个小尺寸的特征图都是从上层较大尺寸的特征图中提取出来的，每个卷积块由一层卷积结构和五层残差结构进行提取。

变尺度特征融合模型：用于采用变尺度特征融合(VSFF)对主要特征提取模型提取的特征串接起来，然后利用卷积提取特征，并对特征进行自适应融合。变尺度特征融合模型的结构如图4所示。为了融合不同尺度的卷积提取的特征图，将三组特征图映射进行融合，将$13*13$和$26*26$的功能扩展到$52*52$。三个输入是尺寸分别为$13*13$、$26*26$、$52*52$的特征图，将三个不同尺寸的特征图映射到不同的卷积核和步长进行卷积，使上采样或下采样成为另外两种尺寸。最后，拼接所有相同大小的卷积，得到三组特征映射。由于拼接得到的特征图包含了更丰富的图像特征，因此可以使模型定位更加精确。

进一步地，本申请实施例利用基于信道的注意机制操作VSFF中提取的三组特征映射。基于信道的注意机制可以看作是根据特征图的重要性对其进行加权的过程。例如，在一组$24×13×13$的卷积中，基于信道的注意机制将确定该组特征映射中的哪一个对预测结果有更显著的影响，然后增加该部分的权重。借助注意机制，进行三次融合，得到大小分别为$13*13$、$26*26$和$52*52$的特征图，分别用于检测小、中、大型物体。基于信道的注意机制的详细结构如图5所示。

基于上述结构，本申请实施例的LFNet模型的尺寸非常小(22.5M)，但在定量和定性评估方面都占据了领先地位，降低了计算成本，有利于LNet应用于资源受限的设备。

S40：将数据集输入LFNet模型进行迭代训练，得到最优模型参数；

本步骤中，模型训练过程中，LFNet模型有两个任务：一是准确定位图像中的报警区域；二是对报警区域的灾害类型进行分类。为了使模型更好地完成这两个任务，本申请实施例分别选取均方误差(MSE)和交叉熵(CE)作为损失函数指导网络优化，该损失函数基于对不同火灾图像或视频的大量统计，可以帮助LFNet有效地检测火灾区域。

具体地，经过对各种火灾图像进行大量实验发现，在烟雾区域，其亮度与暗通道值之差的绝对值高于其他区域，火灾区域的R通道高于非火区域，即路径的亮度、暗通道值和R通道随火灾危险区域的不同而变化，烟雾浓度随亮度与暗通道的差的绝对值而增大，火灾的视觉特征与R通道的像素值密切相关。基于上述特征，本申请实施例将这些统计数据视为燃烧直方图先验(CHP)，根据这些统计数据，将其写成CHP的公式：

公式(3)中，R()代表图像的R通道，SCP(x)是图像亮度与暗通道的差值，也可以被写成为：

SCP(x)＝||v(x)-DCP(x)|| (4)

公式(4)中，v(x)是图像的亮度，DCP(x)是指图像暗通道的值。

L _CHP＝||CHP(I)-CHP(R)|| ² (5)

公式(5)中，CHP代表燃烧直方图先验，CHP(I)和CHP(R)分别代表目标检测算法选中的区域和ground truth中标注的区域的CHP的值。

最终的损失函数为交叉熵损失函数、均方差损失函数和燃烧直方图先验损失函数三个不同的损失函数进行加权求和，公式为：

L _CHP＝βL _CE+γL _MSE+δL _CHP (6)

公式(6)中，L _CHP为最终的损失函数，L _CE为交叉熵损失函数，L _MSE为均方差损失函数，L _CHP为燃烧直方图先验损失，β、γ和δ分别设定为0.25、0.25和0.5。

S50：将待检测火灾图像输入训练好的LFNet模型，通过LFNet模型输出待检测火灾图像的火灾定位区域以及火灾类型。

请参阅图6，是本申请实施例的基于视频图像目标检测的火灾检测系统的结构示意图。本申请实施例的基于视频图像目标检测的火灾检测系统40包括：

数据集构建模块41：用于采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像及沙尘图像，生成用于训练模型的数据集；

LFNet模型训练模块42：用于构建卷积神经网络模型LFNet，将所述数据集输入LFNet模型进行迭代训练，得到最优模型参数；所述卷积神经网络模型LFNet包括骨架特征提取模型、主要特征提取模型和变尺度特征融合模型；所述骨架特征提取模型通过三个不同尺度的卷积提取输入图像的主要特征；所述主要特征提取模型用于对所述主要特征进行进一步的特征提取，生成三组特征图；所述变尺度特征融合模型对所述三组特征图进行自适应融合，输出检测结果；

模型优化模块43：用于分别选取均方误差和交叉熵作为损失函数进行模型优化。

请参阅图7，为本申请实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述基于视频图像目标检测的火灾检测方法的程序指令。

处理器51用于执行存储器52存储的程序指令以控制基于视频图像目标检测的火灾检测。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图8，为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

本申请实施例的基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质通过使用基于大气散射模型的数据增强算法将原始图像转换为受不同程度的灰霾或沙尘图像，生成用于训练模型的数据集，并构建适用于不确定环境下火灾烟雾探测的卷积神经网络模型LFNet，能够提高模型在沙尘和灰霾等异常天气下的鲁棒性，使模型获得更好的检测结果。同时，由于本申请实施例的LFNet模型尺寸较小，可以降低计算成本，并有利于LFNet模型应用于资源受限的设备。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本申请所示的这些实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种基于视频图像目标检测的火灾检测方法，其特征在于，包括：

采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像及沙尘图像，生成用于训练模型的数据集；

构建卷积神经网络模型LFNet，将所述数据集输入LFNet模型进行迭代训练，得到最优模型参数；所述卷积神经网络模型LFNet包括骨架特征提取模型、主要特征提取模型和变尺度特征融合模型；所述骨架特征提取模型通过三个不同尺度的卷积提取输入图像的主要特征；所述主要特征提取模型用于对所述主要特征进行进一步的特征提取，生成三组特征图；所述变尺度特征融合模型对所述三组特征图进行自适应融合，输出检测结果；

将待检测火灾图像输入训练好的LFNet模型，通过LFNet模型输出待检测火灾图像的火灾定位区域以及火灾类型。
根据权利要求1所述的基于视频图像目标检测的火灾检测方法，其特征在于，所述采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像及沙尘图像前包括：

获取原始自然图像；所述原始自然图像包括没有火灾报警区域的非报警图像和真实的火灾报警图像。
根据权利要求1或2所述的基于视频图像目标检测的火灾检测方法，其特征在于，所述采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像包括：

所述大气散射模型分别采用至少两种传输速率分别模拟生成不同浓度的灰霾图像；所述灰霾图像成像公式为：

I(x)＝J(x)t(x)+ɑ(1-t(x))

上述公式中，I(x)是模拟出来的灰霾图像，J(x)是输入的无雾图像，ɑ是大气光值，t(x)是场景传输速率。
根据权利要求3所述的基于视频图像目标检测的火灾检测方法，其特征在于，所述采用基于大气散射模型的数据增强算法将原始自然图像转换为沙尘图像包括：

所述大气散射模型采用固定透射率和大气光值，结合三种颜色模拟生成不同浓度的沙尘图像；所述沙尘图像模拟公式为：

D(x)＝J(x)t(x)+a(C(x)*(1-t(x)))

上述公式中，D(x)为模拟出的沙尘图像，J(x)为输入的无雾图像，C(x)为颜色值。
根据权利要求1所述的基于视频图像目标检测的火灾检测方法，其特征在于，所述将所述数据集输入LFNet模型进行迭代训练包括：

所述骨架特征提取模型分别采用$3*3$、$5*5$和$7*7$尺度的卷积提取输入图像的特征，得到尺寸分别为$13*13$、$26*26$和$52*52$的特征图；所述主要特征提取模型对所述主要特征进行进一步的特征提取，生成大小分别为$52*52$、$26*26$、$13*13$的三组特征图；所述变尺度特征融合模型将所述三组特征图映射到不同的卷积核和步长进行卷积，并拼接所有相同大小的卷积，得到三组特征映射，利用基于信道的注意机制操作所述三组特征映射，得到大小分别为$13*13$、$26*26$和$52*52$的特征图，分别用于检测小、中、大型物体。
根据权利要求5所述的基于视频图像目标检测的火灾检测方法，其特征在于，所述将数据集输入LFNet模型进行迭代训练还包括：

分别选取均方误差和交叉熵作为损失函数进行模型优化。
根据权利要求6所述的基于视频图像目标检测的火灾检测方法，其特征在于，所述损失函数具体为：

统计火灾区域的路径的亮度、暗通道值和R通道数据，将所述统计数据视为燃烧直方图先验，写成CHP的公式：

上述公式中，R()代表图像的R通道，SCP(x)是图像亮度与暗通道的差值；

SCP(x)＝||v(x)-DCP(x)||

上述公式中，v(x)是图像的亮度，DCP(x)是图像暗通道的值；

L _CHP＝||CHP(I)-CHP(R)|| ²

上述公式中，CHP代表燃烧直方图先验，CHP(I)和CHP(R)分别代表目标检测算法选中的区域和标注的区域的CHP值；

所述损失函数为将三个不同的损失函数进行加权求和：

L _CHP＝βL _CE+γL _MSE+δL _CHP

上述公式中，L _CHP为最终的损失函数，L _CE为交叉熵损失函数，L _MSE为均方差损失函数，L _CHP为燃烧直方图先验损失。
一种基于视频图像目标检测的火灾检测系统，其特征在于，包括：

数据集构建模块：用于采用基于大气散射模型的数据增强算法将原始自然图像转换为灰霾图像及沙尘图像，生成用于训练模型的数据集；

LFNet模型训练模块：用于构建卷积神经网络模型LFNet，将所述数据集输入LFNet模型进行迭代训练，得到最优模型参数；所述卷积神经网络模型LFNet包括骨架特征提取模型、主要特征提取模型和变尺度特征融合模型；所述骨架特征提取模型通过三个不同尺度的卷积提取输入图像的主要特征；所述主要特征提取模型用于对所述主要特征进行进一步的特征提取，生成三组特征图；所述变尺度特征融合模型对所述三组特征图进行自适应融合，输出检测结果；所述检测结果包括火灾图像的火灾定位区域以及火灾类型。
一种终端，其特征在于，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利要求1-7任一项所述的基于视频图像目标检测的火灾检测方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以控制基于视频图像目标检测的火灾检测。
一种存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行权利要求1至7任一项所述基于视频图像目标检测的火灾检测方法。