WO2019101221A1

WO2019101221A1 - 一种基于场景多维特征的船只检测方法及系统

Info

Publication number: WO2019101221A1
Application number: PCT/CN2018/120296
Authority: WO
Inventors: 邓练兵
Original assignee: 珠海大横琴科技发展有限公司
Priority date: 2017-12-11
Filing date: 2018-12-11
Publication date: 2019-05-31
Also published as: US20200167601A1; CN107818326A; EP3696726A1; US10885381B2; KR102171122B1; JP6759475B2; JP2020527785A; CN107818326B; KR20200007084A; EP3696726A4

Abstract

本发明提供一种基于场景多维特征的船只检测方法及系统，包括构建船只图像样本库，提取每帧图像所有边缘作为图像的第四维；提取得到海岸线，令海面区域为船只出现范围区域；构建类Faster RCNN卷积网络作为深度学习网络，将样本数据输入到深度学习网络中；构建RPN网络，利用滑动窗口在船只出现范围区域生成不同大小区域建议框，同所得深度学习网络结合，根据船只真实位置训练模型；对检测影像基于训练所得模型对海岸线间的部分进行船只检测。本发明通过提取海岸线来避免了陆地房屋的干扰，只对船只区域进行区域建议，提高了区域建议框的准确率和速度；并且在目标检测中加入了边缘特征作为图像第四维，提高了检测精度和速度。

Description

一种基于场景多维特征的船只检测方法及系统

技术领域

本发明属于计算机视觉领域，基于场景多维特征构建深度学习网络模型的船只检测方法及系统。

背景技术

现今社会中，视频监控摄像头无处不在，而在监控中心的电视墙上也会同时显示多路监控画面，如果只是依靠人眼观察检测，很容易错过异常事件。研究表明，专业监控人员在仅仅监视2个监视器的情况下，22分钟后将错过95％的行为，不能事先有效防控犯罪行为的发生。而智能监控探头提高了实时监控系统的主动预警能力，当检测到相关危险情况时发出预警，有利于相关部门及时采取措施。另一方面，智能监控探头的异常预警行为的存储记录，也是日后案件侦破、事故原因分析等工作中的珍贵线索。

而随着人口的迅速膨胀和陆地资源的极其匮乏，21世纪人类逐渐加快了向海洋进军的步伐。如何利用好、保护海洋环境和资源，如何在人力有限的情况下监控广袤的海洋成为当前重要的研究课题。海洋视频监控系统可以实现24小时无间断监控、全面监测过往舰船、船员动作等情况，违反行为被第一时间捕捉、周边海域状况被无间断记录，从而大大缓解了海洋监管人员的工作难度，提高工作效率，节约监管成本，同时为海洋管理决策的制定提供科学依据。

本专利这里研究如何从环岛监控视频系统中快速准确地检测出运动船只。纵观国内外的目标检测算法现状，逐渐从时域帧差法、光流法、背景减除法等传统方法转向R-CNN，Fast RCNN，Faster RCNN等基于深度学习的检测方法。

传统方法中时域帧差法是提取出视频中的相邻的两帧或多帧图像，进行差分计算，通过阈值化从而分离出图像中的背景和运动物体，获得它的像素。该算法对于动态背景，在镜头固定的时候具有较强的适应性和鲁棒性，不过它不能完整地提取出特征的所有相关像素点，只能提取部分特征相关像素，这导致它得不到高精度的检测结果。当物体运动迅速时，采用大一些的取样间隔，会导致两帧影像间没有覆盖，而容易发生误检测。如果在物体运动速度较慢时，采用小一些的取样间隔，则检测出的运动目标容易产生空洞现象，不利于后续的目标检测。

在深度学习的方法中，RCNN是一个带有CNN特征区域的网络，第一次利用卷积神经网络特征来做分类。输入一张影像，它首先通过选择性搜索(Selective Search,SS)的区域建议方法来获取大约2000的候选区域，然后对每一个特征区域提取CNN特征。再利用SVM分类器对每个区域进行分类，最后根据阈值确定最终的分类结果。但是该方法的效率不高，在CPU模式下一张影像需要2秒左右的时间，其主要原因是在提取特征的过程中，CNN会对每个region proposals进行单独的特征提取，这样导致所耗时间大大增加。

Fast RCNN网络的输入是图像和它的对象建议框，然后对图像进行卷积和最大池化操作，得到本专利需要的特征图(feature map)。Fast RCNN提出了新的网络层结构ROI Pooling层来将这些结果的尺度进行统一，变成固定长度的特征向量。然后将这些特征向量输入到一个全连接层，再输入到一个multi-task模型，由softmax分类器和bbox regressor回归合并组成，而这两层能够共享特征，所以同时对这两个进行微调，相互促进，能得到更好的效果。Fast RCNN可以在GPU上实现，虽然提高了效率，但是他没有考虑之后的检测网络，而区域建议部分也耗时太长，并没有能够很好地解决这一问题。

Faster RCNN采用区域生成网络(Region Proposal Network RPN)+fast RCNN来进行区域建议。这里区域生成网络是和检测网络共享卷积特征，用这些卷积层特征来预测区域建议框，这样生成区域建议框的计算成本很小。然后将这些区域用于Fast R-CNN检测，这样检测的准确率和Fast R-CNN差不多，但快了不少。但是准确率还是不够好。

发明内容

针对现有技术的不足，结合环岛监控系统的数据特性，本发明提供一种基于场景多维特征构建深度学习网络模型的船只检测技术方案。

为实现上述目的，本发明的技术方案为一种基于场景多维特征构建深度学习网络模型的船只检测方法，包括以下步骤，

步骤a，构建船只图像样本库，包括采集可见光下的沿海区域监控视频数据，提取每帧图像，获得船只位置真值和长宽；然后通过canny算子进行边缘检测，得到图像中所有边缘，并作为图像的第四维；

步骤b，船只区域获取，包括对于步骤a得到的边缘，进行Hough变换，得到海岸线，令海面区域为船只出现范围区域Ship area；

步骤c，构建类Faster RCNN卷积网络作为深度学习网络，将步骤a得到的处理后图像作为样本数据输入到深度学习网络中，得到卷积后的特征图；

步骤d，构建RPN网络，基于步骤c所得卷积后的特征图，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框，同步骤c所得深度学习网络结合，根据船只真实位置进行训练，得到训练模型；

步骤e，利用步骤d训练所得模型对测试数据进行检测，包括对检测影像进行边缘检测，得到图像中所有边缘，并将其作为图像的第四维，然后通过Hough变换得到海岸线，基于步骤d训练所得模型对海岸线间的部分进行船只检测。

而且，步骤b中，首先建立一个(λ，θ)极坐标参数空间的二维数组作为累加器，顺序搜索图像中所有目标像素，对于每一个目标像素在参数空间中找到对应位置，在累加器的对应位置加1；再求出参数空间累加器中最大值，设其位置为(λ ⁱ，θ ⁱ)；最后通过参数空间位置(λ ⁱ，θ ⁱ)，根据上式找到图像空间中相对应的直线参数，确定最长的一条直线为海岸线。

而且，步骤d中，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框后，根据步骤a所得船只长宽，通过K-均值聚类，得到选择的区域建议框大小。

本发明提供一种基于场景多维特征构建深度学习网络模型的船只检测系统，包括以下模块：

第一模块，用于构建船只图像样本库，包括采集可见光下的沿海区域监控视频数据，提取每帧图像，获得船只位置真值和长宽；然后通过canny算子进行边缘检测，得到图像中所有边缘，并作为图像的第四维；

第二模块，用于船只区域获取，包括对于第一模块得到的边缘，进行Hough变换，得到海岸线，令海面区域为船只出现范围区域Ship area；

第三模块，用于构建类Faster RCNN卷积网络作为深度学习网络，将第一模块得到的处理后图像作为样本数据输入到深度学习网络中，得到卷积后的特征图；

第四模块，用于构建RPN网络，基于第三模块所得卷积后的特征图，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框，同第三模块所得深度学习网络结合，根据船只真实位置进行训练，得到训练模型；

第五模块，用于利用第四模块训练所得模型对测试数据进行检测，包括对检测影像进行边缘检测，得到图像中所有边缘，并将其作为图像的第四维，然后通过Hough变换得到海岸线，基于第四模块训练所得模型对海岸线间的部分进行船只检测。

而且，第二模块中，首先建立一个(λ，θ)极坐标参数空间的二维数组作为累加器，顺序搜索图像中所有目标像素，对于每一个目标像素在参数空间中找到对应位置，在累加器的对应位置加1；再求出参数空间累加器中最大值，设其位置为(λ ⁱ，θ ⁱ)；最后通过参数空间位置(λ ⁱ，θ ⁱ)，根据上式找到图像空间中相对应的直线参数，确定最长的一条直线为海岸线。

而且，第四模块中，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框后，根据第一模块所得船只长宽，通过K-均值聚类，得到选择的区域建议框大小。

本发明提供的技术方案的有益效果为：

(1)根据实际数据情况，陆地房屋是船只误检的主要原因。本专利通过提取海岸线来避免了陆地房屋的干扰，只对船只区域进行区域建议，提高了区域建议框的准确率和速度。

(2)在目标检测中加入了边缘特征作为图像第四维，提高了检测精度和速度。对于复杂场景如云雾、阴天、下雨等情况依然具有较好的检测结果，方法鲁棒性高。本发明能够用于提供海洋监管工作效率，节约监管成本，同时为海洋管理决策的制定提供科学依据，具有重要的市场价值。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的滑动窗口生成区域建议框结构示意图。

具体实施方式

本发明提出的结合场景特征的基于深度学习网络的船只检测方法。先构建图像样本库，对船只图像进行样本标记，得到足够的样本。然后通过边缘检测和 Hough变换来得到海岸线，同时将边缘检测结果作为图像的第四维，构建深度学习网络对图像进行卷积。再用滑动窗口在海岸线间区域生成区域建议框，因为在环岛影像中船只只会出现在水面上，而其他深度学习方法的区域建议方法都是对于整幅图像进行区域建议。然后用船只位置真值得到建议框的损失函数，对整个网络进行训练，输出训练好的模型。最后用训练好的模型对测试数据进行船只检测。其中主要包括样本库构建、海岸线提取、深度学习网络训练、船只检测四个过程。

为详细说明具体实施方式，参见图1，实施例流程如下：

步骤a，构建船只图像样本库；通过canny算子进行边缘检测，得到图像的边缘检测结果称为波段E，将其作为图像的第四维，让图像从(R，G，B)表示变为(R，G，B，E)表示。

首先准备船只影像，本发明所需采集的数据主要为可见光下的沿海区域监控视频数据。具体实施时，可与预先进行采集构建。对于采集到的视频数据，需要通过解码器或代码获得每帧图像，针对多个视频，得到具有足够多样性的船只图像样本库。再对船只图像样本库中每帧图像通过预选标记，获得船只位置真值和长宽。

然后通过canny算子进行检测，得到船只图像样本库中每帧图像中的边缘，对边缘像素赋值为255(黑色)，对其他像素赋值为0(白色)，将其作为图像的第四维E，让图像从(R，G，B)表示变为(R，G，B，E)表示。包括以下过程：

(1)首先用高斯滤波器平滑图象，高斯平滑函数为：

其中x，y是为图像点的坐标，在图像处理中可以认为是整数，σ是标准差。

(2)通过高斯平滑函数产生一个3×3的模版H，f是原始图像，然后用这个模版对图像进行模糊，得到平滑后图像G：

G(x，y)＝f(x，y)*H(x，y)

(3)再用一阶偏导的有限差分来计算梯度的幅值和方向。一阶微分卷积模版如下：

分别计算垂直方向和水平方向的数值，然后梯度的幅值如下：

梯度的方向如下：

(4)对梯度幅值进行非极大值抑制，仅仅得到全局的梯度并不足以确定边缘，因此为确定边缘，必须保留局部梯度最大的点，而抑制非极大值。在每一点上，邻域的中心象素M与沿着梯度线的两个象素相比。如果M的梯度值不比沿梯度线的两个相邻象素梯度值大，则令M＝0。

(5)用双阈值算法检测和连接边缘。对非极大值抑制图像作用两个阈值th1和th2，两者关系一般为th1＝0.4th2。本专利把梯度值小于th1的像素的灰度值设为0，得到图像a。然后把梯度值小于th2的像素的灰度值设为0，得到图像b。由于图像b的阈值较高，去除大部分噪音，但同时也损失了有用的边缘信息。而图像a的阈值较低，保留了较多的信息，本专利可以以图像b为基础，以图像a为补充来连结图像的边缘。

(6)对图像进行处理。对边缘像素赋值为255(黑色)，对其他像素赋值为0(白色)，将其作为图像的第四维，让图像从(R，G，B)表示变为(R，G，B，E)表示。

步骤b，船只区域获取。对于步骤a得到的边缘E，进行Hough变换，得到海岸线，令海面区域为船只出现范围区域Ship area。

为了减少计算量，本发明提出首先建立一个(λ，θ)极坐标参数空间的二维数组，该数组相当于一个累加器。因为基于点-线的对偶性思想，在图像中，所有过点(x,y)的直线方程为：

y＝k*x+b

其中k为斜率，b为截距。

在参数空间中，该直线可以表示为一个点，用极坐标表示为：

λ＝x cosθ+y sinθ

其中λ为点到极点的距离，θ为点和极点的连线与横轴所夹角度。所以图像空间中各个点可以看作它们在参数空间里面的对应曲线。

然后顺序搜索图像中所有目标(黑色)像素，对于每一个目标像素，在参数空间中根据上式找到对应位置，然后在累加器的对应位置加1。

再求出参数空间(累加器)中最大值，其位置为(λ ⁱ，θ ⁱ)。

最后通过参数空间位置(λ ⁱ，θ ⁱ)，根据上式找到图像空间中相对应的直线参数。因为摄像头在海岸上对海面进行拍摄，所以每次影像中只能显示一条海岸线，所以最长的一条直线就是本专利所求的海岸线，根据海岸线可得海面区域，作为船只出现范围区域Ship area，有利于后续的区域建议框生成。

步骤c，构建类Faster RCNN卷积网络作为深度学习网络，将步骤a得到的处理后图像作为样本数据输入到深度学习网络中，得到卷积后的特征图。

所用类Faster RCNN深度学习网络的网络结构由5个卷积层和3个最大池化层以及2个全连接层组成。

对于普通卷积层，上一层的特征层被一个可学习的卷积核进行卷积，然后通过一个激活函数，就可以得到输出特征层。每一个输出层可能是组合卷积多个输入层的值：

其中M _j表示选择的输入层的集合，i是输入层单元的索引值，j是输出层单元的索引值，

表示输入层与输出层之间的权重，

表示各层之间的激活偏置，f()表示该输出层的激活函数，

表示l层的第j个输出层，

表示l-1层的第i个输入层。

对于池化层来说，有N个输入层，就有N个输出层，只是每个输出层都变小了。

down()表示一个下采样函数。一般是对输入图像的不同n*n区域内所有像素进行求和。这样输出图像在两个维度上都缩小了n倍。每个输出层都对应一个属于自己的乘性偏置

和一个加性偏置

表示l层的第j个输出层，

表示l-1层的第j个输入层。

对于输出的全连接层来说，卷积输入多个特征层，再对这些卷积值求和得到一个输出层，这样的效果往往是比较好的。本专利用αij表示在得到第j个输出特征层中第i个输入层的权值或者贡献。这样，第j个输出层可以表示为：

需要满足约束：

其中,N _in表示输入特征层的个数，

表示输入层与输出层之间的权重，

表示各层之间的激活偏置，

表示l层的第j个输出层，

表示l-1层的第j个输入层。

步骤d，构建RPN网络，基于步骤c所得卷积后的特征图，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框，根据步骤a所得船只长宽，通过K-均值聚类得到选择的区域建议框大小，同步骤c所得深度学习网络结合，根据船只真实位置进行训练，得到训练模型。

滑动窗口生成区域建议框结构如图2所示，其中anchor boxes可以理解为锚点，位于滑动窗口的中心处，sliding window是滑动窗口，conv feature map是步骤c得到的卷积特征图，intermediate layer为全连接层前的中间层，256-d是指建议框生成的256维长度的全联接特征，cls layer为预测类别的全连接层，reg layer为预测位置的全连接层，假定有k个建议框，2k scores是指对应输出的2k个类别分数，4k coorrdinates是指对应输出的4k个位置坐标，ship area为船只出现范围区域，region proposal为区域建议框，original image为原始图像。在步骤c最终得到的卷积特征图上进行滑动，根据步骤a所得船只长宽，通过K-均值聚类得到区域建议框大小，再利用步骤a所得船只真实位置学习损失函数，然后与步骤c训练所得深度学习网络组合，对组合网络进行训练，最后输出训练好的模型。主要采用反向传播算法(BP算法)神经网络模式进行更新。

实施例中，使用固定大小的3*3滑动窗口，在步骤c的深度学习网络的最后一层卷积层上进行滑动。将滑动窗口所处的中心位置对应回原始输入图像，对应的那个像素就认为是anchor的中心位置，判断中心位置是否在步骤b得到的船只区域中，如果不在，则舍弃，接着往下滑动。这是因为本专利是要预测区域建议框，结合海岸线减少不必要的区域建议框，可以利用anchor机制和边框回归来得到不同尺度不同长宽比的Region Proposal，从而解决尺度问题。

这里每个anchor均对应了一种长宽比和一种尺度。本发明实施例统计标记样本的船只长宽比和尺度，用K-均值聚类的方法聚类出频率最高的船只的长宽情况，选择五种，这样一共有5个anchor。最后输出到两个全链接层，能够同时预测出目标的区域建议框的位置和分数。

训练时候的损失函数分为评估区域建议框定位的损失函数以及评估分类的损失函数：

评估区域建议框定位的损失函数如下：

其中

为比较船只位置真值对应的预测平移缩放参数，k表示类别的编号，

是指相对于区域建议框进行尺度一定的平移,

是指对数空间中相对于区域建议框的高与宽。v＝(v _x，v _y，v _w，v _h)为对应的真实平移缩放参数，smooth _L1损失函数为：

评估分类的损失函数，由船只位置真值u对应的概率决定：

L _cls(p，u)＝-logp _u

其中p＝(p ₀，p ₁，p ₂，…p _k)是对每个区域建议框输出k+1维离散型数组。

步骤e，利用步骤d输出模型对测试数据进行检测。在检测前，先对检测影像进行边缘检测，得到图像中所有边缘，并将其作为图像的第四维。然后通过Hough变换得到海岸线，将影像输入深度学习网络中根据训练得到的参数对海岸线间的部分进行船只检测。

本步骤利用输出模型对测试数据进行检测，在检测前也先检测影像中的海岸线，然后再对船只区域进行检测。对作为测试数据的检测影像处理方式与步骤a、b对样本图像的处理方式一致。具体实施时，可以设定一个真值重叠度的thresh阈值，高于阈值则输出为目标船只。

综上所述，先构建图像样本库，对船只图像进行样本标记，得到足够的样本。然后通过边缘检测和Hough变换来得到海岸线，并将检测出的边缘作为图像的第四维，构建深度学习网络对图像进行卷积。再用滑动窗口在船只区域生成区域建议框，区域建议框大小通过K-均值聚类得到，因为在环岛影像中船只只会出现在水面上，而其他深度学习方法的区域建议方法都是对于整幅图像进行区域建议。然后用船只位置真值得到建议框的损失函数，对整个网络进行训练，输出训练好的模型。最后用训练好的模型对测试数据进行船只检测。本发明的方法利用了海岸线特征，减少了生成区域建议框的时间，提高了区域建议框的召回率，以及最终检测结果的精度和效率。

至此，本专利所使用的基于场景多维特征构建深度学习网络模型的船只检测方法具体实施过程介绍完毕。

具体实施时，本发明所提供方法可基于软件技术实现自动运行流程，也可采用模块化方式实现相应系统。本发明实施例提供一种基于场景多维特征构建深度学习网络模型的船只检测系统，包括以下模块：

各模块具体实现可参见相应步骤，本发明不予赘述。

本文中所描述的具体实例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

一种基于场景多维特征的船只检测方法，其特征在于：包括以下步骤，

步骤a，构建船只图像样本库，包括采集可见光下的沿海区域监控视频数据，提取每帧图像，获得船只位置真值和长宽；然后通过canny算子进行边缘检测，得到图像中所有边缘，并作为图像的第四维；

步骤b，船只区域获取，包括对于步骤a得到的边缘，进行Hough变换，得到海岸线，令海面区域为船只出现范围区域Ship area；

步骤c，构建类Faster RCNN卷积网络作为深度学习网络，将步骤a得到的处理后图像作为样本数据输入到深度学习网络中，得到卷积后的特征图；

步骤d，构建RPN网络，基于步骤c所得卷积后的特征图，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框，同步骤c所得深度学习网络结合，根据船只真实位置进行训练，得到训练模型；

步骤e，利用步骤d训练所得模型对测试数据进行检测，包括对检测影像进行边缘检测，得到图像中所有边缘，并将其作为图像的第四维，然后通过Hough变换得到海岸线，基于步骤d训练所得模型对海岸线间的部分进行船只检测。
根据权利要求1所述基于场景多维特征的船只检测方法，其特征在于：步骤b中，首先建立一个(λ，θ)极坐标参数空间的二维数组作为累加器，顺序搜索图像中所有目标像素，对于每一个目标像素在参数空间中找到对应位置，在累加器的对应位置加1；再求出参数空间累加器中最大值，设其位置为(λ ⁱ，θ ⁱ)；最后通过参数空间位置(λ ⁱ，θ ⁱ)，根据上式找到图像空间中相对应的直线参数，确定最长的一条直线为海岸线。
根据权利要求1或2所述基于场景多维特征的船只检测方法，其特征在于：步骤d中，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框后，根据步骤a所得船只长宽，通过K-均值聚类，得到选择的区域建议框大小。
一种基于场景多维特征的船只检测系统，其特征在于：包括以下模块：

第一模块，用于构建船只图像样本库，包括采集可见光下的沿海区域监控视频数据，提取每帧图像，获得船只位置真值和长宽；然后通过canny算子进行边缘检测，得到图像中所有边缘，并作为图像的第四维；

第二模块，用于船只区域获取，包括对于第一模块得到的边缘，进行Hough 变换，得到海岸线，令海面区域为船只出现范围区域Ship area；

第三模块，用于构建类Faster RCNN卷积网络作为深度学习网络，将第一模块得到的处理后图像作为样本数据输入到深度学习网络中，得到卷积后的特征图；

第四模块，用于构建RPN网络，基于第三模块所得卷积后的特征图，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框，同第三模块所得深度学习网络结合，根据船只真实位置进行训练，得到训练模型；

第五模块，用于利用第四模块训练所得模型对测试数据进行检测，包括对检测影像进行边缘检测，得到图像中所有边缘，并将其作为图像的第四维，然后通过Hough变换得到海岸线，基于第四模块训练所得模型对海岸线间的部分进行船只检测。
根据权利要求4所述基于场景多维特征的船只检测系统，其特征在于：第二模块中，首先建立一个(λ，θ)极坐标参数空间的二维数组作为累加器，顺序搜索图像中所有目标像素，对于每一个目标像素在参数空间中找到对应位置，在累加器的对应位置加1；再求出参数空间累加器中最大值，设其位置为(λ ⁱ，θ ⁱ)；最后通过参数空间位置(λ ⁱ，θ ⁱ)，根据上式找到图像空间中相对应的直线参数，确定最长的一条直线为海岸线。
根据权利要求4或5所述基于场景多维特征的船只检测系统，其特征在于：第四模块中，利用滑动窗口在船只出现范围区域Ship area生成不同大小区域建议框后，根据第一模块所得船只长宽，通过K-均值聚类，得到选择的区域建议框大小。