WO2021155679A1

WO2021155679A1 - 一种目标定位方法、装置及系统

Info

Publication number: WO2021155679A1
Application number: PCT/CN2020/124623
Authority: WO
Inventors: 尚鸿; 章子健; 孙钟前
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-02-08
Filing date: 2020-10-29
Publication date: 2021-08-12
Also published as: US20220180520A1; CN111311635A

Abstract

一种目标定位方法、装置及系统，涉及计算机技术领域。该方法包括：从待检测视频流中检测到包含目标病灶的视频帧图像时，确定目标病灶在视频帧图像上的位置信息（200）；根据目标病灶在视频帧图像上的位置信息，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息（210）。

Description

一种目标定位方法、装置及系统

本申请要求于2020年02月08日提交中国专利局，申请号为202010083134X，申请名称为“一种目标定位方法、装置及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种目标定位方法、装置及系统。

背景技术

相关技术中，在内窥镜诊断系统中，对于病灶的检测，采用的是目标检测算法，对内窥镜实时视频流中的每一个视频帧图像进行检测，即在每一个视频帧图像上确定任意数目个、可能存在于任意位置的病灶，给出每个病灶的定位位置。

但是相关技术中这种方法，完全依赖于目标检测方法并需要对每一个视频帧都进行检测，存在速度和鲁棒性问题，其中，在速度上，通常内窥镜视频流的帧率比较大，而目标检测算法为了保证一定的准确率，其耗时通常都会超过这个时间，导致容易漏掉部分帧，或者输出检测结果时病灶已经移位，从而造成定位不准确，在鲁棒性上，由于没有考虑视频流的时序信息，逐帧进行检测，有可能将病灶连续出现的多帧中的某几帧预测为“无病灶”，而每一次的“无病灶”预测会将下一次的“有病灶”帧视为一个新的病灶出现，但其实只是同一个病灶，降低了鲁棒性和可靠性。

发明内容

根据本申请提供的各种实施例，提供一种目标定位方法、装置及系统。

本申请一个实施例提供了一种目标定位方法，包括：

从待检测视频流中检测到包含目标病灶的视频帧图像时，确定所述目标病灶在所述视频帧图像上的位置信息；

根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息。

本申请另一个实施例提供了一种目标定位装置，包括：

检测模块，用于从待检测视频流中检测到包含目标病灶的视频帧图像时，确定所述目标病灶在所述视频帧图像上的位置信息；

跟踪模块，用于根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息。

本申请另一个实施例提供了一种目标定位系统，至少包括：视频采集设备、处理设备和输出设备，具体地：

视频采集设备，用于获取待检测视频流；

处理设备，用于从待检测视频流中检测到包含目标病灶的视频帧图像时，确定所述目标病灶在所述视频帧图像上的位置信息；根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息；

输出设备，用于输出所述目标病灶在所述视频帧上的位置信息，以及在所述待追踪视频帧上的位置信息。

本申请另一个实施例提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述目标定位方法的步骤。

本申请另一个实施例提供了一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述目标定位方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中目标定位方法的应用架构示意图；

图2为本申请实施例中目标定位方法流程图；

图3为本申请实施例中相似网络的网络结构示意图；

图4为本申请实施例中跟踪模型原理框架图；

图5为本申请实施例中跟踪模型训练方法流程图；

图6为本申请实施例中选取模板区域图像和搜索区域图像的示意图；

图7为本申请实施例中一种目标定位系统的结构示意图；

图8为本申请实施例中目标定位装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

视频流：本申请实施例中主要是针对各种医疗诊断时扫描的影像视频流，例如，内窥镜扫描获得的医疗影像视频流，包括内窥镜结直肠视频流等，当然并不进行限制，也可以为其它业务领域的视频流。

病灶：表示机体上发生病变的部分，例如结直肠中出现的息肉。

目标：本申请实施例中若视频流为医疗相关视频流，则目标为目标病灶。

相似网络(siamese network)：一种机器学习的网络结构，即是一种神经网络的框架，而不是具体的某种网络，在具体实现时可以使用卷积神经网络(convolutional neural network，CNN)，用于衡量两个输入的相似程度，本申请实施例中跟踪模型主要就是基于相似网络，通过不同视频帧图像中目标病灶的相似性检测，从而实现跟踪目标病灶，并确定目标病灶在视频帧图像上的位置。

CNN：卷积神经网络是一种深度前馈人工神经网络。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(3 Dimensions，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。例如，本申请实施例中可以将人工智能技术应用到医疗领域，本申请实施例中主要涉及人工智能中的计算机视觉技术，可以通过计算机视觉技术中图像语义理解技术，针对待检测视频流中视频帧图像进行目标病灶检测，检测视频帧图像中是否包含目标病灶，又例如，本申请实施例中还可以根据通过计算机视觉技术中的视频语义理解技术，实现对目标病灶的跟踪。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案主要涉及人工智能的计算机视觉等技术，具体通过如下实施例进行说明：

目前，对于AI辅助内窥镜目标病灶的检测，例如，结直肠息肉检测方法，通常是采用目标检测方法，对内窥镜实时视频流中的每一视频帧图像进行检测，但是这种方法完全依赖于目标检测方法，并对每一视频帧图像进行检测，存在速度和鲁棒性问题，其中，在速度上，AI辅助检测需要实时提供预测结果才有临床价值，通常内窥镜视频流的帧率比较大，例如目前内窥镜视频流的帧率通常为25画面每秒传输帧数(Frame Per Second，fps)，每帧间隔为40毫秒(ms)，而目标检测方法为了保证一定的准确率，其耗时都超过这个时间，导致漏掉了部分帧，以及给出预测时病灶已经移位，从而造成定位不准或者产品体验上的拖拽效应；对于鲁棒性，没有考虑视频流的时序信息，例如，内窥镜视频流中的病灶不可能瞬间出现或者消失，而是连续的从画面边缘出现、拉近、拉远、最后消失，而逐帧检测方式，有可能将病灶连续出现的多帧中的某几帧预测为“无病灶”，而每一次的“无病灶”预测会将下一次的“有病灶”帧视为一个新的病灶出现，发出一个新的报警，但其实只是同一个病灶，降低了鲁棒性和可靠性，造成同一个病灶多次报警，容易干扰医生的临床操作。

因此针对上述问题，本申请实施例中提供了一种目标定位方法，从待检测视频流中检测到包含目标病灶的视频帧图像时，确定目标病灶在视频帧图像上的位置信息，进而可以触发跟踪流程，根据目标病灶在该检测到包含目标病灶的视频帧图像上的位置信息，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息，这样，检测目标病灶后，就触发跟踪流程，对目标病灶进行定位跟踪，由于相比于检测，跟踪的难度更低，这是因为其目标病灶是一个确定物体，在给定位置附近并具有已知形状，进而后续跟踪时所获知的已知信息更明确、更丰富，因此相比于检测，跟踪的速度更快，可以保证实时性，并且对待检测视频流中的目标病灶进行跟踪，结合了待检测视频流的时序信息，可以在目标病灶出现的连续多个视频帧图像上预测为同一个目标病灶，减少误判，提高了鲁棒性和可靠性。

参阅图1所示，为本申请实施例中目标定位方法的应用架构示意图，包括服务器100、终端设备200。

终端设备200可以是医疗设备，例如，用户可以通过终端设备200采集内窥镜影像视频流，并且还可以基于终端设备200查看待检测视频流中目标病灶的跟踪结果，包括在待检测视频流的视频帧图像上出现的位置信息等。

终端设备200与服务器100之间可以通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器100可以为终端设备200提供各种网络服务，其中，服务器100可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

具体地，服务器100可以包括处理器110(Center Processing Unit，CPU)、存储器120、输入设备130和输出设备140等，输入设备130可以包括键盘、鼠标、触摸屏等，输出设备140可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

需要说明的是，本申请实施例中，目标定位方法主要由服务器100侧执行，并且本申请实施例中的跟踪模型的训练过程也是由服务器100执行，例如，终端设备200将采集到的待检测视频流发送给服务器100，服务器100对待检测视频流中各视频帧图像进行目标病灶检测，例如采用已训练的检测模型进行检测，检测到包含目标病灶的视频帧图像时，触发跟踪模型对目标病灶进行跟踪，确定目标病灶在待追踪视频帧图像上的位置信息，直到目标病灶消失，并且服务器100可以将目标病灶检测和跟踪结果，即目标病灶在各视频帧图像中出现的位置信息发送给终端设备200，例如可以在每检测或跟踪到目标病灶时就发送位置信息给终端设备200，以使用户可以在终端设备200上看到实时的目标病灶在各视频帧图像出现的位置信息，如图1所示的应用架构，是以应用于服务器100侧为例进行说明的。

当然，本申请实施例中目标定位方法也可以由终端设备200执行，例如终端设备200可以从服务器100侧获得已训练的检测模型和跟踪模型，可以基于检测模型对目标病灶进行检测，检测到包含目标病灶的视频帧图像时，就触发跟踪模型对目标病灶进行跟踪定位，对此本申请实施例中并不进行限制。

其中，例如待检测视频流为内窥镜结直肠视频流，则目标病灶例如为息肉。

本申请实施例中的应用架构图是为了更加清楚地说明本申请实施例中的技术方案，并不构成对本申请实施例提供的技术方案的限制，当然，也并不仅限于医疗业务应用，对于其它的应用架构和业务应用，本申请实施例提供的技术方案对于类似的问题，同样适用。

本申请各个实施例以应用于图1所示的应用架构图为例进行示意性说明。

基于上述实施例，参阅图2所示，为本申请实施例中目标定位方法流程图，该方法包括：

步骤200：从待检测视频流中检测到包含目标病灶的视频帧图像时，确定目标病灶在视频帧图像上的位置信息。

本申请实施例中主要在于检测到包含目标病灶的视频帧图像时，即可以触发跟踪流程，对目标病灶进行跟踪定位，而具体地对目标病灶的检测方法。

例如执行步骤200时，本申请实施例中提供了一种可能的实施方式，根据目标病灶的图像特征信息和预设检测方法，分别对待检测视频流的各视频帧图像进行目标病灶检测，确定是否检测到包含目标病灶的视频帧图像，若确定检测到包含目标病灶的视频帧图像，确定目标病灶在视频帧图像上的位置信息。

又例如检测方法为检测模型，根据目标病灶的图像样本集预先训练获得检测模型，进而还可以采用检测模型，对待检测视频流中的各视频帧图像进行检测，以确定是否检测到目标病灶。

其中，检测出的位置信息并不仅是一个点的坐标，通常目标病灶在视频帧图像出现不是一个点，而是一个区域，因此，该位置信息表示目标病灶在视频帧图像上的目标区域范围坐标，例如，为一个定位框的位置坐标。

需要说明是，本申请实施例中对目标病灶的检测，并不需要针对每一个视频帧图像都进行检测，通常待检测视频流具有一定帧率，检测方法在针对一个视频帧图像进行检测时，也会有一定耗时，两者通常是不同的，例如通常内窥镜视频流的帧率会更小，因此本申请实施例中可以允许检测方法按照其检测耗时间隔，对待检测视频进行目标病灶检测，检测到后就可以基于跟踪流程对待跟踪视频帧图像的每一帧进行跟踪，直至目标病灶消失，即直至确定未跟踪到目标病灶，可以降低漏帧情况。

步骤210：根据目标病灶在视频帧图像上的位置信息，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息。

执行步骤210时，具体包括：

S1、将目标病灶在视频帧图像上的位置信息对应的区域图像，作为模板区域图像，依次从待检测视频流中待追踪视频帧图像上选取以目标病灶对应的位置信息为中心的预设范围区域图像，作为搜索区域图像。

本申请实施例中，在跟踪时获知到了目标病灶出现的第一个视频帧图像上的位置信息，那么可以将该位置信息作为输入，对目标病灶进行跟踪。

其中，待检测视频流中待追踪视频帧图像，较佳的为从检测到包含目标病灶的视频帧图像的下一个视频帧图像开始的各连续视频帧图像，直到确定跟踪消失的视频帧图像，但是本申请实施例中并不进行限制。

进而在跟踪时，为提高效率和速度，从待追踪视频帧图像上选取目标病灶附近的图像，即以目标病灶出现的上一个视频帧的位置信息为中心，选取预设范围区域图像作为搜索区域图像，为定位更加准确，可以选取一个较大的区域图像，作为搜索区域图像。

S2、确定搜索区域图像和模板区域图像的第一相似值。

其中，确定搜索区域图像和模板区域图像的第一相似值，具体包括：

S2.1、基于卷积神经网络，分别将搜索区域图像和模板区域图像映射到设定维度特征空间，获得搜索区域图像和模板区域图像相应的特征向量。

S2.2、将搜索区域图像和模板区域图像相应的特征向量进行二维卷积操作，分别确定搜索区域图像中每个图像块与模板区域图像的第二相似值，其中，每个图像块是采用滑动窗口在搜索区域图像上以预设步长进行滑动获得的。

其中，滑动窗口的大小与模板区域图像相同。例如，模板区域图像的大小为6*6*128，搜索区域图像的大小为22*22*128，预设步长为1，这样，通过二维卷积操作，将搜索区域图像划分为多个图像块时，采用6*6*128的滑动窗口以1步长滑动，可以将22*22*128的搜索区域图像划分为17*17*1个图像块。

S2.3、将各第二相似值按照对应图像块在搜索区域图像上的位置排列构成的二维矩阵，作为搜索区域图像和模板区域图像的第一相似值。

也就是说，本申请实施例中计算每个图像块与模板区域图像的第二相似值，获得多个第二相似值，可知模板区域图像和搜索区域图像的第一相似值并不是一个数，而是一个二维矩阵，例如为(17*17)的二维矩阵，其中二维矩阵中每个值代表与搜索区域图像中的对应图像块的第二相似值。

S3、若确定第一相似值满足相似条件，则确定跟踪到目标病灶，并确定目标病灶在搜索区域图像上的位置信息。

具体地：若确定第一相似值的二维矩阵中存在一个第二相似值不小于预设阈值，则确定跟踪到目标病灶；将各第二相似值中最大的第二相似值对应的图像块的位置信息，确定为目标病灶在搜索区域图像上的位置信息。

例如，第一相似值为2*2大小的二维矩阵，取值为(0.3，0.4；0.5，0,8)，预设阈值为0.6，则判断确定存在0.8大于0.6，则确定跟踪到目标病灶，并0.8是最大值，因此0.8对应图像块的位置信息即为目标病灶在该待追踪视频帧上的位置信息。

进一步地，若确定第一相似值不满足相似条件，则确定没有跟踪到目标病灶，结束跟踪。

即确定第一相似值的二维矩阵中不存在一个第二相似值不小于预设阈值，则确定没有跟踪到目标病灶，可以结束跟踪。

例如，从待检测视频流中检测到包含目标病灶的视频帧图像为第6帧，即触发跟踪流程，从第7视频帧图像开始进行跟踪，若确定第7视频帧图像到18视频帧图像均确定跟踪到目标病灶，到第19视频帧图像计算获得的第一相似值不满足相似条件，则确定没有跟踪到目标病灶，即可以结束跟踪，即本次触发的跟踪流程结束，这样，通过检测和跟踪结合，可以检测到在第6到第19视频帧图像中均包含有目标病灶，并可以确定目标病灶的位置信息，减少漏帧的情况，提高鲁棒性。

进一步地，本申请实施例中在检测到目标病灶时还可以进行告警，具体提供了一种可能的实施方式，从待检测视频流中检测到包含目标病灶的视频帧图像时，还包括：按照预设方式，进行告警，以提示出现了目标病灶。

例如，通过语音、文本方式、不同声音如“滴”一声等方式进行告警。

这样，本申请实施例中，检测到目标病灶后，就采用跟踪方法对目标病灶进行跟踪，跟踪难度更低，并且跟踪会利用视频流的时序信息，即物体在前后两帧间的位移是有限的，因此可以在目标病灶出现的连续多帧上输出一致的预测，降低假阴性，提高了鲁棒性和可靠性，从而减少同一个目标病灶的多次报警，降低对医生临床操作的干扰。

进一步地，上述执行步骤210的方法可以采用跟踪模型来实现，本申请实施例中提供了一种可能的实施方式，具体地，根据目标病灶在视频帧图像上的位置信息，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息，包括：触发已训练的跟踪模型，基于跟踪模型，以目标病灶在视频帧图像上的位置信息为输入参数，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息。

其中，跟踪模型是根据训练图像样本对集合训练获得的，训练图像样本对集合中包括多个有相似值标签的训练图像样本对，训练图像样本对是根据从出现目标病灶的视频流样本中随机抽取的两个视频帧图像构建的。

需要说明的是，基于跟踪模型跟踪目标病灶的具体实现方式和上述实施例中执行步骤210的具体实现方式是相同的，只是需要预先通过机器学习训练获得跟踪模型，上述步骤210的具体实现方式通过跟踪模型实现。

具体地，本申请实施例中，跟踪模型采用基于相似网络的算法，为便于理解，下面先对相似网络的网络结构进行简单说明，参阅图3所示，为本申请实施例中相似网络的网络结构示意图。如图3所示，相似网络输入为一个数据对x ₁和x ₂，例如搜索区域图像和模板区域图像，分别经过同一个网络，例如为CNN 网络，输出卷积特征G _w(X ₁)和G _w(X ₂)，通过衡量两个卷积特征之间的某种距离‖G _w(X ₁)-G _w(X ₂)‖，判断这两个图像是否相似。

这样，基于相似网络即可以通过比较两个输入即搜索区域图像和模板区域图像之间的相似性，确定是否跟踪到目标病灶并确定目标病灶的位置信息，例如，参阅图4所示，为本申请实施例中跟踪模型原理框架图，如图4所示，检测到的包含目标病灶的视频帧图像时，将目标病灶在该视频帧图像上的位置信息对应的区域图像，作为模板区域图像，记为z，例如，以目标病灶在该视频帧图像上的位置信息为中心，从待追踪视频帧图像上选取搜索区域图像，记为x，其中x和z的尺寸不需要相同，为定位更加准确，z尺寸较小，x尺寸较大，例如，z大小为127*127*3，x大小为255*255*3，因此输出的相似值不是一个数而是一个二维矩阵。

表示一种特征映射操作，为提高计算效率，将x和z通过

实现将原始图像映射到特定的设定维度特征空间，可以采用CNN中的卷积层和池化层实现，如图4中，6*6*128代表z经过

后得到的特征，是一个128通道6*6大小特征，同理，22*22*128是x经过

后的特征，图4中“*”代表卷积操作，将22*22*128的特征被6*6*128的卷积核卷积，得到一个17*17的二维矩阵，每个值代表着搜索区域图像中各个图像块与模板区域图像的相似值，其中，这里的CNN网络可以选取全卷积的AlexNet，计算相似值采用互相关(cross correlation)，由CNN中的二维卷积操作实现，进而若存在一个值大于预设阈值，则确定跟踪到目标病灶，并将最大的值对应的图像块的位置信息确定为目标病灶在当前视频帧图像上的位置信息。

则本申请实施例中，基于跟踪模型，以目标病灶在视频帧图像上的位置信息为输入参数，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息，具体包括：

1)以目标病灶在视频帧图像上的位置信息为输入参数，分别通过两个相同的神经网络对模板区域图像和搜索区域图像映射到设定维度特征空间，获得搜索区域图像和模板区域图像相应的特征向量。

其中，跟踪模型的网络结构至少包括两个相同的神经网络，神经网络至少包括卷积层和池化层，模板区域图像为目标病灶在视频帧图像上的位置信息对应的区域图像，搜索区域图像为从待追踪视频帧图像上选取的，以目标病灶对应的位置信息为中心的预设范围区域图像。

其中，神经网络可以采用CNN网络。

2)将搜索区域图像和模板区域图像相应的特征向量通过卷积层进行二维卷积操作，获得搜索区域图像和模板区域图像的第一相似值。

3)若确定第一相似值满足相似条件，则确定跟踪到目标病灶，并确定目标病灶在搜索区域图像上的位置信息。

进一步地，需要说明的是，若基于检测模型检测到某视频帧图像包含多个目标病灶，则可以触发跟踪模型并行处理，分别跟踪这多个目标病灶，分别确定该多个目标病灶在待追踪视频帧图像上的位置信息。并且在基于跟踪模型跟踪目标病灶的过程中，检测模型也会基于其自身检测间隔进行检测，若跟踪还未结束时，检测模型检测到了新的目标病灶，则也会再次触发跟踪模型，对该新的目标病灶进行跟踪，跟之前正在跟踪的过程互不影响，可以并行处理。

本申请实施例中，从待检测视频流中检测到包含目标病灶的视频帧图像时，确定目标病灶在视频帧图像上的位置信息，触发跟踪流程，进而根据目标病灶在视频帧图像上的位置信息，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息，这样，引入跟踪模型，通过检测和跟踪，实现对目标病灶的定位，当检测到目标病灶出现的第一视频帧图像，即触发跟踪模型，基于跟踪模型对目标病灶进行实时跟踪定位直至目标病灶从视野中消息，跟踪结束，相比于检测，跟踪的难度更低，因此速度更快，例如通过实验，本申请实施例中引入跟踪模型后，目标定位方法的运行速度在60-70fps，远高于检测模型的5-12fps，并且也高于视频流的实时帧率25fps，保证了产品的实时性，同时基于跟踪，还利用了视频流的时序信息，提高了鲁棒性和可靠性，减少同一个病灶的多次告警，减少误告警。

基于上述实施例，下面对本申请实施例中跟踪模型的训练过程进行简单说明。参阅图5所示，为本申请实施例中跟踪模型训练方法流程图，该方法包括：

步骤500：获取训练图像样本对集合。

具体地，执行步骤500时包括：

S1、获取出现目标病灶的视频流样本集，其中，视频流样本集中包括多个出现目标病灶的视频流样本。

例如，针对结直肠的息肉检测场景，可以通过收集一系列内窥镜结直肠视频，并截取其中出现息肉的视频片段，来确定视频流样本集。

S2、分别针对视频流样本包含的各视频帧图像，以目标病灶为中心，从各视频帧图像中选取第一预设范围的模板区域图像和第二预设范围的搜索区域图像，其中，第二预设范围大于第一预设范围。

例如，参阅图6所示，为本申请实施例中选取模板区域图像和搜索区域图像的示意图，本申请实施例中可以针对视频流样本中每一帧，以息肉为中心(即图6中小方框圈定的部位)，分别选取模板区域图像z和搜索区域图像x，并且搜索区域图像大于模板区域图像。

S3、从视频流样本包含的各视频帧图像中随机抽取两个视频帧图像，选取抽取的两个视频帧图像中一个视频帧图像的模板区域图像和另一个视频帧图像的搜索区域图像。

S4、将选取的模板区域图像和搜索区域图像作为一个训练图像样本对，并生成训练图像样本对的相似值标签，其中，相似值标签为二维矩阵。

例如，从视频流样本中随机抽取同一息肉的不同两帧，例如a帧和b帧，随机选取一帧例如a视频帧图像上选取的模板区域图像，并选取另一帧b视频帧图像上选取的搜索区域图像，组成一个数据对，并且生成这个数据对的真实的相似值标签，搜索区域图像和模板区域图像的大小不同，因此相似值标签为二维矩阵，中心处病灶重合的地方为1，其它地方为背景值取值为0。

这样，通过上述方式重复，可以获得足够的带有相似值标签的数据对，即多个训练图像样本对，每个训练图像样本对即为一个搜索区域图像和一个模板区域图像。

步骤510：分别将各训练图像样对输入到跟踪模型进行训练，直至跟踪模型的损失函数收敛，获得训练完成的跟踪模型，其中，损失函数为确定出的各训练图像样本对的相似值与相似值标签的交叉熵的总和。

具体地，本申请实施例中根据训练图像样本对集合进行相似网络的训练，每个训练图像样本对通过相似网络输出表示相似值的二维矩阵，例如模板区域图像大小为127*127*3，搜索区域图像大小为255*255*3，输出相似值即17*17二维矩阵，再通过逐元素的sigmoid函数转换到0-1范围内，进而与真实的相似值标签一起计算二值化的交叉熵函数，每个训练图像样本对所对应的交叉熵相加的总和作为总的损失函数，通过不断迭代训练，例如，采用随机梯度下降的方法进行迭代训练，直至损失函数收敛并最小化，即获得训练完成的跟踪模型。

另外，本申请实施例中为了构造有效的损失函数，对搜索区域图像对应的位置点进行了正负样本的区分，即一定目标范围内的点作为正样本，这个范围外的点作为负样本，例如最终生成的二维矩阵中，一部分为正样本，一部分为负样本，从而在计算一个训练图像样本对的损失函数时，由于负样本个数远大于正样本，因此可以将正样本和负样本的损失项分别平均再相加，这样可以避免正样本的贡献被负样本淹没，进一步提高准确性。

这样，本申请实施例中，针对目标病灶的应用场景，获取相应的出现目标病灶的视频流样本，进而从中获取训练图像样本对集合，基于训练图像样本对集合进行训练，获得跟踪模型，可以基于跟踪模型实现对目标病灶的跟踪定位，适用于目标病灶的检测场景，可以提高速度和可靠性。

应该理解的是，本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于上述实施例，参阅图7所示，为本申请实施例中一种目标定位系统的结构示意图。

该目标定位系统至少包括视频采集设备70、处理设备71和输出设备72，本申请实施例中，视频采集设备70、处理设备71和输出设备72为相关的医疗器械，可以集成在同一医疗器械中，也可以分为多个设备，相互连接通信，组成一个医疗系统来使用等，例如针对结直肠的息肉诊断，视频采集设备70可以为内窥镜，处理设备71和输出设备72可以为与内窥镜相通信的计算机设备等。

具体地，视频采集设备70，用于获取待检测视频流。

处理设备71，用于从待检测视频流中检测到包含目标病灶的视频帧图像时，确定目标病灶在视频帧图像上的位置信息；根据目标病灶在视频帧图像上的位置信息，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息。

输出设备72，用于输出目标病灶在视频帧上的位置信息，以及在待追踪视频帧上的位置信息。

本申请实施例中，对目标病灶进行检测定位，可以在检测到目标病灶时，触发跟踪流程，对目标病灶进行跟踪，确定目标病灶定位的位置信息，进而可以展示确定出的目标病灶的位置信息，以供用户查看，这样，通过检测和跟踪结合，相较于完全依赖检测，提高了速度和实现性，并利用了视频流的时序信息，提高了鲁棒性。

基于同一发明构思，本申请实施例中还提供了一种目标定位装置，该目标定位装置例如可以是前述实施例中的服务器，该目标定位装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图8所示，本申请实施例中目标定位装置，具体包括：

检测模块80，用于从待检测视频流中检测到包含目标病灶的视频帧图像时，确定目标病灶在视频帧图像上的位置信息；

跟踪模块81，用于根据目标病灶在视频帧图像上的位置信息，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息。

可选的，根据目标病灶在视频帧图像上的位置信息，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息时，跟踪模块81具体用于：

将目标病灶在视频帧图像上的位置信息对应的区域图像，作为模板区域图像；

依次从待检测视频流中待追踪视频帧图像上选取以所述位置信息为中心的预设范围区域图像，作为搜索区域图像；

确定搜索区域图像和模板区域图像的第一相似值；

若确定第一相似值满足相似条件，则确定跟踪到目标病灶，并确定目标病灶在搜索区域图像上的位置信息。

可选的，确定搜索区域图像和模板区域图像的第一相似值时，跟踪模块81具体用于：

基于卷积神经网络，分别将搜索区域图像和模板区域图像映射到设定维度特征空间，获得搜索区域图像和模板区域图像相应的特征向量；

将搜索区域图像和模板区域图像相应的特征向量进行二维卷积操作，分别确定搜索区域图像中每个图像块与模板区域图像的第二相似值，其中，每个图像块是采用滑动窗口在搜索区域图像上以预设步长进行滑动获得的；滑动窗口的大小与模板区域图像相同；

将各第二相似值按照对应图像块在搜索区域图像上的位置排列构成的二维矩阵，作为搜索区域图像和模板区域图像的第一相似值。

可选的，若确定第一相似值满足相似条件，则确定跟踪到目标病灶，并确定目标病灶在搜索区域图像上的位置信息时，跟踪模块81具体用于：

若确定第一相似值的二维矩阵中存在一个第二相似值不小于预设阈值，则确定跟踪到目标病灶；

将各第二相似值中最大的第二相似值对应的图像块的位置信息，确定为目标病灶在搜索区域图像上的位置信息。

可选的，从待检测视频流中检测到包含目标病灶的视频帧图像时，进一步包括：

告警模块82，用于按照预设方式，进行告警，以提示出现了目标病灶。

触发已训练的跟踪模型，基于跟踪模型，以目标病灶在视频帧图像上的位置信息为输入参数，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息，其中，跟踪模型是根据训练图像样本对集合训练获得的，训练图像样本对集合中包括多个有相似值标签的训练图像样本对，训练图像样本对是根据从出现目标病灶的视频流样本中随机抽取的两个视频帧图像构建的。

可选的，基于跟踪模型，以目标病灶在视频帧图像上的位置信息为输入参数，对目标病灶进行跟踪，确定目标病灶在待检测视频流中待追踪视频帧图像上的位置信息时，跟踪模块81具体用于：

以目标病灶在视频帧图像上的位置信息为输入参数，分别通过两个相同的神经网络对模板区域图像和搜索区域图像映射到设定维度特征空间，获得搜索区域图像和模板区域图像相应的特征向量，其中，跟踪模型的网络结构至少包括两个相同的神经网络，神经网络至少包括卷积层和池化层，模板区域图像为目标病灶在视频帧图像上的位置信息对应的区域图像，搜索区域图像为从待追踪视频帧图像上选取的，以目标病灶的位置信息为中心的预设范围区域图像；

将搜索区域图像和模板区域图像相应的特征向量通过卷积层进行二维卷积操作，获得搜索区域图像和模板区域图像的第一相似值；

可选的，进一步包括，训练模块83，用于：

获取训练图像样本对集合；

分别将各训练图像样对输入到跟踪模型进行训练，直至跟踪模型的损失函数收敛，获得训练完成的跟踪模型，其中，损失函数为确定出的各训练图像样本对的相似值与相似值标签的交叉熵的总和。

可选的，获取训练图像样本对集合时，训练模块83具体用于：

获取出现目标病灶的视频流样本集，其中，视频流样本集中包括多个出现目标病灶的视频流样本；

分别针对视频流样本包含的各视频帧图像，以目标病灶为中心，从各视频帧图像中选取第一预设范围的模板区域图像和第二预设范围的搜索区域图像，其中，第二预设范围大于第一预设范围；

从视频流样本包含的各视频帧图像中随机抽取两个视频帧图像，选取抽取的两个视频帧图像中一个视频帧图像的模板区域图像和另一个视频帧图像的搜索区域图像；

将选取的模板区域图像和搜索区域图像作为一个训练图像样本对，并生成训练图像样本对的相似值标签，其中，相似值标签为二维矩阵。

基于上述实施例，本申请实施例中还提供了另一示例性实施方式的电子设备，在一些可能的实施方式中，本申请实施例中电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其中，处理器执行计算机可读指令时可以实现上述实施例中目标定位方法的步骤。

例如，以电子设备为本申请图1中的服务器100为例进行说明，则该电子设备中的处理器即为服务器100中的处理器110，该电子设备中的存储器即为服务器100中的存储器120。

基于上述实施例，本申请实施例中，提供了一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任意方法实施例中的目标定位方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机可读指令产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机可读指令产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机可读指令产品的流程图和/或方框图来描述的。应理解可由计算机可读指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可读指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机可读指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机可读指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种目标定位方法，包括：

从待检测视频流中检测到包含目标病灶的视频帧图像时，确定所述目标病灶在所述视频帧图像上的位置信息；及

根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息。
如权利要求1所述的方法，其中根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息，具体包括：

将所述目标病灶在所述视频帧图像上的位置信息对应的区域图像，作为模板区域图像；

依次从所述待检测视频流中待追踪视频帧图像上选取以所述位置信息为中心的预设范围区域图像，作为搜索区域图像；

确定所述搜索区域图像和所述模板区域图像的第一相似值；及

若确定所述第一相似值满足相似条件，则确定跟踪到所述目标病灶，并确定所述目标病灶在所述搜索区域图像上的位置信息。
如权利要求2所述的方法，其中确定所述搜索区域图像和所述模板区域图像的第一相似值，具体包括：

基于卷积神经网络，分别将所述搜索区域图像和所述模板区域图像映射到设定维度特征空间，获得所述搜索区域图像和所述模板区域图像相应的特征向量；

将所述搜索区域图像和所述模板区域图像相应的特征向量进行二维卷积操作，分别确定所述搜索区域图像中每个图像块与所述模板区域图像的第二相似值，其中，所述每个图像块是采用滑动窗口在所述搜索区域图像上以预设步长进行滑动获得的；所述滑动窗口的大小与所述模板区域图像相同；及

将所述各第二相似值按照对应图像块在所述搜索区域图像上的位置排列构成的二维矩阵，作为所述搜索区域图像和所述模板区域图像的第一相似值。
如权利要求3所述的方法，其中若确定所述第一相似值满足相似条件，则确定跟踪到所述目标病灶，并确定所述目标病灶在所述搜索区域图像上的位置信息，具体包括：

若确定所述第一相似值的二维矩阵中存在一个第二相似值不小于预设阈值，则确定跟踪到所述目标病灶；及

将各第二相似值中最大的第二相似值对应的图像块的位置信息，确定为所述目标病灶在所述搜索区域图像上的位置信息。
如权利要求1所述的方法，其中从待检测视频流中检测到包含目标病灶的视频帧图像时，进一步包括：

按照预设方式，进行告警，以提示出现了所述目标病灶。
如权利要求1-5任一项所述的方法，其中根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息，具体包括：

触发已训练的跟踪模型，基于所述跟踪模型，以所述目标病灶在所述视频帧图像上的位置信息为输入参数，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息，其中，所述跟踪模型是根据训练图像样本对集合训练获得的，所述训练图像样本对集合中包括多个有相似值标签的训练图像样本对，所述训练图像样本对是根据从出现目标病灶的视频流样本中随机抽取的两个视频帧图像构建的。
如权利要求6所述的方法，其中基于所述跟踪模型，以所述目标病灶在所述视频帧图像上的位置信息为输入参数，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息，具体包括：

以所述目标病灶在所述视频帧图像上的位置信息为输入参数，分别通过两个相同的神经网络对模板区域图像和搜索区域图像映射到设定维度特征空间，获得所述搜索区域图像和所述模板区域图像相应的特征向量，其中，所述跟踪模型的网络结构至少包括两个相同的神经网络，所述神经网络至少包括卷积层和池化层，所述模板区域图像为所述目标病灶在所述视频帧图像上的位置信息对应的区域图像，所述搜索区域图像为从待追踪视频帧图像上选取的，以所述位置信息为中心的预设范围区域图像；

将所述搜索区域图像和所述模板区域图像相应的特征向量通过卷积层进行二维卷积操作，获得所述搜索区域图像和所述模板区域图像的第一相似值；及

若确定所述第一相似值满足相似条件，则确定跟踪到所述目标病灶，并确定所述目标病灶在所述搜索区域图像上的位置信息。
如权利要求6所述的方法，其中进一步包括：

获取训练图像样本对集合；及

分别将各训练图像样对输入到跟踪模型进行训练，直至所述跟踪模型的损失函数收敛，获得训练完成的跟踪模型，其中，所述损失函数为确定出的各训练图像样本对的相似值与相似值标签的交叉熵的总和。
如权利要求8所述的方法，其中获取训练图像样本对集合，具体包括：

获取出现目标病灶的视频流样本集，其中，所述视频流样本集中包括多个出现目标病灶的视频流样本；

分别针对所述视频流样本包含的各视频帧图像，以所述目标病灶为中心，从各视频帧图像中选取第一预设范围的模板区域图像和第二预设范围的搜索区域图像，其中，所述第二预设范围大于所述第一预设范围；

从所述视频流样本包含的各视频帧图像中随机抽取两个视频帧图像，选取抽取的两个视频帧图像中一个视频帧图像的模板区域图像和另一个视频帧图像的搜索区域图像；及

将选取的模板区域图像和搜索区域图像作为一个训练图像样本对，并生成所述训练图像样本对的相似值标签，其中，所述相似值标签为二维矩阵。
一种目标定位装置，包括：

检测模块，用于从待检测视频流中检测到包含目标病灶的视频帧图像时，确定所述目标病灶在所述视频帧图像上的位置信息；及

跟踪模块，用于根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息。
如权利要求10所述的装置，其中根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息时，跟踪模块具体用于：

将所述目标病灶在所述视频帧图像上的位置信息对应的区域图像，作为模板区域图像；

依次从所述待检测视频流中待追踪视频帧图像上选取以所述位置信息为中心的预设范围区域图像，作为搜索区域图像；

确定所述搜索区域图像和所述模板区域图像的第一相似值；及

若确定所述第一相似值满足相似条件，则确定跟踪到所述目标病灶，并确定所述目标病灶在所述搜索区域图像上的位置信息。
如权利要求11所述的装置，其中确定所述搜索区域图像和所述模板区域图像的第一相似值时，跟踪模块具体用于：

基于卷积神经网络，分别将所述搜索区域图像和所述模板区域图像映射到设定维度特征空间，获得所述搜索区域图像和所述模板区域图像相应的特征向量；

将所述搜索区域图像和所述模板区域图像相应的特征向量进行二维卷积操作，分别确定所述搜索区域图像中每个图像块与所述模板区域图像的第二相似值，其中，所述每个图像块是采用滑动窗口在所述搜索区域图像上以预设步长进行滑动获得的；所述滑动窗口的大小与所述模板区域图像相同；及

将所述各第二相似值按照对应图像块在所述搜索区域图像上的位置排列构成的二维矩阵，作为所述搜索区域图像和所述模板区域图像的第一相似值。
一种目标定位系统，至少包括：视频采集设备、处理设备和输出设备，具体地：

视频采集设备，用于获取待检测视频流；

处理设备，用于从待检测视频流中检测到包含目标病灶的视频帧图像时，确定所述目标病灶在所述视频帧图像上的位置信息；根据所述目标病灶在所述视频帧图像上的位置信息，对所述目标病灶进行跟踪，确定所述目标病灶在所述待检测视频流中待追踪视频帧图像上的位置信息；及

输出设备，用于输出所述目标病灶在所述视频帧上的位置信息，以及在所述待追踪视频帧上的位置信息。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述程序时实现权利要求1-9任一项所述方法的步骤。
一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述处理器执行权利要求1-9任一项所述方法的步骤。