WO2021017882A1

WO2021017882A1 - 图像坐标系的转换方法、装置、设备及存储介质

Info

Publication number: WO2021017882A1
Application number: PCT/CN2020/102493
Authority: WO
Inventors: 黄湘琦
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-07-31
Filing date: 2020-07-16
Publication date: 2021-02-04
Also published as: US11928800B2; US20210342990A1; CN110458895B; JP2022542204A; JP7266106B2; CN110458895A

Abstract

本申请实施例公开了一种图像坐标系的转换方法、装置、设备及存储介质，属于计算机视觉技术领域。所述方法包括：获取相邻摄像头采集的视频图像；从相邻摄像头采集的视频图像中，识别出目标对象位于地平面上的N组关键点；根据上述N组关键点，计算相邻摄像头的图像坐标系之间的转换关系。本申请实施例提供的技术方案，通过从相邻摄像头拍摄的视频图像中提取的N组关键点，对相邻摄像头对应的图像坐标系之间的转换关系进行建模，解决了相关技术需要人工放置标定棋盘格，比较耗时耗力的问题，有助于提高针对摄像头拍摄图像的处理效率，且适用于大规模的视频监控场景。

Description

图像坐标系的转换方法、装置、设备及存储介质

本申请要求于2019年07月31日提交的申请号为201910704514.8、发明名称为“图像坐标系的转换方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉技术领域，特别涉及一种图像坐标系的转换方法、装置、设备及存储介质。

背景技术

大范围的视频监控场景中通常会布设多个摄像头，通过对摄像头拍摄图像的分析处理，可以得到不同摄像头的图像坐标系之间的转换关系。

目前，相关技术对于不同摄像头的图像坐标系之间的转换，通常采用张正友标定法。在相关技术中，先是在固定平面上放置用于标定的棋盘格，然后检测多组棋盘格特征点并计算得出一个变换模型，以此得到棋盘格坐标系与摄像头坐标系之间的转换关系，最终将不同摄像头的图像坐标系转换为同一个棋盘格坐标系。

相关技术中对于不同摄像头的图像坐标系之间的转换，需要人工放置用于标定的棋盘格，当涉及多个摄像头拍摄图像的处理时，比较耗时耗力，不适用于大规模的视频监控场景。

发明内容

本申请实施例提供了一种图像坐标系的转换方法、装置、设备及存储介质，有助于提高针对摄像头拍摄图像的处理效率，且适用于大规模的视频监控场景。所述技术方案如下：

一方面，本申请实施例提供了一种图像坐标系的转换方法，应用于计算机设备，所述方法包括：

获取相邻摄像头采集的视频图像，所述相邻摄像头包括在地平面上有拍摄重叠区域的第一摄像头和第二摄像头；

从所述相邻摄像头采集的视频图像中，识别出目标对象位于所述地平面上的N组关键点；其中，每组关键点包括从所述第一摄像头的视频图像中提取的第一关键点，以及从所述第二摄像头的视频图像中提取的第二关键点，且所述第一关键点和所述第二关键点是同一时刻在所述相邻摄像头中出现的同一目标对象的同一特征点，所述N为大于等于3的整数；

根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的转换关系。

另一方面，本申请实施例提供了一种图像坐标系的转换装置，所述装置包括：

视频获取模块，用于获取相邻摄像头采集的视频图像，所述相邻摄像头包括在地平面上有拍摄重叠区域的第一摄像头和第二摄像头；

检测识别模块，用于从所述相邻摄像头采集的视频图像中，识别出目标对象位于所述地平面上的N组关键点；其中，每组关键点包括从所述第一摄像头的视频图像中提取的第一关键点，以及从所述第二摄像头的视频图像中提取的第二关键点，且所述第一关键点和所述第二关键点是同一时刻在所述相邻摄像头中出现的同一目标对象的同一特征点，所述N为大于等于3的整数；

关系计算模块，用于根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的转换关系。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述图像坐标系的转换方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述图像坐标系的转换方法。

还一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品被处理器执行时，用于实现上述图像坐标系的转换方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过从相邻摄像头拍摄的视频图像中提取的N组关键点，对相邻摄像头对应的图像坐标系之间的转换关系进行建模，解决了相关技术需要人工放置标定棋盘格，比较耗时耗力的问题，本申请通过目标对象跟踪和关键点识别得到关键点识别结果，基于该关键点识别结果即可得到不同摄像头对应的图像坐标系之间的转换关系，整个过程由计算机设备自主完成即可，无需人工参与，从而有助于提高针对摄像头拍摄图像的处理效率，且适用于大规模的视频监控场景。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的图像坐标系的转换方法的流程图；

图3是本申请一个实施例提供的图像坐标系的转换方法的示意图；

图4是本申请一个实施例提供的图像坐标系的转换装置的框图；

图5是本申请另一个实施例提供的图像坐标系的转换装置的框图；

图6是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请实施例涉及的一种实施环境的示意图。该实施环境可以包括：摄像头10和计算机设备20。

摄像头10用于拍摄其视野范围内的图像，生成视频流。在本申请实施例中，摄像头10的数量有多个。例如，如图1所示，在某一个现实场景30的不同位置，布设多个摄像头10，每个摄像头10用于对该现实场景30的一部分区域进行监控，得到相应的视频流。

计算机设备20是指具备对数据进行处理和存储功能的设备，如PC(Personal Computer，个人计算机)、服务器或者其它具有计算能力的电子设备，本申请实施例对此不作限定。计算机设备20可以接收多个摄像头10的视频流，并且可以将该视频流解码形成图像，然后进行后续的处理，如进行两个摄像头的图像坐标系之间转换关系的计算。

摄像头10与计算机设备20之间可以通过有线或者无线的方式进行通信。例如，摄像头10与计算机设备20之间的数据传送可以采用设备到设备(Ad-Hoc)的方式，也可以在基站或无线访问点(Access Point，AP)的协调下进行，本申请实施例对此不作限定。

请参考图2，其示出了本申请一个实施例提供的图像坐标系的转换方法的流程图。该方法可应用于图1所示实施环境的计算机设备中。该方法可以包括如下几个步骤(201-203)：

步骤201，获取相邻摄像头采集的视频图像。

在本申请实施例中，相邻摄像头包括在地平面上有拍摄重叠区域的第一摄像头和第二摄像头。如果两个摄像头邻近设置，且这两个摄像头的拍摄区域在地平面上存在重叠区域，则这两个摄像头为相邻摄像头。

另外，计算机设备可以对第一摄像头采集的视频流和第二摄像头采集的视频流分别进行解码，得到第一摄像头采集的多帧视频图像以及第二摄像头采集的多帧视频图像。

另外，为了尽可能地捕捉到摄像头下经过的人或物，摄像头采集的视频流的帧率不能太低，例如该帧率应当大于或等于25帧/秒，本申请实施例对此不作限定。

可选地，计算机设备还可以将第一摄像头和第二摄像头的时间对齐，也即保持第一摄像头和第二摄像头的时间相同步。例如，计算机设备可以将第一摄像头的时间和第二摄像头的时间，分别与标准时间相对齐。这样，在后续进行关键点检测时，能够确保提取到的各组关键点在时域上的准确性。

步骤202，从相邻摄像头采集的视频图像中，识别出目标对象位于地平面上的N组关键点。

计算机设备首先运用目标检测技术对视频图像中的目标对象进行检测。可选地，计算机设备可以采用SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)系列等方法对目标对象进行检测，本申请实施例对此不作限定。可选地，计算机设备在检测到目标对象之后，运用目标跟踪技术对检测到的目标对象进行跟踪。可选地，计算机设备可以采用KCF(Kernelized Correlation Filters)等相关滤波算法以及基于深度神经网络的跟踪算法(如SiamesNetwork)等对目标对象进行跟踪，本申请实施例对此不作限定。

目标对象是指计算机设备在相邻摄像头采集的视频图像中检测的对象，该目标对象可以包括一个对象，也可以包括多个对象。在本申请实施例中，对象可以是行人、动物、交通工具(如车辆)等可移动的实物，即动态实物，也可以是石头、树木、建筑等不可移动的实物，即静态实物。可选地，该动态实物既可以是自主移动的实物，如行人、移动机器人等，也可以是遥控赛车、交通工具等非自主移动的实物。

计算机设备检测到目标对象后，再使用关键点检测技术对目标对象进行关键点检测。可选地，计算机设备可以采用MARK RCNN等深度神经网络相关的算法对目标对象进行关键点检测，本申请实施例对此不作限定。

计算机设备使用关键点检测技术识别出目标对象位于地平面上的N组关键点，其中，N为大于等于3的整数。每组关键点包括从第一摄像头的视频图像中提取的第一关键点，以及从第二摄像头的视频图像中提取的第二关键点，且该第一关键点和第二关键点是同一时刻在上述相邻摄像头中出现的同一目标对象的同一特征点。

可选地，该N组关键点既可以来自于同一个目标对象在N个不同时刻的视频图像，也可以来自于N个不同的目标对象在同一时刻的视频图像，还可以一部分来自于同一个目标对象在不同时刻的视频图像，一部分来自于不同的目标对象在同一时刻的视频图像。并且，该N组关键点可以全部来自于上述动态实物，也可以全部来自于上述静态实物，还可以一部分来自于上述动态实物，一部分来自于上述静态实物。本申请实施例对该N组关键点的具体获取方式不作限定。

步骤203，根据上述N组关键点，计算相邻摄像头的图像坐标系之间的转换关系。

摄像头的图像坐标系是指摄像头所拍摄的图像的坐标系。相邻摄像头的图像坐标系之间的转换关系，是指上述对象的位置坐标在相邻摄像头的图像坐标系之间的转换关系。

假设摄像头的成像过程符合小孔成像模型，且摄像头拍摄的视频图像不存在畸变，则可以利用物理世界中的地平面投影到摄像头画面中的成像满足仿射变换这一性质，推论得出地平面拍摄有重叠区域的相邻摄像头画面中地平面部分之间的映射也满足仿射变换。计算机设备可以根据上述N组关键点，对相邻摄像头对应的图像坐标系之间的转换关系进行建模，得到一个用于表征该转换关系的数学模型。

可选地，该数学模型可以是仿射变换模型，该仿射变换模型用于在相邻摄像头的图像坐标系之间转换上述对象的位置坐标。

可选地，为了剔除可能的干扰关键点，可以使用RANSAC(Random Sample Consensus)算法对该数学模型的参数进行估计，该干扰关键点是指不符合误差最小的数学模型的M组关键点，M为自然数。例如，计算机设备从相邻摄像头中获取了100组关键点，从100组中随机选取3组计算该数学模型，剩余的97组关键点用于计算得到的数学模型的误差，最终计算机设备选取误差平均值或者误差方差最小的那个数学模型进行数学模型的参数估计等操作，在计算机设备估计该数学模型的参数时，可以使用RANSAC算法，这样可以将与该数学模型误差大于误差阈值的M组关键点剔除掉，使得估计出的数学模型的参数更为精确。其中，误差阈值是根据实际的应用需求设定的数值，例如，在精度要求较高的场合，误差阈值的数值较小，本申请实施例对此不作限定。

在一种可能的实施方式中，上述步骤203具体可以是，根据上述N组关键点，计算上述相邻摄像头的图像坐标系之间的仿射变换矩阵，该仿射变换矩阵用于表征相邻摄像头的图像坐标系之间的转换关系。

可选地，上述步骤203之后还可以包括：对于从上述第一摄像头的视频图像中检测跟踪得到的任一对象，根据该对象在该第一摄像头对应的图像坐标系中的位置坐标及上述转换关系，计算该对象在上述第二摄像头对应的图像坐标系中的位置坐标。例如，请参考图3，在该应用场景中有多个摄像头10，记为摄像头1、摄像头2……摄像头N，该多个摄像头两两之间存在地平面拍摄重叠区域，即摄像头1与摄像头2之间存在地平面拍摄重叠区域，摄像头2与摄像头3之间存在地平面拍摄重叠区域……在摄像头1与摄像头2之间的地平面拍摄重叠区域中有一个行人，则可以根据该行人在摄像头1的图像坐标系下的位置坐标及上述转换关系，计算出该行人在摄像头2的图像坐标系下的位置坐标。可选地，计算机设备可以继续根据该行人在摄像头2的图像坐标系下的位置坐标，计算该行人在摄像头3的图像坐标系下的位置坐标……根据该行人在摄像头N-1的图像坐标系下的位置坐标，计算该行人在摄像头N的图像坐标系下的位置坐标，最终可以完成上述对象在地平面拍摄没有重叠区域的摄像头之间的转换。

综上所述，本申请实施例提供的技术方案，通过从相邻摄像头拍摄的视频图像中提取的N组关键点，对相邻摄像头对应的图像坐标系之间的转换关系进行建模，解决了相关技术需要人工放置标定棋盘格，比较耗时耗力的问题，本申请通过目标对象跟踪和关键点识别得到关键点识别结果，基于该关键点识别结果即可得到不同摄像头对应的图像坐标系之间的转换关系，整个过程由计算机设备自主完成即可，无需人工参与，从而有助于提高针对摄像头拍摄图像的处理效率，且适用于大规模的视频监控场景。

在示例性实施例中，计算机设备从相邻摄像头采集的视频图像中，识别出目标对象位于地平面上的N组关键点，包括如下几个步骤：

1、对相邻摄像头采集的视频图像分别进行目标检测跟踪，得到第一摄像头对应的检测跟踪结果以及第二摄像头对应的检测跟踪结果。

第一摄像头对应的检测跟踪结果是指第一摄像头中的目标对象的检测跟踪结果，可以包括目标对象的位置、外观特征、时间戳等信息；第二摄像头对应的检测跟踪结果是指第二摄像头中的目标对象的检测跟踪结果，可以包括目标对象的位置、外观特征、时间戳等信息。

对于第一摄像头采集的视频流，计算机设备可以对该视频流中的每一帧视频图像中的目标对象进行检测跟踪，也可以每间隔若干帧视频图像对目标对象进行一次检测跟踪，例如每隔5帧视频图像对目标对象进行一次检测跟踪，即对第1帧、第6帧、第11帧、第16帧等视频图像中的目标对象进行检测跟踪。

同样地，对于第二摄像头采集的视频流，计算机设备也可以对该视频流中的每一帧视频图像中的目标对象进行检测跟踪，也可以每间隔若干帧视频图像对目标对象进行一次检测跟踪。

如果对于第一摄像头和第二摄像头采集的视频流，计算机设备每间隔若干帧视频图像对目标对象进行一次检测跟踪，则计算机设备处理第一摄像头的视频流时选取的间隔与处理第二摄像头的视频流时选取的间隔是一样的。

2、根据第一摄像头对应的检测跟踪结果以及第二摄像头对应的检测跟踪结果，筛选出标准目标对象。

标准目标对象是指同一时刻在相邻摄像头中出现的同一目标对象。以目标对象是行人甲为例，在同一时刻，行人甲既出现在第一摄像头中，也出现在第二摄像头中，则行人甲可以作为标准目标对象。

在一种可能的实施方式中，计算机设备如果如下方式筛选出标准目标对象：

(1)根据第一摄像头对应的检测跟踪结果，获取从该第一摄像头采集的第一视频图像中检测跟踪得到的第一目标对象的外观特征；

(2)根据第二摄像头对应的检测跟踪结果，获取从该第二摄像头采集的第二视频图像中检测跟踪得到的第二目标对象的外观特征；

外观特征反映了目标对象的颜色、形状、纹理等特征。例如，通过对该目标对象在视频图像中对应的图像区域进行特征提取，得到该目标对象的外观特征。以目标对象为行人为例，可以采用行人重识别(person re-identification)技术和/或人脸识别技术等得到该目标对象的外观特征，本申请实施例对于外观特征的具体获取手段不作限定。另外，该第一视频图像和该第二视频图像是该相邻摄像头在同一时刻采集的视频图像。

上述步骤(1)和步骤(2)可以同时执行，也可以先后执行，如先执行步骤(1)后执行步骤(2)，或先执行步骤(2)后执行步骤(1)，本申请实施例对此不作限定。

(3)计算第一目标对象的外观特征和第二目标对象的外观特征之间的相似度；

该相似度用于表征该第一目标对象的外观特征和该第二目标对象的外观特征之间的近似程度。

可选地，该第一目标对象的外观特征和该第二目标对象的外观特征之间的相似度，采用如下步骤计算得到：

(3-1)计算该第一目标对象的检测跟踪结果所包括的k维外观特征，与该第二目标对象的检测跟踪结果所包括的k维外观特征之间的距离值，k为正整数；

(3-2)根据该距离值确定该第一目标对象的外观特征和该第二目标对象的外观特征之间的相似度。

该第一目标对象的外观特征和该第二目标对象的外观特征之间的相似度，根据k维外观特征之间的距离值确定，该距离值可以采用余弦距离或者欧氏距离等进行表示。可选地，该距离值采用非归一化的欧氏距离来表示，采用这种方式来表示距离值，能够使得相似度在数值上体现地更加直观。另外，计算机设备可以直接将上述距离值确定为相似度，也可以基于预设的换算规则将距离值换算为相似度，本申请实施例对此不作限定。

(4)若该相似度大于相似度阈值，则确定该第一目标对象和该第二目标对象为该标准目标对象。

另外，若该相似度小于相似度阈值，则剔除该第一目标对象和该第二目标对象。

3、对该标准目标对象进行关键点检测，得到上述N组关键点。

对标准目标对象进行关键点检测是指检测标准目标对象的各个关键点的位置。本申请实施例中，因为计算的是相邻摄像头的图像坐标系之间的转换关系，为了提高计算的精确性，主要检测标准目标对象位于地平面上的关键点。以标准目标对象是行人为例，其关键点可以包括足部关键点、两足连线的中心点或者其它部位的关键点。以标准目标对象是石头为例，其关键点可以是与地平面相交面的中心点。本申请实施例中，该N组关键点不共线，以此确保该N组关键点可以构成一个平面。

可选地，为了使选取出的N组关键点更为可靠，在得到该N组关键点之后，还包括：对于每一组关键点，获取该关键点对应的置信度，若该关键点对应的置信度小于置信度阈值，则剔除该关键点。该关键点对应的置信度用于指示该关键点可信程度的大小，该关键点对应的置信度可以在对该标准目标对象进行关键点检测的同时或之后给出，本申请实施例对此不作限定。

可选地，为了避免数据的误匹配，提高相邻摄像头之间的转换关系计算的精确性，在根据该第一摄像头对应的检测跟踪结果以及该第二摄像头对应的检测跟踪结果，筛选出标准目标对象之前还包括：根据该第一摄像头对应的检测跟踪结果以及该第二摄像头对应的检测跟踪结果，筛选出符合条件的第一视频图像和第二视频图像。可选地，该条件包括从该第一视频图像中检测跟踪得到的目标对象的数量为1，且从该第二视频图像中检测跟踪得到的目标对象的数量也为1，也就是说排除第一视频图像和第二视频图像中有多人的画面，这样可以进一步避免数据的误匹配。

综上所述，本申请实施例在提取相邻摄像头的N组关键点时，综合考虑了目标对象的外观特征与关键点置信度的大小，使得获取的N组关键点更为可靠，并且提高了通过该N组关键点计算出的转换关系的准确性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图4，其示出了本申请一个实施例提供的图像坐标系的转换装置的框图。该装置400具有实现上述方法实施例的功能，该功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置400可以是上文介绍的计算机设备，也可以设置在计算机设备中。该装置400可以包括：视频获取模块410、检测识别模块420和关系计算模块430。

视频获取模块410，用于获取相邻摄像头采集的视频图像，所述相邻摄像头包括在地平面上有拍摄重叠区域的第一摄像头和第二摄像头。

检测识别模块420，用于从所述相邻摄像头采集的视频图像中，识别出目标对象位于所述地平面上的N组关键点；其中，每组关键点包括从所述第一摄像头的视频图像中提取的第一关键点，以及从所述第二摄像头的视频图像中提取的第二关键点，且所述第一关键点和所述第二关键点是同一时刻在所述相邻摄像头中出现的同一目标对象的同一特征点，所述N为大于等于3的整数。

关系计算模块430，用于根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的转换关系。

在示例性实施例中，请参考图5，所述检测识别模块420，包括：检测跟踪子模块421、标准筛选子模块422和关键点检测子模块423。

检测跟踪子模块421，用于对所述相邻摄像头采集的视频图像分别进行目标检测跟踪，得到所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果。

标准筛选子模块422，用于根据所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果，筛选出标准目标对象，所述标准目标对象是指同一时刻在所述相邻摄像头中出现的同一目标对象。

关键点检测子模块423，用于对所述标准目标对象进行关键点检测，得到所述N组关键点。

在示例性实施例中，请参考图5，所述标准筛选子模块422，用于：

根据所述第一摄像头对应的检测跟踪结果，获取从所述第一摄像头采集的第一视频图像中检测跟踪得到的第一目标对象的外观特征；

根据所述第二摄像头对应的检测跟踪结果，获取从所述第二摄像头采集的第二视频图像中检测跟踪得到的第二目标对象的外观特征；其中，所述第一视频图像和所述第二视频图像是所述相邻摄像头在同一时刻采集的视频图像；

计算所述第一目标对象的外观特征和所述第二目标对象的外观特征之间的相似度；

若所述相似度大于相似度阈值，则确定所述第一目标对象和所述第二目标对象为所述标准目标对象。

在示例性实施例中，请参考图5，所述检测识别模块420，还包括：

图像筛选子模块424，用于根据所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果，筛选出符合条件的所述第一视频图像和所述第二视频图像；其中，所述条件包括从所述第一视频图像中检测跟踪得到的目标对象的数量为1，且从所述第二视频图像中检测跟踪得到的目标对象的数量也为1。

在示例性实施例中，请参考图5，所述关键点检测子模块423，用于当所述标准目标对象为行人时，提取所述标准目标对象的两足连线的中心点，得到所述N组关键点。

关键点筛选子模块425，用于对于每一组关键点，获取所述关键点对应的置信度；若所述关键点对应的置信度小于置信度阈值，则剔除所述关键点。

在示例性实施例中，所述N组关键点来自于同一个目标对象在N个不同时刻的视频图像。

在示例性实施例中，请参考图5，所述关系计算模块430，用于根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的仿射变换矩阵。

在示例性实施例中，请参考图5，所述装置400还包括：

坐标计算模块440，用于对于从所述第一摄像头的视频图像中检测跟踪得到的任一对象，根据所述对象在所述第一摄像头对应的图像坐标系中的位置坐标及所述转换关系，计算所述对象在所述第二摄像头对应的图像坐标系中的位置坐标。

需要说明的是，本申请实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图6，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以用于实施上述实施例中提供的图像坐标系的转换方法。例如，该计算机设备可以是图1所示实施环境中的计算机设备20。具体来讲：

该计算机设备600包括处理单元(如中央处理器CPU、图形处理器GPU和现场可编程逻辑门阵列FPGA等)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。该计算机设备600还包括帮助计算计算机设备内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606，和用于存储操作系统613、应用程序614和其他程序模块612的大容量存储设备607。

该基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中，该显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。该基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。该大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，该大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请实施例，该计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在该系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

该存储器还包括至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述图像坐标系的转换方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或该指令集在被处理器执行时以实现上述图像坐标系的转换方法。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被处理器执行时，其用于实现上述图像坐标系的转换方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种图像坐标系的转换方法，应用于计算机设备，所述方法包括：

获取相邻摄像头采集的视频图像，所述相邻摄像头包括在地平面上有拍摄重叠区域的第一摄像头和第二摄像头；

从所述相邻摄像头采集的视频图像中，识别出目标对象位于所述地平面上的N组关键点；其中，每组关键点包括从所述第一摄像头的视频图像中提取的第一关键点，以及从所述第二摄像头的视频图像中提取的第二关键点，且所述第一关键点和所述第二关键点是同一时刻在所述相邻摄像头中出现的同一目标对象的同一特征点，所述N为大于等于3的整数；

根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的转换关系。
根据权利要求1所述的方法，其中，所述从所述相邻摄像头采集的视频图像中，识别出目标对象位于所述地平面上的N组关键点，包括：

对所述相邻摄像头采集的视频图像分别进行目标检测跟踪，得到所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果；

根据所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果，筛选出标准目标对象，所述标准目标对象是指同一时刻在所述相邻摄像头中出现的同一目标对象；

对所述标准目标对象进行关键点检测，得到所述N组关键点。
根据权利要求2所述的方法，其中，所述根据所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果，筛选出标准目标对象，包括：

根据所述第一摄像头对应的检测跟踪结果，获取从所述第一摄像头采集的第一视频图像中检测跟踪得到的第一目标对象的外观特征；

根据所述第二摄像头对应的检测跟踪结果，获取从所述第二摄像头采集的第二视频图像中检测跟踪得到的第二目标对象的外观特征；其中，所述第一视频图像和所述第二视频图像是所述相邻摄像头在同一时刻采集的视频图像；

计算所述第一目标对象的外观特征和所述第二目标对象的外观特征之间的相似度；

若所述相似度大于相似度阈值，则确定所述第一目标对象和所述第二目标对象为所述标准目标对象。
根据权利要求3所述的方法，其中，所述根据所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果，筛选出标准目标对象之前，还包括：

根据所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果，筛选出符合条件的所述第一视频图像和所述第二视频图像；

其中，所述条件包括从所述第一视频图像中检测跟踪得到的目标对象的数量为1，且从所述第二视频图像中检测跟踪得到的目标对象的数量也为1。
根据权利要求2所述的方法，其中，所述对所述标准目标对象进行关键点检测，得到所述N组关键点，包括：

当所述标准目标对象为行人时，提取所述标准目标对象的两足连线的中心点，得到所述N组关键点。
根据权利要求2所述的方法，其中，所述根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的转换关系之前，还包括：

对于每一组关键点，获取所述关键点对应的置信度；

若所述关键点对应的置信度小于置信度阈值，则剔除所述关键点。
根据权利要求1至6任一项所述的方法，其中，所述N组关键点来自于同一个目标对象在N个不同时刻的视频图像。
根据权利要求1至6任一项所述的方法，其中，所述根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的转换关系，包括：

根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的仿射变换矩阵。
根据权利要求1至6任一项所述的方法，其中，所述根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的转换关系之后，还包括：

对于从所述第一摄像头的视频图像中检测跟踪得到的任一对象，根据所述对象在所述第一摄像头对应的图像坐标系中的位置坐标及所述转换关系，计算所述对象在所述第二摄像头对应的图像坐标系中的位置坐标。
一种图像坐标系的转换装置，所述装置包括：

视频获取模块，用于获取相邻摄像头采集的视频图像，所述相邻摄像头包括在地平面上有拍摄重叠区域的第一摄像头和第二摄像头；

检测识别模块，用于从所述相邻摄像头采集的视频图像中，识别出目标对象位于所述地平面上的N组关键点；其中，每组关键点包括从所述第一摄像头的视频图像中提取的第一关键点，以及从所述第二摄像头的视频图像中提取的第二关键点，且所述第一关键点和所述第二关键点是同一时刻在所述相邻摄像头中出现的同一目标对象的同一特征点，所述N为大于等于3的整数；

关系计算模块，用于根据所述N组关键点，计算所述相邻摄像头的图像坐标系之间的转换关系。
根据权利要求10所述的装置，其中，所述检测识别模块，包括：

检测跟踪子模块，用于对所述相邻摄像头采集的视频图像分别进行目标检测跟踪，得到所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果；

标准筛选子模块，用于根据所述第一摄像头对应的检测跟踪结果以及所述第二摄像头对应的检测跟踪结果，筛选出标准目标对象，所述标准目标对象是指同一时刻在所述相邻摄像头中出现的同一目标对象；

关键点检测子模块，用于对所述标准目标对象进行关键点检测，得到所述N组关键点。
根据权利要求11所述的装置，其中，所述标准筛选子模块，包括：

根据所述第一摄像头对应的检测跟踪结果，获取从所述第一摄像头采集的第一视频图像中检测跟踪得到的第一目标对象的外观特征；根据所述第二摄像头对应的检测跟踪结果，获取从所述第二摄像头采集的第二视频图像中检测跟踪得到的第二目标对象的外观特征；其中，所述第一视频图像和所述第二视频图像是所述相邻摄像头在同一时刻采集的视频图像；

计算所述第一目标对象的外观特征和所述第二目标对象的外观特征之间的相似度；

若所述相似度大于相似度阈值，则确定所述第一目标对象和所述第二目标对象为所述标准目标对象。
根据权利要求11所述的装置，其中，所述关键点检测子模块，用于当所述标准目标对象为行人时，提取所述标准目标对象的两足连线的中心点，得到所述N组关键点。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的图像坐标系的转换方法。
一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的图像坐标系的转换方法。