WO2023082922A1

WO2023082922A1 - 用于非连续观测情况下物体定位的方法、装置和存储介质

Info

Publication number: WO2023082922A1
Application number: PCT/CN2022/124913
Authority: WO
Inventors: 黎意枫; 李广林; 孔涛
Original assignee: 北京有竹居网络技术有限公司
Priority date: 2021-11-15
Filing date: 2022-10-12
Publication date: 2023-05-19
Also published as: CN113989374A

Abstract

本公开涉及用于非连续观测情况下物体定位的方法、装置和存储介质。提出了一种不连续观测场景中的物体定位方法，包括基于观测中断之后恢复观测时获得的基准图像获取物体模型，其中物体模型是观测恢复后场景中物体的模型；以及基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联，其中物体重建模型是观测中断之前场景中物体的模型。

Description

用于非连续观测情况下物体定位的方法、装置和存储介质

相关申请的交叉引用

本申请是以申请号为202111349093.5、申请日为2021年11月15日的中国申请为基础，并主张其优先权，该中国申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及计算机视觉，包括计算机视觉中的物体定位。

背景技术

动态物体重建和定位是计算机视觉和机器人领域的一项关键任务，其应用范围可以包括从自主导航、增强现实到机器人抓取和操作的各种应用场景。相关技术中，要么依赖于物体的计算机辅助设计(CAD)模型，要么需要连续观测来处理动态物体的重建和定位。然而，常规方法往往忽略了日常物品的形状和大小各不相同，而且计算机辅助设计模型可能未知或不容易获得。在实践中，所获得的物体模型可能由于有限的视角或物体间遮挡而被分割，并且传感器可能无法连续观测多个物体。在观测中断/丢失期间，物体的布局可能发生了巨大的变化。这样会对于物体观测、重建和定位造成不利影响。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

根据本公开的一些实施例，提供了一种不连续观测场景中的物体定位方法，包括以下步骤：基于观测中断之后恢复观测时获得的基准图像获取物体模型；以及基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联。

根据本公开的另一些实施例，提供了一种不连续观测场景中的物体关联装置，包括：模型获取单元，被配置为基于观测中断之后恢复观测时获得的基准图像获取物体模型；以及关联单元，被配置为基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联。

根据本公开的一些实施例，提供一种电子设备，包括：存储器；和耦接至存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行本公开中所述的任一实施例的方法。

根据本公开的一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序在被处理器执行时导致实现本公开中所述的任一实施例的方法。

根据本公开的一些实施例，提供一种计算机程序产品，包括指令，该指令在由处理器执行时导致实现本公开中所述的任一实施例的方法。

根据本公开的一些实施例，提供了一种计算机程序，所述计算机程序包括的程序代码在由计算机执行时导致实现本公开中所述的任一实施例的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征、方面及其优点将会变得清楚。

附图说明

下面参照附图说明本公开的优选实施例。此处所说明的附图用来提供对本公开的进一步理解，各附图连同下面的具体描述一起包含在本说明书中并形成说明书的一部分，用于解释本公开。应当理解的是，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开构成限制。在附图中：

图1示意性示出了不连续观测场景。

图2A和2B示出了根据本公开的实施例的不连续观测场景中的物体定位方法，图2C示出了根据本公开的实施例的物体匹配过程示意图。

图3示出了根据本公开的实施例的物体关联示例。

图4示出了根据本公开的实施例的不连续观测场景中的物体定位装置。

图5示出本公开的电子设备的一些实施例的框图。

图6示出本公开的电子设备的另一些实施例的框图。

应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不一定是按照实际的比例关系绘制的。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。因此，一旦某一项在一个附图中被定义，则在随后的附图中可能不再对其进行进一步讨论。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，但是显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对实施例的描述实际上也仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值应被解释为仅仅是示例性的，不限制本公开的范围。

本公开中使用的术语“包括”及其变型意指至少包括后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包括但不限于”。此外，本公开使用的术语“包含”及其变型意指至少包含后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包含但不限于”。因此，包括与包含是同义的。术语“基于”意指“至少部分地基于”。

整个说明书中所称“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本公开的至少一个实施例中。例如，术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。而且，短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例，但是也可以指同一个实施例。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。除非另有指定，否则“第一”、“第二”等概念并非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其他方式的给定顺序。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中所交互的数据、消息或者信息的名称仅用于说明性的目的，而并不是用于对这些数据、消息或信息的范围进行限制。

动态物体重建和定位对于在机器人操作中机器人理解周围环境和操纵环境中的物体至关重要。一方面，重建可以帮助对部分观测的或被遮挡的物体完成建模。另一方面，精确的姿态估计可以提高物体重建的完成度和准确性。

目前的一些工作通过在同步定位与地图构建(SLAM)系统中引入额外的分割网络模块来区分感兴趣的物体，从而实现动态物体重建。在这些工作中，要么假设物体类别是已知的，要么要求持续观测。然而，在真实的机器人操作过程中，这些假设可能无法得到保证。而当前的物体姿态估计方法主要依赖于已知的计算机辅助设计(CAD)模型或者需要大量的代价来扫描物体以获得高质量的模型。此外，这些方法可能需要为每个物体或类别训练新的权重，这限制了可推广性，显然不适合现实场景。

而且在实践中会发生观测中断/丢失而导致不连续观测的场景，包括但不限于场景变换、物体遮挡、物体出入等等可能引起观测场景发生变化的情景。在观测中断/丢失期间，物体的布局可能发生了巨大的变化。图1示出了随时间发生不连续观测的场景，其中在观测中断/丢失期间，物体的布局可能发生了巨大的变化。图1中(a)和(b)分别示出了观测中断/丢失前后的物体布局。与(a)相比，(b)中所示的中断恢复后观测时物体完全被打乱了。这样会对于物体观测、重建和定位造成不利影响。在此情况下如何在不连续的观测中关联物体，并在新场景中准确定位物体是一个相当具有挑战性的问题。

鉴于此，我们提出了一种改进的方案，能够在没有连续观测和已知的计算机辅助设计模型的情况下进行动态物体定位。

在实际应用场景中，如机器人操作和抓取任务中，由于视角受限或物体之间相互遮挡，无法保证对场景中物体的连续观察。在不连续观测中，物体的空间和运动连续性无法保证，但大多数刚性物体模型在纹理和结构上不会发生变化。因此，刚性物体模型对于许多应用来说是必不可少的，并且已经成为不同观测之间必不可少的关联。因而，本公开的方案通过获取观测中断前后的物体的模型来进行不连续观测场景中物体的定位。特别地，本公开的方案能够在不连续观测状况发生的情况下，在恢复观测之后获取物体模型，并且基于所获取的物体模型与根据观测中断之前的信息获得的物体重建模型来实现观测中断前后的物体之间的关联，由此能够进一步精确地进行物体定位。

此外，本公开的方案中还可在进行了物体关联之后，还可以进一步进行物体姿态估计，以进行物体对齐以更加有利于物体的后续处理。例如，无需CAD模型和连续观测即可鲁棒地处理动态物体重建和姿态估计任务，生成适合机器人物体抓取的显式点云模型。

以下将结合附图详细描述根据本公开的实施例，尤其是涉及在不连续观测场景下的物体关联、对齐的物体定位。

图2A示出了根据本公开的一些实施例的不连续观测场景中的物体定位方法。在方法200中，在步骤S201，基于观测中断之后恢复观测时获得的基准图像获取物体模型；以及在步骤S202，基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联。

根据本公开的一些实施例，基于基准图像获取的物体模型为该观测恢复/场景变化之后观测场景中物体的模型。在一些实施例中，基于基准图像获取的物体模型可以是各种适当形式的模型，其能够包含/指示/描述在观测场景中物体的各种属性信息，包括纹理、结构、姿态、颜色等等。在一些实施例中，物体模型是物体点云模型，其可以是任何适当的形式。

在一些实施例中，用于生成物体模型的基准图像可以是在观测恢复之后观测到的预定数量的图像。优选地，为了尽快地实现观测恢复之后的物体定位，将观测中断前后的物体之间尽快关联，可以将观测恢复后的前预定数量的连续图像来生成物体模型，该预定数量应尽量小以旨在快速且高效地实现物体关联。特别地，该基准图像是在恢复观测时单视角获得的图像，诸如可以是恢复观测时获得的起始图像，例如第一帧图像。在一些实例中，基准图像可被称为查询图像。

在一些实施例中，可以从基准图像获取2.5D实例点云作为物体点云模型，特别地从起始图像获取2.5D实例点云。作为示例，在实例分割网络的指导下，从深度图像反投影得到2.5D实例点云。特别地，在本公开的实施例中，由于可能的物体布置、遮挡等，在恢复观测后的观测到的基准图像，例如单视角图像，可能无法完整地反映出场景中的所有物体，甚至只能反映出物体的一部分，因而所获取的物体点云模型实质上是不完整物体或者部分物体的点云模型，例如可属于在单视角下观测到的部分点云，是不完整的点云模型。因此，在本文中，从该基准图像获取的物体点云模型也指的是“部分物体点云模型”或“不完整物体点云模型”，这些表述在本公开上下文中是同义的。

根据本公开的一些实施例，物体的重建模型可指的是观测中断/场景改变之前的场景中的物体的模型，其能够用于与观测中断/场景改变之后获得的物体模型进行协作处理，以实现观测中断/场景改变前后的物体之间的关联。在一些实施例中，物体的重建模型是通过基于物体的连续图像对物体进行模型重建而得到的。在一些实施例中，物体的连续图像是在观测中断之前预定数量的连续观测图像。

在一些实施例中，物体的重建模型可以是预先确定的，并且被存储在适当的存储装置中。特别的，模型重建是随着物体连续观测而执行的，并且存储在适当的存储装置中。例如，模型重建可以是周期性进行的，例如在物体连续观测中周期性地进行模型重建。此外，模型重建可以是连续进行的，例如每连续观测到预定数量的图像就进行模型重建。这样，在不连续观测场景中物体定位/关联操作开始时可以直接调用预先存储的重建物体模型。在另一些实施例中，当在不连续观测场景中物体定位/关联操作开始时，可以先执行物体重建，例如基于观测中断之前预定数量的连续观测图像来获取物体的重建模型，由此基于该重新建模型进行物体定位。

在一些实施例中，物体的重建模型是任何适当类型的物体模型特别地，可以是基于面元的模型、点云模型、或其它合适的物体模型。类似地，其也能够包含/指示/描述在观测场景中物体的各种属性信息，包括纹理、结构、姿态、颜色等等。在一些实施例中，连续图像包括物体的连续RGB图像和深度图像，也被称为RGB-D图像，并且优选地，基于连续图像重建的模型是基于面元的模型。与基于单视角点云模型相比，基于面元的模型能够获取更全面的物体属性信息，构建更加完整的模型，从而降低甚至消除物体的几何和密度误差。

在本公开的方案中，物体的模型重建可以采用各种方法来执行。作为示例，可以通过在SLAM中引入基于学习的实例分割方法来实现给定RGB-D图像作为输入的物体级模型构建，以获取物体的重建模型，例如相关技术中的SLAM++，Fusion++，Co-Fusion和MaskFusion，MID-Fusion等。在一些实施例S中，优选地，基于MaskFusion，在构建时利用面元(surfel)来表示物体模型，这样得到的面元物体模型能够比点云模型更加准确、全面地反映物体特征，使得在操作时本公开的方案比应用点云模型时更加高效。

根据本公开的一些实施例，观测中断前后的物体之间关联可指的是观测中断前后的物体之间实现匹配，即找到观测中断前后的物体之间的对应关系，尤其是一一对应关系，从而能够将观测中断前的物体与中断恢复后重新观测到的物体相关联，以有助于后续操作。在不同的任务中，通常在多目标跟踪(MOT)中，研究了跨不同帧的对象关联。MOT专注于跨连续帧跟踪动态对象。大多数MOT方法依赖于连续性假设(如GIoU或贝叶斯滤波)来执行数据关联，但是当观测不连续时会失败。本公开的实施例中利用了不连续观测场景中观测中断/丢失前后的物体模型来实现关联，从而能够高效地实现物体关联。

在一些实施例中，在步骤S202中，基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联进一步包括：在步骤S2021，基于物体信息来确定物体点云模型和物体重建模型之间的相似性，并且在步骤S2022，基于相似性来进行观测中断前后的物体之间关联。如图2B所示。

在一些实施例中，物体信息可以是表征物体的各种属性信息，例如是能够从物体观测结果中获取的各种属性信息，例如可以包括物体几何特征、物体纹理特征、物体颜色特征中的至少一个。作为示例，物体信息可以是从观测的物体图像、从物体图像获取的物体模型等中提取得出的。

在一些实施例中，所述物体信息包括几何特征和颜色特征两者，并且基于几何特征和颜色特征两者来确定物体点云模型和物体重建模型之间的相似性。特别地，在视觉感知中，相似的物体往往在结构和纹理方面是相似的。由于一些物体具有相似的形状或纹理，很难仅通过几何信息或仅通过颜色信息来区分它们。因此，本公开提出了利用物体的几何特征和颜色特征两者作为物体信息来确定模型相似性。作为示例，物体的几何特征和颜色特征两者可以从物体观测图像得到物体的有色点云中提取得到。

在一些实施例中，基于相似性来进行观测中断前后的物体之间关联进一步包括：基于相似性来确定观测中断前后的物体之间的一一对应关系以使得观测中断前后的物体之间关联。在一些实施例中，基于所获取的物体模型与物体重建模型之间的最大总和相似性来确定观测中断前后物体的一一对应关系。所获取的物体模型和物体重建模型都可包含多个物体的参数信息，对应于最大相似性/最大匹配状况的物体参数可指示物体之间对应。作为示例，可以采用各种适当的算法来确定所获取的物体模型与物体重建模型之间的最大匹配状况以确定物体之间的对应关系。

图2C示出了根据本公开的实施例的物体匹配过程示意图。首先，从观测中断前的物体重建模块和观测恢复后的所获取的物体模块中，分别提取它们分别由几何和颜色组成的混合特征。然后基于这些特征估计两个集合模型的相似性。最后，我们使用适当的算法，匹配算法，例如Sinkhorn算法，来寻找两个集合之间具有最大总相似度的一对一对应关系。

在一些实施例中，所述方法200进一步包括步骤S203：将关联的观测中断前后的物体进行对齐。在模型和2.5D实例点云关联之后，我们获得了新场景中物体模型的粗略位置信息，也即是说，所观测的各个物体在观测中断之后恢复观测的场景中的各自的位置信息。但是，物体相对于相机的姿态可能已经发生了很大变化。因此，需要将物体与新场景对齐，以便更好地估计物体姿态。物体姿态估计的目的是估计物体的朝向和变换，这对于机器人操作至关重要。物体姿态估计可以采用各种适当的方式来实现，例如一种用于不可见物体的6D姿态估计的框架LatentFusion，其提出通过使用稀疏参考视图重建物体的潜在3D表示来解决不可见物体的6D姿态估计。当然，物体姿态估计还可以通过其他方式来实现，这里将不再详细描述。

在一些实施例中，在获取了观测中断前后的物体关联之后，将观测中断前后的关联/相对应的物体之间的姿态进行对齐。物体对齐可以通过各种适当方法来实现。在一些实施例中，通过空间变换来将观测中断后的物体与观测中断之前的物体的姿态进行对齐。作为示例，可通过特定变换将所获取的物体模型，例如物体点云模型，与物体重建模型，例如物体面元模型进行对齐，从而实现物体对齐。物体对齐可通过各种适当的方法/算法来实现，这里将不再详细描述。由此，通过根据本公开的物体关联和对齐，能够在观测恢复之后基于物体重建模型来进一步修正从单个或者少量基准图像获取的物体点云模型，从而使得观测恢复后所获取的物体模型能够更加完整，更好地反映出观测物体状况，例如与单个视图相比，根据本公开的方案能够更好地获取场景变换、观测中断等而被部分或全部遮挡的物体的模型。

应指出，对齐操作对于本公开的方案而言并不是必需的，也就是说，即使不进行对齐操作，本公开的方案仍能够通过利用物体模型来准确高效地确定观测中断前后物体之间的关联性，来高效地实现不连续观测场景中的物体定位。

以下将结合图3来描述根据本公开的实施例的不连续观察场景下的物体定位的实例。

本公开旨在是在没有已知的计算机辅助设计模型和连续观测的情况下重建和定位动态物体，提出了利用物体模型、特别是物体重建模型和观测中断恢复后获取的物体模型来解决此问题。图3示意性地示出了本公开的示例性实例的三个构成部分：物体模型重建、物体关联、以及物体对齐。其中在物体模型重建中，可以连续帧为输入，基于SLAM系统重建物体模型，在物体关联中，执行不连续帧，即先前观测帧和新观测帧之间的物体级数据关联；在物体对齐中，通过点云配准网络将物体模型与新的观测值对齐。以下将对于本公开方案中的各个构成部分的实现进行详细描述。

对于物体模型重建，本实例中通过将包含连续RGB图像和深度图像的视频片段V _t作为输入来重建物体模型M _m，m＝0…N。具体地说，为了重建物体模型，我们使用MaskFusion的实现来实现视频剪辑期间的摄像机跟踪和物体级构建。MaskFusion 以面元来表示物体模型，并通过将给定的RGB-D图像与重建模型的投影对齐来执行相机跟踪。为了实现每个物体的重建，它使用Mask(掩模)R-CNN来获得实例掩模，并对每个实例掩模进行融合到物体级构建中。此外，为了更好地应对物体重建，本公开还进一步训练了类无关分割网络，该类无关分割网络可以与MaskFusion相结合从而可以进行更加广泛类别的动态物体重建。

当先前的观测丢失，新的观测到来时，我们需要找到重建物体和新场景之间的对应关系。然而，直接将物体模型对齐到新场景中是耗时的，并且可能导致带有歧义的匹配。因此，提出了一种由粗到细的多目标对齐处理。在粗匹配中，我们引入关联模块来估计物体模型和基准图像(查询图像)中的2.5D实例点云之间的相似度，然后找到它们之间的匹配。这些匹配为每个物体提供了新场景中的大致位置。在实例分割网络的指导下，2.5D实例点云通过从深度图像反投影而获得。

本实例的关联操作中以两组彩色点云作为输入:物体重建模型M _m和通过反投影从基准图像中提取的2.5D实例点云P _n，并且分别从这两者提取各自的几何特征和颜色特征来实现关联。

1)几何特征:通过一个PointNet++网络实现了几何特征提取部分。具体来说，我们使用函数

它处理无序的点云，并将它们编码为固定长度的向量，这里N＝1024。

2)颜色特征:分析颜色分布，通过统计直方图来帮助区分不同的物体。具体来说，使用大小为(32，32，32)的三维直方图

来计算RGB分布。直方图的三通道以与RGB图像相同的方式表示红色、绿色和蓝色。可以将图像中的(256，256，256)颜色空间缩放到更小的(32，32，32)颜色空间，以提高效率和对不同场景中光照变化的稳健性能。

其中，i，j，k可分别表示三维直方图中的三通道元素坐标，在物体模型具有数量为x的R，G，B颜色元素时，对应的直方图元素值为x。

特征提取可以采用各种适当的方法来执行，例如本领域中公知的各种方法，这里将不再详细描述。作为示例，可以在特征提取器中使用了PointNet++的多尺度分组分类版本。

然后，基于所获取的几何特征和颜色特征，来在我们重建的m个物体M _m和基准图像中的2.5D实例点云P _n之间找到一对一的匹配。我们将一对一匹配问题表述为一个最优传输问题，并通过对该问题进行求解来确定一对一匹配。

具体而言，使用S _geo和S _rgb的加权和S来评估这两个集合之间的相似性。设x，y为两个不同的点云，例如分别对应于物体重建模型以及观测恢复后获取的物体模型。

S＝S _geo+λS _rgb. (5)

其中φ是L ₂归一化函数。β是一个展平函数，可将颜色特征的三维直方图转换为矢量。λ可以为任何适当值，例如0.1。

一一匹配问题的目标是找到两个集合之间总相似度最大的对应关系。具体来说，需要找到m个物体模型和n个2.5D实例点云之间的最大权重匹配。本实例中将其表述为最优传输理论模型。此外，当一些物体消失或新物体出现时，n和m可能不相等。为了处理这些情况，在公式中引入松弛变量来寻找没有对应关系的物体。以m<n的情况为例，n×n距离矩阵D定义如下:

传输矩阵是T，其中T _ij是M _i和P _j的匹配概率。匹配问题可以表述为:

最后，用Sinkhorn算法求解(7)，得到一对一的对应关系。当T _ij>0.5且M _i和P _j都不是松弛变量时，可认为(i，j)是一个很好的匹配，否则将放弃这个匹配。

在模型和2.5D实例点云关联之后获得了新场景中物体模型的粗略位置信息。但是，考虑到物体相对于相机的姿态可能已经发生了很大变化，因此需要将物体与新场景对齐，以便获得精确的6-DOF(自由度)姿态。在本公开中，在重建模型中以面元来表示物体，而面元在几何和颜色上与点云相似，因此可通过点云配准将物体姿态与新场景对准。点云配准是指寻找刚性变换来对齐两个给定点云，例如重建模型和观测恢复后的物体模型的问题。公式化地，给定两个点云X和Y，目标是找到对齐两个点云的变换T∈SE3。在实现中，可对每个预先匹配的点云集合使用RPMNet，这是一个点云配准网络，在部分、有噪声和看不见的点云配准任务中实现最佳性能。

根据本公开的实施例，在将点云输入网络之前可以进行进一步的处理以优化对齐处理。作为示例，使用半径为0.005且至少有16个相邻点的滤波器进行过滤。然后对体素大小为0.01的点云进行下采样。最后，将点云缩放到单位球面，并将其平移到原点。在参考模型传入RPMNet之前，我们为每个轴生成了几个初始角度为90度、180度、270度的假设，这进一步降低了对两个点云之间初始角度的敏感性。这些操作可以基于Open3D库来进行，当然也可以基于任何其它适当的库来执行。

图4示出了根据本公开的一些实施例的不连续观测场景下的物体关联装置。在装置400中包括：模型获取单元401，被配置为基于观测中断之后恢复观测时获得的基准图像获取物体模型；以及关联单元402，被配置为基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联。

在一些实施例中，关联单元402进一步包括：相似性确定单元4021，被配置为基于物体信息来确定物体点云模型和物体重建模型之间的相似性，并且所述关联单元进一步基于相似性来进行观测中断前后的物体之间关联。

在一些实施例中，所述物体信息包括几何特征和颜色特征两者，并且相似性确定单元被配置为基于几何特征和颜色特征两者来确定物体点云模型和物体重建模型之间的相似性。

在一些实施例中，所述关联单元402进一步配置为：基于相似性来确定观测中断前后的物体之间的一一对应关系以使得观测中断前后的物体之间关联。在一些实施例中，基于多个物体信息与多个物体模型之间的最大总和相似性来确定观测中断前后物体的一一对应关系。特别地，确定物体之间的一一对应关系可由匹配单元来实现，即关联单元包括匹配单元，其配置为基于相似性来确定观测中断前后的物体之间的一一对应关系。当然在实现中，相似性确定单元和匹配单元的操作都由关联单元本身来实现。

在一些实施例中，关联装置400可进一步包括：对齐单元403，被配置为将关联的观测中断前后的物体进行对齐。在一些实施例中，所述对齐单元被配置为通过空间变换来将观测中断后的物体与观测中断之前的物体的姿态进行对齐。

在一些实施例中，关联装置还可以包括模型重建单元404，被配置为基于物体的连续图像对物体进行模型重建。在一些实施例中，物体的连续图像是在观测中断之前预定数量的连续观测图像。在一些实施例中，物体的重建模型是选自包括基于面元的模型、点云模型的组中的任一个。在一些实施例中，连续图像包括物体的连续RGB图像和深度图像，并且基于连续图像重建的模型是基于面元的模型。应指出，模型重建单元可以不包含在关联装置中，并且可以在进行操作时由关联装置进行调用来进行模型重建。

应指出，模型重建单元404用虚线示出以指示模型重建单元404也可以位于模型训练装置400之外，例如在此情况下，装置400仍能够实现如前所述的本公开的有利效果。

应注意，上述各个单元仅是根据其所实现的具体功能划分的逻辑模块，而不是用于限制具体的实现方式，例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时，上述各个单元可被实现为独立的物理实体，或者也可由单个实体(例如，处理器(CPU或DSP等)、集成电路等)来实现。此外，上述各个单元在附图中用虚线示出指示这些单元可以并不实际存在，而它们所实现的操作/功能可由处理电路本身来实现。

此外，尽管未示出，该设备也可以包括存储器，其可以存储由设备、设备所包含的各个单元在操作中产生的各种信息、用于操作的程序和数据、将由通信单元发送的数据等。存储器可以是易失性存储器和/或非易失性存储器。例如，存储器可以包括但不限于随机存储存储器(RAM)、动态随机存储存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、闪存存储器。当然，存储器可也位于该设备之外。可选地，尽管未示出，但是该设备也可以包括通信单元，其可用于与其它装置进行通信。在一个示例中，通信单元可以被按照本领域已知的适当方式来实现，例如包括天线阵列和/或射频链路等通信部件，各种类型的接口、通信单元等等。这里将不再详细描述。此外，设备还可以包括未示出的其它部件，诸如射频链路、基带处理单元、网络接口、处理器、控制器等。这里将不再详细描述。

根据本公开的方案可以单独地或者与任何现有的物体观测方案相结合地形成物体观测系统，其可以用于对物体进行观测，例如持续观测，并且在观测中断/丢失之后再恢复观测时，执行根据本公开的不连续观测情况下的物体定位。具体而言，在根据公开的物体观测系统启动时，可以随着物体观测而以连续的RGB-D视频帧为输入来重建场景中的物体模型，这可以通过动态物体重建模块来执行。而当观测中断/场景改变后，关联模块获取新观测的2.5D实例点云，然后评估重建的物体模型和新观测中的2.5D实例点云之间的相似性，以找到观测中断/场景改变前后的一对一的对应关系。这些对应关系为每个物体提供了新场景中的大致位置。然后，在对齐模块中来进行物体对齐，例如使用了一种对初始化不太敏感且更健壮的基于深度学习的刚性点云配准方法来对齐两个点云实例集群。因此，能够实现一种新颖的动态物体观测系统，用于多个看不见的物体的重建、关联和对齐，而无需对不同场景之间的新物体进行额外的训练。并且实验表明，我们的系统是一个通用的和最先进的系统，可以支持各种任务，如无模型物体姿态估计，单视图物体完成，以及真实的机器人抓取。

以下将结合实验示例来进一步展现本公开的方案的有效性，实验示例包括6自由度物体姿态估计和机器人抓取。

通过在公共YCBVideo和无模型物体姿态估计数据集(MOPED)数据集上进行评估，可表明根据本公开的系统在6自由度位姿估计方面的性能是优异的，与零样本(zero-shot)方法，例如ZePHyR，和基于模型方法，例如CosyPose、Pix2Pose和EPOS等，相比，根据本公开的方法能够获得更优、更准确的姿态估计。

根据本公开的系统还能够良好地应用于各种应用任务，尤其是机器人抓取任务。使用带有robotiq-2f-85手爪和腕部Realsense D435i RGB-D摄像头的UR5机械臂作为硬件平台。根据本公开的系统可以在以下步骤中帮助机器人抓取任务:a)机械臂扫描放置在桌面上的杂乱物体，在扫描过程中，通过根据本公开的系统来重建未知的物体模型。b)机械臂从单个视角获取查询图像，并使用根据本公开的系统将重建的物体模型与查询图像中的物体对齐，并获得对齐的物体点云。c)将对齐的物体点云馈送到现成的抓取姿态生成模型中，以生成候选抓取。与单视图点云相比，根据本公开的系统输出的对齐物体点云更加完整，例如被完全遮挡或部分遮挡的物体仍可被进行适当的定位，从而抓取姿态生成模块可以对物体的遮挡部分或者被遮挡的物体生成抓取。

因此，本公开主要考虑了全新的任务，即在没有连续观察和已知CAD模型先验的情况下，进行动态物体重建和定位，并且提出了一种新的系统来执行动态物体级重建、多物体关联和对齐。根据本公开的系统在诸如无模型物体姿态估计、基于模型对齐的单视图物体完成和动态多物体机器人抓取等各种任务中是通用的和最先进的。

本公开的一些实施例还提供一种电子设备，其可以操作以实现前述的模型预训练设备和/或模型训练设备的操作/功能。图5示出本公开的电子设备的一些实施例的框图。例如，在一些实施例中，电子设备5可以为各种类型的设备，例如可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。例如，电子设备5可以包括显示面板，以用于显示根据本公开的方案中所利用的数据和/或执行结果。例如，显示面板可以为各种形状，例如矩形面板、椭圆形面板或多边形面板等。另外，显示面板不仅可以为平面面板，也可以为曲面面板，甚至球面面板。

如图5所示，该实施例的电子设备5包括：存储器51以及耦接至该存储器51的处理器52。应当注意，图5所示的电子设备50的组件只是示例性的，而非限制性的，根据实际应用需要，该电子设备50还可以具有其他组件。处理器52可以控制电子设备5中的其它组件以执行期望的功能。

在一些实施例中，存储器51用于存储一个或多个计算机可读指令。处理器52用于运行计算机可读指令时，计算机可读指令被处理器52运行时实现根据上述任一实施例所述的方法。关于该方法的各个步骤的具体实现以及相关解释内容可以参见上述的实施例，重复之处在此不作赘述。

例如，处理器52和存储器51之间可以直接或间接地互相通信。例如，处理器52和存储器51可以通过网络进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。处理器52和存储器51之间也可以通过系统总线实现相互通信，本公开对此不作限制。

例如，处理器52可以体现为各种适当的处理器、处理装置等，诸如中央处理器(CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86或ARM架构等。例如，存储器51可以包括各种形式的计算机可读存储介质的任意组合，例如易失性存储器和/或非易失性存储器。存储器51例如可以包括系统存储器，系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。在存储介质中还可以存储各种应用程序和各种数据等。

另外，根据本公开的一些实施例，根据本公开的各种操作/处理在通过软件和/或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的计算机系统，例如图6所示的计算机系统600安装构成该软件的程序，该计算机系统在安装有各种程序时，能够执行各种功能，包括诸如前文所述的功能等等。图6是示出根据本公开的实施例的中可采用的计算机系统的示例结构的框图。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，也根据需要存储当CPU 601执行各种处理等时所需的数据。中央处理单元仅仅是示例性的，其也可以是其它类型的处理器，诸如前文所述的各种处理器。ROM 602、RAM 603和存储部分608可以是各种形式的计算机可读存储介质，如下文所述。需要注意的是，虽然图6中分别示出了ROM 602、RAM 603和存储装置608，但是它们中的一个或多个可以合并或者位于相同或不同的存储器或存储模块中。

CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件连接到输入/输出接口605：输入部分606，诸如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等；输出部分607，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)，扬声器，振动器等；存储部分608，包括硬盘，磁带等；和通信部分609，包括网络接口卡比如LAN卡、调制解调器等。通信部分609允许经由网络比如因特网执行通信处理。容易理解的是，虽然图6中示出电子设备600中的各个装置或模块是通过总线604来通信的，但它们也可以通过网络或其它方式进行通信，其中，网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。

根据需要，驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，可以从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行根据本公开的实施例的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被CPU 601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，在本公开的上下文中，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

在一些实施例中，还提供了一种计算机程序，包括：指令，指令当由处理器执行时使处理器执行上述任一个实施例的方法。例如，指令可以体现为计算机程序代码。

在本公开的实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(，包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块、部件或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示例性的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

根据本公开的一些实施例，提出了一种不连续观测场景中的物体定位方法，包括以下步骤：基于观测中断之后恢复观测时获得的基准图像获取物体模型；以及基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联。

在一些实施例中，物体的重建模型是通过基于物体的连续图像对物体进行模型重建而得到的。在一些实施例中，物体的连续图像是在观测中断之前预定数量的连续观测图像。

在一些实施例中，物体的重建模型是选自包括基于面元的模型、点云模型的组中的任一个。

在一些实施例中，连续图像包括物体的连续RGB图像和深度图像，并且基于连续图像重建的模型是基于面元的模型。

在一些实施例中，基于基准图像获取的物体模型是物体点云模型。在一些实施例中，所述基准图像为恢复观测时获得的起始图像，并且从起始图像获取2.5D实例点云作为物体点云模型。

在一些实施例中，基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联进一步包括：基于物体信息来确定物体点云模型和物体重建模型之间的相似性，并且基于相似性来进行观测中断前后的物体之间关联。

在一些实施例中，物体信息包括物体几何特征、物体纹理特征、物体颜色特征中的至少一个。在一些实施例中，所述物体信息包括几何特征和颜色特征两者，并且基于几何特征和颜色特征两者来确定物体点云模型和物体重建模型之间的相似性。

在一些实施例中，基于相似性来进行观测中断前后的物体之间关联进一步包括：基于相似性来确定观测中断前后的物体之间的一一对应关系以使得观测中断前后的物体之间关联。在一些实施例中，基于多个物体信息与多个物体模型之间的最大总和相似性来确定观测中断前后物体的一一对应关系。

在一些实施例中，所述方法进一步包括：将关联的观测中断前后的物体进行对齐。在一些实施例中，通过空间变换来将观测中断后的物体与观测中断之前的物体的姿态进行对齐。

根据本公开的一些实施例，提供了一种不连续观测场景中的物体关联装置，包括：模型获取单元，被配置为基于观测中断之后恢复观测时获得的基准图像获取物体模型；以及关联单元，被配置为基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联。

在一些实施例中，关联单元进一步包括：相似性确定单元，被配置为基于物体信息来确定物体点云模型和物体重建模型之间的相似性，并且所述关联单元进一步基于相似性来进行观测中断前后的物体之间关联。

在一些实施例中，所述关联单元进一步配置为：基于相似性来确定观测中断前后的物体之间的一一对应关系以使得观测中断前后的物体之间关联。在一些实施例中，基于多个物体信息与多个物体模型之间的最大总和相似性来确定观测中断前后物体的一一对应关系。

在一些实施例中，关联装置可进一步包括：对齐单元，被配置为将关联的观测中断前后的物体进行对齐。在一些实施例中，所述对齐单元被配置为通过空间变换来将观测中断后的物体与观测中断之前的物体的姿态进行对齐。

在一些实施例中，关联装置还可以包括模型重建单元，被配置为基于物体的连续图像对物体进行模型重建。在一些实施例中，物体的连续图像是在观测中断之前预定数量的连续观测图像。在一些实施例中，物体的重建模型是选自包括基于面元的模型、点云模型的组中的任一个。在一些实施例中，连续图像包括物体的连续RGB图像和深度图像，并且基于连续图像重建的模型是基于面元的模型。

根据本公开的又一些实施例，提供一种电子设备，包括：存储器；和耦接至所述存储器的处理器，所述存储器中存储有指令，所述指令当由所述处理器执行时，使得所述电子设备执行本公开中所述的任一实施例的方法。

根据本公开的又一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序由处理器执行时实现本公开中所述的任一实施例的方法。

根据本公开的又一些实施例，提供计算机程序，包括：指令，指令当由处理器执行时使处理器执行本公开中所述的任一实施例的方法。

根据本公开的一些实施例，提供一种计算机程序产品，包括指令，所述指令当由处理器执行时实现本公开中所述的任一实施例的方法。

以上描述仅为本公开的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

在本文提供的描述中，阐述了许多特定细节。然而，理解的是，可以在没有这些特定细节的情况下实施本公开的实施例。在其他情况下，为了不模糊该描述的理解，没有对众所周知的方法、结构和技术进行详细展示。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

一种不连续观测场景中的物体定位方法，包括以下步骤：

基于观测中断之后恢复观测时获得的基准图像获取物体模型，其中物体模型是观测恢复后场景中物体的模型；以及

基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联，其中物体重建模型是观测中断之前场景中物体的模型。
根据权利要求1所述的方法，其中，物体重建模型是通过基于物体的连续图像对物体进行模型重建而得到的。
根据权利要求2所述的方法，其中，物体重建模型是选自包括基于面元的模型、点云模型的组中的任一个。
根据权利要求2所述的方法，其中，连续图像包括物体的连续RGB图像和深度图像，并且基于连续图像重建的模型是基于面元的模型。
根据权利要求2-4中任一项所述的方法，其中，物体的连续图像是在观测中断之前预定数量的连续观测图像。
根据权利要求1所述的方法，其中，基于基准图像获取的物体模型是物体点云模型。
根据权利要求1所述的方法，其中，所述基准图像为恢复观测时获得的起始图像，并且从起始图像获取2.5D实例点云作为物体点云模型。
根据权利要求1所述的方法，其中，基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联进一步包括：

基于物体信息来确定物体点云模型和物体重建模型之间的相似性，并且

基于相似性来进行观测中断前后的物体之间关联。
根据权利要求8所述的方法，其中，物体信息包括物体几何特征、物体纹理特征、物体颜色特征中的至少一个。
根据权利要求8所述的方法，所述物体信息包括几何特征和颜色特征两者，并且基于几何特征和颜色特征两者来确定物体点云模型和物体重建模型之间的相似性。
根据权利要求8所述的方法，其中，基于相似性来进行观测中断前后的物体之间关联进一步包括：

基于相似性来确定观测中断前后的物体之间的一一对应关系以使得观测中断前后的物体之间关联。
根据权利要求11所述的方法，其中，基于多个物体信息与多个物体模型之间的最大总和相似性来确定观测中断前后物体的一一对应关系。
根据权利要求1所述的方法，所述方法进一步包括：

将关联的观测中断前后的物体进行对齐。
根据权利13所述的方法，其中，通过空间变换来将观测中断后的物体与观测中断之前的物体的姿态进行对齐。
一种不连续观测场景中的物体关联装置，包括：

模型获取单元，被配置为基于观测中断之后恢复观测时获得的基准图像获取物体模型；以及

关联单元，被配置为基于所获取的物体模型与物体重建模型以实现观测中断前后物体关联。
根据权利要求15所述的装置，其中，关联单元进一步包括：

相似性确定单元，被配置为基于物体信息来确定物体点云模型和物体重建模型之间的相似性，并且

所述关联单元进一步基于相似性来进行观测中断前后的物体之间关联。
根据权利要求15所述的装置，进一步包括：

对齐单元，被配置为将关联的观测中断前后的物体进行对齐。
一种电子设备，包括：

存储器；和

耦接至所述存储器的处理器，所述存储器中存储有指令，所述指令当由所述处理器执行时，使得所述电子设备执行根据权利要求1-14中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，该程序由处理器执行时实现根据权利要求1-14中任一项所述的方法。
一种计算机程序产品，包括指令，该指令在由处理器执行时导致实现根据权利要求1-14中任一项所述的方法。