WO2021184530A1 - 基于强化学习的无标签六维物体姿态预测方法及装置 - Google Patents

基于强化学习的无标签六维物体姿态预测方法及装置 Download PDF

Info

Publication number
WO2021184530A1
WO2021184530A1 PCT/CN2020/091342 CN2020091342W WO2021184530A1 WO 2021184530 A1 WO2021184530 A1 WO 2021184530A1 CN 2020091342 W CN2020091342 W CN 2020091342W WO 2021184530 A1 WO2021184530 A1 WO 2021184530A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
dimensional
prediction
target
target object
Prior art date
Application number
PCT/CN2020/091342
Other languages
English (en)
French (fr)
Inventor
季向阳
邵键准
Original Assignee
清华大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 清华大学 filed Critical 清华大学
Publication of WO2021184530A1 publication Critical patent/WO2021184530A1/zh
Priority to US17/881,615 priority Critical patent/US20230005181A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Definitions

  • the pose prediction model includes a basic network and a strategy network
  • the use of the sample images to perform reinforcement learning training to obtain the pose prediction model includes:
  • the device further includes: a training module;
  • the processor is configured to:
  • Target image Acquiring a target image to be predicted, where the target image is a two-dimensional image including the target object;
  • the three-dimensional position and three-dimensional direction of the target object are determined.
  • Fig. 4 shows a schematic structural diagram of a pose prediction model provided by an exemplary embodiment of the present disclosure
  • Fig. 6 shows a schematic structural diagram of an unlabeled six-dimensional object pose prediction device based on reinforcement learning according to an exemplary embodiment of the present disclosure.
  • the object pose prediction system 10 is used in a computer device.
  • the computer device may be a terminal or a server.
  • the posture prediction model 12 adopts a Markov Decision Process ((Markov Decision Process, MDP)) model architecture.
  • MDP Markov Decision Process
  • the pose prediction model is used to indicate a model that uses two-dimensional image annotation as weak supervision information and performs six-dimensional object pose prediction based on reward sequence decisions.
  • the pose prediction model is a model obtained by training the original parameter model with sample images, and the sample images are images that include the target object.
  • the posture prediction model includes a basic network and a strategy network.
  • the strategy network includes a rotation branch network, a translation branch network and a value function branch network.
  • the basic network is used to extract features from the target image, and the rotation branch network is used to target the target object according to the feature.
  • the amount of rotation is predicted, the amount of translation branch network is used to predict the amount of translation of the target object based on the characteristics, the amount of rotation branch network and the amount of translation branch network are connected together to determine the strategy according to the rotation distribution characteristics and translation distribution characteristics of the target object The value function of the network.
  • State also known as state information, including all the knowledge that the environment can provide, used to instruct the strategy network to rotate and translate the three-dimensional model.
  • the observation image of the 3D model, the real mask image frame corresponding to the observation image, the rendered image and the rendering mask corresponding to the rendered image are determined by the current posture. These four images are connected together to form state information sk, as The input parameters of the policy network.
  • the computer equipment extracts the state information of the target object from the sample image through the basic network.
  • the state information includes an observation image, a real mask image frame corresponding to the observation image, a rendered image, and a rendering mask corresponding to the rendered image.
  • the computer device performs rendering based on the three-dimensional model of the target object and the initial six-dimensional pose estimation to obtain the rendered image of the target object and the corresponding rendering mask.
  • the rendering mask is a mask that renders the target object in the image.
  • the observation image is an image obtained by photographing the target object.
  • the real mask image frame is the mask of the target object in the observation image, and is also called the real two-dimensional mask image frame.
  • the attitude prediction model includes a basic network and a strategy network
  • the training module is further used for:
  • the policy network is updated according to at least one sample data set, the sample data set including the state information, the action information, and the corresponding reward value of the target object.
  • the computer equipment is a terminal or a server.
  • Non-exhaustive list of computer-readable storage media include: portable computer disks, hard disks, random access memory (RAM), read-only memory (ROM), erasable programmable read-only memory (EPROM) Or flash memory), static random access memory (SRAM), portable compact disk read-only memory (CD-ROM), digital versatile disk (DVD), memory stick, floppy disk, mechanical encoding device, such as a printer with instructions stored thereon
  • RAM random access memory
  • ROM read-only memory
  • EPROM erasable programmable read-only memory
  • flash memory flash memory
  • SRAM static random access memory
  • CD-ROM compact disk read-only memory
  • DVD digital versatile disk
  • memory stick floppy disk
  • mechanical encoding device such as a printer with instructions stored thereon
  • the computer-readable storage medium used here is not interpreted as the instantaneous signal itself, such as radio waves or other freely propagating electromagnetic waves, electromagnetic waves propagating through waveguides or other transmission media (for example, light pulses through fiber optic cables), or through wires Transmission of electrical signals.
  • the computer-readable program instructions described herein can be downloaded from a computer-readable storage medium to various computing/processing devices, or downloaded to an external computer or external storage device via a network, such as the Internet, a local area network, a wide area network, and/or a wireless network.
  • the network may include copper transmission cables, optical fiber transmission, wireless transmission, routers, firewalls, switches, gateway computers, and/or edge servers.
  • the network adapter card or network interface in each computing/processing device receives computer-readable program instructions from the network, and forwards the computer-readable program instructions for storage in the computer-readable storage medium in each computing/processing device .

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种基于强化学习的无标签六维物体姿态预测方法及装置。所述方法包括:获取待预测的目标图像(14),目标图像(14)为包括目标对象的二维图像(201);根据目标图像(14),采用预先训练得到的姿态预测模型(12)进行姿态预测得到预测结果(16),姿态预测模型(12)是根据样本图像进行强化学习得到的模型(202);根据预测结果(16),确定所述目标对象的三维位置和三维方向(203)。通过引入强化学习来训练姿态预测模型(12),根据目标图像(14)采用预先训练得到的姿态预测模型(12)进行姿态预测,使得在没有真实的姿态标注的情况下可以解决基于二维图像的六维物体姿态估计的问题,保证了无标签六维物体姿态预测的预测效果。

Description

基于强化学习的无标签六维物体姿态预测方法及装置 技术领域
本公开涉及人工智能技术领域,尤其涉及一种基于强化学习的无标签六维物体姿态预测方法及装置。
背景技术
六维物体姿态预测方法包括从一幅二维图像中定位目标物体的三维位置和三维方向的方法。
相关技术中,六维物体姿态预测方法可以包括如下步骤:计算机设备获取待检测的二维图像,在二维空间中比较目标物体的渲染对象和观测对象,预测当前估计值与真实值之间的六维姿态差,从而进行六维物体姿态估计。
在上述方法中涉及真实的姿态标注,真实的姿态标签标注对于当前实现姿态优化性能的方法至关重要。然而,真实的六维物体姿态标注的二维图像的获取过程相当复杂,极大地限制了上述方法的实现。目前尚未提供一种合适且精确的六维物体姿态预测方法。
发明内容
有鉴于此,本公开提出了一种基于强化学习的无标签六维物体姿态预测方法及装置。所述技术方案包括:
根据本公开的一方面,提供了一种基于强化学习的无标签六维物体姿态预测方法,用于计算机设备中,所述方法包括:
获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
根据所述预测结果,确定所述目标对象的三维位置和三维方向。
在一种可能的实现方式中,所述根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果之前,还包括:
采用所述样本图像进行强化学习训练得到所述姿态预测模型,所述姿态预测模型为基于马尔可夫决策过程的模型。
在另一种可能的实现方式中,所述姿态预测模型包括基础网络和策略网络,所述采用所述样本图像进行强化学习训练得到所述姿态预测模型,包括:
通过所述基础网络从所述样本图像中提取所述目标对象的状态信息,所述状态信息包括观测图像、所述观测图像对应的真实掩模图像框、渲染图像和所述渲染图像对应的渲染掩模;
将所述状态信息输入至所述策略网络中输出动作信息,所述动作信息用于指示所述目标对象的旋转分布特征和平移分布特征;
根据所述动作信息对所述观测图像进行重新渲染;
在重新渲染后,根据二维空间中当前的渲染掩模和所述真实掩模图像框之间的差别计算奖励值;
根据至少一组样本数据组对所述策略网络进行更新,所述样本数据组包括所述目标对象的所述状态信息、所述动作信息和对应的奖励值。
在另一种可能的实现方式中,所述奖励值包括差分奖励值、目标达到奖励值和集中奖励值;
所述差分奖励值用于指示所述当前的渲染图像与所述观测图像之间的匹配程度,所述集中奖励值用于指示所述当前的渲染图像与所述观测图像之间在几何位置上的匹配程度,所述目标达到奖励值用于指示是否停止对所述策略网络的更新。
在另一种可能的实现方式中,所述根据至少一组样本数据组对所述策略网络进行更新,包括:
根据至少一组所述样本数据组,采用近端策略优化(Proximal Policy Optimization,PPO)算法对所述策略网络进行更新;
根据设置的优先队列中的缓存数据,对所述策略网络的价值函数进行更新,所述缓存数据为缓冲区中存储的已使用过的所述样本数据组。
根据本公开的另一方面,提供了一种基于强化学习的无标签六维物体姿态预测装置,用于计算机设备中,所述装置包括:
获取模块,用于获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
预测模块,用于根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
确定模块,用于根据所述预测结果,确定所述目标对象的三维位置和三维方向。
在一种可能的实现方式中,所述装置,还包括:训练模块;
所述训练模块,用于采用所述样本图像进行强化学习训练得到所述姿态预测模型,所述姿态预测模型为基于马尔可夫决策过程的模型。
在另一种可能的实现方式中,所述姿态预测模型包括基础网络和策略网络,所述训练模块,还用于:
通过所述基础网络从所述样本图像中提取所述目标对象的状态信息,所述状态信息包括观测图像、所述观测图像对应的真实掩模图像框、渲染图像和所述渲染图像对应的渲染掩模;
将所述状态信息输入至所述策略网络中输出动作信息,所述动作信息用于指示所述目标对象的旋转分布特征和平移分布特征;
根据所述动作信息对所述观测图像进行重新渲染;
在重新渲染后,根据二维空间中当前的渲染掩模和所述真实掩模图像框之间的差别计算奖励值;
根据至少一组样本数据组对所述策略网络进行更新,所述样本数据组包括所述目标对象的所述状态信息、所述动作信息和对应的奖励值。
在另一种可能的实现方式中,所述奖励值包括差分奖励值、目标达到奖励值和集中奖励值;
所述差分奖励值用于指示所述当前的渲染图像与所述观测图像之间的匹配程度,所述集中奖励值用于指示所述当前的渲染图像与所述观测图像之间在几何位置上的匹配程度,所述目标达到奖励值用于指示是否停止对所述策略网络的更新。
在另一种可能的实现方式中,所述训练模块,还用于:
根据至少一组所述样本数据组,采用PPO算法对所述策略网络进行更新;
根据设置的优先队列中的缓存数据,对所述策略网络的价值函数进行更新,所述缓存数据为缓冲区中存储的已使用过的所述样本数据组。
根据本公开的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
根据所述预测结果,确定所述目标对象的三维位置和三维方向。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的方法。
本公开实施例提供了一种基于强化学习的无标签六维物体姿态预测方法,通过计算机设备获取待预测的目标图像,目标图像为包括目标对象的二维图像;根据目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,姿态预测模型是根据样本图像进行强化学习得到的模型;根据预测结果确定目标对象的三维位置和三维方向;即通过引入强化学习来训练姿态预测模型,使得在没有真实的姿态标注的情况下可以解决基于二维图像的六维物体姿态估计的问题,保证了无标签六维物体姿态预测的预测效果。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出了本公开一个示例性实施例提供的物体姿态预测系统的示意图;
图2示出了本公开一个示例性实施例提供的基于强化学习的无标签六维物体姿态预测方法的流程图;
图3示出了本公开一个示例性实施例提供的基于强化学习的无标签六维物体姿态预测方法涉及的原理示意图;
图4示出了本公开一个示例性实施例提供的姿态预测模型的结构示意图;
图5示出了本公开另一个示例性实施例提供的基于强化学习的无标签六维物体姿态预测方法的流程图;
图6示出了本公开一个示例性实施例提供的基于强化学习的无标签六维物体姿态预测装置的结构示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
请参考图1,其示出了本公开一个示例性实施例提供的物体姿态预测系统的示意图。
物体姿态预测系统10用于计算机设备中,该计算机设备可以是终端,也可以是服务器。
该物体姿态预测系统10用于实现对待预测的二维图像进行无标签六维物体姿态预测。该物体姿态预测系统10包括姿态预测模型12。
该物体姿态预测系统10用于获取包括目标对象的二维图像即目标图像14,根据目标图像14采用预先训练得到的姿态预测模型进行姿态预测得到预测结果16,从而确定目标对象的三维位置和三维方向。
姿态预测模型12是采用强化学习进行训练得到的模型,以实现了无标签六维物体姿态优化解决方案。
姿态预测模型12包括工具、环境、策略、动作、状态和奖励值等元素。相关细节可参考下面实施例中的描述,在此先不介绍。
可选的,姿态预测模型12采用马尔可夫决策过程((Markov Decision Process,MDP))模型架构。
可选的,该物体姿态预测系统10还包括:存储设备18。存储设备18为具有数据存储功能的设备。存储设备18用于存储无标签六维物体姿态预测过程中用到的数据,如包括待预测的目标图像对应的状态信息、姿态预测模型12的相关参数等等。本公开实施例对此不加以限定。
下面,采用示意性地实施例对本公开实施例提供的基于强化学习的无标签六维物体姿态预测方法进行介绍。
请参考图2,其示出了本公开一个示例性实施例提供的基于强化学习的无标签六维物体姿态预测方法的流程图。该方法可以用于计算机设备中,该方法包括但不限于如下步骤:
步骤201,获取待预测的目标图像,目标图像为包括目标对象的二维图像。
计算机设备待预测的包括目标对象的二维图像即目标图像,目标对象为待进行姿态预测的对象,比如,目标对象为物体或者人物。
可选的,计算机设备获取候选二维图像,从候选二维图像中提取目标区域,目标区域是候选二维图像中目标对象所在的区域,将该目标区域确定为待预测的目标图像。
步骤202,根据目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,姿态预测模型是根据样本图像进行强化学习得到的模型。
计算机设备根据目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果。
计算机设备获取预先训练得到的姿态预测模型,将目标图像输入至姿态预测模型输出得到预测结果。
姿态预测模型是根据样本图像进行强化学习得到的模型。
姿态预测模型用于指示采用二维图像标注作为弱监督信息,并基于奖励序列决策进行六维物体姿态预测的模型。
姿态预测模型是采用样本图像对原始参数模型进行训练得到的模型,样本图像是包括目标对象的图像。
姿态预测模型是具有对目标图像中的目标对象的六维物体姿态进行预测的强化学习模型。
姿态预测模型用于提取目标图像中的目标对象的预测结果。
可选的,姿态预测模型用于表示目标图像中的目标对象与预测结果之间的相关关系。
可选的,姿态预测模型用于表示在预设场景下目标图像中的目标对象与预测结果之间的相关关系。
可选的,姿态预测模型为预设的数学模型,该姿态预测模型包括目标图像中的目标对象与预测结果之间的模型系数。模型系数可以为固定值,也可以是随时间动态修改的值,还可以是随着使用场景动态修改的值。
其中,姿态预测模型可以是基于马尔可夫决策过程的模型。
可选的,计算机设备根据目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果之前,还包括:采用样本图像进行强化学习训练得到姿态预测模型,姿态预测模型为基于马尔可夫决策过程的模型。
预测结果也称为预测动作信息,即预测的目标对象的动作信息,动作信息用于指示目标对象的旋转分布特征和平移分布特征。
步骤203,根据预测结果,确定目标对象的三维位置和三维方向。
计算机设备根据预测结果估计目标对象的六维物体姿态,即确定目标对象的三维位置和三维方向。
综上所述,本公开实施例提供了一种基于强化学习的无标签六维物体姿态预测方法,通过计算机设备获取待预测的目标图像,目标图像为包括目标对象的二维图像;根据目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,姿态预测模型是根据样本图像进行强化学习得到的模型;根据预测结果确定目标对象的三维位置和三维方向;即通过引入强化学习来训练姿态预测模型,使得在没有真实的姿态标注的情况下可以解决基于二维图像的六维物体姿态估计的问题,保证了无标签六维物体姿态预测的预测效果。
为了实现精确的六维物体姿态预测,通过将三维物体的二维投影与其在二维图像中观察到的外观对齐。由于不涉及真实标注的六维物体姿态信息,在本公开实施例中的强化学习也称为无姿态强化学习,基于无姿态强化学习进行六维物体姿态预测。假设策略网络在每个时间步骤所做的决策将仅基于当前状态,而不受先前状态的影响,这可以表示为马尔可夫决策过程。模型的目标是最大化未来折扣奖励的预期总和。为了通过采用强化学习来实现无标签六维物体姿态优化解决方案,在技术实现时,需要将无标签六维物体姿态优化解决方案映射到强化学习中的适当操作。在示例性实施例中,请参考图3,其示出了本公开一个示例性实施例提供的基于强化学习的无标签六维物体姿态预测方法涉及的原理示意图。强化学习中的六个关键元素与本公开实施例提供的方案中各个元素之间的对应关系如下:
工具(英文:Agent):也称为智能体,其主要是由强化学习模型即上述的姿态预测模型构成。该姿态预测模型可以由深度神经网络实现,该姿态预测模型的输入参数是包括目标对象的二维图像即目标 图像,输出参数是目标对象的动作信息。该姿态预测模型用于提供根据目标图像输出目标对象的动作信息,对该模型的训练过程,实则是对目标对象的动作信息进行调整的过程。例如,通过更新策略网络(也即调整模型的参数)以获得更高的奖励值(即更高的性能)。
姿态预测模型包括基础网络和策略网络,策略网络包括旋转量分支网络、平移量分支网络和价值函数分支网络,基础网络用于从目标图像中提取特征,旋转量分支网络用于根据特征对目标对象的旋转量进行预测,平移量分支网络用于根据特征对目标对象的平移量进行预测,旋转量分支网络和平移量分支网络连接在一起用于根据目标对象的旋转分布特征和平移分布特征确定策略网络的价值函数。
示意性的,如图4所示,其示出了姿态预测模型的结构示意图。主干包括FlowNet-S的前11个卷积层。姿态预测模型包括基础网络41和策略网络。在本公开实施例中,策略网路在训练和推理方面都是轻量级的,不使用大量的光流计算和掩码分支。策略网路中包括旋转量分支网络、平移量分支网络和价值函数分支网络,即采用两个独立的分支来预测分离的旋转分布和平移分布。这两个分支均包括2个全连接层(英文:Fully connected layer)和256个隐藏单元,后面连接一个附加的全连接层。这两个分支的最后一个全连接层连接在一起之后连接两个全连接层,用于生成价值函数。这样,价值函数分支网络与旋转量分支网络和平移量分支网络共享相同的参数,并且可以用于同时优化旋转和平移这两类操作。在馈送到主干之前,将输入图像和对应的掩模进行预处理,预处理包括裁剪和放大,预处理后的输入图像和对应的掩模中的目标对象占图像的主体位置。将预处理后的输入图像和对应的掩模作为输入参数,基础网络42用于从输入参数41中提取特征图43。平移量分支网络用于根据特征图对目标对象的平移量a t进行预测,旋转量分支网络用于根据特征图对目标对象的旋转量a R进行预测,价值函数分支网络用于根据目标对象的旋转分布特征和平移分布特征确定策略网络的价值函数44。
环境(英文:Environment):对应于调整目标,即待调整的目标对象。
状态(英文:State):也称为状态信息,包括环境能提供的所有知识,用于指示策略网络对三维模型进行旋转和平移。在当前时间步骤k,由当前姿态确定3D模型的观测图像、观测图像对应的真实掩模图像框、渲染图像和渲染图像对应的渲染掩模,这四个图像连接在一起形成状态信息sk,作为策略网络的输入参数。
在测试过程中,由于目标对象的真实掩模图像框不可用,因此可使用初始姿态的渲染掩模图像框来替代。
奖励值(英文:Reward):也称为激励值,其是一个标量,表示目标对象在应用动作信息前后的性能差异。在示例性实施例中,假设目标对象在时间k的状态信息为S k,姿态预测模型根据该S k输出的动作信息为a k,目标对象在应用该a k之后的奖励值可记为r k,表示目标对象在应用a k前后的性能变化。
动作(英文:Action):也称为动作信息,是策略网络在每个时间步执行的相对SE(3)变换,它将影响环境的状态。可以采用相对动作的表示形式,因为它具有分离旋转和平移的特性,即旋转和平移的作用不受相互影响。从策略网络参数化的两个分布中随机选择旋转和平移动作。与传统的强化学习方法不同,通过将旋转分布特征和平移分布特征连接在一起来估计策略网络的价值函数。分别评估策略模型的连续分布和离散分布。以使用高斯分布作为连续分布的形式,用分类分布作为离散分布的 形式为例,为离散分布的旋转和平移动作分别手工制作了13个操作,其中12个操作包括沿x、y、z正反方向旋转或平移固定的步长,最后一个操作是保持不平移/不旋转。
策略(英文:Policy):也称为策略网络,用于指示状态信息与动作信息之间的映射关系。策略网络为深度神经网络,其输入参数是目标对象的状态信息,输出参数是目标对象的动作信息。
强化学习通过模型和环境之间的交互过程做出策略决策。与监督学习或无监督学习不同,强化学习是依赖于累计奖励而不是标签来进行训练和学习。强化学习的目标就是通过不断地与环境进行互动,基于环境的回报来优化自己的策略,然后通过采集更新的策略来获得更高的回报。
在示例性实施例中,通过深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的强化学习方法进行建模。
需要说明的是,图3和图4所示的网络结构和参数仅是示例性和解释性的,并不用于对本公开技术方案构成限定。
请参考图5,其示出了本公开另一个示例性实施例提供的基于强化学习的无标签六维物体姿态预测方法的流程图。该方法可以用于计算机设备中,该方法包括但不限于如下步骤:
步骤501,通过基础网络从样本图像中提取目标对象的状态信息,状态信息包括观测图像、观测图像对应的真实掩模图像框、渲染图像和渲染图像对应的渲染掩模。
计算机设备通过基础网络从样本图像中提取目标对象的状态信息。其中,状态信息包括观测图像、观测图像对应的真实掩模图像框、渲染图像和渲染图像对应的渲染掩模。
可选的,计算机设备基于目标对象的三维模型和初始六维姿态估计进行渲染,得到目标对象的渲染图像和对应的渲染掩模。渲染掩模为渲染图像中的目标对象的掩模。
观测图像为对目标对象进行拍摄得到的图像。真实掩模图像框为观测图像中的目标对象的掩模,也称为真实二维掩模图像框。
步骤502,将状态信息输入至策略网络中输出动作信息,动作信息用于指示目标对象的旋转分布特征和平移分布特征。
计算机设备将状态信息输入至策略网络中输出动作信息。其中,动作信息用于指示目标对象的旋转分布特征和平移分布特征。
策略网络用于指示状态信息与动作信息之间的映射关系,动作信息包括目标对象的旋转量和平移量。
步骤503,根据动作信息对观测图像进行重新渲染。
计算机设备根据动作信息对观测图像进行重新渲染。
计算机设备根据动作信息平移和/或旋转目标对象的三维模型,=以便与观测值对齐。
步骤504,在重新渲染后,根据二维空间中当前的渲染掩模和真实掩模之间的差别计算奖励值。
计算机设备根据二维空间中当前的渲染掩模和真实掩模之间的差别计算奖励值。
在旋转和平移三维模型后,采用一个奖励函数对策略网络进行更新。在无姿态的情况下,本公开实施例提供了一种基于二维掩模的奖励机制,该机制的奖励值包括差分奖励值、目标达到奖励值和集中奖励值。差分奖励值用于指示当前的渲染图像与观测图像之间的匹配程度,集中奖励值用于指示当 前的渲染图像与观测图像之间在几何位置上的匹配程度,目标达到奖励值用于指示是否停止对策略网络的更新。
差分奖励值用于指示当前的渲染图像与观测图像之间的匹配程度。可选的,差分奖励值是根据相邻两个时间节点各自对应的交并比(Intersection-over-Union,IoU)确定的。其中,交并比是当前的渲染掩模与真实掩模的交叠率,即当前的渲染掩模与真实掩模的交集与并集的比值。
示意性的,计算机设备获取相邻两个时间节点各自对应的交并比,将这两个交并比分别映射到预设分段函数后得到对应的映射值,将这两个映射值的差值绝对值确定为差分奖励值。本公开实施例对预设分段函数的设置方式不加以限定。
集中奖励值用于指示当前的渲染图像与观测图像之间在几何位置上的匹配程度。可选的,集中奖励值是根据当前的渲染掩模与真实掩模各自对应的重心之间的距离确定的,当前的渲染掩模为当前的渲染图像中目标对象的掩模,真实掩模为观测图像中目标对象的掩模。比如,计算机设备将当前的渲染掩模与真实掩模各自对应的重心之间的距离的-0.5次方确定为集中奖励值。
目标达到奖励值用于指示是否停止对策略网络的更新。可选的,目标达到奖励值默认为第一数值,用于指示不停止对策略网络的更新。若当前时间节点对应的交并比大于预设阈值则将目标达到奖励值从第一数值调整为第二数值,用于指示停止对策略网络的更新。比如,第一数值为0,第二数值为1,预设阈值为0.95。本公开实施例对第一数值、第二数值和预设阈值的具体取值不加以限定。
需要说明的是,本公开实施例对差分奖励值、目标达到奖励值和集中奖励值的具体计算方式不加以限定。
步骤505,根据至少一组样本数据组对策略网络进行更新,样本数据组包括目标对象的状态信息、动作信息和对应的奖励值。
由于高维状态空间给策略网络的训练带来了高度的方差和不稳定性,要充分利用强化学习模型的强大功能通常需要数以百万计的样本,然而在六维物体姿态预测中很难呈现出如此巨大的样本图像量。在本公开实施例中提供了一种任务特定的复合强化优化方法,用于六维物体姿态预测,即将在线策略和离线策略结合起来以充分利用渲染图像。
在一种可能的实现方式中,计算机设备根据至少一组样本数据组对策略网络进行更新,包括:根据至少一组样本数据组,采用PPO算法对策略网络进行更新;根据设置的优先队列(英文:priority queue)中的缓存数据,对策略网络的价值函数进行更新,缓存数据为缓冲区中存储的已使用过的样本数据组。
计算机设备根据至少一组样本数据组,采用PPO算法对策略网络进行更新。其中,样本数据组包括目标对象的状态信息、动作信息和对应的奖励值。比如,一个样本数据组为状态动作奖励函数(s k,a k,r k)。
更新策略网络后,样本数据组不再与当前的策略网络关联,即动作信息已被属于被以前的策略网络采样而非当前的策略网络采样。因此样本数据组不能用于在线策略优化。为了进一步充分利用已使用过的样本数据,充分利用数据的有效性,引入离线策略价值更新策略网络以辅助策略网络上的优化,加快训练过程。通过在缓冲区中设置优先队列来存储已使用过的数据样本,根据设置的优先队列中的缓存数据,对策略网络的价值函数进行更新,其中,优先队列是一种先进先出的数据结构。
综上所述,本公开实施例提供了一种基于强化学习的无标签六维物体姿态预测方法,在没有真实 的姿态标注的情况下解决了基于目标图像的六维物体姿态预测问题,同时避免基于合成数据的模型训练带来的域差异。为了实现这一目标,在一方面,通过将六维物体姿态优化问题表示为马尔可夫决策过程,并引入强化学习。在给定初始姿态估计的情况下,按顺序旋转和/或平移目标对象的三维模型,以便与观测值对齐。在另一方面,为了训练姿态预测模型,设计了一个基于二维掩模的奖励值,奖励值是根据当前的渲染图像和目标图像的二维掩模计算得到的。对于每一个姿态优化过程,累积的奖励被最大化,从而产生能够平稳且快速地接近目标姿态的策略。在另一方面,还提出了一种复合强化优化方法来有效地学习操作策略,与现有的监督方法相比,本实施例利用马尔可夫决策过程从弱监督的掩模相似性,而不是从真实的六维物体姿态标注来优化延迟积累的奖励。在另一方面,在LINEMOD和T-LESS数据集上,与不使用真实六维姿态标签的方法相比,我们获得了较好的姿态预测性能。
以下为本公开实施例的装置实施例,对于装置实施例中未详细阐述的部分,可以参考上述方法实施例中公开的技术细节。
请参考图6,其示出了本公开一个示例性实施例提供的基于强化学习的无标签六维物体姿态预测装置的结构示意图。该装置可以通过软件、硬件以及两者的组合实现成为计算机设备的全部或一部分。该装置包括:获取模块610、预测模块620和确定模块630。
获取模块610,用于获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
预测模块620,用于根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
确定模块630,用于根据所述预测结果,确定所述目标对象的三维位置和三维方向。
在一种可能的实现方式中,所述装置,还包括:训练模块;
所述训练模块,用于采用所述样本图像进行强化学习训练得到所述姿态预测模型,所述姿态预测模型为基于马尔可夫决策过程的模型。
在另一种可能的实现方式中,所述姿态预测模型包括基础网络和策略网络,所述训练模块,还用于:
通过所述基础网络从所述样本图像中提取所述目标对象的状态信息,所述状态信息包括观测图像、所述观测图像对应的真实掩模图像框、渲染图像和所述渲染图像对应的渲染掩模;
将所述状态信息输入至所述策略网络中输出动作信息,所述动作信息用于指示所述目标对象的旋转分布特征和平移分布特征;
根据所述动作信息对所述观测图像进行重新渲染;
在重新渲染后,根据二维空间中当前的渲染掩模和所述真实掩模图像框之间的差别计算奖励值;
根据至少一组样本数据组对所述策略网络进行更新,所述样本数据组包括所述目标对象的所述状态信息、所述动作信息和对应的奖励值。
在另一种可能的实现方式中,所述奖励值包括差分奖励值、目标达到奖励值和集中奖励值;
所述差分奖励值用于指示所述当前的渲染图像与所述观测图像之间的匹配程度,所述集中奖励值用于指示所述当前的渲染图像与所述观测图像之间在几何位置上的匹配程度,所述目标达到奖励值用 于指示是否停止对所述策略网络的更新。
在另一种可能的实现方式中,所述训练模块,还用于:
根据至少一组所述样本数据组,采用PPO算法对所述策略网络进行更新;
根据设置的优先队列中的缓存数据,对所述策略网络的价值函数进行更新,所述缓存数据为缓冲区中存储的已使用过的所述样本数据组。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各个功能模块的划分进行举例说明,实际应用中,可以根据实际需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供了一种计算机设备,所述计算机设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:实现上述各个方法实施例中由计算机设备执行的步骤。
可选的,计算机设备为终端或者服务器。
本公开实施例还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述各个方法实施例中的方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执 行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (8)

  1. 一种基于强化学习的无标签六维物体姿态预测方法,其特征在于,用于计算机设备中,所述方法包括:
    获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
    根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
    根据所述预测结果,确定所述目标对象的三维位置和三维方向。
  2. 根据权利要求1所述的方法,其特征在于,所述根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果之前,还包括:
    采用所述样本图像进行强化学习训练得到所述姿态预测模型,所述姿态预测模型为基于马尔可夫决策过程的模型。
  3. 根据权利要求2所述的方法,其特征在于,所述姿态预测模型包括基础网络和策略网络,所述采用所述样本图像进行强化学习训练得到所述姿态预测模型,包括:
    通过所述基础网络从所述样本图像中提取所述目标对象的状态信息,所述状态信息包括观测图像、所述观测图像对应的真实掩模图像框、渲染图像和所述渲染图像对应的渲染掩模;
    将所述状态信息输入至所述策略网络中输出动作信息,所述动作信息用于指示所述目标对象的旋转分布特征和平移分布特征;
    根据所述动作信息对所述观测图像进行重新渲染;
    在重新渲染后,根据二维空间中当前的渲染掩模和所述真实掩模图像框之间的差别计算奖励值;
    根据至少一组样本数据组对所述策略网络进行更新,所述样本数据组包括所述目标对象的所述状态信息、所述动作信息和对应的奖励值。
  4. 根据权利要求3所述的方法,其特征在于,所述奖励值包括差分奖励值、目标达到奖励值和集中奖励值;
    所述差分奖励值用于指示所述当前的渲染图像与所述观测图像之间的匹配程度,所述集中奖励值用于指示所述当前的渲染图像与所述观测图像之间在几何位置上的匹配程度,所述目标达到奖励值用于指示是否停止对所述策略网络的更新。
  5. 根据权利要求3所述的方法,其特征在于,所述根据至少一组样本数据组对所述策略网络进行更新,包括:
    根据至少一组所述样本数据组,采用近端策略优化PPO算法对所述策略网络进行更新;
    根据设置的优先队列中的缓存数据,对所述策略网络的价值函数进行更新,所述缓存数据为缓冲区中存储的已使用过的所述样本数据组。
  6. 一种基于强化学习的无标签六维物体姿态预测装置,其特征在于,用于计算机设备中,所述 装置包括:
    获取模块,用于获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
    预测模块,用于根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
    确定模块,用于根据所述预测结果,确定所述目标对象的三维位置和三维方向。
  7. 一种计算机设备,其特征在于,所述计算机设备包括:处理器;用于存储处理器可执行指令的存储器;
    其中,所述处理器被配置为:
    获取待预测的目标图像,所述目标图像为包括目标对象的二维图像;
    根据所述目标图像,采用预先训练得到的姿态预测模型进行姿态预测得到预测结果,所述姿态预测模型是根据样本图像进行强化学习得到的模型;
    根据所述预测结果,确定所述目标对象的三维位置和三维方向。
  8. 一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。
PCT/CN2020/091342 2020-03-18 2020-05-20 基于强化学习的无标签六维物体姿态预测方法及装置 WO2021184530A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/881,615 US20230005181A1 (en) 2020-03-18 2022-08-05 Reinforcement learning-based label-free six-dimensional object pose prediction method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010191659.5A CN111415389B (zh) 2020-03-18 2020-03-18 基于强化学习的无标签六维物体姿态预测方法及装置
CN202010191659.5 2020-03-18

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/881,615 Continuation US20230005181A1 (en) 2020-03-18 2022-08-05 Reinforcement learning-based label-free six-dimensional object pose prediction method and apparatus

Publications (1)

Publication Number Publication Date
WO2021184530A1 true WO2021184530A1 (zh) 2021-09-23

Family

ID=71492967

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/091342 WO2021184530A1 (zh) 2020-03-18 2020-05-20 基于强化学习的无标签六维物体姿态预测方法及装置

Country Status (3)

Country Link
US (1) US20230005181A1 (zh)
CN (1) CN111415389B (zh)
WO (1) WO2021184530A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779889A (zh) * 2021-09-26 2021-12-10 商汤集团有限公司 布局信息生成方法、装置、存储介质以及电子设备
CN113887447A (zh) * 2021-10-08 2022-01-04 中国科学院半导体研究所 对象分类模型的训练方法、对象分类预测方法及装置
CN114792354A (zh) * 2022-06-22 2022-07-26 北京飞渡科技有限公司 模型处理方法、装置、存储介质及电子设备
CN114937125A (zh) * 2022-07-25 2022-08-23 深圳大学 可重建度量信息预测方法、装置、计算机设备和存储介质
CN115688858A (zh) * 2022-10-20 2023-02-03 哈尔滨工业大学(深圳) 一种细粒度专家行为模仿学习方法、装置、介质及终端

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951333A (zh) * 2020-07-27 2020-11-17 中国科学院深圳先进技术研究院 六维姿态数据集自动生成方法、系统、终端以及存储介质
CN112015242B (zh) * 2020-10-29 2021-02-02 四川写正智能科技有限公司 一种主动触发的智能奖励方法及系统
US11263796B1 (en) * 2020-11-11 2022-03-01 Sony Interactive Entertainment Inc. Binocular pose prediction
CN113393495B (zh) * 2021-06-21 2022-02-01 暨南大学 基于强化学习的高空抛物轨迹识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165603A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN109190537A (zh) * 2018-08-23 2019-01-11 浙江工商大学 一种基于掩码感知深度强化学习的多人物姿态估计方法
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN109521774A (zh) * 2018-12-27 2019-03-26 南京芊玥机器人科技有限公司 一种基于强化学习的喷涂机器人轨迹优化方法
CN110263979A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 基于强化学习模型预测样本标签的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535155B2 (en) * 2017-10-24 2020-01-14 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for articulated pose estimation
CN109164821B (zh) * 2018-09-26 2019-05-07 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN109858430A (zh) * 2019-01-28 2019-06-07 杭州电子科技大学 一种基于强化学习优化的多人姿态检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165603A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN109190537A (zh) * 2018-08-23 2019-01-11 浙江工商大学 一种基于掩码感知深度强化学习的多人物姿态估计方法
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN109521774A (zh) * 2018-12-27 2019-03-26 南京芊玥机器人科技有限公司 一种基于强化学习的喷涂机器人轨迹优化方法
CN110263979A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 基于强化学习模型预测样本标签的方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779889A (zh) * 2021-09-26 2021-12-10 商汤集团有限公司 布局信息生成方法、装置、存储介质以及电子设备
CN113779889B (zh) * 2021-09-26 2024-04-16 商汤集团有限公司 布局信息生成方法、装置、存储介质以及电子设备
CN113887447A (zh) * 2021-10-08 2022-01-04 中国科学院半导体研究所 对象分类模型的训练方法、对象分类预测方法及装置
CN114792354A (zh) * 2022-06-22 2022-07-26 北京飞渡科技有限公司 模型处理方法、装置、存储介质及电子设备
CN114937125A (zh) * 2022-07-25 2022-08-23 深圳大学 可重建度量信息预测方法、装置、计算机设备和存储介质
CN114937125B (zh) * 2022-07-25 2022-10-25 深圳大学 可重建度量信息预测方法、装置、计算机设备和存储介质
CN115688858A (zh) * 2022-10-20 2023-02-03 哈尔滨工业大学(深圳) 一种细粒度专家行为模仿学习方法、装置、介质及终端
CN115688858B (zh) * 2022-10-20 2024-02-09 哈尔滨工业大学(深圳) 一种细粒度专家行为模仿学习方法、装置、介质及终端

Also Published As

Publication number Publication date
CN111415389A (zh) 2020-07-14
US20230005181A1 (en) 2023-01-05
CN111415389B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
WO2021184530A1 (zh) 基于强化学习的无标签六维物体姿态预测方法及装置
US11200696B2 (en) Method and apparatus for training 6D pose estimation network based on deep learning iterative matching
Jiang et al. Scalor: Generative world models with scalable object representations
CN111727441A (zh) 实现用于高效学习的条件神经过程的神经网络系统
CN111105439B (zh) 一种使用残差注意力机制网络的同步定位与建图方法
CN113920013A (zh) 一种基于超分辨率的小图像多目标检测方法
US10783660B2 (en) Detecting object pose using autoencoders
Jin et al. A 6-DOFs event-based camera relocalization system by CNN-LSTM and image denoising
US20230237342A1 (en) Adaptive lookahead for planning and learning
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
US11776666B2 (en) Simulating electronic structure with quantum annealing devices and artificial neural networks
Huang et al. Learning optical flow with R-CNN for visual odometry
Dong et al. Accurate 6DOF pose tracking for texture-less objects
US20220207866A1 (en) Method, device, and computer readable storage medium for image processing
Heiden et al. Inferring articulated rigid body dynamics from rgbd video
US20230040793A1 (en) Performance of Complex Optimization Tasks with Improved Efficiency Via Neural Meta-Optimization of Experts
Zhang et al. Mobile robot localization based on gradient propagation particle filter network
WO2021171768A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置
CN115482588A (zh) 一种预测三维模型的姿态的方法及电子设备
EP4064125A1 (en) Multi-dimensional object pose regression
KR20230141828A (ko) 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들
Li et al. Generative tracking of 3D human motion in latent space by sequential clonal selection algorithm
Chun et al. USD: Uncertainty-based One-phase Learning to Enhance Pseudo-Label Reliability for Semi-Supervised Object Detection
Roumaissa et al. Hand pose estimation based on regression method from monocular RGB cameras for handling occlusion
Han et al. Enhancing Robot Manipulation Skill Learning with Multi-task Capability Based on Transformer and Token Reduction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20925241

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20925241

Country of ref document: EP

Kind code of ref document: A1