WO2020119338A1 - 机器人目标物体抓取位置检测的方法 - Google Patents

机器人目标物体抓取位置检测的方法 Download PDF

Info

Publication number
WO2020119338A1
WO2020119338A1 PCT/CN2019/115959 CN2019115959W WO2020119338A1 WO 2020119338 A1 WO2020119338 A1 WO 2020119338A1 CN 2019115959 W CN2019115959 W CN 2019115959W WO 2020119338 A1 WO2020119338 A1 WO 2020119338A1
Authority
WO
WIPO (PCT)
Prior art keywords
target object
network
target
optimal
grabbing
Prior art date
Application number
PCT/CN2019/115959
Other languages
English (en)
French (fr)
Inventor
杜国光
王恺
廉士国
Original Assignee
深圳前海达闼云端智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳前海达闼云端智能科技有限公司 filed Critical 深圳前海达闼云端智能科技有限公司
Priority to JP2020543212A priority Critical patent/JP7085726B2/ja
Publication of WO2020119338A1 publication Critical patent/WO2020119338A1/zh
Priority to US17/032,399 priority patent/US11878433B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1669Programme controls characterised by programming, planning systems for manipulators characterised by special application, e.g. multi-arm co-operation, assembly, grasping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39484Locate, reach and grasp, visual guided grasping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the embodiments of the present application relate to the field of autonomous robot gripping, and in particular to a method, device, computing device, and computer-readable storage medium for detecting a robot target object gripping position.
  • the present application is proposed in order to provide a method, apparatus, computing device, and computer readable storage medium for detecting a robot target object grasping position that overcome the above problems or at least partially solve the above problems.
  • a technical solution adopted by the embodiments of the present application is: to provide a method for detecting a grabbing position of a robot target object, which includes: collecting a target RGB image and a target Depth image of the target object at different viewing angles, wherein, The pixel points in the target RGB image and the target Depth image correspond one-to-one;
  • each of the target RGB images to a target object segmentation network for calculation to obtain the RGB pixel area of the target object in the target RGB image and the Depth pixel area of the target object in the target Depth image;
  • the optimal grab position corresponding to the highest score is selected as the robot's global optimal grab position.
  • the target object segmentation network is a network trained using a convolutional neural network model.
  • the training of the target object segmentation network specifically includes:
  • the optimal grabbing position generation network is a network trained using a convolutional neural network model, and the training of the optimal grabbing position generation network specifically includes:
  • a convolutional neural network model is used for training to obtain an optimal grabbing position generating network.
  • the grabbing position quality evaluation network is a network trained using a convolutional neural network model, and the training of the grabbing position quality evaluation network specifically includes:
  • a convolutional neural network model is used for training to obtain a grabbing position quality evaluation network.
  • a robot target object grabbing position detection device including: a collection module: used to collect target RGB images and targets of target objects at different viewing angles Depth image, wherein the target RGB image corresponds to the pixel point in the target Depth image one-to-one;
  • Segmentation module used to input each of the target RGB images to the target object segmentation network for calculation to obtain the RGB pixel area of the target object in the target image and the Depth pixel area of the target object in the target Depth image;
  • Evaluation module used to input the Depth pixel area of the target object and the optimal grab position to the grab position quality evaluation network, and calculate the score of the optimal grab position;
  • Selection module used to select the optimal gripping position corresponding to the highest score as the global optimal gripping position of the robot.
  • the target object segmentation network in the segmentation module is a network trained using a convolutional neural network model.
  • the training of the target object segmentation network specifically includes:
  • the optimal crawling position generation network in the crawling module is a network trained using a convolutional neural network model, and the training of the optimal crawling position generation network specifically includes:
  • a convolutional neural network model is used for training to obtain an optimal grabbing position generating network.
  • the grabbing position quality evaluation network in the evaluation module is a network trained using a convolutional neural network model, and the training of the grabbing position quality evaluation network specifically includes:
  • a convolutional neural network model is used for training to obtain a grabbing position quality evaluation network.
  • yet another technical solution adopted in the embodiments of the present application is to provide a computing device, including: a processor, a memory, a communication interface, and a communication bus, the processor, the memory, and the communication interface Complete communication with each other through the communication bus;
  • the memory is used to store at least one executable instruction, and the executable instruction causes the processor to perform an operation corresponding to the method for detecting a gripping position of a robot target object.
  • another technical solution adopted by the embodiments of the present application is to provide a computer-readable storage medium in which at least one executable instruction is stored, and the executable instruction causes the processor to execute a An operation corresponding to a method for detecting a grabbing position of a robot target object.
  • the embodiment of the present application uses a target object segmentation network to obtain the pixel area corresponding to the target object, and inputs the pixel area corresponding to the target object to the optimal grab
  • the position generation network obtains the optimal grabbing position of the target object, and uses the grabbing position quality evaluation network to calculate the score of the optimal grabbing position, and takes the optimal grabbing position corresponding to the highest score as the global optimal of the robot
  • the gripping position through this application, can achieve that the robot automatically grabs the target object at the optimal gripping position.
  • FIG. 1 is a flowchart of a method for detecting a grabbing position of a robot target object according to an embodiment of the present application
  • FIG. 2 is a training flowchart of a target object segmentation network according to an embodiment of the present application
  • FIG. 3 is a flowchart of network training for generating an optimal grabbing position according to an embodiment of this application
  • FIG. 4 is a training flowchart of a grabbing position quality evaluation network according to an embodiment of the present application
  • FIG. 5 is a functional block diagram of a robot target object grasping position detection device according to an embodiment of the present application.
  • FIG. 6 is a schematic diagram of a computing device according to an embodiment of the present application.
  • Embodiments of the present application provide a non-volatile computer-readable storage medium, where the computer-readable storage medium stores at least one executable instruction, and the computer-executable instruction can execute a robot in any of the foregoing method embodiments Method for detecting the grabbing position of the target object.
  • FIG. 1 is a flowchart of an embodiment of a method for detecting a gripping position of a robot target object according to the present application. As shown in Figure 1, the method includes the following steps:
  • Step S101 Collect target RGB images and target Depth images of target objects at different viewing angles, wherein the target RGB images and target Depth images have a one-to-one correspondence with pixels.
  • the target object is placed on a table below the robot arm of the robot, and the RGB image and the Depth image at the current position are collected, wherein the pixel points of the RGB image and the Depth image are in one-to-one correspondence.
  • images at 8 positions including front, rear, left, right, front upper, rear upper, upper left, and upper right are collected.
  • Step S102 input each of the target RGB images to a target object segmentation network for calculation, to obtain the RGB pixel area of the target object in the target RGB image and the Depth pixel area of the target object in the target Depth image.
  • each of the target RGB images is input to the target object segmentation network for calculation, and the RGB pixel area of the target object in the target RGB image is obtained.
  • the RGB image and the Depth image are in one-to-one correspondence. Therefore, according to The RGB pixel area of the target object in the target RGB image may locate the Depth pixel area of the target object in the target Depth image.
  • FIG. 2 is a training flowchart of the target object segmentation network according to an embodiment of the present application. As shown in FIG. 2, the target object segmentation network The training includes the following steps:
  • Step S1021 Obtain an RGB image containing the target object.
  • Step S1022 scaling the RGB image to a preset first pixel to obtain a first training set.
  • each RGB image is scaled to a preset first pixel to adapt to the network structure.
  • the preset first pixel size is 320*320 pixels.
  • Step S1023 Mark the pixel area corresponding to the target object in the first training set.
  • the pixel area corresponding to the target object is artificially marked, for example, the position of the pixel area corresponding to the target object in the image in the training set is marked using a box.
  • Step S1024 Train the pixel region corresponding to the first training set and the target object as the input of the convolutional neural network model to obtain the target object segmentation network.
  • the convolutional neural network model is any mainstream convolutional neural network model used for instance segmentation, such as segmentation network (SegNet), deep laboratory network (DeepLab v1, DeepLab v2, DeepLab v3, DeepLab v3++ ), Pyramid Scene Analysis Network (Pyramid Scene Parsing Network, PSPNet) and Image Cascade Network (Image Cascade Network, ICNet).
  • segmentation network SegNet
  • Pyramid Scene Analysis Network Pyramid Scene Parsing Network, PSPNet
  • Image Cascade Network Image Cascade Network, ICNet
  • a segmentation network (SegNet) is used, and the pixel area corresponding to the target object is regarded as a category, and the pixel area corresponding to the background of the target object is not included as a category, and the first training set and all The pixel area corresponding to the target object is input to the convolutional neural network model for training.
  • the number of layers of the convolutional neural network model is 27.
  • the layer is extracted by convolution
  • the pixel area corresponding to the target object is extracted, and at the same time, the picture is scaled to the preset first pixel size, which is called an encoder.
  • deconvolution calculation the classified features of the target object are reproduced, and the target size of the pixel area corresponding to the target object is restored by upsampling.
  • This process is called a decoder.
  • Step S1025 Compare and contrast the RGB pixel area corresponding to the target object obtained by the target object segmentation network with the pixel area corresponding to the marked target object.
  • the image containing the target object is used as the input of the target object segmentation network to obtain the RGB pixel area obtained by the target object segmentation network, and the pixel area obtained by the target object segmentation network and the marked The pixel regions corresponding to the target object are overlapped and compared, and used as an evaluation metric of the target object segmentation network.
  • Step S1026 Adjust the weight of the target object segmentation network according to the overlapping comparison result.
  • the overlap comparison result is compared with a preset threshold value of overlap comparison result, and if the overlap comparison result is lower than the preset threshold value of overlap comparison result, the neural network structure and weight are adjusted .
  • Step S103 Input the RGB pixel area of the target object to the optimal grabbing position generation network to obtain the optimal grabbing position for grabbing the target object.
  • the optimal grabbing position generating network is a network trained using a convolutional neural network model.
  • FIG. 3 is a training flowchart of the optimal grabbing position generating network according to an embodiment of the present application, as shown in FIG. 3
  • the training of the optimal crawling position generation network includes the following steps:
  • Step S1031 Scale the RGB pixel area corresponding to the target object obtained by the target object segmentation network to a preset second pixel to obtain a second training set.
  • the RGB pixel area corresponding to the target object is scaled to a preset second pixel to adapt to the network structure.
  • the preset second pixel is 227*227 pixels.
  • Step S1032 Mark the image in the second training set with the optimal grabbing position coordinates.
  • the target object is marked with (X, Y, ⁇ ) as the grab position in the image in the second training set, where (X, Y) is the grab point, and ⁇ is the grab angle, in
  • marking the grab position first define the grab angle, then mark the optimal grab position for each grab angle, such as dividing the grab range [0,180°] into 18 angle values on average, and mark each angle Optimal grabbing position coordinates.
  • each image in the second training set is marked with a grab angle and an optimal grab position coordinate.
  • Step S1033 Take the image in the second training set and its corresponding optimal grabbing position coordinates as input, and use the convolutional neural network model for training to obtain an optimal grabbing position generating network.
  • the convolutional neural network model is any existing convolutional neural network model.
  • the AlexNet model is used to capture the images in the second training set and their corresponding optimal capture
  • the position (X, Y, ⁇ ) is used as the input of the convolutional neural network model, where the AlexNet model is 7 layers, including 5 convolutional layers and 2 fully connected layers, and the AlexNet model is trained to obtain the most Optimal grabbing position generating network, calculate the Euclidean distance between the predicted grabbing point (Xp, Yp) and the marker point (X, Y) output by the optimal grabbing position generating network, and according to the Euclidean distance, use
  • the Softmax loss function adjusts the weight of the optimal grabbing position generating network.
  • Step S104 Input the Depth pixel area of the target object and the optimal grabbing position into the grabbing position quality evaluation network, and calculate the score of the optimal grabbing position.
  • the grabbing position quality evaluation network is a network trained using a convolutional neural network model.
  • FIG. 4 is a training flowchart of the grabbing position quality evaluation network implementation of the embodiment of the present application. As shown in FIG. 4, The training of the location quality evaluation network includes the following steps:
  • Step S1041 Acquire a Depth image containing the target object.
  • the Depth image is a depth image obtained from an RGB image, where the Depth image corresponds to the pixels of the RGB image in one-to-one correspondence.
  • Step S1042 scaling the Depth image to a preset third pixel to obtain a third training set.
  • the Depth image is scaled to a preset third pixel to adapt to the network structure.
  • the preset third pixel is 32*32 pixels.
  • Step S1043 randomly select a pair of grabbing point positions from the Depth image in the third training set, and obtain a corresponding score using a preset scoring algorithm.
  • Step S1044 Take the Depth image, the grabbing point position and the score corresponding to the grabbing point position as input, and train using a convolutional neural network model to obtain a grabbing position quality evaluation network.
  • the convolutional neural network includes 9 layers, 4 of which are convolutional layers, 1 pooling layer, and 4 fully connected layers. According to the comparison between the output score of the grabbing position quality evaluation network and the score obtained by the preset scoring algorithm in step S1043, the weight of the grabbing position quality evaluation network is adjusted.
  • Step S105 Select the optimal gripping position corresponding to the highest score as the global optimal gripping position of the robot.
  • a target object segmentation network is used to obtain a pixel area corresponding to the target object, and the pixel area corresponding to the target object is input to an optimal grabbing position generating network, Obtain the optimal grabbing position of the target object, and use the grabbing position quality evaluation network to calculate the score of the optimal grabbing position, and use the optimal grabbing position corresponding to the highest score as the robot's global optimal grabbing position, Through this application, the robot can automatically grasp the target object at the optimal grasping position.
  • FIG. 5 is a functional block diagram of an embodiment of a robot target object grabbing position detection device of the present application.
  • the device includes: an acquisition module 501, a segmentation module 502, a grab module 503, an evaluation module 504, and a selection module 505, where the acquisition module 501 is used to collect target RGB images of target objects at different viewing angles and A target Depth image, wherein the target RGB image corresponds to the pixel points in the target Depth image; the segmentation module 502 is used to input each target RGB image to a target object segmentation network for calculation to obtain the target image The RGB pixel area of the target object in the target and the Depth pixel area of the target object in the target Depth image; the capture module 503 is used to input the RGB pixel area of the target object to the optimal capture position generation network to obtain the target The optimal grabbing position of the object grabbing; the evaluation module 504 is used to input the Depth pixel area of the target object and the optimal grabbing position to the grabbing position quality evaluation network to calculate the optimal grabbing position
  • the target object segmentation network in the segmentation module 502 is a network trained using a convolutional neural network model, and specifically includes:
  • the optimal crawling position generation network in the crawling module 503 is a network trained using a convolutional neural network model, which specifically includes:
  • a convolutional neural network model is used for training to obtain an optimal grabbing position generating network.
  • the grabbing position quality evaluation network in the evaluation module 504 is a network trained using a convolutional neural network model, and specifically includes:
  • a convolutional neural network model is used for training to obtain a grabbing position quality evaluation network.
  • a segmentation module is used to obtain a pixel area corresponding to the target object, and the optimal grasping position of the target object is obtained through the grasping module, and the evaluation module is used to calculate The score of the optimal grabbing position is described, and the optimal grabbing position corresponding to the highest score is taken as the global optimal grabbing position of the robot.
  • the robot can automatically grab the target object at the optimal grabbing position.
  • FIG. 6 is a schematic structural diagram of an embodiment of a computing device of the present application, and specific embodiments of the present application do not limit the specific implementation of the computing device.
  • the computing device may include: a processor 602, a communication interface 604, a memory 606, and a communication bus 608.
  • the processor 602, the communication interface 604, and the memory 606 communicate with each other through the communication bus 608.
  • the communication interface 604 is used to communicate with other devices.
  • the processor 602 is configured to execute a program 610, and specifically can perform relevant steps in the foregoing method embodiment of a robot target object grabbing position detection method.
  • the program 610 may include program code, and the program code includes computer operation instructions.
  • the processor 602 may be a central processing unit CPU, or a specific integrated circuit ASIC (Application Specific Integrated Circuit), or one or more integrated circuits configured to implement the embodiments of the present application.
  • the one or more processors included in the computing device may be processors of the same type, such as one or more CPUs, or may be processors of different types, such as one or more CPUs and one or more ASICs.
  • the memory 606 is used to store the program 610.
  • the memory 606 may include a high-speed RAM memory, and may also include a non-volatile memory (non-volatile memory), for example, at least one magnetic disk memory.
  • the program 610 may specifically be used to cause the processor 602 to perform the following operations:
  • each of the target RGB images to a target object segmentation network for calculation to obtain the RGB pixel area of the target object in the target RGB image and the Depth pixel area of the target object in the target Depth image;
  • the optimal grab position corresponding to the highest score is selected as the robot's global optimal grab position.
  • the program 610 may be further specifically configured to cause the processor 602 to perform the following operations:
  • the target object segmentation network is a network trained using a convolutional neural network model, and specifically includes:
  • program 610 may be further specifically used to cause the processor 602 to perform the following operations:
  • a convolutional neural network model is used for training to obtain an optimal grabbing position generating network.
  • program 610 may be further specifically used to cause the processor 602 to perform the following operations:
  • a convolutional neural network model is used for training to obtain a grabbing position quality evaluation network.
  • modules in the device in the embodiment can be adaptively changed and set in one or more devices different from the embodiment.
  • the modules or units or components in the embodiments may be combined into one module or unit or component, and in addition, they may be divided into a plurality of submodules or subunits or subcomponents. Except that at least some of such features and/or processes or units are mutually exclusive, all features disclosed in this specification (including the accompanying claims, abstract and drawings) and any method so disclosed may be adopted in any combination All processes or units of equipment are combined. Unless expressly stated otherwise, each feature disclosed in this specification (including the accompanying claims, abstract and drawings) may be replaced by alternative features serving the same, equivalent or similar purpose.
  • Each component embodiment of the present application may be implemented by hardware, or implemented by a software module running on one or more processors, or implemented by a combination thereof.
  • a microprocessor or a digital signal processor may be used to implement some or all parts of some or all components in a robot target object grasping position detection device according to an embodiment of the present application Or all functions.
  • the present application may also be implemented as a device or device program (e.g., computer program and computer program product) for performing part or all of the methods described herein.
  • Such a program implementing the present application may be stored on a computer-readable medium, or may have the form of one or more signals.
  • Such a signal can be downloaded from an Internet website, or provided on a carrier signal, or provided in any other form.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本申请涉及机器人自主抓取技术领域,尤其公开了一种机器人目标物体抓取位置检测的方法、装置、计算设备及计算机可读存储介质,其中,方法包括:采集目标物体在不同视角下的目标RGB图像和目标Depth图像;将每一目标RGB图像输入至目标物体分割网络进行计算,得到目标RGB图像中目标物体的RGB像素区域及目标Depth图像中目标物体的Depth像素区域;将目标物体的RGB像素区域输入至最优抓取位置生成网络,得到目标物体抓取的最优抓取位置;将目标物体的Depth像素区域及最优抓取位置输入至抓取位置质量评估网络,计算最优抓取位置的得分;选择最高得分对应的最优抓取位置作为机器人全局最优抓取位置。由此可见,利用本申请方案可以实现机器人自动在最优抓取位置抓取目标物体。

Description

机器人目标物体抓取位置检测的方法 技术领域
本申请实施方式涉及机器人自主抓取领域,特别是涉及一种机器人目标物体抓取位置检测的方法、装置、计算设备及计算机可读存储介质。
背景技术
在智能机器人领域,机器人自主抓取是智能机器人的一种关键能力,尤其是对于家庭服务机器人和工业机器人。对于机器人自主抓取的研究问题,传统方案主要包括几何分析方法和数据驱动推理两种方法;几何分析方法人工复杂度高,数据驱动推理方法在复杂场景下表现差。
随着深度学习的出现,机器人自主抓取研究取得了很大突破。应用深度学习算法,目前技术可以实现机器人在自主抓取物体时,自动分割目标物体,并自动定位抓取点。
在实现本申请的过程中,发现:现有技术中自动分割目标物体是基于深度图像,无法针对复杂背景下的物体进行分割,且在自动定位抓取点时,效率偏低。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种机器人目标物体抓取位置检测的方法、装置、计算设备及计算机可读存储介质。
为解决上述技术问题,本申请实施方式采用的一个技术方案是:提供一种机器人目标物体抓取位置检测的方法,包括:采集目标物体在不同视角下的目标RGB图像和目标Depth图像,其中,所述目标RGB图像和目标Depth图像中的像素点一一对应;
将每一所述目标RGB图像输入至目标物体分割网络进行计算,得到所述目标RGB图像中目标物体的RGB像素区域及所述目标Depth图像中目标物体的Depth像素区域;
将所述目标物体的RGB像素区域输入至最优抓取位置生成网络,得到所述目标物体抓取的最优抓取位置;
将所述目标物体的Depth像素区域及所述最优抓取位置输入至抓取位置质量评估网络,计算所述最优抓取位置的得分;
选择最高得分对应的最优抓取位置作为机器人全局最优抓取位置。
其中,所述目标物体分割网络是使用卷积神经网络模型训练出来的网络,所述目标物体分割网络的训练具体包括:
获取包含目标物体的RGB图像;
将所述RGB图像缩放至预设第一像素,得到第一训练集;
标注所述第一训练集中的目标物体对应的像素区域;
将所述第一训练集和所述目标物体对应的像素区域作为所述卷积神经网络模型输入进行训练,得到所述目标物体分割网络;
将所述目标物体分割网络得到的目标物体对应的RGB像素区域与标注的目标物体对应的像素区域做重叠对比;
根据所述重叠对比结果调整所述目标物体分割网络的权值。
其中,所述最优抓取位置生成网络是使用卷积神经网络模型训练出来的网络,所述最优抓取位置生成网络的训练具体包括:
将所述目标物体分割网络得到的RGB目标物体对应的像素区域缩放至预设第二像素,得到第二训练集;
将所述第二训练集中的图像标记最优抓取位置坐标;
将所述第二训练集中的图像和其对应的最优抓取位置坐标作为输入,使用卷积神经网络模型进行训练,得到最优抓取位置生成网络。
其中,所述抓取位置质量评估网络是使用卷积神经网络模型训练出来的网络,所述抓取位置质量评估网络的训练具体包括:
获取包含目标物体的Depth图像;
将所述Depth图像缩放至预设第三像素,得到第三训练集;
从所述第三训练集中的Depth图像上随机采取一对抓取点位置,并使用预 设评分算法得到对应评分;
将所述Depth图像、抓取点位置以及抓取点位置对应的评分作为输入,使用卷积神经网络模型进行训练,得到抓取位置质量评估网络。
为解决上述技术问题,本申请实施方式采用的另一个技术方案是:提供一种机器人目标物体抓取位置检测装置,包括:采集模块:用于采集目标物体在不同视角下的目标RGB图像和目标Depth图像,其中,所述目标RGB图像和目标Depth图像中的像素点一一对应;
分割模块:用于将每一所述目标RGB图像输入至目标物体分割网络进行计算,得到所述目标图像中目标物体的RGB像素区域及所述目标Depth图像中目标物体的Depth像素区域;
抓取模块:用于将所述目标物体的RGB像素区域输入至最优抓取位置生成网络,得到所述目标物体抓取的最优抓取位置;
评估模块:用于将所述目标物体的Depth像素区域及所述最优抓取位置输入至抓取位置质量评估网络,计算所述最优抓取位置的得分;
选择模块:用于选择最高得分对应的最优抓取位置作为机器人全局最优抓取位置。
其中,所述分割模块中目标物体分割网络是使用卷积神经网络模型训练出来的网络,所述目标物体分割网络的训练具体包括:
获取包含目标物体的RGB图像;
将所述RGB图像缩放至预设第一像素,得到第一训练集;
标注所述第一训练集中的目标物体对应的像素区域;
将所述第一训练集和所述目标物体对应的像素区域作为所述卷积神经网络模型输入进行训练,得到所述目标物体分割网络;
将所述目标物体分割网络得到的目标物体对应的RGB像素区域与标注的目标物体对应的像素区域做重叠对比;
根据所述重叠对比结果调整所述目标物体分割网络的权值。
其中,所述抓取模块中最优抓取位置生成网络是使用卷积神经网络模型训练出来的网络,所述最优抓取位置生成网络的训练具体包括:
将所述目标物体分割网络得到的目标物体对应的RGB像素区域缩放至预设第二像素,得到第二训练集;
将所述第二训练集中的图像标记最优抓取位置坐标;
将所述第二训练集中的图像和其对应的最优抓取位置坐标作为输入,使用卷积神经网络模型进行训练,得到最优抓取位置生成网络。
其中,所述评估模块中抓取位置质量评估网络是使用卷积神经网络模型训练出来的网络,所述抓取位置质量评估网络的训练具体包括:
获取包含目标物体的Depth图像;
将所述Depth图像缩放至预设第三像素,得到第三训练集;
从所述第三训练集中的Depth图像上随机采取一对抓取点位置,并使用预设评分算法得到对应评分;
将所述Depth图像、抓取点位置以及抓取点位置对应的评分作为输入,使用卷积神经网络模型进行训练,得到抓取位置质量评估网络。
为解决上述技术问题,本申请实施方式采用的再一个技术方案是:提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的一种机器人目标物体抓取位置检测的方法对应的操作。
为解决上述技术问题,本申请实施方式采用的又一个技术方案是:提供一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行一种机器人目标物体抓取位置检测的方法对应的操作。
本申请实施方式的有益效果是:区别于现有技术的情况,本申请实施方式采用目标物体分割网络得到目标物体对应的像素区域,并将所述目标物体对应的像素区域输入至最优抓取位置生成网络,得到目标物体抓取的最优抓取位置,并使用抓取位置质量评估网络计算所述最优抓取位置的评分,将最高得分对应的最优抓取位置作为机器人全局最优抓取位置,通过本申请,可以实现机器人自动在最优抓取位置抓取目标物体。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术 手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施方式的一种机器人目标物体抓取位置检测的方法流程图;
图2是本申请实施方式的目标物体分割网络训练流程图;
图3是本申请实施方式的最优抓取位置生成网络训练流程图;
图4是本申请实施方式的抓取位置质量评估网络训练流程图;
图5是是本申请实施方式的一种机器人目标物体抓取位置检测装置功能框图;
图6是本申请实施方式的一种计算设备示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的一种机器人目标物体抓取位置检测的方法。
图1为本申请一种机器人目标物体抓取位置检测的方法实施例的流程图。如图1所示,该方法包括以下步骤:
步骤S101:采集目标物体在不同视角下的目标RGB图像和目标Depth图像,其中,所述目标RGB图像和目标Depth图像中的像素点一一对应。
在本步骤中,将目标物体放置在机器人的机械臂下面的桌面上,采集当前位置下的RGB图像和Depth图像,其中,所述RGB图像和Depth图像的像素点 是一一对应的。移动机械臂,从其他角度重新采集图像,在本申请实施例中,采集前、后、左、右、前上、后上、左上、右上共8个位置的图像。
步骤S102:将每一所述目标RGB图像输入至目标物体分割网络进行计算,得到所述目标RGB图像中目标物体的RGB像素区域及所述目标Depth图像中目标物体的Depth像素区域。
在本步骤中,将每一个所述目标RGB图像输入至目标物体分割网络进行计算,得到所述目标RGB图像中目标物体的RGB像素区域,RGB图像与Depth图像是一一对应的,所以,根据所述目标RGB图像中目标物体的RGB像素区域,可以定位出所述目标Depth图像中目标物体的Depth像素区域。
需要说明的是,所述目标物体分割网络是使用卷积神经网络模型训练出来的网络,图2是本申请实施方式的目标物体分割网络训练流程图,如图2所示,目标物体分割网络的训练包括以下步骤:
步骤S1021:获取包含目标物体的RGB图像。
步骤S1022:将所述RGB图像缩放至预设第一像素,得到第一训练集。
在本步骤中,将每一张RGB图像缩放至预设第一像素,以适应网络结构,在本申请实施例中,所述预设第一像素大小为320*320像素。
步骤S1023:标注所述第一训练集中的目标物体对应的像素区域。
在本步骤中,人为标注所述目标物体对应的像素区域,如使用方框标注目标物体对应的像素区域在所述训练集中的图像中的位置。
步骤S1024:将所述第一训练集和所述目标物体对应的像素区域作为所述卷积神经网络模型输入进行训练,得到所述目标物体分割网络。
在本步骤中,所述卷积神经网络模型为用于实例分割的任意一个主流卷积神经网络模型,如分割网络(SegNet)、深度实验室网络(DeepLab v1,DeepLab v2,DeepLab v3,DeepLab v3++)、金字塔场景解析网络(Pyramid Scene Parsing Network,PSPNet)及图像级联网络(Image Cascade Network,ICNet)。在本申请实施例中,采用分割网络(SegNet),将所述目标物体对应的像素区域作为一类,不包含目标物体的背景对应的像素区域作为一类,将所述第一训练集和所述目标物体对应的像素区域输入所述卷积神经网络模型中进行训练,在本申请实施例中,所述卷积神经网络模型的层数为27层,在进行训练时,通过卷积 提取层提取所述目标物体对应的像素区域,同时,图片会缩放至预设第一像素大小,该过程称为编码器。通过反卷积计算使得所述目标物体分类后的特征重现,并通过上采样还原所述目标物体对应的像素区域的目标尺寸,该过程称为解码器。将所述解码器的输出作为soft-max分类器的输入,计算每个像素类别的概率,根据所述概率判断所述目标物体所对应的像素区域。
步骤S1025:将所述目标物体分割网络得到的目标物体对应的RGB像素区域与标注的目标物体对应的像素区域做重叠对比。
在本步骤中,将包含目标物体的图像作为所述目标物体分割网络的输入,得到所述目标物体分割网络得到的RGB像素区域,将所述目标物体分割网络得到的像素区域与所述标注的目标物体对应的像素区域做重叠对比,以此作为所述目标物体分割网络的评价度量。
步骤S1026:根据所述重叠对比结果调整所述目标物体分割网络的权值。
在本步骤中,将所述重叠对比结果与预设的重叠对比结果阈值进行对比,若所述重叠对比结果低于所述预设的重叠对比结果阈值,则调整所述神经网络结构和权值。
步骤S103:将所述目标物体的RGB像素区域输入至最优抓取位置生成网络,得到所述目标物体抓取的最优抓取位置。
在本步骤中,所述最优抓取位置生成网络是使用卷积神经网络模型训练出来的网络,图3是本申请实施方式的最优抓取位置生成网络训练流程图,如图3所示,最优抓取位置生成网络的训练包括以下步骤:
步骤S1031:将所述目标物体分割网络得到的目标物体对应的RGB像素区域缩放至预设第二像素,得到第二训练集。
在本步骤中,将所述目标物体对应的RGB像素区域缩放至预设第二像素,以适应网络结构,在本申请实施例中,所述预设第二像素为227*227像素。
步骤S1032:将所述第二训练集中的图像标记最优抓取位置坐标。
在本步骤中,在所述第二训练集中的图像中对目标物体标记(X,Y,θ)作为抓取位置,其中,(X,Y)为抓取点,θ为抓取角度,在进行抓取位置标注时,首先定义抓取角度,然后,标记每个抓取角度下的最优抓取位置,如将抓取范围[0,180°]平均分为18个角度值,标记每个角度下最优抓取位置坐标。在本申 请实施例中,为了增加训练数据集中图像的数量,将所述第二训练集中的每一张图像都标注抓取角度及最优抓取位置坐标。
步骤S1033:将所述第二训练集中的图像和其对应的最优抓取位置坐标作为输入,使用卷积神经网络模型进行训练,得到最优抓取位置生成网络。
在本步骤中,所述卷积神经网络模型为任意现有卷积神经网络模型,在本申请实施例中,采用AlexNet模型,将所述第二训练集中的图像及其对应的最优抓取位置(X,Y,θ)作为所述卷积神经网络模型的输入,其中,所述AlexNet模型为7层,包含5个卷积层和2个全连接层,所述AlexNet模型经过训练得到最优抓取位置生成网络,计算所述最优抓取位置生成网络输出的预测抓取点(Xp,Yp)与标记点(X,Y)之间的欧式距离,并依据所述欧式距离,使用Softmax损失函数调整所述最优抓取位置生成网络的权值。
步骤S104:将所述目标物体的Depth像素区域及所述最优抓取位置输入至抓取位置质量评估网络,计算所述最优抓取位置的得分。
在本步骤中,所述抓取位置质量评估网络是使用卷积神经网络模型训练出来的网络,图4是本申请实施方式的抓取位置质量评估网络训练流程图,如图4所示,抓取位置质量评估网络的训练包括以下步骤:
步骤S1041:获取包含目标物体的Depth图像。
在本步骤中,所述Depth图像是根据RGB图像得到的深度图像,其中,所述Depth图像与所述RGB图像的像素点一一对应。
步骤S1042:将所述Depth图像缩放至预设第三像素,得到第三训练集。
在本步骤中,将所述Depth图像缩放至预设第三像素,以适应网络结构,在本申请实施例中,所述预设第三像素为32*32像素。
步骤S1043:从所述第三训练集中的Depth图像上随机采取一对抓取点位置,并使用预设评分算法得到对应评分。
步骤S1044:将所述Depth图像、抓取点位置以及抓取点位置对应的评分作为输入,使用卷积神经网络模型进行训练,得到抓取位置质量评估网络。
在本步骤,所述卷积神经网络包括9层,其中4个为卷积层,1个池化层及4个全连接层。根据所述抓取位置质量评估网络的输出评分与步骤S1043中所述 预设评分算法得到的评分对比,调整所述抓取位置质量评估网络的权值。
步骤S105:选择最高得分对应的最优抓取位置作为机器人全局最优抓取位置。
根据本实施例提供的一种机器人目标物体抓取位置检测的方法,采用目标物体分割网络得到目标物体对应的像素区域,将所述目标物体对应的像素区域输入至最优抓取位置生成网络,得到目标物体抓取的最优抓取位置,并使用抓取位置质量评估网络计算所述最优抓取位置的评分,将最高得分对应的最优抓取位置作为机器人全局最优抓取位置,通过本申请,可以实现机器人自动在最优抓取位置抓取目标物体。
图5为本申请一种机器人目标物体抓取位置检测装置实施例的功能框图。如图5所示,该装置包括:采集模块501、分割模块502、抓取模块503、评估模块504及选择模块505,其中,采集模块501用于采集目标物体在不同视角下的目标RGB图像和目标Depth图像,其中,所述目标RGB图像和目标Depth图像中的像素点一一对应;分割模块502用于将每一所述目标RGB图像输入至目标物体分割网络进行计算,得到所述目标图像中目标物体的RGB像素区域及所述目标Depth图像中目标物体的Depth像素区域;抓取模块503用于将所述目标物体的RGB像素区域输入至最优抓取位置生成网络,得到所述目标物体抓取的最优抓取位置;评估模块504用于将所述目标物体的Depth像素区域及所述最优抓取位置输入至抓取位置质量评估网络,计算所述最优抓取位置的得分;选择模块505用于选择最高得分对应的最优抓取位置作为机器人全局最优抓取位置。
在本实施例中,分割模块502中目标物体分割网络是使用卷积神经网络模型训练出来的网络,具体包括:
获取包含目标物体的RGB图像;
将所述RGB图像缩放至预设第一像素,得到第一训练集;
标注所述第一训练集中的目标物体对应的像素区域;
将所述第一训练集和所述目标物体对应的像素区域作为所述卷积神经网络模型输入进行训练,得到所述目标物体分割网络;
将所述目标物体分割网络得到的目标物体对应的RGB像素区域与标注的目 标物体对应的像素区域做重叠对比;
根据所述重叠对比结果调整所述目标物体分割网络的权值。
进一步的,抓取模块503中最优抓取位置生成网络是使用卷积神经网络模型训练出来的网络,具体包括:
将所述目标物体分割网络得到的目标物体对应的RGB像素区域缩放至预设第二像素,得到第二训练集;
将所述第二训练集中的图像标记最优抓取位置坐标;
将所述第二训练集中的图像和其对应的最优抓取位置坐标作为输入,使用卷积神经网络模型进行训练,得到最优抓取位置生成网络。
进一步的,评估模块504中抓取位置质量评估网络是使用卷积神经网络模型训练出来的网络,具体包括:
获取包含目标物体的Depth图像;
将所述Depth图像缩放至预设第三像素,得到第三训练集;
从所述第三训练集中的Depth图像上随机采取一对抓取点位置,并使用预设评分算法得到对应评分;
将所述Depth图像、抓取点位置以及抓取点位置对应的评分作为输入,使用卷积神经网络模型进行训练,得到抓取位置质量评估网络。
根据本实施例提供的一种机器人目标物体抓取位置检测装置,采用分割模块得到目标物体对应的像素区域,通过抓取模块得到目标物体抓取的最优抓取位置,并使用评估模块计算所述最优抓取位置的评分,将最高得分对应的最优抓取位置作为机器人全局最优抓取位置,通过本申请,可以实现机器人自动在最优抓取位置抓取目标物体。
图6为本申请计算设备实施例的结构示意图,本申请具体实施例并不对计算设备的具体实现做限定。
如图6所示,该计算设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:
处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它设备通信。
处理器602,用于执行程序610,具体可以执行上述一种机器人目标物体抓取位置检测的方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行以下操作:
采集目标物体在不同视角下的目标RGB图像和目标Depth图像,其中,所述目标RGB图像和目标Depth图像中的像素点一一对应;
将每一所述目标RGB图像输入至目标物体分割网络进行计算,得到所述目标RGB图像中目标物体的RGB像素区域及所述目标Depth图像中目标物体的Depth像素区域;
将所述目标物体的RGB像素区域输入至最优抓取位置生成网络,得到所述目标物体抓取的最优抓取位置;
将所述目标物体的Depth像素区域及所述最优抓取位置输入至抓取位置质量评估网络,计算所述最优抓取位置的得分;
选择最高得分对应的最优抓取位置作为机器人全局最优抓取位置。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:所述目标物体分割网络是使用卷积神经网络模型训练出来的网络,具体包括:
获取包含目标物体的RGB图像;
将所述RGB图像缩放至预设第一像素,得到第一训练集;
标注所述第一训练集中的目标物体对应的像素区域;
将所述第一训练集和所述目标物体对应的像素区域作为所述卷积神经网络模型输入进行训练,得到所述目标物体分割网络;
将所述目标物体分割网络得到的目标物体对应的RGB像素区域与标注的目标物体对应的像素区域做重叠对比;
根据所述重叠对比结果调整所述目标物体分割网络的权值。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
将所述目标物体分割网络得到的目标物体对应的RGB像素区域缩放至预设第二像素,得到第二训练集;
将所述第二训练集中的图像标记最优抓取位置坐标;
将所述第二训练集中的图像和其对应的最优抓取位置坐标作为输入,使用卷积神经网络模型进行训练,得到最优抓取位置生成网络。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
获取包含目标物体的Depth图像;
将所述Depth图像缩放至预设第三像素,得到第三训练集;
从所述第三训练集中的Depth图像上随机采取一对抓取点位置,并使用预设评分算法得到对应评分;
将所述Depth图像、抓取点位置以及抓取点位置对应的评分作为输入,使用卷积神经网络模型进行训练,得到抓取位置质量评估网络。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且 上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个申请方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,申请方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一种机器人目标物体抓取位置检测装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部 的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

  1. 一种机器人目标物体抓取位置检测的方法,其特征在于,包括:
    采集目标物体在不同视角下的目标RGB图像和目标Depth图像,其中,所述目标RGB图像和目标Depth图像中的像素点一一对应;
    将每一所述目标RGB图像输入至目标物体分割网络进行计算,得到所述目标RGB图像中目标物体的RGB像素区域及所述目标Depth图像中目标物体的Depth像素区域;
    将所述目标物体的RGB像素区域输入至最优抓取位置生成网络,得到所述目标物体抓取的最优抓取位置;
    将所述目标物体的Depth像素区域及所述最优抓取位置输入至抓取位置质量评估网络,计算所述最优抓取位置的得分;
    选择最高得分对应的最优抓取位置作为机器人全局最优抓取位置。
  2. 根据权利要求1所述的方法,其特征在于,
    所述目标物体分割网络是使用卷积神经网络模型训练出来的网络,所述目标物体分割网络的训练具体包括:
    获取包含目标物体的RGB图像;
    将所述RGB图像缩放至预设第一像素,得到第一训练集;
    标注所述第一训练集中的目标物体对应的像素区域;
    将所述第一训练集和所述目标物体对应的像素区域作为所述卷积神经网络模型输入进行训练,得到所述目标物体分割网络;
    将所述目标物体分割网络得到的目标物体对应的RGB像素区域与标注的目标物体对应的像素区域做重叠对比;
    根据所述重叠对比结果调整所述目标物体分割网络的权值。
  3. 根据权利要求1所述的方法,其特征在于,所述最优抓取位置生成网络是使用卷积神经网络模型训练出来的网络,所述最优抓取位置生成网络的训练具体包括:
    将所述目标物体分割网络得到的目标物体对应的RGB像素区域缩放至预设第二像素,得到第二训练集;
    将所述第二训练集中的图像标记最优抓取位置坐标;
    将所述第二训练集中的图像和其对应的最优抓取位置坐标作为输入,使用卷积神经网络模型进行训练,得到最优抓取位置生成网络。
  4. 根据权利要求1所述的方法,其特征在于,所述抓取位置质量评估网络是使用卷积神经网络模型训练出来的网络,所述抓取位置质量评估网络的训练具体包括:
    获取包含目标物体的Depth图像;
    将所述Depth图像缩放至预设第三像素,得到第三训练集;
    从所述第三训练集中的Depth图像上随机采取一对抓取点位置,并使用预设评分算法得到对应评分;
    将所述Depth图像、抓取点位置以及抓取点位置对应的评分作为输入,使用卷积神经网络模型进行训练,得到抓取位置质量评估网络。
  5. 一种机器人目标物体抓取位置检测装置,其特征在于,包括:
    采集模块:用于采集目标物体在不同视角下的目标RGB图像和目标Depth图像,其中,所述目标RGB图像和目标Depth图像中的像素点一一对应;
    分割模块:用于将每一所述目标RGB图像输入至目标物体分割网络进行计算,得到所述目标RGB图像中目标物体的RGB像素区域及所述目标Depth图像中目标物体的Depth像素区域;
    抓取模块:用于将所述目标物体的RGB像素区域输入至最优抓取位置生成网络,得到所述目标物体抓取的最优抓取位置;
    评估模块:用于将所述目标物体的Depth像素区域及所述最优抓取位置输入至抓取位置质量评估网络,计算所述最优抓取位置的得分;
    选择模块:用于选择最高得分对应的最优抓取位置作为机器人全局最优抓取位置。
  6. 根据权利要求5所述的装置,其特征在于,所述分割模块中目标物体分割网络是使用卷积神经网络模型训练出来的网络,所述目标物体分割网络的训练具体包括:
    获取包含目标物体的RGB图像;
    将所述RGB图像缩放至预设第一像素,得到第一训练集;
    标注所述第一训练集中的目标物体对应的像素区域;
    将所述第一训练集和所述目标物体对应的像素区域作为所述卷积神经网络 模型输入进行训练,得到所述目标物体分割网络;
    将所述目标物体分割网络得到的目标物体对应的RGB像素区域与标注的目标物体对应的像素区域做重叠对比;
    根据所述重叠对比结果调整所述目标物体分割网络的权值。
  7. 根据权利要求5所述的装置,其特征在于,所述抓取模块中最优抓取位置生成网络是使用卷积神经网络模型训练出来的网络,所述最优抓取位置生成网络的训练具体包括:
    将所述目标物体分割网络得到的目标物体对应的RGB像素区域缩放至预设第二像素,得到第二训练集;
    将所述第二训练集中的图像标记最优抓取位置坐标;
    将所述第二训练集中的图像和其对应的最优抓取位置坐标作为输入,使用卷积神经网络模型进行训练,得到最优抓取位置生成网络。
  8. 根据权利要求5所述的装置,其特征在于,所述评估模块中抓取位置质量评估网络是使用卷积神经网络模型训练出来的网络,所述抓取位置质量评估网络的训练具体包括:
    获取包含目标物体的Depth图像;
    将所述Depth图像缩放至预设第三像素,得到第三训练集;
    从所述第三训练集中的Depth图像上随机采取一对抓取点位置,并使用预设评分算法得到对应评分;
    将所述Depth图像、抓取点位置以及抓取点位置对应的评分作为输入,使用卷积神经网络模型进行训练,得到抓取位置质量评估网络。
  9. 一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
    所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-4中任一项所述的一种机器人目标物体抓取位置检测的方法对应的操作。
  10. 一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-4中任一项所述的一种机器人目标物体抓取位置检测的方法对应的操作。
PCT/CN2019/115959 2018-12-12 2019-11-06 机器人目标物体抓取位置检测的方法 WO2020119338A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020543212A JP7085726B2 (ja) 2018-12-12 2019-11-06 ロボットの目標物体把持位置の検出方法
US17/032,399 US11878433B2 (en) 2018-12-12 2020-09-25 Method for detecting grasping position of robot in grasping object

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811518381.7A CN109658413B (zh) 2018-12-12 2018-12-12 一种机器人目标物体抓取位置检测的方法
CN201811518381.7 2018-12-12

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/032,399 Continuation US11878433B2 (en) 2018-12-12 2020-09-25 Method for detecting grasping position of robot in grasping object

Publications (1)

Publication Number Publication Date
WO2020119338A1 true WO2020119338A1 (zh) 2020-06-18

Family

ID=66113814

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/115959 WO2020119338A1 (zh) 2018-12-12 2019-11-06 机器人目标物体抓取位置检测的方法

Country Status (4)

Country Link
US (1) US11878433B2 (zh)
JP (1) JP7085726B2 (zh)
CN (1) CN109658413B (zh)
WO (1) WO2020119338A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613478A (zh) * 2021-01-04 2021-04-06 大连理工大学 一种面向机器人抓取的数据主动式选择方法
CN113506314A (zh) * 2021-06-25 2021-10-15 北京精密机电控制设备研究所 一种复杂背景下对称四边形工件的自动抓取方法及装置
CN113762159A (zh) * 2021-09-08 2021-12-07 山东大学 一种基于有向箭头模型的目标抓取检测方法及系统
CN113920142A (zh) * 2021-11-11 2022-01-11 江苏昱博自动化设备有限公司 一种基于深度学习的分拣机械手多物体分拣方法
CN114782827A (zh) * 2022-06-22 2022-07-22 中国科学院微电子研究所 一种基于图像的物体抓取点获取方法和装置
CN116749241A (zh) * 2023-08-16 2023-09-15 苏州视谷视觉技术有限公司 一种机器视觉高精度定位抓取装置

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658413B (zh) * 2018-12-12 2022-08-09 达闼机器人股份有限公司 一种机器人目标物体抓取位置检测的方法
US11185978B2 (en) * 2019-01-08 2021-11-30 Honda Motor Co., Ltd. Depth perception modeling for grasping objects
CN110136163B (zh) * 2019-04-29 2021-02-12 中国科学院自动化研究所 手部运动模糊自动抠图及在人体软分割和背景更换的应用
CN112101075B (zh) * 2019-06-18 2022-03-25 腾讯科技(深圳)有限公司 信息植入区域的识别方法、装置、存储介质及电子设备
CN110348333A (zh) * 2019-06-21 2019-10-18 深圳前海达闼云端智能科技有限公司 物体检测方法、装置、存储介质及电子设备
CN111359915B (zh) * 2020-03-24 2022-05-24 广东弓叶科技有限公司 基于机器视觉的物料分选方法及系统
CN111783537A (zh) * 2020-05-29 2020-10-16 哈尔滨莫迪科技有限责任公司 一种基于目标检测特征的两阶段快速抓取检测方法
CN111652118B (zh) * 2020-05-29 2023-06-20 大连海事大学 基于水下目标近邻分布的海产品自主抓取引导方法
WO2022015807A1 (en) 2020-07-14 2022-01-20 Vicarious Fpc, Inc. Method and system for object grasping
WO2022015802A1 (en) 2020-07-14 2022-01-20 Vicarious Fpc, Inc. Method and system for generating training data
US11559885B2 (en) 2020-07-14 2023-01-24 Intrinsic Innovation Llc Method and system for grasping an object
US12017368B2 (en) * 2020-09-09 2024-06-25 Fanuc Corporation Mix-size depalletizing
CN112297013B (zh) * 2020-11-11 2022-02-18 浙江大学 一种基于数字孪生和深度神经网络的机器人智能抓取方法
CN113781493A (zh) * 2021-01-04 2021-12-10 北京沃东天骏信息技术有限公司 图像处理方法、装置、电子设备、介质及计算机程序产品
CN112861667A (zh) * 2021-01-26 2021-05-28 北京邮电大学 一种基于多类别目标分割的机器人抓取检测方法
CN112802105A (zh) * 2021-02-05 2021-05-14 梅卡曼德(北京)机器人科技有限公司 对象抓取方法及装置
CN113160313A (zh) * 2021-03-03 2021-07-23 广东工业大学 一种透明物体抓取控制方法、装置、终端及存储介质
US20220379475A1 (en) * 2021-05-25 2022-12-01 Fanuc Corporation Transparent object bin picking
CN113327295A (zh) * 2021-06-18 2021-08-31 华南理工大学 一种基于级联全卷积神经网络的机器人快速抓取方法
US20220410381A1 (en) * 2021-06-29 2022-12-29 Intrinsic Innovation Llc Systems and methods for picking objects using 3-d geometry and segmentation
CN113326666B (zh) * 2021-07-15 2022-05-03 浙江大学 基于卷积神经网络可微分结构搜寻的机器人智能抓取方法
CN113744333B (zh) * 2021-08-20 2024-02-13 北京航空航天大学 一种物体抓取位置获取方法及装置
CN113420746B (zh) * 2021-08-25 2021-12-07 中国科学院自动化研究所 机器人视觉分拣方法、装置、电子设备和存储介质
NL2029461B1 (en) * 2021-10-19 2023-05-16 Fizyr B V Automated bin-picking based on deep learning
CN116416444B (zh) * 2021-12-29 2024-04-16 广东美的白色家电技术创新中心有限公司 物体抓取点估计、模型训练及数据生成方法、装置及系统
CN114683251A (zh) * 2022-03-31 2022-07-01 上海节卡机器人科技有限公司 机器人抓取方法、装置、电子设备及可读取存储介质
CN114426923B (zh) * 2022-03-31 2022-07-12 季华实验室 一种环境病毒采样机器人及方法
CN114750154A (zh) * 2022-04-25 2022-07-15 贵州电网有限责任公司 一种配网带电作业机器人的动态目标识别定位与抓取方法
CN115108117B (zh) * 2022-05-26 2023-06-27 盈合(深圳)机器人与自动化科技有限公司 一种切割方法、系统、终端及计算机存储介质
CN115147488B (zh) * 2022-07-06 2024-06-18 湖南大学 一种基于密集预测的工件位姿估计方法与抓取系统
CN116399871B (zh) * 2023-04-19 2023-11-14 广州市阳普机电工程有限公司 一种基于机器视觉的汽车零部件装配检测系统及方法
CN116950429A (zh) * 2023-07-31 2023-10-27 中建八局发展建设有限公司 一种大型拼接墙快速定位拼接方法、介质及系统
CN117067219B (zh) * 2023-10-13 2023-12-15 广州朗晴电动车有限公司 一种电车车身成型的钣金机械臂控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108247601A (zh) * 2018-02-09 2018-07-06 中国科学院电子学研究所 基于深度学习的语义抓取机器人
CN108510062A (zh) * 2018-03-29 2018-09-07 东南大学 一种基于级联卷积神经网络的机器人非规则物体抓取位姿快速检测方法
CN109658413A (zh) * 2018-12-12 2019-04-19 深圳前海达闼云端智能科技有限公司 一种机器人目标物体抓取位置检测的方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325468A (en) * 1990-10-31 1994-06-28 Sanyo Electric Co., Ltd. Operation planning system for robot
JP6529302B2 (ja) * 2015-03-24 2019-06-12 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
US10089575B1 (en) 2015-05-27 2018-10-02 X Development Llc Determining grasping parameters for grasping of an object by a robot grasping end effector
WO2017201023A1 (en) 2016-05-20 2017-11-23 Google Llc Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
US10166676B1 (en) * 2016-06-08 2019-01-01 X Development Llc Kinesthetic teaching of grasp parameters for grasping of objects by a grasping end effector of a robot
JP6665040B2 (ja) * 2016-06-20 2020-03-13 三菱重工業株式会社 ロボット制御システム及びロボット制御方法
CN106041937B (zh) * 2016-08-16 2018-09-14 河南埃尔森智能科技有限公司 一种基于双目立体视觉的机械手抓取控制系统的控制方法
CN107972026B (zh) * 2016-10-25 2021-05-04 河北亿超机械制造股份有限公司 机器人、机械臂及其控制方法和装置
CN106780605A (zh) 2016-12-20 2017-05-31 芜湖哈特机器人产业技术研究院有限公司 一种基于深度学习机器人的目标物抓取位置的检测方法
CN106874914B (zh) * 2017-01-12 2019-05-14 华南理工大学 一种基于深度卷积神经网络的工业机械臂视觉控制方法
CN106737692B (zh) * 2017-02-10 2020-04-03 杭州迦智科技有限公司 一种基于深度投影的机械手爪抓取规划方法及控制装置
JP6546618B2 (ja) 2017-05-31 2019-07-17 株式会社Preferred Networks 学習装置、学習方法、学習モデル、検出装置及び把持システム
US11011077B2 (en) * 2017-06-29 2021-05-18 Verb Surgical Inc. Virtual reality training, simulation, and collaboration in a robotic surgical system
CN108229678B (zh) * 2017-10-24 2021-04-06 深圳市商汤科技有限公司 网络训练方法、操作控制方法、装置、存储介质和设备
CN108058172A (zh) * 2017-11-30 2018-05-22 深圳市唯特视科技有限公司 一种基于自回归模型的机械手抓取方法
CN108280856B (zh) * 2018-02-09 2021-05-07 哈尔滨工业大学 基于混合信息输入网络模型的未知物体抓取位姿估计方法
CN108648233B (zh) * 2018-03-24 2022-04-12 北京工业大学 一种基于深度学习的目标识别与抓取定位方法
JP7015265B2 (ja) * 2019-03-14 2022-02-02 ファナック株式会社 コネクタを含むワークを把持する作業ツールおよび作業ツールを備えるロボット装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108247601A (zh) * 2018-02-09 2018-07-06 中国科学院电子学研究所 基于深度学习的语义抓取机器人
CN108510062A (zh) * 2018-03-29 2018-09-07 东南大学 一种基于级联卷积神经网络的机器人非规则物体抓取位姿快速检测方法
CN109658413A (zh) * 2018-12-12 2019-04-19 深圳前海达闼云端智能科技有限公司 一种机器人目标物体抓取位置检测的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613478A (zh) * 2021-01-04 2021-04-06 大连理工大学 一种面向机器人抓取的数据主动式选择方法
CN112613478B (zh) * 2021-01-04 2022-08-09 大连理工大学 一种面向机器人抓取的数据主动式选择方法
CN113506314A (zh) * 2021-06-25 2021-10-15 北京精密机电控制设备研究所 一种复杂背景下对称四边形工件的自动抓取方法及装置
CN113506314B (zh) * 2021-06-25 2024-04-09 北京精密机电控制设备研究所 一种复杂背景下对称四边形工件的自动抓取方法及装置
CN113762159A (zh) * 2021-09-08 2021-12-07 山东大学 一种基于有向箭头模型的目标抓取检测方法及系统
CN113762159B (zh) * 2021-09-08 2023-08-08 山东大学 一种基于有向箭头模型的目标抓取检测方法及系统
CN113920142A (zh) * 2021-11-11 2022-01-11 江苏昱博自动化设备有限公司 一种基于深度学习的分拣机械手多物体分拣方法
CN113920142B (zh) * 2021-11-11 2023-09-26 江苏昱博自动化设备有限公司 一种基于深度学习的分拣机械手多物体分拣方法
CN114782827A (zh) * 2022-06-22 2022-07-22 中国科学院微电子研究所 一种基于图像的物体抓取点获取方法和装置
CN116749241A (zh) * 2023-08-16 2023-09-15 苏州视谷视觉技术有限公司 一种机器视觉高精度定位抓取装置
CN116749241B (zh) * 2023-08-16 2023-11-07 苏州视谷视觉技术有限公司 一种机器视觉高精度定位抓取装置

Also Published As

Publication number Publication date
US20210023720A1 (en) 2021-01-28
US11878433B2 (en) 2024-01-23
JP7085726B2 (ja) 2022-06-17
JP2021517681A (ja) 2021-07-26
CN109658413B (zh) 2022-08-09
CN109658413A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
WO2020119338A1 (zh) 机器人目标物体抓取位置检测的方法
WO2022179261A1 (zh) 基于3d匹配的物体抓取方法、装置及计算设备
WO2020177432A1 (zh) 基于目标检测网络的多标签物体检测方法、系统、装置
US10769496B2 (en) Logo detection
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
CN108846826B (zh) 物体检测方法、装置、图像处理设备及存储介质
TWI394087B (zh) 追蹤目標物的方法及裝置
CN113409384B (zh) 一种目标物体的位姿估计方法和系统、机器人
WO2022017131A1 (zh) 点云数据的处理方法、智能行驶控制方法及装置
CN110796700B (zh) 基于卷积神经网络的多物体抓取区域定位方法
CN111008576B (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
WO2023279584A1 (zh) 一种目标检测方法、目标检测装置及机器人
CN116912238B (zh) 基于多维识别网络级联融合的焊缝管道识别方法及系统
CN115063768A (zh) 三维目标检测方法、编码器及解码器
CN111275758B (zh) 混合型3d视觉定位方法、装置、计算机设备及存储介质
CN113762159B (zh) 一种基于有向箭头模型的目标抓取检测方法及系统
Chen et al. Progresslabeller: Visual data stream annotation for training object-centric 3d perception
Chen et al. YOLOv7-WFD: A Novel Convolutional Neural Network Model for Helmet Detection in High-Risk Workplaces
CN113538576A (zh) 基于双臂机器人的抓取方法、装置及双臂机器人
Wang et al. Unsupervised representation learning for visual robotics grasping
CN112288809A (zh) 一种用于多物体复杂场景的机器人抓取检测方法
CN114211490B (zh) 一种基于Transformer模型的机械臂抓手位姿预测方法
JP7294454B2 (ja) オブジェクト検出方法及びオブジェクト検出装置
CN114049318A (zh) 一种基于多模态融合特征的抓取位姿检测方法
WO2020237674A1 (zh) 目标跟踪方法、目标跟踪装置和无人机

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19896513

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020543212

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19896513

Country of ref document: EP

Kind code of ref document: A1