WO2023005922A1 - 人-物体场景识别方法、装置及计算机可读存储介质 - Google Patents

人-物体场景识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
WO2023005922A1
WO2023005922A1 PCT/CN2022/107908 CN2022107908W WO2023005922A1 WO 2023005922 A1 WO2023005922 A1 WO 2023005922A1 CN 2022107908 W CN2022107908 W CN 2022107908W WO 2023005922 A1 WO2023005922 A1 WO 2023005922A1
Authority
WO
WIPO (PCT)
Prior art keywords
bounding box
person
detected
rgb image
objects
Prior art date
Application number
PCT/CN2022/107908
Other languages
English (en)
French (fr)
Inventor
董初桥
邵丹
修震
郭德骏
谭欢
Original Assignee
深圳市优必选科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市优必选科技股份有限公司 filed Critical 深圳市优必选科技股份有限公司
Priority to CN202280004525.5A priority Critical patent/CN115777117A/zh
Publication of WO2023005922A1 publication Critical patent/WO2023005922A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention relates to the field of object recognition, in particular to a human-object scene recognition method, device and computer-readable storage medium.
  • Scene understanding is deeper object detection, recognition and reasoning based on image analysis.
  • image understanding the image data is processed to obtain an understanding of the scene content reflected by the image.
  • the present invention provides a human-object scene recognition method to overcome the above problems.
  • using the segmentation classification algorithm based on the sample database to detect the objects and people in the RGB image includes: generating a segmentation mask for the objects and people in the RGB image, so as to obtain the corresponding pixel coordinates.
  • the method further includes: determining whether two or more segments of the same object category need to be merged into the One of objects or persons.
  • the method further includes: outputting said each detected object and/or person with a corresponding category name, and said detected object and/or person The 3D bounding box of the person.
  • the present invention also provides a non-transitory computer-readable storage medium storing one or more programs to be executed by one or more processors of a person-object recognition device, the one or more programs being executed by the one or more processors
  • the person-object recognition device is made to perform processing, including: obtaining an input RGB image and a depth image corresponding to the RGB image; using a segmentation classification algorithm based on a sample database to detect objects and objects in the RGB image People; in response to detecting objects and/or people, perform segment detection for each detected object and/or person based on the RGB image and the depth image, and obtain the result of the segment detection; the result of the segment detection is calculating a 3D bounding box for each detected object and/or person; and determining a position of each detected object and/or person based on the 3D bounding box.
  • Figure 3 shows an image of an exemplary scene including a person standing away from a chair.
  • Figure 5 shows an image of an exemplary scene including a bed and a chair standing away from the bed.
  • Fig. 8 is an exemplary flow chart of a method for recognizing a person-person scene according to an embodiment.
  • Fig. 12 is a schematic block diagram of a person-person recognition device according to an embodiment.
  • references in the specification to "one embodiment,” “example embodiments,” “some embodiments,” “certain embodiments,” etc. indicate that the described embodiments may include particular features. , structure or characteristic (characteristic), but each embodiment may not necessarily include a specific feature, structure or characteristic. Moreover, these phrases are not necessarily referring to the same embodiment. Furthermore, when a particular feature, structure or characteristic is described in connection with one embodiment, it is within the knowledge of those skilled in the relevant art to implement such feature, structure or characteristic in relation to other embodiments whether explicitly described or not.
  • a term can be understood at least in part from its usage in context.
  • the term "one or more” as used herein may be used in the singular to describe any feature, structure or characteristic or may be used in the plural to describe a combination of features, structures or characteristics, depending at least in part on the context.
  • terms such as “a” or “the” may also be read to convey singular usage or to convey plural usage, depending at least in part on the context.
  • the term “based on” may be understood as not necessarily intended to convey an exclusive set of factors, and may instead allow for the presence of additional factors not necessarily explicitly described, again depending at least in part on context.
  • the robot 10 may include a camera 101 , an actuator 102 , a movement mechanism 103 , a processor 104 , a memory 105 and a communication interface module 106 .
  • the camera 101 may be, for example, an RGB-D three-dimensional sensor provided on the body of the robot 10 .
  • the camera 101 is electrically connected to the processor 104 and is used to transmit captured image data to the processor 104 .
  • the actuator 102 may be a motor or a steering gear.
  • the movement mechanism 103 may include one or more wheels and/or tracks, wheels are shown in FIG. 1 as an example.
  • the actuator 102 is electrically connected with the moving mechanism 103 and the processor 104 , and can drive the movement of the moving mechanism 103 according to the instructions of the processor 104 .
  • steps S81 to S86 in FIG. 1, steps S91 to S98 in FIG. 8, and steps S981 to S987 in FIG. implement.
  • the processing 104 can be a central processing unit (CPU), a general purpose processor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a field programmable gate array (FPGA), a programmable logic device, discrete gates, a transistor logic device or discrete hardware components.
  • a general purpose processor may be a microprocessor or any conventional processor or the like.
  • the recognition unit is adapted to respond to detection of objects and/or persons by performing segment detection on each detected object and/or person based on the RGB image and the depth image and by performing 3D detection on each detected object and/or person
  • a bounding box is computed to determine the location of each detected object and/or person.
  • the control unit is used to control a robot to perform predetermined tasks according to the detected position of the object and/or the person.
  • the method for a robot to recognize a human-object scene allows the robot to automatically set a target position and navigate while avoiding collisions.
  • the method can also provide application scenarios such as whether the target object is in the scene, the position of the target object, and whether people/others are near the target object.
  • an RGB image and a corresponding depth image are input. This RGB image will first go through a segmentation classification algorithm for detecting common objects and humans in the scene. Before generating the final 3D bounding box, it is necessary to detect whether separate fragments should be merged into one object.
  • the final information of the 3D bounding box of each detected object/person is generated and set as an independent output, which can be directly used for robot target position setting and/or collision avoidance during navigation if required.
  • the object(s) of interest specified by the customer can be used as the target object to calculate the person-object or object-object relationship.
  • the analysis of whether a detected object/person is near the target object can only be performed if the target object (and person, if only one object is defined) is present in the scene.
  • a volume-based computation step is performed for "near" inspection.
  • An output of whether a person is close to the target object or whether two or more target objects are close to each other is generated. With the help of this human/object-environment interaction information, the guidance of robot-human-environment interaction can be realized.
  • FIGS. 3 and 4 show images containing people and chairs, which were captured by the camera 101 of the contained robot.
  • the person is standing away from the chair, while in Figure 4, the person is standing behind the chair.
  • the upper left corner shows the recognition result of the target object (i.e. chair) present in the scene, and the information of whether the person is close to the target object.
  • Figures 5-7 Representative results for scene understanding of object-object relations are shown in Figures 5-7.
  • Figure 5 shows the chair far away from the bed.
  • Figure 6 shows the bedside table in contact with the bed.
  • Figure 7 shows two chairs next to a table.
  • the upper left corner shows the recognition result of the target object and information on whether the target objects are close to each other.
  • the identified person/object in each image is surrounded by a 3D bounding box.
  • the persons and chairs identified in Figures 3 and 5-7 are surrounded by 3D bounding boxes 301 , 302 , 501 , 502 , 601 , 602 , 701 , 702 and 703 .
  • the 2D bounding boxes around the identified persons/chairs in Fig. 4 are for representational purposes only.
  • the robot captures images through the camera 101 while moving, and sends the captured images to the processor 104 .
  • the processor 104 processes the captured image by executing the executable computer program 107 to complete the recognition of the person-object scene. Specifically, the processing process is: obtain the input RGB image and the depth image corresponding to the RGB image; use the segmentation and classification algorithm based on the sample database to detect objects and people in the RGB image; Image and Depth Images perform segment detection on each detected object and/or person, and determine each detected object and/or person's Location.
  • Fig. 8 shows an exemplary flowchart of a method for recognizing a person-person scene according to an embodiment.
  • the method may be implemented to control the motion of a robot 10 as shown in FIGS. 1 and 2 . Specifically, it may be executed by the robot 10 shown in FIG. 2 or other control devices electrically connected to the robot 10 .
  • Control devices may include, but are not limited to: desktop computers, tablet computers, laptop computers, multimedia players, servers, smart mobile devices (such as smart phones, handheld phones, etc.) and smart wearable devices (such as smart watches, smart glasses, smart cameras, smart bracelets, etc.) and other computing devices with computing and control capabilities.
  • the method may include steps S81 to S86.
  • Step S81 Obtain the input RGB image and the depth image corresponding to the RGB image.
  • Step S82 Use the segmentation and classification algorithm based on the sample database to detect objects and people in the RGB image.
  • the image segmentation detection uses a deep learning method to detect objects and people in a single input RGB image. It should be noted that there may be only objects in the RGB image, there may be only people in the RGB image, or there may be people and objects in the RGB image.
  • an object and a person refer to a common object and a person, that is, an object and a person in a general sense, and does not specifically refer to a specific person or a specific object.
  • the image features of various common objects and people that may appear in each scene are pre-stored, which can be used as the basis for determining the features of common objects and people in image detection.
  • Step S83 In response to detecting objects and/or people, perform segment detection for each detected object and/or person based on the RGB image and the depth image, and obtain a segment detection result.
  • the depth values of the pixels of each segment may be used for three-dimensional coordinate calculation, taking camera parameters into consideration.
  • the depth value can be obtained from the depth image corresponding to the RGB image.
  • Step S84 Calculate a 3D bounding box for each detected object and/or person according to the segment detection result.
  • Step S85 Determine the position of each detected object and/or person according to the 3D bounding box.
  • Step S86 Control a robot to perform a predetermined task according to the determined position of the detected object and/or person.
  • the method shown in FIG. 8 can be executed by other devices, such as a computer equipped with a depth camera.
  • the computer may output the determined position of the detected object and/or person to the user after step S83.
  • the method may include steps S91 to S98.
  • a user can define an object of interest by inputting the object's name, shape, outline, size, and other data through a robot or computer.
  • One or more objects input by the user are used as the object of interest, as the basis for determining the relationship between people-things or things-things.
  • a chair is set as the target object, and whether a person is close to the chair is determined in each frame of the image.
  • Step S92 Obtain the input RGB image and the depth image corresponding to the RGB image.
  • Step S93 Use the segmentation and classification algorithm based on the sample database to detect objects and people in the RGB image.
  • Step S94 In response to no object and person being detected, output a detection result.
  • the pixels to shrink along the outline of the fragment and the volume value to add are parameters that can be adjusted to achieve the best balance.
  • the point group of each segment can be represented using the pedestal X-, Y- and Z-coordinates, where the X-Y plane is the ground in the real world, and the Z- Represents height.
  • quantum information quantum information
  • Convex Hull only works for projecting coordinates onto the X-Y plane of each point group, and for Z values only min/max values are required. Instead of initially using thousands of points in each segment's point group, 30 points can be extracted as Convex Hull points, which retain all the useful information for 3D bounding box computation.
  • useful information refers to the coordinates, shape, size and pose of the object/person being processed.
  • Convex Hull points are the output of the Convex Hull algorithm.
  • the projection of these Convex Hull points on the ground plane is the vertices of the outer boundary of the object/person's projection on the ground plane.
  • the height of the Convex Hull point is the height value of the upper and lower planes of the object/person. Here, the height of the upper surface or the height of the lower surface is randomly selected.
  • Step S96 Determine whether two or more segments of the same object category need to be merged into one of object or person.
  • fragments of the same object category may be multiple fragments of the same object due to occlusion.
  • the table in Figure 7 is divided into three segments 1, 2, and 3 due to the presence of chairs. Therefore, an extra step is performed to check whether two or more segments need to be merged into one object/person before generating the final 3D bounding box. The calculation is based on the 3D position, orientation and size of each fragment's bounding box.
  • the tolerance threshold distance is also set as an adjustable parameter for optimal performance.
  • Step S97 output the corresponding classification name of each detected object and/or person, and the 3D bounding box of the detected object and/or person.
  • Step S98 Determine whether the object detected in the RGB image includes a target object according to the 3D bounding box; in response to detecting the target object, obtain a 3D bounding box with a minimum volume of the detected object and/or person and the detected target object determine the positional relationship between one or more of the detected objects and/or people and the detected target object according to the three-dimensional position and orientation, and determine a predetermined task according to the positional relationship.
  • determining the positional relationship between one or more of the detected objects and/or persons and the detected target object according to the three-dimensional position and orientation may include: based on the detected object and one or more The information of the 3D bounding box of each detected object performs a stereo-based calculation to determine whether one or more of the detected objects and/or persons are in the vicinity of the detected object of interest.
  • step S98 may include the following steps.
  • Step S981 The position of the first 2D bounding box formed by the projection of the detected 3D bounding box of the object or person on a support surface (for example, the floor, the ground, etc.) is in the same position as the 3D bounding box of the target object The position of the second 2D bounding box formed by the projection on the support surface is compared.
  • a support surface for example, the floor, the ground, etc.
  • an object or person other than the target object is compared with the target object to determine a positional relationship between the object or person and the target object.
  • the positional relationship includes "near” and "not near”.
  • Step S982 In response to the position of the first 2D bounding box overlapping with the position of the second 2D bounding box, determine that one or more of the detected objects and/or people are within the detected target near the object.
  • Step S983 In response to the position of the first 2D bounding box not overlapping with the position of the second 2D bounding box, determine that the first 2D bounding box and the second 2D bounding box are rotated. Whether the position of the bounding box overlaps with the position of the second 2D bounding box.
  • Step S984 In response to the position of the first 2D bounding box overlapping with the position of the second 2D bounding box after the rotation of the first 2D bounding box and the second 2D bounding box, determine the detected object and One or more of the persons are close to the detected target object.
  • Step S985 In response to the rotation of the first 2D bounding box and the second 2D bounding box, the position of the first 2D bounding box does not overlap with the position of the second 2D bounding box, determine the first 2D bounding box Whether the shortest distance between the bounding box and the position of the second 2D bounding box is less than a variable threshold.
  • Step S986 In response to the shortest distance between the positions of the first 2D bounding box and the second 2D bounding box being less than the variable threshold, determine one or more of the detected objects and/or people near the detected target object.
  • Step S987 In response to the shortest distance between the positions of the first 2D bounding box and the second 2D bounding box being greater than the variable threshold, determine one or more of the detected objects and/or people one is not near the detected target object.
  • Guidance of robot-human-environment interactions can be achieved by outputting whether an object or person is close to a target object, or whether multiple target objects (e.g., two target objects) are close to each other.
  • the method according to the aforementioned embodiments can provide scene understanding information based on the relationship between the robot and objects/people in RGB images.
  • the scene understanding information may include the positional relationship between the target object and other detected objects and/or people, as a basis for the next step of operation. This could be crucial in a variety of everyday situations where a human reaches a target object, and the robot will be able to react quickly and perform assistance accordingly. For example, when an old man is sitting on a chair, the robot will detect this scene and approach the old man and provide water/food/other help as needed.
  • the method according to the foregoing embodiments has the following advantages.
  • segmentation and classification results with depth information to detect the position and orientation of objects and people in 3D space
  • all custom input objects can be located and oriented based on their presence in the current scene. This can further be used for robot target position setting and avoiding occlusions through navigation.
  • the position and orientation can be updated dynamically based on changes in the robot's position.
  • Shrinkage contours and compensation volumes are introduced to eliminate misclassified values.
  • Convex Hull is used to minimize memory/CPU cost while preserving all useful information.
  • a volume-based calculation method is introduced to combine segmented segments caused by occlusion into one object.
  • a semantic scene understanding system is developed and allows users to set target objects. The system is easy to apply to any scene or object of interest.
  • the method according to the foregoing embodiments can be used for object stereoscopic information calculation, for finding target objects in the current scene, and for scene understanding of human-object and object-object relationships.
  • RGBD camera sensors are affordable and can be placed at different locations on the robot with different quantum angles. With knowledge of the camera installation height and quantum values, the relative position/orientation and object relationship of each object in the robot's vicinity can be generated.
  • Fig. 12 is a schematic block diagram of a person-object recognition device according to an embodiment.
  • Person-object recognition devices may include, but are not limited to: cellular phones, smartphones, other wireless communication devices, personal digital assistants, audio players, other media players, music recorders, video recorders, cameras, other media recorders, radios, vehicle Transportation equipment, notebook computers, desktop computers, netbook computers, personal digital assistants (PDAs), portable multimedia players (PMPs), Moving Picture Experts Group (MPEG-1 or MPEG-2) audio layer 3 (MP3) players, portable Gaming devices (e.g. Nintendo DS TM, PlayStation Portable TM), Gameboy Advance TM, iPhone TM), portable Internet devices, data storage devices, smart wearable devices (e.g.
  • HMD head-mounted devices
  • the device can be installed on the robot, or it can be the robot itself.
  • the device can perform functions such as playing music, displaying video, storing pictures, and receiving and sending phone calls.
  • the apparatus may include a processor 110 , a memory 111 and one or more executable computer programs 112 stored in the memory 111 and executable by the processor 110 .
  • the processor 110 executes the computer program 112 the steps in the embodiment of the control method of the robot 10, such as steps S81 to S86 in FIG. 8, are executed.
  • one or more computer programs 112 may be divided into one or more modules/units, and one or more modules/units are stored in the memory 111 and executable by the processor 110 .
  • One or more modules/units may be a series of computer program instruction segments capable of performing specific functions, and the instruction segments are used to describe the execution process of one or more computer programs 112 in the device.
  • one or more computer programs 112 may be divided into an acquisition unit, a detection unit, an identification unit, and a control unit.
  • the acquiring unit is used for acquiring an input RGB image and a depth image corresponding to the RGB image.
  • the detection module is used to detect objects and people in the RGB image using the segmentation classification algorithm based on the sample database.
  • the recognition unit is adapted to respond to detection of objects and/or persons by performing segment detection on each detected object and/or person based on the RGB image and the depth image and by performing 3D detection on each detected object and/or person A bounding box is computed to determine the location of each detected object and/or person.
  • the control unit is used to control a robot to perform predetermined tasks according to the detected position of the object and/or the person.
  • FIG. 12 is only an example of the device 11 and does not constitute a limitation to the device 11 . In practice, more or less components may be included, or some combination of components, or different components.
  • device 11 may also include: input/output devices (such as keyboards, microphones, cameras, speakers, display screens, etc.), network connection access devices, buses, sensors, and the like.
  • Processor 110 may be a central processing unit (CPU), a general purpose processor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a field programmable gate array (FPGA), a programmable logic device, discrete gates, transistor logic devices or discrete hardware components.
  • a general purpose processor may be a microprocessor or any conventional processor or the like.
  • the storage 111 may be an internal storage unit, such as a hard disk or a memory.
  • Memory 111 may also be an external storage device, such as a plug-in hard disk, Smart Memory Card (SMC) and Secure Digital (SD) card, or any suitable flash memory card.
  • the memory 111 may also include an internal storage unit and an external storage device at the same time.
  • the memory 111 is used to store computer programs, other programs and data required by the robot.
  • the memory 111 can also be used to temporarily store data that has been output or will be output soon.
  • a non-transitory computer readable storage medium is provided.
  • the non-transitory computer-readable storage medium can be configured in the robot 10 shown in FIG. 1 or in the device shown in FIG. 12 , and the non-transitory computer-readable storage medium stores executable computer programs. When one or more processors are executed, the character scene recognition method described in the above embodiments is executed.
  • the disclosed apparatus/terminal equipment and method may be implemented in other ways.
  • the device/terminal device embodiments described above are only illustrative.
  • the division of the modules or units is only a logical function division.
  • the mutual coupling or direct coupling or communication connection shown or discussed may be through some interfaces, and the indirect coupling or communication connection of devices or units may be in electrical, mechanical or other forms.
  • the units described as separate components may or may not be physically separated, and the components shown as units may or may not be physical units, that is, they may be located in one place, or may be distributed to multiple network units. Part or all of the units can be selected according to actual needs to achieve the purpose of the solution of this embodiment.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, each unit may exist separately physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated units can be implemented in the form of hardware or in the form of software functional units.
  • the integrated modules are realized in the form of software function units and sold or used as independent products, they can be stored in a computer-readable storage medium.
  • the present invention realizes all or part of the processes in the methods of the above embodiments, and can also be completed by instructing related hardware through a computer program.
  • the computer program can be stored in a computer-readable storage medium, and the computer When the program is executed by the processor, the steps in the above-mentioned various method embodiments can be realized.
  • the computer program includes computer program code, and the computer program code may be in the form of source code, object code, executable file or some intermediate form.
  • the computer-readable medium may include: any entity or device capable of carrying the computer program code, a recording medium, a USB flash drive, a removable hard disk, a magnetic disk, an optical disk, a computer memory, and a read-only memory (ROM, Read-Only Memory) , Random Access Memory (RAM, Random Access Memory), electrical carrier signal, telecommunication signal and software distribution medium, etc.
  • ROM Read-Only Memory
  • RAM Random Access Memory
  • electrical carrier signal telecommunication signal and software distribution medium, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了人-物体场景识别方法、装置及计算机可读存储介质,该方法包括:获取输入RGB图像和与该RGB图像对应的深度图像;使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人;响应于检测到物体和/或人,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测,并获取该片段检测的结果;根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框;和根据该3D边界框确定每个检测到的物体和/或人的位置。该方法允许机器人在避免碰撞的同时自动设置目标位置和导航。该方法还可以提供目标物体是否在场景中、目标物体的位置以及人/其他人是否在目标物体附近的语义信息等应用场景。

Description

人-物体场景识别方法、装置及计算机可读存储介质 技术领域
本发明涉及物体识别领域,尤其涉及一种人-物体场景识别方法、装置及计算机可读存储介质。
背景技术
场景理解是基于图像分析的更深层次的物体检测、识别和推理。在图像理解的基础上,对图像数据进行处理,以获得对图像所反映的场景内容的理解。
常规的图像资源利用通常分析低级视觉特征,例如颜色、形状和纹理。然而,低级视觉特征仅代表视觉信息。在忽略图像内容中包含的语义信息的情况下,物体和/或人的定位误差较大,对图像中场景的理解存在偏差。
因此,需要提供一种方法和装置来克服上述问题。
发明内容
因此,本发明提供一种人-物体场景识别方法来克服上述问题。
为了解决上述技术问题,本发明提供了一种由一个或多个处理器执行的计算机实现的人-物场景识别方法,该方法包括:获取输入RGB图像和与该RGB图像对应的深度图像;使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人;响应于检测到物体和/或人,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测,并获取该片段检测的结果;根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框;和根据该3D边界框确定每个检测到的物体和/或人的位置。
可选的,在获取输入RGB图像和与该RGB图像对应的深度图像之前,该方法还包括:将一兴趣物设置为目标物体。
可选的,在根据该3D边界框确定每个检测到的物体和/或人的位置之后, 该方法还包括:根据该3D边界框确定该RGB图像中检测到的物体是否包括该目标物体;响应于检测到该目标物体,获取检测到的物体和/或人和检测到的目标物体的具有最小体积的3D边界框的三维位置和方向;和根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系。
可选的,使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人包括:为该RGB图像中的物体和人生成分割掩模,以获取该RGB图像中每个物体和人对应的像素坐标。
可选的,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测包括:使用腐蚀算法向内收缩该RGB图像和该深度图像的每个片段中的物体和/或人的轮廓,以获得该RGB图像和该深度图像的每个片段中的物体和/或人的置信片段;和使用Convex Hull算法计算与收缩数据相对应的3D边界框,以补偿该RGB图像和该深度图像中的每个片段中的物体和/或人的体积。
可选的,根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框之后,该方法还包括:确定是否需要将同一物体类别的两个或多个段合并为所述物体或人之一。
可选的,确定是否需要将同一物体类别的两个或多个段合并为所述物体或人之一包括:根据所述两个或多个片段的3D边界框的三维位置、方向、大小和公差阈值距离确定所述两个或多个片段是否是所述物体或人之一的一部分;响应于所述两个或多个片段是所述物体或人之一的一部分,将所述两个或多个片段合并为所述物体或人之一;和响应于所述两个或多个片段不是所述物体或人之一的一部分,确定不将所述两个或多个片段合并为所述物体或人之一。
可选的,根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系包括:基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息,通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附 近。
可选的,基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息,通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近,包括:将所述检测到的物体或人的3D边界框在一支撑面上的投影形成的第一2D边界框的位置与所述目标物体的3D边界框在该支撑面上的投影形成的第二2D边界框的位置进行比较;响应于所述第一2D边界框的位置与所述第二2D边界框的位置重叠,确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近;响应于所述第一2D边界框的位置不与所述第二2D边界框的位置重叠,确定所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置是否与所述第二2D边界框的位置重叠;响应于在所述第一2D边界框和第二2D边界框旋转后所述第一2D边界框的位置与所述第二2D边界框的位置重叠,确定所述检测到的物体和/或人中的一个或多个靠近所述检测到的目标物体;响应于所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置不与所述第二2D边界框的位置重叠,确定所述第一2D边界框和所述第二2D边界框的位置之间的最短距离是否小于一可变阈值;响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离小于所述可变阈值,确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近。
可选的,在根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系之后,所述方法还包括:输出所述检测到的物体或人和目标物体。
可选的,在通过基于该RGB图像和该深度图像对每个所述检测到的物体和/或人执行片段检测以及对每个所述检测到的物体和/或人执行3D边界框计算确定每个所述检测到的物体和/或人的位置之后,该方法还包括:输出具有相应分类名称的所述每个检测到的物体和/或人,以及所述检测到的物体和/或人的3D边界框。
可选的,在根据该3D边界框确定每个检测到的物体和/或人的位置之后,该方法还包括:根据所述检测到的物体和/或人的确定的位置控制一机器人执行预定任务。
可选的,在根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系之后,该方法还包括:确定与该位置关系对应的任务;和控制一机器人执行该任务。
本发明还提供人-物体识别装置,包括:一个或多个处理器;存储器;和一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括:获取输入RGB图像和与该RGB图像对应的深度图像的指令;使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人的指令;响应于检测到物体和/或人,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测并获取该片段检测的结果的指令;根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框的指令;和根据该3D边界框确定每个检测到的物体和/或人的位置的指令。
本发明还提供一种非暂时性计算机可读存储介质,其存储要由一人-物体识别装置的一个或多个处理器执行的一个或多个程序,该一个或多个程序在由所述一个或多个处理器执行时,使该人-物体识别装置执行处理,包括:获取输入RGB图像和与该RGB图像对应的深度图像;使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人;响应于检测到物体和/或人,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测,并获取该片段检测的结果;根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框;和根据该3D边界框确定每个检测到的物体和/或人的位置。
本发明技术方案,具有如下优点:根据本公开的实施例的机器人识别人-物场景的方法允许机器人在避免碰撞的同时自动设置目标位置和导航。此外,该方法还可以提供目标物体是否在场景中、目标物体的位置以及人/其他人是否 在目标物体附近的语义信息等应用场景。
附图说明
并入本文并形成说明书的一部分的附图说明了本公开的实施例,并且与描述一起进一步用于解释本公开的原理并使相关领域的技术人员能够制作和使用本公开。为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一实施方式的机器人的示意图。
图2是一实施方式的机器人的示意性框图。
图3示出了包括远离椅子站立的人的示例性场景的图像。
图4示出了包括坐在椅子上的人的示例性场景的图像。
图5示出了包括床和远离床站立的椅子的示例性场景的图像。
图6示出了包括床和靠近床的床头柜的示例性场景的图像。
图7示出了包括一张桌子和两把椅子的示例性场景的图像。
图8是根据一个实施例的人-物场景识别方法的示例性流程图。
图9是根据另一实施例的人-物场景识别方法的示例性流程图。
图10是图9的方法的步骤S98的示例性流程图。
图11是机器人识别人-物场景的方法中的计算机程序的处理逻辑流程图。
图12是根据一个实施例的人-物识别装置的示意框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现在将详细参考示例性实施例,其示例在附图中示出。在可能的情况下,将在整个附图中使用相同的附图标记来指代相同或相似的部分。
尽管讨论了具体的配置和布置,但应该理解,这样做只是为了说明的目的。相关领域的技术人员将认识到,在不背离本公开的精神和范围的情况下,可以使用其他配置和布置。对于相关领域的技术人员显而易见的是,本公开还可以用于各种其他应用中。
需要注意的是,说明书中对“一个实施例”、“示例实施例”、“一些实施例”、“某些实施例”等的提及表明所描述的实施例可以包括特定的特征(feature)、结构或特性(characteristic),但每个实施例可能不一定包括特定特征、结构或特性。此外,这些短语不一定指相同的实施例。此外,当结合一实施例描述特定特征、结构或特性时,实现与其他实施例相关的这种特征、结构或特性,是在相关领域的技术人员的知识范围内的,无论是否明确描述。
一般而言,术语可以至少部分地从上下文中的使用来理解。例如,至少部分取决于上下文,如本文所用的术语“一个或多个”可用于以单数意义描述任何特征、结构或特性,或者可用于以复数意义描述特征、结构或特性的组合。类似地,至少部分地取决于上下文,诸如“一个”或“该”之类的术语也可以被理解为传达单数用法或传达复数用法。此外,术语“基于”可以被理解为不一定旨在传达一组排他的因素,并且可以相反地允许存在不一定明确描述的附加因素,这再次至少部分地取决于上下文。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
图1是根据一实施例的机器人10的示意图。图2根据是一实施例的机器人10的示意性框图。机器人10可以是移动机器人(例如,轮式机器人)。机器人10可以在各种应用环境中工作,例如医院、工厂、仓库、商场、街道、机场、家庭、养老中心、博物馆、餐厅、酒店、甚至野外等。图1仅是说明性示例。机器人10可以是其他类型的机器人。
在一个实施例中,机器人10可以包括摄像头101、致动器102、移动机构103、处理器104、存储器105和通信接口模块106。摄像头101可以例如是设置在机器人10的机体上的RGB-D三维传感器。摄像头101与处理器104电连接,用于将拍摄的图像数据传输给处理器104。致动器102可以是电机或舵机。移动机构103可以包括一个或多个轮子和/或轨道,轮子作为示例在图1中示出。致动器102与移动机构103和处理器104电连接,其可根据处理器104的指令驱动移动机构103的运动。
存储器105可以包括非暂时性计算机可读存储介质。存储器105中存储有一个或多个可执行计算机程序107。处理器104与存储器105电连接,并通过执行存储器105中存储的可执行计算机程序来执行相应的操作。通信接口模块106可以包括无线发送器、无线接收器和可由处理器104执行的计算机程序。通信接口模块106电连接到处理器104并且被配置用于处理器104和外部设备之间的通信。在一个实施例中,相机101、致动器102、移动机构103、处理器104、存储器105和通信接口模块106可以通过总线相互连接。
当处理器104执行计算机程序107时,控制机器人10的方法的实施例中的步骤,例如图1中的步骤S81至S86、图8中的步骤S91至S98、图9中的步骤S981至S987被执行。
处理104可以是中央处理单元(CPU)、通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件。通用处理器可以是微处理器或任何常规处理器等。
存储器105可以是机器人10的内部存储单元,例如硬盘或存储器。存储器105也可以是机器人10的外部存储设备,例如插入式硬盘、智能存储卡(SMC)和安全数字(SD)卡、或任何合适的闪存卡。此外,存储器105还可以同时包括内部存储单元和外部存储设备。存储器105用于存储机器人所需的计算机程序、其他程序和数据。存储器105还可以用于临时存储已经输出或即将输出的数据。
示例性地,一个或多个计算机程序107可以被划分为一个或多个模块/单元,并且所述一个或多个模块/单元存储在存储器105中并且可由处理器104执行。所述一个或多个模块/单元可以是一系列能够执行特定功能的计算机程序指令段,所述指令段用于描述机器人10中的一个或多个计算机程序107的执行过程。例如,一个或多个计算机程序112可以分为获取单元、检测单元、识别单元和控制单元。获取单元,用于获取输入的RGB图像和与RGB图像对应的深度图像。检测模块用于利用基于样本数据库的分割分类算法检测RGB图像中的物体和人。识别单元用于响应于检测到物体和/或人,通过基于RGB图像和深度图像对每个检测到的物体和/或人进行片段检测并通过对每个检测到的物体和/或人类执行3D边界框计算来确定每个检测到的物体和/或人的位置。控制单元用于根据检测到的物体和/或人的确定的位置控制一机器人执行预定任务。
根据本公开的实施例的机器人识别人-物场景的方法允许机器人在避免碰撞的同时自动设置目标位置和导航。此外,该方法还可以提供目标物体是否在场景中、目标物体的位置以及人/其他人是否在目标物体附近的语义信息等应用场景。具体来说,参照图11,RGB图像和对应的深度图像被输入。该RGB图像将首先经过分割分类算法,用于检测场景中的常见物体和人类。在生成最终的3D边界框之前,需要检测是否应该将单独的片段合并为一个物体。每个检测到的物体/人的3D边界框的最终信息被生成并将其设置为独立输出,这可直接用于机器人目标位置设置和/或在需要的情况下在导航过程中避免碰撞。客户指定的兴趣物(object(s)of interest)可以作为目标物体,用于计算人-物体或物体-物体关系。仅当场景中存在目标物体(以及人,如果仅定义一个物体)时,才能执行检测到的物体/人是否在目标物体附近的分析。利用目标物体和人的3D边界框的信息,基于立体的计算步骤被执行以进行“近”检查。人是否靠近目标物体或者两个或更多目标物体是否彼此靠近的输出被生成。借助这种人/物-环境交互信息,可以实现对机器人-人-环境交互的指导。
对人物关系场景的理解的代表性结果示于图3和图4中。具体来说,图3 和4示出了包含人和椅子的图像,这些图像由包含的机器人的照相机101拍摄。在图3中,人站在远离椅子的位置,而在图4中,人站在椅子后面。在每幅图像中,左上角显示了场景中存在的目标物体(即椅子)的识别结果,以及人是否靠近目标物体的信息。物体-物体关系场景的理解的代表性结果示于图5-7中。具体来说,图5显示了远离床的椅子。图6显示了与床接触的床头柜。图7显示了靠近桌子的两把椅子。在每幅图像中,左上角显示了目标物体的识别结果以及目标物体是否彼此靠近的信息。
在一个实施例中,每个图像中识别的人/物体被3D边界框包围。例如,图图3和5-7中识别的人和椅子被3D边界框301、302、501、502、601、602、701、702和703包围。应该注意的是,图4中识别的人/椅子周围的2D边界框仅用于代表目的。
机器人在移动的同时通过摄像头101拍摄图像,并将拍摄的图像发送给处理器104。处理器104通过执行可执行的计算机程序107对拍摄的图像进行处理,以完成人-物场景的识别。具体地,处理过程为:获取输入RGB图像和RGB图像对应的深度图像;使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人;响应于检测到物体和/或人,通过基于RGB图像和深度图像对每个检测到的物体和/或人执行片段检测,并且通过对每个检测到的物体和/或人执行3D边界框计算,确定每个检测到的物体和/或人的位置。
图8示出了根据一个实施例的识别人-物场景的方法的示例性流程图。可以执行该方法来控制如图1和2中所示的机器人10的运动。具体可以通过图2所示的机器人10或者其他电连接到机器人10的控制装置来执行。控制装置可以包括但不限于:台式电脑、平板电脑、膝上型电脑、多媒体播放器、服务器、智能移动设备(如智能手机、手持电话等)和智能穿戴设备(如智能手表、智能眼镜、智能相机、智能手环等)和其他具有计算和控制能力的计算设备。在一个实施例中,该方法可以包括步骤S81至S86。
步骤S81:获取输入RGB图像和RGB图像对应的深度图像。
在一个实施例中,机器人10上配备的RGB-D三维传感器采集机器人前方的场景图像,以获得该RGB图像和RGB图像对应的深度图像。
步骤S82:使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人。
在一个实施例中,图像的分割检测是利用深度学习方法检测输入的单个RGB图像中的物体和人。需要注意的是,RGB图像中可能只有物体,RGB图像中可能只有人,或者RGB图像中有人和物体。在一实施例中,物体与人是指常见的物体与人,即为通常意义上的物体与人,并不特指特定的人或特定的物体。每个场景中可能出现的各种常见物体和人的图像特征被预先存储,这可以作为图像检测中确定常见物体和人的特征的依据。
步骤S83:响应于检测到物体和/或人,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测,并获取该片段检测的结果。
在检测到的物体和/或人的每个片段中,在考虑摄像头参数的情况下,可以将每个片段的像素的深度值用于三维坐标计算。深度值可以从RGB图像对应的深度图像中获得。
步骤S84:根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框。
步骤S85:根据该3D边界框确定每个检测到的物体和/或人的位置。
步骤S86:根据检测到的物体和/或人的确定的位置控制一机器人执行预定任务。
预定任务对应于检测到的对象和人的位置。机器人可以根据识别场景中物体和人的位置分布,选择与检测到的物体和人的位置对应的预设任务。预定任务可以包括绕过障碍物、缓慢移动、交互等。
需要说明的是,图8所示的方法可以由其他设备执行,例如配备有深度相机的计算机。在这种情况下,计算机可以在步骤S83之后将检测到的物体和/或人的确定的位置输出给用户。
图9示出了根据一个实施例的机器人识别人-物体场景的方法的示例性流程图。可以执行该方法来控制图1和2中所示的机器人10的运动。具体可以由图2所示的机器人10或其他电连接到机器人10的控制装置来执行。
在一个实施例中,该方法可以包括步骤S91至S98。
步骤S91:将兴趣物(object of interest)设置为目标物体。
在一个实施例中,用户可以通过机器人或计算机输入物体的名称、形状、轮廓、尺寸和其他数据来定义兴趣物。用户输入的一个或多个物体作为兴趣物,作为确定人-物或物-物关系的依据。如图3所示,椅子被设为目标物体,在每一帧图像中确定人是否靠近椅子。
在一个实施例中,“靠近”是指一个或多个兴趣物与另一物体或人的至少一个表面接触。当一个或多个兴趣物没有与物体或人的任何表面接触时,确定为“不在附近”。在一个实施例中,只有当目标物体存在于场景中时(如果只定义一个目标物体,则为人),才能分析目标物体是否靠近另一个物体或人。可以预设距离阈值作为“靠近”的标准。
步骤S92:获取输入RGB图像和RGB图像对应的深度图像。
在一个实施例中,机器人10上配备的RGB-D三维传感器采集机器人前方的场景图像,以获得该RGB图像和RGB图像对应的深度图像。
步骤S93:使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人。
在一个实施例中,分割分类算法用于检测场景中的常见物体和人。可以使用深度学习方法(例如,Mask-RCNN算法)来执行图像的分割检测。该算法对RGB图像中的物体和人进行检测,检测的结果是为RGB图像中的常见物体和人生成分割掩模(segmentation mask),得到每个常见物体和人的像素坐标。可以检测到图像中的全部或部分物体和人。
步骤S94:响应于没有检测到物体和人,输出检测结果。
步骤S95:响应于检测到物体和人,基于RGB图像和深度图像对检测到的 每个物体和/或人进行片段检测,并对每个检测到的物体和/或人进行3D边界框计算。
在检测到的物体和/或人的每个片段中,在考虑摄像头参数的情况下,可以将每个片段的像素的深度值用于三维坐标计算。
在一实施例中,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测可以包括:使用腐蚀算法(erode algorithm)向内收缩该RGB图像和该深度图像的每个片段中的物体和/或人的轮廓,以获得该RGB图像和该深度图像的每个片段中的物体和/或人的置信片段;以及使用Convex Hull算法计算与收缩数据相对应的3D边界框,以补偿该RGB图像和该深度图像中的每个片段中的物体和/或人的体积。
每个片段中的轮廓像素,例如图4中的人与背景片段之间的像素,具有最高的误分类可能性。为了消除这种错误分类问题并提高鲁棒性,需要一种方法来缩小片段的轮廓并补偿体积。该方法是利用腐蚀算法向内收缩检测到的物体/人的轮廓,通过定义迭代次数来改变收缩次数。值得注意的是,迭代次数是一个可调整的参数,并且对于不同的物体/人可以是不同的。收缩导致物体/人的可靠分割。然后使用Convex Hull算法计算收缩后的数据对应的3D边界框。作为可调节变量的3D边界框的值会增加一定量。这个过程称为体积补偿。需要注意的是,上述计算是针对每个段进行的。稍后,将根据相同物体/人的相对位置来确定是否进行合并操作。
沿着片段的轮廓收缩的像素和要添加的体积值是可以调整以达到最佳平衡的参数。具体来说,根据摄像头安装高度和量子信息(quantronium information),可以使用基架X-、Y-和Z-坐标来表示每个片段的点群,其中X-Y平面是现实世界中的地面,Z-代表高度。假设这里讨论的所有物体(尤其是家具)和人类在基架(base frame)中都是动态稳定的,那么后面讨论的所有3D边界框都至少有一个平行于X-Y平面的平面。
为了保持每个计算步骤的最小内存/CPU成本,对每个片段的点群应用 Convex Hull计算。Convex Hull计算是保存数据最少的目标物体的形状数据,目标物体是指当前正在分析的物体。Convex Hull计算方法具体是指基于物体最外轮廓的顶点坐标的方法。在算法层面,Convex Hull可以计算每个点是否包含在其余点形成的封闭图(closed graph)中。如果它包含在封闭图中,则该点将被丢弃。如果不包含在闭合图中,则将该点作为新的贡献点以形成一封闭图,直到没有一个点可以被其余点形成的封闭图包围。
应当注意,Convex Hull仅适用于投影坐标到每个点群的X-Y平面,并且对于Z值,仅需要最小/最大值。不是最初在每个片段的点群中使用数千个点,可以提取30个点作为Convex Hull点,这些点保留所有用于3D边界框计算的有用信息。这里,有用的信息是指正在处理的物体/人的坐标、形状、大小和姿势。Convex Hull点是Convex Hull算法的输出结果。这些Convex Hull点在地平面上的投影是物体/人在地平面上投影的外边界的顶点。Convex Hull点的高度为物体/人上下平面的高度值,这里随机选择上表面高度或下表面高度。
步骤S96:确定同一物体类别的两个或多个片段是否需要合并为物体或人之一。
在一个实施例中,首先根据图像的3D边界框的三维位置、方向、大小和公差阈值距离确定两个或多个片段是否是物体或人之一的一部分。由于遮挡,一个物体/人可能包括多个不连续的片段。因此,有必要确定两个或多个片段是否是一个物体/人的一部分。响应于两个或多个片段是物体或人之一的一部分,将两个或多个片段合并为物体或人之一。响应于两个或多个片段不是物体或人之一的一部分,确定不将两个或更多个片段合并为物体或人之一。
具体地,由于遮挡,同一物体类别的片段可能是同一物体的多个片段。例如,由于椅子的存在,图7中的桌子被分成三个片段1、2和3。因此,在生成最终的3D边界框之前,执行额外的步骤来检查两个或更多片段是否需要合并为一个物体/人。计算是基于每个片段的边界框的三维位置、方向和大小。公差阈值距离也被设置为可调整的参数以获得最佳性能。
步骤S97:输出每个检测到的物体和/或人的对应分类名称,以及检测到的物体和/或人的3D边界框。
在步骤S96之后,生成每个物体/人的3D边界框的信息并设置为独立的输出,这可以直接用于机器人在需要的情况下在导航过程中自动设置目标位置和/或避免碰撞。
步骤S98:根据3D边界框确定RGB图像中检测到的物体是否包括目标物体;响应于检测到目标物体,获取检测到的物体和/或人和检测到的目标物体的具有最小体积的3D边界框的三维位置和方向;根据三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系,并且根据位置关系确定预定任务。
在一个实施例中,根据三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系可以包括:通过基于检测到的物体和检测到的物体和/或人中的一个或多个的3D边界框的信息执行基于立体的计算确定检测到的物体和/或人中的一个或多个是否在检测到的目标物体附近。
在一实施例中,根据三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系可以包括:通过基于检测到的物体和一个或多个检测到的物体的3D边界框的信息执行基于立体的计算来确定检测到的物体和/或人中的一个或多个是否在检测到的目标物体附近。参照图10,步骤S98可以包括以下步骤。
步骤S981:将所述检测到的物体或人的3D边界框在一支撑面上(例如,地板、地面等)的投影形成的第一2D边界框的位置与所述目标物体的3D边界框在该支撑面上的投影形成的第二2D边界框的位置进行比较。
具体地,将一个目标物体之外的物体或人与目标物体进行比较,以确定物体或人与目标物体之间的位置关系。位置关系包括“近”和“不近”。
步骤S982:响应于所述第一2D边界框的位置与所述第二2D边界框的位置重叠,确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物 体附近。
步骤S983:响应于所述第一2D边界框的位置不与所述第二2D边界框的位置重叠,确定所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置是否与所述第二2D边界框的位置重叠。
步骤S984:响应于在所述第一2D边界框和第二2D边界框旋转后所述第一2D边界框的位置与所述第二2D边界框的位置重叠,确定所述检测到的物体和/或人中的一个或多个靠近所述检测到的目标物体。
步骤S985:响应于所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置不与所述第二2D边界框的位置重叠,确定所述第一2D边界框和所述第二2D边界框的位置之间的最短距离是否小于一可变阈值。
步骤S986:响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离小于所述可变阈值,确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近。
步骤S987:响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离大于所述可变阈值,确定所述检测到的物体和/或人中的一个或多个不在所述检测到的目标物体附近。
通过输出物体或人是否靠近目标物体,或者多个目标物体(例如,两个目标物体)是否彼此靠近,可以实现机器人-人-环境交互的引导。
当由机器人实施时,根据前述实施例的方法可以基于RGB图像中机器人与物体/人之间的关系提供场景理解信息。场景理解信息可以包括目标物体与其他检测到的物体和/或人之间的位置关系,作为下一步进行操作的依据。这在人类到达目标物体的各种日常情况下可能至关重要,机器人将能够快速做出反应并相应地执行协助。例如,当老人坐在椅子上时,机器人会检测到这一场景并接近老人并根据需要提供水/食物/其他帮助。
根据前述实施例的方法具有如下优点。通过将分割分类结果与深度信息相结合,检测出物体和人在三维空间中的位置和方向,可以确定所有自定义输入 物体的位置,并根据它们在当前场景中的存在来确定方向。这可以进一步用于机器人目标位置设置以及通过导航避免遮挡。请注意,可以根据机器人的位置变化动态更新位置和方向。引入收缩轮廓和补偿体积以消除误分类值。Convex Hull用于最小化内存/CPU成本,同时保留所有有用信息。引入了基于立体的计算方法,将遮挡导致的分割片段合并为一个物体。语义场景理解系统被开发并允许用户设置目标物体。该系统易于应用于任何场景或兴趣物。
根据前述实施例的方法可以用于对象立体信息计算,在当前场景中寻找目标物体,以及人-物和物-物关系的场景理解。RGBD相机传感器经济实惠,可以以不同的量子角(quantronium angle)布置在机器人的不同位置。借助知悉摄像头安装高度和量子值,可以生成机器人附近每个物体的相对位置/方位角和物体关系。
图12是根据一个实施例的人-物体识别装置的示意框图。人-物体识别装置可以包括但不限于:蜂窝电话、智能手机、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐录音机、录像机、相机、其他媒体记录器、收音机、车辆运输设备、笔记本电脑、台式电脑、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器,便携式游戏设备(例如任天堂DS TM、PlayStation Portable TM)、Gameboy Advance TM、iPhone TM)、便携式互联网设备、数据存储设备、智能可穿戴设备(例如,头戴式设备(HMD),例如智能眼镜、智能衣服、智能手环、智能项链或智能手表)、数码相机及其组合。根据实际需要,该设备可以安装在机器人上,也可以是机器人本身。在某些情况下,该装置可以执行多种功能,例如播放音乐、显示视频、存储图片以及接听和发送电话。
在一个实施例中,该装置可以包括处理器110、存储器111以及存储在存储器111中并且可由处理器110执行的一个或多个可执行计算机程序112。当处理器110执行计算机程序112时,机器人10的控制方法实施例中的步骤,例如图8中的步骤S81至S86,被执行。
示例性地,一个或多个计算机程序112可以被划分为一个或多个模块/单元,并且一个或多个模块/单元存储在存储器111中并且可由处理器110执行。一个或多个模块/单元可以是能够执行特定功能的一系列计算机程序指令段,指令段用于描述装置中的一个或多个计算机程序112的执行过程。例如,一个或多个计算机程序112可以被划分为获取单元、检测单元、识别单元和控制单元。
获取单元用于用于获取输入的RGB图像和与RGB图像对应的深度图像。检测模块用于利用基于样本数据库的分割分类算法检测RGB图像中的物体和人。识别单元用于响应于检测到物体和/或人,通过基于RGB图像和深度图像对每个检测到的物体和/或人进行片段检测并通过对每个检测到的物体和/或人类执行3D边界框计算来确定每个检测到的物体和/或人的位置。控制单元用于根据检测到的物体和/或人的确定的位置控制一机器人执行预定任务。
本领域技术人员可以理解,图12只是装置11的一个示例,并不构成对装置11的限制。在实际应用中,可以包括更多或更少的部件,或者某些部件的组合,或者不同的部件。例如,设备11还可以包括:输入/输出设备(如键盘、麦克风、摄像头、扬声器、显示屏等)、网络连接接入设备、总线、传感器等。
处理器110可以是中央处理单元(CPU)、通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件。通用处理器可以是微处理器或任何常规处理器等。
存储器111可以是内部存储单元,例如硬盘或存储器。存储器111也可以是外部存储设备,例如插入式硬盘、智能存储卡(SMC)和安全数字(SD)卡,或任何合适的闪存卡。此外,存储器111还可以同时包括内部存储单元和外部存储设备。存储器111用于存储机器人所需的计算机程序、其他程序和数据。存储器111还可以用于临时存储已经输出或即将输出的数据。
在一个实施例中,提供了一种非暂时性计算机可读存储介质。非暂时性计算机可读存储介质可以配置在图1所示的机器人10中或图12所示的装置中, 非暂态计算机可读存储介质存储可执行的计算机程序,当程序由机器人10的一个或多个处理器执行时,上述实施例中描述的人物场景识别方法被执行。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
为了解释的目的,以上描述已经参照特定实施例进行了描述。然而,上述说明性讨论并不旨在穷举或将本公开限制为所公开的精确形式。鉴于上述教示,许多修改和变化都是可能的。选择和描述实施例是为了最好地解释本公开的原理及其实际应用,从而使本领域的其他技术人员能够最好地利用本公开和具有适合预期特定用途的各种修改的各种实施例。

Claims (20)

  1. 一种由一个或多个处理器执行的计算机实现的人-物场景识别方法,该方法包括:
    获取输入RGB图像和与该RGB图像对应的深度图像;
    使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人;
    响应于检测到物体和/或人,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测,并获取该片段检测的结果;
    根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框;和
    根据该3D边界框确定每个检测到的物体和/或人的位置。
  2. 根据权利要求1所述的方法,其特征在于,在获取输入RGB图像和与该RGB图像对应的深度图像之前,该方法还包括:
    将一兴趣物设置为目标物体。
  3. 根据权利要求2所述的方法,其特征在于,在根据该3D边界框确定每个检测到的物体和/或人的位置之后,该方法还包括:
    根据该3D边界框确定该RGB图像中检测到的物体是否包括该目标物体;
    响应于检测到该目标物体,获取检测到的物体和/或人和检测到的目标物体的具有最小体积的3D边界框的三维位置和方向;和
    根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系。
  4. 根据权利要求1所述的方法,其特征在于,使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人包括:
    为该RGB图像中的物体和人生成分割掩模,以获取该RGB图像中每个物体和人对应的像素坐标。
  5. 根据权利要求4所述的方法,其特征在于,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测包括:
    使用腐蚀算法向内收缩该RGB图像和该深度图像的每个片段中的物体和/ 或人的轮廓,以获得该RGB图像和该深度图像的每个片段中的物体和/或人的置信片段;和
    使用Convex Hull算法计算与收缩数据相对应的3D边界框,以补偿该RGB图像和该深度图像中的每个片段中的物体和/或人的体积。
  6. 根据权利要求1所述的方法,其特征在于,根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框之后,该方法还包括:
    确定是否需要将同一物体类别的两个或多个段合并为所述物体或人之一。
  7. 根据权利要求6所述的方法,其特征在于,确定是否需要将同一物体类别的两个或多个段合并为所述物体或人之一包括:
    根据所述两个或多个片段的3D边界框的三维位置、方向、大小和公差阈值距离确定所述两个或多个片段是否是所述物体或人之一的一部分;
    响应于所述两个或多个片段是所述物体或人之一的一部分,将所述两个或多个片段合并为所述物体或人之一;和
    响应于所述两个或多个片段不是所述物体或人之一的一部分,确定不将所述两个或多个片段合并为所述物体或人之一。
  8. 根据权利要求3所述的方法,其特征在于,根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系包括:
    基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息,通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近。
  9. 根据权利要求8所述的方法,其特征在于,基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息,通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近,包括:
    将所述检测到的物体或人的3D边界框在一支撑面上的投影形成的第一2D 边界框的位置与所述目标物体的3D边界框在该支撑面上的投影形成的第二2D边界框的位置进行比较;
    响应于所述第一2D边界框的位置与所述第二2D边界框的位置重叠,确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近;
    响应于所述第一2D边界框的位置不与所述第二2D边界框的位置重叠,确定所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置是否与所述第二2D边界框的位置重叠;
    响应于在所述第一2D边界框和第二2D边界框旋转后所述第一2D边界框的位置与所述第二2D边界框的位置重叠,确定所述检测到的物体和/或人中的一个或多个靠近所述检测到的目标物体;
    响应于所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置不与所述第二2D边界框的位置重叠,确定所述第一2D边界框和所述第二2D边界框的位置之间的最短距离是否小于一可变阈值;
    响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离小于所述可变阈值,确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近。
  10. 根据权利要求3所述的方法,其特征在于,在根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系之后,所述方法还包括:
    输出所述检测到的物体或人和目标物体。
  11. 根据权利要求1所述的方法,其特征在于,在通过基于该RGB图像和该深度图像对每个所述检测到的物体和/或人执行片段检测以及对每个所述检测到的物体和/或人执行3D边界框计算确定每个所述检测到的物体和/或人的位置之后,该方法还包括:
    输出具有相应分类名称的所述每个检测到的物体和/或人,以及所述检测到的物体和/或人的3D边界框。
  12. 根据权利要求1所述的方法,其特征在于,在根据该3D边界框确定每个检测到的物体和/或人的位置之后,该方法还包括:
    根据所述检测到的物体和/或人的确定的位置控制一机器人执行预定任务。
  13. 根据权利要求3所述的方法,其特征在于,在根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系之后,该方法还包括:
    确定与该位置关系对应的任务;和
    控制一机器人执行该任务。
  14. 一种人-物体识别装置,包括:
    一个或多个处理器;
    存储器;和
    一个或多个程序,其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括:
    获取输入RGB图像和与该RGB图像对应的深度图像的指令;
    使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人的指令;
    响应于检测到物体和/或人,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测并获取该片段检测的结果的指令;
    根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框的指令;和
    根据该3D边界框确定每个检测到的物体和/或人的位置的指令。
  15. 根据权利要求14所述的装置,其特征在于,还包括在获取输入RGB图像和与该RGB图像对应的深度图像之前将一兴趣物设置为目标物体的指令。
  16. 根据权利要求15所述的装置,其特征在于,在根据该3D边界框确定每个检测到的物体和/或人的位置之后,还包括:
    根据该3D边界框确定该RGB图像中检测到的物体是否包括该目标物体的 指令;
    响应于检测到该目标物体,获取检测到的物体和/或人和检测到的目标物体的具有最小体积的3D边界框的三维位置和方向的指令;和
    根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系的指令。
  17. 根据权利要求14所述的装置,其特征在于,所述使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人的指令包括:
    为该RGB图像中的物体和人生成分割掩模以获取该RGB图像中每个物体和人对应的像素坐标的指令。
  18. 根据权利要求16所述的装置,其特征在于,所述根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系的指令包括:
    基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息,通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近的指令。
  19. 根据权利要求18所述的装置,其特征在于,所述基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息,通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近的指令包括:
    将所述检测到的物体或人的3D边界框在一支撑面上的投影形成的第一2D边界框的位置与所述目标物体的3D边界框在该支撑面上的投影形成的第二2D边界框的位置进行比较的指令;
    响应于所述第一2D边界框的位置与所述第二2D边界框的位置重叠,确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近的指令;
    响应于所述第一2D边界框的位置不与所述第二2D边界框的位置重叠,确 定所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置是否与所述第二2D边界框的位置重叠的指令;
    响应于在所述第一2D边界框和第二2D边界框旋转后所述第一2D边界框的位置与所述第二2D边界框的位置重叠,确定所述检测到的物体和/或人中的一个或多个靠近所述检测到的目标物体的指令;
    响应于所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置不与所述第二2D边界框的位置重叠,确定所述第一2D边界框和所述第二2D边界框的位置之间的最短距离是否小于一可变阈值的指令;
    响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离小于所述可变阈值,确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近的指令。
  20. 一种非暂时性计算机可读存储介质,其存储要由一人-物体识别装置的一个或多个处理器执行的一个或多个程序,该一个或多个程序在由所述一个或多个处理器执行时,使该人-物体识别装置执行处理,包括:
    获取输入RGB图像和与该RGB图像对应的深度图像;
    使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人;
    响应于检测到物体和/或人,基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测,并获取该片段检测的结果;
    根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框;和
    根据该3D边界框确定每个检测到的物体和/或人的位置。
PCT/CN2022/107908 2021-07-27 2022-07-26 人-物体场景识别方法、装置及计算机可读存储介质 WO2023005922A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280004525.5A CN115777117A (zh) 2021-07-27 2022-07-26 人-物体场景识别方法、装置及计算机可读存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/386,531 2021-07-27
US17/386,531 US11854255B2 (en) 2021-07-27 2021-07-27 Human-object scene recognition method, device and computer-readable storage medium

Publications (1)

Publication Number Publication Date
WO2023005922A1 true WO2023005922A1 (zh) 2023-02-02

Family

ID=85039202

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/107908 WO2023005922A1 (zh) 2021-07-27 2022-07-26 人-物体场景识别方法、装置及计算机可读存储介质

Country Status (3)

Country Link
US (1) US11854255B2 (zh)
CN (1) CN115777117A (zh)
WO (1) WO2023005922A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116061187B (zh) * 2023-03-07 2023-06-16 睿尔曼智能科技(江苏)有限公司 一种复合机器人对货架商品识别、定位和抓取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160059418A1 (en) * 2014-08-27 2016-03-03 Honda Motor Co., Ltd. Autonomous action robot, and control method for autonomous action robot
CN108701376A (zh) * 2016-02-09 2018-10-23 英特尔公司 三维图像的基于识别的对象分割
CN110745140A (zh) * 2019-10-28 2020-02-04 清华大学 一种基于连续图像约束位姿估计的车辆换道预警方法
US20200066036A1 (en) * 2018-08-21 2020-02-27 Samsung Electronics Co., Ltd. Method and apparatus for training object detection model
CN111126269A (zh) * 2019-12-24 2020-05-08 京东数字科技控股有限公司 三维目标检测方法、装置以及存储介质
CN111753638A (zh) * 2020-05-03 2020-10-09 深圳奥比中光科技有限公司 一种基于rgbd图像的行人跟踪方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system
EP3983941A4 (en) * 2019-06-14 2023-05-17 Magic Leap, Inc. SCALABLE THREE-DIMENSIONAL OBJECT RECOGNITION IN A CROSS-REALITY SYSTEM
US11436743B2 (en) * 2019-07-06 2022-09-06 Toyota Research Institute, Inc. Systems and methods for semi-supervised depth estimation according to an arbitrary camera
CN111612753B (zh) * 2020-05-15 2021-08-06 北京百度网讯科技有限公司 三维物体检测方法、装置、电子设备和可读存储介质
CN111844101B (zh) * 2020-07-31 2022-09-06 中国科学技术大学 一种多指灵巧手分拣规划方法
US20220270327A1 (en) * 2021-02-24 2022-08-25 Denso International America, Inc. Systems and methods for bounding box proposal generation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160059418A1 (en) * 2014-08-27 2016-03-03 Honda Motor Co., Ltd. Autonomous action robot, and control method for autonomous action robot
CN108701376A (zh) * 2016-02-09 2018-10-23 英特尔公司 三维图像的基于识别的对象分割
US20200066036A1 (en) * 2018-08-21 2020-02-27 Samsung Electronics Co., Ltd. Method and apparatus for training object detection model
CN110745140A (zh) * 2019-10-28 2020-02-04 清华大学 一种基于连续图像约束位姿估计的车辆换道预警方法
CN111126269A (zh) * 2019-12-24 2020-05-08 京东数字科技控股有限公司 三维目标检测方法、装置以及存储介质
CN111753638A (zh) * 2020-05-03 2020-10-09 深圳奥比中光科技有限公司 一种基于rgbd图像的行人跟踪方法及系统

Also Published As

Publication number Publication date
US11854255B2 (en) 2023-12-26
US20230030837A1 (en) 2023-02-02
CN115777117A (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
US10217195B1 (en) Generation of semantic depth of field effect
US10915167B2 (en) Rendering rich media content based on head position information
US10762386B2 (en) Method of determining a similarity transformation between first and second coordinates of 3D features
CN109947886B (zh) 图像处理方法、装置、电子设备及存储介质
US9729865B1 (en) Object detection and tracking
US9177224B1 (en) Object recognition and tracking
US9792491B1 (en) Approaches for object tracking
US9224060B1 (en) Object tracking using depth information
US10027883B1 (en) Primary user selection for head tracking
US9704033B2 (en) Visual search utilizing color descriptors
US9696859B1 (en) Detecting tap-based user input on a mobile device based on motion sensor data
US8660362B2 (en) Combined depth filtering and super resolution
US9270899B1 (en) Segmentation approaches for object recognition
US9298974B1 (en) Object identification through stereo association
US11816848B2 (en) Resilient dynamic projection mapping system and methods
CN108830186B (zh) 文本图像的内容提取方法、装置、设备及存储介质
KR102665643B1 (ko) 아바타 표시를 제어하기 위한 방법 및 그 전자 장치
US20230245373A1 (en) System and method for generating a three-dimensional photographic image
US9129375B1 (en) Pose detection
US11748905B2 (en) Efficient localization based on multiple feature types
US9811916B1 (en) Approaches for head tracking
WO2023005922A1 (zh) 人-物体场景识别方法、装置及计算机可读存储介质
US11461921B2 (en) Program, system, electronic device, and method for recognizing three-dimensional object
KR20210000671A (ko) 헤드 포즈 추정
CN116686006A (zh) 基于可变形模型的三维扫描配准

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE