WO2023199502A1 - 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法 - Google Patents

学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法 Download PDF

Info

Publication number
WO2023199502A1
WO2023199502A1 PCT/JP2022/017895 JP2022017895W WO2023199502A1 WO 2023199502 A1 WO2023199502 A1 WO 2023199502A1 JP 2022017895 W JP2022017895 W JP 2022017895W WO 2023199502 A1 WO2023199502 A1 WO 2023199502A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
image information
inference
learning model
objects
Prior art date
Application number
PCT/JP2022/017895
Other languages
English (en)
French (fr)
Inventor
幸保 川畑
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2023529884A priority Critical patent/JP7350218B1/ja
Priority to PCT/JP2022/017895 priority patent/WO2023199502A1/ja
Publication of WO2023199502A1 publication Critical patent/WO2023199502A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present disclosure relates to a learning model generation device, an information processing device, a learning model generation method, and an information processing method.
  • a position detection device that detects the position of an object based on a learning model learned in advance using 3D data of multiple types of simple shapes and an image of the object captured by a camera (Patent No. (See Reference 1).
  • this position detection device detects the object's position based on the reliability of which of multiple types of simple shape models it corresponds to. Detect.
  • the position detection device described in Patent Document 1 uses If the object has an unknown shape that is significantly different, the shape of the object may not be detected from the image information.
  • the present disclosure is intended to solve the above problems, and provides a learning model generation device and information processing device that can detect the shape of an object from image information including multiple objects, even if the object has an unknown shape.
  • the purpose of the present invention is to provide a device, a learning model generation method, and an information processing method.
  • the learning model generation device includes an image information acquisition unit that acquires image information of an object obtained by photographing the object from a plurality of shooting points, and a shape of the object that is set in advance based on the image information acquired by the image information acquisition unit.
  • a first inference unit that performs inference using a first learning model that calculates the probability that the shape of the object corresponds to each of the plurality of classes, and a class to which the shape of the object corresponds is determined based on the result of the inference by the first inference unit a determination unit; a learning data generation unit that generates learning data including image information regarding a plurality of objects based on the determination result by the determination unit; and image information of the objects; and a learning model generation unit that generates a second learning model for detecting the shape of an object from image information including a plurality of objects based on the image information.
  • the shape of an object is detected from image information including a plurality of objects based on learning data generated by a learning data generation unit using image information obtained by photographing the object from a plurality of shooting points. Since the learning model generating section generates the second learning model, even if the target object has an unknown shape, the shape of the object can be detected from image information including multiple objects. can.
  • FIG. 1 is a block diagram showing a schematic configuration of an information processing device according to Embodiment 1.
  • FIG. 1 is a block diagram showing a schematic configuration of a target object detection section according to Embodiment 1.
  • FIG. 1 is a block diagram illustrating an example of a hardware configuration of an information processing device according to Embodiment 1.
  • FIG. 7 is a flowchart illustrating an example of a process of generating a second learning model performed by the information processing apparatus according to the first embodiment. 7 is a flowchart illustrating an example of a process of selecting an object based on image information performed by the information processing apparatus according to the first embodiment.
  • FIG. 1 is a block diagram showing a schematic configuration of information processing apparatus 1000 according to Embodiment 1
  • FIG. 2 is a block diagram showing a schematic configuration of target object detection section 200 according to Embodiment 1.
  • the information processing device 1000 is a device that, when a plurality of objects are photographed by the camera CA, detects and selects one of the plurality of objects based on image information acquired from the camera CA. For example, when moving a plurality of products that are piled up in a disorderly manner one by one using a robot arm, the information processing device 1000 uses image information including the plurality of products that are piled up, which is acquired from the camera CA.
  • This device selects the most suitable product to be moved from among a plurality of products piled up, and outputs the selection result to a control device (not shown) that controls a robot arm.
  • the information processing device 1000 constitutes a learning model generation device in the first embodiment.
  • the information processing device 1000 includes an image information acquisition section 300, a learning section 100, and a target object detection section 200.
  • the image information acquisition unit 300 acquires a plurality of image information when the object is viewed from a plurality of photographing points when the camera CA photographs one or a plurality of objects from a plurality of photographing points (viewpoints). For example, when a plurality of cameras CA disposed at different positions each photograph one or more objects from a plurality of photographing points, the image information acquisition unit 300 may obtain a plurality of views of an object from a plurality of photographing points. Get the image information of.
  • the image information acquisition unit 300 acquires multiple images of the object viewed from a plurality of photographing points (viewpoints). It may be configured to acquire image information.
  • the learning unit 100 generates a learning model based on the image information acquired by the image information acquisition unit 300, and outputs the generated learning model to the target object detection unit 200. Details of the learning section 100 will be described later.
  • the target object detection unit 200 detects multiple objects included in the image information based on the image information including the multiple objects acquired by the image information acquisition unit 300 and the second learning model acquired from the learning unit 100. and select one of the detected objects. For example, the target object detection unit 200 selects one object suitable as an object to be moved by a robot arm from among a plurality of objects included in the acquired image information. Details of the target object detection section 200 will be described later.
  • FIG. 3 is a block diagram showing an example of the hardware configuration of the information processing device 1000 according to the first embodiment.
  • the information processing device 1000 includes a CPU (Central Processing Unit) 1001, a main storage device 1002, and an auxiliary storage device 1003 consisting of an HDD (Hard Disk Drive) or the like.
  • a CPU Central Processing Unit
  • main storage device 1002 main storage device
  • HDD Hard Disk Drive
  • the main storage device 1002 includes, for example, a ROM (Read Only Memory) 1002A and a RAM (Random Access Memory) 1002B.
  • the main storage device 1002 includes flash memory, EPROM (Erasable Programmable Read Only Memory), EEPROM (El Non-volatile memory such as electrically Erasable Programmable Read-Only Memory)
  • EPROM Erasable Programmable Read Only Memory
  • EEPROM El Non-volatile memory such as electrically Erasable Programmable Read-Only Memory
  • it may have a storage device such as a volatile semiconductor memory, a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, and a DVD (Digital Versatile Disc).
  • the information processing device 1000 includes a communication interface 1004A, an input interface 1004B, a display interface 1004C, and an output interface 1004D as interfaces for inputting and outputting information with external devices.
  • the communication interface 1004A is provided outside the information processing apparatus 1000 and inputs and outputs information to and from an external storage device 1006 that stores various information.
  • the input interface 1004B accepts information input from an input device 1007 provided outside the information processing apparatus 1000.
  • the display interface 1004C displays information stored in the main storage device 1002 and the auxiliary storage device 1003 as a result of processing by the CPU 1001 on a display device 1008 such as a liquid crystal display provided outside the information processing device 1000. Output to.
  • the output interface 1004D outputs information stored in the main storage device 1002 and the auxiliary storage device 1003 to the output device 1009 as a result of processing by the CPU 1001.
  • the output device 1009 is, for example, a device provided outside the information processing device 1000, such as a control unit of a robot arm or a server.
  • Each function of the information processing apparatus 1000 configured in this way is performed by the CPU 1001 executing a program consisting of software, firmware, or a combination of software and firmware, which is stored in the main storage device 1002 and the auxiliary storage device 1003.
  • the information processing device 1000 may include a dedicated processing circuit including a system LSI (Large-Scale Integration) or the like instead of the CPU 1001, main storage device 1002, and auxiliary storage device 1003 described above.
  • the learning unit 100 includes a first inference unit 101, a shape determination unit 102, a learning data generation unit 103, a learning model generation unit 104, a first learning model storage unit 105, a learning data storage unit 106, and a first learning model storage unit 105.
  • 2 learning model storage unit 107 As shown in FIG. 1, the learning unit 100 includes a first inference unit 101, a shape determination unit 102, a learning data generation unit 103, a learning model generation unit 104, a first learning model storage unit 105, a learning data storage unit 106, and a first learning model storage unit 105.
  • the first inference unit 101 Based on the image information acquired by the image information acquisition unit 300, the first inference unit 101 infers the shape and surface texture of the object included in the image information.
  • the first inference unit 101 includes a plurality of inference units 101a that infer the shape and surface texture of an object for each of a plurality of shooting points at which the camera CA photographs the object.
  • the shape and surface texture of an object are inferred for each piece of image information corresponding to a shooting point.
  • the first inference unit 101 acquires the first learning model stored in advance in the first learning model storage unit 105 from the first learning model storage unit 105, and the image information acquisition unit 300 acquires the first learning model and the image information acquisition unit 300. Inference is made based on the image information obtained.
  • the first learning model is a trained model that has been subjected to machine learning using a plurality of CGs (Computer Graphics) showing objects having different shapes and/or surface textures as learning data.
  • the probability (inference rate) that the shape and surface texture of the object correspond to each of a plurality of preset shape categories (a plurality of classes) is calculated by inference.
  • the CG used as learning data for the first learning model is obtained by deforming image information obtained by individually photographing a plurality of objects having at least one of different shapes and surface textures, and converting image information of the plurality of deformed objects into individual images. It is generated by extracting features related to the shape and surface texture of.
  • the first learning model is configured by NN (Neural Networks).
  • the first inference unit 101 outputs the accuracy corresponding to each of the plurality of shape categories to the shape determination unit 102 for each of the plurality of pieces of image information acquired by the image information acquisition unit 300.
  • the shape determination unit 102 determines the shape of the object included in the image information acquired by the image information acquisition unit 300 based on information input from the first inference unit 101 as a result of determination by the first inference unit 101. , determines which of a plurality of shape categories previously set as the shape category of the first learning model corresponds to, and outputs the result of the determination to the learning data generation unit 103. Further, the shape determining unit 102 determines whether the shape of the object included in the image information acquired by the image information acquiring unit 300 is in the shape category of the first learning model based on the information input from the first inference unit 101.
  • the shape determining section 102 constitutes a determining section in the first embodiment.
  • the learning data generation unit 103 generates data including image information regarding a plurality of objects based on the determination result by the shape determination unit 102 and the image information acquired by the image information acquisition unit 300. For example, the learning data generation unit 103 generates a CG in which a plurality of objects are randomly arranged based on the determination result by the shape determination unit 102 and the image information acquired by the image information acquisition unit 300. , are stored in the learning data storage unit 106. For example, the learning data generation unit 103 generates image information in which one object included in the image information acquired by the image information acquisition unit 300 is deformed and duplicated and superimposed, and the shape of the object is determined based on the image information. and generates CG from which features related to surface texture are extracted.
  • the data generated by the learning data generation unit 103 may be data that includes image information regarding a plurality of objects; for example, it may be a CG of a plurality of objects aligned, or a CG of a plurality of objects aligned. It may be CG in a superimposed state, or it may be data containing image information of multiple types of objects.
  • the learning model generation unit 104 acquires the CG information generated by the learning data generation unit 103 from the learning data storage unit 106, and uses the information as learning data to detect the shape of an object from image information including a plurality of objects.
  • a second learning model is generated.
  • the learning model generation unit 104 uses, as learning data, CG data in which a plurality of objects are randomly arranged, generated by the learning data generation unit 103, to generate an image in which a plurality of objects are randomly arranged.
  • a second learning model may be generated for detecting the shape of each of a plurality of objects in the data, or a second learning model for detecting the shape of a specific object in the data. It's okay.
  • the second learning model is a trained model for individually detecting a plurality of objects by instance segmentation from image information in which a plurality of objects are arranged.
  • the second learning model is configured by Mask R-CNN (Region Based Convolutional Neural Networks), and detects the shape and surface texture of the object by inference using instance segmentation.
  • the learning model generation unit 104 causes the second learning model storage unit 107 to store the generated second learning model.
  • the learning model generation unit 104 sends information indicating one of the second learning models stored in the second learning model storage unit 107 to the target object detection unit 200 based on the determination result of the shape determination unit 102. Output.
  • the second learning model storage unit 107 stores a plurality of second learning models corresponding to each of the plurality of shape categories of the first learning model for detecting objects from image information in which a plurality of objects are randomly arranged.
  • the learning model is memorized. Similar to the first learning model described above, these plurality of second learning models are also trained models using CG information in which a plurality of objects are randomly arranged as learning data. For example, the learning model generation unit 104 outputs information indicating the second learning model corresponding to the shape category according to the determination result by the shape determination unit 102 to the target object detection unit 200.
  • FIG. 4 is a flowchart illustrating an example of a process for generating a second learning model performed by the information processing apparatus 1000 according to the first embodiment.
  • the image information acquisition unit 300 first acquires image information when a target object is photographed by a plurality of cameras CA (step ST11).
  • the information processing apparatus 1000 acquires, for example, a plurality of pieces of image information when the camera CA photographs one object from a plurality of photographing points.
  • the information processing apparatus 1000 uses the image information based on the first learning model stored in the first learning model storage unit 105 and the image information acquired by the image information acquisition unit 300.
  • the probability that the shape and surface texture of the object included in the information correspond to each shape category is calculated by inference (step ST12).
  • the information processing apparatus 1000 detects the shape and surface texture of the object from the image information of the object photographed by the camera CA, and calculates the probability that the object falls under each shape category.
  • the information processing apparatus 1000 determines the shape category to which the object included in the image information acquired by the image information acquisition unit 300 corresponds, based on the accuracy calculated for each shape category (step ST13). and ST14). For example, in the information processing apparatus 1000, the shape determining unit 102 determines the shape category corresponding to the highest degree of accuracy among the degrees of accuracy calculated for each shape category as the shape category to which the object falls. Further, for example, if the accuracy calculated for each shape category is less than a predetermined threshold, the shape determination unit 102 determines that the object is classified into any shape category. It is determined that the object corresponds to a new shape category that does not apply, that is, the object does not exist in the shape categories preset in the first learning model.
  • step ST14 if the object included in the image information acquired by the image information acquisition unit 300 is an object that exists in the shape category preset in the first learning model (YES in step ST14), That is, if the object falls under any of the shape categories preset in the first learning model, the information processing device 1000 selects one of the second learning models prestored in the second learning model storage unit 107. , selects the second learning model corresponding to the shape category, outputs information indicating the selected second learning model to the target object detection section 200 (step ST18), and ends the process.
  • the information processing device 1000 uses the learning data generation unit 103 based on the image information acquired by the image information acquisition unit 300. New learning data is generated (step ST15). In this process, the information processing device 1000 determines that the shape determination unit 102 determines that the object included in the image information acquired by the image information acquisition unit 300 does not fall under any of the plurality of shape categories of the first learning model. Based on this, the learning data generation unit 103 generates learning data for generating a new second learning model that is not stored in the second learning model storage unit 107.
  • the information processing apparatus 1000 After performing the process in step ST15, the information processing apparatus 1000 generates a new second learning model based on the learning data generated in the process in step ST15 (step ST16).
  • the information processing apparatus 1000 identifies a specific object from image information indicating a state in which a plurality of objects are randomly arranged, even if the object is an unknown object with a shape and surface texture that have not been set in advance.
  • a second learning model that allows selection is generated.
  • the information processing apparatus 1000 may generate the second learning model by having the learning model generation unit 104 perform transfer learning based on the acquired image information.
  • the information processing device 1000 After performing the process of step ST16, the information processing device 1000 stores the generated second learning model in the second learning model storage unit 107 (step ST17). After performing the process in step ST17, the information processing apparatus 1000 outputs information indicating the newly generated second learning model to the target object detection unit 200 (step ST18), and ends the process.
  • the target object detection section 200 includes a second inference section 201, a candidate selection section 202, a feature quantity calculation section 203, and a target object selection section 204.
  • the second inference unit 201 calculates the shape and surface texture of the object included in the image information based on the second learning model acquired from the second learning model storage unit 107 and the image information acquired by the image information acquisition unit 300. is detected by inference.
  • the target object detection unit 200 acquires any second learning model from the second learning model storage unit 107 based on information indicating any second learning model acquired from the learning model generation unit 104, and An object included in the image information is detected by inference based on a plurality of pieces of image information obtained by photographing the shape and surface texture of the object from a plurality of photographing points by the information acquisition unit 300.
  • the target object detecting unit 200 detects objects included in the image information based on the image information acquired by the image information acquiring unit 300 and the second learning model corresponding to the shape category of the object included in the image information. Detect objects by inference.
  • the second inference unit 201 includes a plurality of inference units 201a that infer the shape and surface texture of an object for each of a plurality of shooting points where the camera CA photographs the object.
  • the shape and surface texture of an object are inferred for each piece of image information corresponding to a shooting point.
  • the second inference unit 201 outputs the shape and surface texture of the object detected by the inference and the accuracy of the inference to the candidate selection unit 202 as the inference result.
  • the candidate selection unit 202 selects one object that is suitable as an object to be moved by the robot arm from among the plurality of objects included in the image information acquired by the image information acquisition unit 300.
  • the object is selected as a candidate object for the output of the target object detection unit 200.
  • the candidate selection unit 202 determines the accuracy of the inference by the second inference unit 201 among the plurality of objects included in the image information. Select one object based on. In other words, when the image information acquired by the image information acquisition unit 300 includes multiple objects, the candidate selection unit 202 selects one of the segmentations of the multiple objects included in the image information based on the accuracy of inference. or one segmentation.
  • the candidate selection unit 202 may select the one object. Furthermore, when there are a plurality of objects included in the image information acquired by the image information acquisition section 300, the candidate selection section 202 may select two or more objects from among the plurality of objects. In addition, if an object included in specific image information is not detected among the plurality of image information acquired by the image information acquisition unit 300, the candidate selection unit 202 performs a process of selecting an object for the specific image information. It may also be configured so that this is not performed.
  • the candidate selection unit 202 includes a plurality of selection units 202a that select one of the objects for each inference result by each inference unit 201a, and each selection unit 202a selects one object corresponding to a plurality of shooting points. Select one of the objects for each of the plurality of image information.
  • Candidate selection section 202 outputs the selection result to feature amount calculation section 203.
  • the feature amount calculation unit 203 calculates the feature amount of the object selected by the candidate selection unit 202.
  • the feature quantity calculation unit 203 includes a plurality of calculation units 203a corresponding to each selection unit 202a, and calculates a feature quantity for each object corresponding to the selection result by the plurality of selection units 202a.
  • the feature amount calculation unit 203 calculates the feature amount of the object selected by the selection unit 202a for each piece of image information acquired by the image information acquisition unit 300.
  • the feature amount calculation unit 203 calculates feature amounts such as the position, orientation, apparent area (segmentation area), and bounding box area of the object selected by the candidate selection unit 202.
  • the position of the object determined by the feature calculation unit 203 may be the apparent center of gravity of the object (segmentation center of gravity), the center of the bounding box, or a specific position of the bounding box, for example, the upper right corner position. etc., it may be a specific corner position.
  • the feature value calculation unit 203 constitutes a calculation unit in the first embodiment.
  • the above-mentioned candidate selection unit 202 may select any one of the objects included in the image information based on the feature amount of the object calculated by the feature amount calculation unit 203.
  • the candidate selection unit 202 selects a plurality of images included in the image information acquired by the image information acquisition unit 300 based on the result of the inference by the second inference unit 201 and the feature amount calculated by the feature amount calculation unit 203.
  • any one object whose segmentation of the detected object is not divided into a plurality of segmentations by the segmentation of other objects may be selected.
  • the candidate selection unit 202 may select any one object based on the segmentation area of the detected object from among the plurality of objects included in the image information acquired by the image information acquisition unit 300. good.
  • the candidate selection unit 202 may select an object having the largest segmentation area among the plurality of objects included in the image information acquired by the image information acquisition unit 300. For example, the candidate selection unit 202 selects one of the plurality of objects included in the image information acquired by the image information acquisition unit 300 based on the area of the segmentation of the detected object and the area of the bounding box of the object. You may choose one object. Specifically, the candidate selection unit 202 selects an object for which the segmentation area of the detected object with respect to the area of the bounding box of the detected object is the largest among the plurality of objects included in the image information acquired by the image information acquisition unit 300. may be selected.
  • the candidate selection unit 202 calculates the segmentation area (As) of the detected object relative to the area (Ab) of the bounding box of the detected object among the plurality of objects included in the image information acquired by the image information acquisition unit 300. , the segmentation area (As) of the object, and the product (As ⁇ 2/Ab) of the object may be selected.
  • the feature value calculation unit 203 calculates the area of the segmentation of the object relative to the area of the bounding box of the object, and the product of the area of the segmentation of the object relative to the area of the bounding box of the object and the area of the segmentation of the object.
  • the candidate selection unit 202 may calculate it based on the area of the segmentation of the object and the area of the bounding box calculated by the feature value calculation unit 203. In this way, the candidate selection unit 202 selects one of the objects selected by the candidate selection unit 202 based on the calculation result of the feature value calculation unit 203, so that, for example, the robot arm This makes it possible to detect objects that have a high priority for movement, and it becomes possible to improve work efficiency when moving objects with a robot arm.
  • the candidate selection unit 202 acquires information regarding the position of the end effector (not shown) of the robot arm, and selects the position of the end effector from among the plurality of objects included in the image information acquired by the image information acquisition unit 300.
  • the object may be selected based on the distance between the position and the center of gravity of the detected object (or the center position of the bounding box).
  • the candidate selection unit 202 selects the distance between the position of the end effector and the center position of the bounding box of the detected object among the plurality of objects included in the image information acquired by the image information acquisition unit 300. You may choose the smallest object. Note that in such a case, the candidate selection unit 202 constitutes the position information acquisition unit in the first embodiment.
  • the target object selection unit 204 selects information regarding one of the objects included in the image information acquired by the image information acquisition unit 300 based on the feature amount of the object calculated by the feature amount calculation unit 203. Output. For example, the target object selection unit 204 selects the features included in the image information acquired by the image information acquisition unit 300 based on the feature quantities calculated by the feature quantity calculation unit 203 for each of the plurality of pieces of image information acquired by the image information acquisition unit 300. Select any one object from a plurality of objects. Note that the target object selection unit 204 performs the following based on the feature amount calculated by the feature amount calculation unit 203 for each of the plurality of image information acquired by the image information acquisition unit 300 and the accuracy of the inference by the second inference unit 201.
  • the target object selection unit 204 outputs information regarding the position of the selected object. Note that the target object selection unit 204 constitutes a selection unit in the first embodiment.
  • FIG. 5 is a flowchart illustrating an example of a process of selecting an object based on image information performed by the information processing apparatus 1000 according to the first embodiment. For example, when a user moves a plurality of randomly arranged identical objects one by one using a robot arm, the user first causes the camera CA to photograph one object from a plurality of photographing points. Image information is input to the information processing device 1000, and the learning unit 100 selects a second learning model of the shape category corresponding to the photographed object.
  • the user causes the camera CA to photograph the plurality of randomly arranged objects from a plurality of photographing points, and inputs the plurality of image information acquired by the camera CA to the information processing apparatus 1000.
  • the user causes a plurality of cameras CA arranged at a plurality of photographing points to photograph a plurality of objects randomly arranged in a container, and a plurality of image information acquired by the plurality of cameras CA is sent to an information processing device. Enter 1000.
  • the information processing apparatus 1000 acquires a plurality of pieces of image information including a plurality of objects (step ST21).
  • the information processing device 1000 After performing the process in step ST21, the information processing device 1000 performs inference based on the plurality of acquired image information and the selected second learning model (step ST22). In this process, the information processing apparatus 1000 performs instance segmentation using, for example, the second learning model, and detects each of the plurality of objects included in each piece of image information by inference.
  • the information processing apparatus 1000 determines, for each of the plurality of pieces of acquired image information, based on the inference result in step ST21, which of the objects included in the image information is grasped by the robot arm, for example.
  • An object to be moved is selected by (step ST23). Note that the movement of an object by the robot arm is not limited to grasping it with an end effector, but may also be carried out by, for example, adsorbing the object with negative pressure by the end effector, or moving the object by the end effector. This may be done by magnetically attracting the object, or by hooking a part of the object onto an end effector.
  • the information processing apparatus 1000 calculates the feature amount of the object selected in the process in step ST23 for each of the plurality of pieces of acquired image information (step ST24).
  • the information processing device 1000 selects any one object based on the feature amount calculated for each of the plurality of acquired image information (step ST25). Through this process, one object to be moved by the robot arm is selected from a plurality of randomly arranged objects.
  • the information processing device 1000 After performing the process in step ST25, the information processing device 1000 outputs information regarding the selected object (step ST26).
  • the information processing apparatus 1000 outputs information necessary for the robot arm to move any one of the plurality of objects to a control unit (not shown) of the robot arm.
  • the information processing apparatus 1000 outputs information regarding the position of the selected object, such as its coordinates.
  • the information processing apparatus 1000 generates an image including a plurality of objects based on learning data generated by the learning data generation unit 103 using image information obtained by photographing objects from a plurality of photographing points. Since the learning model generation unit 104 is provided to generate a second learning model for detecting the shape of an object from information, even if the target object has an unknown shape, image information including multiple objects can be generated. The shape of the object can be detected from
  • the information processing apparatus 1000 also performs second learning for detecting the shape of each of the plurality of objects based on image information obtained by photographing the plurality of objects from the plurality of photographing points. Since it includes a second inference unit 201 that performs inference using a model, and a target object selection unit 204 that selects one of a plurality of objects based on the result of the inference by the second inference unit 201, Even if a target object has an unknown shape, the shape of the object can be detected from image information including a plurality of objects.
  • the first inference unit 101 and the second inference unit 201 detect the shape and surface texture of the object included in the image information by inference, based on the image information acquired by the image information acquisition unit 300. Although configured to do so, it is not limited to this.
  • the shape inference section and the object detection section need only be configured to detect at least the shape of the object by inference.
  • any of the constituent elements of the embodiments described above may be modified or combined, or any constituent elements of the embodiments may be omitted.
  • the learning model generation device, information processing device, learning model generation method, and information processing method according to the present disclosure can be used, for example, to move one of a plurality of products using a robot arm.
  • an image information acquisition unit that acquires image information of the object obtained by photographing the object from a plurality of photographing points; a first inference unit that performs inference using a first learning model that calculates the probability that the shape of the object corresponds to each of a plurality of preset classes based on the image information acquired by the image information acquisition unit; a determination unit that determines a class to which the shape of the object corresponds based on a result of inference by the first inference unit; a learning data generation unit that generates learning data including image information regarding a plurality of the objects based on a determination result by the determination unit and image information of the object; a learning model generation unit that generates a second learning model for detecting the shape of the object from image information including a plurality of the objects, based on the learning data generated by the learning data generation unit; Characteristic learning model generation device.
  • the learning data generation unit generates learning data including image information regarding the plurality of objects based on the judgment unit determining that the shape of the object does not fall under any of the plurality of classes.
  • a learning model generation device as set forth in Supplementary Note 1 characterized by: (Additional note 3) an image information acquisition unit that photographs a plurality of objects from a plurality of photographing points and acquires image information of the plurality of objects; a second inference unit that performs inference using a second learning model for detecting the shape of each of the plurality of objects based on the image information acquired by the image information acquisition unit;
  • An information processing device comprising: a selection unit that selects any one of the plurality of objects based on a result of inference by the second inference unit.
  • (Additional note 4) a calculation unit that calculates the position of each of the plurality of objects based on the result of the inference by the second inference unit; The information processing device according to supplementary note 3, wherein the selection unit selects one of the plurality of objects based on a result of calculation by the calculation unit.
  • (Appendix 5) a calculation unit that calculates the area of each segmentation of the plurality of objects based on the result of the inference by the second inference unit; The information processing device according to appendix 3 or 4, wherein the selection unit selects any one of the plurality of objects based on the result of calculation by the calculation unit.
  • Appendix 6 comprising a position information acquisition unit that acquires information regarding the position of an end effector of a robot arm that can move any one of the plurality of objects selected by the selection unit; Supplementary note 4, wherein the selection unit selects one of the plurality of objects based on the calculation result by the calculation unit and the information acquired by the position information acquisition unit. or the information processing device according to 5.
  • a learning model generation method performed by a device including an image information acquisition unit, a first inference unit, a determination unit, a learning data generation unit, and a learning model generation unit, the method comprising: a step in which the image information acquisition unit photographs an object from a plurality of photographing points and acquires image information of the object; a step in which the first inference unit performs inference using a first learning model that calculates the probability that the shape of the object corresponds to each of a plurality of preset classes based on the image information acquired by the image information acquisition unit; and, the determining unit determining a class to which the shape of the object corresponds based on the result of the inference by the first inferring unit; the learning data generation unit generating learning data including image information regarding the plurality of objects based on the determination result by the determination unit and the image information of the object; The learning model generation unit generates a second learning model for detecting the shape of the object from image information including a plurality of the objects, based on the learning data
  • a learning model generation method characterized by: (Appendix 8) An information processing method performed by a device including an image information acquisition unit, a second inference unit, and a selection unit, the method comprising: a step in which the image information acquisition unit photographs a plurality of objects from a plurality of photographing points and acquires image information of the plurality of objects; a step in which the second inference unit performs inference using a second learning model for detecting the shape of each of the plurality of objects based on the image information acquired by the image information acquisition unit; An information processing method comprising: the selection unit selecting one of the plurality of objects based on a result of inference by the second inference unit.
  • 100 learning unit 101 first inference unit, 102 shape determination unit (determination unit), 103 learning data generation unit, 201 second inference unit, 202 candidate selection unit (location information acquisition unit), 203 feature amount calculation unit (calculation unit) ), 204 target object selection unit (selection unit), 300 image information acquisition unit, 1000 information processing device (learning model generation device).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

学習モデル生成装置(1000)は、複数の撮影点から物体を撮影した物体の画像情報を取得する画像情報取得部(300)と、画像情報取得部が取得した画像情報に基づいて物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行う第1推論部(101)と、第1推論部による推論の結果に基づいて、物体の形状が該当するクラスを判定する判定部(102)と、判定部による判定の結果と、物体の画像情報と、に基づいて複数の物体に関する画像情報を含む学習データを生成する学習データ生成部(103)と、学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する学習モデル生成部(104)と、を備えた。

Description

学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法
 本開示は、学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法に関する。
 従来、複数種類の単純形状の3Dデータを使用して予め学習した学習モデルと、カメラによって撮像した物体の画像と、に基づいて、物体の位置を検出する位置検出装置が開示されている(特許文献1参照)。この位置検出装置は、検出する対象となる複数の物体を含む画像情報から、当該物体の形状を検出する場合、複数種類の単純形状モデルのいずれに該当するかの信頼度に基づいて物体の位置を検出する。
特開2020-77231号公報
 ところで、対象となる複数の物体を含む画像情報から、当該物体の形状を検出する場合、例えば、特許文献1に記載の位置検出装置は、検出する対象となる物体が、単純形状モデルのいずれとも大きく異なる未知の形状を有する物体である場合、画像情報から当該物体の形状を検出できないことがある。
 本開示は、上記課題を解決するものであって、未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法を提供することを目的とする。
 本開示に係る学習モデル生成装置は、複数の撮影点から物体を撮影した物体の画像情報を取得する画像情報取得部と、画像情報取得部が取得した画像情報に基づいて物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行う第1推論部と、第1推論部による推論の結果に基づいて、物体の形状が該当するクラスを判定する判定部と、判定部による判定の結果と、物体の画像情報と、に基づいて複数の物体に関する画像情報を含む学習データを生成する学習データ生成部と、学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する学習モデル生成部と、を備えたことを特徴とする。
 本開示によれば、複数の撮影点から物体を撮影して得られた画像情報により学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する学習モデル生成部を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。
実施の形態1に係る情報処理装置の概略構成を示すブロック図である。 実施の形態1に係る対象物体検出部の概略構成を示すブロック図である。 実施の形態1に係る情報処理装置のハードウェア構成の一例を示すブロック図である。 実施の形態1に係る情報処理装置が行う第2学習モデルを生成する処理の一例を示すフローチャートである。 実施の形態1に係る情報処理装置が行う画像情報に基づいて物体を選択する処理の一例を示すフローチャートである。
 以下、本開示に係る実施の形態について図面を参照しながら詳細に説明する。
実施の形態1.
 図1は、実施の形態1に係る情報処理装置1000の概略構成を示すブロック図であり、図2は、実施の形態1に係る対象物体検出部200の概略構成を示すブロック図である。情報処理装置1000は、複数の物体をカメラCAで撮影した際に、カメラCAから取得した画像情報に基づいて、当該複数の物体のうちのいずれかの物体を検出して選択する装置である。例えば、情報処理装置1000は、乱雑に山積みされた状態の複数の商品をロボットアームによって1つずつ移動させる際に、カメラCAから取得した山積みされた状態の複数の商品を含む画像情報に基づいて、山積みされた状態の複数の商品の中から移動させる商品として最適な商品を選択し、ロボットアームを制御する制御装置(不図示)に選択した結果を出力する装置である。なお、情報処理装置1000は、実施の形態1において、学習モデル生成装置を構成する。
 図1および図2に示すように、情報処理装置1000は、画像情報取得部300と、学習部100と、対象物体検出部200と、を備えている。画像情報取得部300は、カメラCAが複数の撮影点(視点)から1つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得する。例えば、画像情報取得部300は、互いに異なる位置に配置された複数のカメラCAが、それぞれ複数の撮影点から1つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得する。なお、画像情報取得部300は、1つのカメラCAが複数の撮影点(視点)の間で移動しながら1つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得するように構成されていてもよい。
 学習部100は、画像情報取得部300が取得した画像情報に基づいて学習モデルを生成し、生成した学習モデルを対象物体検出部200へ出力する。学習部100の詳細については、後述する。対象物体検出部200は、画像情報取得部300が取得した複数の物体を含む画像情報と、学習部100から取得した第2学習モデルと、に基づいて、画像情報に含まれる複数の物体を検出し、検出した複数の物体のうちいずれかの物体を選択する。例えば、対象物体検出部200は、取得した画像情報に含まれる複数の物体のうち、ロボットアームによって移動させる物体として適している1つの物体を選択する。対象物体検出部200の詳細は、後述する。
 図3は、実施の形態1に係る情報処理装置1000のハードウェア構成の一例を示すブロック図である。例えば、情報処理装置1000は、CPU(Central Processing Unit)1001、主記憶装置1002およびHDD(Hard Disk Drive)等からなる補助記憶装置1003を備えている。
 主記憶装置1002は、例えば、ROM(Read Only Memory)1002A、およびRAM(Random Access Memory)1002Bを有している。なお、主記憶装置1002は、ROM1002AおよびRAM1002Bに加えて、またはROM1002AおよびRAM1002Bに代えて、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)等の、不揮発性又は揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、及び、DVD(Digital Versatile Disc)等の記憶装置を有していてもよい。
 また、例えば、情報処理装置1000は、外部の装置との間で情報の入出力を行うインターフェースとして、通信インターフェース1004A、入力インターフェース1004B、表示インターフェース1004C、出力インターフェース1004Dを備えている。例えば、通信インターフェース1004Aは、情報処理装置1000の外部に設けられて、各種情報を記憶する外部記憶装置1006との間で情報の入出力を行う。また、例えば、入力インターフェース1004Bは、情報処理装置1000の外部に設けられた入力装置1007からの情報の入力を受付ける。また、例えば、表示インターフェース1004Cは、CPU1001による処理の結果、主記憶装置1002および補助記憶装置1003に記憶されている情報等を、情報処理装置1000の外部に設けられた液晶ディスプレイ等の表示装置1008へ出力する。また、例えば、出力インターフェース1004Dは、CPU1001による処理の結果、主記憶装置1002および補助記憶装置1003に記憶されている情報等を、出力装置1009へ出力する。出力装置1009は、例えば、ロボットアームの制御部、サーバ等、情報処理装置1000の外部に設けられた装置である。
 このように構成された情報処理装置1000の各機能は、主記憶装置1002および補助記憶装置1003に記憶されている、ソフトウェア若しくはファームウェアまたはソフトウェアとファームウェアとの組合わせからなるプログラムを、CPU1001が実行することによって実現される。なお、情報処理装置1000は、上述したCPU1001、主記憶装置1002および補助記憶装置1003に代えて、システムLSI(Large-Scale Integration)等を有する専用の処理回路を備えていてもよい。
 次に、図1を参照して、学習部100の詳細について説明する。図1に示すように、学習部100は、第1推論部101、形状判定部102、学習データ生成部103、学習モデル生成部104、第1学習モデル記憶部105、学習データ記憶部106および第2学習モデル記憶部107を備えている。
 第1推論部101は、画像情報取得部300が取得した画像情報に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論する。例えば、第1推論部101は、カメラCAが物体を撮影した複数の撮影点毎に物体の形状および表面テクスチャを推論する複数の推論部101aを有しており、各推論部101aによって、複数の撮影点に対応する複数の画像情報毎に物体の形状および表面テクスチャを推論する。第1推論部101は、第1学習モデル記憶部105に予め記憶されている第1学習モデルを第1学習モデル記憶部105から取得して、第1学習モデルと、画像情報取得部300が取得した画像情報と、に基づいて、推論を行う。
 第1学習モデルは、互いに形状および表面テクスチャの少なくとも一方が異なる物体を示す複数のCG(Computer Graphics)を学習データとして用いて機械学習を行った学習済みモデルであり、入力された画像情報に含まれる物体の形状および表面テクスチャが、予め設定されている複数の形状カテゴリ(複数のクラス)のそれぞれに該当する確度(推論率)を、推論によって算出する。例えば、第1学習モデルの学習データとして用いられるCGは、形状および表面テクスチャの少なくとも一方が異なる複数の物体を個々に撮影した画像情報を変形させ、変形させた複数の物体の画像情報の、それぞれの形状および表面テクスチャに関する特徴を抽出して生成される。また、例えば、第1学習モデルは、NN(Neural Networks)によって構成されている。第1推論部101は、画像情報取得部300が取得した複数の画像情報毎に、複数の形状カテゴリのそれぞれに該当する確度を形状判定部102へ出力する。
 形状判定部102は、第1推論部101による判定の結果としての第1推論部101から入力された情報に基づいて、画像情報取得部300が取得した画像情報に含まれている物体の形状が、予め第1学習モデルの形状カテゴリとして設定されている複数の形状カテゴリのいずれに該当するかを判定し、判定の結果を学習データ生成部103へ出力する。また、形状判定部102は、第1推論部101から入力された情報に基づいて、画像情報取得部300が取得した画像情報に含まれている物体の形状が、予め第1学習モデルの形状カテゴリとして設定されている複数の形状カテゴリのいずれにも該当しないと判定した場合、いずれの形状カテゴリにも該当しないことを示す判定の結果を学習データ生成部103へ出力する。なお、形状判定部102は、実施の形態1において、判定部を構成する。
 学習データ生成部103は、形状判定部102による判定の結果と、画像情報取得部300が取得した画像情報と、に基づいて、複数の物体に関する画像情報を含むデータを生成する。例えば、学習データ生成部103は、形状判定部102による判定の結果と、画像情報取得部300が取得した画像情報と、に基づいて、複数の物体が乱雑に配置された状態のCGを生成し、学習データ記憶部106に記憶させる。例えば、学習データ生成部103は、画像情報取得部300が取得した画像情報に含まれる1つの物体を変形および複製して重ね合わせた状態の画像情報を生成し、当該画像情報から当該物体の形状および表面テクスチャに関する特徴を抽出したCGを生成する。なお、学習データ生成部103が生成するデータは、複数の物体に関する画像情報を含むデータであればよく、例えば、複数の物体が整列された状態のCGであってもよいし、複数の物体が重ねられた状態のCGであってもよいし、複数種類の物体の画像情報を含むデータであってもよい。
 学習モデル生成部104は、学習データ生成部103が生成したCGの情報を学習データ記憶部106から取得し、当該情報を学習データとして、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する。例えば、学習モデル生成部104は、学習データ生成部103が生成した、複数の物体が乱雑に配置された状態のCGのデータを学習データとして、複数の物体が乱雑に配置されている状態の画像情報から、データ内の複数の物体のそれぞれの形状を検出するための第2学習モデルを生成してもよいし、データ内の特定の物体の形状を検出するための第2学習モデルを生成してもよい。例えば、第2学習モデルは、複数の物体が配置されている状態の画像情報から、インスタンス・セグメンテーションによって複数の物体を個別に検出するための学習済みモデルである。また、例えば、第2学習モデルは、Mask R-CNN(Region Based Convolutional Neural Networks)によって構成されており、インスタンス・セグメンテーションによって物体の形状および表面テクスチャを推論によって検出する。学習モデル生成部104は、生成した第2学習モデルを第2学習モデル記憶部107に記憶させる。
 また、学習モデル生成部104は、形状判定部102の判定の結果に基づいて、第2学習モデル記憶部107に記憶されているいずれかの第2学習モデルを示す情報を対象物体検出部200に出力する。第2学習モデル記憶部107には、複数の物体が乱雑に配置されている状態の画像情報から物体を検出するための、第1学習モデルの複数の形状カテゴリのそれぞれに対応する複数の第2学習モデルが記憶されている。これら複数の第2学習モデルも、上述した第1学習モデルと同様に、複数の物体が乱雑に配置された状態のCGの情報を学習データとして用いた学習済みモデルである。例えば、学習モデル生成部104は、形状判定部102による判定の結果に応じた形状カテゴリに対応する第2学習モデルを示す情報を、対象物体検出部200に出力する。
 次に、図4を参照して、情報処理装置1000が行う第2学習モデルを生成する処理について説明する。図4は、実施の形態1に係る情報処理装置1000が行う第2学習モデルを生成する処理の一例を示すフローチャートである。図4に示すように、例えば、情報処理装置1000は、まず、複数のカメラCAによって対象となる物体を撮影した際の画像情報を画像情報取得部300によって取得する(ステップST11)。この処理において、情報処理装置1000は、例えば、カメラCAが複数の撮影点から1つの物体を撮影した際の複数の画像情報を取得する。
 ステップST11の処理を行うと、情報処理装置1000は、第1学習モデル記憶部105に記憶されている第1学習モデルと、画像情報取得部300が取得した画像情報と、に基づいて、当該画像情報に含まれる物体の形状および表面テクスチャがそれぞれの形状カテゴリに該当する確度を推論によって算出する(ステップST12)。この処理において、情報処理装置1000は、カメラCAによって撮影された物体の画像情報から、当該物体の形状および表面テクスチャを検出し、当該物体がそれぞれの形状カテゴリに該当する確度を算出している。
 ステップST12の処理を行うと、情報処理装置1000は、形状カテゴリ毎に算出した確度に基づいて、画像情報取得部300が取得した画像情報に含まれる物体が該当する形状カテゴリを判定する(ステップST13およびST14)。例えば、情報処理装置1000は、形状判定部102によって、形状カテゴリ毎に算出した確度のうち、最も高い確度に対応する形状カテゴリを当該物体が該当する形状カテゴリとして判定する。また、例えば、情報処理装置1000は、形状カテゴリ毎に算出したいずれの確度も、予め設定されている所定の閾値未満であった場合、形状判定部102によって、当該物体がいずれの形状カテゴリにも該当しない新たな形状カテゴリに該当する物体、即ち第1学習モデルに予め設定されている形状カテゴリに存在しない物体であると判定する。
 ステップST13およびST14の処理において、画像情報取得部300が取得した画像情報に含まれる物体が、第1学習モデルに予め設定されている形状カテゴリに存在する物体である場合(ステップST14のYES)、即ち、第1学習モデルに予め設定されている形状カテゴリのいずれかに該当する物体である場合、情報処理装置1000は、第2学習モデル記憶部107に予め記憶されている第2学習モデルのうち、当該形状カテゴリに対応する第2学習モデルを選択して、選択した第2学習モデルを示す情報を対象物体検出部200に出力し(ステップST18)、処理を終了する。
 ステップST13およびST14の処理において、画像情報取得部300が取得した画像情報に含まれる物体が、第1学習モデルに予め設定されている形状カテゴリに存在しない物体である場合(ステップST14のNO)、即ち、第1学習モデルに予め設定されている形状カテゴリのいずれにも該当しない物体である場合、情報処理装置1000は、画像情報取得部300が取得した画像情報に基づいて、学習データ生成部103によって新たな学習データを生成する(ステップST15)。この処理において、情報処理装置1000は、画像情報取得部300が取得した画像情報に含まれる物体が、第1学習モデルの複数の形状カテゴリのいずれにも該当しないと形状判定部102が判定したことに基づいて、第2学習モデル記憶部107に記憶されていない新たな第2学習モデルを生成するための学習データを学習データ生成部103によって生成する。
 ステップST15の処理を行うと、情報処理装置1000は、ステップST15の処理において生成した学習データに基づいて、新たな第2学習モデルを生成する(ステップST16)。この処理において、情報処理装置1000は、予め設定されていない形状および表面テクスチャを有する未知の物体であっても、複数の当該物体が乱雑に配置されている状態を示す画像情報から特定の物体を選択可能とする第2学習モデルを生成している。なお、情報処理装置1000は、取得した画像情報基づいて学習モデル生成部104が転移学習を行うことにより第2学習モデルを生成してもよい。
 ステップST16の処理を行うと、情報処理装置1000は、生成した第2学習モデルを第2学習モデル記憶部107に記憶させる(ステップST17)。ステップST17の処理を行うと、情報処理装置1000は、新たに生成した第2学習モデルを示す情報を対象物体検出部200に出力し(ステップST18)、処理を終了する。
 次に、図2を参照して、対象物体検出部200の詳細について説明する。図2に示すように、対象物体検出部200は、第2推論部201、候補選択部202、特徴量算出部203および対象物体選択部204を備えている。
 第2推論部201は、第2学習モデル記憶部107から取得した第2学習モデルと、画像情報取得部300が取得した画像情報と、に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論によって検出する。例えば、対象物体検出部200は、学習モデル生成部104から取得したいずれかの第2学習モデルを示す情報に基づいて第2学習モデル記憶部107からいずれかの第2学習モデルを取得し、画像情報取得部300が取得した物体の形状および表面テクスチャを複数の撮影点から撮影した複数の画像情報に基づいて、画像情報に含まれる物体を推論によって検出する。言い換えると、対象物体検出部200は、画像情報取得部300が取得した画像情報と、当該画像情報に含まれる物体の形状カテゴリに対応する第2学習モデルと、に基づいて、当該画像情報に含まれる物体を推論によって検出する。
 例えば、第2推論部201は、カメラCAが物体を撮影した複数の撮影点毎に物体の形状および表面テクスチャを推論する複数の推論部201aを有しており、各推論部201aによって、複数の撮影点に対応する複数の画像情報毎に物体の形状および表面テクスチャを推論する。第2推論部201は、推論によって検出された物体の形状および表面テクスチャと、推論の確度と、を推論の結果として候補選択部202へ出力する。なお、
 候補選択部202は、第2推論部201による推論の結果に基づいて、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、ロボットアームによって移動させる物体として適している1つの物体を、対象物体検出部200の出力の候補の物体として選択する。例えば、候補選択部202は、画像情報取得部300が取得した画像情報に複数の物体が含まれている場合、当該画像情報に含まれる複数の物体のうち、第2推論部201による推論の確度に基づいて、いずれか1つの物体を選択する。言い換えると候補選択部202は、画像情報取得部300が取得した画像情報に複数の物体が含まれている場合、当該画像情報に含まれる複数の物体のセグメンテーションのうち、推論の確度に基づいていずれか1つのセグメンテーションを選択する。
 なお、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる物体が1つのみ検出されている場合、当該1つの物体を選択してもよい。また、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる物体が複数ある場合、これら複数の物体のうち2以上の物体を選択してもよい。また、候補選択部202は、画像情報取得部300が取得した複数の画像情報のうち、特定の画像情報に含まれる物体が検出されていない場合、当該特定の画像情報については物体を選択する処理を行わないように構成されていてもよい。
 また、例えば、候補選択部202は、各推論部201aによる推論の結果毎にいずれかの物体を選択する複数の選択部202aを有しており、各選択部202aによって、複数の撮影点に対応する複数の画像情報毎にいずれかの物体を選択する。候補選択部202は、選択の結果を特徴量算出部203に出力する。
 特徴量算出部203は、候補選択部202が選択した物体の特徴量を算出する。例えば、特徴量算出部203は、各選択部202aに対応する複数の算出部203aを有しており、複数の選択部202aによる選択の結果に対応する物体毎に特徴量を算出する。言い換えると、特徴量算出部203は、画像情報取得部300が取得した複数の画像情報毎に、選択部202aによって選択された物体の特徴量を算出する。例えば、特徴量算出部203は、候補選択部202が選択した物体の位置、姿勢、見かけの面積(セグメンテーションの面積)およびバウンディングボックスの面積等の特徴量を算出する。特徴量算出部203が求める物体の位置は、物体の見かけの重心位置(セグメンテーションの重心位置)でもよいし、バウンディングボックスの中心位置でもよいし、バウンディングボックスの特定の位置、例えば、右上角の位置等、特定の角の位置でもよい。なお、特徴量算出部203は、実施の形態1において、算出部を構成する。
 また、上述した候補選択部202は、特徴量算出部203によって算出された物体の特徴量に基づいて、画像情報に含まれる物体のうちいずれかの物体を選択してもよい。例えば、候補選択部202は、第2推論部201による推論の結果と、特徴量算出部203によって算出された特徴量と、に基づいて、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションが他の物体のセグメンテーションによって複数のセグメンテーションに分割されていないいずれか1つの物体を選択してもよい。また、例えば、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積に基づいて、いずれか1つの物体を選択してもよい。具体的には、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積が最も大きい物体を選択してもよい。
 また、例えば、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積及び当該物体のバウンディングボックスの面積に基づいて、いずれか1つの物体を選択してもよい。具体的には、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積が最大となる物体を選択してもよい。また、例えば、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のバウンディングボックスの面積(Ab)に対する当該物体のセグメンテーションの面積(As)と、当該物体のセグメンテーションの面積(As)と、の積(As^2/Ab)が最大となる物体を選択してもよい。なお、これら物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積、及び物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積と当該物体のセグメンテーションの面積との積は、特徴量算出部203が算出してもよいし、特徴量算出部203が算出した物体のセグメンテーションの面積及びバウンディングボックスの面積に基づいて、候補選択部202が算出してもよい。
 このように、候補選択部202が、候補選択部202によって選択された物体のいずれかの物体を特徴量算出部203の算出結果に基づいて選択することにより、例えば、複数の物体のうちロボットアームによって移動させる優先度が高い物体を検出することが可能になり、ロボットアームによって物体を移動させる際の作業性の向上が可能となる。
 また、例えば、候補選択部202は、ロボットアームのエンドエフェクタ(不図示)の位置に関する情報を取得して、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、エンドエフェクタの位置と、検出した物体の重心位置(または、バウンディングボックスの中心位置)と、の距離に基づいて物体を選択してもよい。具体的には、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、エンドエフェクタの位置と、検出した物体のバウンディングボックスの中心位置と、の距離が最も小さい物体を選択してもよい。なお、このような場合において、候補選択部202は、実施の形態1における位置情報取得部を構成する。
 対象物体選択部204は、特徴量算出部203によって算出された物体の特徴量に基づいて、画像情報取得部300が取得した画像情報に含まれる物体のうちいずれかの物体に関する情報を選択して出力する。例えば、対象物体選択部204は、画像情報取得部300が取得した複数の画像情報毎に特徴量算出部203が算出した特徴量に基づいて、画像情報取得部300が取得した画像情報に含まれる複数の物体のうちいずれか1つの物体を選択する。なお、対象物体選択部204は、画像情報取得部300が取得した複数の画像情報毎に特徴量算出部203が算出した特徴量と、第2推論部201による推論の確度と、に基づいて、画像情報取得部300が取得した画像情報に含まれる複数の物体のうちいずれか1つの物体を選択してもよい。対象物体選択部204は、選択した物体の位置に関する情報を出力する。なお、対象物体選択部204は、実施の形態1において、選択部を構成する。
 次に、図5を参照して、情報処理装置1000が行う画像情報に基づいて物体を選択する処理について説明する。図5は、実施の形態1に係る情報処理装置1000が行う画像情報に基づいて物体を選択する処理の一例を示すフローチャートである。例えば、ユーザは、乱雑に配置された複数の同一の物体を1つずつロボットアームによって移動させる場合、まず、1つの当該物体を複数の撮影点からカメラCAによって撮影させ、カメラCAによって取得された画像情報を情報処理装置1000に入力し、学習部100に撮影された物体に対応する形状カテゴリの第2学習モデルを選択させる。
 次に、ユーザは、乱雑に配置された複数の上記物体を複数の撮影点からカメラCAによって撮影させ、カメラCAによって取得された複数の画像情報を情報処理装置1000に入力する。ユーザは、例えば、コンテナ内に乱雑に配置された複数の上記物体を複数の撮影点に配置された複数のカメラCAによって撮影させ、複数のカメラCAによって取得された複数の画像情報を情報処理装置1000に入力する。これにより、情報処理装置1000は、複数の物体が含まれる複数の画像情報を取得する(ステップST21)。
 ステップST21の処理を行うと、情報処理装置1000は、取得した複数の画像情報と、選択された第2学習モデルと、に基づいて推論を行う(ステップST22)。この処理において、情報処理装置1000は、例えば、第2学習モデルによってインスタンス・セグメンテーションを行い、各画像情報に含まれる複数の物体のそれぞれを推論によって検出する。
 ステップST22の処理を行うと、情報処理装置1000は、ステップST21の推論の結果に基づいて、取得した複数の画像情報毎に、画像情報に含まれる物体のうち、例えば、ロボットアームが把持することによって移動させる候補であるいずれかの物体を選択する(ステップST23)。なお、ロボットアームによる物体の移動は、エンドエフェクタによって把持して行うものに限らず、例えば、エンドエフェクタによって物体を負圧で吸着させることによって行うものであってもよいし、エンドエフェクタのよって物体を磁力で吸着させることによって行うものであってもよいし、エンドエフェクタに物体の一部を引掛けることで行うものであってもよい。
 ステップST23の処理を行うと、情報処理装置1000は、取得した複数の画像情報毎に、ステップST23の処理で選択された物体の特徴量を算出する(ステップST24)。
 ステップST24の処理を行うと、情報処理装置1000は、取得した複数の画像情報毎に算出された特徴量に基づいて、いずれか1つの物体を選択する(ステップST25)。この処理によって、乱雑に配置された複数の物体のうち、ロボットアームで移動させる1つの物体が選択される。
 ステップST25の処理を行うと、情報処理装置1000は、選択された物体に関する情報を出力する(ステップST26)。この処理において、情報処理装置1000は、ロボットアームが複数の物体のうちいずれか1つの物体を移動させる際に必要な情報を、ロボットアームの制御部(不図示)に出力している。例えば、情報処理装置1000は、選択した物体の座標等、位置に関する情報を出力する。
 以上、実施の形態1に係る情報処理装置1000は、複数の撮影点から物体を撮影して得られた画像情報により学習データ生成部103が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する学習モデル生成部104を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。
 また、実施の形態1に係る情報処理装置1000は、複数の撮影点から複数の物体を撮影して得られた画像情報に基づいて、複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行う第2推論部201と、第2推論部201による推論の結果に基づいて、複数の物体のうちのいずれかの物体を選択する対象物体選択部204と、を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。
 なお、実施の形態1において、第1推論部101および第2推論部201は、画像情報取得部300が取得した画像情報に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論によって検出するように構成されているが、これに限定されない。形状推論部および物体検出部は、少なくとも物体の形状を推論によって検出するように構成されていればよい。
 また、本開示はその発明の範囲内において、上述した実施の形態の任意の構成要素の変形、組合せ若しくは実施の形態の任意の構成要素の省略が可能である。
 本開示に係る学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法は、例えば、複数の商品のうちからいずれかの商品をロボットアームによって移動させる作業に利用することができる。
 以下、本開示の諸態様を付記としてまとめて記載する。
  (付記1)
 複数の撮影点から物体を撮影した前記物体の画像情報を取得する画像情報取得部と、
 前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行う第1推論部と、
 前記第1推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定する判定部と、
 前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成する学習データ生成部と、
 前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第2学習モデルを生成する学習モデル生成部と、を備えた
 ことを特徴とする学習モデル生成装置。
  (付記2)
 前記学習データ生成部は、前記物体の形状が前記複数のクラスのいずれにも該当しないと前記判定部が判定したことに基づいて、複数の前記物体に関する画像情報を含む学習データを生成する
 ことを特徴とする付記1記載の学習モデル生成装置。
  (付記3)
 複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得する画像情報取得部と、
 前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行う第2推論部と、
 前記第2推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する選択部と、を備えた
 ことを特徴とする情報処理装置。
  (付記4)
 前記第2推論部による推論の結果に基づいて、前記複数の物体のそれぞれの位置を算出する算出部を備え、
 前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
 ことを特徴とする付記3記載の情報処理装置。
  (付記5)
 前記第2推論部による推論の結果に基づいて、前記複数の物体のそれぞれのセグメンテーションの面積を算出する算出部を備え、
 前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
 ことを特徴とする付記3又は4記載の情報処理装置。
  (付記6)
 前記選択部が選択した前記複数の物体のうちのいずれかの物体を移動可能な、ロボットアームのエンドエフェクタの位置に関する情報を取得する位置情報取得部を備え、
 前記選択部は、前記算出部による算出の結果と、前記位置情報取得部が取得した情報と、に基づいて、前記複数の物体のうちのいずれかの物体を選択する
 ことを特徴とする付記4又は5記載の情報処理装置。
  (付記7)
 画像情報取得部と、第1推論部と、判定部と、学習データ生成部と、学習モデル生成部と、を備えた装置が行う学習モデル生成方法であって、
 前記画像情報取得部が、複数の撮影点から物体を撮影し、前記物体の画像情報を取得するステップと、
 前記第1推論部が、前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行うステップと、
 前記判定部が、前記第1推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定するステップと、
 前記学習データ生成部が、前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成するステップと、
 前記学習モデル生成部が、前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第2学習モデルを生成すると、を備えた
 ことを特徴とする学習モデル生成方法。
  (付記8)
 画像情報取得部と、第2推論部と、選択部と、を備えた装置が行う情報処理方法であって、
 前記画像情報取得部が、複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得するステップと、
 前記第2推論部が、前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行うステップと、
 前記選択部が、前記第2推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択するステップと、を備えた
 ことを特徴とする情報処理方法。
 100 学習部、101 第1推論部、102 形状判定部(判定部)、103 学習データ生成部、201 第2推論部、202 候補選択部(位置情報取得部)、203 特徴量算出部(算出部)、204 対象物体選択部(選択部)、300 画像情報取得部、1000 情報処理装置(学習モデル生成装置)。

Claims (8)

  1.  複数の撮影点から物体を撮影した前記物体の画像情報を取得する画像情報取得部と、
     前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行う第1推論部と、
     前記第1推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定する判定部と、
     前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成する学習データ生成部と、
     前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第2学習モデルを生成する学習モデル生成部と、を備えた
     ことを特徴とする学習モデル生成装置。
  2.  前記学習データ生成部は、前記物体の形状が前記複数のクラスのいずれにも該当しないと前記判定部が判定したことに基づいて、複数の前記物体に関する画像情報を含む学習データを生成する
     ことを特徴とする請求項1記載の学習モデル生成装置。
  3.  複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得する画像情報取得部と、
     前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行う第2推論部と、
     前記第2推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する選択部と、を備えた
     ことを特徴とする情報処理装置。
  4.  前記第2推論部による推論の結果に基づいて、前記複数の物体のそれぞれの位置を算出する算出部を備え、
     前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
     ことを特徴とする請求項3記載の情報処理装置。
  5.  前記第2推論部による推論の結果に基づいて、前記複数の物体のそれぞれのセグメンテーションの面積を算出する算出部を備え、
     前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
     ことを特徴とする請求項3記載の情報処理装置。
  6.  前記選択部が選択した前記複数の物体のうちのいずれかの物体を移動可能な、ロボットアームのエンドエフェクタの位置に関する情報を取得する位置情報取得部を備え、
     前記選択部は、前記算出部による算出の結果と、前記位置情報取得部が取得した情報と、に基づいて、前記複数の物体のうちのいずれかの物体を選択する
     ことを特徴とする請求項4又は5記載の情報処理装置。
  7.  画像情報取得部と、第1推論部と、判定部と、学習データ生成部と、学習モデル生成部と、を備えた装置が行う学習モデル生成方法であって、
     前記画像情報取得部が、複数の撮影点から物体を撮影し、前記物体の画像情報を取得するステップと、
     前記第1推論部が、前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行うステップと、
     前記判定部が、前記第1推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定するステップと、
     前記学習データ生成部が、前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成するステップと、
     前記学習モデル生成部が、前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第2学習モデルを生成すると、を備えた
     ことを特徴とする学習モデル生成方法。
  8.  画像情報取得部と、第2推論部と、選択部と、を備えた装置が行う情報処理方法であって、
     前記画像情報取得部が、複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得するステップと、
     前記第2推論部が、前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行うステップと、
     前記選択部が、前記第2推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択するステップと、を備えた
     ことを特徴とする情報処理方法。
PCT/JP2022/017895 2022-04-15 2022-04-15 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法 WO2023199502A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023529884A JP7350218B1 (ja) 2022-04-15 2022-04-15 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法
PCT/JP2022/017895 WO2023199502A1 (ja) 2022-04-15 2022-04-15 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/017895 WO2023199502A1 (ja) 2022-04-15 2022-04-15 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法

Publications (1)

Publication Number Publication Date
WO2023199502A1 true WO2023199502A1 (ja) 2023-10-19

Family

ID=88099195

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/017895 WO2023199502A1 (ja) 2022-04-15 2022-04-15 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法

Country Status (2)

Country Link
JP (1) JP7350218B1 (ja)
WO (1) WO2023199502A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60118479A (ja) * 1983-11-30 1985-06-25 株式会社日立製作所 部品供給組立装置
JP2011096135A (ja) * 2009-10-30 2011-05-12 Canon Inc 画像処理装置、画像処理方法
JP2020052981A (ja) * 2018-09-28 2020-04-02 株式会社東芝 情報処理装置、学習装置、情報処理システム、情報処理方法及びコンピュータプログラム
JP2020077231A (ja) * 2018-11-08 2020-05-21 富士通株式会社 位置検出プログラム、位置検出方法及び位置検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60118479A (ja) * 1983-11-30 1985-06-25 株式会社日立製作所 部品供給組立装置
JP2011096135A (ja) * 2009-10-30 2011-05-12 Canon Inc 画像処理装置、画像処理方法
JP2020052981A (ja) * 2018-09-28 2020-04-02 株式会社東芝 情報処理装置、学習装置、情報処理システム、情報処理方法及びコンピュータプログラム
JP2020077231A (ja) * 2018-11-08 2020-05-21 富士通株式会社 位置検出プログラム、位置検出方法及び位置検出装置

Also Published As

Publication number Publication date
JP7350218B1 (ja) 2023-09-25
JPWO2023199502A1 (ja) 2023-10-19

Similar Documents

Publication Publication Date Title
CN112476434B (zh) 一种基于协作机器人的视觉3d取放方法及系统
US11527072B2 (en) Systems and methods for detecting waste receptacles using convolutional neural networks
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
JP5538617B2 (ja) 複数カメラのキャリブレーション用の方法および構成
CN112164115B (zh) 物体位姿识别的方法、装置及计算机存储介质
JPH0676062A (ja) 画像処理装置
JP2011198349A (ja) 情報処理方法及びその装置
EP3905194A1 (en) Pose estimation method and apparatus
JP2011138388A (ja) データ補正装置及び方法
CN108364302B (zh) 一种无标记的增强现实多目标注册跟踪方法
CN114693661A (zh) 一种基于深度学习的快速分拣方法
CN113034581B (zh) 基于深度学习的空间目标相对位姿估计方法
CN112149590A (zh) 一种手部关键点检测方法
JP7209657B2 (ja) 情報処理装置及び方法
JP2009014415A (ja) 物体認識装置および物体認識方法
CN115070780A (zh) 基于数字孪生的工业机器人抓取方法、装置及存储介质
JP5704909B2 (ja) 注目領域検出方法、注目領域検出装置、及びプログラム
JP2020181290A (ja) 物品認識システムおよび物品認識方法
KR100691855B1 (ko) 영상정보의 특징 추출장치 및 그 방법
WO2023199502A1 (ja) 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法
JP6922605B2 (ja) 3次元物体検出装置、ロボット、及びプログラム
JP2021026778A (ja) クロスドメイン距離学習のシステム及び方法
EP3905107A1 (en) Computer-implemented method for 3d localization of an object based on image data and depth data
EP3905130A1 (en) Computer-implemented method for 3d localization of an object based on image data and depth data
JP6198104B2 (ja) 3次元物体認識装置及び3次元物体認識方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2023529884

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22937481

Country of ref document: EP

Kind code of ref document: A1