WO2023127555A1 - 教師データ生成装置および教師データ生成プログラム - Google Patents

教師データ生成装置および教師データ生成プログラム Download PDF

Info

Publication number
WO2023127555A1
WO2023127555A1 PCT/JP2022/046451 JP2022046451W WO2023127555A1 WO 2023127555 A1 WO2023127555 A1 WO 2023127555A1 JP 2022046451 W JP2022046451 W JP 2022046451W WO 2023127555 A1 WO2023127555 A1 WO 2023127555A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
label
detection
unit
training data
Prior art date
Application number
PCT/JP2022/046451
Other languages
English (en)
French (fr)
Inventor
天奮 徐
誠太 大野
吉平 松田
Original Assignee
川崎重工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 川崎重工業株式会社 filed Critical 川崎重工業株式会社
Publication of WO2023127555A1 publication Critical patent/WO2023127555A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the technology disclosed here relates to a teacher data generation device and a teacher data generation program.
  • the technology disclosed here has been made in view of this point, and its purpose is to shorten the time required to generate teacher data for re-learning a learned detection model.
  • the technology disclosed here is a training data generation device that generates training data for re-learning a trained detection model that detects an object included in an image and predetermined information about the object.
  • the training data generating device includes a label assigning unit that assigns a label indicating the predetermined information to an object included in an image in accordance with a user's input operation, and a label assigning unit that attaches the label to the image and the label attached to the image.
  • a generating unit that generates a set as training data; and a memory that stores an image detected by the detection model in which the detection fails for at least one object, in association with the detection result of the detection model.
  • the label assigning unit assigns the label indicating the predetermined information to the unsuccessfully detected object in accordance with a user's input operation, and indicates the predetermined information of the successfully detected object.
  • the label is substituted by the detection result.
  • the generating unit generates a set of the image in the storage unit, the label attached to the unsuccessfully detected object, and the detection result of the successfully detected object as teacher data.
  • Another technique disclosed herein is a training data generation program that causes a computer to implement a function of generating training data for re-learning a trained detection model that detects an object included in an image and predetermined information of the object.
  • the training data generation program has a function of assigning a label indicating the predetermined information to an object included in an image according to a user's input operation, and a set of the image and the label assigned to the image.
  • a function of generating training data a function of storing an image detected by the detection model, in which the detection of at least one object fails, in association with a detection result of the detection model;
  • the label indicating the predetermined information is assigned to the unsuccessfully detected object according to a user's input operation, and the detection result is substituted for the label indicating the predetermined information of the successfully detected object.
  • the training data generation device it is possible to reduce the time required to generate training data for re-learning a learned detection model.
  • FIG. 1 is a diagram showing a schematic configuration of a robot system.
  • FIG. 2 is a plan view showing a bucket in which objects are randomly placed.
  • FIG. 3 is a block diagram showing a schematic configuration of the control device and its peripherals.
  • FIG. 4 is a functional block diagram of the processing section of the control device.
  • FIG. 5 is a flow chart showing generation processing of the processing unit of the control device.
  • FIG. 6 is a diagram illustrating an example of a state in which the first image is selected on the display section;
  • FIG. 7 is a diagram showing an example of marking an object in the first image on the display unit.
  • FIG. 8 is a diagram illustrating an example of a state in which all objects in the first image are marked on the display unit;
  • FIG. 1 is a diagram showing a schematic configuration of a robot system.
  • FIG. 2 is a plan view showing a bucket in which objects are randomly placed.
  • FIG. 3 is a block diagram showing a schematic configuration of the control device and its peripheral
  • FIG. 9 is a diagram illustrating an example of a second image on the display unit
  • FIG. 10 is a diagram illustrating an example of a second image on the display unit
  • FIG. 11 is a diagram illustrating an example of a second image on the display unit
  • FIG. 12 is a diagram illustrating an example of a second image on the display unit
  • FIG. 13 is a diagram illustrating an example of a second image on the display unit
  • FIG. 14 is a diagram illustrating an example of a second image on the display unit
  • FIG. 15 is a diagram illustrating an example of a second image on the display unit
  • FIG. 16 is a diagram illustrating an example of a second image on the display unit;
  • FIG. 1 is a diagram showing a schematic configuration of the robot system 100.
  • FIG. FIG. 2 is a plan view showing a bucket B in which objects W are randomly placed.
  • the robot system 100 includes a control device 1, an imaging device 2, a robot control device 3, and a robot 4.
  • the control device 1 is an example of a teacher data generation device.
  • the imaging device 2 captures an image of an object W randomly placed in a bucket B
  • the control device 1 detects the object W from the image captured by the imaging device 2 .
  • the robot control device 3 causes the robot 4 to grip the object W in the bucket B detected by the control device 1 and transport it to a predetermined location.
  • object W is a glass bottle.
  • the robot 4 has a base 41 and a robot arm 42 rotatably connected to the base 41 .
  • the robot arm 42 is a vertically articulated arm that grips the object W, for example.
  • the robot arm 42 is provided with a hand 43 for gripping the object W. As shown in FIG.
  • the robot control device 3 controls the robot 4.
  • the robot control device 3 controls various operations of the robot arm 42 including the hand 43 .
  • the control device 1 and the robot control device 3 can communicate with each other by wire or wirelessly.
  • the robot control device 3 determines the position of the object W within the bucket B based on the object W detection signal output from the control device 1 .
  • the robot control device 3 controls the robot arm 42 according to the obtained position of the object W to cause the robot arm 42 to grip the object W.
  • the imaging device 2 is provided above the bucket B, for example.
  • the imaging device 2 can communicate with the control device 1 by wire or wirelessly.
  • the imaging device 2 photographs the bucket B, that is, the object W in the bucket B, and outputs the photographed image to the control device 1 .
  • the imaging device 2 is, for example, a camera. Note that the imaging device 2 may be able to communicate with the robot control device 3 in addition to the control device 1 by wire or wirelessly.
  • the control device 1 detects one or more objects W from the captured image output from the imaging device 2 . More specifically, the control device 1 detects one or more objects W and predetermined information about the objects W from the captured image. The control device 1 outputs predetermined information about the detected object W to the robot control device 3 . The robot control device 3 causes the robot arm 42 to grip the target object W in the bucket B based on the predetermined information about the object W from the control device 1 .
  • the predetermined information of the object W is the position information of the object W and the attribute information of the object W within the image.
  • the control device 1 detects predetermined information about the object W from the image captured by the imaging device 2 using a detection model that has been learned through machine learning.
  • the control device 1 also has a function of generating teacher data for the detection model to learn. Specifically, the control device 1 labels the first image in which the object W is captured, and generates teacher data for the pre-learning detection model to learn. Predetermined information of the object W is detected in the image by the detection model learned using the first image. At this time, if there is an object W whose detection by the detection model fails, the image at that time is accumulated as the second image. The control device 1 then labels the accumulated second images and generates teacher data for re-learning the learned detection model, that is, for updating the learned detection model.
  • Labels are also called correct data or tags.
  • the label indicates predetermined information about the object W.
  • the label is the position of the object W within the image and the attribute of the object W.
  • the attribute of object W is its color.
  • Teaching data is the data that the detection model learns.
  • Teacher data is also called learning data or training data.
  • the teacher data is data in which the first image, the second image, and the label assigned to the first image and the second image are paired.
  • the teacher data is data that associates the first image, the second image, and the labels attached to the first image and the second image.
  • teaching data means the above-described set
  • teaching data set means a set of sets.
  • the detection model is a learning model that uses machine learning.
  • the detection model receives an image showing the object W and outputs predetermined information about the object W.
  • FIG. Various known techniques can be used for machine learning itself, such as neural networks, reinforcement learning, and deep learning.
  • Machine learning may be supervised learning or semi-supervised learning.
  • FIG. 3 is a block diagram showing a schematic configuration of the control device 1 and its peripherals.
  • the control device 1 includes an input section 11 , a storage section 12 , a display section 13 and a processing section 14 .
  • the input unit 11 accepts input operations from the user.
  • the input unit 11 outputs an input signal to the processing unit 14 according to the input operation.
  • the input unit 11 is, for example, a touch panel, a pointing device such as a mouse, or a keyboard.
  • the storage unit 12 is a computer-readable storage medium that stores various programs and various data.
  • the storage unit 12 is formed of a magnetic disk such as a hard disk, an optical disk such as a CD-ROM and a DVD, or a semiconductor memory.
  • the storage unit 12 stores the first image Da, the second image Db, the teacher data set DS, the generation program PG, and the like.
  • the first image Da is an image in which the object W is shown.
  • the first image Da is an image for making the pre-learning detection model learn, and is a photographed image of the object W in the bucket B photographed by the imaging device 2 .
  • the second image Db is an image that has been detected by the learned detection model and in which at least one object W has failed to be detected.
  • the learned detection model is, for example, a detection model that has learned teacher data generated by the generation unit 143, which will be described later, based on the first image Da.
  • the image to be detected by the detection model is the photographed image of the object W in the bucket B photographed by the imaging device 2, but is an image different from the first image Da.
  • the teacher data set DS includes teacher data generated by the generator 143 .
  • an object W that has failed to be detected by the detection model is referred to as an "unsuccessful detection object W”.
  • the detection model was able to appropriately detect the predetermined information of the object W.
  • the storage unit 12 stores the second image Db in association with the detection result of the detection model.
  • the detection result by the detection model is predetermined information about the object W that is appropriately detected by the detection model, that is, predetermined information about the object W that has been successfully detected.
  • the generation program PG is an example of a training data generation program.
  • the generating program PG is a program for causing the computer, that is, the processing unit 14, to implement various functions for generating teacher data.
  • the generation program PG is read and executed by the processing unit 14 .
  • the display unit 13 displays the first image Da and the second image Db.
  • the display unit 13 displays a GUI (Graphical User Interface) screen, and displays the first image Da and the second image Db on the GUI screen.
  • the display unit 13 is, for example, a liquid crystal display or an organic EL display.
  • FIG. 4 is a functional block diagram of the processing unit 14 of the control device 1.
  • the processing unit 14 includes various processors such as CPU (Central Processing Unit), GPU (Graphics Processing Unit) and/or DSP (Digital Signal Processor), RAM (Random Access Memory) and/or ROM (Read Only Memory), etc. It has various semiconductor memories.
  • the processing unit 14 reads the generation program PG and the like from the storage unit 12 and executes them.
  • the processing unit 14 has a display control unit 141, a labeling unit 142, a generation unit 143, a learning unit 144, and a detection unit 145 as functional blocks.
  • the display control unit 141 acquires the first image Da and the second image Db. Specifically, the display control unit 141 acquires the first image Da by reading the first image Da from the storage unit 12 . Also, the display control unit 141 acquires the second image Db by reading the second image Db from the storage unit 12 . The display control unit 141 causes the display unit 13 to display the first image Da and the second image Db acquired from the storage unit 12 .
  • the display control unit 141 causes the display unit 13 to enlarge and display an image selected by the user's input operation from the plurality of first images Da and second images Db displayed on the display unit 13 .
  • the label assigning unit 142 assigns a label indicating predetermined information of the object W, that is, a label indicating the position information and attribute information of the object W, to the object W included in the first image Da, according to the user's input operation. . That is, the label assigning unit 142 performs annotation by assigning a label to the first image Da.
  • the generation unit 143 generates a set of the first image Da and the label given to the first image Da as teacher data.
  • teacher data that associates the first image Da with the label given to the first image Da is generated.
  • the teacher data thus generated are stored in the storage unit 12 as a teacher data set DS.
  • the learning unit 144 generates a detection model. Specifically, the learning unit 144 reads the teacher data from the storage unit 12 and generates a learned detection model by performing machine learning on the teacher data.
  • the learned detection model detects predetermined information of the object W included in the image. More specifically, the detection model outputs predetermined information of the object W, ie, the position of the object W and the attributes of the object W (color in this example), when an image showing the object W is input.
  • the learned detection model generated by the learning unit 144 is stored in the storage unit 12, for example.
  • the detection unit 145 uses a learned detection model to detect the object W in the image, and further detects the position and color of the object W. Specifically, the detection unit 145 outputs the position and color of the object W by inputting an image to the detection model read from the storage unit 12 . That is, the detection unit 145 performs detection processing based on the detection model.
  • the detection unit 145 stores in the storage unit 12 the image in which the detected object W is present, that is, the second image Db. That is, the detection unit 145 stores the second image Db in the storage unit 12 after performing the detection process. At this time, the detection unit 145 causes the storage unit 12 to store the second image Db in association with the detection result of the detection model. Note that the detection unit 145 may store in the storage unit 12 not only the second image Db but also an image in which there is no object W for which detection has failed.
  • the label assigning unit 142 assigns a label indicating predetermined information to the unsuccessfully detected object W according to the user's input operation, while the label indicating the predetermined information for the successfully detected object W is based on the detection model. Substitute the detection result. For objects W that have been successfully detected, the positions and colors of the objects W are appropriately detected. Therefore, by using the successful detection result as a label, the process of assigning a label according to the user's input operation is omitted. That is, the labeling process for the second image Db is performed not for all the objects W captured in the second image Db, but only for the objects W for which detection has failed. In this example, the unsuccessfully detected object W is an undetected object W or an erroneously detected object W. FIG.
  • the generating unit 143 generates a set of the second image Db, the label attached to the unsuccessfully detected object W, and the detection result of the successfully detected object W as teacher data. In this way, the generation unit 144 generates teacher data for re-learning a detection model that has already been trained.
  • the labeling unit 142 attaches a mark indicating the predetermined information to the object W included in the first image Da and the second image Db displayed on the display unit 13 by the user's input operation. , to give a label.
  • a mark is added to the detection-failed object W included in the second image Db by the user's input operation.
  • the label assigning unit 142 assigns the position of the mark as the position of the object W by attaching a mark to the object W according to the user's input operation.
  • the position of the mark is set as a position where the robot arm 42 performs a predetermined process on the object W based on the position of the mark.
  • the position of the mark is set as the position at which the robot arm 42 grips the object W.
  • the predetermined process performed on the object W by the robot arm 42 is the process of gripping the object W.
  • the labeling unit 142 gives attribute information of the object W by attaching a mark of a color distinguished according to the attribute information of the object W to the object W.
  • the labeling unit 142 gives bottle color information by attaching a color mark to the bottle that is distinguished according to the color of the bottle.
  • the display control unit 141 puts a mark indicating the detection result by the detection model on the successfully detected object W included in the second image Db. That is, the display control unit 141 attaches a mark similar to the labeling process performed by the labeling unit 142, that is, a mark indicating the predetermined information of the successfully detected object W in the second image Db. Therefore, the labeling process can be substituted by the detection result of the detection model associated with the second image Db.
  • the generation unit 143 labels the first image Da and generates teacher data for making the pre-learning detection model learn.
  • this process of generating teacher data will be referred to as a first generation process.
  • the learning unit 144 generates a detection model through machine learning using the teacher data generated in the first generation process.
  • the detection unit 145 performs detection processing on the image output from the imaging device 2 using the detection model, and stores the second image Db subjected to the detection processing in association with the detection result of the detection model. Stored in section 12 .
  • the generation unit 143 labels the second image Db and generates teacher data for updating the learned detection model for re-learning the learned detection model.
  • this teaching data generation process is referred to as a second generation process.
  • the learning unit 144 updates the detection model using the teacher data generated in the second generation process.
  • FIG. 5 is a flow chart showing generation processing of the training data generation device. This flowchart is common to the first generation process and the second generation process.
  • FIG. 6 is a diagram showing an example of a state in which the first image Da is selected on the display section 13.
  • the first image Da is obtained.
  • the display control unit 141 reads out the first image Da from the storage unit 12 .
  • the number of first images Da to be read can be set.
  • a plurality of first images Da acquired by the display control unit 141 are displayed as a thumbnail list 131 on the display unit 13 .
  • the display control unit 141 causes the display unit 13 to display the GUI screen.
  • the first image Da is selected from the thumbnail list 131.
  • the user selects the first image Da to be labeled from the thumbnail list 131 .
  • the user selects the target first image Da with the pointer P of the mouse.
  • the first image Da at the top of the image list is selected with the pointer P (see FIG. 6).
  • the display control unit 141 enlarges and displays the first image Da selected by the user in the center of the display unit 13 .
  • hatched bottles indicate brown bottles or fragments.
  • FIG. 7 is a diagram showing an example of how the display unit 13 marks the object W in the first image Da.
  • the labeling unit 142 labels the enlarged first image Da.
  • the user performs an input operation to designate each object W (bottle) in the first image Da with the pointer P, thereby labeling the object W.
  • a mark M is attached to the designated position.
  • a position that is considered to be easily gripped by the robot arm 42 is visually designated.
  • a label indicating the position of the object W is added to the first image Da.
  • the mark M is color-coded according to the color of the object W.
  • the mark M is color-coded according to whether the bottle is brown or transparent.
  • the marks M are color-coded according to the state of the object W as well. That is, the mark M is color-coded according to whether it is a fragment of a bottle or not. Designation of the color of the mark M is performed by the user designating the color and state (that is, whether it is a fragment or not) with the pointer P in the class designating section 132 .
  • a label indicating the color and state of the object W is assigned to the first image Da. 7 and subsequent drawings, for convenience of explanation, the shape of the mark M is changed according to the color and state of the object W. As shown in FIG.
  • FIG. 8 is a diagram showing an example of a state in which all the objects W in the first image Da are marked on the display unit 13. As shown in FIG. As shown in FIG. 8, when all the objects W in the first image Da have been marked M, the labeling of the first image Da ends. That is, the user presses the save button 139 on the display unit 13 with the pointer P. FIG. Thereby, the position information and class information of all the objects W in the first image Da are determined.
  • step S4 teacher data is generated. That is, the generation unit 143 generates a set of the first image Da and the label assigned to the first image Da as teacher data. For example, when a plurality of objects W are included in the first image Da, a set of one first image Da and a plurality of labels is generated as teacher data.
  • step S ⁇ b>5 the generation unit 143 stores the generated teacher data in the storage unit 12 .
  • the first generation processing of teacher data ends. The processing from step S ⁇ b>1 to step S ⁇ b>5 described above is performed for each first image Da in the thumbnail list 131 .
  • the learning unit 144 uses the teacher data thus generated to generate a learned detection model. Then, for example, when the robot system 100 is operated, the detection unit 145 performs detection processing on images captured by the imaging device 2 using the learned detection model. At that time, the second image Db is accumulated in the storage unit 12 in association with the detection result by the detection model.
  • FIG. 9 to 15 are diagrams showing examples of the second image Db on the display section 13.
  • FIG. 9 to 15 only the second image Db displayed on the GUI screen of the display unit 13 is shown.
  • step S1 the display control unit 141 acquires the second image Db. Specifically, the display control unit 141 reads out the second image Db from the storage unit 12 . At this time, the number of second images Db to be read can be set. A plurality of acquired second images Db are displayed as a thumbnail list 131 on the display unit 13 in the same manner as the first image Da. Also in this second generation process, the GUI screen is displayed on the display unit 13 as in the first generation process.
  • the second image Db is enlarged and displayed.
  • the user selects the target second image Db from the thumbnail list 131 .
  • the display control unit 141 enlarges and displays the selected second image Db in the center of the display unit 13 .
  • the display control unit 141 attaches a mark M indicating the detection result by the detection model associated with the selected second image Db to the successfully detected object W in the second image Db.
  • step S3 labels can be assigned.
  • the second image Db selected in step S2 is the image shown in FIG. 9 will be described.
  • the second image Db of FIG. 9 is an image in which an undetected object Wa (that is, an unsuccessfully detected object W) that has not been detected by the detection processing by the detection unit 145 exists. It is assumed that there is no erroneously detected object. That is, the detected object W (that is, the successfully detected object W) is marked M by the display control unit 141, and the undetected object Wa is not marked.
  • the user assigns a label by attaching a mark M only to the undetected object Wa.
  • a mark M is attached to a predetermined position on the object Wa, and the color of the mark M is designated according to the color and state of the object Wa, as in the labeling in the above-described generation operation.
  • the labeling process is omitted by using the mark M attached to the object W (that is, the detection result). Therefore, the time required for the labeling process is shortened.
  • step S3 ends.
  • the attribute of the undetected object Wa is a new attribute
  • the user presses the add class button 133 displayed on the display unit 13 with the pointer P to add new attribute information in the class specifying unit 132. .
  • the second image Db selected in step S2 is the image shown in FIG. 12
  • the second image Db in FIG. 12 is an image in which an object Wb erroneously detected by the detection processing by the detection unit 145 (that is, an object W for which detection has failed) is present. It is assumed that there are no undetected objects.
  • the class information (specifically, color information) of object Wb is erroneously detected.
  • the user designates the erroneous mark M attached to the erroneously detected object Wb with the pointer P and presses the class change button 135 displayed on the display unit 13 .
  • the class change button 135 After the user presses the class change button 135, the wrong color of the mark M is changed by specifying the correct color in the class specifying section 132 (see FIG. 13).
  • step S3 ends.
  • the labeling process is omitted by using the mark M (that is, the detection result) attached to the object W. .
  • the second image Db selected in step S2 is the image shown in FIG. 14
  • the second image Db in FIG. 14 is an image in which an object Wc erroneously detected by the detection processing by the detection unit 145 (that is, an object W for which detection has failed) is present. It is assumed that there are no undetected objects.
  • the position information of object Wc is erroneously detected. That is, the position of the mark M attached to the object Wc is greatly deviated from the predetermined position.
  • the user designates the mark M attached to the erroneously detected object Wc with the pointer P and moves it to a predetermined position (see FIG. 15).
  • the mark M attached to the erroneously detected object Wc is changed to the correct position, and step S3 ends.
  • the labeling process is omitted by using the mark M (that is, the detection result) attached to the object W. .
  • the second image Db selected in step S2 is the image shown in FIG. 16
  • the second image Db of FIG. 16 is an image in which the mark Ma is attached to the position where the object W does not exist by the detection processing by the detection unit 145 .
  • a mark Ma is attached to the wall of the bucket B.
  • the user designates the mark Ma with the pointer P and presses the delete button 134 on the display section 13 .
  • the mark Ma is deleted from the second image Db, and step S3 ends.
  • the labeling process is omitted by using the mark M (that is, the detection result) attached to the object W. .
  • step S4 teacher data is generated. That is, the generation unit 143 generates a set of the second image Db, the label given to the object W for which detection failed, and the detection result of the object W for which detection was successful, as teacher data.
  • the teacher data is generated based on the second image Db, the time required to generate the teacher data is shortened because the time required for labeling the second image Db is shortened as described above.
  • step S ⁇ b>5 the generation unit 143 stores the generated teacher data in the storage unit 12 .
  • the second generation processing ends. The processing from step S ⁇ b>1 to step S ⁇ b>5 described above is performed for each second image Db in the thumbnail list 131 .
  • control device 1 generates teacher data for re-learning the learned detection model for detecting the object W and the predetermined information of the object W included in the image.
  • the control device 1 (teaching data generation device) includes a label assigning unit 142 that assigns a label indicating predetermined information to an object W included in an image in accordance with a user's input operation, an image and a label attached to the image. and the second image Db, which is an image detected by the detection model and fails to detect at least one object W, with the detection result of the detection model. and a storage unit 12 for storing the data.
  • the label assigning unit 142 assigns a label indicating predetermined information to the unsuccessfully detected object W according to the user's input operation, while the label assigning unit 142 assigns predetermined information to the successfully detected object W.
  • the label shown is substituted with the detection result by the detection model.
  • the generation unit 143 generates a set of the second image Db in the storage unit 12, the label attached to the object W of detection failure, and the detection result of the object W of detection success as teacher data.
  • the generating program PG (teacher data generating program) causes the computer to realize a function of generating teacher data for re-learning the learned detection model for detecting the object W included in the image and the predetermined information of the object W.
  • the generation program PG generates a function of giving a label indicating predetermined information to an object W included in an image in accordance with a user's input operation, and a set of the image and the label given to the image as training data.
  • the predetermined information is appropriately detected for the successfully detected object W. Therefore, the label assignment process is substituted by using the successful detection result. That is, the labeling process for the second image Db is performed not for all the objects W but only for the objects W for which detection has failed. This omits the labeling process for the successfully detected object W, thereby reducing the labeling process for the second image Db. Therefore, the time required for labeling the second image Db can be shortened. Then, the generation unit 143 generates a set of the second image Db, the label given to the object W for which detection failed, and the detection result of the object W for which detection was successful, as teacher data. In this way, when the teacher data is generated based on the second image Db, the time required for labeling the second image Db is shortened. Therefore, it is possible to reduce the time required to generate teacher data for re-learning a detection model that has already been trained.
  • control device 1 further includes a display section 13 that displays the second image Db.
  • the label assigning unit 142 attaches a mark indicating predetermined information to the unsuccessfully detected object W included in the second image Db displayed on the display unit 13 by the user's input operation, thereby assigning a label.
  • the labeling process can be performed while visually recognizing the object. Further, by changing the shape and color of the mark M, identification of the label corresponding to the object W becomes easy. For these reasons, the easiness of the labeling process is improved.
  • control device 1 further includes a display control section 141 that causes the display section 13 to display the second image Db in the storage section 12 .
  • the display control unit 141 puts a mark indicating the detection result on the successfully detected object W included in the second image Db in the storage unit 12 .
  • the successfully detected object W in the second image Db is marked with the mark M indicating the detection result, which makes the detection result easier to use. Therefore, the detection result can be easily substituted for the labeling process, and the labeling process can be easily omitted.
  • the predetermined information of the object W is the position information of the object W.
  • the label assigning unit 142 assigns a label using the position of the mark M attached to the object W by the user's input operation as the position information of the object.
  • a label indicating the position information of the object W is attached by attaching the mark M attached to the displayed object W, so the labeling process is facilitated.
  • the position of the mark M is set as a position where the robot arm 42 performs a predetermined process on the object W based on the position of the mark M.
  • the position of the mark M is set as the position at which the robot arm 42 grips the object W.
  • the predetermined information of the object W is the attribute information of the object W.
  • the label assigning unit 142 assigns the attribute information of the object W by attaching to the object W a mark M of a color distinguished according to the attribute information of the object W.
  • the color of the mark M is distinguished according to the attribute information of the object W, so the visibility of the attribute information of each object W is enhanced. Therefore, the easiness of the labeling process is improved.
  • the object W for which detection has failed is an undetected object W or an erroneously detected object W.
  • non-detection and erroneous detection are typical modes of detection failure, so the process of labeling the second image Db can be effectively reduced.
  • the shape of the mark M may be changed instead of the color.
  • the detection failure object W may target only the undetected object W, or may target only the erroneously detected object W.
  • the predetermined information of the object W may be either the position information or the attribute information of the object W.
  • the attribute information of the object W is not limited to the color of the object W, and may be the shape and size of the object W.
  • control device 1 that is, the teacher data generation device
  • the control device 1 has not only the function of generating teacher data, but also the learning function by the learning unit 144 and the detection function by the detection unit 145. is not limited to this, and at least one of the learning unit 144 and the detection unit 145 may be provided independently.
  • the training data generation device may be a device that omits both the learning unit 144 and the detection unit 145, or may be a device that omits the learning unit 144 or the detection unit 145.
  • control device 1 may be a device that omits the first generation processing of the training data generation processing, that is, a device that performs only the second generation processing.
  • control device 1 may purchase and install a learned detection model from the outside.
  • the predetermined processing performed on the object W by the robot arm 42 may be painting, welding, screw tightening, or the like on the object W, in addition to gripping the object W.
  • ASICs Application Specific Integrated Circuits
  • a circuit or processing circuit that includes a combination of A processor is considered a processing circuit or circuit because it includes transistors and other circuits.
  • a circuit, unit, or means is hardware that performs or is programmed to perform the recited functions.
  • the hardware may be the hardware disclosed herein, or other known hardware programmed or configured to perform the recited functions.
  • a circuit, means or unit is a combination of hardware and software where the hardware is a processor which is considered a type of circuit, the software being used to configure the hardware and/or the processor.
  • the control device 1 (teaching data generating device) generates teaching data for re-learning a learned detection model for detecting an object W included in an image and predetermined information of the object W.
  • the control device 1 includes a label assigning unit 142 that assigns a label indicating the predetermined information to the object W included in the image according to a user's input operation, and a label assigning unit 142 that attaches the label to the image and the label attached to the image.
  • a generation unit 143 that generates a set as teacher data, and a second image Db (image), which is an image detected by the detection model and in which the detection of at least one object W fails, is detected by the detection model.
  • the labeling unit 142 assigns the label indicating the predetermined information to the detection-failed object W in the second image Db of the storage unit 12 by the user inputting the label indicating the predetermined information. While attached according to the operation, the detection result is substituted for the label indicating the predetermined information of the successfully detected object W, and the generating unit 143 stores the second image Db in the storage unit 12 and the and the detection result of the successfully detected object W are generated as teacher data.
  • the predetermined information is appropriately detected for the successfully detected object W. Therefore, the label assignment process is substituted by using the successful detection result. This omits the labeling process for the successfully detected object W, thereby reducing the labeling process for the second image Db. Therefore, the time required for labeling the second image Db can be shortened. Therefore, it is possible to reduce the time required to generate teacher data for re-learning a detection model that has already been trained.
  • the control device 1 described in [1] further includes a display unit 13 that displays the second image Db of the storage unit 12, and the labeling unit 142 is displayed on the display unit 13.
  • the mark M indicating the predetermined information is attached to the unsuccessfully detected object W included in the second image Db of the storage unit 12 by the user's input operation, thereby giving the label.
  • the labeling process can be performed while visually recognizing the object. Further, by changing the shape and color of the mark M, identification of the label corresponding to the object W becomes easy. For these reasons, the easiness of the labeling process is improved.
  • the control device 1 described in [1] or [2] further includes a display control unit 141 for displaying the second image Db of the storage unit 12 on the display unit 13, and the display control unit 141, when displaying the second image Db of the storage unit 12 on the display unit 13, displays the mark indicating the detection result on the successfully detected object W included in the second image Db of the storage unit 12; attached.
  • the successfully detected object W in the second image Db is marked with the mark M indicating the detection result, which makes the detection result easier to use. Therefore, the detection result can be easily substituted for the labeling process, and the labeling process can be easily omitted.
  • the predetermined information is position information of the object W in the second image Db of the storage unit 12, and the labeling
  • the unit 142 assigns the label by using the position of the mark attached to the object W by the user's input operation as the position information of the object W.
  • a label indicating the position information of the object W is attached by attaching the mark M attached to the displayed object W. Therefore, the labeling process is facilitated.
  • the position of the mark is determined by the robot arm 42 with respect to the object W, based on the position of the mark. is set as the position to perform
  • the position of the mark is set as the position where the robot arm 42 grips the object W.
  • control device 1 described in any one of [1] to [6] can communicate with the robot control device 3 that controls the robot arm 42 .
  • the robot control device 3 can cause the robot arm 42 to perform a predetermined process on the object W based on the position of the mark M output from the control device 1.
  • the predetermined information is attribute information of the object W
  • the labeling unit 142 determines the attribute information of the object W.
  • the color of the mark M is distinguished according to the attribute information of the object W, so the visibility of the attribute information of each object W is enhanced. Therefore, the easiness of the labeling process is improved.
  • the detection failure object W is an undetected object W or an erroneously detected object W.
  • non-detection and erroneous detection are typical modes of detection failure, so the process of labeling the second image Db can be effectively reduced.
  • the generation program PG (teacher data generation program) causes the computer to implement the function of generating teacher data for re-learning the learned detection model that detects the object W included in the image and the predetermined information of the object W. .
  • the generating program PG has a function of assigning a label indicating the predetermined information to an object W included in an image in accordance with a user's input operation, and a function of teaching a set of the image and the label assigned to the image.
  • a function to generate data, and a second image Db (image), which is an image detected by the detection model and in which the detection fails for at least one object W, is associated with the detection result by the detection model.
  • a function of storing, in the stored image, giving the label indicating the predetermined information to the unsuccessfully detected object W according to a user's input operation, and the label indicating the predetermined information of the successfully detected object W; is a function of substituting the detection result, and a function of generating a set of the stored image, the label attached to the unsuccessfully detected object W, and the detection result of the successfully detected object W as training data. to be realized by a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

制御装置1は、画像に含まれる物体に対して、所定情報を示すラベルをユーザの入力操作に応じて付与するラベル付与部142と、画像と画像に付与されたラベルとの組を教師データとして生成する生成部143と、検出モデルによる検出が行われた画像であって物体について検出が失敗した第2画像Dbを、検出モデルによる検出結果と紐づけて記憶する記憶部12とを備える。ラベル付与部142は、第2画像Dbにおいて、検出失敗の物体に所定情報を示すラベルをユーザの入力操作に応じて付与する一方、検出成功の物体の所定情報を示すラベルは前記検出結果をもって代用し、生成部143は、第2画像Dbと、検出失敗の物体に付されたラベルおよび検出成功の物体の検出結果との組を教師データとして生成する。

Description

教師データ生成装置および教師データ生成プログラム
 ここに開示された技術は、教師データ生成装置および教師データ生成プログラムに関する。
 従来より、機械学習に用いられる教師データを生成する装置が知られている。例えば、特許文献1に開示されている装置では、検出される物体が写っている大量の画像に対して、ラベル付け、即ちアノテーション処理が行われる。そして、画像とラベルとが関連付けられてなる教師データが生成される。その教師データを用いた教師あり機械学習により、学習モデルが生成される。
特開2020-197978号公報
 ところで、生成した学習モデルを用いて、画像に対して物体の検出処理を行った際、例えば未検出の物体があった場合は、学習モデルを再学習させて更新する必要がある。そのため、未検出の物体があった画像に対してラベルを付与して、新たな教師データを生成する必要がある。しかしながら、学習モデルを搭載した装置の稼働後に学習モデルの更新を行う場合、稼働を停止させる必要があるため、新たな教師データの生成に要する時間は短いほうが望ましい。
 ここに開示された技術は、かかる点に鑑みてなされたものであり、その目的は、学習済みの検出モデルに再学習させる教師データの生成に要する時間を短縮することにある。
 ここに開示された技術は、画像に含まれる物体および前記物体の所定情報を検出する学習済みの検出モデルに再学習させる教師データを生成する教師データ生成装置である。前記教師データ生成装置は、画像に含まれる物体に対して、前記所定情報を示すラベルをユーザの入力操作に応じて付与するラベル付与部と、前記画像と前記画像に付与された前記ラベルとの組を教師データとして生成する生成部と、前記検出モデルによる検出が行われた画像であって少なくとも1つの物体について前記検出が失敗した画像を、前記検出モデルによる検出結果と紐づけて記憶する記憶部とを備えている。そして、前記ラベル付与部は、前記記憶部の前記画像において、検出失敗の物体に前記所定情報を示す前記ラベルをユーザの入力操作に応じて付与する一方、検出成功の物体の前記所定情報を示す前記ラベルは前記検出結果をもって代用する。前記生成部は、前記記憶部の前記画像と、前記検出失敗の物体に付された前記ラベルおよび前記検出成功の物体の前記検出結果との組を教師データとして生成する。
 また、ここに開示された別の技術は、画像に含まれる物体および前記物体の所定情報を検出する学習済みの検出モデルに再学習させる教師データを生成する機能をコンピュータに実現させる教師データ生成プログラムである。前記教師データ生成プログラムは、画像に含まれる物体に対して、前記所定情報を示すラベルをユーザの入力操作に応じて付与する機能と、前記画像と前記画像に付与された前記ラベルとの組を教師データとして生成する機能と、前記検出モデルによる検出が行われた画像であって少なくとも1つの物体について前記検出が失敗した画像を、前記検出モデルによる検出結果と紐づけて記憶する機能と、前記記憶部の前記画像において、検出失敗の物体に前記所定情報を示す前記ラベルをユーザの入力操作に応じて付与する一方、検出成功の物体の前記所定情報を示す前記ラベルは前記検出結果をもって代用する機能と、前記記憶部の前記画像と、前記検出失敗の物体に付された前記ラベルおよび前記検出成功の物体の前記検出結果との組を教師データとして生成する機能とをコンピュータに実現させる。
 前記の教師データ生成装置によれば、学習済みの検出モデルに再学習させる教師データの生成に要する時間を短縮することができる。
 前記の教師データ生成プログラムによれば、学習済みの検出モデルに再学習させる教師データの生成に要する時間を短縮することができる。
図1は、ロボットシステムの概略構成を示す図である。 図2は、物体がバラ置きされたバケットを示す平面図である。 図3は、制御装置およびその周辺機器の概略構成を示すブロック図である。 図4は、制御装置の処理部の機能ブロック図である。 図5は、制御装置の処理部の生成処理を示すフローチャートである。 図6は、表示部において第1画像が選択された状態の一例を示す図である。 図7は、表示部において第1画像の物体にマークを付す様子の一例を示す図である。 図8は、表示部において第1画像の全ての物体にマークが付与された状態の一例を示す図である。 図9は、表示部における第2画像の一例を示す図である。 図10は、表示部における第2画像の一例を示す図である。 図11は、表示部における第2画像の一例を示す図である。 図12は、表示部における第2画像の一例を示す図である。 図13は、表示部における第2画像の一例を示す図である。 図14は、表示部における第2画像の一例を示す図である。 図15は、表示部における第2画像の一例を示す図である。 図16は、表示部における第2画像の一例を示す図である。
 以下、例示的な実施形態を図面に基づいて詳細に説明する。
 図1は、ロボットシステム100の概略構成を示す図である。図2は、物体Wがバラ置きされたバケットBを示す平面図である。
 ロボットシステム100は、制御装置1と、撮像装置2と、ロボット制御装置3と、ロボット4とを備えている。制御装置1は、教師データ生成装置の一例である。ロボットシステム100では、例えばバケットBにバラ置きされている物体Wを撮像装置2が撮影し、制御装置1が撮像装置2による撮影画像から物体Wを検出する。ロボット制御装置3は、制御装置1が検出したバケットB内の物体Wをロボット4に把持させて所定の場所に搬送させる。この例では、物体Wは、ガラス製の瓶である。
 ロボット4は、ベース41と、ベース41に回転自在に連結されるロボットアーム42とを有している。ロボットアーム42は、物体Wを把持する、例えば垂直多関節式のアームである。具体的に、ロボットアーム42には、物体Wを把持するためのハンド43が設けられている。
 ロボット制御装置3は、ロボット4を制御する。ロボット制御装置3は、ハンド43を含むロボットアーム42の各種動作を制御する。制御装置1およびロボット制御装置3は、有線または無線により互いに通信可能である。ロボット制御装置3は、制御装置1から出力された物体Wの検出信号に基づいて、バケットB内における物体Wの位置を求める。ロボット制御装置3は、求めた物体Wの位置に応じて、ロボットアーム42を制御してロボットアーム42に物体Wを把持させる。
 撮像装置2は、例えばバケットBの上方に設けられている。撮像装置2は、制御装置1と有線または無線により通信可能である。撮像装置2は、バケットB、即ちバケットB内の物体Wを撮影し、その撮影画像を制御装置1へ出力する。撮像装置2は、例えばカメラである。なお、撮像装置2は、制御装置1に加えロボット制御装置3と有線または無線により通信可能であってもよい。
 制御装置1は、撮像装置2から出力された撮影画像から、1つまたは複数の物体Wを検出する。より詳しくは、制御装置1は、撮影画像から、1つまたは複数の物体Wおよびその物体Wの所定情報を検出する。制御装置1は、検出した物体Wの所定情報をロボット制御装置3へ出力する。ロボット制御装置3は、制御装置1からの物体Wの所定情報に基づいて、バケットB内の対象となる物体Wをロボットアーム42に把持させる。この例では、物体Wの所定情報は、画像内における物体Wの位置情報および物体Wの属性情報である。
 制御装置1は、機械学習により学習済みの検出モデルを用いて、撮像装置2による撮影画像から物体Wの所定情報を検出する。また、制御装置1は、検出モデルに学習させる教師データを生成する機能も有している。具体的に、制御装置1は、物体Wが写っている第1画像にラベルを付与して、学習前の検出モデルに学習させる教師データを生成する。こうして第1画像を用いて学習させた検出モデルによって、画像において物体Wの所定情報の検出が行われる。このとき、検出モデルによる検出が失敗した物体Wがあった場合、その時の画像が第2画像として蓄積される。そして、制御装置1は、蓄積された第2画像にラベルを付与して、学習済みの検出モデルに再学習させるため、即ち学習済みの検出モデルを更新するための教師データを生成する。
 ラベルは、正解データまたはタグとも称される。この例では、ラベルは、物体Wの所定情報を示すものである。つまり、ラベルは、画像内における物体Wの位置、物体Wの属性である。この例では、物体Wの属性は、物体Wの色である。
 教師データは、検出モデルに学習させるデータである。教師データは、学習データまたは訓練データとも称される。この例では、教師データは、第1画像および第2画像と、第1画像および第2画像に付与されたラベルとが組になったデータである。言い換えれば、教師データは、第1画像および第2画像と、第1画像および第2画像に付されたラベルとを関連付けたデータである。
 なお、機械学習では、複数の教師データを利用して学習が行われる。この例では、複数の教師データの集まりを教師データセットと称し、教師データセットに含まれる個々のデータを教師データと称する。即ち、教師データと称する場合は、前述した組を意味し、教師データセットと称する場合は、組の集まりを意味する。
 検出モデルは、機械学習を利用した学習モデルである。この例では、検出モデルは、物体Wが写っている画像を入力とし、物体Wの所定情報を出力する。機械学習自体は、公知の種々の手法が利用可能であり、例えば、ニューラルネットワーク、強化学習または深層学習といった手法を利用可能である。機械学習は、教師あり学習が用いられてもよいし、半教師あり学習が用いられてもよい。
 図3は、制御装置1およびその周辺機器の概略構成を示すブロック図である。制御装置1は、入力部11と、記憶部12と、表示部13と、処理部14とを備えている。
 入力部11は、ユーザからの入力操作を受け付ける。入力部11は、入力操作に応じた入力信号を処理部14へ出力する。入力部11は、例えば、タッチパネルやマウス等のポインティングデバイス、またはキーボードである。
 記憶部12は、各種プログラム及び各種データを記憶する、コンピュータに読み取り可能な記憶媒体である。記憶部12は、ハードディスク等の磁気ディスク、CD-ROMおよびDVD等の光ディスク、または半導体メモリによって形成されている。
 具体的に、記憶部12は、第1画像Da、第2画像Db、教師データセットDS、および生成プログラムPG等を記憶する。
 第1画像Daは、物体Wが写っている画像である。第1画像Daは、学習前の検出モデルに学習させるための画像であり、撮像装置2が撮影したバケットB内の物体Wの撮影画像である。第2画像Dbは、学習済みの検出モデルによる検出が行われた画像であって少なくとも1つの物体Wについて検出が失敗した画像である。学習済みの検出モデルは、例えば、後述する生成部143が第1画像Daに基づいて生成した教師データを学習させた検出モデルである。検出モデルによる検出が行われる画像は、撮像装置2が撮影したバケットB内の物体Wの撮影画像であるが、第1画像Daとは異なる画像である。教師データセットDSには、生成部143が生成した教師データが含まれる。
 ここで、物体Wについて検出モデルによる検出が失敗したときは、検出モデルが、物体Wの所定情報を検出できなかった、あるいは物体Wの所定情報を適切に検出できなかったことを意味し、以下、検出モデによる検出が失敗した物体Wを「検出失敗の物体W」と称する。逆に、物体Wについて検出モデルによる検出が成功したときは、検出モデルが、物体Wの所定情報を適切に検出できたことを意味し、以下、検出モデによる検出が成功した物体Wを「検出成功の物体W」と称する。
 また、記憶部12は、第2画像Dbを、検出モデルによる検出結果と紐づけて記憶する。検出モデルによる検出結果とは、検出モデルが適切に検出した物体Wの所定情報、即ち、検出成功の物体Wの所定情報である。
 生成プログラムPGは、教師データ生成プログラムの一例である。生成プログラムPGは、教師データを生成する各種機能をコンピュータ、即ち、処理部14に実現させるためのプログラムである。生成プログラムPGは、処理部14によって読み出されて実行される。
 表示部13は、第1画像Daおよび第2画像Dbを表示する。この例では、表示部13は、GUI(Graphical User Interface)画面を表示し、そのGUI画面において第1画像Daや第2画像Dbを表示する。表示部13は、例えば、液晶ディスプレイまたは有機ELディスプレイである。
 図4は、制御装置1の処理部14の機能ブロック図である。処理部14は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)及び/又はDSP(Digital Signal Processor)等の各種プロセッサと、RAM(Random Access Memory)及び/又はROM(Read Only Memory)等の各種半導体メモリとを有している。処理部14は、記憶部12から生成プログラムPG等を読み出して実行する。
 具体的に、処理部14は、表示制御部141と、ラベル付与部142と、生成部143と、学習部144と、検出部145とを機能ブロックとして有している。
 表示制御部141は、第1画像Daおよび第2画像Dbを取得する。具体的に、表示制御部141は、記憶部12から第1画像Daを読み出すことで第1画像Daを取得する。また、表示制御部141は、記憶部12から第2画像Dbを読み出すことで第2画像Dbを取得する。表示制御部141は、記憶部12から取得した第1画像Daおよび第2画像Dbを、表示部13に表示させる。
 さらに、表示制御部141は、表示部13に表示されている複数の第1画像Daおよび第2画像Dbから、ユーザの入力操作によって選択された画像を、表示部13において拡大表示させる。
 ラベル付与部142は、第1画像Daに含まれる物体Wに対して、物体Wの所定情報を示すラベル、即ち物体Wの位置情報および属性情報を示すラベルをユーザの入力操作に応じて付与する。つまり、ラベル付与部142は、第1画像Daにラベルを付与するアノテーションを行う。
 生成部143は、第1画像Daと、第1画像Daに付与されたラベルとの組を教師データとして生成する。つまり、第1画像Daと、第1画像Daに付与されたラベルとを関連付けた教師データが生成される。こうして生成された教師データは、記憶部12に教師データセットDSとして格納される。
 学習部144は、検出モデルを生成する。具体的に、学習部144は、記憶部12から教師データを読み出し、その教師データを機械学習させた学習済みの検出モデルを生成する。学習済みの検出モデルは、画像に含まれる物体Wの所定情報を検出する。より詳しくは、検出モデルは、物体Wが写っている画像が入力されると、物体Wの所定情報、即ち物体Wの位置および物体Wの属性(この例では、色)を出力する。学習部144で生成された学習済みの検出モデルは、例えば、記憶部12に格納される。
 検出部145は、学習済みの検出モデルを用いて、画像の中から物体Wを検出し、さらに、物体Wの位置および色を検出する。具体的に、検出部145は、記憶部12から読み出した検出モデルに画像を入力することで、物体Wの位置および色を出力する。つまり、検出部145では、検出モデルによる検出処理が行われる。
 検出部145は、検出を行った画像であって検出失敗の物体Wがある画像、即ち第2画像Dbを記憶部12に格納する。つまり、検出部145は、検出処理を行うと、第2画像Dbを記憶部12に格納する。その際、検出部145は、第2画像Dbを、検出モデルによる検出結果と紐づけて記憶部12に記憶させる。なお、検出部145は、第2画像Dbだけでなく、検出失敗の物体Wが全くない画像も記憶部12に格納するようにしてもよい。
 ラベル付与部142は、第2画像Dbにおいて、検出失敗の物体Wに所定情報を示すラベルをユーザの入力操作に応じて付与する一方、検出成功の物体Wの所定情報を示すラベルは検出モデルによる検出結果をもって代用する。検出成功の物体Wについては、物体Wの位置および色が適切に検出されている。そのため、その成功の検出結果をラベルとして利用することで、ユーザの入力操作に応じてラベルを付与する処理が省略される。つまり、第2画像Dbに対するラベルの付与処理は、第2画像Dbに写っている全ての物体Wに関してではなく、検出失敗の物体Wに関してのみ行われる。この例では、検出失敗の物体Wは、未検出の物体Wまたは誤検出の物体Wである。
 生成部143は、第2画像Dbと、検出失敗の物体Wに付されたラベルおよび検出成功の物体Wの検出結果との組を教師データとして生成する。こうして、生成部144は、学習済みの検出モデルに再学習させる教師データを生成する。
 より詳しくは、ラベル付与部142は、表示部13に表示されている第1画像Daおよび第2画像Dbに含まれる物体Wにその所定情報を示すマークがユーザの入力操作によって付されることで、ラベルを付与する。なお、第2画像Dbに関しては、第2画像Dbに含まれる検出失敗の物体Wにユーザの入力操作によってマークが付される。具体的に、ラベル付与部142は、ユーザの入力操作に応じて物体Wにマークを付すことで、マークの位置を物体Wの位置として付与する。マークの位置は、ロボットアーム42が、物体Wに対してマークの位置に基づいて所定の処理を行う位置として設定される。具体的に、マークの位置は、ロボットアーム42が、物体Wに対して把持する位置として設定される。つまり、この例では、ロボットアーム42が物体Wに対して行う所定の処理は、物体Wを把持する処理である。また、ラベル付与部142は、物体Wの属性情報に応じて区別された色のマークを物体Wに付すことで、物体Wの属性情報を付与する。この例では、ラベル付与部142は、瓶の色に応じて区別された色のマークを瓶に付すことで、瓶の色情報を付与する。
 さらに、表示制御部141は、第2画像Dbを表示部13に表示させる際、第2画像Dbに含まれる検出成功の物体Wに検出モデルによる検出結果を示すマークを付す。つまり、表示制御部141は、ラベル付与部142によるラベルの付与処理と同様のマーク、即ち、第2画像Dbにおける検出成功の物体Wの所定情報を示すマークを付す。そのため、第2画像Dbに紐づけられた検出モデルによる検出結果をもって、ラベルの付与処理を代用することができる。
 次に、制御装置1における処理の概略について説明する。制御装置1では、生成部143が、第1画像Daにラベルを付与して、学習前の検出モデルに学習させるための教師データを生成する。以下、この教師データの生成処理を第1の生成処理と称する。続いて、学習部144は、第1の生成処理で生成した教師データを用いて機械学習させた検出モデルを生成する。次に、検出部145は、撮像装置2から出力された画像に対して検出モデルを用いて検出処理を行い、その検出処理を行った第2画像Dbを検出モデルの検出結果と紐づけて記憶部12に格納する。生成部143は、第2画像Dbにラベルを付与して、学習済みの検出モデルに再学習させるための、学習済みの検出モデルを更新するための教師データを生成する。以下、この教師データの生成処理を第2の生成処理と称する。学習部144は、第2の生成処理で生成された教師データを用いて検出モデルを更新する。
 次に、前述した教師データの第1の生成処理および第2の生成処理の詳細について、図5を参照しながら説明する。図5は、教師データ生成装置の生成処理を示すフローチャートである。このフローチャートは、第1の生成処理および第2の生成処理について共通である。
 図6は、表示部13において第1画像Daが選択された状態の一例を示す図である。まず、ステップS1において、第1画像Daが取得される。具体的に、表示制御部141は、記憶部12から第1画像Daを読み出す。このとき、読み出す第1画像Daの枚数を設定し得る。図6に示すように、表示制御部141にって取得された複数枚の第1画像Daは、表示部13にサムネイル一覧131として表示される。なお、この生成処理では、表示制御部141が、表示部13にGUI画面を表示させる。
 続くステップS2では、サムネイル一覧131から第1画像Daが選択される。具体的には、ユーザは、ラベルを付与する対象の第1画像Daをサムネイル一覧131から選択する。より詳しくは、ユーザは、マウスのポインタPで対象の第1画像Daを選択する。この例では、画像リストの最上位の第1画像DaがポインタPで選択される(図6参照)。表示制御部141、ユーザによって選択された第1画像Daを、表示部13の中央に拡大表示させる。なお、図6以降の図では、ハッチングを付した瓶が茶色の瓶または割れ片を示す。
 図7は、表示部13において第1画像Daの物体Wにマークを付す様子の一例を示す図である。続くステップS3では、ラベル付与部142が、拡大表示された第1画像Daに対してラベルを付与する。図7に示すように、ユーザは、第1画像Daにおける物体W(瓶)の一つ一つにポインタPで指定する入力操作を行うことで、物体Wにラベルが付与される。より具体的には、ユーザがポインタPで物体Wにおける所定の位置を指定すると、その指定した位置にマークMが付与される。所定の位置は、ロボットアーム42が把持し易いと思われる位置を目視で指定する。これにより、第1画像Daに対して、物体Wの位置を示すラベルが付与される。
 また、マークMは、物体Wの色に応じて色分けされている。この例では、表示部13におけるクラス指定部132に示すように、茶色の瓶か透明な瓶かでマークMが色分けされている。さらに、この例では、物体Wの状態によっても、マークMが色分けされている。つまり、瓶の割れ片か否かに応じてマークMが色分けされている。マークMの色の指定は、ユーザが、クラス指定部132においてポインタPで色および状態(即ち、割れ片か否か)を指定することで行われる。こうして、物体Wに付したマークMの色を指定することにより、第1画像Daに対して、物体Wの色および状態を示すラベルが付与される。なお、図7以降の図では、説明の便宜上、物体Wの色および状態に応じてマークMの形状を変えている。
 こうして、物体WにマークMを付すと、その物体Wの位置情報およびクラス情報(即ち、色および状態)が、表示部13における左側に、ラベル付与一覧136として表示される。ラベル付与一覧136では、マークMが付されたそれぞれの物体Wの位置情報137およびクラス情報138が表示される。図8は、表示部13において第1画像Daの全ての物体Wにマークが付与された状態の一例を示す図である。図8に示すように、第1画像Daにおいて全ての物体WにマークMを付与すると、この第1画像Daに対するラベルの付与は終了する。つまり、ユーザは、表示部13における保存ボタン139をポインタPで押す。これにより、第1画像Daにおける全ての物体Wの位置情報およびクラス情報が確定する。
 ステップS4では、教師データが生成される。つまり、生成部143が、第1画像Daと第1画像Daに付与されたラベルとの組を教師データとして生成する。例えば、第1画像Daに複数の物体Wが含まれる場合には、1つの第1画像Daと複数のラベとの組が教師データとして生成される。続くステップS5では、生成部143は、生成した教師データを、記憶部12に格納する。以上により、教師データの第1の生成処理が終了する。以上のステップS1からステップS5の処理が、サムネイル一覧131の第1画像Daごとに行われる。
 学習部144は、こうして生成された教師データを用いて学習済みの検出モデルを生成する。そして、例えばロボットシステム100が稼働されると、検出部145は、学習済みの検出モデルを用いて、撮像装置2によって撮影された画像について検出処理を行っていく。その際、第2画像Dbが、検出モデルによる検出結果と紐づけられて記憶部12に蓄積されていく。
 次に、第2の生成処理について、同じく図5のフローチャートに基づいて説明する。図9~図15は、表示部13における第2画像Dbの一例を示す図である。なお、図9~図15では、表示部13のGUI画面に表示された第2画像Dbのみを示している。
 まず、ステップS1において、表示制御部141が、第2画像Dbを取得する。具体的に、表示制御部141は、記憶部12から第2画像Dbを読み出す。このとき、読み出す第2画像Dbの枚数を設定し得る。取得された複数枚の第2画像Dbは、第1画像Daと同様、表示部13にサムネイル一覧131として表示される。この第2の生成処理においても、第1の生成処理と同様、表示部13にはGUI画面が表示されている。
 続くステップS2では、第2画像Dbが拡大表示される。具体的には、ユーザは、対象の第2画像Dbをサムネイル一覧131から選択する。表示制御部141は、選択された第2画像Dbを、表示部13の中央に拡大表示させる。その際、表示制御部141は、選択された第2画像Dbと紐づけられている検出モデルによる検出結果を示すマークMを第2画像Dbにおける検出成功の物体Wに付す。
 続くステップS3では、ラベルが付与され得る。例えば、ステップS2で選択された第2画像Dbが図9に示す画像である場合について説明する。この図9の第2画像Dbは、検出部145による検出処理によって検出されなかった未検出の物体Wa(即ち、検出失敗の物体W)が存在する画像である。なお、誤検出の物体は存在しないとする。つまり、検出された物体W(即ち、検出成功の物体W)には表示制御部141によってマークMが付されており、未検出の物体WaにはマークMが付されていない。
 この図9の第2画像Dbの場合、図10に示すように、ユーザは、未検出の物体Waに対してのみ、マークMを付することでラベルを付与する。その際、前述の生成動作におけるラベル付与と同様、物体Waにおける所定の位置にマークMを付し、物体Waの色および状態に応じてマークMの色を指定する。このように、検出された物体Wに関しては、その物体Wに付されたマークM(即ち、検出結果)を利用することで、ラベルの付与処理が省略される。そのため、ラベルの付与処理の時間が短縮される。こうして、図11に示すように、全ての未検出の物体Waに対してラベルの付与処理が完了すると、ステップS3は終了する。なお、未検出の物体Waの属性が新規の属性である場合、ユーザは、表示部13に表示されているクラス追加ボタン133をポインタPで押して、クラス指定部132において新規の属性情報を追加する。
 また、ステップS2で選択された第2画像Dbが図12に示す画像である場合について説明する。この図12の第2画像Dbは、検出部145による検出処理によって誤検出された物体Wb(即ち、検出失敗の物体W)が存在する画像である。なお、未検出の物体は存在しないとする。
 この例では、物体Wbのクラス情報(詳しくは、色情報)が誤検出されている。この場合、ユーザは、誤検出の物体Wbに付されている誤ったマークMをポインタPで指定し、表示部13に表示されているクラス変更ボタン135を押す。ユーザは、クラス変更ボタン135を押した後、クラス指定部132で正しい色を指定することで、誤ったマークMの色が変更される(図13参照)。こうして、ステップS3は終了する。この場合も、検出された物体W(即ち、検出成功の物体W)に関しては、その物体Wに付されたマークM(即ち、検出結果)を利用することで、ラベルの付与処理が省略される。
 また、ステップS2で選択された第2画像Dbが図14に示す画像である場合について説明する。この図14の第2画像Dbは、検出部145による検出処理によって誤検出された物体Wc(即ち、検出失敗の物体W)が存在する画像である。なお、未検出の物体は存在しないとする。
 この例では、物体Wcの位置情報が誤検出されている。つまり、物体Wcに付されているマークMの位置が所定の位置から大きくずれている。この場合、ユーザは、誤検出の物体Wcに付されているマークMをポインタPで指定して所定の位置まで移動させる(図15参照)。これにより、誤検出の物体Wcに付されたマークMが正しい位置に変更され、ステップS3は終了する。この場合も、検出された物体W(即ち、検出成功の物体W)に関しては、その物体Wに付されたマークM(即ち、検出結果)を利用することで、ラベルの付与処理が省略される。
 また、ステップS2で選択された第2画像Dbが図16に示す画像である場合について説明する。この図16の第2画像Dbは、検出部145による検出処理によってマークMaが物体Wの存在しない位置に付されている画像である。
 この例では、マークMaがバケットBの壁に付されている。この場合、ユーザは、マークMaをポインタPで指定して、表示部13における削除ボタン134を押す。これにより、マークMaは第2画像Dbから削除され、ステップS3は終了する。この場合も、検出された物体W(即ち、検出成功の物体W)に関しては、その物体Wに付されたマークM(即ち、検出結果)を利用することで、ラベルの付与処理が省略される。
 このようにしてステップS3が終了すると、ステップS4へ移行する。ステップS4では、教師データが生成される。つまり、生成部143が、第2画像Dbと、検出失敗の物体Wに付与されたラベルおよび検出成功の物体Wの検出結果との組を教師データとして生成する。第2画像Dbに基づいて教師データを生成する際は、前述したように第2画像Dbに対するラベルの付与処理の時間が短縮されるので、教師データの生成に要する時間が短縮される。続くステップS5において、生成部143は、生成した教師データを記憶部12に格納する。以上により、第2の生成処理が終了する。以上のステップS1からステップS5の処理が、サムネイル一覧131の第2画像Dbごとに行われる。
 以上のように、制御装置1は、画像に含まれる物体Wおよび物体Wの所定情報を検出する学習済みの検出モデルに再学習させる教師データを生成する。制御装置1(教師データ生成装置)は、画像に含まれる物体Wに対して、所定情報を示すラベルをユーザの入力操作に応じて付与するラベル付与部142と、画像と画像に付与されたラベルとの組を教師データとして生成する生成部143と、検出モデルによる検出が行われた画像であって少なくとも1つの物体Wについて検出が失敗した第2画像Dbを、検出モデルによる検出結果と紐づけて記憶する記憶部12とを備えている。そして、ラベル付与部142は、記憶部12の第2画像Dbにおいて、検出失敗の物体Wに所定情報を示すラベルをユーザの入力操作に応じて付与する一方、検出成功の物体Wの所定情報を示すラベルは検出モデルによる検出結果をもって代用する。生成部143は、記憶部12の第2画像Dbと、検出失敗の物体Wに付されたラベルおよび検出成功の物体Wの検出結果との組を教師データとして生成する。
 また、生成プログラムPG(教師データ生成プログラム)は、画像に含まれる物体Wおよび物体Wの所定情報を検出する学習済みの検出モデルに再学習させる教師データを生成する機能をコンピュータに実現させる。生成プログラムPGは、画像に含まれる物体Wに対して、所定情報を示すラベルをユーザの入力操作に応じて付与する機能と、画像と画像に付与されたラベルとの組を教師データとして生成する機能と、検出モデルによる検出が行われた画像であって少なくとも1つの物体Wについて検出が失敗した第2画像Dbを、検出モデルによる検出結果と紐づけて記憶する機能と、記憶されている第2画像Dbにおいて、検出失敗の物体Wに所定情報を示すラベルをユーザの入力操作に応じて付与する一方、検出成功の物体Wの所定情報を示すラベルは検検出モデルによる検出結果をもって代用する機能と、第2画像Dbと、検出失敗の物体Wに付されたラベルおよび検出成功の物体Wの検出結果との組を教師データとして生成する機能とをコンピュータに実現させる。
 これらの構成によれば、検出成功の物体Wについては、所定情報が適切に検出されている。そのため、その成功の検出結果を利用することで、ラベルの付与処理が代用される。つまり、第2画像Dbに対するラベルの付与処理は、全ての物体Wに関してではなく、検出失敗の物体Wに関してのみ行われる。これにより、検出成功の物体Wに対するラベルの付与処理が省略されるので、第2画像Dbに対するラベルの付与処理が軽減される。そのため、第2画像Dbに対するラベルの付与処理の時間を短縮することができる。そして、生成部143は、第2画像Dbと、検出失敗の物体Wに付与されたラベルおよび検出成功の物体Wの検出結果との組を教師データとして生成する。このように、第2画像Dbに基づいて教師データを生成する際は、第2画像Dbに対するラベルの付与処理の時間が短縮される。したがって、学習済みの検出モデルに再学習させる教師データの生成に要する時間を短縮することができる。
 また、制御装置1は、第2画像Dbを表示する表示部13をさらに備えている。ラベル付与部142は、表示部13に表示された第2画像Dbに含まれる検出失敗の物体Wに所定情報を示すマークがユーザの入力操作によって付されることで、ラベルを付与する。
 この構成によれば、表示部13表示されている第2画像Dbの物体WにマークMを付すことでラベルが付与されるので、視認しながらラベルの付与処理を行うことができる。また、マークMの形状や色を変えることで、物体Wに応じたラベルの識別が容易となる。これらのことから、ラベルの付与処理の容易性が向上する。
 また、制御装置1は、記憶部12の第2画像Dbを表示部13に表示させる表示制御部141をさらに備えている。表示制御部141は、記憶部12の第2画像Dbを表示部13に表示させる際、記憶部12の第2画像Dbに含まれる検出成功の物体Wに検出結果を示すマークを付す。
 この構成によれば、第2画像Dbにおける検出成功の物体Wには、検出結果を示すマークMが付されるので、検出結果を一層利用し易くなる。そのため、ラベルの付与処理を容易に検出結果で代用することができ、容易にラベルの付与処理を省略することができる。
 また、制御装置1において、物体Wの所定情報は、物体Wの位置情報である。ラベル付与部142は、ユーザの入力操作によって物体Wに付されたマークMの位置を物体の位置情報としてラベルを付与する。
 この構成によれば、表示されている物体Wに付したマークMを付すことで物体Wの位置情報を示すラベルが付与されるので、ラベルの付与処理が容易になる。
 また、マークMの位置は、ロボットアーム42が、物体Wに対してマークMの位置に基づいて所定の処理を行う位置として設定される。
 この構成によれば、マークMの位置からロボットアーム42による処理に関する位置を容易に把握することができる。そのため、物体Wに対するロボットアーム42の処理動作の制御が容易になる。
 また、マークMの位置は、ロボットアーム42が、物体Wに対して把持する位置として設定される。
 この構成によれば、マークMの位置からロボットアーム42による把持位置を容易に把握することができる。そのため、物体Wに対するロボットアーム42の把持動作の制御が容易になる。
 また、制御装置1において、物体Wの所定情報は、物体Wの属性情報である。ラベル付与部142は、物体Wの属性情報に応じて区別された色のマークMを物体Wに付すことで、物体Wの属性情報を付与する。
 この構成によれば、物体Wの属性情報に応じてマークMの色が区別されるので、物体Wごとの属性情報に対する視認性が高まる。そのため、ラベルの付与処理の容易性が向上する。
 また、制御装置1において、検出失敗の物体Wは、未検出の物体Wまたは誤検出の物体Wである。
 この構成によれば、未検出や誤検出は検出失敗の典型的な態様であるため、第2画像Dbに対するラベルの付与処理を効果的に軽減することができる。
 《その他の実施形態》
 以上のように、本出願において開示する技術の例示として、前記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、前記実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。また、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、前記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 例えば、物体Wの属性に応じてマークMの色を変えるようにしたが、色に代えてマークMの形状を変えるようにしてもよい。
 また、検出失敗の物体Wは、未検出の物体Wのみを対象としてもよいし、誤検出の物体Wのみを対象としてもよい。
 また、物体Wの所定情報は、物体Wの位置情報および属性情報の何れか一方であってもよい。また、物体Wの属性情報は、物体Wの色に限らず、物体Wの形状や大きさであってもよい。
 また、前記実施形態の制御装置1(即ち、教師データ生成装置)は、教師データを生成する機能だけでなく、学習部144による学習機能および検出部145による検出機能も備えるようにしたが、ここに開示された技術は、これに限らず、学習部144および検出部145の少なくとも一方を単独で設けるようにしてもよい。つまり、教師データ生成装置は、学習部144および検出部145の両方を省略した装置であってもよいし、学習部144または検出部145を省略した装置であってもよい。
 また、制御装置1は、教師データの生成処理のうち第1の生成処理を省略した装置、即ち、第2の生成処理のみを行う装置であってもよい。つまり、学習済みの検出モデルを外部から購入して搭載するような制御装置1であってもよい。
 また、ロボットアーム42が物体Wに対して行う所定の処理は、物体Wを把持する以外に、物体Wに対する塗装や溶接、ネジ締め等であってもよい。
 本明細書で開示する要素の機能は、開示された機能を実行するよう構成またはプログラムされた汎用プロセッサ、専用プロセッサ、集積回路、ASIC(Application Specific Integrated Circuits)、従来の回路、および/または、それらの組み合わせ、を含む回路または処理回路を使用して実行できる。プロセッサは、トランジスタやその他の回路を含むため、処理回路または回路と見なされる。本開示において、回路、ユニット、または手段は、列挙された機能を実行するハードウェアであるか、または、列挙された機能を実行するようにプログラムされたハードウェアである。ハードウェアは、本明細書に開示されているハードウェアであってもよいし、あるいは、列挙された機能を実行するようにプログラムまたは構成されているその他の既知のハードウェアであってもよい。ハードウェアが回路の一種と考えられるプロセッサである場合、回路、手段、またはユニットはハードウェアとソフトウェアの組み合わせであり、ソフトウェアはハードウェアおよび/またはプロセッサの構成に使用される。
 本開示の技術をまとめると、以下のようになる。
 [1] 制御装置1(教師データ生成装置)は、画像に含まれる物体Wおよび前記物体Wの所定情報を検出する学習済みの検出モデルに再学習させる教師データを生成する。制御装置1は、画像に含まれる物体Wに対して、前記所定情報を示すラベルをユーザの入力操作に応じて付与するラベル付与部142と、前記画像と前記画像に付与された前記ラベルとの組を教師データとして生成する生成部143と、前記検出モデルによる検出が行われた画像であって少なくとも1つの物体Wについて前記検出が失敗した第2画像Db(画像)を、前記検出モデルによる検出結果と紐づけて記憶する記憶部12とを備え、前記ラベル付与部142は、前記記憶部12の前記第2画像Dbにおいて、検出失敗の物体Wに前記所定情報を示す前記ラベルをユーザの入力操作に応じて付与する一方、検出成功の物体Wの前記所定情報を示す前記ラベルは前記検出結果をもって代用し、前記生成部143は、前記記憶部12の前記第2画像Dbと、前記検出失敗の物体Wに付された前記ラベルおよび前記検出成功の物体Wの前記検出結果との組を教師データとして生成する。
 この構成によれば、検出成功の物体Wについては、所定情報が適切に検出されている。そのため、その成功の検出結果を利用することで、ラベルの付与処理が代用される。これにより、検出成功の物体Wに対するラベルの付与処理が省略されるので、第2画像Dbに対するラベルの付与処理が軽減される。そのため、第2画像Dbに対するラベルの付与処理の時間を短縮することができる。したがって、学習済みの検出モデルに再学習させる教師データの生成に要する時間を短縮することができる。
 [2] [1]に記載の制御装置1において、前記記憶部12の前記第2画像Dbを表示する表示部13をさらに備えており、前記ラベル付与部142は、前記表示部13に表示された前記記憶部12の前記第2画像Dbに含まれる前記検出失敗の物体Wに前記所定情報を示すマークMがユーザの入力操作によって付されることで、前記ラベルを付与する。
 この構成によれば、表示部13表示されている第2画像Dbの物体WにマークMを付すことでラベルが付与されるので、視認しながらラベルの付与処理を行うことができる。また、マークMの形状や色を変えることで、物体Wに応じたラベルの識別が容易となる。これらのことから、ラベルの付与処理の容易性が向上する。
 [3] [1]または[2]に記載の制御装置1において、前記記憶部12の前記第2画像Dbを前記表示部13に表示させる表示制御部141をさらに備えており、前記表示制御部141は、前記記憶部12の前記第2画像Dbを前記表示部13に表示させる際、前記記憶部12の前記第2画像Dbに含まれる前記検出成功の物体Wに前記検出結果を示す前記マークを付す。
 この構成によれば、第2画像Dbにおける検出成功の物体Wには、検出結果を示すマークMが付されるので、検出結果を一層利用し易くなる。そのため、ラベルの付与処理を容易に検出結果で代用することができ、容易にラベルの付与処理を省略することができる。
 [4] [1]乃至[3]の何れか1つに記載の制御装置1において、前記所定情報は、前記記憶部12の前記第2画像Dbにおける物体Wの位置情報であり、前記ラベル付与部142は、ユーザの入力操作によって物体Wに付された前記マークの位置を前記物体Wの位置情報として前記ラベルを付与する。
 この構成によれば、表示されている物体Wに付したマークMを付すことで物体Wの位置情報を示すラベルが付与される。そのため、ラベルの付与処理が容易になる。
 [5] [1]乃至[4]の何れか1つに記載の制御装置1において、前記マークの位置は、ロボットアーム42が、前記物体Wに対して前記マークの位置に基づいて所定の処理を行う位置として設定される。
 この構成によれば、マークMの位置からロボットアーム42による処理に関する位置を容易に把握することができる。そのため、物体Wに対するロボットアーム42の処理動作の制御が容易になる。
 [6] [1]乃至[5]の何れか1つに記載の制御装置1において、前記マークの位置は、前記ロボットアーム42が、前記物体Wに対して把持する位置として設定される。
 この構成によれば、マークMの位置からロボットアーム42による把持位置を容易に把握することができる。そのため、物体Wに対するロボットアーム42の把持動作の制御が容易になる。
 [7] [1]乃至[6]の何れか1つに記載の制御装置1は、前記ロボットアーム42を制御するロボット制御装置3と通信可能である。
 この構成によれば、ロボット制御装置3は、制御装置1から出力されたマークMの位置に基づいて、物体Wに対する所定の処理をロボットアーム42にさせ得る。
 [8] [1]乃至[7]の何れか1つに記載の制御装置1において、前記所定情報は、物体Wの属性情報であり、前記ラベル付与部142は、物体Wの属性情報に応じて区別された色の前記マークがユーザの入力操作によって前記物体Wに付されることで、前記マークの色を前記物体Wの属性情報として前記ラベルを付与する。
 この構成によれば、物体Wの属性情報に応じてマークMの色が区別されるので、物体Wごとの属性情報に対する視認性が高まる。そのため、ラベルの付与処理の容易性が向上する。
 [9] [1]乃至[8]の何れか1つに記載の制御装置1において、前記検出失敗の物体Wは、未検出の物体Wまたは誤検出の物体Wである。
 この構成によれば、未検出や誤検出は検出失敗の典型的な態様であるため、第2画像Dbに対するラベルの付与処理を効果的に軽減することができる。
 [10] 生成プログラムPG(教師データ生成プログラム)は、画像に含まれる物体Wおよび前記物体Wの所定情報を検出する学習済みの検出モデルに再学習させる教師データを生成する機能をコンピュータに実現させる。生成プログラムPGは、画像に含まれる物体Wに対して、前記所定情報を示すラベルをユーザの入力操作に応じて付与する機能と、前記画像と前記画像に付与された前記ラベルとの組を教師データとして生成する機能と、前記検出モデルによる検出が行われた画像であって少なくとも1つの物体Wについて前記検出が失敗した第2画像Db(画像)を、前記検出モデルによる検出結果と紐づけて記憶する機能と、記憶された前記画像において、検出失敗の物体Wに前記所定情報を示す前記ラベルをユーザの入力操作に応じて付与する一方、検出成功の物体Wの前記所定情報を示す前記ラベルは前記検出結果をもって代用する機能と、記憶された前記画像と、前記検出失敗の物体Wに付された前記ラベルおよび前記検出成功の物体Wの前記検出結果との組を教師データとして生成する機能とをコンピュータに実現させる。
 この構成によれば、[1]に記載の制御装置1と同様、学習済みの検出モデルに再学習させる教師データの生成に要する時間を短縮することができる。

 

Claims (10)

  1.  画像に含まれる物体および前記物体の所定情報を検出する学習済みの検出モデルに再学習させる教師データを生成する教師データ生成装置であって、
     画像に含まれる物体に対して、前記所定情報を示すラベルをユーザの入力操作に応じて付与するラベル付与部と、
     前記画像と前記画像に付与された前記ラベルとの組を教師データとして生成する生成部と、
     前記検出モデルによる検出が行われた画像であって少なくとも1つの物体について前記検出が失敗した画像を、前記検出モデルによる検出結果と紐づけて記憶する記憶部とを備え、
     前記ラベル付与部は、前記記憶部の前記画像において、検出失敗の物体に前記所定情報を示す前記ラベルをユーザの入力操作に応じて付与する一方、検出成功の物体の前記所定情報を示す前記ラベルは前記検出結果をもって代用し、
     前記生成部は、前記記憶部の前記画像と、前記検出失敗の物体に付された前記ラベルおよび前記検出成功の物体の前記検出結果との組を教師データとして生成する教師データ生成装置。
  2.  請求項1に記載の教師データ生成装置において、
     前記記憶部の前記画像を表示する表示部をさらに備えており、
     前記ラベル付与部は、前記表示部に表示された前記記憶部の前記画像に含まれる前記検出失敗の物体に前記所定情報を示すマークがユーザの入力操作によって付されることで、前記ラベルを付与する教師データ生成装置。
  3.  請求項2に記載の教師データ生成装置において、
     前記記憶部の前記画像を前記表示部に表示させる表示制御部をさらに備えており、
     前記表示制御部は、前記記憶部の前記画像を前記表示部に表示させる際、前記記憶部の前記画像に含まれる前記検出成功の物体に前記検出結果を示す前記マークを付す教師データ生成装置。
  4.  請求項2または3に記載の教師データ生成装置において、
     前記所定情報は、前記記憶部の前記画像における物体の位置情報であり、
     前記ラベル付与部は、ユーザの入力操作によって物体に付された前記マークの位置を前記物体の位置情報として前記ラベルを付与する教師データ生成装置。
  5.  請求項4に記載の教師データ生成装置において、
     前記マークの位置は、ロボットアームが、前記物体に対して前記マークの位置に基づいて所定の処理を行う位置として設定される教師データ生成装置。
  6.  請求項5に記載の教師データ生成装置において、
     前記マークの位置は、前記ロボットアームが、前記物体に対して把持する位置として設定される教師データ生成装置。
  7.  請求項5に記載の教師データ生成装置において、
     前記ロボットアームを制御するロボット制御装置と通信可能である教師データ生成装置。
  8.  請求項2または3に記載の教師データ生成装置において、
     前記所定情報は、物体の属性情報であり、
     前記ラベル付与部は、物体の属性情報に応じて区別された色の前記マークがユーザの入力操作によって前記物体に付されることで、前記マークの色を前記物体の属性情報として前記ラベルを付与する教師データ生成装置。
  9.  請求項1に記載の教師データ生成装置において、
     前記検出失敗の物体は、未検出の物体または誤検出の物体である教師データ生成装置。
  10.  画像に含まれる物体および前記物体の所定情報を検出する学習済みの検出モデルに再学習させる教師データを生成する機能をコンピュータに実現させる教師データ生成プログラムであって、
     画像に含まれる物体に対して、前記所定情報を示すラベルをユーザの入力操作に応じて付与する機能と、
     前記画像と前記画像に付与された前記ラベルとの組を教師データとして生成する機能と、
     前記検出モデルによる検出が行われた画像であって少なくとも1つの物体について前記検出が失敗した画像を、前記検出モデルによる検出結果と紐づけて記憶する機能と、
     記憶された前記画像において、検出失敗の物体に前記所定情報を示す前記ラベルをユーザの入力操作に応じて付与する一方、検出成功の物体の前記所定情報を示す前記ラベルは前記検出結果をもって代用する機能と、
     記憶された前記画像と、前記検出失敗の物体に付された前記ラベルおよび前記検出成功の物体の前記検出結果との組を教師データとして生成する機能とをコンピュータに実現させる教師データ生成プログラム。

     
PCT/JP2022/046451 2021-12-28 2022-12-16 教師データ生成装置および教師データ生成プログラム WO2023127555A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-214982 2021-12-28
JP2021214982A JP2023098304A (ja) 2021-12-28 2021-12-28 教師データ生成装置および教師データ生成プログラム

Publications (1)

Publication Number Publication Date
WO2023127555A1 true WO2023127555A1 (ja) 2023-07-06

Family

ID=86998812

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/046451 WO2023127555A1 (ja) 2021-12-28 2022-12-16 教師データ生成装置および教師データ生成プログラム

Country Status (2)

Country Link
JP (1) JP2023098304A (ja)
WO (1) WO2023127555A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019150813A1 (ja) * 2018-01-30 2019-08-08 富士フイルム株式会社 データ処理装置及び方法、認識装置、学習データ保存装置、機械学習装置並びにプログラム
JP2020197978A (ja) * 2019-06-04 2020-12-10 グローリー株式会社 物体検出装置、物体把持システム、物体検出方法及び物体検出プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019150813A1 (ja) * 2018-01-30 2019-08-08 富士フイルム株式会社 データ処理装置及び方法、認識装置、学習データ保存装置、機械学習装置並びにプログラム
JP2020197978A (ja) * 2019-06-04 2020-12-10 グローリー株式会社 物体検出装置、物体把持システム、物体検出方法及び物体検出プログラム

Also Published As

Publication number Publication date
JP2023098304A (ja) 2023-07-10

Similar Documents

Publication Publication Date Title
US20150193698A1 (en) Data processing device
JP6213089B2 (ja) 音声学習支援装置、音声学習支援方法及びコンピュータの制御プログラム
US9984335B2 (en) Data processing device
US10963739B2 (en) Learning device, learning method, and learning program
JP3906729B2 (ja) 手話教育用システム及び該システムを実現するためのプログラム
JP7422548B2 (ja) ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
JP4786292B2 (ja) 情報処理装置、階層情報出力方法及びプログラム
WO2023127555A1 (ja) 教師データ生成装置および教師データ生成プログラム
US20220351640A1 (en) Method of supporting learning of programming, apparatus and computer-readable storage medium
WO2020039703A1 (ja) 入力装置
JP2021079464A (ja) 設定装置、設定方法およびプログラム
US20120066244A1 (en) Name retrieval method and name retrieval apparatus
WO2023128348A1 (ko) 이미지 내의 텍스트를 인식하는 전자 장치 및 그 동작 방법
US10922043B2 (en) Information processing device and information processing method for acquiring information associated with a target
JP4952345B2 (ja) プログラミング装置
US20240165801A1 (en) Teaching device
WO2024090745A1 (ko) 전자 장치 및 그 터치 좌표 획득 방법
JP2006227948A (ja) ドキュメント処理装置
JP2921718B2 (ja) 産業用視覚センサにおける画像処理方法
JP3478295B2 (ja) 楽譜情報入力装置および楽譜情報入力方法
TWI770561B (zh) 產品瑕疵檢測方法、電腦裝置及儲存介質
JP3538208B2 (ja) 楽譜情報入力装置
JP5927777B2 (ja) 表示制御装置及びプログラム
US20220178986A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
TW202300304A (zh) 教示裝置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22915779

Country of ref document: EP

Kind code of ref document: A1