WO2022097310A1 - 作業推定装置、作業推定装置の制御方法、情報処理プログラム、および記録媒体 - Google Patents
作業推定装置、作業推定装置の制御方法、情報処理プログラム、および記録媒体 Download PDFInfo
- Publication number
- WO2022097310A1 WO2022097310A1 PCT/JP2021/007657 JP2021007657W WO2022097310A1 WO 2022097310 A1 WO2022097310 A1 WO 2022097310A1 JP 2021007657 W JP2021007657 W JP 2021007657W WO 2022097310 A1 WO2022097310 A1 WO 2022097310A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- captured image
- work
- worker
- captured
- interaction
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims description 181
- 230000003993 interaction Effects 0.000 claims abstract description 173
- 230000008569 process Effects 0.000 claims description 145
- 238000001514 detection method Methods 0.000 claims description 113
- 238000013526 transfer learning Methods 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 description 101
- 239000008186 active pharmaceutical agent Substances 0.000 description 50
- 238000013528 artificial neural network Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 23
- 230000000694 effects Effects 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 241000282412 Homo Species 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 241000283690 Bos taurus Species 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010422 painting Methods 0.000 description 3
- 240000004050 Pentaglottis sempervirens Species 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Definitions
- the present invention relates to a work estimation device or the like that estimates the content of the work performed by the worker captured in the captured image from the captured image captured in the workplace.
- a work estimation device and a work estimation method for estimating the contents of work performed by a worker at a production site or the like are known.
- Patent Document 1 it is determined from the body parts and objects of the worker detected from the camera image, which of the specified work types the work performed by the imaged worker corresponds to.
- a work recognition method for identification is disclosed.
- One aspect of the present invention is to realize a work estimation device or the like that can estimate the work performed by the worker without the need for complicated rule maintenance even if the types of work performed by the worker increase. With the goal.
- the work estimation device is a work of estimating the content of the work performed by the worker captured in the captured image from the captured image captured in the workplace. It is an estimation device, and is a detection unit that detects an operator captured in the captured image and a work object captured in the captured image from the captured image, and from the captured image or the captured image.
- a trained model that uses the generated feature information as an input and outputs the presence or absence of an interaction between the worker captured in the captured image and the working object captured in the captured image.
- a determination unit that determines the presence or absence of an interaction between the worker and the work object detected by the detection unit from the captured image or the feature information, and the determination unit. It is provided with an estimation unit for estimating the content of the work performed by the worker on the work object for the combination of the worker and the work object for which the interaction is determined to exist.
- the control method is a work estimation that estimates the content of the work performed by the worker captured in the captured image from the captured image captured in the workplace.
- a method for controlling an apparatus which is a detection step of detecting an operator captured in the captured image and a work object captured in the captured image from the captured image, and the captured image or the captured image. Learned to input feature information generated from an image and output the presence or absence of an interaction between the worker captured in the captured image and the work object captured in the captured image.
- a determination step for determining the presence or absence of an interaction between the worker and the work object detected in the detection step from the captured image or the feature information using the determination model which is a model, and the determination step.
- the combination of the worker and the work object for which the interaction is determined to exist by the determination step includes an estimation step of estimating the content of the work performed by the worker on the work object.
- FIG. 1 It is a block diagram which shows the main part structure of the information processing apparatus which concerns on Embodiment 1 of this invention. It is a figure which shows the whole outline of the control system including the information processing apparatus of FIG. It is a figure for demonstrating the problem which a general HOI detection algorithm has. It is a figure explaining the example of the analysis part realized as a neural network. It is a figure explaining the outline of the process which the information processing apparatus of FIG. 1 executes in a normal mode. It is a figure explaining the outline of the process which the information processing apparatus of FIG. 1 executes in a transfer learning mode. It is a flow diagram explaining the whole outline of the analysis process executed by the information processing apparatus of FIG.
- the information processing apparatus 10 is a "work estimation device that estimates the content of the work Op performed by the worker Hu captured in the captured image Im from the captured image Im captured in the workplace Ar". Will be described as a typical example of.
- the information processing apparatus 10 uses, for example, the analysis result of the captured image Im to generate information (support information) that contributes to the efficiency of the work Op performed by the worker Hu on the work object Ob. Therefore, first, the worker Hu, the work object Ob, the work Op, the work place Ar, and the factory Fa including one or more work place Ars will be described.
- the factory Fa which is a production site, for example, various products are produced through one or more work processes Pr (1), Pr (2), Pr (3), ... Pr (n).
- Each of the plurality of work processes Pr (1), Pr (2), Pr (3), ... Pr (n) carried out in the factory Fa is, for example, a "painting” process and a "main work assembly” process. , "Incorporation of main work into the main body” process, "Inspection" process.
- the worker Hu performs one or more work Op (1), Op (2), Op (3), ... Op (n).
- the worker Hu performs the work Op (x1), Op (x2), and Op (x3).
- the work Op (x1) may be the "grasping" of the work object Ob
- the work Op (x2) may be the work object.
- the object Ob may be "painting", or the work Op (x3) may be "transportation" of the work object Ob.
- the factory Fa includes one or more workshops Ar (1), Ar (2), Ar (3), ... Ar (n).
- One or more work object Obs which are the targets of the work Op performed by the worker Hu, are arranged in the work place Ar.
- the work object Ob (x1), Ob (x2), etc. are arranged in the work place Ar (x).
- Ob (x3), ..., Ob (xn) are arranged.
- the work object Ob is an entity other than the worker Hu, for example, a so-called "work”, and is, for example, a tool used when performing a work Op.
- the worker Hu may be identified by, for example, a worker ID attached to the crown of the hat worn by the worker Hu.
- the worker Hu (1) and the worker Hu (2) existing in the factory Fa are the worker ID (1) attached to the hat worn by the worker Hu (1) and the worker Hu.
- Each may be identified by the worker ID (2) attached to the hat worn by (2).
- one worker Hu (1) may be regarded as a work object Ob for another worker Hu (2).
- the factory Fa includes one or more devices 40 (1), 40 (2), 40 (3), ... 40 (n).
- the worker Hu may use the device 40 when performing the work Op, and specifically, the worker Hu may perform the work Op by using the operation Ac executed by the device 40.
- the device 40 (x) may be used, and specifically, the device 40 (x) executes the work Op (x).
- the worker Hu may perform the work Op (x) by using the operation Ac (x) to be performed.
- the reference numerals are "(1)”, “(2)”, “(3)”, ..., “(n)” and the like. When it is not necessary to distinguish them, they are simply referred to as "equipment 40".
- the information processing apparatus 10 estimates the content of the work Op performed by the worker Hu captured in the captured image Im from the captured image Im captured in the workplace Ar.
- the captured image Im of the workplace Ar of the factory Fa A
- the captured image Im of the workplace Ar of the factory Fa B
- the captured image Im B
- the factory Fa in which the captured image Im is captured is distinguished.
- FIG. 2 is a diagram showing an overall outline of the control system 1 and the like including the information processing device 10.
- the ceiling camera 30 is installed on the ceiling of the workplace Ar, for example, and generates an image Im that looks down on the workplace Ar from diagonally above. However, it is not essential that the ceiling camera 30 is installed in each work place Ar.
- One ceiling camera 30, which is a wide-area image pickup camera, may be installed on the ceiling of the factory Fa, and one ceiling camera 30 may be used to take a bird's-eye view of the entire factory Fa. That is, one ceiling camera 30 may take a bird's-eye view of the entire factory Fa including one or more workplaces Ar, and generate an imaged image Im that captures the entire factory Fa.
- the ceiling camera 30 outputs the generated captured image Im to the information processing apparatus 10.
- the information processing device 10 is included in the control system 1 and is communicably connected to the ceiling camera 30 via, for example, a USB (Universal Serial Bus) cable.
- the information processing apparatus 10 acquires an image Im captured by capturing the workplace Ar from the ceiling camera 30.
- the information processing apparatus 10 executes image analysis on the captured image Im acquired from the ceiling camera 30, and estimates the content of the work Op performed by the worker Hu captured in the captured image Im.
- the information processing apparatus 10 outputs the estimated contents of the work Op to the outside.
- the information processing apparatus 10 acquires process information generated from the operation result La indicating the contents and results of the operation Ac executed by the device 40 whose operation Ac is controlled by the PLC 20 from the PLC (Programmable Logic Controller) 20. ..
- a control system 1 is constructed as a master-slave control system in which the PLC 20 is used as a master and each of the plurality of devices 40 is a slave, and each of the plurality of devices 40 can communicate with the PLC 20 via a network (control network 50). It is connected to the.
- the PLC 20 is called a "master” in the sense that it manages data transmission via the control network 50.
- the "master” and “slave” are defined by focusing on the control function of data transmission on the control network 50, and what kind of information is transmitted and received between the devices is not particularly limited.
- the PLC 20 is a control device (controller) that controls the entire control system 1, and is communicably connected to each of the plurality of devices 40.
- the PLC 20 acquires information from each of the plurality of devices 40 as input devices (measurement devices) as input data.
- the PLC 20 executes an arithmetic process using the acquired input data according to a user program incorporated in advance.
- the PLC 20 executes the arithmetic processing, determines the control content for the control system 1, determines the control content for each of the plurality of devices 40 as output devices such as actuators, and corresponds to the control content.
- the control data is output to each of the plurality of devices 40.
- the PLC 20 repeatedly executes the acquisition of input data from each of the plurality of devices 40 and the acquisition of control data to each of the plurality of devices 40 in a predetermined cycle (control cycle).
- a display unit and an operation unit may be connected to the PLC 20.
- the display unit is composed of a liquid crystal panel or the like capable of displaying an image
- the operation unit is typically composed of a touch panel, a keyboard, a mouse or the like.
- the device 40 is a slave in the control system 1 as a master-slave control system with the PLC 20 as the master.
- the device 40 is an input device that transmits repeated input data to the PLC 20 at predetermined control cycles, or receives repeated control data from the PLC 20 at predetermined control cycles and operates according to the received control data. It is a device.
- the device 40 may be, for example, a sensor (for example, a photoelectric sensor) as an input device that transmits a detection result or the like to the PLC 20 as input data, or may be a bar code reader that transmits a reading result, and is inspected. It may be an inspection machine (tester) that sends the result.
- the device 40 may be a PT (Programmable Terminal) to which a plurality of input devices are connected.
- the device 40 may be a robot or the like as an output device that executes screw tightening, picking, and the like.
- the control network 50 transmits various data received or transmitted by the PLC 20 and can typically use various Industrial Ethernet®, sometimes referred to as a field network. ..
- Industrial Ethernet registered trademark
- EtherCAT registered trademark
- Profile IRT Profile IRT
- MECHATROLINK registered trademark
- MECHATROLINK registered trademark
- CIP Motion CIP Motion
- a field network other than Industrial Ethernet may be used. For example, if motion control is not performed, DeviceNet, CompoNet / IP (registered trademark), or the like may be used.
- control system 1 in which data is transmitted / received between the PLC 20 (master) and the device 40 (slave) by sequentially transferring data frames on the control network 50 will be described. That is, by sequentially transferring data frames on the control network 50 in a predetermined control cycle, data is repeatedly transmitted and received between the PLC 20 and the device 40 in each control cycle. By sequentially transferring data frames on the control network 50, data may be transmitted and received between a plurality of devices 40, that is, between a plurality of slaves.
- the information processing device 10 is included in the control system 1, but the information processing device 10 does not have to be a slave in the control system 1.
- the master PLC 20 repeats, for example, every predetermined control cycle, and receives an operation result La from the slave device 40.
- the operation result La is information indicating "contents and results of the operation Ac executed by the device 40". That is, the device 40 repeats the operation result La indicating the content and result of the operation Ac actually executed when the work process Pr is executed at a predetermined cycle, and transmits the operation result La to the PLC 20.
- the device 40 (x) repeats the operation result La (x) indicating the content and result of the operation Ac (x) executed during the execution of the work process Pr (x) in the control cycle, and transmits the operation result La (x) to the PLC 20. do.
- the PLC 20 acquires, for example, a measurement result which is the result of a measurement operation executed by the device 40 as an input device (measurement device) as an operation result La of the device 40. Further, when the device 40 is an inspection machine, the PLC 20 sets the result of the inspection operation performed by the device 40 as, for example, the inspection result such as "satisfaction or non-satisfaction with the inspection standard" as the operation result of the device 40. Obtained as La. Further, the PLC 20 acquires, for example, the result of the output operation executed by the device 40 as the output device as the operation result La of the device 40. When the device 40 is a robot that executes screw tightening, picking, etc., the PLC 20 acquires the operation result La such as the number of screw tightening times and the picking result (picking success or picking error) as the operation result La of the device 40.
- the PLC 20 repeatedly receives an operation result La indicating the content and result of the operation Ac actually executed by the device 40 from the device 40 at a predetermined cycle, and uses the received operation result La as process information. It is transmitted (that is, transferred) to the information processing apparatus 10. Further, the PLC 20 transmits information generated by using the operation result La repeatedly received from the device 40 in a predetermined cycle to the information processing apparatus 10 as process information.
- the PLC 20 may transmit the operation result La repeatedly received from the device 40 in a predetermined cycle to the outside of the control system 1 as process information.
- the PLC 20 connects the operation result La repeatedly received from the device 40 in a predetermined cycle to a MES (Manufacturin g Execution System) or the like as process information, and is an in-house LAN (Local Area Network) shown in FIG. ) May be sent.
- MES Manufacturing g Execution System
- LAN Local Area Network
- the information processing apparatus 10 specifies the operation start time Tms, the operation completion time Tme, and the operation period Da of the operation Ac executed by the device 40 when the work process Pr is executed from the process information (operation result La) acquired from the PLC 20. Then, the information processing apparatus 10 executes various determinations for the operation Ac by using the specified operation start time Tms, operation completion time Tme, operation period Da, and predetermined operation reference Sa corresponding to the operation Ac.
- the above-mentioned determination for the operation result La (particularly, the operation Ac) included in the process information may be executed by the PLC 20, and the PLC 20 includes the result of the above determination in the process information or the process information. Instead of, the information may be transmitted to the information processing apparatus 10.
- the operation start time Tms is the time when the device 40 used for the work process Pr starts the execution of the operation Ac when the work process Pr is executed
- the operation completion time Tme is the operation completion time Tme. It is the time when the execution is completed.
- the operation period Da is a period from the operation start time Tms to the operation completion time Tme.
- FIG. 2 shows an in-house LAN system, another network system, and the like, in addition to the control system 1 as a master-slave control system.
- the in-house LAN is connected to a process information DB (Database), which is also called MES.
- process information DB information indicating "standard operation to be performed by the device 40 used to carry out the work process Pr" is stored as the operation reference Sa.
- an event management device 60 that monitors and manages various events generated in the factory Fa is connected to the process information DB as the MES via the in-house LAN.
- the event management device 60 it is not essential that the event management device 60 is connected to the process information DB via the in-house LAN, and the event management device 60 may not be provided.
- the PLC 20 is connected to the process information DB via the in-house LAN.
- the process information DB and the information processing apparatus 10 may be connected to each other.
- an ERP Enterprise Resources Planning
- WMS Warehouse Management System
- the like may be connected to the in-house LAN.
- a video storage server or the like is connected to the process information DB via an "other network" that is different from the control network 50 and the in-house LAN.
- the information processing device 10 is connected to the video storage server or the like via another network, and the captured image Im transmitted from the information processing device 10, the content of the work Op estimated by the information processing device 10, and the support information. Etc. are stored in the video storage server or the like.
- an external device 70 realized by a PC (Personal Computer) or the like is connected to the moving image storage server or the like, and the external device 70 is, for example, an image captured image Im, the contents of the work Op estimated by the information processing device 10, and the contents of the work Op estimated by the information processing device 10. , Support information, etc.
- the external device 70 displays a list of information necessary for improving the work process Pr, and displays information indicating the bottleneck work process Pr, the date and time of the error that occurred in the work process Pr, and the like, as the corresponding captured image. Displayed in association with Im.
- the ceiling camera 30 captures the work place Ar to generate an captured image Im, and the generated captured image Im is used in the information processing device 10 via, for example, a communication cable such as a USB (Universal Serial Bus) cable. Send to.
- a communication cable such as a USB (Universal Serial Bus) cable.
- the information processing device 10 is a data extraction device realized by, for example, a PC or the like, which combines the process information acquired from the PLC 20 and the captured image Im acquired from the ceiling camera 30 to enable efficient use of both. be.
- the information processing apparatus 10 estimates the process information including the "operation result La showing the contents and results of the actual operation Acs of the plurality of devices 40 in the factory Fa" from the "captured image Im" and the “captured image Im". By combining with "contents of", the work process Pr is visualized.
- the information processing apparatus 10 visualizes the work process Pr by combining the process information acquired from the PLC 20, the captured image Im acquired from the ceiling camera 30, the contents of the work Op estimated from the captured image Im, and the like. Efficiently and precisely analyze the work process Pr.
- the information processing apparatus 10 extracts the bottleneck work process Pr in addition to visualizing the process information, and captures an image of the implementation status of the extracted work process Pr, and the extracted work process Pr. Combine with process information. Therefore, for example, the user can easily identify the cause of the bottleneck and the cause of the defect in the work process Pr that is the bottleneck, and can efficiently perform the improvement work of the work process Pr. become able to.
- the information processing apparatus 10 can also be used for traceability when a defect occurs.
- the information processing apparatus 10 can improve the analysis system for both the analysis for the captured image Im and the analysis for the process information by combining the captured image Im and the process information of each of the plurality of devices 40. ..
- the information processing apparatus 10 uses the process information (operation result La) acquired from the PLC 20 to specify the operation start time Tms at which the device 40 starts the operation Ac and the operation completion time Tme at which the operation Ac is completed. ..
- the information processing apparatus 10 performs analysis on the captured image Im captured in the operation period Da, which is the period from the operation start time Tms to the operation completion time Tme, to work with the operation Ac of the device 40 in the operation period Da. It is possible to associate the work Op of the person Hu with high accuracy.
- the information processing apparatus 10 acquires an operation standard Sa indicating "a standard operation to be executed by the device 40 used for executing the work process Pr" from the process information DB. Then, the information processing apparatus 10 uses the acquired operation reference Sa to execute a determination for "the actual operation Ac executed by the device 40 used to carry out the work process Pr". The information processing apparatus 10 may execute analysis on the image pickup data Id that images the implementation status of the work step Pr corresponding to the operation Ac determined to be different from the standard operation indicated by the operation reference Sa.
- the information processing apparatus 10 analyzes the captured image Im and estimates the content of the work Op performed by the worker Hu on the work object Ob.
- the work Op performed by the worker Hu in the work place Ar is generally a work Op performed on the work object Ob. Therefore, the work Op can be regarded as an interaction between the worker Hu and the work object Ob with respect to the combination (pair) of the worker Hu and the work object Ob.
- HOI Human Object Interaction
- iCAN Intelligent Attention Network for Human-Object Interaction Detection
- the information processing apparatus 10 can use a HOI detection algorithm such as iCAN to estimate the content of the work Op performed by the worker Hu on the work object Ob. That is, the information processing apparatus 10 describes the contents of the work Op performed by the worker Hu on the work object Ob for the "pair of the worker Hu and the work object Ob" captured in the captured image Im. It can be estimated using the HOI detection algorithm that detects.
- a HOI detection algorithm such as iCAN
- a general HOI detection algorithm such as iCAN assumes all possible pairs of all humans and all objects detected from the captured image Im, and shows the content of the interaction between each pair in appearance. Predict based on features and coarse spatial information. Therefore, the general HOI detection algorithm has a problem as described with reference to FIG.
- FIG. 3 is a diagram for explaining a problem of a general HOI detection algorithm such as iCAN.
- a general HOI detection algorithm such as iCAN.
- FIG. 3 In the captured image Im illustrated in FIG. 3, there are siblings (workers Hu (1) and Hu (2)) on the left and three cows on the right (working objects Ob (1) and OB) across the fence. (2), OB (3)) It is an image taken image Im which imaged the present situation.
- the younger brother is looking at the cow in the foreground, and the older brother is feeding the cow in the second from the front.
- the work object Ob (4) is an object erroneously detected from the captured image Im.
- a general HOI detection algorithm assumes all possible pairs of all humans and all objects detected from the captured image Im, and classifies the HOI that is the interaction in each pair, that is, , Predict (estimate) the contents of HOI. Therefore, for the captured image Im exemplified in FIG. 3, a general HOI detection algorithm assumes a total of eight pairs from two humans and four objects, and for each of the assumed eight pairs, a human and an object. Estimate the content of HOI, which is the interaction with.
- the pair in which the interaction between the human and the object actually exists is "a pair of the worker Hu (1) and the work object Ob (2)" and "work".
- a general HOI detection algorithm tries to estimate the contents of HOI for these six pairs as well. Therefore, the general HOI detection algorithm has a problem that it takes time to detect the HOI from the captured image Im.
- a general HOI detection algorithm estimates the contents of HOI even for a "human-object pair" in which there is no actual interaction between the two, so that the estimation accuracy is lowered.
- a general HOI detection algorithm is a "pair of a worker Hu (1) and a work object Ob (2)" and a “worker Hu (2) and a work object” for the captured image Im of FIG. Since the contents of HOI are estimated for pairs other than "pair with Ob (3)", the estimation accuracy is lowered.
- the information processing apparatus 10 executes the following processing in order to improve the estimation accuracy of the estimation process for estimating the content of the HOI (that is, the work Op). That is, the information processing apparatus 10 first reciprocates between the "human being (worker Hu) captured by the captured image Im” and the "object (working object Ob) captured by the captured image Im". Recognize (determine) whether or not the action actually exists. Then, the information processing apparatus 10 estimates the content of the operation (HOI) that the human is performing on the object only for the pair of the human and the object that is determined to have an interaction between the two.
- the operation that the human is performing on the object only for the pair of the human and the object that is determined to have an interaction between the two.
- the information processing apparatus 10 determines that there is no interaction between the human and the object before estimating the content of the "work Op as HOI" for the pair of the human and the object.
- a filter that excludes is adopted, that is, the following determination process is executed.
- the information processing apparatus 10 has "worker Hu and work object” for each pair consisting of the worker Hu detected from the captured image Im and the work object Ob detected from the captured image Im, respectively. Whether or not there is an interaction with Ob ”is determined. In other words, the information processing apparatus 10 has "worker Hu and work object Ob” from all pairs, each of which consists of a worker Hu detected from the captured image Im and a work object Ob detected from the captured image Im. Only “pairs that interact with” are extracted.
- the information processing apparatus 10 detects two workers Hu and four work objects Ob from the captured image Im of FIG. 3, and each of them consists of a worker Hu and a work object Ob, for a total of eight. Detect one pair.
- the information processing apparatus 10 determines, for each of the above eight pairs, "presence or absence of interaction between the worker Hu and the work object Ob" on a model basis. Then, the information processing apparatus 10 extracts only two pairs that "have an interaction between the worker Hu and the work object Ob" from the above eight pairs.
- the captured image Im exemplified in FIG. 3 the information processing apparatus 10 has, from the above eight pairs, "a pair of the worker Hu (1) and the work object Ob (2)" and "the worker Hu (2)". And the pair with the work object Ob (3) ”is extracted.
- the information processing apparatus 10 executes HOI detection only for the "pair of the worker Hu and the work object Ob" determined to be "there is an interaction between the two", that is, the worker Hu works.
- the content of the work Op performed on the object Ob is estimated.
- the information processing apparatus 10 has "a pair of a worker Hu (1) and a work object Ob (2)" and "a pair of a worker Hu (2) and a work object Ob (3)". HOI detection is executed only for.
- the information processing apparatus 10 does not execute HOI detection for all the "pairs of the worker Hu and the work object Ob" detected from the captured image Im, but has an interaction between the "worker Hu” and the information processing device 10. HOI detection is performed only for "pair with work object Ob".
- the information processing apparatus 10 can suppress the amount of calculation related to HOI detection and shorten the time required for HOI detection. In other words, the information processing apparatus 10 calculates the amount of calculation when the worker Hu captured in the captured image Im estimates the content of the work Op performed on the work object Ob captured in the captured image Im. It can be suppressed, the time required for estimation can be shortened, and the estimation process can be speeded up.
- the information processing apparatus 10 executes HOI detection (estimation of the contents of the work Op) only for the pair of the worker Hu and the work object Ob, which have an interaction between the two, so that the accuracy of the HOI detection can be achieved. Can be improved.
- the information processing apparatus 10 executes a determination process and an estimation process that are distinguished from each other in the analysis process of estimating the content of the work Op performed by the worker Hu on the work object Ob from the captured image Im.
- the determination process is a process for determining "whether or not there is an interaction between the worker Hu captured in the captured image Im and the work object Ob imaged in the captured image Im".
- the estimation process is a process of estimating "the content of the work Op performed by the worker Hu captured in the captured image Im on the work object Ob imaged in the captured image Im".
- the "worker Hu captured in the captured image Im” determined by the determination process "there is an interaction between the two" and the work object Ob captured in the captured image Im. It is a process of estimating the content of "work Op as HOI" only for "pair of".
- the information processing apparatus 10 When the information processing apparatus 10 realizes the analysis unit 120 that performs the analysis process as a neural network (NN), the information processing device 10 has a determination unit 122 (determination model 152) related to the determination process and an estimation unit 123 (estimation model 153) related to the estimation process. By distinguishing from, the following effects are realized. That is, the information processing apparatus 10 uses a plurality of data sets DS having different domains from each other by distinguishing the determination model 152 and the estimation model 153, each of which is a trained model, in the analysis unit 120 realized as an NN. Enables transfer learning.
- the analysis unit 120 captures an image Im of the determination model 152 (A) constructed by machine learning for the “data set DS (A) prepared in the factory Fa (A)” captured by the factory Fa (C).
- the network design can be used for analysis of (C). Details will be described later.
- support information which is information that can be used to support the efficient execution of work Op by worker Hu, it is useful to visualize the process information in the factory Fa.
- the information processing apparatus 10 regards the work Op performed by the worker Hu on the work object Ob as an interaction (HOI) between the worker Hu and the work object Ob. Then, the information processing apparatus 10 executes estimation of the contents of the work Op performed by the worker Hu on the work object Ob, for example, as HOI detection.
- the information processing apparatus 10 accumulates the knowledge available for HOI detection, that is, the knowledge for estimating the content of the work Op, for example, in at least one of the factories Fa (A) and Fa (B). Collect data for learning. Then, the information processing apparatus 10 can also divert the trained model (specifically, the determination model 152) constructed by machine learning to the collected data to the estimation of the contents of the work Op in the factory Fa (C). can.
- the trained model specifically, the determination model 152 constructed by machine learning
- the information processing apparatus 10 When the information processing apparatus 10 realizes the analysis unit 120 that performs analysis processing as an NN, the information processing apparatus 10 separates the network related to the determination processing (determination model 152) and the network related to the estimation processing (estimation model 153) into the following. Realize the effect. That is, the information processing apparatus 10 enables transfer learning of rule information (knowledge) for estimating work Op, and for example, the knowledge learned in one factory Fa (X) is transferred to another factory Fa (Y). It can also be used to estimate work ops.
- knowledge knowledge
- the information processing apparatus 10 selects a "pair of a worker Hu and a work object Ob" in which there is no interaction from all possible "pairs of a worker Hu and a work object Ob" on a model basis. Remove. On top of that, the information processing apparatus 10 detects HOI (that is, estimates the contents of the work Op) only for the "pair of the worker Hu and the work object Ob" in which the interaction exists, for example, on a model basis. Run.
- HOI that is, estimates the contents of the work Op
- the information processing apparatus 10 removes the "pair of the worker Hu and the work object Ob" in which there is no interaction on a model basis, thereby removing the complicated rules required by the conventional method for such removal. It is unnecessary.
- the information processing apparatus 10 can improve the estimation accuracy of the contents of the work Op by removing the "pair of the worker Hu and the work object Ob" in which the interaction does not exist.
- the information processing apparatus 10 suppresses the amount of calculation in estimating the contents of the work Op by removing the "pair of the worker Hu and the work object Ob" in which the interaction does not exist, and the contents of the work Op.
- the time required for estimation can be shortened. That is, the information processing apparatus 10 extracts the "pair of the worker Hu and the work object Ob" that needs to estimate the contents of the work Op, and the extracted "pair of the worker Hu and the work object Ob". Only, by estimating the content of the work Op, the calculation speed can be increased.
- the information processing apparatus 10 analyzes (estimates) an operation (work Op) on a rule basis using information for estimating a human pose (posture) and information about an object, and uses a plurality of methods. It differs from the method of "combining and analyzing behavior" in the following points. That is, the information processing apparatus 10 realizes end-to-end work estimation processing by using, for example, NN. Further, the information processing apparatus 10 adopts a network structure capable of transfer learning, and can improve the estimation accuracy related to the estimation of the contents of the work Op by diverting the existing knowledge.
- the information processing apparatus 10 determines whether or not there is an interaction between the "worker Hu captured in the captured image Im” and the "working object Ob imaged in the captured image Im” on a rule basis. not.
- the information processing apparatus 10 discovers and generates a rule (rule) relating to the existence or nonexistence of the interaction between the worker Hu and the work object Ob by machine learning, and uses this rule to capture an image of the captured image Im. It is determined whether or not there is an interaction between the worker Hu and the work object Ob.
- the information processing apparatus 10 detects all the “pairs of the worker Hu and the work object Ob" captured in the captured image Im, and from among them, the “worker Hu” having an interaction between the two. Only “pair with work object Ob” is automatically extracted on a model basis.
- the information processing device 10 is a work estimation device that estimates the content of the work Op performed by the worker Hu captured in the captured image Im from the captured image Im captured in the workplace Ar, and is a detection unit 121. And a determination unit 122 and an estimation unit 123.
- the detection unit 121 detects the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im from the captured image Im.
- the determination unit 122 determines whether or not there is an interaction between the worker Hu detected by the detection unit 121 and the work object Ob from the captured image Im or its characteristic information on a model basis.
- the determination unit 122 uses the determination model 152, which is a trained model, to determine the existence or nonexistence of the interaction between the worker Hu detected by the detection unit 121 and the work object Ob from the captured image Im or its characteristic information. judge.
- the determination model 152 inputs "feature information generated from the captured image Im or the captured image Im", and "the worker Hu captured in the captured image Im and the work target captured in the captured image Im". It is a trained model that outputs "presence or absence of interaction with object Ob".
- the estimation unit 123 describes the contents of the work Op performed by the worker Hu on the work object Ob for the combination (pair) of the worker Hu and the work object Ob determined by the determination unit 122 to have an interaction. presume.
- the information processing apparatus 10 uses the determined model 152, which is a trained model, with respect to the “pair of the worker Hu and the work object Ob” detected from the captured image Im, the worker Hu. The existence or nonexistence of the interaction between the work object Ob and the work object Ob is determined. Then, regarding the "pair of the worker Hu and the work object Ob" determined that the interaction exists, the information processing apparatus 10 has the worker Hu, which is one of the pair, with respect to the work object Ob, which is the other of the pair. Estimate the contents of the work Op that is being performed.
- the information processing apparatus 10 determines whether or not the interaction between the worker Hu and the work object Ob detected from the captured image Im is based on a model, not on a rule basis.
- the information processing apparatus 10 does not need to prepare complicated rules for estimating the contents of the work ops, and the work ops performed by the worker Hu can be performed. It has the effect of being able to be estimated.
- the information processing apparatus 10 describes the contents of the work Op performed by the worker Hu on the work object Ob with respect to the pair of the worker Hu and the work object Ob determined on the model basis as “there is an interaction”. To estimate.
- the information processing apparatus 10 does not cover all the pairs of the worker Hu and the work object Ob captured in the captured image Im, but only the pair determined to have "interaction". Estimate the contents of the work Op that is being performed by.
- the information processing apparatus 10 is a calculation amount required for the worker Hu captured in the captured image Im to estimate the content of the work Op performed on the work object Ob imaged in the captured image Im. It has the effect of being able to suppress.
- the detection unit 121 is imaged from the captured image Im by the “worker Hu captured in the captured image Im” and “the captured image Im” by using the detection model 151 which is a learned model. "Working object Ob" is detected.
- the detection model 151 takes the captured image Im as an input, and outputs information related to "worker Hu captured in the captured image Im” and information related to "working object Ob captured in the captured image Im". It is a trained model.
- the information processing apparatus 10 uses the detection model 151 to capture the “worker Hu captured in the captured image Im” and the “work captured in the captured image Im” from the captured image Im. "Object Ob” is detected.
- the information processing apparatus 10 captures the "worker Hu captured in the captured image Im” and the "working object Ob imaged in the captured image Im” not on a rule basis but on a model basis. Detect from image Im.
- the information processing apparatus 10 does not require complicated rule maintenance, and from the captured image Im, "worker Hu captured in the captured image Im” and “working object captured in the captured image Im". It has the effect of being able to detect "Ob”.
- the estimation unit 123 uses the estimation model 153, which is a trained model, and the worker Hu, who is one of the pairs determined by the determination unit 122 as “there is an interaction”, is the pair.
- the content of the work Op performed on the work object Ob is estimated.
- the estimation model 153 uses the "captured image Im or its characteristic information" as an input, and the worker Hu captured in the captured image Im performs the work object Ob captured in the captured image Im. It is a trained model that outputs "contents of work Op".
- the information processing apparatus 10 uses the estimation model 153 for the pair determined to have "interaction", and the worker Hu, which is one of the pair, is the other of the pair.
- the content of the work Op performed on the work object Ob is estimated.
- the worker Hu and the work object Ob detected from the captured image Im are not rule-based but model-based, and the work Op performed by the worker Hu on the work object Ob. Estimate the content.
- the information processing apparatus 10 does not need to prepare complicated rules for estimating the contents of the work ops, and the work ops performed by the worker Hu can be performed. It has the effect of being able to be estimated.
- the information processing apparatus 10 further includes a process information acquisition unit 130 (acquisition unit) and a support information generation unit 140 (generation unit).
- the process information acquisition unit 130 is process information generated from the operation result La indicating the contents and results of the operation Ac executed by the equipment 40 from the PLC 20 (control device) that controls the operation Ac of the equipment 40 installed in the work place Ar. To get.
- the support information generation unit 140 efficiently executes the work Op by the worker Hu from the contents of the work Op of the worker Hu estimated by the estimation unit 123 and the process information acquired by the process information acquisition unit 130. Generate support information, which is information that can be used to support.
- the information processing apparatus 10 acquires the process information generated from the "operation result La indicating the content and result of the operation Ac executed by the device 40 installed in the work place Ar" from the PLC 20. Then, the information processing apparatus 10 can be used to support the efficient execution of the work Op by the worker Hu from the "contents of the work Op of the worker Hu” estimated from the captured image Im and the process information. Generate support information, which is information.
- the information processing apparatus 10 is used to support the efficient execution of the work Op by the worker Hu by combining the "contents of the work Op of the worker Hu" estimated from the captured image Im with the process information. It has the effect of being able to generate support information, which is possible information.
- FIG. 1 is a block diagram showing a main configuration of an information processing device.
- the information processing apparatus 10 illustrated in FIG. 1 includes, for example, a captured image acquisition unit 110, an analysis unit 120, a process information acquisition unit 130, a support information generation unit 140, and a storage unit 150 as functional blocks.
- the information processing device 10 may include the following parts in addition to the above-mentioned functional blocks. That is, the information processing apparatus 10 determines the time (stay time) during which the worker Hu, the management unit that controls the storage (storing) of the captured image Im in the predetermined storage area (storing area), stays in the work place Ar. It may be provided with a measuring unit for measuring, an analysis unit for associating process information with a staying time, and the like.
- the configuration of the information processing apparatus 10 which is not directly related to the present embodiment is omitted from the description and the block diagram. However, according to the actual situation of implementation, the information processing apparatus 10 may have these omitted configurations.
- the above-mentioned functional block included in the information processing apparatus 10 is stored in, for example, a storage device (storage unit 150) in which the arithmetic unit is realized by a ROM (read only memory), an NVRAM (non-Volatile random access memory), or the like. It can be realized by reading the existing program into a RAM (random access memory) (not shown) and executing it.
- a storage device storage unit 150
- the arithmetic unit is realized by a ROM (read only memory), an NVRAM (non-Volatile random access memory), or the like. It can be realized by reading the existing program into a RAM (random access memory) (not shown) and executing it.
- Devices that can be used as arithmetic units include, for example, CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), and PPU. (Physics Processing Unit), a microcontrol
- the captured image acquisition unit 110 acquires the captured image Im that the ceiling camera 30 has captured the workplace Ar from the ceiling camera 30, and outputs the acquired captured image Im to the detection unit 121.
- the analysis unit 120 analyzes the captured image Im captured by the ceiling camera 30, and "work Op that the worker Hu captured in the captured image Im is performing the work Op on the work object Ob captured in the captured image Im.
- the analysis process which is the process of estimating the "contents of" is executed.
- the analysis unit 120 outputs the estimated content of the work Op as an analysis result for the captured image Im, and outputs it to, for example, the support information generation unit 140, the moving image storage server of FIG. 2, or the like.
- the analysis unit 120 may output the analysis result for the captured image Im together with the captured image Im to the moving image storage server or the like in FIG.
- the analysis unit 120 executes a model-based analysis on the captured image Im, and "work performed by the worker Hu captured on the captured image Im on the work object Ob captured on the captured image Im". "Contents of Op” is output.
- the analysis unit 120 is realized as, for example, a neural network (NN).
- the analysis unit 120 includes a detection unit 121, a determination unit 122, and an estimation unit 123.
- the detection unit 121 extracts the feature information (feature amount) of the captured image Im from the captured image Im, and specifically, "related to the worker Hu (body part of the worker Hu) captured in the captured image Im". "Information” and “information related to the work object Ob captured in the captured image Im” are output. In other words, the detection unit 121 obtains "worker Hu (body part of worker Hu) captured by the captured image Im” and “working object Ob captured by the captured image Im” from the captured image Im. To detect.
- the "information relating to the worker Hu captured in the captured image Im” is, for example, "presence / absence of the worker Hu captured in the captured image Im (whether or not the worker Hu is captured in the captured image Im”. ), Spatial arrangement (position in space), posture, etc.
- the "information relating to the work object Ob captured in the captured image Im” is, for example, "presence / absence, spatial arrangement, and the captured image Im of the work object Ob captured in the captured image Im". This is information indicating "what is the work object Ob” and the like.
- the detection unit 121 extracts the feature information of the captured image Im from the captured image Im by using the detection model 151 acquired with reference to the storage unit 150, that is, the “worker Hu” imaged in the captured image Im. And work object Ob ”is detected.
- the detection unit 121 outputs the feature information of the captured image Im extracted from the captured image Im to the determination unit 122 and the estimation unit 123. In other words, the detection unit 121 detects "worker Hu (body part of worker Hu) captured in the captured image Im" and "working object Ob captured in the captured image Im". Is notified to the determination unit 122 and the estimation unit 123.
- the determination unit 122 is captured by the “worker Hu captured in the captured image Im” and the “captured image Im” using the captured image Im or the feature information of the captured image Im extracted by the detection unit 121.
- the following determination is executed for the pair with the work object Ob. That is, the determination unit 122 determines whether or not there is an interaction between the pair of "worker Hu captured in the captured image Im” and "working object Ob captured in the captured image Im". do. In other words, the determination unit 122 describes the "worker Hu captured in the captured image Im” and the "working object Ob imaged in the captured image Im” detected by the detection unit 121 from the captured image Im. Determine if there is an interaction between the two.
- the determination unit 122 uses the determination model 152 acquired with reference to the storage unit 150 to detect "worker Hu and work object” from the captured image Im from the feature information of the captured image Im or the captured image Im. For “Ob”, "presence or absence of mutual relationship between the two” is determined.
- the determination unit 122 notifies the estimation unit 123 of the determination result, and for example, the "worker Hu captured in the captured image Im” and the “captured image Im” that determine that there is an interaction between the two are captured.
- the pair with the work object Ob that has been performed is output to the estimation unit 123.
- the estimation unit 123 uses the captured image Im or the feature information of the captured image Im extracted by the detection unit 121 to "work that the worker Hu captured in the captured image Im is captured in the captured image Im. The content of the work Op performed on the object Ob is estimated.
- the estimation unit 123 executes the above estimation using the estimation model 153 acquired with reference to the storage unit 150. That is, the estimation unit 123 uses the estimation model 153 to capture the "worker Hu captured in the captured image Im" in the captured image Im from the feature information of the captured image Im or the captured image Im. The content of the work Op performed on the work object Ob ”is estimated.
- the estimation unit 123 has determined that "there is an interaction between the two" by the determination unit 122, "worker Hu captured in the captured image Im” and "work captured in the captured image Im". The above estimation is performed only for the "pair with the object Ob". That is, the estimation unit 123 performs only for the pair determined to have "interaction between the two" by the worker Hu, one of the pair, for the work object Ob, which is the other of the pair. The content of the work Op is estimated.
- the process information acquisition unit 130 acquires process information from the PLC 20 which is a control device, and outputs the acquired process information to the support information generation unit 140.
- the support information generation unit 140 supports the efficient execution of the work Op by the worker Hu by using the contents of the work Op (A) estimated by the analysis unit 120 (particularly, the estimation unit 123) and the process information. Generates support information, which is information that can be used for.
- the support information generation unit 140 outputs the generated support information, and outputs the generated support information to, for example, the moving image storage server of FIG.
- the storage unit 150 is a storage device that stores various data used by the information processing device 10.
- the storage unit 150 has (1) a control program executed by the information processing apparatus 10, (2) an OS program, (3) an application program for executing various functions of the information processing apparatus 10, and (4).
- Various data to be read when the application program is executed may be stored non-temporarily.
- the data of (1) to (4) above may be, for example, ROM (read only memory), flash memory, EPROM (Erasable Programmable ROM), EEPROM (registered trademark) (Electrically EPROM), HDD (Hard Disc Drive), or the like.
- the information processing device 10 may include a temporary storage unit (not shown).
- the temporary storage unit is a so-called working memory that temporarily stores data used for calculation, calculation results, etc. in the process of various processes executed by the information processing apparatus 10, and is volatile storage such as RAM (Random Access Memory). Consists of equipment. Which data is stored in which storage device is appropriately determined from the purpose of use, convenience, cost, physical restrictions, and the like of the information processing device 10.
- the storage unit 150 further stores a detection model 151, a determination model 152, and an estimation model 153.
- the detection model 151 is a model for "the detection unit 121 extracts the feature information (feature amount) of the captured image Im from the captured image Im". In other words, in the detection model 151, the detection unit 121 captures the "worker Hu (body part of the worker Hu) captured by the captured image Im” and the “working object captured by the captured image Im” from the captured image Im. It is a model for detecting "Ob”.
- the captured image Im is input, and "information relating to the worker Hu (body part of the worker Hu) captured in the captured image Im" and "work target captured in the captured image Im".
- This is a trained model that outputs "information related to the object Ob”.
- the determination model 152 describes "a pair of a worker Hu and a work object Ob captured in the captured image Im by the determination unit 122 using the captured image Im or the feature information of the captured image Im". It is a model for determining the existence or nonexistence of an interaction between the two. In other words, in the determination model 152, the determination unit 122 both of "worker Hu detected by the detection unit 121 from the captured image Im” and “work object Ob detected by the detection unit 121 from the captured image Im". It is a model for determining whether or not there is an interaction between.
- the determination model 152 uses, for example, the captured image Im (feature information of the captured image Im) as an input, and "the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im". It is a trained model that outputs information indicating "presence or absence of interaction between”.
- the estimation unit 123 uses the captured image Im or the feature information of the captured image Im to describe "a pair of the worker Hu and the work object Ob captured in the captured image Im" as follows. It is a model for estimating the contents of. That is, in the estimation model 153, the estimation unit 123 estimates "the content of the work Op performed by the worker Hu captured in the captured image Im on the work object Ob captured in the captured image Im". It is a model of.
- the estimation model 153 uses, for example, the captured image Im (characteristic information of the captured image Im) as an input, and "the worker Hu captured in the captured image Im performs the work object Ob captured in the captured image Im". It is a trained model that outputs information indicating "contents of the work being done”.
- the analysis unit 120 for performing analysis processing is realized as an NN
- the detection unit 121 detection model 151
- the determination unit 122 determination model 152
- the estimation unit 123 The relationship of the estimation model 153 will be outlined with reference to FIG.
- FIG. 4 is a diagram illustrating an example of the analysis unit 120 realized as an NN.
- the analysis unit 120 may be realized as an NN, and in particular, may be realized as a CNN (Convolution al Neural Network) or a DNN (Deep Neural Network).
- the analysis unit 120 realized as an NN includes a feature amount extractor R (not shown in FIG. 4), an interaction determination device P in FIG. 4, and a HOI classifier C in FIG.
- the feature amount extractor R (Representation network (feature extractor)) is, for example, Faster R-CNN, which executes object detection (Object detection) and corresponds to the detection unit 121 (detection model 151).
- the feature amount extractor R extracts the feature information (feature amount) of the captured image Im from the captured image Im.
- the feature amount extractor R inputs the captured image Im into the detection model 151 which is a trained model.
- the detection model 151 that receives the input of the captured image Im outputs the feature information of the captured image Im, and specifically, "related to the worker Hu (body part of the worker Hu) captured by the captured image Im". "Information” and "information related to the work object Ob captured in the captured image Im" are output.
- the following information is output as the feature information of the captured image Im with respect to the input of the captured image Im. That is, as the feature information of the captured image Im, information (PoseMap) indicating the posture of the worker Hu captured in the captured image Im is output. Further, as the feature information of the captured image Im, information (Spatial Maps) indicating the spatial arrangement of each of the worker Hu and the work object Ob captured in the captured image Im is output. Further, as the feature information of the captured image Im, other information (Human Feature) relating to the worker Hu captured in the captured image Im, and other information relating to the work object Ob captured in the captured image Im. (Object Feature) is output.
- the interaction determination device P (interactive Predictor) in FIG. 4 corresponds to the determination unit 122 (determination model 152).
- the interaction determination device P determines whether or not there is an interaction between the "pair of the worker Hu and the work object Ob" imaged in the captured image Im from the feature information of the captured image Im. Output the judgment result.
- the interaction determination device P inputs the feature information of the captured image Im into the determination model 152 which is a learned model.
- the determination model 152 that has received the input of the feature information of the captured image Im determines whether or not there is an interaction between the "pair of the worker Hu and the work object Ob" captured in the captured image Im. , Output the judgment result.
- the interaction determination device P executes the following determination on the captured image Im exemplified in FIG. 4 using the determination model 152. That is, in the interaction determination device P, first, two pairs captured in the captured image Im, specifically, "a pair of the worker Hu (1) and the work object Ob (1)" and "work". The pair of the person Hu (1) and the work object Ob (2) ”is detected. The interaction determination device P determines, for each of the two pairs, "whether or not there is an interaction between the worker Hu, which is one of the pair, and the work object Ob, which is the other of the pair.” The interaction determination device P determines that "there is an interaction between the worker Hu and the work object Ob" for the "pair of the worker Hu (1) and the work object Ob (1)". ..
- the interaction determination device P determines that "there is no interaction between the worker Hu and the work object Ob" for the "pair of the worker Hu (1) and the work object Ob (2)".
- the interaction determination device P outputs the determination result to the HOI classifier C, and for example, with the "worker Hu (1)” who determines that "there is an interaction between the worker Hu and the work object Ob". Only the "pair with the work object Ob (1)" is notified to the HOI classifier C.
- the interaction determination device P further uses the following values with respect to the output of the determination model 152 that has received the input of the feature information of the captured image Im, and is "working with the worker Hu” imaged in the captured image Im. Regarding the "pair with the object Ob", the existence or nonexistence of the interaction between the two may be determined. That is, the interaction determination device P may use a value obtained by converting the score of object detection by the feature amount extractor R into "a value from 0 to 1" by logistic regression.
- the object detection score is, for example, a score indicating the possibility of existence of each of the worker Hu and the work object Ob detected from the captured image Im.
- the HOI classifier C (HOI Classifier) in FIG. 4 is, for example, iCAN and corresponds to the estimation unit 123 (estimation model 153).
- the HOI classifier C obtains "contents of the work Op performed by the worker Hu captured in the captured image Im on the work object Ob captured in the captured image Im" from the feature information of the captured image Im.
- the information shown is output.
- the HOI classifier C inputs the feature information of the captured image Im into the estimated model 153, which is a trained model.
- the estimation model 153 which received the input of the feature information of the captured image Im, states that "the content of the work Op that the worker Hu captured in the captured image Im is performing on the work object Ob captured in the captured image Im.
- the information indicating "" is output.
- the HOI classifier C uses the output of the interaction determination device P, and the estimation model 153 "estimates the content of the work Op as the HOI between the two," the worker Hu and the work object Ob. Pair of "" is extracted. That is, in the HOI classifier C, the worker Hu works as the HOI between the two only for the "pair of the worker Hu and the work object Ob" determined to be "there is an interaction between the two". Estimate the content of the work Op performed on the object Ob.
- the HOI classifier C sets the "work” as the HOI between the two only for the "pair of the worker Hu and the work object Ob" determined to be "there is an interaction between the two".
- the score of "work Op” performed by the person Hu on the work object Ob is calculated.
- the HOI classifier C determines that the interaction determination device P "has an interaction between the two", “worker Hu (1) and work object Ob (1)”. HOI is detected only for "pair with”, and for example, the score of HOI is output.
- FIG. 4 exemplifies the following values as the score of the work Op (that is, HOI) performed by the worker Hu (1) on the work object Ob (1). That is, the score of "Carry” is “0.96”, the score of "Hold” is “0.89”, the score of "Paint” is “0.92”, and the score of "Ride” is “Ride”. An example of "0.03" is shown.
- the interaction determination device P detects "a pair of the worker Hu and the work object Ob" from the captured image Im prior to the estimation process by the HOI classifier C. Judges the necessity of estimation processing. That is, in the analysis unit 120, the interaction determination device P includes all the "worker Hu and the work object Ob" in the captured image Im that can be assumed from the feature information extracted from the captured image Im by the feature amount extractor R. Pairs that do not require estimation processing by the HOI classifier C are excluded from the "pairs". Then, the HOI classifier C detects the HOI between the two only for the remaining pair, that is, estimates the content of the work Op performed by the worker Hu on the work object Ob (executes the verb estimation). ).
- the analysis unit 120 can reduce the calculation cost of the estimation process by the HOI classifier C (that is, the estimation unit 123) in advance, and as a result, can improve the calculation speed of the entire analysis process of the captured image Im. ..
- the analysis unit 120 realized as an NN constructs each of the learned model 151, the determination model 152, and the estimation model 153 by, for example, the following method. That is, the analysis unit 120 performs supervised learning on the data set DS, which is a set of "data with a predetermined label attached to the feature information of the captured image Im or the captured image Im", to detect model 151 and the determination model 152. , And build an estimation model 153.
- learning data data with a predetermined label attached to the feature information of the captured image Im or the captured image Im
- the learning data is data in which the following information is attached as a label to the captured image Im. That is, in the learning data, the captured image Im includes information related to the worker Hu (body part of the worker Hu) captured in the captured image Im (eg, the presence / absence of the worker Hu, the spatial arrangement of the worker Hu (eg, the spatial arrangement of the worker Hu). Information indicating the position in space), the posture of the worker Hu, etc.) is attached as a label. Further, in the learning data, the captured image Im includes information related to the work object Ob captured in the captured image Im (eg, the presence / absence of the work object Ob, the spatial arrangement of the work object Ob, and the work object Ob. Information indicating what it is, etc.) is attached as a label.
- the captured image Im includes information related to the worker Hu (body part of the worker Hu) captured in the captured image Im (eg, the presence / absence of the worker Hu, the spatial arrangement of the worker Hu (eg, the spatial arrangement of the worker Hu). Information indicating the position in space), the
- the captured image Im includes information indicating "whether or not there is an interaction between the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im". Is attached as a label.
- the captured image Im indicates "the content of the work Op performed by the worker Hu captured on the captured image Im on the work object Ob captured on the captured image Im".
- the information is attached as a label.
- the information attached as a label for the captured image Im in the training data is a trained model constructed by machine learning for the data set DS, which is a set of training data, and is the captured image Im (or the feature information of the captured image Im). It is the same as the information to be output for the input of.
- the analysis unit 120 realized as an NN constructs a detection model 151 that outputs the following information with respect to the input of the captured image Im as a learned model by supervised learning for the data set DS. That is, the detection model 151 uses the captured image Im as an input, and "information relating to the worker Hu (body part of the worker Hu) captured in the captured image Im" and "the work target captured in the captured image Im". This is a trained model that outputs "information related to the object Ob". In particular, the detection model 151 provides "information relating to the worker Hu (body part of the worker Hu) captured in the captured image Im" and "information relating to the work object Ob captured in the captured image Im". This is a trained model that outputs the feature information (feature amount) of the captured image Im.
- the analysis unit 120 realized as an NN stores the detection model 151 constructed by learning in the storage unit 150.
- Model 152 is constructed as a trained model. That is, the determination model 152 uses the captured image Im (characteristic information of the captured image Im) as an input, and "the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im". It is a trained model that outputs information indicating "presence or absence of interaction between”.
- the captured image Im includes "whether or not there is an interaction between the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im".
- the learning data included in the "data set DS in which the analysis unit 120 realized as an NN performs supervised learning for constructing the determination model 152" may be the following data. That is, the information indicating "whether or not there is an interaction between the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im" as a label is a feature of the captured image Im. It may be data attached to information (feature amount). That is, with respect to the "feature information extracted by the detection model 151 from the captured image Im", the interaction between the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im. The data may be labeled with information indicating "presence or absence of action".
- the analysis unit 120 realized as an NN stores the determination model 152 constructed by learning in the storage unit 150.
- Model 153 is constructed as a trained model. That is, the estimation model 153 uses the captured image Im (characteristic information of the captured image Im) as an input, and "the worker Hu captured in the captured image Im performs the work object Ob captured in the captured image Im". It is a trained model that outputs information indicating "contents of the work being done”.
- the captured image Im includes "contents of the work Op performed by the worker Hu captured on the captured image Im on the work object Ob captured on the captured image Im". Information indicating that is attached as a label.
- the learning data included in the "data set DS in which the analysis unit 120 realized as an NN performs supervised learning for constructing the estimation model 153" may be the following data. That is, the information indicating "the content of the work Op performed by the worker Hu captured on the captured image Im on the work object Ob captured on the captured image Im" as a label is a feature of the captured image Im. It may be data attached to information (feature amount). That is, in response to the "feature information extracted by the detection model 151 from the captured image Im", the work performed by the worker Hu captured in the captured image Im on the work object Ob captured in the captured image Im. The data may be labeled with information indicating "contents of Op".
- the analysis unit 120 realized as an NN stores the estimation model 153 constructed by learning in the storage unit 150.
- Operation example operation example for each mode
- the information processing apparatus 10 operates in a normal mode or a transfer learning mode.
- the analysis unit 120 realized as an NN constructs the interaction determination device P (determination model 152) and the HOI classifier C (estimation model 153) by learning for the same data set DS.
- the data set DS learned by the analysis unit 120 realized as an NN to construct the interaction determination device P (determination model 152) and the analysis unit 120 the HOI classifier C (estimation model 153). It is different from the dataset DS learned to build.
- the analysis unit 120 realized as an NN constructs the interaction determination device P (determination model 152) by learning for, for example, a data set DS (X) including a plurality of dataset DSs having different domains from each other. do.
- the analysis unit 120 includes data including "data set DS (A) prepared in the factory Fa (A)" and "data set DS (B) prepared in the factory Fa (B)".
- the determination model 152 (X) is constructed by learning the set DS (X).
- the captured image Im captured by at least one of the factories Fa (A) and Fa (B) is the "worker Hu and the work object Ob" captured in the captured image Im.
- Information indicating the existence or nonexistence of the interaction between them is attached as a label.
- the analysis unit 120 learns the existence or nonexistence of the interaction between the “worker Hu and the work object Ob” imaged in the captured image Im by the data set DS (X).
- the determination model 152 (X) constructed from the training of the data set DS (X) is an estimation model 153 constructed from the training of the data set DS (C) which is a data set DS different from the data set DS (X). Can collaborate with C). That is, the determination model 152 (X) constructed from the learning of the data set DS (X) is captured by the captured image Im (C) with respect to the captured image Im (C) captured by the factory Fa (C). Whether or not there is an interaction between "worker Hu and work object Ob" can be determined.
- the estimation model 153 (C) uses the output of the determination model 152 (X) to extract a pair of objects for "classifying HOI (that is, estimating the content of the work Op)". do. That is, the estimation model 153 (C) to which the captured image Im (C) (or its characteristic information) is input is the determination model 152 (X) to which the captured image Im (C) (or its characteristic information) is input. HOIs are classified only for pairs that are determined to have an interaction between the two.
- the analysis unit 120 uses the determination model 152 (X) constructed by learning the data collected in the factory Fa (X) to "worker Hu and the work object Ob" in the factory Fa (C). Whether or not there is an interaction between
- FIG. 5 is a diagram illustrating an outline of processing executed by the information processing apparatus 10 in the normal mode.
- FIG. 5A is a diagram illustrating an outline of learning processing executed by the information processing apparatus 10 in the normal mode
- FIG. 5B is a diagram of analysis processing executed by the information processing apparatus 10 in the normal mode. It is a figure explaining the outline.
- R”, “P”, and “C” in FIG. 5 are the feature amount extractor R (detection model 151), the interaction determiner P (determination model 152), and the HOI classifier C (estimated), respectively.
- Each of the models 153) is shown.
- the interaction determination device P determineation model 152 has an interaction between the "pair of the worker Hu and the work object Ob" captured in the captured image Im (interactive /). Non-interactive) is judged.
- the HOI classifier C (estimated model 153) is the HOI of the "pair of the worker Hu and the work object Ob" captured in the captured image Im, and the worker Hu, which is one of the pair, is the HOI.
- the content of the work Op performed on the work object Ob which is the other side of the pair is estimated.
- the analysis unit 120 constructs the trained model used for the analysis of the "image captured image Im captured by a certain factory Fa" as follows. That is, the analysis unit 120 attaches a predetermined label to "characteristic information of the captured image Im captured by the certain factory Fa or the captured image Im captured by the certain factory Fa".
- a model for analysis is constructed from the set of "data for training" (data set DS).
- the captured image Im included in the training data (teacher data) and the captured image Im input to the trained model constructed by learning the dataset DS, which is a set of the training data, are in the same factory. It was imaged in Fa.
- the analysis unit 120 in the normal mode, the analysis unit 120 generates a trained model to be used for analysis of the “captured image Im (A) captured by the factory Fa (A)” as follows. That is, the analysis unit 120 has a teacher for the data set DS (A), which is a set of "data with a predetermined label for the feature information of the captured image Im (A) or the captured image Im (A)". By training, a trained model used for analysis of the captured image Im (A) is constructed.
- the data set DS learned to build the interaction determiner P (determination model 152) and the data set DS learned to build the HOI classifier C (estimated model 153). Is the same dataset DS.
- the determination model 152 (A) and the estimation model 153 (A), which are trained models for analyzing the captured image Im (A) captured by the factory Fa (A), are Both are constructed by training on the dataset DS (A).
- the analysis processing for the captured image Im (A) is performed on the determination model 152 (A) constructed by learning the data set DS (A) common to each other. It is performed using the estimation model 153 (A).
- the determination model 152 (A) relates to the "pair of the worker Hu and the work object Ob" imaged in the captured image Im (A). Determine if there is an interaction between the two.
- the estimation model 153 (A) is a pair of pairs determined by the determination model 152 (A) to have "interaction between the two".
- the content of the work Op is estimated as the HOI of.
- limiting the pair for estimating the content of the work Op to the pair determined to have "interaction between the two” is called "interactive suppression”.
- FIG. 6 is a diagram illustrating an outline of processing executed by the information processing apparatus 10 in the transfer learning mode.
- FIG. 6A is a diagram illustrating an outline of learning processing executed by the information processing apparatus 10 in the transfer learning mode
- FIG. 6B is an analysis executed by the information processing apparatus 10 in the transfer learning mode. It is a figure explaining the outline of processing.
- R”, “P”, and “C” in FIG. 6 are a feature amount extractor R (detection model 151), an interaction determiner P (determination model 152), and an HOI classifier C (estimated), respectively.
- Each of the models 153) is shown.
- the interaction determination device P determineation model 152 has an interaction between the "pair of the worker Hu and the work object Ob" captured in the captured image Im (interactive /). Non-interactive) is judged.
- the HOI classifier C (estimated model 153) is the HOI of the "pair of the worker Hu and the work object Ob" captured in the captured image Im, and the worker Hu, which is one of the pair, is the HOI.
- the content of the work Op performed on the work object Ob which is the other side of the pair is estimated.
- the method in which the analysis unit 120 constructs the estimation model 153 in the learning process of the transfer learning mode is the same as the method in which the analysis unit 120 constructs the estimation model 153 in the learning process of the normal mode.
- the analysis unit 120 uses the captured image Im (or its characteristic information) captured in a certain factory Fa to perform the work Op performed by the worker Hu on the work object Ob in the certain factory Fa.
- An estimation model 153 that estimates the contents of the above is constructed as follows. That is, the analysis unit 120 is a set (data set DS) of "learning data with a predetermined label attached to" the captured image Im (or its characteristic information) captured at the certain factory Fa ". ) To build an estimation model 153.
- the analysis unit 120 in the transfer learning mode, the analysis unit 120 generates an estimation model 153 (C) used for analysis of the “image captured image Im (C) captured by the factory Fa (C)” as follows. That is, the analysis unit 120 has a teacher for the data set DS (C), which is a set of "data with a predetermined label for the feature information of the captured image Im (C) or the captured image Im (C)".
- the estimation model 153 (C) is constructed by training.
- the method in which the analysis unit 120 constructs the determination model 152 in the learning process of the transfer learning mode is different from the method in which the analysis unit 120 constructs the determination model 152 in the learning process of the normal mode.
- the analysis unit 120 describes the "pair of the worker Hu and the work object Ob" captured in the captured image Im from the captured image Im (or its characteristic information) captured in a certain factory Fa.
- the determination model 152 for determining the existence or nonexistence of the interaction between the two is constructed as follows. That is, the analysis unit 120 is a set of "learning data with a predetermined label attached to" the captured image Im (or its characteristic information) captured by a factory Fa other than the certain factory Fa "”.
- the determination model 152 is constructed from (data set DS).
- the analysis unit 120 in the transfer learning mode, the analysis unit 120 generates the determination model 152 (C) used for the analysis of the “captured image Im (C) captured by the factory Fa (C)” as follows. That is, the analysis unit 120 uses the determination model 152 (A) constructed from the learning for the data set DS (A) as the determination model 152 (C).
- the analysis unit 120 further attaches a predetermined label to the “impressed image Im (B) (or its characteristic information) captured by the factory Fa (B)”. You may learn the data set DS (B) which is a set of "attached data”.
- the analysis unit 120 uses the determination model 152 (X) constructed from the learning for the data set DS (X) including the data set DS (A) and the data set DS (B). C) may be used.
- the analysis unit 120 constructs the determination model 152 (C) (that is, the determination model 152 (X)) from the learning on the data set DS (X), and the estimation model from the learning on the data set DS (C). Build 153 (C).
- the determination model 152 (X) relates to the "pair of the worker Hu and the work object Ob" imaged in the captured image Im (C). , Determine the presence or absence of interaction between the two.
- the estimation model 153 (C) is the pair determined by the determination model 152 (X) to have "interaction between the two".
- the content of the work Op is estimated as the HOI of the pair.
- limiting the pair for estimating the content of the work Op to the pair determined to have "interaction between the two” is called "interactive suppression”.
- FIGS. 5 and 6 The contents explained so far using FIGS. 5 and 6 can be organized as follows. That is, the information processing apparatus 10 operates in the normal mode or the transfer learning mode.
- the information processing apparatus 10 learns about the data set DS (eg, data set DS (A)) collected at a certain factory (eg, factory Fa (A)), and the determination model 152 (eg, judgment model 152). (A)) is constructed. Then, the determination unit 122 uses the constructed determination model (eg, determination model 152 (A)), and the captured image Im (A) captured in the workplace Ar of the certain factory (eg, factory Fa (A)). ), It is determined whether or not there is an interaction between the worker Hu and the work object Ob.
- the data set DS eg, data set DS (A)
- the determination model 152 eg, judgment model 152
- the information processing apparatus 10 uses the determination model 152 (eg, determination) by learning the data set DS (eg, dataset DS (X)) collected at a certain factory (eg, factory Fa (X)). Model 152 (X)) is constructed. Then, the determination unit 122 uses the constructed determination model (eg, determination model 152 (X)) to capture an image Im (C) captured at the workplace Ar of another factory Fa (eg, factory Fa (C)). ), It is determined whether or not there is an interaction between the worker Hu and the work object Ob.
- the determination model 152 eg, determination
- the information processing apparatus 10 operates in the normal mode or the transfer learning mode.
- the factory Fa where the captured image Im in which the existence or nonexistence of the interaction between the worker Hu and the work object Ob is determined is captured, and the factory in which the data set for constructing the determination model 152 is collected. Fa is the same.
- the transfer learning mode the factory Fa in which the captured image Im in which the presence or absence of the interaction between the worker Hu and the work object Ob is determined is captured, and the data set for constructing the determination model 152 are collected. It is different from the factory Fa.
- the developer of the information processing apparatus 10 determines whether or not there is an interaction between the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im. It was confirmed that the determination can be made sufficiently independently of the influence of the environment in which the image was taken.
- the information processing apparatus 10 learns about the determination of the captured image (X) captured by one factory Fa (X) in another factory Fa (Y), the determination model 152 (Y). Has the effect of being able to use.
- FIG. 7 is a flow chart illustrating an overall outline of the analysis process executed by the information processing apparatus 10.
- S210 and S220 are processes executed by the detection unit 121 (detection model 151) which is the feature amount extractor R.
- S310 and S320 are processes executed by the determination unit 122 (determination model 152) which is the interaction determination device P.
- S410 to S430 are processes executed by the estimation unit 123 (estimation model 153) which is the HOI classifier C.
- the captured image acquisition unit 110 acquires sensor data from the ceiling camera 30, specifically, acquires the captured image Im (S110).
- the captured image acquisition unit 110 outputs the acquired captured image Im to the analysis unit 120, and particularly to the detection unit 121.
- the analysis unit 120 (particularly, the detection unit 121) generates feature information (feature amount) from the captured image Im.
- the detection unit 121 generates information related to the worker Hu (body part of the worker Hu) captured in the captured image Im as the feature information of the captured image Im, and for example, from the captured image Im to the captured image Im.
- the imaged worker Hu (body part of the worker Hu) is detected.
- the detection unit 121 has information related to the worker Hu (body part of the worker Hu) captured in the captured image Im from the captured image Im (eg, presence / absence of the worker Hu, spatial arrangement of the worker Hu).
- Information indicating the posture (pose) of the worker Hu) is acquired (S210).
- the detection unit 121 generates information related to the work object Ob captured in the captured image Im as the feature information of the captured image Im, and for example, the work captured in the captured image Im from the captured image Im.
- the detection of the object Ob is executed.
- the detection unit 121 is the information related to the work object Ob captured in the captured image Im from the captured image Im (eg, the presence / absence of the work object Ob, the spatial arrangement of the work object Ob). , Information indicating what the work object Ob is, etc.) is acquired (S220).
- the detection unit 121 determines the feature information of the captured image Im acquired (generated) from the captured image Im (for example, information related to each of the worker Hu and the work object Ob captured in the captured image Im). It is output to 122 and the estimation unit 123.
- the determination unit 122 is a list of "a pair of” worker Hu captured in the captured image Im “and” work object Ob captured in the captured image Im "” from the feature information acquired from the detection unit 121. Acquires (generates) pair list information (S310).
- the pair list information includes "" one worker Hu captured in the captured image Im “and” one working object Ob captured in the captured image Im ". All pairs (eg, eight pairs in the captured image Im in FIG. 3) are shown.
- the determination unit 122 determines "whether there is an interaction between the worker Hu and the work object Ob" for all the pairs listed in the pair list information (S320).
- the determination unit 122 determines that there is an interaction between the worker Hu and the work object Ob (YES in S320) for the pair listed in the pair list information
- the worker Hu and the work object Ob Notify the estimation unit 123 of the pair determined to have an interaction between the two.
- the determination unit 122 determines that there is no interaction between the worker Hu and the work object Ob for all the pairs listed in the pair list information (NO in S320)
- the information processing apparatus 10 determines that there is no interaction, and the information processing apparatus 10 determines that there is no interaction. Return to and acquire a new captured image Im from the ceiling camera 30.
- the estimation unit 123 grasps the pair determined by the determination unit 122 that "there is an interaction between the worker Hu and the work object Ob", that is, it is determined that there is an interaction between them.
- the worker Hu and the work object Ob are associated with each other (S410).
- the estimation unit 123 estimates the content of the work Op that the worker Hu is performing on the work object Ob with respect to the worker Hu associated with the work object Ob in S410 (S420).
- the estimation unit 123 performs the work Op performed by the worker Hu on the work object Ob only for the pair determined by the determination unit 122 that "there is an interaction between the worker Hu and the work object Ob". It is detected as HOI, that is, the content of the work Op is estimated.
- the estimation unit 123 (analysis unit 120) outputs the estimated work Op content (work content) to, for example, the support information generation unit 140 and the video storage server of FIG. 2 (S430).
- the control method executed by the information processing device 10 is the information processing device 10 that estimates the content of the work Op performed by the worker Hu captured in the captured image Im from the captured image Im captured in the workplace Ar. It is a control method.
- the control method includes a detection step (S210 and S220), a determination step (S320), and an estimation step (S420).
- the detection step detects the worker Hu captured in the captured image Im and the work object Ob captured in the captured image Im from the captured image Im.
- the determination step determines whether or not there is an interaction between the worker Hu detected by the detection step and the work object Ob from the captured image Im or its characteristic information on a model basis.
- the existence or nonexistence of the interaction between the worker Hu detected by the detection step and the work object Ob is determined from the captured image Im or its characteristic information by using the determination model 152 which is a trained model. ..
- the determination model 152 inputs "feature information generated from the captured image Im or the captured image Im", and "the worker Hu captured in the captured image Im and the work target captured in the captured image Im”. It is a trained model that outputs "presence or absence of interaction with object Ob".
- the estimation step estimates the content of the work Op performed by the worker Hu on the work object Ob for the combination (pair) of the worker Hu and the work object Ob determined by the determination step to have an interaction. ..
- the control method uses the determined model 152, which is a trained model, with respect to the "pair of the worker Hu and the work object Ob" detected from the captured image Im with the worker Hu.
- the existence or nonexistence of the interaction with the work object Ob is determined.
- the worker Hu one of the pair, performs the "pair of the worker Hu and the work object Ob", which is determined to have the interaction, with respect to the work object Ob, which is the other side of the pair. Estimate the contents of the work op.
- the presence or absence of interaction between the worker Hu and the work object Ob detected from the captured image Im is determined not on a rule basis but on a model basis.
- the control method estimates the work Op performed by the worker Hu without the need to prepare a complicated rule for estimating the content of the work Op even if the types of the work Op performed by the worker Hu increase. It has the effect of being able to.
- control method describes the contents of the work Op performed by the worker Hu on the work object Ob for the pair of the worker Hu and the work object Ob determined on the model basis as “there is an interaction”. presume.
- control method is not applied to all the pairs of the worker Hu and the work object Ob captured in the captured image Im, but only to the pair determined to have "interaction”. Estimate the content of the work Op that is being performed.
- control method calculates the amount of calculation required for the worker Hu captured in the captured image Im to estimate the content of the work Op performed on the work object Ob imaged in the captured image Im. It has the effect of being able to be suppressed.
- the estimation unit 123 has described an example of using the estimation model 153 to "estimate the content of the work Op performed by the worker Hu on the work object Ob" from the captured image Im.
- the estimation unit 123 may estimate the content of the work Op performed by the worker Hu on the work object Ob on a rule basis from the captured image Im.
- the functional blocks of the information processing device 10 are formed in an integrated circuit (IC chip) or the like. It may be realized by a logic circuit (hardware), or may be realized by software using a CPU, GPU, DSP, or the like.
- the information processing apparatus 10 records the CPU, GPU, DSP, etc. that execute the instructions of the program, which is software that realizes each function, and the program and various data so that the computer (or CPU) can read them. It is provided with a CPU or a storage device (these are referred to as "recording media") and a RAM or the like for developing the above program. Then, the object of the present invention is achieved by the computer (or CPU, GPU, DSP, etc.) reading the program from the recording medium and executing the program.
- the recording medium a "non-temporary tangible medium", for example, a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
- the program may be supplied to the computer via any transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program.
- the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the above program is embodied by electronic transmission.
- the work estimation device is a work estimation device that estimates the content of the work performed by the worker captured in the captured image from the captured image captured in the workplace, and is the captured image. From, the detection unit that detects the worker captured in the captured image and the work object captured in the captured image, and the captured image or the feature information generated from the captured image are input. The image pickup is performed using a determination model which is a learned model that outputs the presence or absence of an interaction between the worker captured in the captured image and the work object captured in the captured image. From the image or the feature information, the determination unit that determines the existence or nonexistence of the interaction between the worker and the work object detected by the detection unit, and the determination unit that determines that the interaction exists. For the combination of the worker and the work object, an estimation unit for estimating the content of the work performed by the worker on the work object is provided.
- the work estimation device uses the determination model to determine the presence or absence of interaction between the worker and the work object detected from the captured image. Then, the work estimation device estimates the content of the work performed by the worker on the work object for the combination of the worker and the work object for which the interaction is determined to exist.
- the work estimation device determines whether or not the worker and the work object detected from the captured image interact with each other on a model basis rather than a rule basis.
- the work estimation device can estimate the work performed by the worker without having to prepare complicated rules for estimating the content of the work even if the types of work performed by the worker increase. It has the effect of.
- the work estimation device estimates the content of the work performed by the worker on the work object with respect to the combination of the worker and the work object determined on the model basis that the interaction exists.
- the work estimation device is not for all the combinations of the worker and the work object captured in the captured image, but for the worker and the work object for which it is determined that an interaction exists. Only for the combination, the content of the work performed by the worker is estimated.
- the work estimation device calculates the amount of calculation required for the worker captured in the captured image to estimate the content of the work performed on the work object captured in the captured image. It has the effect of being able to be suppressed.
- the detection unit receives the captured image as an input, and the worker captured in the captured image and the work object captured in the captured image.
- the worker captured in the captured image and the work object captured in the captured image may be detected from the captured image by using the detection model which is a trained model having the output of. ..
- the work estimation device uses the detection model to obtain a worker captured in the captured image and a work object captured in the captured image from the captured image. To detect.
- the work estimation device detects the worker captured in the captured image and the work object captured in the captured image from the captured image not on a rule basis but on a model basis.
- the work estimation device detects the worker captured in the captured image and the work object captured in the captured image from the captured image without the need for complicated rule maintenance. It has the effect of being able to.
- the estimation unit inputs the captured image or the feature information generated from the captured image, and the worker captured in the captured image receives the captured image. It is determined by the determination unit that an interaction exists from the captured image or the feature information using an estimation model that is a trained model that outputs the content of the work being performed on the work object imaged in the image. With respect to the combination of the worker and the work object, the content of the work performed by the worker on the work object may be estimated.
- the worker performs the combination of the worker and the work object, which is determined to have an interaction, on the work object by using the estimation model. Estimate the content of the work being done.
- the work estimation device is not rule-based but model-based for the worker and the work object detected from the captured image, and the content of the work performed by the worker on the work object. To estimate.
- the work estimation device can estimate the work performed by the worker without having to prepare complicated rules for estimating the content of the work even if the types of work performed by the worker increase. It has the effect of.
- the work estimation device may operate in the normal mode or the transfer learning mode, in which the determination unit uses the determination model constructed by learning the data set collected at a certain factory. It may be used to determine the presence or absence of an interaction between the worker and the work object with respect to the captured image captured in the workplace of the factory, and the determination unit may be used in the transfer learning mode. Uses the determination model constructed by learning for a data set collected in a certain factory, and uses the worker and the work on the captured image captured in the workplace of another factory different from the certain factory. The presence or absence of an interaction with an object may be determined.
- the work estimation device operates in the normal mode or the transfer learning mode.
- the factory in which the captured image in which the existence or nonexistence of the interaction between the worker and the work object is determined is captured, and the factory in which the data set for constructing the determination model is collected.
- the transfer learning mode the factory where the captured image was captured to determine the presence or absence of the interaction between the worker and the work object, and the data set for constructing the determination model were collected. Not the same as a factory.
- the developer of the work estimation device determines whether or not there is an interaction between the worker captured in the captured image and the work object captured in the captured image. It was confirmed that the determination can be made sufficiently independently of the influence of the environment in which the image was taken.
- the determination model constructed by learning the data set collected at one factory determines the existence or nonexistence of the interaction with respect to the captured image captured at another factory. It can be used to determine.
- the work estimation device uses the determination model constructed by learning the captured image captured in one factory with respect to the data set collected in another factory, and uses the determination model of the interaction. It has the effect of being able to determine the existence.
- the work estimation device acquires process information generated from an operation result indicating the content and result of the operation executed by the device from the control device that controls the operation of the device installed in the work place.
- the control device that controls the operation of the device installed in the work place.
- the content of the work of the worker estimated by the estimation unit, and the process information acquired by the acquisition unit may further include a generator that generates support information, which is available information.
- the work estimation device acquires process information generated from the operation result indicating the content and result of the operation executed by the equipment installed in the work place from the control device. Then, the work estimation device is information that can be used to support the efficient execution of the work by the worker from the contents of the work of the worker estimated from the captured image and the process information. Generate some support information.
- the work estimation device can be used to support the efficient execution of the work by the worker by combining the work content of the worker estimated from the captured image with the process information. It has the effect of being able to generate support information, which is information.
- the control method is a control method of a work estimation device that estimates the content of the work performed by the worker captured in the captured image from the captured image captured in the workplace. From the captured image, a detection step for detecting the operator captured in the captured image and the work object captured in the captured image, and the captured image or the feature information generated from the captured image are input. A determination model, which is a learned model that outputs the presence or absence of an interaction between the worker captured in the captured image and the work object captured in the captured image, is used. From the captured image or the feature information, a determination step for determining the presence or absence of an interaction between the worker and the work object detected in the detection step, and a determination step for determining that the interaction exists. For the combined combination of the worker and the work object, the estimation step of estimating the content of the work performed by the worker on the work object is included.
- the control method uses the determination model to determine the presence or absence of interaction between the worker and the work object detected from the captured image. Then, the control method estimates the content of the work performed by the worker on the work object for the combination of the worker and the work object for which the interaction is determined to exist.
- control method determines whether or not the operator and the work object detected from the captured image interact with each other on a model basis rather than a rule basis.
- control method can estimate the work performed by the worker without having to prepare complicated rules for estimating the content of the work even if the types of work performed by the worker increase. Play the effect of.
- control method estimates the content of the work performed by the worker on the work object with respect to the combination of the worker and the work object determined on the model basis that the interaction exists.
- control method is not for all the combinations of the worker and the work object captured in the captured image, but for the combination of the worker and the work object for which it is determined that an interaction exists. Only for, the content of the work performed by the worker is estimated.
- control method suppresses the amount of calculation required for the worker captured in the captured image to estimate the content of the work performed on the work object captured in the captured image. It has the effect of being able to do it.
- Information processing device 40 Equipment 20 PLC (Control Device) 121 Detection unit 122 Judgment unit 123 Estimating unit 151 Detection model 152 Judgment model 153 Estimating model 130 Process information acquisition unit (acquisition unit) 140 Support information generation unit (generation unit) Ac Operation Ar Workplace DS Data Set Fa Factory Hu Worker Im Captured Image La Operation Result Ob Work Object Op Work S210 (Detection Step) S220 (detection step) S320 (judgment step) S420 (estimated step)
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Manufacturing & Machinery (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Automation & Control Theory (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Factory Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
作業者の行う作業の種類が増えても、煩雑なルール整備を必要とせずに、作業者が行っている作業を推定する。情報処理装置(10)は、モデルベースで相互作用が存在すると判定した作業者(Hu)と作業対象物(Ob)とのペアについてのみ、作業者(Hu)が作業対象物(Ob)について行っている作業(Op)の内容を推定する。
Description
本発明は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置等に関する。
従来、生産現場等において作業者が行っている作業の内容を推定する作業推定装置および作業推定方法が知られている。例えば、下掲の特許文献1には、カメラ映像から検出された作業者の体の部位と物体とから、撮像された作業者の行っている作業が規定の作業種別のいずれに該当するかを識別する作業認識方法が開示されている。
しかしながら、上述の作業認識方法はルールベースで作業種別を識別するため、作業者の行う作業の種類が増えると、作業種別の識別のために必要なルールを人の手で予め準備するのは煩雑であるという問題がある。
本発明の一態様は、作業者の行う作業の種類が増えても、煩雑なルール整備を必要とせずに、作業者が行っている作業を推定することのできる作業推定装置等を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る作業推定装置は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出部と、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出部によって検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定部と、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定部と、を備える。
上記の課題を解決するために、本発明の一態様に係る制御方法は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置の制御方法であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出ステップと、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出ステップにて検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定ステップと、前記判定ステップによって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定ステップと、を含む。
本発明の一態様によれば、作業者の行う作業の種類が増えても、煩雑なルール整備を必要とせずに、作業者が行っている作業を推定することができるとの効果を奏する。
〔実施形態1〕
以下、本発明の一側面に係る実施の形態(以下、「本実施形態」とも表記する)を、図面に基づいて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。本実施の形態においては、情報処理装置10を、「作業場Arを撮像した撮像画像Imから、撮像画像Imに撮像されている作業者Huが行っている作業Opの内容を推定する作業推定装置」の典型例として説明を行なう。
以下、本発明の一側面に係る実施の形態(以下、「本実施形態」とも表記する)を、図面に基づいて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。本実施の形態においては、情報処理装置10を、「作業場Arを撮像した撮像画像Imから、撮像画像Imに撮像されている作業者Huが行っている作業Opの内容を推定する作業推定装置」の典型例として説明を行なう。
以下の説明において、「n」、「m」、「p」、「q」、「x」、「y」は、各々、「1」以上の整数を示すものとし、「p」と「q」とは互いに異なる整数であり、「x」と「y」とは互いに異なる整数であるものとする。
§1.適用例
本発明の一態様に係る情報処理装置10(作業推定装置)についての理解を容易にするため、先ず、情報処理装置10が適用される環境について説明する。情報処理装置10は、例えば、撮像画像Imの解析結果を利用して、作業者Huが作業対象物Obについて行う作業Opの効率化等に資する情報(支援情報)を生成する。そこで先ず、作業者Hu、作業対象物Ob、作業Op、作業場Ar、および、1つ以上の作業場Arを含む工場Fa等について、説明する。
本発明の一態様に係る情報処理装置10(作業推定装置)についての理解を容易にするため、先ず、情報処理装置10が適用される環境について説明する。情報処理装置10は、例えば、撮像画像Imの解析結果を利用して、作業者Huが作業対象物Obについて行う作業Opの効率化等に資する情報(支援情報)を生成する。そこで先ず、作業者Hu、作業対象物Ob、作業Op、作業場Ar、および、1つ以上の作業場Arを含む工場Fa等について、説明する。
(工場および作業工程について)
生産現場である工場Faにおいては、例えば、各種の製品が、1つ以上の作業工程Pr(1)、Pr(2)、Pr(3)、・・・Pr(n)を経て生産される。工場Faにおいて実施される複数の作業工程Pr(1)、Pr(2)、Pr(3)、・・・Pr(n)の各々は、例えば、「塗装」工程、「主要ワークの組み立て」工程、「主要ワークの本体への組み込み」工程、「検査」工程である。
生産現場である工場Faにおいては、例えば、各種の製品が、1つ以上の作業工程Pr(1)、Pr(2)、Pr(3)、・・・Pr(n)を経て生産される。工場Faにおいて実施される複数の作業工程Pr(1)、Pr(2)、Pr(3)、・・・Pr(n)の各々は、例えば、「塗装」工程、「主要ワークの組み立て」工程、「主要ワークの本体への組み込み」工程、「検査」工程である。
複数の工場Faを互いに区別する必要がある場合には、符号に「(A)」、「(B)」、「(C)」、・・・、「(Z)」等の添え字を付して区別する。例えば、「工場Fa(A)」、「工場Fa(B)」、「工場Fa(X)」、・・・、「工場Fa(Z)」と記載して区別する。複数の工場Faの各々を特に区別する必要がない場合は単に「工場Fa」と称する。
また、作業工程Prについて、複数の作業工程Prの各々を区別する必要がある場合には、符号に「(1)」、「(2)」、「(3)」、・・・、「(n)」等の添え字を付して区別する。例えば、「作業工程Pr(1)」、「作業工程Pr(2)」、「作業工程Pr(3)」、・・・、「作業工程Pr(n)」と記載して区別する。複数の作業工程Prの各々を特に区別する必要がない場合は単に「作業工程Pr」と称する。
(作業について)
作業工程Prにおいて、作業者Huは、1つ以上の作業Op(1)、Op(2)、Op(3)、・・・Op(n)を行う。例えば、作業工程Pr(x)において、作業者Huは、作業Op(x1)、Op(x2)、Op(x3)を行う。一例を挙げれば、作業工程Pr(m)が「塗装」工程の場合、作業Op(x1)は、作業対象物Obの「把持」であってもよいし、作業Op(x2)は、作業対象物Obの「塗装」であってもよいし、作業Op(x3)は、作業対象物Obの「運搬」であってもよい。
作業工程Prにおいて、作業者Huは、1つ以上の作業Op(1)、Op(2)、Op(3)、・・・Op(n)を行う。例えば、作業工程Pr(x)において、作業者Huは、作業Op(x1)、Op(x2)、Op(x3)を行う。一例を挙げれば、作業工程Pr(m)が「塗装」工程の場合、作業Op(x1)は、作業対象物Obの「把持」であってもよいし、作業Op(x2)は、作業対象物Obの「塗装」であってもよいし、作業Op(x3)は、作業対象物Obの「運搬」であってもよい。
作業Opについて、複数の作業Opの各々を区別する必要がある場合には、符号に「(1)」、「(2)」、「(3)」、・・・、「(n)」等の添え字を付して区別し、特に区別する必要がない場合は単に「作業Op」と称する。
(作業場について)
工場Faは、1つ以上の作業場Ar(1)、Ar(2)、Ar(3)、・・・Ar(n)を含む。1つ以上の作業場Ar(1)、Ar(2)、Ar(3)、・・・Ar(n)の各々は、1つ以上の作業工程Pr(1)、Pr(2)、Pr(3)、・・・Pr(n)の各々に対応付けられている。すなわち、作業場Ar(m)は、作業工程Pr(m)に含まれる作業Op(m)を、作業者Huが行う領域である。
工場Faは、1つ以上の作業場Ar(1)、Ar(2)、Ar(3)、・・・Ar(n)を含む。1つ以上の作業場Ar(1)、Ar(2)、Ar(3)、・・・Ar(n)の各々は、1つ以上の作業工程Pr(1)、Pr(2)、Pr(3)、・・・Pr(n)の各々に対応付けられている。すなわち、作業場Ar(m)は、作業工程Pr(m)に含まれる作業Op(m)を、作業者Huが行う領域である。
作業場Arについて、複数の作業場Arの各々を区別する必要がある場合には、符号に「(1)」、「(2)」、「(3)」、・・・、「(n)」等の添え字を付して区別し、特に区別する必要がない場合は単に「作業場Ar」と称する。
(作業対象物について)
作業場Arには、作業者Huが行う作業Opの対象である作業対象物Obが1つ以上配置され、例えば、作業場Ar(x)には、作業対象物Ob(x1)、Ob(x2)、Ob(x3)、・・・、Ob(xn)が配置されている。
作業場Arには、作業者Huが行う作業Opの対象である作業対象物Obが1つ以上配置され、例えば、作業場Ar(x)には、作業対象物Ob(x1)、Ob(x2)、Ob(x3)、・・・、Ob(xn)が配置されている。
作業対象物Obは、作業者Hu以外の存在であり、例えば、いわゆる「ワーク」であり、また、例えば、作業Opを行う際に用いる工具である。
作業対象物Obについて、複数の作業対象物Obの各々を区別する必要がある場合には、符号に「(1)」、「(2)」、「(3)」、・・・、「(n)」等の添え字を付して区別し、特に区別する必要がない場合は単に「作業対象物Ob」と称する。
(作業者について)
工場Faには、作業工程Prに含まれる作業Opを実行する作業者Huが1人以上存在し、例えば、作業者Hu(1)、Hu(2)、Hu(3)、・・・、Hu(n)が存在する。作業者Huは、例えば、作業者Huが被っている帽子の頭頂部などに付された作業者IDによって識別されてもよい。具体的には、工場Faに存在する作業者Hu(1)と作業者Hu(2)とは、作業者Hu(1)が被る帽子に付された作業者ID(1)と、作業者Hu(2)が被る帽子に付された作業者ID(2)とにより、各々が識別されてもよい。また、或る作業者Hu(1)を、別の作業者Hu(2)にとっての作業対象物Obとみなしてもよい。
工場Faには、作業工程Prに含まれる作業Opを実行する作業者Huが1人以上存在し、例えば、作業者Hu(1)、Hu(2)、Hu(3)、・・・、Hu(n)が存在する。作業者Huは、例えば、作業者Huが被っている帽子の頭頂部などに付された作業者IDによって識別されてもよい。具体的には、工場Faに存在する作業者Hu(1)と作業者Hu(2)とは、作業者Hu(1)が被る帽子に付された作業者ID(1)と、作業者Hu(2)が被る帽子に付された作業者ID(2)とにより、各々が識別されてもよい。また、或る作業者Hu(1)を、別の作業者Hu(2)にとっての作業対象物Obとみなしてもよい。
作業者Huについて、複数の作業者Huの各々を区別する必要がある場合には、符号に「(1)」、「(2)」、「(3)」、・・・、「(n)」等の添え字を付して区別し、特に区別する必要がない場合は単に「作業者Hu」と称する。
(機器および動作について)
工場Faは、1つ以上の機器40(1)、40(2)、40(3)、・・・40(n)を備える。作業者Huは、作業Opを行う際、機器40を利用してもよく、具体的には、作業者Huは、機器40が実行する動作Acを利用して、作業Opを行ってもよい。例えば、作業工程Pr(x)に含まれる作業Op(x)を作業者Huが行う際には、機器40(x)が利用されてもよく、具体的には、機器40(x)が実行する動作Ac(x)を利用して、作業者Huは作業Op(x)を行ってもよい。
工場Faは、1つ以上の機器40(1)、40(2)、40(3)、・・・40(n)を備える。作業者Huは、作業Opを行う際、機器40を利用してもよく、具体的には、作業者Huは、機器40が実行する動作Acを利用して、作業Opを行ってもよい。例えば、作業工程Pr(x)に含まれる作業Op(x)を作業者Huが行う際には、機器40(x)が利用されてもよく、具体的には、機器40(x)が実行する動作Ac(x)を利用して、作業者Huは作業Op(x)を行ってもよい。
機器40について、複数の機器40の各々を区別する必要がある場合には、符号に「(1)」、「(2)」、「(3)」、・・・、「(n)」等の添え字を付して区別し、特に区別する必要がない場合は単に「機器40」と称する。
同様に、動作Acについて、複数の動作Acの各々を区別する必要がある場合には、符号に「(1)」、「(2)」、「(3)」、・・・、「(n)」等の添え字を付して区別し、特に区別する必要がない場合は単に「動作Ac」と称する。
(情報処理装置10を含むシステムの全体概要について)
これまで説明してきた環境について、情報処理装置10は、作業場Arを撮像した撮像画像Imから、撮像画像Imに撮像されている作業者Huが行っている作業Opの内容を推定する。
これまで説明してきた環境について、情報処理装置10は、作業場Arを撮像した撮像画像Imから、撮像画像Imに撮像されている作業者Huが行っている作業Opの内容を推定する。
複数の撮像画像Imについて、各々が撮像された工場Faを区別する際には、以下のようにして記載して、複数の撮像画像Imの各々を区別する。例えば、工場Fa(A)の作業場Arを撮像した撮像画像Imは撮像画像Im(A)と記載し、工場Fa(B)の作業場Arを撮像した撮像画像Imは撮像画像Im(B)と記載して、撮像画像Imが撮像された工場Faを区別する。複数の撮像画像Imについて、各々が撮像された工場Faを特に区別する必要がない場合には、単に「撮像画像Im」と称する。
以下では先ず、図2を用いて、情報処理装置10を含む制御システム1等の概要について説明する。
図2は、情報処理装置10を含む制御システム1等の全体概要を示す図である。
天井カメラ30は、例えば作業場Arの天井に設置され、作業場Arを斜め上から見下ろす撮像画像Imを生成する。ただし、天井カメラ30が作業場Arごとに設置されることは必須ではない。工場Faの天井に、広域撮像カメラである天井カメラ30を1台設置し、1台の天井カメラ30によって工場Faの全体を俯瞰して撮像してもよい。すなわち、1台の天井カメラ30が、1つ以上の作業場Arを含む工場Faの全体を俯瞰し、工場Faの全体を撮像した撮像画像Imを生成してもよい。天井カメラ30は、生成した撮像画像Imを、情報処理装置10へと出力する。
情報処理装置10は、制御システム1に含まれ、例えばUSB(Universal Serial Bus)ケーブルを介して、天井カメラ30と通信可能に接続されている。情報処理装置10は、天井カメラ30から、作業場Arを撮像した撮像画像Imを取得する。情報処理装置10は、天井カメラ30から取得した撮像画像Imに対し画像解析を実行し、撮像画像Imに撮像されている作業者Huが行っている作業Opの内容を推定する。情報処理装置10は、推定した作業Opの内容を、外部へと出力する。
また、情報処理装置10は、PLC(Programmable Logic Controller)20から、PLC20によって動作Acを制御される機器40が実行した動作Acの内容および結果を示す動作結果Laから生成された工程情報を取得する。
(マスタスレーブ制御システムについて)
制御システム1において、工場Faにおける作業工程Prを実施するのに用いられる機器40は、ラインコントローラとしてのPLC20により制御される。すなわち、PLC20をマスタとし、複数の機器40の各々をスレーブとするマスタスレーブ制御システムとしての制御システム1が構築され、複数の機器40の各々はネットワーク(制御ネットワーク50)を介してPLC20に通信可能に接続されている。PLC20は、制御ネットワーク50を介したデータ伝送を管理しているという意味で「マスタ」と呼ばれる。「マスタ」および「スレーブ」は、制御ネットワーク50上のデータ伝送の制御機能に着目して定義されるものであり、各装置間でどのような情報が送受信されるかについては、特に限定されない。
制御システム1において、工場Faにおける作業工程Prを実施するのに用いられる機器40は、ラインコントローラとしてのPLC20により制御される。すなわち、PLC20をマスタとし、複数の機器40の各々をスレーブとするマスタスレーブ制御システムとしての制御システム1が構築され、複数の機器40の各々はネットワーク(制御ネットワーク50)を介してPLC20に通信可能に接続されている。PLC20は、制御ネットワーク50を介したデータ伝送を管理しているという意味で「マスタ」と呼ばれる。「マスタ」および「スレーブ」は、制御ネットワーク50上のデータ伝送の制御機能に着目して定義されるものであり、各装置間でどのような情報が送受信されるかについては、特に限定されない。
PLC20は、制御システム1全体を制御する制御装置(コントローラ)であり、複数の機器40の各々と通信可能に接続されている。PLC20は、入力デバイス(計測デバイス)としての複数の機器40の各々からの情報を入力データとして取得する。PLC20は、予め組み込まれたユーザプログラムに従って、取得した入力データを用いた演算処理を実行する。PLC20は、前記演算処理を実行して、制御システム1に対する制御内容を決定し、例えば、アクチュエータなどの出力デバイスとしての複数の機器40の各々への制御内容を決定し、その制御内容に対応する制御データを、複数の機器40の各々へと出力する。PLC20は、複数の機器40の各々からの入力データの取得と、複数の機器40の各々への制御データの取得とを、所定の周期(制御周期)で繰り返し実行する。PLC20には、例えば、不図示の表示部および操作部が接続されてもよい。表示部は、画像を表示可能な液晶パネル等で構成され、また、操作部は、典型的には、タッチパネル、キーボード、マウス等で構成される。
機器40は、PLC20をマスタとするマスタスレーブ制御システムとしての制御システム1におけるスレーブである。機器40は、所定の制御周期ごとに繰り返し入力データをPLC20へと送信する入力デバイスであり、または、所定の制御周期ごとに繰り返し制御データをPLC20から受信し、受信した制御データにしたがって動作する出力デバイスである。機器40は、例えば、入力データとして、PLC20に検知結果等を送信する入力デバイスとしてのセンサ(例えば、光電センサ)であってもよく、読み取り結果を送信するバーコードリーダであってもよく、検査結果を送信する検査機(テスター)であってもよい。また、機器40は、複数の入力デバイスが接続されたPT(Programmable Terminal)であってもよい。さらに、機器40は、ネジ締め、ピッキング等を実行する出力デバイスとしてのロボット等であってもよい。
制御ネットワーク50は、PLC20が受信し、またはPLC20が送信する各種データを伝送し、典型的には、各種の産業用イーサネット(登録商標)を用いることができ、フィールドネットワークと称されることもある。産業用イーサネット(登録商標)としては、たとえば、EtherCAT(登録商標)、Profinet IRT、MECHATROLINK(登録商標)-III、Powerlink、SERCOS(登録商標)-III、CIP Motionなどが知られており、これらのうちのいずれを採用してもよい。さらに、産業用イーサネット(登録商標)以外のフィールドネットワークを用いてもよい。たとえば、モーション制御を行わない場合であれば、DeviceNet、CompoNet/IP(登録商標)などを用いてもよい。
本実施形態では、制御ネットワーク50上をデータフレームが順次転送されることで、PLC20(マスタ)と機器40(スレーブ)との間でデータが送受信される制御システム1について説明を行う。すなわち、制御ネットワーク50上をデータフレームが所定の制御周期で順次転送されることで、PLC20と機器40との間でデータが制御周期ごとに繰り返し送受信される。制御ネットワーク50上をデータフレームが順次転送されることで、複数の機器40の間で、つまり、複数のスレーブ間で、データが送受信されてもよい。
情報処理装置10は、制御システム1に含まれるが、情報処理装置10は、制御システム1におけるスレーブでなくともよい。
(工程情報について)
機器40をスレーブとするマスタスレーブ制御システムである制御システム1において、マスタであるPLC20は、例えば所定の制御周期ごとに繰り返し、スレーブである機器40から、動作結果Laを受信する。動作結果Laは、「機器40の実行した動作Acの内容および結果」を示す情報である。すなわち、機器40は、作業工程Prの実施に際して実際に実行した動作Acの内容および結果を示す動作結果Laを、所定の周期で繰り返し、PLC20へと送信する。例えば、機器40(x)は、作業工程Pr(x)の実施の際に実行した動作Ac(x)の内容および結果を示す動作結果La(x)を、制御周期で繰り返し、PLC20へと送信する。
機器40をスレーブとするマスタスレーブ制御システムである制御システム1において、マスタであるPLC20は、例えば所定の制御周期ごとに繰り返し、スレーブである機器40から、動作結果Laを受信する。動作結果Laは、「機器40の実行した動作Acの内容および結果」を示す情報である。すなわち、機器40は、作業工程Prの実施に際して実際に実行した動作Acの内容および結果を示す動作結果Laを、所定の周期で繰り返し、PLC20へと送信する。例えば、機器40(x)は、作業工程Pr(x)の実施の際に実行した動作Ac(x)の内容および結果を示す動作結果La(x)を、制御周期で繰り返し、PLC20へと送信する。
PLC20は、例えば、入力デバイス(計測デバイス)としての機器40が実行した計測動作の結果である計測結果を、機器40の動作結果Laとして取得する。また、機器40が検査機である場合、PLC20は、機器40が実行した検査動作の結果を、例えば、「検査基準を満たした、または、満たさなかった」といった検査結果を、機器40の動作結果Laとして取得する。さらに、PLC20は、例えば、出力デバイスとしての機器40が実行した出力動作の結果を、機器40の動作結果Laとして取得する。機器40がネジ締め、ピッキング等を実行するロボットである場合、PLC20は、ネジ締め回数、ピッキング結果(ピッキングの成功またはピッキングエラー)等の動作結果Laを、機器40の動作結果Laとして取得する。
PLC20は、作業工程Prの実施に際して機器40が実際に実行した動作Acの内容および結果を示す動作結果Laを、機器40から所定の周期で繰り返し受信し、受信した動作結果Laを、工程情報として情報処理装置10へと送信する(つまり、転送する)。また、PLC20は、機器40から所定の周期で繰り返し受信した動作結果Laを用いて生成した情報を、工程情報として情報処理装置10へ送信する。
さらに、PLC20は、機器40から所定の周期で繰り返し受信した動作結果Laを、工程情報として、制御システム1の外部に送信してもよい。例えば、PLC20は、機器40から所定の周期で繰り返し受信した動作結果Laを、工程情報として、MES(Manufacturin g Execution System、製造実行システム)などに接続した、図2に示す社内LAN(Local Area Network)に送信してもよい。
情報処理装置10は、PLC20から取得する工程情報(動作結果La)から、作業工程Prの実施に際し機器40が実行した動作Acの動作開始時刻Tms、動作完了時刻Tme、動作期間Daを特定する。そして、情報処理装置10は、特定した動作開始時刻Tms、動作完了時刻Tme、動作期間Da、および、動作Acに対応する所定の動作基準Saを用いて、動作Acに対する種々の判定を実行する。
しかしながら、工程情報に含まれる動作結果La(特に、動作Ac)に対する上述の判定は、PLC20が実行してもよく、PLC20は、上述の判定の結果を、工程情報に含めて、または、工程情報に代えて、情報処理装置10へと送信してもよい。
上述の説明において、動作開始時刻Tmsとは、作業工程Prに用いられる機器40が、作業工程Prの実施に際して、動作Acの実行を開始した時点であり、動作完了時刻Tmeとは、動作Acの実行を完了した時点である。動作期間Daは、動作開始時刻Tmsから動作完了時刻Tmeまでの期間である。
(マスタスレーブ制御システム以外のシステムおよび装置について)
図2には、マスタスレーブ制御システムとしての制御システム1に加えて、社内LANシステム、他ネットワークシステム等が示されている。社内LANは、MESとも称される工程情報DB(Database)等に接続している。工程情報DBには、「作業工程Prの実施に用いられる機器40が実行すべき標準的な動作」を示す情報が、動作基準Saとして格納されている。
図2には、マスタスレーブ制御システムとしての制御システム1に加えて、社内LANシステム、他ネットワークシステム等が示されている。社内LANは、MESとも称される工程情報DB(Database)等に接続している。工程情報DBには、「作業工程Prの実施に用いられる機器40が実行すべき標準的な動作」を示す情報が、動作基準Saとして格納されている。
また、図2に示す例では、MESとしての工程情報DBに、工場Faにおいて発生した各種のイベントを監視し、管理するイベント管理装置60が、社内LANを介して接続している。ただし、イベント管理装置60が社内LANを介して工程情報DBに接続していることは必須ではなく、イベント管理装置60は設けなくてもよい。
さらに、工程情報DBには、社内LANを介して、PLC20が接続している。図示はしていないが、工程情報DBと情報処理装置10とは接続されていてもよい。また、社内LANには、MESに加えて、不図示のERP(Enterprise Resources Planning)、WMS(Warehouse Management System)等が接続されていてもよい。
図2において、工程情報DBには、制御ネットワーク50とも社内LANとも異なる「他ネットワーク」を介して、動画保存サーバ等が接続されている。動画保存サーバ等には、他ネットワークを介して情報処理装置10が接続されており、情報処理装置10から送信された撮像画像Im、情報処理装置10が推定した作業Opの内容、および、支援情報などが動画保存サーバ等に格納される。また、動画保存サーバ等には、PC(Personal Computer)等によって実現される外部装置70が接続され、外部装置70は、例えば、撮像画像Im、情報処理装置10が推定した作業Opの内容、および、支援情報などを表示し、工程情報等の可視化を実行する。すなわち、外部装置70は、作業工程Prの改善に必要な情報を一覧表示し、ボトルネックとなっている作業工程Pr、作業工程Prに発生したエラーの日時等を示す情報を、対応する撮像画像Imと対応付けて表示する。
天井カメラ30は、前述の通り、作業場Arを撮像して撮像画像Imを生成し、生成した撮像画像Imを、例えば例えばUSB(Universal Serial Bus)ケーブルである通信ケーブルを介して、情報処理装置10へと送信する。
情報処理装置10は、例えば、PC等によって実現され、PLC20から取得する工程情報と、天井カメラ30から取得する撮像画像Imとを組み合わせて、両者の効率的な利用を可能とするデータ抽出装置である。情報処理装置10は、「工場Faにおける複数の機器40の実際の動作Acの内容および結果を示す動作結果La」を含む工程情報を、「撮像画像Im」および「撮像画像Imから推定した作業Opの内容」と組み合わせることで、作業工程Prを可視化する。情報処理装置10は、PLC20から取得する工程情報、天井カメラ30から取得する撮像画像Im、および、撮像画像Imから推定した作業Opの内容などを組み合わせることで、作業工程Prを可視化し、また、作業工程Prを効率的かつ精緻に分析する。
例えば、情報処理装置10は、工程情報の可視化に加え、ボトルネックとなっている作業工程Prを抽出し、抽出した作業工程Prの実施状況を撮像した撮像画像Imと、抽出した作業工程Prの工程情報とを組み合わせる。したがって、ユーザは、例えば、ボトルネックとなっている作業工程Prについて、ボトルネックとなっている原因、不具合要因を特定するのが容易になり、作業工程Prの改善作業を効率的に行うことができるようになる。加えて、情報処理装置10は、不良発生時のトレイサビリティにも用いることができる。
また、情報処理装置10は、撮像画像Imと、複数の機器40の各々の工程情報とを組み合わせることにより、撮像画像Imに対する解析と工程情報に対する解析との両方の解析制度を向上させることができる。例えば、情報処理装置10は、PLC20から取得する工程情報(動作結果La)を用いて、機器40が動作Acを開始した動作開始時刻Tms、および、動作Acを完了した動作完了時刻Tmeを特定する。情報処理装置10は、動作開始時刻Tmsから動作完了時刻Tmeまでの期間である動作期間Daに撮像された撮像画像Imに対し解析を実行することで、動作期間Daにおける機器40の動作Acと作業者Huの作業Opとを高精度で対応付けることができる。
さらに、情報処理装置10は、工程情報DBから、「作業工程Prの実施に用いられる機器40が実行すべき標準的な動作」を示す動作基準Saを取得する。そして、情報処理装置10は、取得した動作基準Saを用いて、「作業工程Prの実施に用いられる機器40が実行した実際の動作Ac」に対する判定を実行する。情報処理装置10は、動作基準Saが示す標準的な動作とは異なると判定した動作Acに対応する作業工程Prの実施状況を撮像した撮像データIdについて、解析を実行してもよい。
(作業内容の推定について)
情報処理装置10は、撮像画像Imを解析して、作業者Huが作業対象物Obについて行う作業Opの内容を推定する。作業場Arにおいて作業者Huが行う作業Opは、一般に、作業対象物Obについて行う作業Opである。そのため、作業Opは、作業者Huと作業対象物Obとの組合せ(ペア)についての、作業者Huと作業対象物Obとの間の相互作用として捉えることができる。
情報処理装置10は、撮像画像Imを解析して、作業者Huが作業対象物Obについて行う作業Opの内容を推定する。作業場Arにおいて作業者Huが行う作業Opは、一般に、作業対象物Obについて行う作業Opである。そのため、作業Opは、作業者Huと作業対象物Obとの組合せ(ペア)についての、作業者Huと作業対象物Obとの間の相互作用として捉えることができる。
ここで、従来、撮像画像Imから、撮像画像Imに撮像されている人間と、撮像画像Imに撮像されているオブジェクトとの間の相互作用であるHOI(Human Object Interaction)を検出する方法が研究されている。例えば、人間とオブジェクトとの両方をローカライズし、両者の間の相互作用を特定するHOI検出が知られている。そのようなHOI検出のためのアルゴリズムとして、iCAN(Instance-Centric Attention Network for Human-Object Interaction Detection)を挙げることができる。
情報処理装置10は、作業者Huが作業対象物Obについて行っている作業Opの内容を推定するのに、iCANなどのHOI検出アルゴリズムを利用することができる。すなわち、情報処理装置10は、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」について、作業者Huが作業対象物Obについて行っている作業Opの内容を、HOIを検出するHOI検出アルゴリズムを利用して、推定することができる。
ただし、iCANなどの一般的なHOI検出アルゴリズムは、撮像画像Imから検出した全ての人間と全てのオブジェクトとについて、考えられる全てのペアを想定し、各ペアの間の相互作用の内容を外観の特徴と粗い空間情報等に基づいて予測する。そのため、一般的なHOI検出アルゴリズムには、図3を用いて説明するような問題がある。
(一般的なHOI検出アルゴリズムの抱える問題)
図3は、iCANなどの一般的なHOI検出アルゴリズムが抱える問題を説明するための図である。図3に例示する撮像画像Imは、柵を隔てて、左に兄弟(作業者Hu(1)およびHu(2))が居り、右に牛が3頭(作業対象物Ob(1)、OB(2)、OB(3))居る状況を撮像した撮像画像Imである。図3に例示する撮像画像Imにおいて、弟は一番手前の牛を見ており、兄は手前から2番目の牛に餌を差し出している。
図3は、iCANなどの一般的なHOI検出アルゴリズムが抱える問題を説明するための図である。図3に例示する撮像画像Imは、柵を隔てて、左に兄弟(作業者Hu(1)およびHu(2))が居り、右に牛が3頭(作業対象物Ob(1)、OB(2)、OB(3))居る状況を撮像した撮像画像Imである。図3に例示する撮像画像Imにおいて、弟は一番手前の牛を見ており、兄は手前から2番目の牛に餌を差し出している。
図3に示す例において、撮像画像Imから、2人の人間(作業者Hu(1)およびHu(2))と4つのオブジェクト(作業対象物Ob(1)、OB(2)、OB(3)、および、OB(4))が検出されている。なお、作業対象物Ob(4)は、撮像画像Imから誤検出されたオブジェクトである。
前述の通り、一般的なHOI検出アルゴリズムは、撮像画像Imから検出した全ての人間と全てのオブジェクトとについて、考えられる全てのペアを想定し、各ペアにおける相互作用であるHOIを分類し、つまり、HOIの内容を予測する(推定する)。そのため、図3に例示する撮像画像Imについて、一般的なHOI検出アルゴリズムは、2人の人間と4つのオブジェクトとから計8つのペアを想定し、想定した8つのペアの各々について、人間とオブジェクトとの間の相互作用であるHOIの内容を推定する。
しかしながら、図3に例示する撮像画像Imにおいて、人間とオブジェクトとの間の相互作用が実際にあるペアは、「作業者Hu(1)と作業対象物Ob(2)とのペア」と「作業者Hu(2)と作業対象物Ob(3)とのペア」との2つだけである。これら2つのペア以外の6つのペアについては、HOIの内容を推定する必要がないにもかかわらず、一般的なHOI検出アルゴリズムは、これら6つのペアについても、HOIの内容を推定しようとしてしまう。そのため、一般的なHOI検出アルゴリズムは、撮像画像ImからHOIを検出するまでに、時間を要するという問題がある。
また、一般的なHOI検出アルゴリズムは、実際には両者の間に相互作用はない「人間とオブジェクトとのペア」についても、HOIの内容を推定してしまうため、推定の精度が低下するという問題がある。例えば、一般的なHOI検出アルゴリズムは、図3の撮像画像Imに対し、「作業者Hu(1)と作業対象物Ob(2)とのペア」と「作業者Hu(2)と作業対象物Ob(3)とのペア」以外のペアについてもHOIの内容を推定するため、推定精度が低下する。
(本実施形態に係る情報処理装置による推定対象の抽出)
そこで、情報処理装置10は、HOI(つまり、作業Op)の内容を推定する推定処理の推定精度を向上させるために、以下の処理を実行する。すなわち、情報処理装置10は、先ず、「撮像画像Imに撮像されている人間(作業者Hu)」と、「撮像画像Imに撮像されているオブジェクト(作業対象物Ob)」との間に相互作用が実際にあるか否かを認識する(判定する)。そして、情報処理装置10は、両者の間に相互作用があると判定した人間とオブジェクトとのペアについてのみ、その人間がそのオブジェクトについて行っている動作(HOI)の内容を推定する。
そこで、情報処理装置10は、HOI(つまり、作業Op)の内容を推定する推定処理の推定精度を向上させるために、以下の処理を実行する。すなわち、情報処理装置10は、先ず、「撮像画像Imに撮像されている人間(作業者Hu)」と、「撮像画像Imに撮像されているオブジェクト(作業対象物Ob)」との間に相互作用が実際にあるか否かを認識する(判定する)。そして、情報処理装置10は、両者の間に相互作用があると判定した人間とオブジェクトとのペアについてのみ、その人間がそのオブジェクトについて行っている動作(HOI)の内容を推定する。
つまり、情報処理装置10は、人間とオブジェクトとのペアについて、「HOIとしての作業Op」の内容を推定する前に、「両者の間に相互作用がない」と判定した人間とオブジェクトとのペアを除外するフィルタを採用し、つまり、以下の判定処理を実行する。
すなわち、情報処理装置10は、各々が、撮像画像Imから検出した作業者Huと撮像画像Imから検出した作業対象物Obとから成る、全てのペアについて、各々、「作業者Huと作業対象物Obとの間の相互作用の存否」を判定する。言い換えれば、情報処理装置10は、各々が、撮像画像Imから検出した作業者Huと撮像画像Imから検出した作業対象物Obとから成る、全てのペアから、「作業者Huと作業対象物Obとの間に相互作用があるペア」だけを抽出する。
例えば、情報処理装置10は、図3の撮像画像Imから、2人の作業者Huと4つの作業対象物Obとを検出し、各々が作業者Huと作業対象物Obとから成る、計8つのペアを検出する。情報処理装置10は、上述の8つのペアについて、各々、「作業者Huと作業対象物Obとの間の相互作用の存否」をモデルベースで判定する。そして、情報処理装置10は、上述の8つのペアから、「作業者Huと作業対象物Obとの間に相互作用がある」2つのペアだけを抽出する。図3に例示する撮像画像Imについて、情報処理装置10は、上述の8つのペアから、「作業者Hu(1)と作業対象物Ob(2)とのペア」および「作業者Hu(2)と作業対象物Ob(3)とのペア」を抽出する。
そして、情報処理装置10は、「両者の間に相互作用がある」と判定した「作業者Huと作業対象物Obとのペア」についてのみ、HOI検出を実行し、つまり、作業者Huが作業対象物Obに対して行なっている作業Opの内容を推定する。図3の例では、情報処理装置10は、「作業者Hu(1)と作業対象物Ob(2)とのペア」および「作業者Hu(2)と作業対象物Ob(3)とのペア」についてのみ、HOI検出を実行する。
情報処理装置10は、撮像画像Imから検出した「作業者Huと作業対象物Obとのペア」の全てについてHOI検出を実行するのではなく、両者の間に相互作用がある「作業者Huと作業対象物Obとのペア」についてのみ、HOI検出を実行する。
したがって、情報処理装置10は、HOI検出に係る計算量を抑制し、HOI検出に要する時間を短縮することができる。言い換えれば、情報処理装置10は、撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容を推定する際の計算量を抑制し、推定に要する時間を短縮し、推定処理を高速化することができる。
また、情報処理装置10は、両者の間に相互作用がある作業者Huと作業対象物Obとのペアについてのみ、HOI検出(作業Opの内容の推定)を実行することによって、HOI検出の精度を向上させることができる。
(転移学習について)
情報処理装置10は、撮像画像Imから作業者Huが作業対象物Obについて行っている作業Opの内容を推定する解析処理において、互いに区別される判定処理と推定処理とを実行する。判定処理は、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を判定する処理である。推定処理は、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を推定する処理である。特に、推定処理は、判定処理によって「両者の間に相互作用がある」と判定された「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとのペア」についてのみ、「HOIとしての作業Op」の内容を推定する処理である。
情報処理装置10は、撮像画像Imから作業者Huが作業対象物Obについて行っている作業Opの内容を推定する解析処理において、互いに区別される判定処理と推定処理とを実行する。判定処理は、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を判定する処理である。推定処理は、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を推定する処理である。特に、推定処理は、判定処理によって「両者の間に相互作用がある」と判定された「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとのペア」についてのみ、「HOIとしての作業Op」の内容を推定する処理である。
情報処理装置10は、解析処理を行う解析部120をニューラルネットワーク(NN)として実現した場合、判定処理に係る判定部122(判定モデル152)と、推定処理に係る推定部123(推定モデル153)とを区別することで、以下の効果を実現する。すなわち、情報処理装置10は、NNとして実現した解析部120において、各々が学習済モデルである判定モデル152と推定モデル153とを区別することで、互いにドメインの異なる複数のデータセットDSを用いた転移学習を可能とする。解析部120は、例えば、「工場Fa(A)で準備されたデータセットDS(A)」に対する機械学習で構築した判定モデル152(A)を、工場Fa(C)で撮像された撮像画像Im(C)に対する解析に転用可能なネットワーク設計となっている。詳細は後述する。
(本実施形態に係る情報処理装置の概要)
以下に図1等を参照して詳細を説明していく情報処理装置10について、情報処理装置10の理解を容易にするために、その概要を予め説明しておく。
以下に図1等を参照して詳細を説明していく情報処理装置10について、情報処理装置10の理解を容易にするために、その概要を予め説明しておく。
作業者Huによる作業Opの効率的な実行を支援するのに利用可能な情報である支援情報を生成するには、工場Faにおいて工程情報を可視化するのが有用である。
従来、人間(作業者Hu)のポーズ(姿勢)を推定したポーズ推定情報から、人間の行っている動作の内容を認識(推定)する方法が知られている。ただし、工場Faにおいて作業者Huは、基本的に何かしらの作業Opを継続している。そのため、工程分割するためには、つまり、作業者Huの行っている作業Opの内容を推定するためには、作業者Huのポーズだけではなく、作業者Huと物体(作業対象物Ob)との干渉情報も踏まえる必要がある。
そこで、情報処理装置10は、作業者Huが作業対象物Obについて行っている作業Opを、作業者Huと作業対象物Obとの相互作用(HOI)として捉える。そして、情報処理装置10は、例えば、HOI検出として、作業者Huが作業対象物Obについて行っている作業Opの内容の推定を実行する。
ただし、人間(作業者Hu)と物体(オブジェクト、作業対象物Ob)との干渉、相互作用であるHOIを通して、人間の動作(作業Op)を認識するだけの従来の手法には、以下の課題がある。
すなわち、従来の手法では、複数の工場Faの各々における作業者Huの作業Opを認識するためには、それら複数の工場Faの各々において、作業者Huの行っている作業Opを認識するためのデータを収集しなければならなかった。すなわち、従来の手法では、例えば、工場Fa(A)における作業者Huの作業Opを認識するためには、工場Fa(A)において、作業者Huの行っている作業Opを認識するためのデータを収集する必要がある。同様に、従来の手法では、工場Fa(B)における作業者Huの作業Opを認識するためには、工場Fa(B)において、作業者Huの行っている作業Opを認識するためのデータを収集する必要がある。つまり、従来の手法では、工場Fa(X)における作業者Huの作業Opを認識するためには、工場Fa(X)において、作業者Huの行っている作業Opを認識するためのデータを収集する必要がある。
情報処理装置10は、HOI検出のために利用可能な知識を、つまり、作業Opの内容を推定するための知識を蓄積し、例えば、工場Fa(A)およびFa(B)の少なくとも一方において、学習のためのデータを収集する。そして、情報処理装置10は、収集したデータに対する機械学習によって構築した学習済モデル(具体的には、判定モデル152)を、工場Fa(C)における作業Opの内容の推定にも転用することができる。
情報処理装置10は、解析処理を行う解析部120をNNとして実現した場合、判定処理に係るネットワーク(判定モデル152)と、推定処理に係るネットワーク(推定モデル153)とを分けることによって、以下の効果を実現する。すなわち、情報処理装置10は、作業Opの推定のためのルール情報(知識)を転移学習できるようにし、例えば、或る工場Fa(X)で学習した知識を、他の工場Fa(Y)における作業Opの推定にも転用することができる。
また、従来、ルールベースで、人間(作業者Hu)と物体(作業対象物Ob)との間の干渉(相互作用)から、人間の行っている動作(作業Op)の内容を認識(推定)する方法が知られている。
ただし、動作(作業Op)の種類が多くなると、HOIペア(つまり、人間(作業者Hu)と物体(作業対象物Ob)とのペア)について動作の内容を推定するために予め準備しておくべきルールが急増し、そのようなルールを人手で作るのは煩雑になってくる。
そこで、情報処理装置10は、考えられる全ての「作業者Huと作業対象物Obとのペア」から、相互作用が存在しない「作業者Huと作業対象物Obとのペア」を、モデルベースで除去する。その上で、情報処理装置10は、相互作用が存在する「作業者Huと作業対象物Obとのペア」についてのみ、例えばモデルベースで、HOIの検出(つまり、作業Opの内容の推定)を実行する。
情報処理装置10は、相互作用が存在しない「作業者Huと作業対象物Obとのペア」をモデルベースで除去することによって、従来の方式がそのような除去に必要としていた煩雑なルール整備を不要とする。
また、情報処理装置10は、相互作用が存在しない「作業者Huと作業対象物Obとのペア」を除去することによって、作業Opの内容の推定精度を向上することができる。
さらに、情報処理装置10は、相互作用が存在しない「作業者Huと作業対象物Obとのペア」を除去することによって、作業Opの内容の推定に際しての計算量を抑制し、作業Opの内容の推定に要する時間を短縮することができる。つまり、情報処理装置10は、作業Opの内容の推定が必要な「作業者Huと作業対象物Obとのペア」を抽出し、抽出した「作業者Huと作業対象物Obとのペア」についてのみ、作業Opの内容を推定することによって、計算速度を高速化することができる。
情報処理装置10は、従来の「人間のポーズ(姿勢)を推定する情報と、物体についての情報とを用いて、ルールベースで動作(作業Op)を分析(推定)したり、複数の手法を組み合わせて動作を分析したりする」手法と、以下の点において異なる。すなわち、情報処理装置10は、例えばNNを利用して、End-to-Endな作業推定処理を実現している。また、情報処理装置10は、転移学習が可能なネットワーク構造を採用しており、既存知識を流用して、作業Opの内容の推定に係る推定精度を向上させることができる。
情報処理装置10は、「撮像画像Imに撮像されている作業者Hu」と「撮像画像Imに撮像されている作業対象物Ob」との間の相互作用の存否をルールベースで判定するものではない。情報処理装置10は、作業者Huと作業対象物Obとの間の相互作用の存否に係る規則(ルール)を機械学習によって発見、生成し、この規則を利用して、撮像画像Imについて、撮像されている作業者Huおよび作業対象物Obの間の相互作用の存否を判定する。
情報処理装置10は、撮像画像Imに撮像されている全ての「作業者Huと作業対象物Obとのペア」を検出し、その中から、両者の間に相互作用がある「作業者Huと作業対象物Obとのペア」だけをモデルベースで自動的に抽出する。
(本実施形態に係る情報処理装置についての整理)
これまでに図2および図3を用いて説明してきた内容は、以下のように整理することができる。すなわち、情報処理装置10は、作業場Arを撮像した撮像画像Imから、撮像画像Imに撮像されている作業者Huが行っている作業Opの内容を推定する作業推定装置であって、検出部121と、判定部122と、推定部123とを備える。
これまでに図2および図3を用いて説明してきた内容は、以下のように整理することができる。すなわち、情報処理装置10は、作業場Arを撮像した撮像画像Imから、撮像画像Imに撮像されている作業者Huが行っている作業Opの内容を推定する作業推定装置であって、検出部121と、判定部122と、推定部123とを備える。
検出部121は、撮像画像Imから、撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとを検出する。
判定部122は、モデルベースで、撮像画像Imまたはその特徴情報から、検出部121によって検出された作業者Huと作業対象物Obとの間の相互作用の存否を判定する。判定部122は、学習済モデルである判定モデル152を用いて、撮像画像Imまたはその特徴情報から、検出部121によって検出された作業者Huと作業対象物Obとの間の相互作用の存否を判定する。判定モデル152は、「撮像画像Im、または、撮像画像Imから生成された特徴情報」を入力とし、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を出力とする学習済モデルである。
推定部123は、判定部122によって相互作用が存在すると判定された作業者Huと作業対象物Obとの組合せ(ペア)について、作業者Huが作業対象物Obについて行っている作業Opの内容を推定する。
前記の構成によれば、情報処理装置10は、学習済モデルである判定モデル152を用いて、撮像画像Imから検出された「作業者Huと作業対象物Obとのペア」について、作業者Huと作業対象物Obとの間の相互作用の存否を判定する。そして、情報処理装置10は、相互作用が存在すると判定した「作業者Huと作業対象物Obとのペア」について、ペアの一方である作業者Huが、ペアの他方である作業対象物Obについて行っている作業Opの内容を推定する。
つまり、情報処理装置10は、撮像画像Imから検出された作業者Huと作業対象物Obとについて、ルールベースではなく、モデルベースで、両者の相互作用の存否を判定する。
したがって、情報処理装置10は、作業者Huの行う作業Opの種類が増えても、作業Opの内容を推定するための煩雑なルールを整備する必要なく、作業者Huが行っている作業Opを推定することができるとの効果を奏する。
また、情報処理装置10は、「相互作用が存在する」とモデルベースで判定した作業者Huと作業対象物Obとのペアについて、作業者Huが作業対象物Obについて行っている作業Opの内容を推定する。
つまり、情報処理装置10は、撮像画像Imに撮像されている作業者Huと作業対象物Obとのペアの全てについてではなく、「相互作用が存在する」と判定したペアについてのみ、作業者Huが行っている作業Opの内容を推定する。
したがって、情報処理装置10は、撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容を推定するのに必要な計算量を抑制することができるとの効果を奏する。
情報処理装置10において、検出部121は、学習済モデルである検出モデル151を用いて、撮像画像Imから、「撮像画像Imに撮像されている作業者Hu」と、「撮像画像Imに撮像されている作業対象物Ob」とを検出する。検出モデル151は、撮像画像Imを入力とし、「撮像画像Imに撮像されている作業者Hu」に係る情報と、「撮像画像Imに撮像されている作業対象物Ob」に係る情報とを出力とする学習済モデルである。
前記の構成によれば、情報処理装置10は、検出モデル151を用いて、撮像画像Imから、「撮像画像Imに撮像されている作業者Hu」と、「撮像画像Imに撮像されている作業対象物Ob」とを検出する。
つまり、情報処理装置10は、「撮像画像Imに撮像されている作業者Hu」と、「撮像画像Imに撮像されている作業対象物Ob」とを、ルールベースではなく、モデルベースで、撮像画像Imから検出する。
したがって、情報処理装置10は、煩雑なルール整備を必要とせずに、撮像画像Imから、「撮像画像Imに撮像されている作業者Hu」と、「撮像画像Imに撮像されている作業対象物Ob」とを検出することができるとの効果を奏する。
情報処理装置10において、推定部123は、学習済モデルである推定モデル153を用いて、判定部122が「相互作用が存在する」と判定したペアの一方である作業者Huが、そのペアの他方である作業対象物Obについて行っている作業Opの内容を推定する。推定モデル153は、「撮像画像Im、または、その特徴情報」を入力とし、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を出力とする学習済モデルである。
前記の構成によれば、情報処理装置10は、「相互作用がある」と判定されたペアについて、推定モデル153を用いて、そのペアの一方である作業者Huが、そのペアの他方である作業対象物Obについて行っている作業Opの内容を推定する。
つまり、情報処理装置10は、撮像画像Imから検出された作業者Huと作業対象物Obとについて、ルールベースではなく、モデルベースで、作業者Huが作業対象物Obについて行っている作業Opの内容を推定する。
したがって、情報処理装置10は、作業者Huの行う作業Opの種類が増えても、作業Opの内容を推定するための煩雑なルールを整備する必要なく、作業者Huが行っている作業Opを推定することができるとの効果を奏する。
情報処理装置10は、工程情報取得部130(取得部)と、支援情報生成部140(生成部)と、をさらに備える。工程情報取得部130は、作業場Arに設置された機器40の動作Acを制御するPLC20(制御装置)から、機器40が実行した動作Acの内容および結果を示す動作結果Laから生成された工程情報を取得する。支援情報生成部140は、推定部123によって推定された作業者Huの作業Opの内容と、工程情報取得部130によって取得された工程情報とから、作業者Huによる作業Opの効率的な実行を支援するのに利用可能な情報である支援情報を生成する。
前記の構成によれば、情報処理装置10は、PLC20から、「作業場Arに設置された機器40が実行した動作Acの内容および結果を示す動作結果La」から生成された工程情報を取得する。そして、情報処理装置10は、撮像画像Imから推定した「作業者Huの作業Opの内容」と、工程情報とから、作業者Huによる作業Opの効率的な実行を支援するのに利用可能な情報である支援情報を生成する。
したがって、情報処理装置10は、撮像画像Imから推定した「作業者Huの作業Opの内容」を、工程情報と組み合わせることによって、作業者Huによる作業Opの効率的な実行を支援するのに利用可能な情報である支援情報を生成できるとの効果を奏する。
§2.構成例
これまでに概要を説明してきた情報処理装置10について、次に、図1を用いてその詳細を説明していく。
これまでに概要を説明してきた情報処理装置10について、次に、図1を用いてその詳細を説明していく。
図1は、情報処理装置の要部構成を示すブロック図である。図1に例示する情報処理装置10は、機能ブロックとして、例えば、撮像画像取得部110、解析部120、工程情報取得部130、支援情報生成部140、および、記憶部150を備えている。
情報処理装置10は、上述の各機能ブロックに加えて、以下の各部を備えてもよい。すなわち、情報処理装置10は、撮像画像Imの、所定の格納領域(保存領域)への格納(保存)を制御する管理部、作業者Huが作業場Arに滞在している時間(滞在時間)を測定する測定部、工程情報と滞在時間とを対応付ける分析部等を備えてもよい。
記載の簡潔性を担保するため、本実施の形態に直接関係のない情報処理装置10の構成は、説明およびブロック図から省略している。ただし、実施の実情に則して、情報処理装置10は、これらの省略された構成を備えてもよい。
情報処理装置10の備える上述の機能ブロックは、例えば、演算装置が、ROM(read only memory)、NVRAM(non-Volatile random access memory)等で実現された記憶装置(記憶部150)に記憶されているプログラムを不図示のRAM(random access memory)等に読み出して実行することで実現できる。演算装置として利用可能なデバイスとしては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせを挙げることができる。
以下に先ず、撮像画像取得部110、解析部120、工程情報取得部130、および、支援情報生成部140の各々について、その詳細を説明する。
(記憶部以外の機能ブロックについて)
撮像画像取得部110は、天井カメラ30から、天井カメラ30が作業場Arを撮像した撮像画像Imを取得し、取得した撮像画像Imを、検出部121へと出力する。
撮像画像取得部110は、天井カメラ30から、天井カメラ30が作業場Arを撮像した撮像画像Imを取得し、取得した撮像画像Imを、検出部121へと出力する。
解析部120は、天井カメラ30が撮像した撮像画像Imを解析し、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を推定する処理である解析処理を実行する。そして、解析部120は、推定した作業Opの内容を、撮像画像Imに対する解析結果として出力し、例えば、支援情報生成部140および図2の動画保存サーバ等に出力する。解析部120は、撮像画像Imに対する解析結果を、撮像画像Imと共に、図2の動画保存サーバ等に出力してもよい。
解析部120は、例えば、撮像画像Imに対するモデルベースの解析を実行し、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を出力する。解析部120は、例えば、ニューラルネットワーク(NN)として実現される。
解析部120は、検出部121、判定部122、および、推定部123を含む。
検出部121は、撮像画像Imから撮像画像Imの特徴情報(特徴量)を抽出し、具体的には、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報」および「撮像画像Imに撮像されている作業対象物Obに係る情報」を出力する。言い換えれば、検出部121は、撮像画像Imから、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)」および「撮像画像Imに撮像されている作業対象物Ob」を検出する。
「撮像画像Imに撮像されている作業者Huに係る情報」は、例えば、「撮像画像Imに撮像されている作業者Huの、存否(撮像画像Imに作業者Huが撮像されているか否か)、空間配置(空間上の位置)、および、姿勢」等を示す情報である。
「撮像画像Imに撮像されている作業対象物Obに係る情報」は、例えば、「撮像画像Imに撮像されている作業対象物Obの、存否、空間配置、および、撮像画像Imに撮像されている作業対象物Obが何であるか」等を示す情報である。
検出部121は、記憶部150を参照して取得した検出モデル151を用いて、撮像画像Imから、撮像画像Imの特徴情報を抽出し、つまり、撮像画像Imに撮像されている「作業者Huおよび作業対象物Ob」を検出する。
検出部121は、撮像画像Imから抽出した撮像画像Imの特徴情報を、判定部122および推定部123へと出力する。言い換えれば、検出部121は、撮像画像Imから検出した、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)」および「撮像画像Imに撮像されている作業対象物Ob」を、判定部122および推定部123に通知する。
判定部122は、撮像画像Im、または、検出部121が抽出した撮像画像Imの特徴情報を用いて、「撮像画像Imに撮像されている作業者Hu」と「撮像画像Imに撮像されている作業対象物Ob」とのペアについて、以下の判定を実行する。すなわち、判定部122は、「撮像画像Imに撮像されている作業者Hu」と「撮像画像Imに撮像されている作業対象物Ob」とのペアについて、両者の間の相互作用の存否を判定する。言い換えれば、判定部122は、検出部121が撮像画像Imから検出した、「撮像画像Imに撮像されている作業者Hu」と「撮像画像Imに撮像されている作業対象物Ob」とについて、両者の間に相互作用があるか否かを判定する。
判定部122は、記憶部150を参照して取得した判定モデル152を用いて、撮像画像Im、または、撮像画像Imの特徴情報から、撮像画像Imから検出された「作業者Huおよび作業対象物Ob」について、「両者の間の相互関係の存否」を判定する。
判定部122は、判定の結果を推定部123に通知し、例えば、両者の間に相互作用があると判定した、「撮像画像Imに撮像されている作業者Hu」と「撮像画像Imに撮像されている作業対象物Ob」とのペアを、推定部123へと出力する。
推定部123は、撮像画像Im、または、検出部121が抽出した撮像画像Imの特徴情報を用いて、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を推定する。
推定部123は、記憶部150を参照して取得した推定モデル153を用いて、上述の推定を実行する。すなわち、推定部123は、推定モデル153を用いて、撮像画像Im、または、撮像画像Imの特徴情報から、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を推定する。
特に、推定部123は、判定部122によって「両者の間に相互作用がある」と判定された『「撮像画像Imに撮像されている作業者Hu」と「撮像画像Imに撮像されている作業対象物Ob」とのペア』についてのみ、上述の推定を実行する。すなわち、推定部123は、「両者の間に相互作用がある」と判定されたペアについてのみ、そのペアの一方である作業者Huが、そのペアの他方である作業対象物Obについて行っている作業Opの内容を、推定する。
工程情報取得部130は、工程情報を制御装置であるPLC20から取得し、取得した工程情報を支援情報生成部140へと出力する。
支援情報生成部140は、解析部120(特に、推定部123)が推定した作業Op(A)の内容と、工程情報とを用いて、作業者Huによる作業Opの効率的な実行を支援するのに利用可能な情報である支援情報を生成する。支援情報生成部140は、生成した支援情報を出力し、例えば、図2の動画保存サーバ等に出力する。
(記憶部について)
記憶部150は、情報処理装置10が使用する各種データを格納する記憶装置である。なお、記憶部150は、情報処理装置10が実行する(1)制御プログラム、(2)OSプログラム、(3)情報処理装置10が有する各種機能を実行するためのアプリケーションプログラム、および、(4)該アプリケーションプログラムを実行するときに読み出す各種データを非一時的に記憶してもよい。上記の(1)~(4)のデータは、例えば、ROM(read only memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(登録商標)(Electrically EPROM)、HDD(Hard Disc Drive)等の不揮発性記憶装置に記憶される。情報処理装置10は、図示しない一時記憶部を備えていてもよい。一時記憶部は、情報処理装置10が実行する各種処理の過程で、演算に使用するデータおよび演算結果等を一時的に記憶するいわゆるワーキングメモリであり、RAM(Random Access Memory)等の揮発性記憶装置で構成される。どのデータをどの記憶装置に記憶するのかについては、情報処理装置10の使用目的、利便性、コスト、または、物理的な制約等から適宜決定される。記憶部150はさらに、検出モデル151、判定モデル152、および、推定モデル153を格納している。
記憶部150は、情報処理装置10が使用する各種データを格納する記憶装置である。なお、記憶部150は、情報処理装置10が実行する(1)制御プログラム、(2)OSプログラム、(3)情報処理装置10が有する各種機能を実行するためのアプリケーションプログラム、および、(4)該アプリケーションプログラムを実行するときに読み出す各種データを非一時的に記憶してもよい。上記の(1)~(4)のデータは、例えば、ROM(read only memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(登録商標)(Electrically EPROM)、HDD(Hard Disc Drive)等の不揮発性記憶装置に記憶される。情報処理装置10は、図示しない一時記憶部を備えていてもよい。一時記憶部は、情報処理装置10が実行する各種処理の過程で、演算に使用するデータおよび演算結果等を一時的に記憶するいわゆるワーキングメモリであり、RAM(Random Access Memory)等の揮発性記憶装置で構成される。どのデータをどの記憶装置に記憶するのかについては、情報処理装置10の使用目的、利便性、コスト、または、物理的な制約等から適宜決定される。記憶部150はさらに、検出モデル151、判定モデル152、および、推定モデル153を格納している。
検出モデル151は、「検出部121が、撮像画像Imから、撮像画像Imの特徴情報(特徴量)を抽出する」ためのモデルである。言い換えれば、検出モデル151は、検出部121が撮像画像Imから「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)」および「撮像画像Imに撮像されている作業対象物Ob」を検出するためのモデルである。
検出モデル151は、例えば、撮像画像Imを入力とし、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報」および「撮像画像Imに撮像されている作業対象物Obに係る情報」を出力とする学習済モデルである。
判定モデル152は、『判定部122が、撮像画像Im、または、撮像画像Imの特徴情報を用いて、「撮像画像Imに撮像されている、作業者Huおよび作業対象物Obのペア」について、両者の間の相互作用の存否を判定する』ためのモデルである。言い換えれば、判定モデル152は、判定部122が、『「検出部121が撮像画像Imから検出した作業者Hu」と「検出部121が撮像画像Imから検出した作業対象物Ob」とについて、両者の間に相互作用があるか否かを判定する』ためのモデルである。
判定モデル152は、例えば、撮像画像Im(撮像画像Imの特徴情報)を入力とし、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を示す情報を出力とする学習済モデルである。
推定モデル153は、推定部123が、撮像画像Im、または、撮像画像Imの特徴情報を用いて、「撮像画像Imに撮像されている、作業者Huおよび作業対象物Obのペア」について、以下の内容を推定するためのモデルである。すなわち、推定モデル153は、推定部123が「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を推定するためのモデルである。
推定モデル153は、例えば、撮像画像Im(撮像画像Imの特徴情報)を入力とし、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報を出力とする学習済モデルである。
以上の構成を備える情報処理装置10について、解析処理を行う解析部120をNNとして実現した場合の、検出部121(検出モデル151)、判定部122(判定モデル152)、および、推定部123(推定モデル153)の関係を、図4を用いて概説する。
(ニューラルネットワーク(NN)として実現した解析部の例)
図4は、NNとして実現した解析部120の例を説明する図である。前述の通り、解析部120は、NNとして実現されてもよく、特に、CNN(Convolution al Neural Network)またはDNN(Deep Neural Network)として、実現されてもよい。NNとして実現された解析部120は、図4において図示していない特徴量抽出器Rと、図4における相互作用判定器Pと、図4におけるHOI分類器Cとを含む。
図4は、NNとして実現した解析部120の例を説明する図である。前述の通り、解析部120は、NNとして実現されてもよく、特に、CNN(Convolution al Neural Network)またはDNN(Deep Neural Network)として、実現されてもよい。NNとして実現された解析部120は、図4において図示していない特徴量抽出器Rと、図4における相互作用判定器Pと、図4におけるHOI分類器Cとを含む。
特徴量抽出器R(Representation network(feature extractor))は、例えばFaster R-CNNであり、オブジェクト検出(Object detection)を実行し、検出部121(検出モデル151)に対応する。特徴量抽出器Rは、撮像画像Imから、撮像画像Imの特徴情報(特徴量)を抽出する。具体的には、特徴量抽出器Rは、学習済モデルである検出モデル151に、撮像画像Imを入力する。撮像画像Imの入力を受けた検出モデル151は、撮像画像Imの特徴情報を出力し、具体的には、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報」および「撮像画像Imに撮像されている作業対象物Obに係る情報」を出力する。
図4に示す例では、撮像画像Imの入力に対して、撮像画像Imの特徴情報として、以下の情報が出力されている。すなわち、撮像画像Imの特徴情報として、撮像画像Imに撮像されている作業者Huの姿勢を示す情報(Pose Map)が出力されている。また、撮像画像Imの特徴情報として、撮像画像Imに撮像されている作業者Huおよび作業対象物Obの各々の空間配置を示す情報(Spatial Maps)が出力されている。さらに、撮像画像Imの特徴情報として、撮像画像Imに撮像されている作業者Huに係るその他の情報(Human Feature)、および、撮像画像Imに撮像されている作業対象物Obに係るその他の情報(Object Feature)が出力されている。
図4の相互作用判定器P(interactive Predictor)は、判定部122(判定モデル152)に対応する。相互作用判定器Pは、撮像画像Imの特徴情報から、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」について、両者の間の相互作用の存否を判定し、判定結果を出力する。具体的には、相互作用判定器Pは、学習済モデルである判定モデル152に、撮像画像Imの特徴情報を入力する。撮像画像Imの特徴情報の入力を受けた判定モデル152は、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」について、両者の間の相互作用の存否を判定し、判定結果を出力する。
相互作用判定器Pは、図4に例示する撮像画像Imについて、判定モデル152を用いて以下の判定を実行する。すなわち、相互作用判定器Pは、先ず、撮像画像Imに撮像されている2つのペア、具体的には、「作業者Hu(1)と作業対象物Ob(1)とのペア」と「作業者Hu(1)と作業対象物Ob(2)とのペア」とを検出する。相互作用判定器Pは、2つのペアの各々について、「ペアの一方である作業者Huと、ペアの他方である作業対象物Obとの間に相互作用があるか否か」を判定する。相互作用判定器Pは、「作業者Hu(1)と作業対象物Ob(1)とのペア」については、「作業者Huと作業対象物Obとの間に相互作用がある」と判定する。相互作用判定器Pは、「作業者Hu(1)と作業対象物Ob(2)とのペア」については「作業者Huと作業対象物Obとの間に相互作用がない」と判定する。相互作用判定器Pは、判定結果をHOI分類器Cへと出力し、例えば、「作業者Huと作業対象物Obとの間に相互作用がある」と判定した「作業者Hu(1)と作業対象物Ob(1)とのペア」のみを、HOI分類器Cに通知する。
相互作用判定器Pは、撮像画像Imの特徴情報の入力を受けた判定モデル152の出力に対して、さらに以下の値を利用して、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」について、両者の間の相互作用の存否を判定してもよい。すなわち、相互作用判定器Pは、特徴量抽出器Rによるオブジェクト検出のスコア等をロジスティック回帰で「0から1までの値」へ変換した値を利用してもよい。オブジェクト検出のスコアは、例えば、撮像画像Imから検出された作業者Huおよび作業対象物Obについて、各々の存否の可能性を示すスコアである。
図4のHOI分類器C(HOI Classifier)は、例えばiCANであり、推定部123(推定モデル153)に対応する。HOI分類器Cは、撮像画像Imの特徴情報から、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報を出力する。具体的には、HOI分類器Cは、学習済モデルである推定モデル153に、撮像画像Imの特徴情報を入力する。撮像画像Imの特徴情報の入力を受けた推定モデル153は、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報を出力する。
ここで、HOI分類器Cは、相互作用判定器Pの出力を利用して、推定モデル153が『両者の間のHOIとして作業Opの内容を推定する、「作業者Huと作業対象物Obとのペア」』を抽出する。すなわち、HOI分類器Cは、「両者の間に相互作用がある」と判定された「作業者Huと作業対象物Obとのペア」についてのみ、両者の間のHOIとして、作業者Huが作業対象物Obについて行っている作業Opの内容を推定する。
具体的には、HOI分類器Cは、「両者の間に相互作用がある」と判定された「作業者Huと作業対象物Obとのペア」についてのみ、両者の間のHOIとして、「作業者Huが作業対象物Obについて行っている作業Op」のスコアを算出する。図4に例示する撮像画像Imについて、HOI分類器Cは、相互作用判定器Pが「両者の間に相互作用がある」と判定した「作業者Hu(1)と作業対象物Ob(1)とのペア」についてのみ、HOIを検出し、例えば、HOIのスコアを出力する。
図4には、作業者Hu(1)が作業対象物Ob(1)について行っている作業Op(つまり、HOI)のスコアとして、以下の値が例示されている。すなわち、「Carry(運搬)」のスコアが「0.96」、「Hold(把持)」のスコアが「0.89」、「Paint(塗装)」のスコアが「0.92」、「Ride(乗車)」のスコアが「0.03」である例が示されている。
解析部120による撮像画像Imの解析において、HOI分類器Cによる推定処理に先行して、相互作用判定器Pが、撮像画像Imから検出された「作業者Huと作業対象物Obとのペア」について、推定処理の要否を判定する。つまり、解析部120において、相互作用判定器Pは、特徴量抽出器Rが撮像画像Imから抽出した特徴情報から想定し得る、撮像画像Im中の全ての「作業者Huと作業対象物Obとのペア」の中から、HOI分類器Cによる推定処理が不要なペアを排除する。そして、HOI分類器Cは、残ったペアについてのみ、両者の間のHOIを検出し、つまり、作業者Huが作業対象物Obについて行っている作業Opの内容を推定する(動詞推定を実行する)。
したがって、解析部120は、HOI分類器C(つまり、推定部123)による推定処理の計算コストを予め下げることができ、結果として、撮像画像Imの解析処理全体の計算速度を向上させることができる。
次に、学習済モデルである検出モデル151、判定モデル152、および、推定モデル153を構築する学習処理について、以下に説明する。
(学習処理)
NNとして実現された解析部120は、学習済モデルである検出モデル151、判定モデル152、および、推定モデル153の各々を、例えば以下の方法によって構築する。すなわち、解析部120は、「撮像画像Imまたは撮像画像Imの特徴情報に対し、所定のラベルが付されたデータ」の集合であるデータセットDSに対する教師あり学習によって、検出モデル151、判定モデル152、および、推定モデル153を構築する。以下では、「撮像画像Imまたは撮像画像Imの特徴情報に対し、所定のラベルが付されたデータ」を「学習用データ」と称する。また、「解析部120が、教師あり学習によって、検出モデル151、判定モデル152、および、推定モデル153を構築する」処理を、「学習処理」と称する。
NNとして実現された解析部120は、学習済モデルである検出モデル151、判定モデル152、および、推定モデル153の各々を、例えば以下の方法によって構築する。すなわち、解析部120は、「撮像画像Imまたは撮像画像Imの特徴情報に対し、所定のラベルが付されたデータ」の集合であるデータセットDSに対する教師あり学習によって、検出モデル151、判定モデル152、および、推定モデル153を構築する。以下では、「撮像画像Imまたは撮像画像Imの特徴情報に対し、所定のラベルが付されたデータ」を「学習用データ」と称する。また、「解析部120が、教師あり学習によって、検出モデル151、判定モデル152、および、推定モデル153を構築する」処理を、「学習処理」と称する。
例えば、学習用データは、撮像画像Imに対して以下の情報がラベルとして付されたデータである。すなわち、学習用データにおいて撮像画像Imには、撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報(例、作業者Huの存否、作業者Huの空間配置(空間上の位置)、作業者Huの姿勢等を示す情報)がラベルとして付されている。また、学習用データにおいて撮像画像Imには、撮像画像Imに撮像されている作業対象物Obに係る情報(例、作業対象物Obの存否、作業対象物Obの空間配置、作業対象物Obが何であるか等を示す情報)がラベルとして付されている。
さらに、学習用データにおいて撮像画像Imには、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を示す情報がラベルとして付されている。
加えて、学習用データにおいて撮像画像Imには、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報がラベルとして付されている。
学習用データにおいて撮像画像Imに対するラベルとして付される情報は、学習用データの集合であるデータセットDSに対する機械学習により構築された学習済モデルが、撮像画像Im(または撮像画像Imの特徴情報)の入力に対して出力する情報と同様である。
(学習済モデルとしての検出モデルの構築)
学習処理において、NNとして実現された解析部120は、データセットDSに対する教師あり学習によって、撮像画像Imの入力に対して、以下の情報を出力する検出モデル151を、学習済モデルとして構築する。すなわち、検出モデル151は、撮像画像Imを入力とし、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報」および「撮像画像Imに撮像されている作業対象物Obに係る情報」を出力とする学習済モデルである。特に、検出モデル151は、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報」および「撮像画像Imに撮像されている作業対象物Obに係る情報」を、撮像画像Imの特徴情報(特徴量)として出力する学習済モデルである。
学習処理において、NNとして実現された解析部120は、データセットDSに対する教師あり学習によって、撮像画像Imの入力に対して、以下の情報を出力する検出モデル151を、学習済モデルとして構築する。すなわち、検出モデル151は、撮像画像Imを入力とし、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報」および「撮像画像Imに撮像されている作業対象物Obに係る情報」を出力とする学習済モデルである。特に、検出モデル151は、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報」および「撮像画像Imに撮像されている作業対象物Obに係る情報」を、撮像画像Imの特徴情報(特徴量)として出力する学習済モデルである。
前述の通り、学習用データにおいて、撮像画像Imには、「撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報」、および、「撮像画像Imに撮像されている作業対象物Obに係る情報」がラベルとして付されている。
NNとして実現された解析部120は、学習によって構築した検出モデル151を、記憶部150に格納する。
(学習済モデルとしての判定モデルの構築)
学習処理において、NNとして実現された解析部120は、データセットDSに対する教師あり学習によって、撮像画像Imまたは撮像画像Imの特徴情報(特徴量)の入力に対して、以下の情報を出力する判定モデル152を、学習済モデルとして構築する。すなわち、判定モデル152は、撮像画像Im(撮像画像Imの特徴情報)を入力とし、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を示す情報を出力とする学習済モデルである。
学習処理において、NNとして実現された解析部120は、データセットDSに対する教師あり学習によって、撮像画像Imまたは撮像画像Imの特徴情報(特徴量)の入力に対して、以下の情報を出力する判定モデル152を、学習済モデルとして構築する。すなわち、判定モデル152は、撮像画像Im(撮像画像Imの特徴情報)を入力とし、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を示す情報を出力とする学習済モデルである。
前述の通り、学習用データにおいて、撮像画像Imには、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を示す情報がラベルとして付されている。
「NNとして実現された解析部120が判定モデル152を構築するための教師あり学習を行うデータセットDS」に含まれる学習用データは、以下のようなデータであってもよい。すなわち、ラベルとしての「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を示す情報が、撮像画像Imの特徴情報(特徴量)に対して付されたデータであってもよい。つまり、「検出モデル151が撮像画像Imから抽出する特徴情報」に対し、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を示す情報がラベルとして付されたデータでもよい。
NNとして実現された解析部120は、学習によって構築した判定モデル152を、記憶部150に格納する。
(学習済モデルとしての推定モデルの構築)
学習処理において、NNとして実現された解析部120は、データセットDSに対する教師あり学習によって、撮像画像Imまたは撮像画像Imの特徴情報(特徴量)の入力に対して、以下の情報を出力する推定モデル153を、学習済モデルとして構築する。すなわち、推定モデル153は、撮像画像Im(撮像画像Imの特徴情報)を入力とし、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報を出力とする学習済モデルである。
学習処理において、NNとして実現された解析部120は、データセットDSに対する教師あり学習によって、撮像画像Imまたは撮像画像Imの特徴情報(特徴量)の入力に対して、以下の情報を出力する推定モデル153を、学習済モデルとして構築する。すなわち、推定モデル153は、撮像画像Im(撮像画像Imの特徴情報)を入力とし、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報を出力とする学習済モデルである。
前述の通り、学習用データにおいて、撮像画像Imには、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報がラベルとして付されている。
「NNとして実現された解析部120が推定モデル153を構築するための教師あり学習を行うデータセットDS」に含まれる学習用データは、以下のようなデータであってもよい。すなわち、ラベルとしての「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報が、撮像画像Imの特徴情報(特徴量)に対して付されたデータであってもよい。つまり、「検出モデル151が撮像画像Imから抽出する特徴情報」に対し、「撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容」を示す情報がラベルとして付されたデータでもよい。
NNとして実現された解析部120は、学習によって構築した推定モデル153を、記憶部150に格納する。
§3.動作例
(モードごとの動作例)
情報処理装置10は、通常モードまたは転移学習モードで動作する。
(モードごとの動作例)
情報処理装置10は、通常モードまたは転移学習モードで動作する。
通常モードにおいて、NNとして実現された解析部120は、相互作用判定器P(判定モデル152)と、HOI分類器C(推定モデル153)とを、同じデータセットDSに対する学習によって構築する。
転移学習モードにおいて、NNとして実現された解析部120が相互作用判定器P(判定モデル152)を構築するために学習したデータセットDSと、解析部120がHOI分類器C(推定モデル153)を構築するために学習したデータセットDSとは異なる。
転移学習モードにおいて、NNとして実現された解析部120は、相互作用判定器P(判定モデル152)を、例えば、互いにドメインの異なる複数のデータセットDSを含むデータセットDS(X)に対する学習によって構築する。例えば、転移学習モードにおいて解析部120は、「工場Fa(A)で準備されたデータセットDS(A)」と「工場Fa(B)で準備されたデータセットDS(B)」とを含むデータセットDS(X)に対する学習によって、判定モデル152(X)を構築する。
データセットDS(X)において、工場Fa(A)およびFa(B)の少なくとも一方で撮像された撮像画像Imには、撮像画像Imに撮像されている「作業者Huおよび作業対象物Ob」の間の相互作用の存否を示す情報がラベルとして付されている。転移学習モードにおいて解析部120は、データセットDS(X)によって、撮像画像Imに撮像されている「作業者Huおよび作業対象物Ob」の間の相互作用の存否を学習する。
データセットDS(X)の学習から構築された判定モデル152(X)は、データセットDS(X)とは異なるデータセットDSであるデータセットDS(C)の学習から構築された推定モデル153(C)と協働することができる。つまり、データセットDS(X)の学習から構築された判定モデル152(X)は、工場Fa(C)で撮像された撮像画像Im(C)について、撮像画像Im(C)に撮像されている「作業者Huおよび作業対象物Ob」の間の相互作用の存否を判定できる。
そして、転移学習モードにおいて、推定モデル153(C)は、判定モデル152(X)の出力を利用して、「HOIを分類する(つまり、作業Opの内容を推定する)」対象のペアを抽出する。すなわち、撮像画像Im(C)(またはその特徴情報)を入力された推定モデル153(C)は、撮像画像Im(C)(またはその特徴情報)を入力された判定モデル152(X)が「両者の間に相互作用がある」と判定したペアについてのみ、HOIを分類する。
工場Faごとに、「作業者Huが作業対象物Obについて行っている作業Opの内容」は様々であるから、「作業者Huが作業対象物Obについて行っている作業Opの内容」はドメインへの依存性が高い。そのため、「作業者Huが作業対象物Obについて行っている作業Opの内容」の学習は、工場Faごとに行う必要がある。
これに対して、工場Faと、「作業者Huと作業対象物Obとの間に相互作用があるか否か」との間には関係性がなく、または、関係性が十分に小さいと考えられ、「作業者Huと作業対象物Obとの間に相互作用があるか否か」はドメインへの依存性が低い。そのため、『或る工場Fa(C)において、「作業者Huと作業対象物Obとの間に相互作用があるか否か」を判定する』ための知識は、別の工場Fa(X)で収集したデータからも学習することが可能である。
そこで、転移学習モードにおいて解析部120は、工場Fa(X)で収集したデータに対する学習によって構築した判定モデル152(X)によって、工場Fa(C)において、「作業者Huと作業対象物Obとの間に相互作用があるか否か」を判定する。
以下、通常モードおよび転移学習モードの各々における、学習処理および解析処理について、図5および図6を参照して、詳細を説明する。
(通常モード)
図5は、通常モードにおいて情報処理装置10が実行する処理の概要を説明する図である。図5の(A)は、通常モードにおいて情報処理装置10が実行する学習処理の概要を説明する図であり、図5の(B)は、通常モードにおいて情報処理装置10が実行する解析処理の概要を説明する図である。
図5は、通常モードにおいて情報処理装置10が実行する処理の概要を説明する図である。図5の(A)は、通常モードにおいて情報処理装置10が実行する学習処理の概要を説明する図であり、図5の(B)は、通常モードにおいて情報処理装置10が実行する解析処理の概要を説明する図である。
図5における「R」、「P」、および、「C」は、各々、特徴量抽出器R(検出モデル151)、相互作用判定器P(判定モデル152)、および、HOI分類器C(推定モデル153)の各々を示している。前述の通り、相互作用判定器P(判定モデル152)は、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」について、両者の間の相互作用の存否(interactive / Non-interactive)を判定する。また、HOI分類器C(推定モデル153)は、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」のHOIとして、そのペアの一方である作業者Huが、そのペアの他方である作業対象物Obについて行っている作業Opの内容を推定する。
通常モードにおいて解析部120は、「或る工場Faで撮像された撮像画像Im」の解析に用いる学習済モデルを、以下のようにして構築する。すなわち、解析部120は、『「その或る工場Faで撮像された撮像画像Im、または、その或る工場Faで撮像された撮像画像Imの特徴情報」に対して、所定のラベルが付された学習用データ』の集合(データセットDS)から、解析のためのモデルを構築する。
通常モードにおいて、学習用データ(教師データ)に含まれる撮像画像Imと、その学習用データの集合であるデータセットDSに対する学習によって構築した学習済モデルに入力される撮像画像Imとは、同じ工場Faにおいて撮像されたものである。
例えば、通常モードにおいて解析部120は、「工場Fa(A)で撮像された撮像画像Im(A)」の解析に用いる学習済モデルを、以下のように生成する。すなわち、解析部120は、「撮像画像Im(A)または撮像画像Im(A)の特徴情報に対して、所定のラベルが付されたデータ」の集合であるデータセットDS(A)に対する教師あり学習によって、撮像画像Im(A)の解析に用いる学習済モデルを構築する。
したがって、通常モードにおいて、相互作用判定器P(判定モデル152)を構築するために学習されるデータセットDSと、HOI分類器C(推定モデル153)を構築するために学習されるデータセットDSとは、同じデータセットDSである。
例えば、図5の(A)において、工場Fa(A)で撮像された撮像画像Im(A)を解析するための学習済モデルである判定モデル152(A)および推定モデル153(A)は、いずれも、データセットDS(A)に対する学習によって構築される。
そして、図5の(B)に示すように、通常モードにおいて、撮像画像Im(A)に対する解析処理は、互いに共通のデータセットDS(A)に対する学習によって構築された判定モデル152(A)および推定モデル153(A)を用いて実行される。
すなわち、通常モードにおける撮像画像Im(A)に対する解析処理において、判定モデル152(A)は、撮像画像Im(A)に撮像されている「作業者Huと作業対象物Obとのペア」について、両者の間の相互作用の存否を判定する。
また、通常モードにおける撮像画像Im(A)に対する解析処理において、推定モデル153(A)は、判定モデル152(A)によって「両者の間に相互作用がある」と判定されたペアについて、そのペアのHOIとして、作業Opの内容を推定する。図5の(B)において、作業Opの内容を推定するペアを「両者の間に相互作用がある」と判定されたペアに限定することを、「Interactive抑制」と呼んでいる。
(転移学習モード)
図6は、転移学習モードにおいて情報処理装置10が実行する処理の概要を説明する図である。図6の(A)は、転移学習モードにおいて情報処理装置10が実行する学習処理の概要を説明する図であり、図6の(B)は、転移学習モードにおいて情報処理装置10が実行する解析処理の概要を説明する図である。
図6は、転移学習モードにおいて情報処理装置10が実行する処理の概要を説明する図である。図6の(A)は、転移学習モードにおいて情報処理装置10が実行する学習処理の概要を説明する図であり、図6の(B)は、転移学習モードにおいて情報処理装置10が実行する解析処理の概要を説明する図である。
図6における「R」、「P」、および、「C」は、各々、特徴量抽出器R(検出モデル151)、相互作用判定器P(判定モデル152)、および、HOI分類器C(推定モデル153)の各々を示している。前述の通り、相互作用判定器P(判定モデル152)は、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」について、両者の間の相互作用の存否(interactive / Non-interactive)を判定する。また、HOI分類器C(推定モデル153)は、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」のHOIとして、そのペアの一方である作業者Huが、そのペアの他方である作業対象物Obについて行っている作業Opの内容を推定する。
転移学習モードの学習処理において解析部120が推定モデル153を構築する方法は、通常モードの学習処理において解析部120が推定モデル153を構築する方法と同様である。
具体的には、解析部120は、或る工場Faで撮像された撮像画像Im(または、その特徴情報)から、その或る工場Faにおいて作業者Huが作業対象物Obについて行っている作業Opの内容を推定する推定モデル153を、以下のようにして構築する。すなわち、解析部120は、『「その或る工場Faで撮像された撮像画像Im(または、その特徴情報)」に対して、所定のラベルが付された学習用データ』の集合(データセットDS)から、推定モデル153を構築する。
例えば、転移学習モードにおいて解析部120は、「工場Fa(C)で撮像された撮像画像Im(C)」の解析に用いる推定モデル153(C)を、以下のように生成する。すなわち、解析部120は、「撮像画像Im(C)または撮像画像Im(C)の特徴情報に対して、所定のラベルが付されたデータ」の集合であるデータセットDS(C)に対する教師あり学習によって、推定モデル153(C)を構築する。
これに対して、転移学習モードの学習処理において解析部120が判定モデル152を構築する方法は、通常モードの学習処理において解析部120が判定モデル152を構築する方法とは異なる。
解析部120は、或る工場Faで撮像された撮像画像Im(または、その特徴情報)から、撮像画像Imに撮像されている「作業者Huと作業対象物Obとのペア」について、両者の間の相互作用の存否を判定する判定モデル152を、以下のようにして構築する。すなわち、解析部120は、『「その或る工場Fa以外の工場Faで撮像された撮像画像Im(または、その特徴情報)」に対して、所定のラベルが付された学習用データ』の集合(データセットDS)から、判定モデル152を構築する。
例えば、転移学習モードにおいて解析部120は、「工場Fa(C)で撮像された撮像画像Im(C)」の解析に用いる判定モデル152(C)を、以下のように生成する。すなわち、解析部120は、データセットDS(A)に対する学習から構築した判定モデル152(A)を、判定モデル152(C)とする。
解析部120は、判定モデル152(C)を構築するために、さらに、「工場Fa(B)で撮像された撮像画像Im(B)(または、その特徴情報)に対して、所定のラベルが付されたデータ」の集合であるデータセットDS(B)を学習してもよい。
すなわち、転移学習モードにおいて解析部120は、データセットDS(A)とデータセットDS(B)とを含むデータセットDS(X)に対する学習から構築した判定モデル152(X)を、判定モデル152(C)としてもよい。
図6の(A)に示すように、転移学習モードにおいて、解析部120が判定モデル152を構築するために学習したデータセットDS(X)と、解析部120が推定モデル153を構築するために学習したデータセットDS(C)とは異なる。転移学習モードにおいて、解析部120は、データセットDS(X)に対する学習から判定モデル152(C)(つまり、判定モデル152(X))を構築し、データセットDS(C)に対する学習から推定モデル153(C)を構築する。
図6の(B)に示すように、転移学習モードにおいて、撮像画像Im(C)に対する解析処理は、互いに異なるデータセットDSに対する学習から構築された判定モデル152(C)(=判定モデル152(X))と推定モデル153(C)とを用いて実行される。
すなわち、転移学習モードにおける撮像画像Im(C)に対する解析処理において、判定モデル152(X)が、撮像画像Im(C)に撮像されている「作業者Huと作業対象物Obとのペア」について、両者の間の相互作用の存否を判定する。
また、転移学習モードにおける撮像画像Im(C)に対する解析処理において、推定モデル153(C)は、判定モデル152(X)によって「両者の間に相互作用がある」と判定されたペアについて、そのペアのHOIとして、作業Opの内容を推定する。図6の(B)において、作業Opの内容を推定するペアを「両者の間に相互作用がある」と判定されたペアに限定することを、「Interactive抑制」と呼んでいる。
これまでに図5および図6を用いて説明してきた内容は、以下のように整理することができる。すなわち、情報処理装置10は、通常モードまたは転移学習モードで動作する。
通常モードにおいて情報処理装置10は、或る工場(例、工場Fa(A))で収集したデータセットDS(例、データセットDS(A))に対する学習によって、判定モデル152(例、判定モデル152(A))を構築する。そして、判定部122は、構築した判定モデル(例、判定モデル152(A))を用いて、その或る工場(例、工場Fa(A))の作業場Arで撮像された撮像画像Im(A)について、作業者Huと作業対象物Obとの間の相互作用の存否を判定する。
転移学習モードおいて情報処理装置10は、或る工場(例、工場Fa(X))で収集したデータセットDS(例、データセットDS(X))に対する学習によって、判定モデル152(例、判定モデル152(X))を構築する。そして、判定部122は、構築した判定モデル(例、判定モデル152(X))を用いて、別の工場Fa(例、工場Fa(C))の作業場Arで撮像された撮像画像Im(C)について、作業者Huと作業対象物Obとの間の相互作用の存否を判定する。
前記の構成によれば、情報処理装置10は、通常モードまたは転移学習モードで動作する。通常モードにおいて、作業者Huと作業対象物Obとの間の相互作用の存否が判定される撮像画像Imが撮像された工場Faと、判定モデル152を構築するためのデータセットが収集された工場Faとは、同じである。転移学習モードおいて、作業者Huと作業対象物Obとの間の相互作用の存否が判定される撮像画像Imが撮像された工場Faと、判定モデル152を構築するためのデータセットが収集された工場Faとは、異なる。
ここで、情報処理装置10の開発者は、撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否は、撮像画像Imが撮像された環境の影響から十分に独立して、判定することができることを確認した。
つまり、相互作用の存否を判定する判定モデル152について、或る工場Fa(X)で収集したデータセットDS(X)に対する学習によって構築した判定モデル152(X)は、別の工場Fa(Y)で撮像された撮像画像Im(Y)の判定に適用可能である。具体的には、判定モデル152(X)は、撮像画像Im(Y)、または、その特徴情報の入力に対し、撮像画像Im(Y)に撮像されている作業者Huと、撮像画像Im(Y)に撮像されている作業対象物Obとの間の相互作用の存否を出力できる。
したがって、情報処理装置10は、転移学習モードおいて、或る工場Fa(X)で撮像された撮像画像(X)の判定について、別の工場Fa(Y)で学習した判定モデル152(Y)を用いることができるとの効果を奏する。
(解析処理の詳細)
図7は、情報処理装置10が実行する解析処理の全体概要を説明するフロー図である。図7に例示するフロー図において、S210およびS220は、特徴量抽出器Rである検出部121(検出モデル151)によって実行される処理である。S310およびS320は、相互作用判定器Pである判定部122(判定モデル152)によって実行される処理である。S410からS430は、HOI分類器Cである推定部123(推定モデル153)によって実行される処理である。
図7は、情報処理装置10が実行する解析処理の全体概要を説明するフロー図である。図7に例示するフロー図において、S210およびS220は、特徴量抽出器Rである検出部121(検出モデル151)によって実行される処理である。S310およびS320は、相互作用判定器Pである判定部122(判定モデル152)によって実行される処理である。S410からS430は、HOI分類器Cである推定部123(推定モデル153)によって実行される処理である。
図7に示すように、撮像画像取得部110は、天井カメラ30からセンサ―データを取得し、具体的には、撮像画像Imを取得する(S110)。撮像画像取得部110は取得した撮像画像Imを解析部120へと出力し、特に検出部121へと出力する。
解析部120(特に、検出部121)は、撮像画像Imから特徴情報(特徴量)を生成する。検出部121は、撮像画像Imの特徴情報として、撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報を生成し、例えば、撮像画像Imから、撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)の検出等を実行する。言い換えれば、検出部121は、撮像画像Imから、撮像画像Imに撮像されている作業者Hu(作業者Huの体部位)に係る情報(例、作業者Huの存否、作業者Huの空間配置、作業者Huの姿勢(ポーズ)等を示す情報)を取得する(S210)。
また、検出部121は、撮像画像Imの特徴情報として、撮像画像Imに撮像されている作業対象物Obに係る情報を生成し、例えば、撮像画像Imから、撮像画像Imに撮像されている作業対象物Obの検出等を実行する。言い換えれば、検出部121は、検出部121は、撮像画像Imから、撮像画像Imに撮像されている作業対象物Obに係る情報(例、作業対象物Obの存否、作業対象物Obの空間配置、作業対象物Obが何であるか等を示す情報)を取得する(S220)。
検出部121は、撮像画像Imから取得した(生成した)撮像画像Imの特徴情報(例えば、撮像画像Imに撮像されている作業者Huおよび作業対象物Obの各々に係る情報)を、判定部122および推定部123へと出力する。
判定部122は、検出部121から取得した特徴情報から、『「撮像画像Imに撮像されている作業者Hu」と「撮像画像Imに撮像されている作業対象物Ob」とのペア』のリストである、ペアリスト情報を取得する(生成する)(S310)。ペアリスト情報には、各々が『「撮像画像Imに撮像されている、いずれかの1人の作業者Hu」と、「撮像画像Imに撮像されている、いずれか1つの作業対象物Ob」とから成る』全てのペア(例えば、図3の撮像画像Imにおける8つのペア)が示されている。
判定部122は、ペアリスト情報に挙げられている全てのペアについて、各々、「作業者Huと作業対象物Obとの間に相互作用があるか」を判定する(S320)。
判定部122は、ペアリスト情報に挙げられているペアについて、作業者Huと作業対象物Obとの間に相互作用があると判定すると(S320でYES)、作業者Huと作業対象物Obとの間に相互作用があると判定したペアを、推定部123に通知する。判定部122が、ペアリスト情報に挙げられている全てのペアについて、作業者Huと作業対象物Obとの間に相互作用がないと判定すると(S320でNO)、情報処理装置10は、S110に戻って新たな撮像画像Imを天井カメラ30から取得する。
推定部123は、判定部122によって「作業者Huと作業対象物Obとの間に相互作用がある」と判定されたペアを把握し、つまり、お互いの間に相互作用があると判定された作業者Huと作業対象物Obとを関連付ける(S410)。
推定部123は、S410で作業対象物Obと関連付けられた作業者Huについて、作業者Huが作業対象物Obについて行っている作業Opの内容を推定する(S420)。推定部123は、判定部122によって「作業者Huと作業対象物Obとの間に相互作用がある」と判定されたペアについてのみ、作業者Huが作業対象物Obについて行っている作業OpをHOIとして検出し、つまり、作業Opの内容を推定する。
推定部123(解析部120)は、推定した作業Opの内容(作業内容)を、例えば、支援情報生成部140および図2の動画保存サーバ等へと出力する(S430)。
これまで図7を用いて説明してきた情報処理装置10の実行する処理は、以下のように整理することができる。すなわち、情報処理装置10の実行する制御方法は、作業場Arを撮像した撮像画像Imから、撮像画像Imに撮像されている作業者Huが行っている作業Opの内容を推定する情報処理装置10の制御方法である。前記制御方法は、検出ステップ(S210およびS220)と、判定ステップ(S320)と、推定ステップ(S420)とを含む。
検出ステップは、撮像画像Imから、撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとを検出する。
判定ステップは、モデルベースで、撮像画像Imまたはその特徴情報から、検出ステップによって検出された作業者Huと作業対象物Obとの間の相互作用の存否を判定する。判定ステップは、学習済モデルである判定モデル152を用いて、撮像画像Imまたはその特徴情報から、検出ステップによって検出された作業者Huと作業対象物Obとの間の相互作用の存否を判定する。判定モデル152は、「撮像画像Im、または、撮像画像Imから生成された特徴情報」を入力とし、「撮像画像Imに撮像されている作業者Huと、撮像画像Imに撮像されている作業対象物Obとの間の相互作用の存否」を出力とする学習済モデルである。
推定ステップは、判定ステップによって相互作用が存在すると判定された作業者Huと作業対象物Obとの組合せ(ペア)について、作業者Huが作業対象物Obについて行っている作業Opの内容を推定する。
前記の構成によれば、前記制御方法は、学習済モデルである判定モデル152を用いて、撮像画像Imから検出された「作業者Huと作業対象物Obとのペア」について、作業者Huと作業対象物Obとの間の相互作用の存否を判定する。そして、前記制御方法は、相互作用が存在すると判定した「作業者Huと作業対象物Obとのペア」について、ペアの一方である作業者Huが、ペアの他方である作業対象物Obについて行っている作業Opの内容を推定する。
つまり、前記制御方法は、撮像画像Imから検出された作業者Huと作業対象物Obとについて、ルールベースではなく、モデルベースで、両者の相互作用の存否を判定する。
したがって、前記制御方法は、作業者Huの行う作業Opの種類が増えても、作業Opの内容を推定するための煩雑なルールを整備する必要なく、作業者Huが行っている作業Opを推定することができるとの効果を奏する。
また、前記制御方法は、「相互作用が存在する」とモデルベースで判定した作業者Huと作業対象物Obとのペアについて、作業者Huが作業対象物Obについて行っている作業Opの内容を推定する。
つまり、前記制御方法は、撮像画像Imに撮像されている作業者Huと作業対象物Obとのペアの全てについてではなく、「相互作用が存在する」と判定したペアについてのみ、作業者Huが行っている作業Opの内容を推定する。
したがって、前記制御方法は、撮像画像Imに撮像されている作業者Huが、撮像画像Imに撮像されている作業対象物Obについて行っている作業Opの内容を推定するのに必要な計算量を抑制することができるとの効果を奏する。
§4.変形例
これまで、教師ありデータに対する機械学習によって、学習済データとして検出モデル151、判定モデル152、および、推定モデル153を構築する例を説明してきた。しかしながら、検出モデル151、判定モデル152、および、推定モデル153を構築するための機械学習は、教師ありデータに対する機械学習に限られない。検出モデル151、判定モデル152、および、推定モデル153を構築するための機械学習は、教師あり学習に限らず、教師なし学習、または、強化学習等の他の機械学習であってもよい。
これまで、教師ありデータに対する機械学習によって、学習済データとして検出モデル151、判定モデル152、および、推定モデル153を構築する例を説明してきた。しかしながら、検出モデル151、判定モデル152、および、推定モデル153を構築するための機械学習は、教師ありデータに対する機械学習に限られない。検出モデル151、判定モデル152、および、推定モデル153を構築するための機械学習は、教師あり学習に限らず、教師なし学習、または、強化学習等の他の機械学習であってもよい。
またこれまで、推定部123が、撮像画像Imから、「作業者Huが作業対象物Obについて行っている作業Opの内容を推定する」のに推定モデル153を利用する例を説明してきた。しかしながら、推定部123が、撮像画像Imから、ルールベースで、作業者Huが作業対象物Obについて行っている作業Opの内容を推定してもよい。
〔ソフトウェアによる実現例〕
情報処理装置10の機能ブロック(具体的には、撮像画像取得部110、解析部120、工程情報取得部130、および、支援情報生成部140)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU、GPU、DSP等を用いてソフトウェアによって実現してもよい。
情報処理装置10の機能ブロック(具体的には、撮像画像取得部110、解析部120、工程情報取得部130、および、支援情報生成部140)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU、GPU、DSP等を用いてソフトウェアによって実現してもよい。
後者の場合、情報処理装置10は、各々、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、GPU、DSP等と、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROMまたは記憶装置(これらを「記録媒体」と称する)と、上記プログラムを展開するRAM等とを備えている。そして、コンピュータ(またはCPU、GPU、DSP等)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
(付記事項)
本発明の一態様に係る作業推定装置は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出部と、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出部によって検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定部と、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定部と、を備える。
本発明の一態様に係る作業推定装置は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出部と、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出部によって検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定部と、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定部と、を備える。
前記の構成によれば、前記作業推定装置は、前記判定モデルを用いて、前記撮像画像から検出された前記作業者と前記作業対象物とについて、両者の相互作用の存否を判定する。そして、前記作業推定装置は、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。
つまり、前記作業推定装置は、前記撮像画像から検出された前記作業者と前記作業対象物とについて、ルールベースではなく、モデルベースで、両者の相互作用の存否を判定する。
したがって、前記作業推定装置は、作業者の行う作業の種類が増えても、作業の内容を推定するための煩雑なルールを整備する必要なく、作業者が行っている作業を推定することができるとの効果を奏する。
また、前記作業推定装置は、相互作用が存在するとモデルベースで判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。
つまり、前記作業推定装置は、前記撮像画像に撮像されている前記作業者と前記作業対象物との組合せの全てについてではなく、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについてのみ、前記作業者が行っている作業の内容を推定する。
したがって、前記作業推定装置は、前記撮像画像に撮像されている前記作業者が、前記撮像画像に撮像されている前記作業対象物について行っている作業の内容を推定するのに必要な計算量を抑制することができるとの効果を奏する。
本発明の一態様に係る作業推定装置において、前記検出部は、前記撮像画像を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物とを出力とする学習済モデルである検出モデルを用いて、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出してもよい。
前記の構成によれば、前記作業推定装置は、前記検出モデルを用いて、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する。
つまり、前記作業推定装置は、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを、ルールベースではなく、モデルベースで、前記撮像画像から検出する。
したがって、前記作業推定装置は、煩雑なルール整備を必要とせずに、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出することができるとの効果を奏する。
本発明の一態様に係る作業推定装置において、前記推定部は、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者が、前記撮像画像に撮像されている前記作業対象物について行っている作業の内容を出力とする学習済モデルである推定モデルを用いて、前記撮像画像または前記特徴情報から、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定してもよい。
前記の構成によれば、前記作業推定装置は、前記推定モデルを用いて、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。
つまり、前記作業推定装置は、前記撮像画像から検出された前記作業者と前記作業対象物とについて、ルールベースではなく、モデルベースで、前記作業者が前記作業対象物について行っている作業の内容を推定する。
したがって、前記作業推定装置は、作業者の行う作業の種類が増えても、作業の内容を推定するための煩雑なルールを整備する必要なく、作業者が行っている作業を推定することができるとの効果を奏する。
本発明の一態様に係る作業推定装置は、通常モードまたは転移学習モードで動作してもよく、通常モードにおいて前記判定部は、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記或る工場の前記作業場で撮像された前記撮像画像について、前記作業者と前記作業対象物との間の相互作用の存否を判定してもよく、転移学習モードおいて前記判定部は、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記或る工場とは異なる別の工場の前記作業場で撮像された前記撮像画像について、前記作業者と前記作業対象物との間の相互作用の存否を判定してもよい。
前記の構成によれば、前記作業推定装置は、通常モードまたは転移学習モードで動作する。通常モードにおいて、前記作業者と前記作業対象物との間の相互作用の存否が判定される前記撮像画像が撮像された工場と、前記判定モデルを構築するためのデータセットが収集された工場とは、同じ工場である。転移学習モードおいて、前記作業者と前記作業対象物との間の相互作用の存否が判定される前記撮像画像が撮像された工場と、前記判定モデルを構築するためのデータセットが収集された工場とは、同じではない。
ここで、前記作業推定装置の開発者は、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否は、前記撮像画像が撮像された環境の影響から十分に独立して、判定することができることを確認した。
つまり、前記相互作用の存否を判定する前記判定モデルについて、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルは、別の工場で撮像された前記撮像画像について、相互作用の存否を判定するのに用いることができる。
したがって、前記作業推定装置は、転移学習モードおいて、或る工場で撮像された前記撮像画像について、別の工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記相互作用の存否を判定できるとの効果を奏する。
本発明の一態様に係る作業推定装置は、前記作業場に設置された機器の動作を制御する制御装置から、前記機器が実行した動作の内容および結果を示す動作結果から生成された工程情報を取得する取得部と、前記推定部によって推定された前記作業者の作業の内容と、前記取得部によって取得された前記工程情報とから、前記作業者による前記作業の効率的な実行を支援するのに利用可能な情報である支援情報を生成する生成部と、をさらに備えてもよい。
前記の構成によれば、前記作業推定装置は、前記制御装置から、前記作業場に設置された機器が実行した動作の内容および結果を示す動作結果から生成された工程情報を取得する。そして、前記作業推定装置は、前記撮像画像から推定した前記作業者の作業の内容と、前記工程情報とから、前記作業者による前記作業の効率的な実行を支援するのに利用可能な情報である支援情報を生成する。
したがって、前記作業推定装置は、前記撮像画像から推定した前記作業者の作業の内容を、前記工程情報と組み合わせることによって、前記作業者による前記作業の効率的な実行を支援するのに利用可能な情報である支援情報を生成できるとの効果を奏する。
本発明の一態様に係る制御方法は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置の制御方法であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出ステップと、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出ステップにて検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定ステップと、前記判定ステップによって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定ステップと、を含む。
前記の構成によれば、前記制御方法は、前記判定モデルを用いて、前記撮像画像から検出された前記作業者と前記作業対象物とについて、両者の相互作用の存否を判定する。そして、前記制御方法は、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。
つまり、前記制御方法は、前記撮像画像から検出された前記作業者と前記作業対象物とについて、ルールベースではなく、モデルベースで、両者の相互作用の存否を判定する。
したがって、前記制御方法は、作業者の行う作業の種類が増えても、作業の内容を推定するための煩雑なルールを整備する必要なく、作業者が行っている作業を推定することができるとの効果を奏する。
また、前記制御方法は、相互作用が存在するとモデルベースで判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。
つまり、前記制御方法は、前記撮像画像に撮像されている前記作業者と前記作業対象物との組合せの全てについてではなく、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについてのみ、前記作業者が行っている作業の内容を推定する。
したがって、前記制御方法は、前記撮像画像に撮像されている前記作業者が、前記撮像画像に撮像されている前記作業対象物について行っている作業の内容を推定するのに必要な計算量を抑制することができるとの効果を奏する。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
10 情報処理装置(作業推定装置)
40 機器
20 PLC(制御装置)
121 検出部
122 判定部
123 推定部
151 検出モデル
152 判定モデル
153 推定モデル
130 工程情報取得部(取得部)
140 支援情報生成部(生成部)
Ac 動作
Ar 作業場
DS データセット
Fa 工場
Hu 作業者
Im 撮像画像
La 動作結果
Ob 作業対象物
Op 作業
S210 (検出ステップ)
S220 (検出ステップ)
S320 (判定ステップ)
S420 (推定ステップ)
40 機器
20 PLC(制御装置)
121 検出部
122 判定部
123 推定部
151 検出モデル
152 判定モデル
153 推定モデル
130 工程情報取得部(取得部)
140 支援情報生成部(生成部)
Ac 動作
Ar 作業場
DS データセット
Fa 工場
Hu 作業者
Im 撮像画像
La 動作結果
Ob 作業対象物
Op 作業
S210 (検出ステップ)
S220 (検出ステップ)
S320 (判定ステップ)
S420 (推定ステップ)
Claims (8)
- 作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置であって、
前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出部と、
前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出部によって検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定部と、
前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定部と、
を備える作業推定装置。 - 前記検出部は、前記撮像画像を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物とを出力とする学習済モデルである検出モデルを用いて、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する
請求項1に記載の作業推定装置。 - 前記推定部は、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者が、前記撮像画像に撮像されている前記作業対象物について行っている作業の内容を出力とする学習済モデルである推定モデルを用いて、前記撮像画像または前記特徴情報から、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する
請求項1または2に記載の作業推定装置。 - 前記作業推定装置は、通常モードまたは転移学習モードで動作し、
通常モードにおいて前記判定部は、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記或る工場の前記作業場で撮像された前記撮像画像について、前記作業者と前記作業対象物との間の相互作用の存否を判定し、
転移学習モードおいて前記判定部は、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記或る工場とは異なる別の工場の前記作業場で撮像された前記撮像画像について、前記作業者と前記作業対象物との間の相互作用の存否を判定する請求項1から3のいずれか1項に記載の作業推定装置。 - 前記作業場に設置された機器の動作を制御する制御装置から、前記機器が実行した動作の内容および結果を示す動作結果から生成された工程情報を取得する取得部と、
前記推定部によって推定された前記作業者の作業の内容と、前記取得部によって取得された前記工程情報とから、前記作業者による前記作業の効率的な実行を支援するのに利用可能な情報である支援情報を生成する生成部と、
をさらに備える請求項1から4のいずれか1項に記載の作業推定装置。 - 作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置の制御方法であって、
前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出ステップと、
前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出ステップにて検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定ステップと、
前記判定ステップによって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定ステップと、
を含む制御方法。 - 請求項1から5のいずれか1項に記載の作業推定装置としてコンピュータを機能させるための情報処理プログラムであって、前記各部としてコンピュータを機能させるための情報処理プログラム。
- 請求項7に記載の情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020186043A JP7559511B2 (ja) | 2020-11-06 | 2020-11-06 | 作業推定装置、作業推定装置の制御方法、情報処理プログラム、および記録媒体 |
JP2020-186043 | 2020-11-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022097310A1 true WO2022097310A1 (ja) | 2022-05-12 |
Family
ID=81457719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/007657 WO2022097310A1 (ja) | 2020-11-06 | 2021-03-01 | 作業推定装置、作業推定装置の制御方法、情報処理プログラム、および記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7559511B2 (ja) |
WO (1) | WO2022097310A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045351A (ja) * | 2011-08-25 | 2013-03-04 | Canon Inc | 動作認識装置および動作認識方法 |
JP2018116325A (ja) * | 2017-01-16 | 2018-07-26 | 沖電気工業株式会社 | 異常検知システム、異常検知装置、異常検知方法およびプログラム |
JP2019046469A (ja) * | 2017-08-31 | 2019-03-22 | 富士通株式会社 | 多変数データの画像化 |
JP2019193019A (ja) * | 2018-04-20 | 2019-10-31 | キヤノン株式会社 | 作業分析装置、作業分析方法 |
-
2020
- 2020-11-06 JP JP2020186043A patent/JP7559511B2/ja active Active
-
2021
- 2021-03-01 WO PCT/JP2021/007657 patent/WO2022097310A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045351A (ja) * | 2011-08-25 | 2013-03-04 | Canon Inc | 動作認識装置および動作認識方法 |
JP2018116325A (ja) * | 2017-01-16 | 2018-07-26 | 沖電気工業株式会社 | 異常検知システム、異常検知装置、異常検知方法およびプログラム |
JP2019046469A (ja) * | 2017-08-31 | 2019-03-22 | 富士通株式会社 | 多変数データの画像化 |
JP2019193019A (ja) * | 2018-04-20 | 2019-10-31 | キヤノン株式会社 | 作業分析装置、作業分析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2022075325A (ja) | 2022-05-18 |
JP7559511B2 (ja) | 2024-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6693938B2 (ja) | 外観検査装置 | |
JP2019070930A (ja) | 異常検知装置および異常検知方法 | |
Andrianakos et al. | An approach for monitoring the execution of human based assembly operations using machine learning | |
CN107944563B (zh) | 机械学习装置以及机械学习方法 | |
JP6977686B2 (ja) | 制御システムおよび制御装置 | |
JP2011175437A (ja) | プロセス解析システム | |
WO2021100483A1 (ja) | モデル生成装置、推定装置、モデル生成方法、及びモデル生成プログラム | |
WO2020250498A1 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、および記録媒体 | |
US20220366244A1 (en) | Modeling Human Behavior in Work Environment Using Neural Networks | |
JP2020155114A (ja) | 時変システム動作における異常検出のためのシステム、方法およびコンピュータ読取可能記憶媒体 | |
US11138805B2 (en) | Quantitative quality assurance for mixed reality | |
Pookkuttath et al. | An optical flow-based method for condition-based maintenance and operational safety in autonomous cleaning robots | |
WO2022097310A1 (ja) | 作業推定装置、作業推定装置の制御方法、情報処理プログラム、および記録媒体 | |
JP2020205027A (ja) | データ抽出装置、データ抽出装置の制御方法、情報処理プログラム、および記録媒体 | |
CN110895719A (zh) | 验证装置 | |
Aftabi et al. | A Variational Autoencoder Framework for Robust, Physics-Informed Cyberattack Recognition in Industrial Cyber-Physical Systems | |
WO2022234678A1 (ja) | 機械学習装置、分類装置、及び制御装置 | |
WO2022157988A1 (ja) | 作業推定装置、作業推定装置の制御方法、情報処理プログラム、および記録媒体 | |
WO2020250501A1 (ja) | データ抽出装置、データ抽出装置の制御方法、情報処理プログラム、および記録媒体 | |
Suma et al. | Computer Vision and Its Intelligence in Industry 4.0 | |
KR20220154135A (ko) | 제조 공정을 위한 시스템, 방법 및 매체 | |
Spournias et al. | Enhancing visual recognition for door status identification in aal robots via machine learning | |
Ribeiro et al. | Automated Detection of Refilling Stations in Industry Using Unsupervised Learning | |
CN115116008B (zh) | 目标物品的状态识别方法、设备及存储介质 | |
JP7502448B2 (ja) | 検査装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21888864 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21888864 Country of ref document: EP Kind code of ref document: A1 |