WO2022244536A1 - 作業認識装置および作業認識方法 - Google Patents

作業認識装置および作業認識方法 Download PDF

Info

Publication number
WO2022244536A1
WO2022244536A1 PCT/JP2022/016811 JP2022016811W WO2022244536A1 WO 2022244536 A1 WO2022244536 A1 WO 2022244536A1 JP 2022016811 W JP2022016811 W JP 2022016811W WO 2022244536 A1 WO2022244536 A1 WO 2022244536A1
Authority
WO
WIPO (PCT)
Prior art keywords
amount
change
relevance
image
work
Prior art date
Application number
PCT/JP2022/016811
Other languages
English (en)
French (fr)
Inventor
卓馬 寺田
洋登 永吉
克行 中村
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2022244536A1 publication Critical patent/WO2022244536A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a work recognition apparatus and a work recognition method, and in particular, work recognition suitable for recognizing work by associating the relationship between a worker or a robot working at a manufacturing site and surrounding objects for work monitoring. Apparatus and work recognition method.
  • improvement activities are carried out to ensure the safety of human work and improve the accuracy of work content in order to maintain product quality.
  • technology development related to motion recognition in human work is being applied to the industrial field. For example, there are cases of detecting whether actions are taken according to the standard work manual of the manufacturing site, and cases of calculating the work time to determine how much time is required for a specific work.
  • a manufacturing site targeted by such technology is assumed to be a work site where various machines and tools are installed, the movements of the machines differ depending on the process, and the tools used for each task change.
  • Non-Patent Document 1 As a public database related to such action recognition technology, for example, there is Non-Patent Document 1. According to this database, for each image data, "Playing Piano”, “Surfing”, “Table Tennis A label such as "Shot” is given.
  • Non-Patent Document 2 an object algorithm for acquiring an object region from an image is described in Non-Patent Document 2 and Non-Patent Document 3, for example.
  • Patent Document 1 discloses a method for linking objects existing in a video using an information processing device.
  • Japanese Patent Application Laid-Open No. 2002-200000 proposes a method for finding connections between a mirror image reflected in a mirror and a real image, and realizing accurate person counting even in an image in which the mirror image is reflected, as an information processing apparatus for counting people.
  • two or more moving objects corresponding to the same real moving object in the plurality of moving objects are detected based on the similarity of the speed according to the position change of the plurality of moving objects in the image. is identified, and it is determined whether the change in the amount of movement over time is similar or not, and the connection between the two objects (real image and mirror image) is estimated.
  • Non-Patent Document 4 a method of recognizing actions using sensors and cameras is described in Non-Patent Document 4, for example.
  • Non-Patent Document 5 describes a technique for recognizing actions by GCN (Graph Convolution Network) as one aspect of machine learning.
  • GCN is a field of so-called convolutional neural networks. It generates a graph consisting of nodes with information on the feature values and classes of a certain object and edges connecting the nodes, and calculates the feature values of adjacent nodes. It is a method that can infer the target node class or the class of the entire graph by using In GCN, there are methods of predefining connections between nodes or automatically determining them according to changes in the video.
  • Non-Patent Document 5 employs two techniques.
  • the first method is to detect the position of an object in an image captured by a camera, calculate the superimposition rate from the degree of overlap between the objects, and then estimate the relationship between the two objects according to the superimposition rate.
  • the second method is to treat similar objects in the frame images acquired in time series as the same object, and establish the relationship between the objects in the frames in the time direction. With such a method, a graph can be generated by predefining or estimating the relationship between objects, and action recognition considering between objects becomes possible.
  • Non-Patent Document 5 In order to estimate the relationship between objects, the superposition rate or similarity between objects is used. It is assumed that the relationship between For example, when the door of the equipment is opened during processing, a new workpiece is transported and put into the equipment. Therefore, it is necessary to estimate the relevance by a method that does not depend on overlap or distance between objects.
  • Patent Document 1 which proposes a method of finding a connection between a real image and a mirror image, assumes that the target object is the same.
  • multiple objects machine, workpieces, workers
  • Patent Document 1 and Non-Patent Document 5 the superimposition rate, similarity, etc. are used as indices for determining connections between objects, and thresholds are set for determination. Therefore, when it is judged that there is a connection between objects by this method, it is only when those indices take dramatic values, and the superimposition rate and similarity of those indices do not exceed a certain threshold. However, when it is necessary to recognize that there is a connection between objects, such a method cannot be used to make a determination, and there is a problem that an algorithm for estimating the relationship from the positional relationship of objects is required. occur.
  • An object of the present invention is to provide a task recognition apparatus that can universally estimate the relationship between objects using a simple algorithm when performing task recognition using connections between objects in task recognition at a manufacturing site or the like. to provide.
  • the configuration of the work recognition device of the present invention is preferably a work recognition device that analyzes image data, and by analyzing the image data, recognizes an object related to work.
  • An image acquisition unit that acquires image data
  • an analysis area detection unit that analyzes the image data acquired from the image acquisition unit and detects an area related to the object, and a feature amount related to the image of the area related to the object detected by the analysis area detection unit.
  • a feature extraction unit for calculating a change amount of the feature amount of the image within a predetermined period; a first change amount of the feature amount of the image detected as a region of the first object within the predetermined period; Calculating the degree of object relevance between the first object and the second object based on a second amount of change in the feature amount of the image detected as the region of the second object in the same period as the predetermined period of the one amount of change and a relevance estimating unit.
  • a task recognition apparatus capable of universally estimating the relationship between objects using a simple algorithm when performing task recognition using connections between objects in task recognition at a manufacturing site or the like. can provide.
  • FIG. 1 is a schematic configuration diagram of a work recognition system
  • FIG. 1 is a functional configuration diagram of a work recognition device according to Embodiment 1
  • FIG. 1 is a hardware/software configuration diagram of a work recognition device
  • FIG. 4 is a flow chart showing a series of processes from image acquisition to learning processing of the work recognition device according to the first embodiment
  • FIG. 10 is a flowchart showing the details of feature amount change amount extraction processing (in the case of motion change)
  • FIG. 11 is a flowchart showing details of feature amount change amount extraction processing (in the case of texture change);
  • FIG. 10 is a diagram illustrating an example of applying object relevance to graph generation;
  • FIG. 10 is a diagram illustrating assigning a node work label to a node as an inference result;
  • FIG. 11 is a functional configuration diagram of a work recognition device according to Embodiment 2;
  • 9 is a flow chart showing a series of processes from image acquisition to learning process of the work recognition device according to the second embodiment. It is a figure which shows an example of an object relevance degree edit screen.
  • FIG. 11 is a diagram for explaining a specific image of calculating an object relevance degree from image data according to the third embodiment;
  • FIG. 1 Each embodiment according to the present invention will be described below with reference to FIGS. 1 to 15.
  • FIG. 1 A first embodiment according to the present invention will be described below with reference to FIGS. 1 to 15.
  • FIG. 1 A first embodiment according to the present invention will be described below with reference to FIGS. 1 to 11.
  • FIG. 1 A first embodiment according to the present invention will be described below with reference to FIGS. 1 to 11.
  • the worker and surrounding objects are detected from the state of the user's work, the state is represented by a graph structure, and machine learning is performed by the GCN method based on the graph structure.
  • An example of a task recognition system that recognizes is explained.
  • the use of a graph structure as a data structure for recognizing work motions is an example, and a similar network structure or algorithm may be used for application of the present embodiment.
  • the work recognition system 1 has a configuration in which an image acquisition device 6, a sensor 3, and a work recognition device 100 are connected by communication means 4.
  • the communication means 4 may be wired or wireless, and may be a LAN (Local Area Network) or a WAN (Wide Area Network) such as the Internet. Also, communication means conforming to serial standards such as USB (Universal Serial Bus) and RS-232C may be used.
  • LAN Local Area Network
  • WAN Wide Area Network
  • serial standards such as USB (Universal Serial Bus) and RS-232C
  • the image acquisition device 6 is a device for acquiring image data showing the worker 2, the surrounding object 5, and the like.
  • a camera digital camera ( RGB cameras), infrared cameras, thermography cameras, Time Of Flight (TOF) cameras, stereo cameras, etc.
  • RGB cameras digital camera
  • TOF Time Of Flight
  • FIG. 1 a plurality of cameras may be used and a plurality of images from different cameras may be used when there are a plurality of objects to be photographed.
  • the sensor 3 is provided in the work environment where the worker 2 works, detects the state of the worker 2 and the work environment, and outputs physical information.
  • the sensor 3 includes, for example, a moving object detection sensor, a human sensor, a temperature sensor, a humidity sensor, an acceleration sensor, a speed sensor, an acoustic sensor (microphone), an ultrasonic sensor, a vibration sensor, a millimeter wave radar, a laser radar (LIDAR: Laser Imaging Detection and Ranging), an infrared depth sensor.
  • the work recognition device 100 is a device that performs processing for recognizing the work motion of the worker 2 or the work motion of the surrounding object 5 based on the image data acquired by the image acquisition device 6 .
  • the work recognition device 100 includes an image acquisition unit 101, an analysis region detection unit 102, a feature extraction unit 103, a relevance estimation unit 104, a graph generation unit 105, a work learning unit 106, and a work inference unit 107. , and the functional units of the storage unit 110 .
  • the image acquisition unit 101 is a functional unit that acquires image data 200 acquired from the image acquisition device 6 .
  • the image data 200 is, for example, frame data constituting still image data or moving image data sent from the image acquisition device 6 .
  • the analysis area detection unit 102 is a functional unit that detects an object area from the image obtained by the image acquisition unit 101 .
  • the object area can be detected by a method in which the user manually draws a rectangle on the image, or automatically using an object detection algorithm as disclosed in Non-Patent Documents 2 and 3, for example. There are methods for obtaining regions, and both manual and automatic methods may be used.
  • the feature extraction unit 103 is a functional unit that extracts the feature amount and the amount of change in the image.
  • the feature extraction unit 103 extracts feature amounts such as color feature amounts, motion feature amounts, and CNN (Convolutional Neural Network) feature amounts obtained from images.
  • feature utilization in this embodiment is assumed to be a scalar value.
  • the feature extraction unit 103 reserves data in chronological order such as previous and subsequent frames, and uses the difference in feature amount between the previous and subsequent frames to extract the amount of change in the feature amount.
  • the amount of change may be such that the area can be represented by one point, such as positional information.
  • the relevance estimation unit 104 is a functional unit that calculates the degree of object relevance by estimating the strength indicating the connection between objects using the amount of change in the feature quantity output from the feature extraction unit 103 .
  • the relevance estimation unit 104 normalizes (adjusts the scale between 0 and 1) the variation obtained from each object using the correction parameter 201 . Then, the intensity of the relationship between the objects is calculated for the amount of change in the normalized feature quantity, and the calculated result, for example, the product thereof, is output as the degree of object relevance.
  • the correction parameter 201 is a parameter for normalizing the amount of change in the feature amount, and has the purpose of filling the difference in the size of rectangles between objects and the average amount of change. In the above explanation, an example was given in which the strength of the relationship between objects is calculated by the product of each amount of change in the feature amount. may be
  • the graph generation unit 105 is a functional unit that generates graphs used in GCN.
  • the graph generation unit 105 generates graph nodes for the number of regions acquired by the analysis region detection unit 102, assigns each node a feature amount obtained by the feature extraction processing of the feature extraction unit 103, and assigns a node identification label 202 to each node. label.
  • Labels of the node specific label 202 are names of objects in the manufacturing site, such as "robot”, "worker”, and "processing machine", for example. Assuming that there is a connection between each node, an edge is provided between those nodes, and the edge of the graph is weighted using the object relevance obtained from the relevance estimation unit 104 .
  • the work learning unit 106 is a functional unit that performs machine learning using GCN based on the node work label 203, which is the correct work label, and the graph generated by the graph generation unit 105, and generates an inference model 210.
  • learning is performed using the GCN algorithm based on the generated graph, and as a result, an inference model 210 is output.
  • the node work label 203 is a correct label for recognizing work, such as "welding” and “screw tightening" when the node is "robot”, and “control” when the node is "worker”. board operation” and “floor cleaning”.
  • the work inference unit 107 is a functional unit for inferring the image data 200 for which work recognition is to be performed based on the inference model 210 obtained as a result of learning by the work learning unit 106, and obtaining an inference result 220. be.
  • the storage unit 110 is a functional unit that stores data.
  • the storage unit 110 stores image data 200 , correction parameters 201 , node identification labels 202 , node work labels 203 , inference models 210 and inference results 220 .
  • the work recognition device 100 can be realized by a general information processing device (computer), and as shown in FIG. Auxiliary storage device 16 is provided.
  • the processor 11 is a semiconductor device that executes a program on the main storage device 12 and controls each part of the work recognition device 100.
  • a CPU Central Processing Unit
  • MPU Micro Processing Unit
  • GPU Graphics Processing Unit
  • AI Artificial Intelligence
  • the main storage device 12 is a device that temporarily stores programs and data, and is, for example, a RAM (Random Access Memory) such as SRAM (Static Random Access Memory) or DRAM (Dynamic Random Access Memory).
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • DRAM Dynamic Random Access Memory
  • the communication device 13 is an interface device that communicates with other devices via the communication means 4, such as a NIC (Network Interface Card), a wireless communication module, a USB (Universal Serial Interface) module, a serial communication module, and the like.
  • the communication device 13 can also function as an input device that receives information from other devices with which it is communicatively connected.
  • the communication device 13 can also function as an output device that transmits information to other devices that are communicably connected.
  • the work recognition device 100 communicates with the image acquisition device 6 and the sensor 3 via the communication means 4 by the communication device 13 .
  • the input device 14 is a user interface device that receives information from the user, such as a keyboard, mouse, card reader, touch panel, and the like.
  • the output device 15 is a user interface device that outputs various information (display output, audio output, print output, etc.). They are an audio output device (speaker), a printing device, and the like.
  • the auxiliary storage device 16 is a hard disk drive, SSD (Solid State Drive), or the like.
  • the programs and data stored in the auxiliary storage device 16 are read into the main storage device 12 as needed, and the processor 11 refers to the loaded data and executes the programs.
  • An image acquisition program 161, an analysis region detection program 162, a feature extraction program 163, a relevance estimation program 164, a graph generation program 165, a task learning program 165, and a task inference program 166 are installed in the auxiliary storage device 16 of this embodiment. ing.
  • the image acquisition program 161, the analysis region detection program 162, the feature extraction program 163, the relevance estimation program 164, the graph generation program 165, the work learning program 165, and the work inference program 166 are the image acquisition unit 101, the analysis region detection unit 102, It is a program that implements the functions of the feature extraction unit 103 , the relationship estimation unit 104 , the graph generation unit 105 , the work learning unit 106 , and the work inference unit 107 .
  • FIG. 4 the processing of the work recognition device will be explained using FIGS. 4 to 8.
  • the image acquisition unit 101 of the work recognition device 100 acquires the image data 200 transmitted from the image acquisition device 6 (S100).
  • the analysis area detection unit 102 detects an object area from the image of the image data 200 obtained by the image acquisition unit 101 .
  • the feature extraction unit 103 extracts feature amounts between predetermined frames obtained from the image (S102).
  • the feature extraction unit 103 secures data in chronological order such as previous and subsequent frames, and extracts the amount of change in the feature amount using the difference in feature amount between the previous and subsequent frames (S103). Processing for extracting the amount of change in the feature amount will be described in detail later.
  • the relevance estimating unit 104 uses the amount of change in the feature amount extracted by the process S103 for extracting the amount of change in the feature amount of the feature extracting unit 103 to estimate the degree of object relevance that indicates the connection between objects. is calculated (S104). The processing for calculating the object relevance between objects will be described in detail later.
  • the graph generation unit 105 generates a graph used in GCN based on the object relevance between objects in S104 (S105).
  • the work learning unit 106 performs machine learning using GCN based on the graph generated in S105, and generates an inference model 210 (S106).
  • a predetermined object area group is obtained (S200).
  • a region whose movement is desired to be obtained it does not necessarily have to be a region in which the object itself is focused, and a predetermined region associated with the object in the image space may be obtained.
  • Optical flow is a method of analyzing the appearance pattern of object movement between adjacent frames caused by movement of the object and camera.
  • a change in the texture of an image is a case where there is a change in the RGB values or grayscale values of the image.
  • a predetermined object area group is obtained (S210).
  • a trained model that can identify a certain object or changes in the object is acquired as a feature extraction model (S211).
  • models for extracting local features of an image include a template feature model, a holistic feature model, a co-occurrence feature model, and a part feature model.
  • the feature amount of each object is obtained (S212).
  • the feature amount distance is, for example, an n-dimensional Euclidean distance when the feature amount consists of n elements.
  • the distance value calculated in S212 is output as the amount of change in the feature amount (S214).
  • the correction parameter 201 is used to normalize the amount of change in the feature amount (S301). Since the feature amount of each region may change greatly, it is meaningful to match the scale, and the correction by the correction parameter 201 is not always necessary.
  • the degree of object relevance is calculated based on the amount of change in the feature amount of the two regions normalized in S301 (S302).
  • This object-related degree is an index indicating the object-related degree.
  • K A and K B are weighting coefficients determined by how much importance is placed on the amount of change in the feature amount of object A and object B, respectively. Also, calculations other than these may be used.
  • the object relevance obtained in S313 is normalized using the correction parameter 201 (S303). This is to facilitate learning in the later learning phase, and the correction by the correction parameter 201 is not necessarily required.
  • the feature amount obtained by the feature amount extraction process of S102 in FIG. 4 is acquired for each object area (S400).
  • a node identification label assigned to each object region is obtained from the node identification label 202 (S401).
  • each node is given the feature value obtained in S411 and the node identification label obtained in S412 (S403).
  • the degree of object relevance is assigned as the weight of the edge between nodes (S414).
  • This weight is, for example, the edge weight used in the convolutional layer of the GCN.
  • an inference model 210 capable of estimating the work of an object corresponding to an edge given a node-specific label.
  • the processing of S100 to S105 is the same as the processing shown in FIG.
  • the image data 200 input in S100 is image data 200 for inferring work recognition of an object.
  • the task inference unit 107 After generating the graph in S105, based on the inference model 210 obtained in S106 of FIG. 4, the task inference unit 107 performs inference of task recognition and outputs an inference result (S110).
  • the inference result is a graph with a node work label 203 attached to each node. A specific example of the inference result will be described in detail later.
  • clock 1, clock 2, . . . are ranges of the time axis of the time-series data.
  • clock 1 C01
  • a distance value is calculated by Euclidean distance or the like from feature amounts obtained by feature extraction F1A in the first frame and feature extraction F2A in the last frame, A change amount d1A of the feature amount of the object A is obtained.
  • the degree of object relevance P1 is obtained by their product (in the case of (formula 1)) or the like.
  • P1 is the object relevance of clock 1 (C01).
  • C02 clock 2
  • the same processing is performed for each clock every time video data is obtained. Note that it is not necessary to use different frames for each clock, and some frames may be the same.
  • object A obtains a feature amount change amount F11A within a predetermined clock
  • object B obtains a feature amount change amount F11B obtained within the same clock as object A.
  • the amount of change in each feature amount is normalized by the correction parameter 201, and the amount of change in the feature amount after normalization F11AN for the object A and the amount of change in the feature amount after normalization F11BN for the object B are obtained. .
  • an object relevance P11 is calculated from the product of each change amount (in the case of (Equation 1)), and the change amount at a predetermined clock is applied as a weight w11 to the edge connecting the object A and the object B shown in the graph G01. .
  • FIG. 10 shows an example in which the average object relevance of object A and object B in the time domain of interest is 0.1, which is applied as the weight of the edge connecting the node of the robot and the node of the processing machine. .
  • FIG. 11 is a diagram for explaining assigning node work labels to nodes as an inference result.
  • the task is recognized by the task inference process of S110 of FIG. get
  • FIG. 11(a) is a timing chart targeting the node 1 "robot”. This timing chart shows that the robot is performing welding at time T1.
  • the degree of object relevance is calculated from the amount of change in the feature amount of an image, and based on a graph in which objects are nodes and related objects are edges. to learn and reason about.
  • the degree of object relevance is calculated from the amount of change in the feature amount of an image, and based on a graph in which objects are nodes and related objects are edges. to learn and reason about.
  • the work recognition device 100 of the present embodiment has a relationship editor 108 in addition to the configuration of the work recognition device 100 shown in FIG. 2 of the first embodiment.
  • the relevance editing unit 108 is a functional unit that edits the relevance values of objects recognized as nodes.
  • the relationship data 204 is stored in the storage unit 110 .
  • the relevance data 204 is data that holds the relevance value of an object recognized as a node.
  • the relevance editing process S120 is a process of editing the relevance values of objects recognized as graph nodes.
  • the object relevance defined by the user is reset, the result of the object relevance obtained in the relevance estimation process S104 and the object relevance defined by the user are output as the relevance data 204, and the graph generation process S105 is performed. hand over to
  • the work recognition apparatus 100 of this embodiment can display and edit the object relevance given to the edges of the graph on the object relevance editing screen 400 shown in FIG.
  • the work recognition device 100 reads the result of the relevance estimation process S04 or a setting file that allows a predetermined object to be selected from candidates.
  • the user selects two objects for linking objects.
  • the object A is selected in the box 411 of the object 1
  • the object B is selected in the box 412 of the object 2.
  • the degree of association between the objects selected in each box can be entered in box 42, and the user can arbitrarily set the degree of association between the objects.
  • the type of feature amount can be selected from the feature amount box 43, the change amount of the target feature amount can be set in the box 441 for the target 1 and the box 442 for the target 2, respectively, and the user can set an arbitrary degree of object relevance. It has a function that can be set.
  • the graph display 500 visualizes the degree of association, and visually confirms that the nodes 511 and 512 are connected, that the feature amount 53 is displayed for each object, and that the objects A and B are connected.
  • a box 52 allows editing of the object relevance values of object A and object B.
  • the user can arbitrarily edit the amount of change in the feature amount of each object and the degree of object relevance.
  • Embodiment 3 of the present invention will be described below with reference to FIG.
  • the amount of change in the feature amount in a certain object area and the amount of change in the feature amount in another object area are calculated. is calculated to calculate the degree of object relevance between the two, and this is used as the weight of the edge of the graph in the GCN to perform machine learning, thereby performing task recognition.
  • the amount of change in the feature amount of the area of the object in the image is obtained, and then the degree of object relevance between an object and another object is calculated.
  • a method for calculating the degree of object relevance will also be described with a focus on the transition of data.
  • the task recognition apparatus 100 of the present embodiment has the same functional configuration as the functional configuration shown in FIG. 2 of the first embodiment. Calculating the degree of object relevance between the two is similar, but the method is different.
  • the relationship estimation process S104 in the third embodiment will be described below with reference to FIG.
  • the relevance estimating unit 104 of the task recognition apparatus 100 acquires the feature quantity 1 (FA1) obtained by optical flow or the like of the object A (60A) and the feature quantity 2 (FA2) obtained by 3DCNN or the like.
  • 3DCNN is a method of recognizing actions in moving images that considers spatio-temporal information by convolving spatial information (2D) and temporal information (1D) together into 3D.
  • the relevance estimating unit 104 acquires the feature amount 1 (FB1) and the feature amount 2 (FB2) for the object B (60B) in the same way as for the object A (60A).
  • distance values (d11, d12, d21, d22) are calculated for feature amounts obtained within the same clock between objects.
  • the difference in the distance value between the preceding and succeeding clocks is obtained, and the different feature quantity 1 and feature quantity 2 are combined to calculate the degree of object relevance.
  • the distance d11 between the feature amount 1 of object A and the feature amount 1 of object B obtained at clock 1 is calculated.
  • Clock 2 also calculates the distance d12 in the same manner.
  • the change between clocks 2 and 1 is obtained from the absolute value of the difference between the distances d11 and d12, and the degree of change (D1R) between the clocks is obtained.
  • the reciprocal of the value obtained by adding 1 to the absolute value ⁇ 1 of the difference between the distances d11 and d12 is taken to obtain the degree of change between the clocks. That is, the degree of change (D1R) between clocks is obtained by the following (Equation 4).
  • D1R 1/( ⁇ 1+1) (Formula 4)
  • the change between clock 2 and clock 1 is obtained from the absolute value of the difference between distance d21 and distance d22, and the degree of change between clocks is (D2R) is obtained.
  • the reciprocal of the value obtained by adding 1 to the absolute value ⁇ 2 of the difference between the distances d21 and d22 is taken to obtain the degree of change between the clocks. That is, the degree of change (D2R) between clocks is obtained by the following (Equation 5).
  • D2R 1/( ⁇ 2+1) (Formula 5)
  • the similarity S is obtained by calculating the arithmetic average value from the degrees of change D1R and D2R.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

作業認識装置は、撮影装置により撮影された画像データを取得する画像取得部と、画像取得部から得た画像データを解析し、物体に関する領域を検出する解析領域検出部と、解析領域検出部により検出された物体に関する領域の画像に関する特徴量を抽出し、所定期間内における画像に関する特徴量の変化量を算出する特徴抽出部と、所定期間内における第一の物体に関する領域として検出された画像に関する特徴量の第一の変化量と、第一の変化量の所定期間内と同一期間における第二の物体に関する領域として検出された画像に関する特徴量の第二の変化量に基づき、第一の物体と第二の物体の物体関連度を算出する関連性推定部とを有する。これにより、製造現場などの作業認識で物体間のつながりを用いた作業認識を行う場合に、簡易なアルゴリズムにより、汎用的に物体間の関連性を推定する。

Description

作業認識装置および作業認識方法
 本発明は、作業認識装置および作業認識方法に係り、特に、作業監視のために、製造現場など作業する作業員やロボットと周辺物体の関係を関係付けて作業認識を行うのに好適な作業認識装置および作業認識方法に関する。
 製造現場では、製品品質を維持するため人作業に関する安全性の確保や作業内容の正確性向上に向けて改善活動が行われている。それらの改善活動の一つに、人作業における動作認識に関する技術開発が産業分野に適用されている。例えば、製造現場の標準作業書などに従った行動をしているのか検出するケースや、特定の作業にどれぐらい時間を要しているのか作業時間を算出するケースなどが挙げられる。このような技術が対象とする製造現場としては、様々な機械や道具が設置され、工程により機械の動きが異なり、作業ごとに扱う道具が変わる作業現場が想定される。
 一方、作業認識に関するコンピュータビジョンの技術においては、コンピュータ性能が急発展したことや一般的なデータの大量収集が容易になったことから、機械学習を用いた動作認識技術が盛んに行われている。この動作認識技術では、動画像データを入力とし、情報処理装置が、その動画内の人物がとっている動作を認識する。そして、このような動作認識技術に関連する公開データベースとしては、例えば、非特許文献1があり、このデータベースによれば、各画像データに対して、”Playing Piano”, “Surfing”, “Table Tennis Shot”などのラベルが付与されている。
 また、画像から物体領域を取得する物体アルゴリズムについては、例えば、非特許文献2、非特許文献3に記載がある。
 これに関連して、情報処理装置により、映像内に存在する物体間の紐づけする方法としては、例えば、特許文献1に開示されている。特許文献1では、人物カウント向けの情報処理装置として、鏡に映り込んだ鏡像と実像の繋がりを見つけ、鏡像が映りこむ画像においても正確な人物カウントを実現する方法を提案している。鏡像と実像の繋がりを見つけるには、画像内における複数の移動体の位置変化に応じた速度の類似度に基づいて、複数の移動体における同一の実移動体に対応する二つ以上の移動体を特定し、移動量の時間変化が相似に近い形であるか判定し、二つの物体(実像と鏡像)の繋がりを推定している。
 また、センサやカメラを活用して、行動認識を行う手法については、例えば、非特許文献4に記載されている。
 また、非特許文献5では、機械学習の一態様として、GCN(Graph Convolution Network)により行動認識を行う技術が記載されている。GCNとは、いわゆる畳み込みニューラルネットワークの一分野であり、ある物体の特徴量およびクラスの情報を備えたノードと、ノード間をつなげるエッジから構成されるグラフを生成し、隣接するノードの特徴量を用いて目標のノードクラスやグラフ全体のクラスを推論できる手法である。GCNでは、ノード間のつながりを事前に定義するか、映像内の変化に応じて自動的に決定する方法がある。非特許文献5では二つの手法を採用している。一つ目は、カメラで撮影した映像に対して物体の位置を検出し、物体間の重なり度合いから重畳率を算出した後、その重畳率に応じて両物体の関係を推定する手法である。二つ目は、時系列に取得したフレーム画像において、類似する物体が映っている場合に同一物体とみなし、時間方向のフレーム間における物体間の関係をする手法である。このような手法により、物体間の関係を事前定義あるいは推定することによってグラフを生成でき、物体間を考慮した行動認識が可能となる。
特開2020-87358号公報
UNIVERSITY OF CENTRAL FLORIDA、"UCF101 - Action Recognition Data Set"、[online]、[令和3年4月16日検索]、インターネット<URL:https://www.crcv.ucf.edu/research/data-sets/ucf101/> Ren, Shaoqing, et al., "Faster r-cnn: Towards real-time object detection with region proposal networks.", IEEE transactions on pattern analysis and machine intelligence 39.6, 2016, p. 1137-1149 Yolo(Redmon, Joseph, et al. "You only look once: Unified, real-time object detection.", Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 Vrigkas,M.,Nikou,C. and Kakadiaris,I.A."A Review of Human Activity Recognition Methods",Frontiers in Robotics and AI, 2015 Wang, Xiaolong, and Abhinav Gupta, "Videos as space-time region graphs", Proceedings of the European conference on computer vision (ECCV), 2018.
 コンピュータビジョンの技術において、製造現場の作業者を対象に動作認識技術を適用することを想定した場合には、製造現場毎に異なる特有の動作を認識する必要がある。その際、対象の作業者にのみ注目して作業者の動きを捉える方法が一般的であるが、この方法によった場合、複数の異なる作業を同じ姿勢などで実施していた場合に識別することが困難である。また、製造現場に機械が存在する現場では、ある作業を実施する際、作業者だけでなくその周辺の機械が同時に動く、または道具を同時に扱う場合がある。すなわち、作業認識の対象とする物体(ヒトやモノ)とその周辺の物体は、同時に変化するケースが存在する。
 製造現場に適用する場合、ある機械の見た目は変化するが大きな移動がないケースがある。非特許文献5では、上記のように、物体間の関連性を推定するために、物体の物体間の重畳率また類似度を用いているが、いずれを採用しても、製造現場の物体間の関係を適切に扱うことができない事態が想定される。例えば、加工作業時に設備のドアが開き、新しいワークが運搬されて設備内に投入するケースで、それが同時に動作していたとしても、カメラの設置位置により画像空間上で重ならないことがある。そのため、物体間の重なりや距離に依存しない方式で関連性を推定する必要がある。
 実像と鏡像の繋がりを見出す方法を提案している特許文献1では、対象物体が同一のものであることを想定している。ある作業を実施する際に、製造現場に存在する複数の物体(機械・ワーク・作業者)が同時に動くことはあるが、それらの機械・ワーク・作業者などの間で、時間変化による動き量は、物体別に異なる。そのため、機械・ワーク・作業者の間で移動量の時間変化の相似から製造現場にある物体の関連性を推定することは困難である。
 また、特許文献1および非特許文献5において、物体間のつながりを決定するための指標として重畳率や類似度などを採用しており、閾値を設けて判定している。そのため、この手法により物体間のつながりに関連性ありと判定される場合は、それらの指標が劇的な値をとる場合のみであり、それらの指標の重畳率や類似度一定の閾値を超えなくても、物体間のつながりを有すると認識すべき場合には、そのような手法では判定することができず、さらに物体の位置関係などからの関連性を推定するアルゴリズムが必要になるという問題が生ずる。
 本発明の目的は、製造現場などの作業認識で物体間のつながりを用いた作業認識を行う場合に、簡易なアルゴリズムにより、汎用的に物体間の関連性を推定することのできる作業認識装置を提供することにある。
 本発明の作業認識装置の構成は、好ましくは、画像データを解析し、その画像データを解析することにより、作業にかかわる物体の作業認識を行う作業認識装置であって、撮影装置により撮影された画像データを取得する画像取得部と、画像取得部から得た画像データを解析し、物体に関する領域を検出する解析領域検出部と、解析領域検出部により検出された物体に関する領域の画像に関する特徴量を抽出し、所定期間内における画像に関する特徴量の変化量を算出する特徴抽出部と、所定期間内における第一の物体に関する領域として検出された画像に関する特徴量の第一の変化量と、第一の変化量の所定期間内と同一期間における第二の物体に関する領域として検出された画像に関する特徴量の第二の変化量に基づき、第一の物体と第二の物体の物体関連度を算出する関連性推定部とを有するようにしたものである。
 本発明によれば、製造現場などの作業認識で物体間のつながりを用いた作業認識を行う場合に、簡易なアルゴリズムにより、汎用的に物体間の関連性を推定することのできる作業認識装置を提供することができる。
作業認識システムの概略的な構成図である。 実施形態1に係る作業認識装置の機能構成図である。 作業認識装置のハードウェア・ソフトウェア構成図である。 実施形態1係る作業認識装置の画像取得から学習処理までの一連の処理を示すフローチャートである。 特徴量の変化量抽出処理(動き変化の場合)の詳細を示すフローチャートである。 特徴量の変化量抽出処理(テクスチャ変化の場合)の詳細を示すフローチャートである。 関連性推定処理の詳細を示すフローチャートである。 グラフ生成処理の詳細を示すフローチャートである。 作業認識装置の画像取得から推論処理までの一連の処理を示すフローチャートである。 画像データから物体関連度を算出する具体的なイメージを説明する図である。 物体関連度をグラフ生成に適用する例について説明する図である。 推論結果としてノードにノード作業ラベルを付与することを説明する図である。 実施形態2に係る作業認識装置の機能構成図である。 実施形態2に係る作業認識装置の画像取得から学習処理までの一連の処理を示すフローチャートである。 物体関連度編集画面の一例を示す図である。 実施形態3の画像データから物体関連度を算出する具体的なイメージを説明する図である。
 以下、本発明に係る各実施形態を、図1ないし図15を用いて説明する。
 〔実施形態1〕
 以下、本発明に係る実施形態1を、図1ないし図11を用いて説明する。
 本実施形態では、ユーザが作業している様子から作業者および周辺物体を検出し、その状態をグラフ構造により表現して、そのグラフ構造に基づいたGCNの手法により機械学習することにより、作業動作を認識する作業認識システムの例を説明する。作業動作を認識するためのデータ構造としてグラフ構造を用いるのには、一例であり、本実施形態の適用のためには、それに類するネットワーク構造やアルゴリズムであってもよい。
 先ず、図1ないし図3を用いて作業認識システムの構成について説明する。
 作業認識システム1は、図1に示されように、画像取得装置6、センサ3、作業認識装置100が、通信手段4によって接続された構成である。
 通信手段4は、有線でも無線でもよく、LAN(Local Area Network)でも、インターネットなどのWAN(Wide Area Network)であってもよい。また、USB(Universal Serial Bus)やRS-232C等のシリアル規格に準拠した通信手段であってもよい。
 画像取得装置6(撮影装置)は、作業者2や周辺物体5などを映した画像データを取得する装置であり、例えば、動画や静止画の画像データを取得(撮影)するカメラ(デジタルカメラ(RGBカメラ)、赤外線カメラ、サーモグラフィカメラ、タイムオブフライト(TOF:Time Of Flight)カメラ、ステレオカメラ等)である。画像取得装置6は、図1では、1台で表現されているが、撮影対象が複数ある場合など、複数台のカメラを用いて、異なるカメラの複数の画像を用いてもよい。
 センサ3は、作業者2が作業を行う作業環境に設けられ、作業者2や作業環境についての状態を検知し、物理的な情報を出力する。センサ3は、例えば、動体検知センサ、人感センサ、温度センサ、湿度センサ、加速度センサ、速度センサ、音響センサ(マイクロホン)、超音波センサ、振動センサ、ミリ波レーダ、レーザレーダ(LIDAR: Laser Imaging Detection and Ranging)、赤外線深度センサである。
 作業認識装置100は、画像取得装置6によって取得される画像データに基づき作業者2の作業動作または周辺物体5の作業動作を認識する処理を行う装置である。
 次に、図2を用いて作業認識装置の機能構成を説明する。
  作業認識装置100は、図2に示されるように、画像取得部101、解析領域検出部102、特徴抽出部103、関連性推定部104、グラフ生成部105、作業学習部106、作業推論部107、記憶部110の各機能部を有する。
 画像取得部101は、画像取得装置6から取得される画像データ200を所得する機能部である。画像データ200は、例えば、画像取得装置6から送られてくる静止画データや動画データを構成するフレームのデータである。
 解析領域検出部102は、画像取得部101で得た画像から物体領域を検出する機能部である。物体領域の検出には、ユーザが手動で画像上に矩形を描くように設定する方法、または、例えば、非特許文献2、非特許文献3に示されるような物体検出アルゴリズムを用いて自動的に領域を取得する方法があり、手動と自動のいずれの方法を用いてもよい。
 特徴抽出部103は、画像における特徴量とその変化量を抽出する機能部である。
 特徴量の抽出の機能では、特徴抽出部103は、画像から得られる色特徴量、動き特徴量、CNN(Convolutional Neural Network)特徴量などの特徴量を抽出する。なお、本実施形態の特徴利用は、スカラー値であるものとする。特徴量の抽出の機能では、特徴抽出部103は、前後フレームなど時系列にデータを確保しておき、前後フレームの特徴量の差を用いて特徴量の変化量を抽出する。所定の領域から特徴抽出するだけでなく、位置情報などのその領域が1点で表現できるような変化量であってもよい。
 関連性推定部104は、特徴抽出部103の出力された特徴量の変化量を用いて物体間のつながりを示す強弱を推定する物体関連度を算出する機能部である。関連性推定部104は、各物体から取得した変化量に対して、補正パラメータ201を用いて正規化(スケールを0~1の間に調整)する。そして、正規化された特徴量の変化量に対して、物体間の関係の強さとして、各々演算して、例えば、それらの積として、算出した結果を、物体関連度として出力する。補正パラメータ201は、特徴量の変化量を正規化するためのパラメータであり、物体間の矩形の大きさや平均的な変化量の差を埋める目的を有する。上記の説明では、物体間の関係の強さを、特徴量の変化量の各々の積で算出する例を示したが、特徴量の変化量の各々の和、重み付き線形和などの算出方法であってもよい。
 グラフ生成部105は、GCNで用いられるグラフを生成する機能部である。グラフ生成部105では、解析領域検出部102により取得した領域の数だけグラフのノードを生成し、各ノードに特徴抽出部103の特徴抽出処理により得られた特徴量を付与し、ノード特定ラベル202のラベルを付与する。ノード特定ラベル202のラベルは、例えば、「ロボット」、「作業員」、「加工機」などの製造現場における物体の名称である。各ノードの間にはつながりがあることを前提とし、それらのノード間にエッジを設け、関連性推定部104から得られた物体関連度を用いてグラフのエッジに重みを付与する。
 作業学習部106は、作業の正解ラベルであるノード作業ラベル203と、グラフ生成部105で生成されたグラフとに基づいて、GCNにより機械学習を行い、推論モデル210を生成する機能部である。作業学習部106の機械学習の処理では、生成されたグラフをベースに、GCNのアルゴリズムを用いて学習し、その結果として、推論モデル210を出力する。ノード作業ラベル203は、作業を認識する正解ラベルであり、例えば、ノードが「ロボット」である場合の「溶接」、「スクリュー締め」などであり、ノードが「作業員」である場合の「制御盤操作」、「床清掃」などである。
 作業推論部107は、作業学習部106により学習の結果により得られた推論モデル210に基づいて、作業認識を行いたい画像データ200に対して推論をし、推論結果220を得るための機能部である。
 記憶部110は、データを記憶する機能部である。記憶部110には、画像データ200、補正パラメータ201、ノード特定ラベル202、ノード作業ラベル203、推論モデル210、推論結果220が格納される。
 次に、図3を用いて作業認識装置のハードウェア・ソフトウェア構成について説明する。作業認識装置100は、一般的な情報処理装置(コンピュータ)により実現することができ、図3に示されるように、プロセッサ11、主記憶装置12、通信装置13、入力装置14、出力装置15、補助記憶装置16を備える。
 プロセッサ11は、主記憶装置12上のプログラムを実行し、作業認識装置100の各部を制御する半導体装置であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ等である。
 主記憶装置12は、プログラムやデータを一時的に記憶する装置であり、例えば、SRAM(Static Random Access Memory)やDRAM(Dynamic Random Access Memory)等のRAM(Random Access Memory)である。
 通信装置13は、通信手段4を介して他の装置と通信するインタフェース装置であり、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Interface)モジュール、シリアル通信モジュール等である。通信装置13は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また、通信装置13は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。作業認識装置100は、通信装置13により通信手段4を介して画像取得装置6、センサ3と通信する。
 入力装置14は、ユーザから情報を受付けるユーザインタフェース装置であり、例えば、キーボード、マウス、カードリーダ、タッチパネル等である。
 出力装置15は、各種の情報を出力(表示出力、音声出力、印字出力等)するユーザインタフェース装置であり、例えば、各種情報を可視化する表示装置(LCD(Liquid Crystal Display)、グラフィックカード等)や音声出力装置(スピーカ)、印字装置等である。
 補助記憶装置16は、ハードディスクドライブ(Hard Disk Drive)、SSD(Solid State Drive)等である。補助記憶装置16に格納されているプログラムやデータは、主記憶装置12に随時読み込まれ、プロセッサ11は、ロードされたデータを参照し、プログラムを実行する。
 本実施形態の補助記憶装置16には、画像取得プログラム161、解析領域検出プログラム162、特徴抽出プログラム163、関連性推定プログラム164、グラフ生成プログラム165、作業学習プログラム165、作業推論プログラム166がインストールされている。
 画像取得プログラム161、解析領域検出プログラム162、特徴抽出プログラム163、関連性推定プログラム164、グラフ生成プログラム165、作業学習プログラム165、作業推論プログラム166は、各々画像取得部101、解析領域検出部102、特徴抽出部103、関連性推定部104、グラフ生成部105、作業学習部106、作業推論部107の各機能を実現するプログラムである。
 なお、作業認識装置100が備える各種の機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行するとして説明したが、作業認識装置100を構成しているハードウェア(FPGA、ASIC、AIチップ等)により実現されるようにしてもよい。
 次に、図4ないし図8を用いて作業認識装置の処理について説明する。
 先ず、作業認識装置100の画像取得部101は、画像取得装置6から送信される画像データ200を取得する(S100)。
 次に、解析領域検出部102は、画像取得部101で得た画像データ200の画像から物体領域を検出する。
 次に、特徴抽出部103は、画像から得られる所定のフレーム間における特徴量を抽出する(S102)。
 次に、特徴抽出部103は、前後フレームなど時系列にデータを確保しておき、前後フレームの特徴量の差を用いて特徴量の変化量を抽出する(S103)。なお、特徴量の変化量を抽出する処理については、後に詳説する。
 次に、関連性推定部104は、特徴抽出部103の特徴量の変化量を抽出する処理S103により抽出された特徴量の変化量を用いて物体間のつながりを示す強弱を推定する物体関連度を算出する(S104)。この物体間の物体関連度を算出する処理については、後に詳説する。
 次に、グラフ生成部105は、S104の物体間の物体関連度に基づき、GCNで用いられるグラフを生成する(S105)。
 次に、作業学習部106は、S105で生成されたグラフに基づき、GCNにより機械学習を行い、推論モデル210を生成する(S106)。
 次に、図5Aおよび図5Bを用いて特徴量の変化量を抽出する処理の詳細について説明する。
 これは、図4のS103に該当する処理である。本実施形態では、特徴量の例として、動き変化、テクスチャ変化の場合を詳細に説明するが、画像データの特徴量としては、作業認識に寄与するデータであればよい。
 先ず、図5Aを用いて画像上の動きのある物体から動き変化を特徴量の変化量として抽出する処理について説明する。
 最初に、所定の物体領域群を取得する(S200)。ここで、動きを取得したい領域を取得するため、必ずしも物体そのものにフォーカスした領域である必要はなく、画像空間上の物体と関連する所定の領域であればよい。
 次に、前後フレームの画像を用いて、領域内からオプティカルフローの手法により動き量を算出する(S201)。オプティカルフローとは、物体やカメラの移動によって生じる隣接フレーム間の物体の動きの見え方のパターンを解析する手法である。
 次に、各物体で得られる領域内の動き量の総和を算出する(S202)。
 次に、算出した動き量の総和を特徴量の変化量として出力する(S203)。
 次に、図5Bを用いて特徴量の変化量として画像のテクスチャの変化を抽出する処理にいて説明する。
 画像のテクスチャの変化とは、画像のRGB値や濃淡値に変化があるような場合である。
 最初に、所定の物体領域群を取得する(S210)。
 次に、ある物体や物体の変化などを識別できるような学習済みモデルを特徴抽出モデルとして取得する(S211)。例えば、画像の局所特徴量を抽出するモデルとしては、テンプレート特徴量モデル、Holistic特徴量モデル、共起特徴量モデル、パーツ特徴量モデルなどがある。
 各物体領域の画像データを特徴抽出モデルに適用することによって、各物体の特徴量が得る(S212)。
 そして、前後フレームなどの画像データから前後の特徴量を取得し、前後フレームの特徴量の距離を算出する(S212)。特徴量の距離とは、例えば、特徴量がn個の要素からなるときには、n次元のユークリッド距離である。
 次に、S212で算出した距離値を、特徴量の変化量として出力する(S214)。
 次に、図6を用いて物体間の関連度を推定する処理について説明する。
  これは、図4のS104に該当する処理である。
 先ず、図4のS103で抽出された各物体領域の特徴量の変化量を取得する(S300)。
 次に、補正パラメータ201を用いて特徴量の変化量を正規化する(S301)。これは、各領域の特徴量が大きく変化することがあるので、スケールを合わせる意義があり、補正パラメータ201による補正は、必ずしも必要というわけではない。
 次に、S301により正規化された二つの領域の特徴量の変化量に基づいて、物体関連度を算出する(S302)。この物体関連度が、物体関係度合を示す指標である。
 例えば、物体Aの領域の特徴量をC、物体Bの領域の特徴量をCとしたとき、その両者の積をとり、以下の(式1)により、物体関連度を算出する。
  物体関連度(物体A,物体B)=C×C   …(式1)
 また、例えば、その両者の和をとり、以下の(式2)により、物体関連度を算出する。
  物体関連度(物体A,物体B)=C+C   …(式2)
 また、例えば、その両者の重み付き線形和をとり、以下の(式3)により、物体関連度を算出する。
  物体関連度(物体A,物体B)=K+K   …(式3)
 ここで、K、Kは、それぞれ物体A、物体Bの特徴量の変化量をどれだけ重視するかによって定まる重み係数である。
  また、これら以外の演算でもよい。
 次に、補正パラメータ201により、S313で得られた物体関連度を正規化する(S303)。これは、後の学習フェーズで学習しやすくするためであり、この補正パラメータ201による補正は、必ずしも必要というわけではない。
 次に、S303で算出した物体関連度を出力する(S304)。
 次に、図7を用いてグラフ生成処理の詳細について説明する。
  各物体領域別に、図4のS102の特徴量抽出処理により得た特徴量を取得する(S400)。
 次に、ノード特定ラベル202から各物体領域別に付与されるノード特定ラベルを取得する(S401)。
 次に、図4のS104の関連性推定処理により得られた各物体間での物体関連度を取得する(S402)。
 次に、各ノードに、S411で取得した特徴量と、S412で所得したノード特定ラベルを付与する(S403)。
 次に、ノード間のエッジの重みとして、物体関連度を付与する(S414)。この重みは、例えばGCNの畳み込み層で用いられるエッジの重みである。
 このように、生成したグラフを使って、例えば、GCNなどで学習することにより、ノード特定ラベルを付与されたエッジに該当する物体の作業を推定することのできる推論モデル210を構築することができる。
 次に、図8を用いて、作業認識装置の画像取得から推論処理までの一連の処理について説明する。
  S100~S105の処理は、図4で示した処理と同様である。ここで、S100で入力される画像データ200は、物体の作業認識の推論を行うための画像データ200である。
 S105のグラフ生成の後、図4のS106で得られた推論モデル210に基づき、作業推論部107は、作業認識の推論を行い推論結果を出力する(S110)。推論結果は、各ノードにノード作業ラベル203が付与されたグラフである。なお、推論結果の具体例は、後に詳説する。
 次に、図9を用いて画像データから物体関連度を算出する具体的なイメージを説明する。
  ここでは、映像データのような時系列データに対し、物体Aと物体Bの物体関連度を算出する例を説明する。ここで、クロック1、クロック2、…とは、時系列データの時間軸の範囲である。画像上に物体Aと物体Bが存在した場合、それぞれ同じフレームで得た画像データから画像特徴量を取得する。所定のフレーム間であるクロック1(C01)に着目したとき、最初のフレームでの特徴抽出F1Aと最後のフレームでの特徴抽出F2Aで得られた特徴量からユークリッド距離などで距離値を算出し、物体Aの特徴量の変化量d1Aを求める。一方、物体Bも同様に特徴抽出を行い、物体Bの距離値から特徴量の変化量d1Bを求める。変化量A11Dと変化量A21Dから、それらの積((式1)の場合)などで物体関連度P1を求める。P1は、クロック1(C01)の物体関連度となる。同様の処理をクロック2(C02)でも行い、物体関連度P2を算出する。映像データが得られる度に、クロック毎に同様の処理を行う。なお、各クロックにおいて異なるフレームを使う必要はなく、一部のフレームが同じであってもよい。
 次に、図10を用いて物体関連度をグラフ生成に適用する例について説明する。
  物体Aでは、所定のクロック内で得た特徴量の変化量F11Aを取得しており、物体Bでは物体Aと同じクロック内で得た特徴量の変化量F11Bを取得しているものとする。このとき、補正パラメータ201によりそれぞれの特徴量の変化量を正規化し、物体Aでは、正規化後の特徴量の変化量F11ANを、物体Bでは正規化後の特徴量の変化量F11BNを取得する。
 次に、各変化量の積から((式1)の場合)物体関連度P11を算出し、所定のクロックにおける変化量からグラフG01に示す物体Aと物体Bをつなぐエッジに重みw11として適用する。このようにして、各物体間において同様の処理を行い、物体間をつなぐエッジに重みを適用していく。図10では、着目時間域における物体Aと物体Bの物体関連度の平均が0.1であり、それがロボットのノードと加工機のノードをつなぐエッジの重みとして適用される例を示している。
 次に、図11を用いて推論結果の作業認識結果について説明する。
  図11は、推論結果としてノードにノード作業ラベルを付与することを説明する図である。
 本実施形態では、図4のS106の作業学習処理で生成した推論モデル210に基づいて、図8のS110の作業推論処理により、作業認識を行い、各ノードとして表現された物体のノード作業ラベル203を得る。
 図11の例では、図11(a)に示されるように、ノード1「ロボット」、ノード2「加工機」、ノード3「ワーク」で、時刻T1におけるノード作業ラベルとして、ノード1「溶接」、ノード2「停止」、ノード3「被溶接」が得られることを示している。図11(b)は、ノード1「ロボット」をターゲットとするタイミングチャートである。このタイミングチャートでは、時刻T1にロボットは、溶接作業をしていることを示している。
 以上、本実施形態によれば、画像の特徴量の変化量により、物体関連度を算出し、物体をノード、関連ある物体をエッジとするグラフに基づき、物体関連度をエッジの重みとして、GCNの学習と推論を行う。それにより、製造現場などの作業認識で物体間のつながりを用いた作業認識を行う場合に、簡易なアルゴリズムにより、汎用的に物体間の関連性を推定した作業認識を行うことができる。
 〔実施形態2〕
 以下、図12ないし図14を用いて本実施形態2を説明する。
 実施形態1では、物体の特徴量の変化量から各物体の物体関連度を算出し、それをGCNのグラフのエッジの重みとして適用することにより、作業認識を行う作業認識装置の例について説明した。
 本実施形態では、実施形態1と同様の作業認識を行う作業認識装置であり、さらに、ノードに該当する物体間の物体関連度をユーザが編集することができるようにした例について説明する。
 以下、実施形態1と異なる所を中心に説明する。
 先ず、図12を用いて実施形態2に係る作業認識装置の機能構成について説明する。
  本実施形態の作業認識装置100は、実施形態1の図2に示した作業認識装置100の構成に加えて、関連性編集部108を有する。
 関連性編集部108は、ノードとして認識される物体の関連度の値を編集する機能部である。
 また、記憶部110に、関連性データ204を格納している。関連性データ204は、ノードとして認識される物体の関連度の値を保持するデータである。
 次に、図13を用いて実施形態2に係る作業認識装置の画像取得から学習処理までの一連の処理について説明する。
 本実施形態の作業認識装置の画像取得から学習処理までの一連の処理では、実施形態1の図4に示された処理に加えて、S104とS105の間に、関連性編集処理S120が付け加えられている。
 関連性編集処理S120は、グラフのノードとして認識される物体の関連度の値を編集する処理である。この処理により、ユーザが定義した物体関連度を再設定し、関連性推定処理S104で得た物体関連度の結果とユーザが定義した物体関連度を関連性データ204として出力し、グラフ生成処理S105に受け渡す。
 次に、図14を用いて作業認識装置が提供するユーザインタフェースについて説明する。
  本実施形態の作業認識装置100は、図14に示される物体関連度編集画面400により、グラフのエッジに付与される物体関連度を表示し、編集することができる。表現される
 作業認識装置100は、関連性推定処理S04の結果、あるいは、所定の物体を候補から選択できるような設定ファイルを読み込む。次に、ユーザは、物体間をひもづけるための対象を二つ選択する。図14の例では、対象1のボックス411で物体Aを選択し、対象2のボックス412で物体Bを選んでいる。各ボックスで選択された物体間の関連度合をボックス42で記入でき、ユーザが物体間に対して任意の関連度合を設けることができる。また、特徴量のボックス43により、特徴量の種類が選択でき、対象の特徴量の変化量を、対象1のボックス441、対象2のボックス442でそれぞれ設定でき、ユーザが任意の物体関連度を設定できる機能を有する。また、グラフ表示500により、関連度合を可視化し、ノード511やノード512がつながっていること、各物体で特徴量53などが表示されていること、物体Aと物体Bがつながりがあることが視認でき、ボックス52により、その物体Aと物体Bの物体関連度の数値を編集できるようになっている。
 以上のように、本実施形態の作業認識装置によれば、各物体の特徴量の変化量や物体関連度をユーザが任意に編集することができる。
 〔実施形態3〕
 以下、本発明の実施形態3を、図15を用いて説明する。
  実施形態1では、画像における物体の領域の特徴量の変化量を求め、物体間の関連を示すために、ある物体の領域における特徴量の変化量と他の物体の領域における特徴量の変化量を演算することにより、両者の物体関連度を算出し、それをGCNにおけるグラフのエッジの重みとして、機械学習を行うことにより、作業認識を行う作業認識装置について説明した。
 本実施形態では、実施形態1と同様に、画像における物体の領域の特徴量の変化量を求めて、それからある物体と他の物体の物体関連度を算出する方法であるが、時系列の画像データの変遷にもフォーカスをおいて、物体関連度を算出する方法を説明する。
 以下、実施形態1と異なる所を中心として説明する。
 本実施形態の作業認識装置100は、実施形態1の図2で示した機能構成と同様の構成を有し、図4の関連性推定処理S104である物体の領域における特徴量の変化量と他の物体の領域における特徴量の変化量を演算することにより、両者の物体関連度を算出することは同様であるが、その方法が異なっている。
 以下、図15を用いて、実施形態3における関連性推定処理S104について説明する。
  作業認識装置100の関連性推定部104は、物体A(60A)のオプティカルフローなどによって得られた特徴量1(FA1)と、3DCNNなどで得られた特徴量2(FA2)を取得する。
 3DCNNとは、空間情報(2D)と時間情報(1D)をまとめて3Dの畳み込みを行うことにより、時空間情報を考慮した動画の行動認識を行う手法である。
 また、関連性推定部104は、物体A(60A)と同様に、物体B(60B)についての特徴量1(FB1)と特徴量2(FB2)を取得する。
 次に、物体間において同一のクロック内で得られた特徴量同士を対象に距離値(d11、d12、d21、d22)を算出する。
 その後、前後するクロック間の距離値の差を求め、異なる特徴量1と特徴量2を合わせ、物体関連度を算出する。例えば、クロック1で得られた物体Aの特徴量1と物体Bの特徴量1との距離d11を算出する。クロック2でも同様に距離d12を算出する。距離d11と距離d12の差の絶対値からクロック2とクロック1の変化が得られ、クロック間における変化度合(D1R)を得る。例えば、距離d11と距離d12の差の絶対値Δ1に1を足した値の逆数を取り、クロック間の変化度合いを得る。すなわち、以下の(式4)により、クロック間における変化度合(D1R)を求める。
   D1R=1/(Δ1+1)   …(式4)
 同様に、さらに、物体Aの特徴量2と物体Bの特徴量2においても同様に、距離d21と距離d22の差の絶対値からクロック2とクロック1の変化が得られ、クロック間における変化度合(D2R)を得る。例えば、距離d21と距離d22の差の絶対値Δ2に1を足した値の逆数を取り、クロック間の変化度合いを得る。すなわち、以下の(式5)により、クロック間における変化度合(D2R)を求める。
   D2R=1/(Δ2+1)   …(式5)
 そして、変化度合D1RとD2Rから相加平均値を、それを類似度Sとする。
 グラフ生成にあたっては、クロック1のグラフのエッジの重みをW1、クロック2のグラフのエッジの重みをW2としたときに、以下の(式6)により、最終的なクロック2のエッジの重みW2′を算出する。
   W2′=W1×S+W2   …(式6)
 すなわち、クロック間における変化度合いが少ないときには、クロック2のグラフのエッジの重みは、強調されず、クロック間における変化度合いが多いときには、クロック2のグラフのエッジの重みが強調されることになる。
 以上のように、本実施形態では、物体間の差とクロック間の差を算出することで、時系列データを考慮した物体関連度を算出し、GCNのグラフを生成することができる。
 1…作業認識システム、2…作業者、3…センサ、4…通信手段、5…周辺物体、6…画像取得装置、
 100…作業認識装置、
 11…プロセッサ、12…主記憶装置、13…通信装置、14…入力装置、15…出力装置、16…補助記憶装置、
 101…画像取得部、102…解析領域検出部、103…特徴抽出部、104…関連性推定部、105…グラフ生成部、106…作業学習部、107…作業推論部、108…関連性編集部、110…記憶部、
 200…画像データ、201…補正パラメータ、202…ノード特定ラベル、203…ノード作業ラベル、204…関連性データ、210…推論モデル、220…推論結果

Claims (10)

  1.  画像データを解析し、その画像データを解析することにより、作業にかかわる物体の作業認識を行う作業認識装置であって、
     撮影装置により撮影された画像データを取得する画像取得部と、
     前記画像取得部から得た画像データを解析し、物体に関する領域を検出する解析領域検出部と、
     前記解析領域検出部により検出された物体に関する領域の画像に関する特徴量を抽出し、所定期間内における前記画像に関する特徴量の変化量を算出する特徴抽出部と、
     所定期間内における第一の物体に関する領域として検出された前記画像に関する特徴量の第一の変化量と、前記第一の変化量の所定期間内と同一期間における第二の物体に関する領域として検出された前記画像に関する特徴量の第二の変化量に基づき、前記第一の物体と前記第二の物体の物体関連度を算出する関連性推定部とを有することを特徴とする作業認識装置。
  2.  前記特徴量の第一の変化量と前記特徴量の第二の変化量が、スカラー量であり、
     前記第一の物体と前記第二の物体の物体関連度は、前記特徴量の第一の変化量と前記特徴量の第二の変化量との積、和、または、重み付き線形和のいずれかにより演算されることを特徴とする請求項1記載の作業認識装置。
  3.  さらに、前記関連性推定部により算出された物体関連度と、前記特徴抽出部で抽出された物体に関する領域の画像に関する特徴量に基づいて、作業認識のための機械学習を行ない、推論モデルを出力する作業学習部を有することを特徴とする請求項1記載の作業認識装置。
  4.  さらに、撮影装置により撮影された画像データと、前記作業学習部が出力した推論モデルに基づき、作業認識の推論を行う作業推論部を有することを特徴とする請求項3記載の作業認識装置。
  5.  前記物体に関する領域をノードとし、関連する物体間をエッジでつないだグラフを表現するデータを有し、
     前記物体関連度をエッジ間の重みとし、GCN(Graph Convolution Network)により、前記ノードに対するノード作業ラベルを生成する推論モデルを生成することを特徴とする請求項3記載の作業認識装置。
  6.  前記物体に関する領域をノードとし、関連する物体間をエッジでつないだグラフを表現するデータを有し、
     前記物体に関する領域の特徴量と、前記物体関連度とを表示・編集する手段とを有することを特徴とする請求項1記載の作業認識装置。
  7.  前記関連性推定部は、第一の期間内における第一の物体に関する領域として検出された前記画像に関する特徴量の第一の変化量と、前記第一の期間内における第二の物体に関する領域として検出された前記画像に関する特徴量の第二の変化量に基づき、前記第一の物体と前記第二の物体の第一の物体関連度を算出し、
     第二の期間内における第一の物体に関する領域として検出された前記画像に関する特徴量の第一の変化量と、前記第二の期間内における第二の物体に関する領域として検出された前記画像に関する特徴量の第二の変化量に基づき、前記第一の物体と前記第二の物体の第二の物体関連度を算出し、
     前記第一の物体関連度と前記第二の物体関連度の差分の絶対値に基づいて、前記物体関連度の変化度合を算出し、前記第一の期間内における第一の変化量を物体関連度の変化度合に基づいた類似度を算出し、
     前記グラフにおける第一の期間に該当する第一のエッジの重みを、前記物体関連度の変化度合に基づいた類似度により補正し、
     前記補正された第一の期間に該当する第一のエッジの重みと、前記第二の期間における第二のエッジの重みの和をとり、補正された前記第二の期間における第二のエッジの重みを算出することを特徴とする請求項5記載の作業認識装置。
  8.  画像データを解析し、その画像データを解析することにより、作業者と作業に使われる装置の作業認識を行う作業認識装置による作業認識方法であって、
     画像取得部が、撮影装置により撮影された画像データを取得する画像取得ステップと、
     解析領域検出部が、前記画像取得ステップにより得た画像データを解析し、物体に関する領域を検出する解析領域検出ステップと、
     前記解析領域検出ステップにより検出された物体に関する領域の画像に関する特徴量を抽出し、所定期間内における前記画像に関する特徴量の変化量を算出する特徴抽出ステップと、
     所定期間内における第一の物体に関する領域として検出された前記画像に関する特徴量の第一の変化量と、前記第一の変化量の所定期間内と同一期間における第二の物体に関する領域として検出された前記画像に関する特徴量の第二の変化量に基づき、前記第一の物体と前記第二の物体の物体関連度を算出する関連性推定ステップと、
     前記関連性推定ステップにより算出された物体関連度と、前記特徴抽出ステップで抽出された物体に関する領域の画像に関する特徴量に基づいて、作業認識のための機械学習を行ない、推論モデルを出力する作業学習ステップと、
     撮影装置により撮影された画像データと、前記作業学習ステップが出力した推論モデルに基づき、作業認識の推論を行う作業推論ステップとを有することを特徴とする作業認識方法。
  9.  前記特徴量の第一の変化量と前記特徴量の第二の変化量が、スカラー量であり、
     前記第一の物体と前記第二の物体の物体関連度は、前記特徴量の第一の変化量と前記特徴量の第二の変化量との積、和、または、重み付き線形和のいずれかにより演算されることを特徴とする請求項8記載の作業認識方法。
  10.  前記作業認識装置は、前記物体に関する領域をノードとし、関連する物体間をエッジでつないだグラフを表現するデータを有し、
     前記物体関連度をエッジ間の重みとし、GCN(Graph Convolution Network)により、前記ノードに対するノード作業ラベルを生成する推論モデルを生成することを特徴とする請求項8記載の作業認識方法。
PCT/JP2022/016811 2021-05-17 2022-03-31 作業認識装置および作業認識方法 WO2022244536A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021083456A JP2022176819A (ja) 2021-05-17 2021-05-17 作業認識装置および作業認識方法
JP2021-083456 2021-05-17

Publications (1)

Publication Number Publication Date
WO2022244536A1 true WO2022244536A1 (ja) 2022-11-24

Family

ID=84141275

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/016811 WO2022244536A1 (ja) 2021-05-17 2022-03-31 作業認識装置および作業認識方法

Country Status (2)

Country Link
JP (1) JP2022176819A (ja)
WO (1) WO2022244536A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024067044A (ja) 2022-11-03 2024-05-17 株式会社ミツトヨ 自動内径測定装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020087358A (ja) * 2018-11-30 2020-06-04 富士通クライアントコンピューティング株式会社 情報処理装置及びプログラム
JP2020087312A (ja) * 2018-11-30 2020-06-04 株式会社リコー 行動認識装置、行動認識方法及びプログラム
WO2020246082A1 (ja) * 2019-06-03 2020-12-10 株式会社日立製作所 作業監視装置、及び作業監視方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020087358A (ja) * 2018-11-30 2020-06-04 富士通クライアントコンピューティング株式会社 情報処理装置及びプログラム
JP2020087312A (ja) * 2018-11-30 2020-06-04 株式会社リコー 行動認識装置、行動認識方法及びプログラム
WO2020246082A1 (ja) * 2019-06-03 2020-12-10 株式会社日立製作所 作業監視装置、及び作業監視方法

Also Published As

Publication number Publication date
JP2022176819A (ja) 2022-11-30

Similar Documents

Publication Publication Date Title
US10372228B2 (en) Method and system for 3D hand skeleton tracking
JP6517681B2 (ja) 映像パターン学習装置、方法、及びプログラム
WO2021068323A1 (zh) 多任务面部动作识别模型训练方法、多任务面部动作识别方法、装置、计算机设备和存储介质
JP2016099982A (ja) 行動認識装置、行動学習装置、方法、及びプログラム
CN111062263A (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN114926530A (zh) 用于生成三维姿态估计数据的计算机实现的方法、数据处理装置和计算机程序
WO2022244536A1 (ja) 作業認識装置および作業認識方法
CN111931869A (zh) 一种人机自然交互的用户注意力检测方法及系统
Kogler et al. Enhancement of sparse silicon retina-based stereo matching using belief propagation and two-stage postfiltering
JP2019012497A (ja) 部位認識方法、装置、プログラム、及び撮像制御システム
Faujdar et al. Human Pose Estimation using Artificial Intelligence with Virtual Gym Tracker
CN115471863A (zh) 三维姿态的获取方法、模型训练方法和相关设备
US20160005184A1 (en) System and a method for camera motion analysis and understanding from a video sequence
Shah et al. Gesture recognition technique: a review
JP5485044B2 (ja) 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム
CN114581485A (zh) 一种基于语言建模式孪生网络的目标跟踪方法
JP2022006919A (ja) 動作認識システム、方法及びプログラム
JP2022006708A (ja) 動作認識システム、方法及びプログラム
JP2022018333A (ja) プログラム、情報処理方法、情報処理装置及びモデル生成方法
JP2022006885A (ja) 動作認識装置、動作認識方法及び動作認識プログラム
JP2021077230A (ja) 動作認識装置、動作認識方法、動作認識プログラム及び動作認識システム
Chen et al. An integrated sensor network method for safety management of construction workers
CN113077512B (zh) 一种rgb-d位姿识别模型训练方法及系统
CN112667088B (zh) 基于vr行走平台的手势应用识别方法及系统
EP4216171A1 (en) Information processing device and information processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22804452

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22804452

Country of ref document: EP

Kind code of ref document: A1