WO2023090274A1 - 作業認識装置、作業認識方法、及び作業認識プログラム - Google Patents

作業認識装置、作業認識方法、及び作業認識プログラム Download PDF

Info

Publication number
WO2023090274A1
WO2023090274A1 PCT/JP2022/042142 JP2022042142W WO2023090274A1 WO 2023090274 A1 WO2023090274 A1 WO 2023090274A1 JP 2022042142 W JP2022042142 W JP 2022042142W WO 2023090274 A1 WO2023090274 A1 WO 2023090274A1
Authority
WO
WIPO (PCT)
Prior art keywords
work
recognition
satisfied
detection information
switching condition
Prior art date
Application number
PCT/JP2022/042142
Other languages
English (en)
French (fr)
Inventor
雅 宮崎
健太 西行
洋貴 和田
航一 木下
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Priority to CN202280073889.9A priority Critical patent/CN118215945A/zh
Publication of WO2023090274A1 publication Critical patent/WO2023090274A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • the disclosed technology relates to a work recognition device, a work recognition method, and a work recognition program.
  • Japanese Unexamined Patent Application Publication No. 2019-12328 discloses a human behavior estimation system for determining actions performed by a person using a tool, including an image acquisition unit for acquiring an image of the action taken, and the above from the image acquisition unit. Based on the video, a human action discrimination unit that outputs a human action candidate for the action captured in the video from a predetermined human action definition, and acquires sensor information from a sensor attached to the tool. A tool data acquisition unit, and a tool motion determination that outputs a tool motion candidate for the tool for which the sensor information is acquired from a predetermined tool motion definition based on the sensor information from the tool data acquisition unit. and, based on the human action candidate output from the human action determination unit and the tool action candidate output from the tool action determination unit, the action captured in the image from the image acquisition unit is estimated.
  • a human behavior estimation system having an integrated human behavior determination unit is disclosed.
  • Japanese Patent No. 6444573 discloses a sensor data acquisition unit that acquires sensor data, and based on the sensor data acquired by the sensor data acquisition unit, detects a part of the body of the worker, and detects the part of the body of the worker.
  • a body part information acquisition unit that acquires body part information about an object
  • an object information acquisition unit that detects an object based on the sensor data acquired by the sensor data acquisition unit and acquires object information about the object
  • the body part Based on the body part information acquired by the information acquisition unit and the object information acquired by the object information acquisition unit, the object is associated with the body part of the worker who performed the work using the object.
  • a work recognition device is disclosed that includes a work association unit and a recognition result analysis unit that recognizes the work performed by the worker on the basis of association information relating to the association result associated by the association unit.
  • Japanese Patent No. 6444573 utilizes the coordinates of the parts of the body of the worker and the positional coordinates of the object from the sensor data in recognizing the work of the worker. By linking parts, the type of work is recognized. If the object cannot be detected, processing such as complementing is performed, and the motion and the object are combined as much as possible.
  • the disclosed technology has been made in view of the above points, and aims to provide a work recognition device, a work recognition method, and a work recognition program that can improve the work recognition accuracy.
  • a first aspect of the disclosure is a work recognition device, comprising: an acquisition unit that acquires a photographed image of a worker's work; a first detection unit that detects first detection information about at least one of the work object; and a second detection unit that detects second detection information about the skeleton of the worker based on the captured image.
  • a detection unit a first recognition unit that executes a first recognition process for recognizing the work based on the detected first detection information and the second detection information, and the detected second detection unit a second recognition unit for executing a second recognition process for recognizing the work based on the detection information; and whether the work is recognized by the first recognition unit based on the first detection information; a determination unit for determining whether or not a switching condition for switching whether to recognize the work by a second recognition unit is satisfied; and recognition of the work by the first recognition unit when the switching condition is not satisfied. and an output unit that outputs a result and, if the switching condition is satisfied, outputs the recognition result of the work by the second recognition unit.
  • the determination unit may determine that the switching condition is satisfied when the distance between the hand and the object is equal to or greater than a predetermined threshold.
  • the determination unit may determine that the switching condition is satisfied when the distance between the right hand and the left hand is equal to or greater than a predetermined threshold.
  • the determination unit may determine that the switching condition is satisfied when the bounding box of the hand and the bounding box of the object do not overlap.
  • the determination unit may determine whether or not the switching condition is satisfied based on the size of the detected object.
  • the determination unit determines that the switching condition is satisfied when the size of the bounding box of the detected object is smaller than a predetermined minimum size of the object. good too.
  • the determination unit determines that the switching condition is satisfied when the size of the bounding box of the detected object is larger than a predetermined maximum size of the object. good too.
  • the first detection unit calculates the reliability of the detected object, and the determination unit detects the switching if the reliability of the object is equal to or less than a predetermined threshold. It may be determined that the condition is satisfied.
  • the determination unit may determine that the switching condition is satisfied when the speed of at least one of the detected hand and the object is equal to or higher than a predetermined threshold.
  • the determination unit may determine that the switching condition is satisfied when the detected position of the hand is outside the range of a predetermined work space.
  • a second aspect of the disclosure is a work recognition method, in which a computer obtains a photographed image of a worker's work, and based on the photographed image, at least one of the right hand and the left hand of the worker. , and the object of the work, detecting first detection information about at least one of the work object, detecting second detection information about the skeleton of the worker based on the photographed image, and detecting the detected first detection performing a first recognition process for recognizing the task based on the information and the second detection information; and performing a second recognition process for recognizing the task based on the detected second detection information; and whether or not a switching condition for switching between recognizing the work by the first recognition process and recognizing the work by the second recognition process is satisfied based on the first detection information. If the switching condition is not satisfied, output the recognition result of the work by the first recognition process, and if the switching condition is satisfied, output the recognition result of the work by the second recognition process. perform a process including
  • a third aspect of the disclosure is a work recognition program, in which a photographed image of a worker's work is acquired in a computer, and based on the photographed image, at least one of the right hand and the left hand of the worker and the , and the object of the work, detecting first detection information about at least one of the work object, detecting second detection information about the skeleton of the worker based on the photographed image, and detecting the detected first detection performing a first recognition process for recognizing the task based on the information and the second detection information; and performing a second recognition process for recognizing the task based on the detected second detection information; and whether or not a switching condition for switching between recognizing the work by the first recognition process and recognizing the work by the second recognition process is satisfied based on the first detection information. If the switching condition is not satisfied, output the recognition result of the work by the first recognition process, and if the switching condition is satisfied, output the recognition result of the work by the second recognition process. Execute a process that includes
  • FIG. 1 is a configuration diagram of a work recognition system
  • FIG. 1 is a configuration diagram showing a hardware configuration of a work recognition device
  • FIG. It is a functional block diagram of a work recognition device. It is a figure for demonstrating the 1st detection information detected based on the picked-up image which image
  • FIG. 10 is a diagram showing work recognition results
  • 6 is a flowchart of work recognition processing;
  • FIG. 1 shows the configuration of the work recognition system 10.
  • a work recognition system 10 includes a work recognition device 20 and a camera 30 .
  • the work recognition device 20 recognizes the work content of the work performed by the worker W based on the captured image captured by the camera 30 .
  • the worker W takes out the work object M placed on the workbench T and performs a predetermined work on the work space S.
  • the workbench T is installed in a place with enough brightness to recognize human movements.
  • the camera 30 takes, for example, an RGB color image. Moreover, the camera 30 is installed at a position where the work by the worker W can be easily recognized. Specifically, for example, a position where the range including at least the work space S is not hidden by other objects, a position where the work of the worker W is not hidden by the workbench T, etc. It is installed in a position that satisfies conditions such as a position where the movement of the object is not hidden by other objects. In this embodiment, as an example, a case where the camera 30 is installed at a position obliquely looking down at least the upper body of the worker W will be described.
  • FIG. 2 is a block diagram showing the hardware configuration of the work recognition device 20 according to this embodiment.
  • the work recognition device 20 has a controller 21 .
  • the controller 21 is composed of a device including a general computer.
  • the controller 21 includes a CPU (Central Processing Unit) 21A, a ROM (Read Only Memory) 21B, a RAM (Random Access Memory) 21C, and an input/output interface (I/O) 21D.
  • the CPU 21A, ROM 21B, RAM 21C, and I/O 21D are connected via a bus 21E.
  • Bus 21E includes a control bus, an address bus, and a data bus.
  • the operation unit 22, the display unit 23, the communication unit 24, and the storage unit 25 are connected to the I/O 21D.
  • the operation unit 22 includes, for example, a mouse and a keyboard.
  • the display unit 23 is composed of, for example, a liquid crystal display.
  • the communication unit 24 is an interface for performing data communication with an external device such as the camera 30.
  • the storage unit 25 is composed of a non-volatile external storage device such as a hard disk. As shown in FIG. 2, the storage unit 25 stores a work recognition program 25A and the like.
  • the CPU 21A is an example of a computer.
  • the computer here refers to a processor in a broad sense, and may be a general-purpose processor (e.g., CPU) or a dedicated processor (e.g., GPU: Graphics Processing Unit, ASIC: Application Specific Integrated Circuit, FPGA: Field Programmable Gate Arrays, programmable logic devices, etc.).
  • CPU general-purpose processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Arrays
  • programmable logic devices etc.
  • the work recognition program 25A may be stored in a non-volatile, non-transitory recording medium or distributed via a network and installed in the work recognition device 20 as appropriate. .
  • non-volatile non-transitional recording media examples include CD-ROM (Compact Disc Read Only Memory), magneto-optical disc, HDD (hard disk drive), DVD-ROM (Digital Versatile Disc Read Only Memory), flash memory, memory A card or the like is assumed.
  • CD-ROM Compact Disc Read Only Memory
  • HDD hard disk drive
  • DVD-ROM Digital Versatile Disc Read Only Memory
  • flash memory memory A card or the like is assumed.
  • FIG. 3 is a block diagram showing the functional configuration of the CPU 21A of the work recognition device 20.
  • the CPU 21A functionally includes an acquisition unit 40, a first detection unit 41, a second detection unit 42, a first recognition unit 43, a second recognition unit 44, a determination unit 45 , and an output unit 46 .
  • the CPU 21A functions as each functional unit by reading and executing the work recognition program 25A stored in the storage unit 25.
  • FIG. 1 is a block diagram showing the functional configuration of the CPU 21A of the work recognition device 20.
  • the CPU 21A functionally includes an acquisition unit 40, a first detection unit 41, a second detection unit 42, a first recognition unit 43, a second recognition unit 44, a determination unit 45 , and an output unit 46 .
  • the CPU 21A functions as each functional unit by reading and executing the work recognition program 25A stored in the storage unit 25.
  • the acquisition unit 40 acquires from the camera 30 the captured image of the work of the worker W captured by the camera 30 .
  • the first detection unit 41 detects first detection information about at least one of the worker W's right hand and left hand and at least one of the work object M based on the captured image acquired from the camera 30.
  • the first detection information includes, for example, the coordinates of the four corners of a bounding box representing a range including at least one hand of the right hand and left hand, and the object M with which at least one hand of the right hand and left hand is in contact. and at least one of the coordinates of the four corners of the bounding box representing the range of .
  • the bounding box refers to a rectangular shape such as a rectangle or square that circumscribes the object to be detected.
  • the reliability of the object to be detected is calculated for each anchor box (rectangular area) of a plurality of sizes. Then, the coordinates of the four corners of the anchor box with the highest reliability are set as the coordinates of the four corners of the bounding box.
  • a known method such as Faster R-CNN (Regions with Convolutional Neural Networks) can be used, and for example, the method described in Reference 1 below can be used.
  • FIG. 4 shows a photographed image G1 of the worker W handling the object M with the right hand RH in the work space S, photographed from above the worker W.
  • the first detection unit 41 detects the coordinates of the four corners of the bounding box BR surrounding the right hand RH, the coordinates of the four corners of the bounding box BL surrounding the left hand LH, and the bounding box surrounding the object M. Detect the coordinates of the four corners of the box BM.
  • the right hand RH and the left hand LH are simply referred to as a hand H unless otherwise distinguished.
  • a learning model that receives the photographed image as an input and outputs the first detection information is trained using a large number of photographed images as teacher data.
  • the second detection unit 42 detects second detection information regarding the skeleton of the worker W based on the captured image acquired from the camera 30 .
  • the second detection information includes coordinates of feature points such as body parts and joints of the worker W, and link information defining links connecting the feature points.
  • feature points include facial parts such as the eyes and nose of the worker W, joints such as the neck, shoulders, elbows, wrists, hips, knees, and ankles.
  • FIG. 5 shows an example of the detected second detection information.
  • the second detection information includes the coordinates of the feature points P1 to P11 detected over the right hand, right arm, right shoulder, head, left shoulder, left arm, and left hand of the worker W, and the coordinates of each feature point P1 to P11. and link information defining links L1 to L10 connecting the points.
  • a learning model that receives the photographed image as an input and outputs the second detection information is trained using a large number of photographed images as teacher data.
  • the first recognition unit 43 performs first recognition processing for recognizing work based on the first detection information detected by the first detection unit 41 and the second detection information detected by the second detection unit 42. to run. Specifically, a learning model that receives first detection information and second detection information as an input and outputs a task recognition result is learned using a large number of first detection information and second detection information as teacher data. The task is recognized using the first trained model for recognition.
  • the second recognition unit 44 executes second recognition processing for recognizing work based on the second detection information detected by the second detection unit 42 .
  • a learning model that receives the second detection information as an input and outputs a recognition result of a task is used as a second trained model for recognition that has been trained using a large number of the second detection information as teacher data. Recognize your work.
  • the recognition result of the first recognition process that recognizes work using both the first detection information and the second detection information is better than the second recognition process that recognizes work based only on the second detection information.
  • the recognition accuracy is higher than the recognition result of the recognition processing.
  • the recognition accuracy of the first recognition processing may be lowered. For example, when the object M is small and difficult to detect, or when the object M is hidden by the hand H of the worker W and the object M cannot be accurately detected, the entire body of the worker W is erroneously detected as the hand H. , an object other than the object M is erroneously detected as the object M, and the like. If the hand H of the worker W or the object M is erroneously detected in this way, the recognition accuracy of the first recognition processing is lowered.
  • the work performed by worker W is the packing work of putting the product and instruction manual into a packing box, packing it, and attaching a label to the box.
  • the objects M are boxes, products, instruction manuals and labels.
  • the packing work is divided chronologically for each object M, it is divided into work S1 for handling boxes, work S2 for handling products, work S3 for handling instruction manuals, and work S4 for handling labels.
  • the recognition accuracy of the work S1 is higher in the second recognition process than in the first recognition process.
  • the recognition accuracy of S3 may be higher in the first recognition process than in the second recognition process.
  • Fig. 6 shows an example of recognition results for each work when the above packing work is performed for two cycles.
  • the correct recognition results there is no period during which each of the tasks 1 to 4 is erroneously recognized as another task.
  • the recognition result of the first recognition process there is a period during which work S1 in the second cycle is erroneously recognized as work S3.
  • the recognition result of the second recognition process there is a period in which work S3 in the first cycle is erroneously recognized as work S4.
  • the determination unit 45 satisfies a switching condition for switching between recognition of work by the first recognition unit 43 and recognition of work by the second recognition unit 44 based on the first detection information. determine whether
  • the determination unit 45 determines that the first switching condition is satisfied when the distance between the detected hand H and the object M is equal to or greater than a predetermined threshold value T1. Specifically, for example, the distance between the center position of the bounding box BR of the right hand RH and the center position of the bounding box BM of the object M, and the distance between the center position of the bounding box BL of the left hand LH and the bounding box BM of the object M When at least one of the distances from the center position is equal to or greater than a predetermined threshold value T1, it is determined that the first switching condition is satisfied.
  • the threshold T1 is set to a value (e.g., 10 cm or greater) at which it can be determined that at least one of the detected hand H and the object M is erroneously detected. It is set in advance from the result or the like. Note that one of the four corners of the bounding box may be used instead of the center position of the bounding box when calculating the distance D1.
  • the determination unit 45 may determine that the second switching condition is satisfied when the distance D2 between the right hand RH and the left hand LH is equal to or greater than a predetermined threshold value T2.
  • the distance D2 is the distance between the center position of the bounding box BR of the right hand RH and the center position of the bounding box BL of the left hand LH, and can be calculated in the same manner as the above equation (1).
  • the threshold T2 is preset in the same manner as the threshold T1.
  • the determination unit 45 may determine that the third switching condition is satisfied when the bounding box of the hand H and the bounding box of the object M do not overlap as a third switching condition. Specifically, for example, when at least one of the bounding box BR of the right hand RH and the left hand LH and the bounding box BM of the object M do not overlap, it is determined that the third switching condition is satisfied. This is because the fact that the bounding boxes do not overlap means that the distance between the hand H and the object M is large, and at least one of the hand H and the object M is likely to be erroneously detected.
  • the determination unit 45 may determine whether or not the fourth switching condition is satisfied based on the size of the detected target object M as the fourth switching condition. Specifically, the determining unit 45 performs the fourth switching when the size of the bounding box BM of the detected object M is smaller than a predetermined minimum size of the object M as the fourth switching condition. It may be determined that the condition is satisfied.
  • the size of the bounding box is, for example, the area of the bounding box. In this way, when the size of the bounding box BR of the detected object M is smaller than the size of the smallest object M among the plurality of objects M, the detected object M is erroneously detected. Therefore, it is determined that the fourth switching condition is satisfied.
  • the determining unit 45 sets, as a fifth switching condition, when the size of the bounding box of the detected target object M is larger than a predetermined maximum size of the target object M (for example, the size of the maximum target object M 1.5 times or more), it may be determined that the fifth switching condition is satisfied. In this way, when the size of the bounding box BR of the detected object M is larger than the size of the largest object M among the plurality of objects M, the detected object M is erroneously detected. Therefore, it is determined that the fifth switching condition is satisfied.
  • a predetermined maximum size of the target object M for example, the size of the maximum target object M 1.5 times or more
  • the determination unit 45 may determine that the sixth switching condition is satisfied when the reliability of the detected object is equal to or less than a predetermined threshold value T3.
  • the first detector 41 calculates the reliability of the detected object.
  • the first detection unit 41 can detect the target object by the first trained model for detection using CNN or the like. Then, by using a so-called softmax function in the output layer of the first trained model for detection, the reliability of the detected object is calculated.
  • the reliability is represented by a numerical value ranging from 0 to 1, for example, and the higher the value, the higher the reliability. Therefore, for example, if the threshold T3 is set to 0.5, and the reliability of the detected object is 0.5 or less, it is highly possible that the object has been erroneously detected, and the sixth switching condition is satisfied. I judge.
  • the determination unit 45 may determine that the seventh switching condition is satisfied when the velocity of at least one of the detected hand H and the object M is equal to or greater than a predetermined threshold value T4 as the seventh switching condition. good. Specifically, for example, at least one of the speed of the center position of the bounding box BR of the right hand RH, the speed of the center position of the bounding box BL of the left hand LH, and the speed of the center position of the bounding box BM of the object M is predetermined. If it is equal to or greater than the threshold value T4, it is determined that the seventh switching condition is satisfied.
  • the threshold T4 is set to a value (for example, 1 m/s) at which it can be determined that there is a high possibility of erroneous detection when the speed is equal to or higher than the threshold T4, and is set in advance based on, for example, experimental results.
  • the determination unit 45 may determine that the eighth switching condition is satisfied when the detected position of the hand H is outside the range of the predetermined work space S as the eighth switching condition.
  • the switching condition is satisfied when two or more switching conditions are satisfied by appropriately combining the first to eighth switching conditions. That is, it may be determined that the switching condition is satisfied when at least one switching condition among a plurality of switching conditions is satisfied.
  • the output unit 46 outputs the work recognition result by the first recognition unit 43 when the switching condition is not satisfied, and outputs the work recognition result by the second recognition unit 44 when the switching condition is satisfied.
  • the recognition result is displayed by being output to the display unit 23, or is stored by being output to the storage unit 25, for example.
  • the first recognition processing by the first recognition unit 43 and the second recognition processing by the second recognition unit 44 are switched depending on whether the switching condition is satisfied. For example, as shown in "recognition result when switching" in FIG. Work is recognized by recognition processing. Work other than this is recognized by the first recognition processing. As a result, it is possible to prevent the work recognition accuracy from deteriorating compared to the case where the work is recognized only by the first recognition process or only by the second recognition process.
  • step S100 the CPU 21A acquires a photographed image of the worker W's work from the camera 30.
  • step S101 the CPU 21A detects first detection information regarding at least one of the right hand and left hand of the worker W and the work target M based on the captured image acquired in step S100. That is, the photographed image is input to the first detection trained model to acquire the first detection information.
  • step S102 the CPU 21A detects second detection information regarding the skeleton of the worker W based on the captured image acquired in step S100. That is, the captured image is input to the second detection trained model to acquire the second detection information.
  • step S103 the CPU 21A sets a switching condition for switching between recognizing work by the first recognition process and recognizing work by the second recognition process based on the first detection information acquired in step S101. Determine whether or not the conditions are met. Specifically, it is determined whether or not at least one of the first to eighth switching conditions described above is satisfied. Then, when the determination in step S103 is negative, the process proceeds to step S104, and when the determination in step S103 is positive, the process proceeds to step S105.
  • step S104 the CPU 21A executes the first recognition process based on the first detection information acquired in step S101 and the second detection information acquired in step S102. That is, the first detection information and the second detection information are input to the first trained model for recognition, and the recognition result of the work is obtained.
  • step S105 the CPU 21A executes the second recognition process based on the second detection information acquired in step S102. That is, the second detection information is input to the second trained model for recognition, and the work recognition result is obtained.
  • step S106 the CPU 21A outputs the work recognition result acquired in step S104 or step S105 to the display unit 23 or the storage unit 25, for example.
  • the work recognition accuracy can be improved.
  • various processors other than the CPU may execute the task recognition processing executed by the CPU reading the software (program) in each of the above embodiments.
  • the processor is a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing, such as an FPGA (Field-Programmable Gate Array), and an ASIC (Application Specific Integrated Circuit) to execute recognition processing.
  • a dedicated electric circuit or the like which is a processor having a specially designed circuit configuration, is exemplified.
  • task recognition processing may be performed by one of these various processors, or a combination of two or more processors of the same or different type (e.g., multiple FPGAs, and a combination of CPU and FPGA). etc.).
  • the hardware structure of these various processors is an electric circuit in which circuit elements such as semiconductor elements are combined.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

作業認識装置は、作業者の作業を撮影した撮影画像を取得し、撮影画像に基づいて、作業者の右手及び左手の少なくとも一方の手と、作業の対象物と、に関する第1の検出情報を検出し、撮影画像に基づいて、作業者の骨格に関する第2の検出情報を検出し、検出した第1の検出情報及び第2の検出情報に基づいて、作業を認識する第1の認識処理を実行し、検出した第2の検出情報に基づいて、作業を認識する第2の認識処理を実行し、第1の検出情報に基づいて、第1の認識処理により作業を認識するか第2の認識処理により作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、切り替え条件を満たさない場合は、第1の認識部による作業の認識結果を出力し、切り替え条件を満たす場合は、第2の認識部による作業の認識結果を出力する。

Description

作業認識装置、作業認識方法、及び作業認識プログラム
 開示の技術は、作業認識装置、作業認識方法、及び作業認識プログラムに関する。
 特開2019-12328号公報には、人が道具を用いて行う行動を判別する人行動推定システムであって、前記行動を撮影した映像を取得する映像取得部と、前記映像取得部からの前記映像に基づき、あらかじめ定められた人行動定義から、前記映像に撮影された前記行動に対しての人行動候補を出力する人行動判別部と、前記道具に付されたセンサからセンサ情報を取得する道具データ取得部と、前記道具データ取得部からの前記センサ情報に基づき、あらかじめ定められた道具動作定義から、前記センサ情報が取得された前記道具に対しての道具動作候補を出力する道具動作判別部と、前記人行動判別部より出力された前記人行動候補及び前記道具動作判別部より出力された前記道具動作候補に基づき、前記映像取得部からの前記映像に撮影された前記行動を推定する総合人行動判別部とを有する人行動推定システムが開示されている。
 特許第6444573号公報には、センサデータを取得するセンサデータ取得部と、前記センサデータ取得部が取得したセンサデータに基づき、作業者の体の部位を検出して、当該作業者の体の部位に関する体部位情報を取得する体部位情報取得部と、前記センサデータ取得部が取得したセンサデータに基づき、物体を検出して、当該物体に関する物体情報を取得する物体情報取得部と、前記体部位情報取得部が取得した体部位情報と、前記物体情報取得部が取得した物体情報とに基づき、前記物体と、当該物体を用いた作業を行った、前記作業者の体の部位との関連付けを行う関連付け部と、前記関連付け部で関連付けられた関連付け結果に関する関連付け情報に基づき、前記作業者によって実施された作業を認識する認識結果分析部とを備えた作業認識装置が開示されている。
 特開2019-12328号公報に記載の技術では、映像解析による人物の動作認識は、映像中に死角が生じることが多く、正確な人物の行動推定が困難となる場合が多いことから、人の位置情報による行動推定だけではなく、予め定義された人行動情報及び工具による動作情報を用いて総合的に作業を認識している。
 また、特許第6444573号公報に記載の技術は、作業者の作業を認識するにあたり、センサデータから、作業者の体の部位の座標、物体の位置座標を利用し、体の部位と、物体の部位を紐付けて、作業の種類を認識している。物体が検出できない場合は補完するなどの処理を行い、動作と物体をできるだけ組み合わせるようにしている。
 しかしながら、実際の作業現場では、部品が多く、部品を検出できていたとしても誤検出することがあり、作業の認識精度を向上させることが困難であった。
 開示の技術は、上記の点に鑑みてなされたものであり、作業の認識精度を向上させることができる作業認識装置、作業認識方法、及び作業認識プログラムを提供することを目的とする。
 開示の第1態様は、作業認識装置であって、作業者の作業を撮影した撮影画像を取得する取得部と、前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第1の検出情報を検出する第1の検出部と、前記撮影画像に基づいて、前記作業者の骨格に関する第2の検出情報を検出する第2の検出部と、検出した前記第1の検出情報及び前記第2の検出情報に基づいて、前記作業を認識する第1の認識処理を実行する第1の認識部と、検出した前記第2の検出情報に基づいて、前記作業を認識する第2の認識処理を実行する第2の認識部と、前記第1の検出情報に基づいて、前記第1の認識部により前記作業を認識するか前記第2の認識部により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定する判定部と、前記切り替え条件を満たさない場合は、前記第1の認識部による前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第2の認識部による前記作業の認識結果を出力する出力部と、を備える。
 上記第1態様において、前記判定部は、前記手と前記対象物との距離が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定するようにしてもよい。
 上記第1態様において、前記判定部は、前記右手と前記左手との距離が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定するようにしてもよい。
 上記第1態様において、前記判定部は、前記手のバウンディングボックスと前記対象物のバウンディングボックスとが重ならない場合に前記切り替え条件を満たすと判定するようにしてもよい。
 上記第1態様において、前記判定部は、検出された前記対象物のサイズに基づいて、前記切り替え条件を満たすか否かを判定するようにしてもよい。
 上記第1態様において、前記判定部は、検出された前記対象物のバウンディングボックスのサイズが、予め定めた最小の前記対象物のサイズよりも小さい場合に前記切り替え条件を満たすと判定するようにしてもよい。
 上記第1態様において、前記判定部は、検出された前記対象物のバウンディングボックスのサイズが、予め定めた最大の前記対象物のサイズよりも大きい場合に前記切り替え条件を満たすと判定するようにしてもよい。
 上記第1態様において、前記第1の検出部は、検出された前記対象物の信頼度を算出し、前記判定部は、前記対象物の信頼度が予め定めた閾値以下の場合に、前記切り替え条件を満たすと判定するようにしてもよい。
 上記第1態様において、前記判定部は、検出された前記手及び前記対象物の少なくとも一方の速度が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定するようにしてもよい。
 上記第1態様において、前記判定部は、検出された前記手の位置が、予め定めた作業スペースの範囲外にある場合に前記切り替え条件を満たすと判定するようにしてもよい。
 開示の第2態様は、作業認識方法であって、コンピュータが、作業者の作業を撮影した撮影画像を取得し、前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第1の検出情報を検出し、前記撮影画像に基づいて、前記作業者の骨格に関する第2の検出情報を検出し、検出した前記第1の検出情報及び前記第2の検出情報に基づいて、前記作業を認識する第1の認識処理を実行し、検出した前記第2の検出情報に基づいて、前記作業を認識する第2の認識処理を実行し、前記第1の検出情報に基づいて、前記第1の認識処理により前記作業を認識するか前記第2の認識処理により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、前記切り替え条件を満たさない場合は、前記第1の認識処理よる前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第2の認識処理による前記作業の認識結果を出力する、ことを含む処理を実行する。
 開示の第3態様は、作業認識プログラムであって、コンピュータに、作業者の作業を撮影した撮影画像を取得し、前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第1の検出情報を検出し、前記撮影画像に基づいて、前記作業者の骨格に関する第2の検出情報を検出し、検出した前記第1の検出情報及び前記第2の検出情報に基づいて、前記作業を認識する第1の認識処理を実行し、検出した前記第2の検出情報に基づいて、前記作業を認識する第2の認識処理を実行し、前記第1の検出情報に基づいて、前記第1の認識処理により前記作業を認識するか前記第2の認識処理により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、前記切り替え条件を満たさない場合は、前記第1の認識処理よる前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第2の認識処理による前記作業の認識結果を出力する、ことを含む処理を実行させる。
 開示の技術によれば、作業の認識精度を向上させることができる。
作業認識システムの構成図である。 作業認識装置のハードウェア構成を示す構成図である。 作業認識装置の機能ブロック図である。 作業を撮影した撮影画像に基づいて検出される第1の検出情報について説明するための図である。 作業を撮影した撮影画像に基づいて検出される第2の検出情報について説明するための図である。 作業の認識結果を示す図である。 作業認識処理のフローチャートである。
 以下、本開示の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。
 図1は、作業認識システム10の構成を示す。作業認識システム10は、作業認識装置20及びカメラ30を備える。
 作業認識装置20は、カメラ30で撮影された撮影画像に基づいて作業者Wが行う作業の作業内容を認識する。
 作業者Wは、一例として作業台Tに載置された作業の対象物Mを取り出して、作業スペースS上で所定の作業を行う。作業台Tは、人の動作が認識できる程度の明るさを有する場所に設置される。
 カメラ30は、例えばRGBのカラー画像を撮影する。また、カメラ30は、作業者Wによる作業を認識しやすい位置に設置される。具体的には、例えば少なくとも作業スペースSを含む範囲が他の物体等によって隠れることがない位置、作業者Wの作業が作業台T等によって隠れることがない位置、作業者Wの作業中に指の動き等が他の物体等によって隠れない位置等の条件を満たす位置に設置される。本実施形態では、一例として作業者Wの少なくとも上半身を斜め上方から見下ろす位置にカメラ30が設置されている場合について説明する。
 なお、本実施形態では、カメラ30が1台の場合について説明するが、複数台のカメラ30を設けた構成としてもよい。また、本実施形態では、作業者Wが1人の場合について説明するが、作業者Wが2人以上であってもよい。
 図2は、本実施形態に係る作業認識装置20のハードウェア構成を示すブロック図である。図2に示すように、作業認識装置20は、コントローラ21を備える。コントローラ21は、一般的なコンピュータを含む装置で構成される。
 図2に示すように、コントローラ21は、CPU(Central Processing Unit)21A、ROM(Read Only Memory)21B、RAM(Random Access Memory)21C、及び入出力インターフェース(I/O)21Dを備える。そして、CPU21A、ROM21B、RAM21C、及びI/O21Dがバス21Eを介して各々接続されている。バス21Eは、コントロールバス、アドレスバス、及びデータバスを含む。
 また、I/O21Dには、操作部22、表示部23、通信部24、及び記憶部25が接続されている。
 操作部22は、例えばマウス及びキーボードを含んで構成される。
 表示部23は、例えば液晶ディスプレイ等で構成される。
 通信部24は、カメラ30等の外部装置とデータ通信を行うためのインターフェースである。
 記憶部25は、ハードディスク等の不揮発性の外部記憶装置で構成される。図2に示すように、記憶部25は、作業認識プログラム25A等を記憶する。
 CPU21Aは、コンピュータの一例である。ここでいうコンピュータとは、広義的なプロセッサを指し、汎用的なプロセッサ(例えば、CPU)、又は、専用のプロセッサ(例えば、GPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
 なお、作業認識プログラム25Aは、不揮発性の非遷移的(non-transitory)記録媒体に記憶して、又はネットワークを介して配布して、作業認識装置20に適宜インストールすることで実現してもよい。
 不揮発性の非遷移的記録媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、HDD(ハードディスクドライブ)、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。
 図3は、作業認識装置20のCPU21Aの機能構成を示すブロック図である。図3に示すように、CPU21Aは、機能的には、取得部40、第1の検出部41、第2の検出部42、第1の認識部43、第2の認識部44、判定部45、及び出力部46の各機能部を備える。CPU21Aは、記憶部25に記憶された作業認識プログラム25Aを読み込んで実行することにより各機能部として機能する。
 取得部40は、カメラ30が作業者Wの作業を撮影した撮影画像をカメラ30から取得する。
 第1の検出部41は、カメラ30から取得した撮影画像に基づいて、作業者Wの右手及び左手の少なくとも一方の手と、作業の対象物Mと、の少なくとも一方に関する第1の検出情報を検出する。具体的には、第1の検出情報は、例えば右手及び左手の少なくとも一方の手を含む範囲を表すバウンディングボックスの四隅の座標と、右手及び左手の少なくとも一方の手が接触している対象物Mの範囲を表すバウンディングボックスの四隅の座標と、の少なくとも一方を含む。ここで、バウンディングボックスとは、検出対象の物体に外接する長方形又は正方形等の矩形形状をいう。具体的には、複数種類のサイズのアンカーボックス(長方形領域)毎に、検出対象の物体の信頼度を算出する。そして、最も信頼度の高いアンカーボックスの四隅の座標をバウンディングボックスの四隅の座標とする。このようなバウンディングボックスの検出方法としては、例えばFaster R-CNN(Regions with Convolutional Neural Networks)等の公知の方法を用いることができ、例えば下記参考文献1に記載された方法を用いることができる。
(参考文献1)"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.
 図4には、作業者Wが作業スペースSにおいて右手RHで対象物Mを扱っている様子を作業者Wの上方から撮影した撮影画像G1を示す。この場合、図4に示すように、第1の検出部41は、右手RHを囲むバウンディングボックスBRの四隅の座標と、左手LHを囲むバウンディングボックスBLの四隅の座標と、対象物Mを囲むバウンディングボックスBMの四隅の座標と、を検出する。なお、以下では、右手RH及び左手LHを特に区別しない場合は、単に手Hと称する。
 撮影画像に基づいて第1の検出情報を検出する方法としては、撮影画像を入力とし、第1の検出情報を出力とする学習モデルを、多数の撮影画像を教師データとして学習した第1の検出用学習済みモデルを用いることができる。このような第1の検出用学習済みモデルを得る学習方法としては、例えばCNN等の公知の方法を用いることができ、例えば下記参考文献2に記載された方法を用いることができる。
(参考文献2)"Understanding Human Hands in Contact at Internet Scale", pp.9869-9878, Dandan Shan1, Jiaqi Geng, Michelle Shu, David F. Fouhey, University of Michigan, Johns Hopkins University, CVPR2020.
 このような第1の検出情報を時系列で検出することにより、作業者Wが手Hを使って対象物Mに対してどのような作業を行っているのかを把握することが可能となる。
 第2の検出部42は、カメラ30から取得した撮影画像に基づいて、作業者Wの骨格に関する第2の検出情報を検出する。具体的には、第2の検出情報は、作業者Wの体の部位及び関節等の特徴点の座標と、各特徴点を接続するリンクが定義されたリンク情報と、を含む。例えば特徴点は、作業者Wの目及び鼻等の顔の部位、首、肩、肘、手首、腰、膝、及び足首等の関節等を含む。
 図5には、検出された第2の検出情報の一例を示した。図5の例では、第2の検出情報は、作業者Wの右手、右腕、右肩、頭部、左肩、左腕、及び左手に亘って検出された特徴点P1~P11の座標と、各特徴点を接続するリンクL1~L10が定義されたリンク情報と、を含む。
 撮影画像に基づいて第2の検出情報を検出する方法としては、撮影画像を入力とし、第2の検出情報を出力とする学習モデルを、多数の撮影画像を教師データとして学習した第2の検出用学習済みモデルを用いることができる。このような第2の検出用学習済みモデルを得る学習方法としては、例えばCNN(Regions with Convolutional Neural Networks)等の公知の方法を用いることができ、例えば下記参考文献3に記載された方法を用いることができる。
(参考文献3)"OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", Zhe Cao, Student Member, IEEE, Gines Hidalgo, Student Member, IEEE, Tomas Simon, Shih-En Wei, and Yaser Sheikh, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE.
 このような第2の検出情報を時系列で検出することにより、作業者Wが手Hを使って対象物Mに対してどのような作業を行っているのかを把握することが可能となる。
 第1の認識部43は、第1の検出部41が検出した第1の検出情報及び第2の検出部42が検出した第2の検出情報に基づいて、作業を認識する第1の認識処理を実行する。具体的には、第1の検出情報及び第2の検出情報を入力とし、作業の認識結果を出力とする学習モデルを、多数の第1の検出情報及び第2の検出情報を教師データとして学習した第1の認識用学習済みモデルを用いて作業を認識する。
 第2の認識部44は、第2の検出部42が検出した第2の検出情報に基づいて、作業を認識する第2の認識処理を実行する。具体的には、第2の検出情報を入力とし、作業の認識結果を出力とする学習モデルを、多数の第2の検出情報を教師データとして学習した第2の認識用学習済みモデルを用いて作業を認識する。
 ところで、第1の検出情報及び第2の検出情報の両方を用いて作業を認識する第1の認識処理の認識結果の方が、第2の検出情報のみに基づいて作業を認識する第2の認識処理の認識結果と比較して認識精度が高い場合が多い。しかしながら、作業者W及び対象物Mの状態によっては第1の認識処理の認識精度が低下する場合もある。例えば、対象物Mのサイズが小さく検出しにくい場合、対象物Mが作業者Wの手Hに隠れてしまい対象物Mを正確に検出できない場合、作業者Wの体全体を手Hと誤検出してしまう場合、対象物M以外の物体を対象物Mと誤検出してしまう場合等である。このように作業者Wの手H又は対象物Mを誤検出してしまうと、第1の認識処理の認識精度が低下してしまう。
 具体的には、例えば、作業者Wが行う作業が、梱包箱に製品及び取扱説明書を入れて梱包し、箱にラベルを貼る梱包作業であったとする。この場合、対象物Mは、箱、製品、取扱説明書、及びラベルである。そして、梱包作業を対象物M毎に時系列に分割すると、箱を扱う作業S1と、製品を扱う作業S2と、取扱説明書を扱う作業S3と、ラベルを扱う作業S4と、に分けられる。このような梱包作業を第1の認識処理及び第2の認識処理によって認識する場合、例えば作業S1の認識精度は第1の認識処理よりも第2の認識処理の方が高くなり、逆に作業S3の認識精度は第2の認識処理よりも第1の認識処理の方が高くなる場合がある。
 図6には、上記の梱包作業を2サイクル行った場合の各作業の認識結果の一例を示した。図6に示すように、正解の認識結果では、作業1~作業4の各作業について、他の作業と誤認識する期間はない。これに対し、第1の認識処理の認識結果では、2サイクル目の作業S1において、作業S3と誤認識した期間が存在する。また、第2の認識処理の認識結果では、1サイクル目の作業S3において、作業S4と誤認識した期間が存在する。
 このように、第1の認識部43による第1の認識処理のみ又は第2の認識部44による第2の認識処理のみでは、正解の認識結果を得られない場合がある。
 そこで、判定部45は、第1の検出情報に基づいて、第1の認識部43により作業を認識するか第2の認識部44により作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定する。
 例えば判定部45は、第1の切り替え条件として、検出された手Hと対象物Mとの距離が予め定めた閾値T1以上の場合に、第1の切り替え条件を満たすと判定する。具体的には、例えば右手RHのバウンディングボックスBRの中心位置と対象物MのバウンディングボックスBMの中心位置との距離、及び、左手LHのバウンディングボックスBLの中心位置と対象物MのバウンディングボックスBMの中心位置との距離、の少なくとも一方の距離が予め定めた閾値T1以上の場合に、第1の切り替え条件を満たすと判定する。
 ここで、手Hのバウンディングボックスの中心位置C1の座標を(x1、y1)、対象物MのバウンディングボックスBMの中心位置C2の座標を(x2、y2)とすると、中心位置C1と中心位置C2との距離D1は次式で算出される。
D1=[(x1-x2)+(y1-y2)1/2  ・・・(1)
 閾値T1は、距離D1が閾値T1以上の場合は、検出された手H及び対象物Mの少なくとも一方が誤検出である可能性が高いと判断できる値(例えば10cm以上)に設定され、例えば実験結果等から予め設定される。なお、距離D1を算出する場合にバウンディングボックスの中心位置ではなく、バウンディングボックスの四隅のうちの1つの位置を用いても良い。
 また、判定部45は、第2の切り替え条件として、右手RHと左手LHとの距離D2が予め定めた閾値T2以上の場合に第2の切り替え条件を満たすと判定してもよい。距離D2は、右手RHのバウンディングボックスBRの中心位置と左手LHのバウンディングボックスBLの中心位置との距離であり、上記(1)式と同様に算出することができる。閾値T2は、閾値T1と同様に予め設定される。
 また、判定部45は、第3の切り替え条件として、手Hのバウンディングボックスと対象物Mのバウンディングボックスとが重ならない場合に第3の切り替え条件を満たすと判定してもよい。具体的には、例えば右手RHのバウンディングボックスBR及び左手LHの少なくとも一方と、対象物MのバウンディングボックスBMと、が重ならない場合に、第3の切り替え条件を満たすと判定する。これは、バウンディングボックス同士が重ならないということは、手Hと対象物Mとの距離が大きく、手H及び対象物Mの少なくとも一方が誤検出である可能性が高いと考えられるためである。
 また、判定部45は、第4の切り替え条件として、検出された対象物Mのサイズに基づいて、第4の切り替え条件を満たすか否かを判定してもよい。具体的には、判定部45は、第4の切り替え条件として、検出された対象物MのバウンディングボックスBMのサイズが、予め定めた最小の対象物Mのサイズよりも小さい場合に第4の切り替え条件を満たすと判定してもよい。ここで、バウンディングボックスのサイズとは、例えばバウンディングボックスの面積である。このように、検出された対象物MのバウンディングボックスBRのサイズが、複数の対象物Mの中で最も小さいサイズの対象物Mのサイズよりも小さい場合は、検出された対象物Mが誤検出である可能性が高いことから、第4の切り替え条件を満たすと判定する。
 また、判定部45は、第5の切り替え条件として、検出された対象物Mのバウンディングボックスのサイズが、予め定めた最大の対象物Mのサイズよりも大きい場合(例えば最大の対象物Mのサイズの1.5倍以上の場合)に第5の切り替え条件を満たすと判定してもよい。このように、検出された対象物MのバウンディングボックスBRのサイズが、複数の対象物Mの中で最も大きいサイズの対象物Mのサイズよりも大きい場合は、検出された対象物Mが誤検出である可能性が高いことから、第5の切り替え条件を満たすと判定する。
 また、判定部45は、第6の切り替え条件として、検出された対象物の信頼度が予め定めた閾値T3以下の場合に、第6の切り替え条件を満たすと判定してもよい。この場合、第1の検出部41は、検出された対象物の信頼度を算出する。前述したように、第1の検出部41は、CNN等を用いた第1の検出用学習済みモデルにより対象物を検出することができる。そして、第1の検出用学習済みモデルの出力層に所謂ソフトマックス関数を用いることにより、検出された対象物の信頼度が算出される。信頼度は、例えば0~1までの数値で表され、値が大きいほど信頼度が高いことを示す。従って、例えば閾値T3を0.5に設定し、検出された対象物の信頼度0.5以下の場合は、対象物が誤検出された可能性が高いものとして、第6の切り替え条件を満たすと判定する。
 また、判定部45は、第7の切り替え条件として、検出された手H及び対象物Mの少なくとも一方の速度が予め定めた閾値T4以上の場合に第7の切り替え条件を満たすと判定してもよい。具体的には、例えば右手RHのバウンディングボックスBRの中心位置の速度、左手LHのバウンディングボックスBLの中心位置の速度、及び対象物MのバウンディングボックスBMの中心位置の速度の少なくとも1つが予め定めた閾値T4以上の場合に、第7の切り替え条件を満たすと判定する。閾値T4は、上記速度が閾値T4以上の場合は誤検出の可能性が高いと判断できる値(例えば1m/s)に設定され、例えば実験結果等から予め設定される。
 また、判定部45は、第8の切り替え条件として、検出された手Hの位置が、予め定めた作業スペースSの範囲外にある場合に第8の切り替え条件を満たすと判定してもよい。
 例えば右手RHのバウンディングボックスBRの中心位置の座標を(xr、yr)、左手LHのバウンディングボックスBLの中心位置の座標を(xl、yl)とし、作業スペースSの2つの対角線のうち1つの対角線上における2つの角部の座標を(x1、y1)、(x2、y2)とする。なお、x1<x2、y1>y2とする。この場合、下記(2)、(3)式を満たす場合は右手RHのバウンディングボックスBRの中心位置及び左手LHのバウンディングボックスBLの中心位置が作業スペースSの範囲内に存在すると判定できる。
x1≦xr、xl≦x2 ・・・(2)
y1≦yr、yl≦y2 ・・・(3)
 従って、上記(2)式及び(3)式の少なくとも一方を満たさない場合は、右手RH及び左手LHが作業スペースSの範囲外に存在すると見なして第8の切り替え条件を満たすと判定する。
 なお、第1~第8の切り替え条件を適宜組み合わせて、2つ以上の切り替え条件を満たした場合に切り替え条件を満たすと判定してもよい。すなわち、複数の切り替え条件のうち少なくとも1つの切り替え条件を満たした場合に切り替え条件を満たすと判定してもよい。
 出力部46は、切り替え条件を満たさない場合は、第1の認識部43による作業の認識結果を出力し、切り替え条件を満たす場合は、第2の認識部44による作業の認識結果を出力する。認識結果は、例えば表示部23に出力されることにより表示されたり、記憶部25に出力されることにより記憶されたりする。
 このように、切り替え条件を満たすか否かに応じて、第1の認識部43による第1の認識処理と第2の認識部44による第2の認識処理とを切り替える。例えば図6の「切り替えた場合の認識結果」に示すように、実線の太枠で示す2サイクル目の作業S1については、第1の認識処理では誤認識する可能性が高いため、第2の認識処理により作業を認識する。これ以外の作業については、第1の認識処理により作業を認識する。これにより、第1の認識処理のみ又は第2の認識処理のみにより作業を認識する場合と比較して、作業の認識精度が低下するのを抑制することができる。
 次に、作業認識装置20のCPU21Aで実行される作業認識処理について、図7に示すフローチャートを参照して説明する。
 ステップS100では、CPU21Aが、カメラ30から作業者Wの作業を撮影した撮影画像を取得する。
 ステップS101では、CPU21Aが、ステップS100で取得した撮影画像に基づいて、作業者Wの右手及び左手の少なくとも一方の手と、作業の対象物Mと、に関する第1の検出情報を検出する。すなわち、撮影画像を第1の検出用学習済みモデルに入力し、第1の検出情報を取得する。
 ステップS102では、CPU21Aが、ステップS100で取得した撮影画像に基づいて、作業者Wの骨格に関する第2の検出情報を検出する。すなわち、撮影画像を第2の検出用学習済みモデルに入力し、第2の検出情報を取得する。
 ステップS103では、CPU21Aが、ステップS101で取得した第1の検出情報に基づいて、第1の認識処理により作業を認識するか第2の認識処理により作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定する。具体的には、前述した第1~第8の切り替え条件の少なくとも1つの切り替え条件を満たすか否かを判定する。そして、ステップS103の判定が否定された場合はステップS104へ移行し、肯定された場合はステップS105へ移行する
 ステップS104では、CPU21Aが、ステップS101で取得した第1の検出情報及びステップS102で取得した第2の検出情報に基づいて、第1の認識処理を実行する。すなわち、第1の検出情報及び第2の検出情報を第1の認識用学習済みモデルに入力し、作業の認識結果を取得する。
 ステップS105では、CPU21Aが、ステップS102で取得した第2の検出情報に基づいて、第2の認識処理を実行する。すなわち、第2の検出情報を第2の認識用学習済みモデルに入力し、作業の認識結果を取得する。
 ステップS106では、CPU21Aが、ステップS104又はステップS105で取得した作業の認識結果を例えば表示部23又は記憶部25に出力する。
 このように、本実施形態では、第1の検出情報に基づいて第1の認識処理を実行するか第2の認識処理を実行するかを判定し、誤検出の可能性が高い場合は第1の認識処理から第2の認識処理に切り替える。これにより、作業の認識精度を向上させることができる。
 なお、上記実施形態は、本開示の構成例を例示的に説明するものに過ぎない。本開示は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
 また、上各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した作業認識処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の認識の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、作業認識処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 なお、日本国特許出願第2021-188165号の開示は、その全体が参照により本明細書に取り込まれる。また、本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (12)

  1.  作業者の作業を撮影した撮影画像を取得する取得部と、
     前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第1の検出情報を検出する第1の検出部と、
     前記撮影画像に基づいて、前記作業者の骨格に関する第2の検出情報を検出する第2の検出部と、
     検出した前記第1の検出情報及び前記第2の検出情報に基づいて、前記作業を認識する第1の認識処理を実行する第1の認識部と、
     検出した前記第2の検出情報に基づいて、前記作業を認識する第2の認識処理を実行する第2の認識部と、
     前記第1の検出情報に基づいて、前記第1の認識部により前記作業を認識するか前記第2の認識部により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定する判定部と、
     前記切り替え条件を満たさない場合は、前記第1の認識部による前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第2の認識部による前記作業の認識結果を出力する出力部と、
     を備えた作業認識装置。
  2.  前記判定部は、前記手と前記対象物との距離が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定する
     請求項1記載の作業認識装置。
  3.  前記判定部は、前記右手と前記左手との距離が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定する
     請求項1記載の作業認識装置。
  4.  前記判定部は、前記手のバウンディングボックスと前記対象物のバウンディングボックスとが重ならない場合に前記切り替え条件を満たすと判定する
     請求項1記載の作業認識装置。
  5.  前記判定部は、検出された前記対象物のサイズに基づいて、前記切り替え条件を満たすか否かを判定する
     請求項1~3の何れか1項に記載の作業認識装置。
  6.  前記判定部は、検出された前記対象物のバウンディングボックスのサイズが、予め定めた最小の前記対象物のサイズよりも小さい場合に前記切り替え条件を満たすと判定する
     請求項5記載の作業認識装置。
  7.  前記判定部は、検出された前記対象物のバウンディングボックスのサイズが、予め定めた最大の前記対象物のサイズよりも大きい場合に前記切り替え条件を満たすと判定する
     請求項5記載の作業認識装置。
  8.  前記第1の検出部は、検出された前記対象物の信頼度を算出し、
     前記判定部は、前記対象物の信頼度が予め定めた閾値以下の場合に、前記切り替え条件を満たすと判定する
     請求項1記載の作業認識装置。
  9.  前記判定部は、検出された前記手及び前記対象物の少なくとも一方の速度が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定する
     請求項1記載の作業認識装置。
  10.  前記判定部は、検出された前記手の位置が、予め定めた作業スペースの範囲外にある場合に前記切り替え条件を満たすと判定する
     請求項1記載の作業認識装置。
  11.  コンピュータが、
     作業者の作業を撮影した撮影画像を取得し、
     前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第1の検出情報を検出し、
     前記撮影画像に基づいて、前記作業者の骨格に関する第2の検出情報を検出し、
     検出した前記第1の検出情報及び前記第2の検出情報に基づいて、前記作業を認識する第1の認識処理を実行し、
     検出した前記第2の検出情報に基づいて、前記作業を認識する第2の認識処理を実行し、
     前記第1の検出情報に基づいて、前記第1の認識処理により前記作業を認識するか前記第2の認識処理により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、
     前記切り替え条件を満たさない場合は、前記第1の認識処理よる前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第2の認識処理による前記作業の認識結果を出力する、
     ことを含む処理を実行する作業認識方法。
  12.  コンピュータに、
     作業者の作業を撮影した撮影画像を取得し、
     前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第1の検出情報を検出し、
     前記撮影画像に基づいて、前記作業者の骨格に関する第2の検出情報を検出し、
     検出した前記第1の検出情報及び前記第2の検出情報に基づいて、前記作業を認識する第1の認識処理を実行し、
     検出した前記第2の検出情報に基づいて、前記作業を認識する第2の認識処理を実行し、
     前記第1の検出情報に基づいて、前記第1の認識処理により前記作業を認識するか前記第2の認識処理により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、
     前記切り替え条件を満たさない場合は、前記第1の認識処理よる前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第2の認識処理による前記作業の認識結果を出力する、
     ことを含む処理を実行させる作業認識プログラム。
PCT/JP2022/042142 2021-11-18 2022-11-11 作業認識装置、作業認識方法、及び作業認識プログラム WO2023090274A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280073889.9A CN118215945A (zh) 2021-11-18 2022-11-11 作业识别装置、作业识别方法以及作业识别程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021188165A JP2023074948A (ja) 2021-11-18 2021-11-18 作業認識装置、作業認識方法、及び作業認識プログラム
JP2021-188165 2021-11-18

Publications (1)

Publication Number Publication Date
WO2023090274A1 true WO2023090274A1 (ja) 2023-05-25

Family

ID=86396955

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/042142 WO2023090274A1 (ja) 2021-11-18 2022-11-11 作業認識装置、作業認識方法、及び作業認識プログラム

Country Status (3)

Country Link
JP (1) JP2023074948A (ja)
CN (1) CN118215945A (ja)
WO (1) WO2023090274A1 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010036762A (ja) * 2008-08-06 2010-02-18 Denso Corp 行動推定装置、プログラム
JP6444573B2 (ja) 2016-11-09 2018-12-26 三菱電機株式会社 作業認識装置および作業認識方法
JP2019012328A (ja) 2017-06-29 2019-01-24 株式会社 日立産業制御ソリューションズ 人行動推定システム
WO2020121973A1 (ja) * 2018-12-10 2020-06-18 株式会社小糸製作所 物体識別システム、演算処理装置、自動車、車両用灯具、分類器の学習方法
US20200311973A1 (en) * 2019-03-28 2020-10-01 Adobe Inc. Multi-axis Equal Spacing Smart Guides
JP2020188860A (ja) * 2019-05-20 2020-11-26 オムロン株式会社 登山者支援装置、システム、方法、およびプログラム
JP2021033510A (ja) * 2019-08-21 2021-03-01 いすゞ自動車株式会社 運転支援装置
JP2021056717A (ja) * 2019-09-30 2021-04-08 アイシン精機株式会社 物体検知装置
JP2021056968A (ja) * 2019-10-02 2021-04-08 アイシン精機株式会社 物体判定装置
JP2021188165A (ja) 2020-05-29 2021-12-13 学 林 マスク呼吸補助器具

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010036762A (ja) * 2008-08-06 2010-02-18 Denso Corp 行動推定装置、プログラム
JP6444573B2 (ja) 2016-11-09 2018-12-26 三菱電機株式会社 作業認識装置および作業認識方法
JP2019012328A (ja) 2017-06-29 2019-01-24 株式会社 日立産業制御ソリューションズ 人行動推定システム
WO2020121973A1 (ja) * 2018-12-10 2020-06-18 株式会社小糸製作所 物体識別システム、演算処理装置、自動車、車両用灯具、分類器の学習方法
US20200311973A1 (en) * 2019-03-28 2020-10-01 Adobe Inc. Multi-axis Equal Spacing Smart Guides
JP2020188860A (ja) * 2019-05-20 2020-11-26 オムロン株式会社 登山者支援装置、システム、方法、およびプログラム
JP2021033510A (ja) * 2019-08-21 2021-03-01 いすゞ自動車株式会社 運転支援装置
JP2021056717A (ja) * 2019-09-30 2021-04-08 アイシン精機株式会社 物体検知装置
JP2021056968A (ja) * 2019-10-02 2021-04-08 アイシン精機株式会社 物体判定装置
JP2021188165A (ja) 2020-05-29 2021-12-13 学 林 マスク呼吸補助器具

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAOQING RENKAIMING HEROSS GIRSHICKJIAN SUN, FASTER R-CNN: TOWARDS REAL-TIME OBJECT DETECTION WITH REGION PROPOSAL NETWORKS
ZHE CAOGINES HIDALGOTOMAS SIMONSHIH-EN WEIYASER SHEIKH: "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", IEEE TRANSACTIONS, pages 9869 - 9878

Also Published As

Publication number Publication date
JP2023074948A (ja) 2023-05-30
CN118215945A (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
Wan et al. Teaching robots to do object assembly using multi-modal 3d vision
CN114097004A (zh) 基于视觉嵌入的自主任务性能
WO2019080228A1 (zh) 控制机器人抓取物体的方法和装置
Chen et al. Projection-based augmented reality system for assembly guidance and monitoring
Wang et al. Immersive human–computer interactive virtual environment using large-scale display system
Schroder et al. Hand-object interaction detection with fully convolutional networks
Moutinho et al. Deep learning-based human action recognition to leverage context awareness in collaborative assembly
JP2020077231A (ja) 位置検出プログラム、位置検出方法及び位置検出装置
Paterson et al. Gesture-controlled robotic arm utilizing OpenCV
CN114332927A (zh) 课堂举手行为检测方法、系统、计算机设备和存储介质
Tu et al. Posefusion: Robust object-in-hand pose estimation with selectlstm
WO2023090274A1 (ja) 作業認識装置、作業認識方法、及び作業認識プログラム
Gao et al. Parallel dual-hand detection by using hand and body features for robot teleoperation
Grzejszczak et al. Robot manipulator teaching techniques with use of hand gestures
Sahu et al. Shape features for image-based servo-control using image moments
Wang et al. Hand gesture recognition and motion estimation using the kinect sensor
CN115552487A (zh) 人体躺姿检测方法及使用该方法的移动机器
Skoviera et al. Teaching robots to imitate a human with no on-teacher sensors. what are the key challenges?
WO2021192024A1 (ja) 作業管理装置及び作業状態判定方法
US20230264367A1 (en) Visuotactile operators for proximity sensing and contact control
JP2021086218A (ja) 協調作業システム、解析装置および解析プログラム
Muratov et al. Hand Gesture Recognition for Non-Contact Control of a Technical System
Shin et al. Deep Learning-based Hand Pose Estimation from 2D Image
JP6877072B1 (ja) 領域抽出装置、領域抽出方法、及び領域抽出プログラム
Sigalas et al. Visual estimation of attentive cues in HRI: the case of torso and head pose

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22895556

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280073889.9

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022895556

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022895556

Country of ref document: EP

Effective date: 20240618