WO2023195305A1 - 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム - Google Patents

情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム Download PDF

Info

Publication number
WO2023195305A1
WO2023195305A1 PCT/JP2023/009509 JP2023009509W WO2023195305A1 WO 2023195305 A1 WO2023195305 A1 WO 2023195305A1 JP 2023009509 W JP2023009509 W JP 2023009509W WO 2023195305 A1 WO2023195305 A1 WO 2023195305A1
Authority
WO
WIPO (PCT)
Prior art keywords
key point
point detection
detection results
information processing
frames
Prior art date
Application number
PCT/JP2023/009509
Other languages
English (en)
French (fr)
Inventor
朋和 小幡
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Publication of WO2023195305A1 publication Critical patent/WO2023195305A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to an information processing device, an information processing program, a machine learning device, and a machine learning program.
  • Japan life expectancy has become noticeably longer due to improved living standards, improved sanitary environments, and improved medical standards due to post-war high economic growth. For this reason, combined with a decline in the birth rate, Japan has become an aging society with a high aging rate.
  • care recipients the number of care recipients (hereinafter referred to as "care recipients") who require nursing care due to illness, injury, aging, etc. is expected to increase.
  • facilities such as hospitals and welfare facilities for the elderly (hereinafter simply referred to as "facilities"), caregivers, nurses, etc. (hereinafter referred to as "care staff”) provide care, etc. to people receiving care. There is.
  • the care recipient when photographing the care recipient with a camera, depending on the location of the care recipient in the room, the care recipient may be hidden behind other people in the room such as care staff or objects such as the bed or chair provided.
  • the person being cared for may be completely or partially undetectable due to the person being hidden (occlusion).
  • Patent Document 2 a technology has been disclosed that recognizes an object by complementing the occluded parts from an image taken with some parts of the object occluded.
  • Patent Document 3 a technique for interpolating missing portions in an image has been disclosed.
  • a keypoint acquisition unit that acquires keypoint detection results for multiple frames of the detection target, and complements undetected keypoints in the keypoint detection results using the keypoint detection results for the multiple frames.
  • An information processing device comprising: a complementing unit that performs
  • the key point acquisition unit acquires key point detection results in a video including images of a plurality of temporally continuous frames, and the complementation unit uses the key point detection results in the video to The information processing device according to (1) above, which complements undetected key points in the information processing device.
  • the key point detection result is a detection result of a plurality of joint points or a detection result of skeletal information including joint points and nodes connecting the joint points. information processing equipment.
  • the complementation unit inputs key point detection results for multiple frames including missing frames in which at least some key points are missing and correct data corresponding to the key point detection results into a learning model,
  • the information processing device according to (1) or (2) above, which complements undetected key points in the key point detection results using a learned model that is machine-trained using the correct data as a target.
  • the learning model according to (8) above is a generative model that extracts feature amounts from the key point detection results and reconstructs undetected key points based on the extracted feature amounts.
  • Information processing device
  • the learning model is a transformer model that uses the key point detection results for the plurality of frames as an input sequence and uses the reconstructed key point detection results for the plurality of frames as the inference result, as described in (8) above. information processing equipment.
  • a reception unit that receives key point detection results for a plurality of frames including a missing frame in which at least some key points are missing and correct data corresponding to the key point detection results;
  • a machine learning device comprising: a learning unit that inputs a key point detection result and the correct answer data to a learning model, and generates a learned model by performing machine learning on the learning model using the correct answer data as a target.
  • a computer executes step (b) of inputting the key point detection results and the correct data into a learning model, and performing machine learning on the learning model using the correct data as a target.
  • FIG. 1 is a diagram illustrating a schematic configuration of an information processing system according to an embodiment of the present invention.
  • 2 is a block diagram illustrating a schematic configuration of the photographing device shown in FIG. 1.
  • FIG. FIG. 2 is a block diagram illustrating a schematic configuration of the server shown in FIG. 1.
  • FIG. 2 is a block diagram illustrating a schematic configuration of a mobile terminal shown in FIG. 1.
  • FIG. FIG. 2 is a functional block diagram illustrating the functions of a control unit when the server shown in FIG. 1 functions as an information processing device.
  • 6 is a diagram illustrating an image including a plurality of frames (A) to (F) acquired by the image acquisition unit shown in FIG. 5.
  • FIG. 2 is a flowchart illustrating a processing procedure of an information processing method in the server (control unit) shown in FIG. 1.
  • FIG. 7 is a schematic diagram illustrating a key point detection result of an image including multiple frames shown in FIG. 6.
  • FIG. 7 is a diagram illustrating the estimation results of the posture, the number of people, and the behavior estimated based on the supplemented key point detection results.
  • FIG. 7 is a schematic diagram illustrating a supplemented key point detection result.
  • FIG. 2 is a functional block diagram illustrating the functions of a control unit when the server shown in FIG. 1 functions as a machine learning device.
  • 13 is a flowchart illustrating a processing procedure of a learning method in the machine learning device shown in FIG. 12.
  • FIG. 12 is a flowchart illustrating a processing procedure of a learning method in the machine learning device shown in FIG. 12.
  • FIG. 1 is a block diagram illustrating a schematic configuration of an information processing system 10 according to an embodiment.
  • the information processing system 10 includes, for example, a photographing device 100, a server 200, a communication network 300, and a mobile terminal 400.
  • the photographing device 100 is connected to a server 200 through a communication network 300 so as to be able to communicate with each other.
  • Mobile terminal 400 may be connected to communication network 300 via access point 310.
  • the server 200 corresponds to a specific example of the information processing apparatus of this embodiment.
  • the imaging device 100 may execute some or all of the functions of the server 200, which will be described later.
  • the photographing device 100 may constitute an information processing device alone or together with the server 200.
  • FIG. 2 is a block diagram illustrating a schematic configuration of the imaging device 100 shown in FIG. 1.
  • the photographing device 100 includes a control section 110, a communication section 120, and a camera 130, which are interconnected by a bus 101.
  • At least one imaging device 100 is installed, for example, on the ceiling or wall of the room of the care recipient 510. In the following, a case will be described in which one photographing device 100 is installed on the ceiling, but the number is not limited to one.
  • the control unit 110 is configured with a CPU (Central Processing Unit), and memories such as RAM (Random Access Memory) and ROM (Read Only Memory), and controls each part of the imaging device 100 according to an information processing program. Performs calculation processing.
  • CPU Central Processing Unit
  • memories such as RAM (Random Access Memory) and ROM (Read Only Memory)
  • the control unit 110 transmits a plurality of frames of images (for example, the image 500 in FIG. 6 described below) obtained by photographing a predetermined area with the camera 130 to the server 200 or the like through the communication unit 120.
  • the predetermined area is, for example, a three-dimensional area that includes the entire floor of the room of the care recipient 510 (FIG. 1).
  • the communication unit 120 includes, for example, an interface circuit (for example, a LAN card, etc.) for communicating with the mobile terminal 400 and the like via the communication network 300.
  • an interface circuit for example, a LAN card, etc.
  • the camera 130 is, for example, a wide-angle camera.
  • the camera 130 is installed at a position overlooking a predetermined area, specifically, on the ceiling of the room of the care recipient 510, and photographs the predetermined area.
  • the care recipient 510 is, for example, a person who requires care or nursing by care staff.
  • Camera 130 may be a standard camera with a narrower angle of view than a wide-angle camera.
  • the camera 130 will be explained as a wide-angle camera.
  • the image captured by the camera 130 may include the person being cared for 510, the care staff, and the object.
  • the objects include, for example, a bed 610, a wheelchair 620, and the like.
  • Images captured by camera 130 include still images and moving images.
  • the camera 130 is, for example, a near-infrared camera, which emits near-infrared rays toward a photographing area using an LED (Light Emitting Device), and uses a CMOS (Complete Metal Oxide Semiconductor) to capture near-infrared light reflected by an object within the photographing area. ) A predetermined area can be photographed by receiving light with a sensor.
  • CMOS Compplete Metal Oxide Semiconductor
  • FIG. 3 is a block diagram illustrating a schematic configuration of the server 200 shown in FIG. 1.
  • Server 200 includes a control section 210, a communication section 220, and a storage section 230.
  • Each component of the server 200 is interconnected by a bus 201.
  • the basic configurations of the control section 210 and communication section 220 are the same as those of the control section 110 and communication section 120 of the above-mentioned photographing device 100, so a redundant explanation will be omitted.
  • the specific functions of the control unit 210 will be described later.
  • the storage unit 230 is configured of, for example, RAM, ROM, SSD (Solid State Drive), and the like.
  • the SSD stores, for example, programs such as information processing programs and learned models to be described later.
  • FIG. 4 is a block diagram illustrating a schematic configuration of mobile terminal 400 shown in FIG. 1.
  • Mobile terminal 400 includes a control section 410, a wireless communication section 420, a display section 430, an input section 440, and an audio input/output section 450. Each component is interconnected by a bus 401.
  • the mobile terminal 400 may be configured by, for example, a communication terminal device such as a tablet computer, a smartphone, or a mobile phone.
  • the control unit 410 has the same basic configuration as the control unit 110 of the photographing device 100, such as a CPU, RAM, and ROM.
  • the wireless communication unit 420 has a function of performing wireless communication according to standards such as Wi-Fi and Bluetooth (registered trademark), and wirelessly communicates with each device via the access point 310 or directly. Wireless communication unit 420 receives event notifications from server 200.
  • the display section 430 and the input section 440 are touch panels, and a touch sensor as the input section 440 is provided on the display surface of the display section 430 made of liquid crystal or the like.
  • the display unit 430 displays the behavior of the care recipient 510 received from the server 200.
  • the behavior of the care recipient 510 may be displayed by displaying the event notification described above.
  • the audio input/output unit 450 includes, for example, a speaker and a microphone. This voice input/output unit 450 enables voice communication between care staff members with other mobile terminals 400 via the wireless communication unit 420.
  • the image acquisition unit 211 acquires multiple frames of images of a predetermined area.
  • FIG. 6 is a diagram illustrating an image 500 including multiple frames (A) to (F) acquired by the image acquisition unit 211.
  • the image 500 may be, for example, a moving image shot sequentially (at times t1, t2, t3, t4, t5, and t6) by the shooting device 100 in a living room.
  • the image acquisition unit 211 acquires the image 500 from the photographing device 100 by receiving the image 500 through the communication unit 220, for example. If the image 500 photographed by the photographing device 100 is stored in advance in the storage unit 230 or the like, the image acquisition unit 211 may acquire the image 500 by reading it from the storage unit 230 or the like. Note that the image 500 captured by the imaging device 100 may be stored in an external storage device or the like. Further, the image 500 acquired by the image acquisition unit 211 may be, for example, an image subjected to batch processing, or the image acquisition unit 211 may acquire the image 500 offline.
  • the key point detection unit 212 detects key points of each of the care recipient 510 and the care staff 520 as detection targets from the image 500 including multiple frames of images acquired by the image acquisition unit 211, and uses the key point detection result as a key point detection result. Output. Alternatively, the key point detection unit 212 can also receive key point detection results for multiple frames to be detected from outside the server 200. The key point detection unit 212 functions as a key point acquisition unit.
  • the number of frames in the keypoint detection results obtained by the keypoint detection unit 212 is not fixed, but can be changed depending on the complementation method by the complementation unit 213.
  • the key point detection unit 212 may be configured to change the number of frames depending on the processing method of the complementation unit 213, which will be described later. Further, the configuration may be such that the user arbitrarily sets the number of frames.
  • the number of frames can be set according to the configuration of the learned model.
  • the trained model is an auto-encoder (AE) or a variational auto-encoder (VAE) that reconstructs key points
  • the number of frames required for feature extraction is set. sell.
  • the learned model is a transformer model
  • the number of frames required for the input sequence can be set.
  • the complementation unit 213 performs the complementation process using a method other than machine learning, the number of frames suitable for the complementation process is set.
  • the key points 700 are, for example, two of the characteristic points (joint points) 710 such as the eyes, nose, neck, shoulders, elbows, wrists, hips, knees, and ankles of the care recipient 510 and the care staff 520. May include dimensions or three-dimensional coordinates.
  • the key point detection result may be a detection result of a plurality of joint points 710 or a detection result of skeleton information including a plurality of joint points 710 and a node 720 connecting the joint points 710.
  • the key point detection unit 212 can detect the key points 700 of each of the care recipient 510 and the care staff 520 using a known method such as OpenPose (https://arxiv.org/abs/1812.08008). .
  • OpenPose is software that can detect key points of multiple people at the same time.
  • the key point detection unit 212 performs object detection (person detection) on the image 500, and estimates the posture of each of the detected care recipients 510 and care staff 520 individually.
  • 700 may be configured to detect 700.
  • the key point detection unit 212 estimates the person rectangles 730 of the care recipient 510 and the care staff 520 from the image 500, and estimates the key points 700 for each of the estimated person rectangles 730. and obtain a person rectangle 730.
  • the person rectangle 730 is an area that includes the key points 700 of the care recipient 510 or the care staff 520 in the image 500, and can reflect the position, size, and posture of the care recipient 510 and the care staff 520, respectively.
  • the key point 700 is two-dimensional data and does not have information regarding depth (height)
  • the person (care recipient 510 and The appearance of the care staff 520) changes.
  • the person in the foreground appears large, while the person in the background appears small.
  • the person rectangle 730 representing the size of the person in addition to the key point 700, it is possible to cope with changes in the apparent size depending on the position in the depth direction.
  • the key point 700 is three-dimensional data and has information regarding depth (height)
  • there is no need to display a human rectangle because the visibility is not affected by the position in the depth direction.
  • the human rectangle 730 can be estimated, for example, using a trained model of a neural network that is trained in advance to estimate a human rectangle from an image.
  • trained models for estimating a human rectangle from an image include R-CNN, Fast R-CNN, Faster R-CNN (https://arxiv.org/abs/1506.01497), and YOLO (https://arxiv. org/abs/1506.02640), SSD (https://arxiv.org/abs/1512.02325), etc. may be used.
  • the keypoint acquisition unit 112 acquires the keypoint detection result by detecting it from the image 500 or by receiving it from the outside. Further, the key point acquisition unit 112 can also acquire the human rectangle 730 that includes the key point 700 by estimating or receiving it from the outside.
  • the complementation unit 213 complements undetected (that is, missing) keypoints in the keypoint detection results using the keypoint detection results for multiple frames of the detection target, so that the undetected keypoints are complemented.
  • the key point detection results are transmitted to the output unit 217 as complementary results.
  • the complementation unit 213 uses the keypoint detection results for the image 500 including images for multiple frames to complement undetected keypoints in the keypoint detection results.
  • the complementation unit 213 inputs the key point detection results for multiple frames of detection targets into a trained model, and uses the trained model to detect undetected key points in the key point detection results.
  • the trained model inputs the key point detection results for multiple frames, including missing frames in which at least some key points are missing, and the correct data corresponding to the key point detection results into the learning model, and then inputs the correct data. Generated by machine learning as a goal.
  • the complementation unit 213 may be configured to complement undetected key points using the learned model learned by the transformer.
  • the learning model may be a Transformer model that uses key point detection results for a plurality of frames as an input sequence and uses reconstructed key point detection results as an inference result.
  • the transformer model is a trained model that has been subjected to machine learning in advance for the task of inferring undetected key points in the key point detection results.
  • key point detection results for multiple frames, including missing frames where at least some key points are missing, and correct answer data corresponding to the key point detection results are input to a learning model (transformer model), and the correct answer is
  • a trained model is generated by machine learning using data as a goal.
  • complementation method by the complementation unit 213 is not limited to the method of performing complementation processing using such machine learning.
  • the posture estimating unit 214 estimates the posture of each person (the care recipient 510 and/or the care staff 520) in the specific image of the image 500, using the complementation result by the complementation unit 213.
  • the posture estimation result is transmitted to the output unit 217.
  • the number of people estimating unit 215 estimates the number of people included in the specific image of the image 500 using the interpolation result. The result of estimating the number of people is transmitted to the output unit 217.
  • the output unit 217 outputs the complementation result.
  • the output unit 217 outputs the estimation results of the posture, the number of people, and the behavior. Details of these estimation results will be described later.
  • FIG. 8 is a flowchart illustrating the processing procedure of the information processing method in the server shown in FIG. Note that when part or all of the functions shown in FIG. 8 are executed by the imaging device 100, this flowchart may be executed by the control unit 110 of the imaging device 100 according to an information processing program.
  • FIG. 9 is a schematic diagram illustrating a key point detection result of an image including a plurality of frames shown in FIG. 6.
  • FIG. 10 is a diagram illustrating the estimation results of posture, number of people, and actions estimated based on the complementation results
  • FIG. 11 is a schematic diagram illustrating the complementation results.
  • an image taken inside the living room is acquired (step S101).
  • the image acquisition unit 211 acquires the image 500 by receiving image data of the interior of the living room from the photographing device 100.
  • key point detection results for multiple frames to be detected are obtained (step S102).
  • the key point detection unit 212 detects key points from the image 500 and obtains key point detection results for a plurality of frames.
  • frames (C) and (D) in FIG. 9 the legs or lower body of the person to be cared for 510 are hidden behind the care staff 520, so some key points of the person to be cared for 510 are not detected.
  • the frame shown in FIG. 5E since almost the whole body of the care recipient 510 is hidden behind the care staff 520, all key points of the care recipient 510 are not detected.
  • step S103 undetected key points in the key point detection results are complemented.
  • the complementation unit 213 uses the keypoint detection results for a plurality of frames to complement undetected keypoints in the keypoint detection results using the trained model.
  • the complementing unit 213 uses the key point detection results of the five frames (A) to (F) in FIG. Complement the key points.
  • the posture estimation unit 214 estimates the posture of each of the care recipient 510 and the care staff 520 using the complementary results. For example, in frames (A) and (B), it is estimated that the care recipient 510 is in a "sitting position" and the care staff 520 is in a "standing position". On the other hand, in frames (C) and (D) in which the key points are complemented, the posture of the care recipient 510 is “sitting” and the posture of the care staff 520 is estimated to be “standing (crouching)”. . Furthermore, in the frame (E) in which the key points are complemented, it is estimated that the posture of the care recipient 510 is "sitting position” and the posture of the care staff 520 is “standing position (bending forward)". Furthermore, in frame (F), the posture of the care recipient 510 is “sitting” and the care recipient 510 is the only person in the living room, so the posture of the care staff 520 is not estimated.
  • the behavior estimation unit 216 estimates the behavior of the care staff 520 using the complementary results. For example, in frames (A) and (B), the behavior of the care staff 520 is estimated to be “nursing care.” Furthermore, in frames (C) to (E) in which the key points are complemented, the behavior of the care staff 520 is also estimated to be “nursing care.” On the other hand, in frame (F), since only the person to be cared for 510 is in the living room, the behavior of the care staff 520 is estimated to be "non-nursing".
  • FIG. 12 is a functional block diagram illustrating the functions of the control unit 210 when the server 200 shown in FIG. 1 functions as a machine learning device
  • FIG. 13 is a functional block diagram illustrating the processing procedure of the learning method in the machine learning device shown in FIG. This is a flowchart.
  • control section 210 functions as an accepting section 218 and a learning section 219.
  • An outline of the processing procedure of the learning method by the machine learning device and an outline of each function of the receiving unit 218 and the learning unit 219 are as follows.
  • step S201 key point detection results for multiple frames to be detected and correct data corresponding to the key point detection results are received.
  • the plurality of frames may include missing frames in which at least some of the keypoints of the keypoint detection results are missing.
  • the accepting unit 218 accepts learning data consisting of key point detection results and correct answer data from outside the server 200 through the storage unit 230 or the communication unit 220. It is desirable that the learning data be prepared for several thousand to hundreds of thousands of frames, for example.
  • the imaging device 100 may be installed on the ceiling of the room of the care recipient 510. That is, the photographing device 100 photographs a predetermined area of the care recipient 510 from above. Therefore, in some images captured by the imaging device 100, the care recipient 510 and the care staff 520 or objects overlap, so that the care recipient 510 (or the care staff 520 or the object) cannot be detected. , it may be undetected.
  • the care staff 520 when the distance between the care staff 520 and the care recipient 510 is close, such as when the care staff 520 transfers the care recipient 510 from the bed 610 to the wheelchair 620, the field of view of the camera 130 that overlooks the living room from the ceiling is The care recipient 510 may not be detected due to being blocked by the care staff 520. As a result, it is not determined from the image 500 that the care recipient 510 is being cared for by the care staff 520, and an error may occur in the estimation of the care staff 520's behavior.
  • the supplemented key points can be used.
  • the posture and behavior of the care recipient 510 can be estimated.
  • the present invention is not limited to such a case.
  • the present invention can also be applied to the case where undetected key points of the care staff 520 hidden behind the care recipient 510 or undetected key points of the care recipient 510 hidden behind an object are supplemented.
  • the technology can be used to supplement the undetected key points. This improves the accuracy of posture estimation, behavior estimation, and number of people estimation of the detection target.
  • the keypoint detection unit 212 obtains keypoint detection results estimated for multiple frames of still images captured by at least one imaging device 100. For example, the key point detection unit 212 obtains a two-dimensional key point detection result estimated for a plurality of frames of still images captured by one imaging device 100 in a predetermined area. Then, the complementation unit 213 complements undetected keypoints in the keypoint detection results using the two-dimensional keypoint detection results for a plurality of frames. Therefore, there is no need to use a special device such as a motion capture device to measure the positions (three dimensions) of the joint points of the care recipient 510 and the care staff 520.
  • a special device such as a motion capture device to measure the positions (three dimensions) of the joint points of the care recipient 510 and the care staff 520.
  • this embodiment can also be applied to fields where it is difficult to attach a sensor for measuring 3D data to a detection target, such as the nursing care field and the surveillance camera field, and where 3D data of the detection target cannot be obtained.
  • the key point detection unit 212 can also acquire three-dimensional key point detection results estimated for multiple frames of still images captured by two imaging devices 100 in a predetermined area.
  • the key point detection unit 212 can further obtain the human rectangle 730 that includes the key point 700.
  • the apparent size of a person changes depending on the position within the image.
  • the configuration of the information processing system 10 described above is the main configuration described in explaining the features of the above-described embodiment, and is not limited to the above-described configuration, and may be variously modified within the scope of the claims. can. Moreover, the configuration provided in a general information processing system is not excluded.
  • the information processing system 10 includes the imaging device 100, the server 200, the communication network 300, and the mobile terminal 400.
  • terminal (administrator terminal).
  • the administrator terminal may correspond to a part or all of the specific example of the information processing apparatus of the present invention.
  • the means and methods for performing various processes in the information processing system 10 described above can be realized by either a dedicated hardware circuit or a programmed computer.
  • the program may be provided by a computer-readable recording medium such as a USB memory or a DVD (Digital Versatile Disc)-ROM, or may be provided online via a network such as the Internet.
  • the program recorded on the computer-readable recording medium is usually transferred and stored in a storage unit such as a hard disk.
  • the above program may be provided as a standalone application software, or may be incorporated as a function into the software of a server or other device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

ケア対象者を撮影中にケア対象者の全体または一部が他の人や物体の陰に隠れて検出できない場合でも、ケア対象者の姿勢や行動を推定できる情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラムを提供する。情報処理装置200は、キーポイント取得部112および補完部113を有する。キーポイント取得部112は、検出対象の複数フレーム分のキーポイント検出結果を取得する。補完部113は、複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。

Description

情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム
 本発明は、情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラムに関する。
 我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢等により、介護等の対応を必要とする要介護者等(以下、「ケア対象者」と称する)の増加が想定される。病院や老人福祉施設等の施設(以下、単に「施設」と称する)では、介護士や看護師等(以下、「ケアスタッフ」と称する)によってケア対象者へのケア等の対応が行われている。
 また、ケア対象者の増加に伴い、ケアスタッフの負担が増大しており、その負担を軽減するための技術開発が進められている。例えば、ケア対象者の居室にケア対象者の様子を撮影するためのカメラ(例えば、近赤外線カメラ等)を設置し、撮影された画像からケア対象者の姿勢(立位や臥位等)や行動(起床や離床等)を推定する技術が知られている(例えば、特許文献1)。
 しかし、ケア対象者をカメラにより撮影する際に、居室内のケア対象者の位置によっては、ケアスタッフ等の居室内にいる他の人や、備え付けのベッド、椅子等の物体の陰にケア対象者が隠れることにより、ケア対象者の全体または一部が検出できない可能性がある(オクルージョン)。
 これに関連して、対象物の一部の部位が遮蔽された状態で撮影された画像から、遮蔽されている部位を補完して対象物を認識する技術が開示されている(特許文献2)。また、画像における欠損している部分を補間する技術が開示されている(特許文献3)。
特開2020-86819号公報 特開2020-135551号公報 国際公開第2019/186833号
 しかしながら、特許文献2の技術においては、対象物の全体がカメラの視野から遮蔽された状態で撮影された画像からは、対象物を認識することはできない。また、特許文献3の技術においても、人物の全体が欠損している画像からは、欠損している部分を補間することはできない。
 本発明は上述の問題を解決するためになされたものである。すなわち、本発明の主な目的は、ケア対象者を撮影中にケア対象者の全体または一部が他の人や物体の陰に隠れて検出できない場合でも、ケア対象者の姿勢や行動を推定できる情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラムを提供することである。
 本発明の上記課題は、以下の手段によって解決される。
 (1)検出対象の複数フレーム分のキーポイント検出結果を取得するキーポイント取得部と、前記複数フレーム分のキーポイント検出結果を使用して、前記キーポイント検出結果の未検出のキーポイントを補完する補完部と、を有する、情報処理装置。
 (2)前記キーポイント取得部は、時間的に連続する複数フレームの画像を含む動画におけるキーポイント検出結果を取得し、前記補完部は、前記動画におけるキーポイント検出結果を使用して、前記動画において未検出のキーポイントを補完する、上記(1)に記載の情報処理装置。
 (3)前記キーポイント取得部は、少なくとも1つの撮影装置によって撮影された複数フレーム分の静止画に対して推定されたキーポイント検出結果を取得する、上記(1)または(2)に記載の情報処理装置。
 (4)前記キーポイント検出結果は、2次元のキーポイントからなる、上記(3)に記載の情報処理装置。
 (5)前記キーポイント取得部は、前記キーポイント検出結果に加えて、キーポイントを内包する矩形をさらに取得する、上記(4)に記載の情報処理装置。
 (6)前記キーポイント検出結果は、複数の関節点の検出結果、または関節点と関節点同士を連結するノードとを含む骨格情報の検出結果である、上記(1)または(2)に記載の情報処理装置。
 (7)前記キーポイント取得部は、前記補完部の処理方法に応じて、取得するキーポイント検出結果のフレーム数を変更する、上記(1)または(2)に記載の情報処理装置。
 (8)前記補完部は、少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と当該キーポイント検出結果に対応する正解データとを学習モデルに入力し、前記正解データを目標として機械学習した学習済みモデルを使用して、前記キーポイント検出結果の未検出のキーポイントを補完する、上記(1)または(2)に記載の情報処理装置。
 (9)前記学習モデルは、前記キーポイント検出結果から特徴量を抽出し、抽出された特徴量に基づいて、未検出のキーポイントを再構成する生成モデルである、上記(8)に記載の情報処理装置。
 (10)前記学習モデルは、前記複数フレーム分のキーポイント検出結果を入力シーケンスとし、再構成された複数フレーム分のキーポイント検出結果を推論結果とするトランスフォーマーモデルである、上記(8)に記載の情報処理装置。
 (11)前記補完部によって補完されたキーポイントを使用して、行動推定を行う行動推定部をさらに有する、上記(1)または(2)に記載の情報処理装置。
 (12)前記補完部によって補完されたキーポイントを使用して、人数推定を行う人数推定部をさらに有する、上記(1)または(2)に記載の情報処理装置。
 (13)前記補完部によって補完されたキーポイントを使用して、姿勢推定を行う姿勢推定部をさらに有する、上記(1)または(2)に記載の情報処理装置。
 (14)前記キーポイント取得部は、前記検出対象の複数フレーム分の画像のキーポイントを検出する、上記(1)または(2)に記載の情報処理装置。
 (15)検出対象の複数フレーム分のキーポイント検出結果を取得する手順(a)と、前記複数フレーム分のキーポイント検出結果を使用して、前記キーポイント検出結果の未検出のキーポイントを補完する手順(b)と、を含む処理をコンピューターに実行させるための情報処理プログラム。
 (16)少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける受け付け部と、前記複数フレーム分のキーポイント検出結果、および前記正解データを学習モデルに入力し、前記正解データを目標として、前記学習モデルを機械学習させることにより学習済みモデルを生成する学習部と、を有する、機械学習装置。
 (17)少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける手順(a)と、前記複数フレーム分のキーポイント検出結果、および前記正解データを学習モデルに入力し、前記正解データを目標として、前記学習モデルを機械学習させることにより学習済みモデルを生成する手順(b)と、をコンピューターに実行させるための機械学習プログラム。
 本発明においては、検出対象の複数フレーム分のキーポイント検出結果を取得し、当該複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。したがって、検出対象の撮影時に検出対象の全体または一部のキーポイントが他の物体等の陰に隠れて検出できない場合でも、未検出のキーポイントを補完できる。これにより、例えば介護の現場において、検出対象としてのケア対象者を撮影中にケア対象者の全体または一部が他の人や物体の陰に隠れて検出できない場合でも、補完されたキーポイント検出結果を使用してケア対象者の姿勢や行動を推定できる。
本発明の一実施形態に係る情報処理システムの概略構成を例示する図である。 図1に示す撮影装置の概略構成を例示するブロック図である。 図1に示すサーバーの概略構成を例示するブロック図である。 図1に示す携帯端末の概略構成を例示するブロック図である。 図1に示すサーバーが情報処理装置として機能する場合における制御部の機能を例示する機能ブロック図である。 図5に示す画像取得部により取得された複数フレーム(A)~(F)を含む画像を例示する図である。 画像からケア対象者またはケアスタッフのキーポイントを検出したキーポイント検出結果を例示する模式図である。 図1に示すサーバー(制御部)における情報処理方法の処理手順を例示するフローチャートである。 図6に示す複数フレームを含む画像のキーポイント検出結果を例示する模式図である。 補完されたキーポイント検出結果に基づいて推定された姿勢、人数、および行動の推定結果を例示する図である。 補完されたキーポイント検出結果を例示する模式図である。 図1に示すサーバーが機械学習装置として機能する場合における制御部の機能を例示する機能ブロック図である。 図12に示す機械学習装置における学習方法の処理手順を例示するフローチャートである。
 以下、図面を参照して、本発明の実施形態に係る情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラムについて説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 <実施形態>
 [情報処理システム10の全体構成]
 図1は、一実施形態に係る情報処理システム10の概略構成を例示するブロック図である。情報処理システム10は、例えば、撮影装置100、サーバー200、通信ネットワーク300、および携帯端末400を含んでいる。撮影装置100は、通信ネットワーク300によりサーバー200と相互に通信可能に接続されている。携帯端末400は、アクセスポイント310を介して通信ネットワーク300と接続されうる。サーバー200は、本実施形態の情報処理装置の一具体例に対応する。なお、後述するサーバー200の機能の一部または全部を撮影装置100が実行するようにしてもよい。この場合、撮影装置100が単独で、またはサーバー200とともに情報処理装置を構成しうる。
 (撮影装置100)
 図2は、図1に示す撮影装置100の概略構成を例示するブロック図である。撮影装置100は、制御部110、通信部120、およびカメラ130を有し、これらはバス101によって相互に接続されている。撮影装置100は、例えば、ケア対象者510の居室の天井や壁等に少なくとも1つ設置されている。以下では、撮影装置100が天井に1つ設置されている場合について例示するが、その個数は1つに限定されない。
 制御部110は、CPU(Central Processing Unit)、およびRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリにより構成され、情報処置プログラムに従って撮影装置100の各部の制御および演算処理を行う。
 制御部110は、カメラ130が所定領域を撮影することにより得られる複数フレーム分の画像(例えば、後述の図6の画像500)を、通信部120によりサーバー200等へ送信する。所定領域は、例えばケア対象者510(図1)の居室の床面全体を含む3次元の領域である。
 通信部120は、例えば、通信ネットワーク300を介して、携帯端末400等と通信するためのインターフェース回路(例えばLANカード等)を含んでいる。
 カメラ130は、例えば広角カメラである。カメラ130は、所定領域を俯瞰する位置、具体的には、ケア対象者510の居室の天井等に設置され、当該所定領域を撮影する。ケア対象者510は、例えばケアスタッフにより介護または看護を必要とする者である。カメラ130は、広角カメラより画角が狭い標準カメラであってもよい。
 以下、説明を簡単にするために、カメラ130は、広角カメラであるものとして説明する。カメラ130により撮影される画像には、ケア対象者510、ケアスタッフ、および物体が含まれうる。物体には、例えば、ベッド610、車椅子620等が含まれる。カメラ130により撮影される画像には、静止画および動画が含まれる。
 カメラ130は、例えば近赤外線カメラであり、LED(Light Emitting Device)により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をCMOS(Complememtary Metal Oxide Semiconductor)センサーにより受光することにより所定領域を撮影しうる。
 カメラ130により撮影される画像は、近赤外線の反射率を各画素とするモノクロ画像でありうる。撮影装置100は、例えば15fps~30fpsのフレームレートの、時間的に連続する複数の撮影画像(フレーム)からなる動画として撮影領域を撮影しうる。また、カメラ130は、近赤外線カメラの代わりに可視光カメラを用いてもよく、これらを併用してもよい。
 (サーバー200)
 図3は図1に示すサーバー200の概略構成を例示するブロック図である。サーバー200は、制御部210、通信部220、および記憶部230を有する。サーバー200の各構成要素は、バス201によって、相互に接続されている。
 制御部210および通信部220の基本構成は、上記撮影装置100の制御部110および通信部120と同様であるため、重複する説明は省略する。制御部210の具体的な機能については、後述する。記憶部230は、例えば、RAM、ROM、SSD(Solid State Drive)等により構成される。SSDには、例えば、情報処理プログラム等のプログラム、後述する学習済みモデルが記憶される。
 (携帯端末400)
 図4は、図1に示す携帯端末400の概略構成を例示するブロック図である。携帯端末400は、制御部410、無線通信部420、表示部430、入力部440、および音声入出力部450を有している。各構成要素は、バス401により相互に接続されている。携帯端末400は、例えば、タブレット型コンピューター、スマートフォン、または携帯電話等の通信端末機器によって構成されうる。制御部410は、撮影装置100の制御部110の構成と同様に、CPU、RAM、ROM等の基本構成を備える。
 無線通信部420は、Wi-FiおよびBluetooth(登録商標)等の規格による無線通信を行う機能を有し、アクセスポイント310を経由して、または直接に各装置と無線通信する。無線通信部420は、イベント通知をサーバー200から受信する。
 表示部430および入力部440は、タッチパネルであり、液晶等で構成される表示部430の表示面に、入力部440としてのタッチセンサーが設けられる。表示部430は、サーバー200から受信したケア対象者510の行動を表示する。ケア対象者510の行動は、上述したイベント通知を表示することにより表示されてもよい。
 音声入出力部450は、例えばスピーカーおよびマイクを含んでいる。この音声入出力部450は、無線通信部420を介して他の携帯端末400との間でケアスタッフ相互間の音声通話を可能にする。
 [サーバー200の機能]
 次に、サーバー200、具体的には制御部210の機能について説明する。図5は、サーバー200が情報処理装置として機能する場合における制御部210の機能を例示する機能ブロック図である。制御部210は、例えば、画像取得部211、キーポイント検出部212、補完部213、姿勢推定部214、人数推定部215、行動推定部216、および出力部217として機能する。
 画像取得部211は、所定領域が撮影された複数フレーム分の画像を取得する。図6は、画像取得部211により取得された複数フレーム(A)~(F)を含む画像500を例示する図である。画像500は、例えば、居室において順次(時刻t1,t2,t3,t4,t5,t6)撮影装置100により撮影された動画でありうる。
 同図は、例えば介護の現場において、ケアスタッフ520がケア対象者510を車椅子530に移乗させる介護の様子を例示する。より具体的には、フレーム(A),(B)においてケアスタッフ520がケア対象者510の近くへ移動し、(C)においてケアスタッフ520がケア対象者510に車椅子530への移乗を説明し、(D),(E)において移乗を行い、(F)において車椅子530への移乗が完了する。
 画像取得部211は、例えば、撮影装置100から画像500を通信部220により受信することにより取得する。撮影装置100により撮影された画像500が予め記憶部230等に記憶されている場合は、画像取得部211は、画像500を記憶部230等から読み出すことにより取得してもよい。なお、撮影装置100により撮影された画像500は、外部の記憶装置等に記憶されてもよい。また、画像取得部211が取得する画像500は、例えばバッチ処理が施された画像であってもよく、画像取得部211はオフラインで画像500を取得してもよい。
 キーポイント検出部212は、画像取得部211によって取得された複数フレームの画像を含む画像500から、検出対象としてケア対象者510およびケアスタッフ520の各々のキーポイントを検出し、キーポイント検出結果として出力する。あるいは、キーポイント検出部212は、検出対象の複数フレーム分のキーポイント検出結果をサーバー200の外部から受け付けることもできる。キーポイント検出部212は、キーポイント取得部として機能する。
 また、キーポイント検出部212によって取得されるキーポイント検出結果のフレーム数は、固定されるものではなく、補完部213による補完方法によって変更されうる。例えば、キーポイント検出部212は、後述する補完部213の処理方法に応じて、フレーム数を変更するように構成されうる。また、ユーザーがフレーム数を任意に設定するように構成されてもよい。
 例えば、後述するように、補完部213が、機械学習された学習済みモデルを使用して補完処理を行う場合は、学習済みモデルの構成に応じて、フレーム数が設定されうる。例えば、学習済みモデルがキーポイントを再構成するオートエンコーダー(AE:Auto-Encoder)または変分オートエンコーダー(VAE:Variational Auto-Encoder)である場合は、特徴量抽出に必要なフレーム数が設定されうる。また、学習済みモデルがトランスフォーマーモデルである場合は、入力シーケンスに必要なフレーム数が設定されうる。また、補完部213が機械学習以外の方法を使用して補完処理を行う場合は、当該補完処理に適したフレーム数が設定される。
 図7に示すように、キーポイント700は、例えばケア対象者510およびケアスタッフ520の目、鼻、首、肩、肘、手首、腰、膝、足首等の特徴点(関節点)710の2次元または3次元座標を含みうる。キーポイント検出結果は、複数の関節点710の検出結果、または複数の関節点710と関節点710同士を連結するノード720とを含む骨格情報の検出結果でありうる。
 キーポイント検出部212は、例えばOpenPose(https://arxiv.org/abs/1812.08008)等の公知の手法を使用して、ケア対象者510およびケアスタッフ520の各々のキーポイント700を検出しうる。OpenPoseは、複数人のキーポイントを同時に検出できるソフトウェアである。
 また、キーポイント検出部212は、画像500に対して物体検出(人物検出)を行い、検出されたケア対象者510およびケアスタッフ520の各々の各領域について個別に姿勢推定を行うことによりキーポイント700を検出するように構成されてもよい。
 例えば、キーポイント検出部212は、画像500からケア対象者510およびケアスタッフ520の人矩形730を各々推定し、推定された各々の人矩形730についてキーポイント700を推定することにより、キーポイント700および人矩形730を取得する。
 人矩形730は、画像500におけるケア対象者510、またはケアスタッフ520のキーポイント700を内包する領域であり、各々ケア対象者510およびケアスタッフ520の位置、大きさ、および姿勢を反映しうる。例えば、キーポイント700が2次元データであり、奥行(高さ)に関する情報を有しない場合、キーポイント700を内包する人矩形を表示させることにより、奥行方向の位置によって人物(ケア対象者510およびケアスタッフ520)の見え方が変化する。すなわち、手前の人物は大きく見える一方で、奥の人物は小さく見える。このように、キーポイント700に加えて、人物のサイズを表す人矩形730を有することにより、奥行方向の位置に応じた見かけの大きさの変化にも対応できる。一方、キーポイント700が3次元データであり、奥行(高さ)に関する情報を有する場合、奥行方向の位置によって見え方の影響を受けないので、人矩形を表示させる必要はない。
 人矩形730は、例えば画像から人矩形を推定するように予め学習されたニューラルネットワークの学習済みモデルを使用して推定されうる。画像から人矩形を推定するための学習済みモデルとして、例えばR-CNN、Fast R-CNN、Faster R-CNN(https://arxiv.org/abs/1506.01497)、YOLO(https://arxiv.org/abs/1506.02640)、SSD(https://arxiv.org/abs/1512.02325)等のモデルが使用されうる。
 キーポイント700は、人矩形からキーポイントを推定するように予め学習されたニューラルネットワークの学習済みモデルを使用して推定される。人矩形からキーポイントを推定するための学習済みモデルとして、例えば、Deep Pose(https://arxiv.org/abs/1312.4659)、ResNet(https://arxiv.org/abs/1512.03385)等のモデルが使用されうる。
 また、キーポイント検出部212は、人物がいない所定領域を撮影装置100により撮影し、背景画像として記憶しておき、人物がいる所定領域を撮影した撮影画像と上記背景画像との差分に基づいて人矩形730を算出するように構成されてもよい(背景差分法)。あるいは、キーポイント検出部212は、撮影画像と、過去の撮影画像の平均との差分に基づいて人矩形730を算出するように構成されてもよい(時間差分法)。
 このように、キーポイント取得部112は、キーポイント検出結果を画像500から検出するか、または外部から受け付けることによって取得する。また、キーポイント取得部112は、キーポイント700を内包する人矩形730を推定、または外部から受け付けることによって取得することもできる。
 補完部213は、検出対象の複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果における未検出の(すなわち欠落している)キーポイントを補完し、未検出キーポイントが補完されたキーポイント検出結果を補完結果として出力部217に伝達する。例えば、補完部213は、複数フレーム分の画像を含む画像500についてのキーポイント検出結果を使用して、当該キーポイント検出結果における未検出のキーポイントを補完する。
 より具体的には、補完部213は、検出対象の複数フレーム分のキーポイント検出結果を学習済みモデルに入力し、当該学習済みモデルを使用して、キーポイント検出結果における未検出のキーポイントを補完する。学習済みモデルは、少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と当該キーポイント検出結果に対応する正解データとを学習モデルに入力し、正解データを目標として機械学習することにより生成される。
 学習モデルは、複数フレーム分のキーポイント検出結果から特徴量を抽出し、抽出された特徴量に基づいて(すなわち、複数フレーム分のキーポイント検出結果の多次元データを入力として)、未検出のキーポイントを再構成する生成モデルでありうる。本実施形態において特徴量は、複数フレーム分の人物の姿勢および位置に関する情報を含む多次元データ(テンソル)である。例えば、生成モデルは、複数フレームにおける人物のキーポイントを入力として、フレーム間における未検出フレームのキーポイントを再構成するAEまたはVAEを使用して実現できる。
 また、補完部213は、トランスフォーマーによって学習された学習済みモデルを使用して、未検出のキーポイント補完するように構成されうる。トランスフォーマーにおいて、学習モデルは、複数フレーム分のキーポイント検出結果を入力シーケンスとして、再構成されたキーポイント検出結果を推論結果とするトランスフォーマー(Transformer)モデルでありうる。例えば、トランスフォーマーモデルは、キーポイント検出結果の未検出のキーポイントを推論するタスクについて予め機械学習を行った学習済みモデルである。トランスフォーマーにおいて、少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と当該キーポイント検出結果に対応する正解データとを学習モデル(トランスフォーマーモデル)に入力し、正解データを目標として機械学習することにより学習済みモデルが生成される。
 なお、補完部213による補完方法は、このような機械学習を使用して補完処理を行う方法に限定されない。
 姿勢推定部214は、補完部213による補完結果を使用して、画像500の特定画像における人物(ケア対象者510および/またはケアスタッフ520)の各々について姿勢を推定する。姿勢の推定結果は、出力部217に伝達される。
 人数推定部215は、補完結果を使用して、画像500の特定画像に含まれる人数を推定する。人数の推定結果は、出力部217に伝達される。
 行動推定部216は、補完結果を使用して、人物(ケア対象者510および/またはケアスタッフ520)の各々について行動を推定する。行動の推定結果は、出力部217に伝達される。
 出力部217は、補完結果を出力する。また、出力部217は、補完結果に加えて、姿勢、人数、および行動の推定結果を出力する。これらの推定結果の詳細については後述する。
 [サーバー200の処理]
 次に、図8~図11を用いて制御部210により実行される処理、すなわち、本発明の情報処理方法の一具体例について説明する。図8は、図1に示すサーバーにおける情報処理方法の処理手順を例示するフローチャートである。なお、図8に示す機能の一部または全部が撮影装置100により実行される場合は、本フローチャートは、情報処理プログラムに従い、撮影装置100の制御部110により実行されてもよい。また、図9は、図6に示す複数フレームを含む画像のキーポイント検出結果を例示する模式図である。また、図10は補完結果に基づいて推定した姿勢、人数、および行動の推定結果を例示する図であり、図11は補完結果を例示する模式図である。
 まず、居室内を撮影した画像を取得する(ステップS101)。画像取得部211は、居室内を撮影した画像データを撮影装置100から受信することにより画像500を取得する。
 次に、検出対象の複数フレーム分のキーポイント検出結果を取得する(ステップS102)。図9に示すように、キーポイント検出部212は、画像500からキーポイントを検出し、複数フレーム分のキーポイント検出結果を取得する。図9におけるフレーム(C)および(D)においては、ケア対象者510の足または下半身がケアスタッフ520の陰に隠れるため、ケア対象者510の一部のキーポイントが未検出である。また、同図(E)に示すフレームおいては、ケア対象者510の概ね全身がケアスタッフ520の陰に隠れるため、ケア対象者510の全部のキーポイントが未検出である。
 次に、キーポイント検出結果の未検出のキーポイントを補完する(ステップS103)。図10に示すように、補完部213は、複数フレーム分のキーポイント検出結果を使用して、学習済みモデルによりキーポイント検出結果の未検出のキーポイントを補完する。補完部213は、例えば、図6における(A)~(F)の5つフレームのキーポイント検出結果を使用して、同図におけるフレーム(C)~(E)におけるケア対象者510の未検出のキーポイントを補完する。
 また、姿勢推定部214は、補完結果を使用して、ケア対象者510およびケアスタッフ520の各々について姿勢を推定する。例えば、フレーム(A),(B)において、ケア対象者510の姿勢は「座位」であり、ケアスタッフ520の姿勢は「立位」であると推定される。一方、キーポイントが補完されたフレーム(C),(D)において、ケア対象者510の姿勢は「座位」であり、ケアスタッフ520の姿勢は「立位(しゃがみ)」であると推定される。また、キーポイントが補完されたフレーム(E)において、ケア対象者510の姿勢は「座位」であり、ケアスタッフ520の姿勢は「立位(前屈)」であると推定される。さらに、フレーム(F)において、ケア対象者510の姿勢は「座位」であり、居室にいるのはケア対象者510のみであるため、ケアスタッフ520の姿勢は推定されない。
 また、人数推定部215は、補完結果を使用して、画像500特定画像に含まれる人数を推定する。フレーム(A),(B)において、ケア対象者510およびケアスタッフ520の2人がいるため人数の推定結果は「2人」となる。また、キーポイントが補完されたフレーム(C)~(E)においても、人数の推定結果は「2人」となる。一方、フレーム(F)において、居室にいるのはケア対象者510のみであるため、人数の推定結果は「1人」となる。
 また、行動推定部216は、補完結果を使用して、ケアスタッフ520の行動を推定する。例えば、フレーム(A),(B)において、ケアスタッフ520の行動は「介護」であると推定される。また、キーポイントが補完されたフレーム(C)~(E)においても、ケアスタッフ520の行動は「介護」であると推定される。一方、フレーム(F)において、居室にいるのはケア対象者510のみであるため、ケアスタッフ520の行動は「非介護」であると推定される。
 次に、補完結果を出力する(ステップS104)。図11に示すように、出力部217は、例えば、補完結果をディスプレイに表示する。同図においては、ケア対象者510の補完されたキーポイントを見易くするため、ケアスタッフ520の輪郭線を破線で示すとともに、キーポイントも併せて示している、また、出力部217は、補完結果に加えて、図10に示す姿勢の推定結果、人数の推定結果、および行動の推定結果を表示することもできる。
 このように、図8に示すフローチャートの処理においては、制御部210は、検出対象の複数フレーム分のキーポイント検出結果を取得し、複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。また、出力部217は、補完結果、および補完結果に基づく推定結果等を出力する。
 (機械学習装置)
 次に、図10に示す学習済みモデルを生成する機械学習装置について説明する。図12は図1に示すサーバー200が機械学習装置として機能する場合における制御部210の機能を例示する機能ブロック図であり、図13は図12に示す機械学習装置における学習方法の処理手順を例示するフローチャートである。
 図12に示すように、制御部210は、受け付け部218、および学習部219として機能する。機械学習装置による学習方法の処理手順の概要、および受け付け部218、および学習部219の各機能の概要は、以下のとおりである。
 図13に示すように、まず、検出対象の複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける(ステップS201)。複数フレームは、キーポイント検出結果の少なくとも一部のキーポイントが欠落している欠落フレームを含みうる。受け付け部218は、記憶部230、または通信部220を通じてサーバー200の外部から、キーポイント検出結果および正解データからなる学習データを受け付ける。学習データは、例えば数千~数十万フレーム分準備されていることが望ましい。
 次に、学習済みモデルを生成する(ステップS202)。学習部219は、検出対象の複数フレーム分のキーポイント検出結果、および正解データを学習モデルに入力し、正解データを目標として、学習モデルを繰り返し機械学習させることにより学習済みモデルを生成する。生成された学習済みモデルは、記憶部230に記憶される。学習モデルは、上述の生成モデルまたはトランスフォーマーモデルでありうる。
 [情報処理システム10の作用効果]
 上述のように、施設等では、撮影装置100がケア対象者510の居室の天井に設置されていることがある。すなわち、撮影装置100は、ケア対象者510の上方向から所定領域を撮影する。このため、撮影装置100により撮影された一部の画像では、ケア対象者510と、ケアスタッフ520や物体とが重なることにより、ケア対象者510(あるいはケアスタッフ520や物体)を検出できない、すなわち、未検出となることがある。
 例えば、ケアスタッフ520がケア対象者510をベッド610から車椅子620へ移乗させるときのようにケアスタッフ520とケア対象者510との距離が近い場合、天井から居室内を俯瞰するカメラ130の視野がケアスタッフ520により遮られることにより、ケア対象者510を検出できない場合がある。その結果、画像500からはケアスタッフ520によってケア対象者510の介護が行われているように判定されず、ケアスタッフ520の行動推定に誤りが生じる可能性がある。
 本実施形態の情報処理装置、および情報処理プログラムによれば、検出対象の複数フレーム分のキーポイント検出結果を取得し、当該複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。すなわち、従来の関節点補完技術においては、単一の静止画に対してキーポイントを補間するのに対して、本実施形態の情報処理装置、および情報処理プログラムは、複数フレームの画像からなる画像500から検出したキーポイント検出結果に対して未検出のキーポイントを補完する技術である。これにより、撮影対象の人物が撮影装置100から見えない位置にいる場合、すなわち全てのキーポイントが未検出になっているフレームに対してもキーポイントを補完できる。
 したがって、例えば介護の現場において、ケア対象者510を撮影中にケア対象者510の全体または一部が他の人や物体の陰に隠れて検出できない場合でも、補完されたキーポイントを使用してケア対象者510の姿勢や行動を推定できる。なお、以上では、ケアスタッフ520の陰に隠れたケア対象者510の未検出のキーポイントを補完する場合について主に説明したが、本発明はこのような場合に限定されない。本発明は、ケア対象者510の陰に隠れたケアスタッフ520の未検出のキーポイントや、物体の陰に隠れたケア対象者510の未検出のキーポイントを補完する場合についても適用できる。また、介護分野以外でも、監視カメラ分野、スポーツ分野等において、画像から姿勢推定を行った際に人物の未検出が発生した場合でも、当該技術を用いることにより未検出のキーポイントを補完できる。これにより、検出対象の姿勢推定、行動推定、および人数推定の精度が向上する。
 また、本実施形態では、キーポイント検出部212は、少なくとも1つの撮影装置100によって撮影された複数フレーム分の静止画に対して推定されたキーポイント検出結果を取得する。例えば、キーポイント検出部212は、所定領域を1つの撮影装置100によって撮影された複数フレーム分の静止画に対して推定された2次元のキーポイント検出結果を取得する。そして、補完部213は、複数フレーム分の2次元のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。したがって、モーションキャプチャー等の特殊な装置を使用して、ケア対象者510およびケアスタッフ520の関節点の位置(3次元)を測定する必要がない。そのため、本実施形態は、介護分野や監視カメラ分野等、3次元データを計測するためのセンサーを検出対象に装着することが困難であり、検出対象の3次元データを取得できない分野においても適用できる。一方、キーポイント検出部212は、所定領域を2つの撮影装置100によって撮影された複数フレーム分の静止画に対して推定された3次元のキーポイント検出結果を取得することもできる。
 また、キーポイント検出部212は、キーポイント検出結果に加えて、キーポイント700を内包する人矩形730をさらに取得できる。2次元データの場合、画像内の位置によって人の見かけの大きさが変化する。キーポイント700を内包する人矩形730を同時に取得することにより、見かけの大きさを考慮した2次元データを使用して複数フレーム分のキーポイント検出結果を再構成することができる。
 以上に説明した情報処理システム10の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な情報処理システムが備える構成を排除するものではない。
 例えば、上記実施形態では、情報処理システム10が、撮影装置100、サーバー200、通信ネットワーク300、および携帯端末400を含む例を説明したが、情報処理システム10は、さらに、施設の情報管理者用の端末(管理者端末)を含んでいてもよい。このとき、管理者端末が、本発明の情報処理装置の一部または全部の具体例に対応してもよい。
 また、上述した情報処理システム10における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてサーバーその他の装置のソフトウェアに組み込まれてもよい。
 本出願は、2022年4月8日に出願された日本国特許出願番号2022-064277号に基づいており、その開示内容は、参照により全体として組み入れられている。
  10  情報処理システム、
  100  撮影装置、
  110  制御部、
  120  通信部、
  130  カメラ、
  200  サーバー、
  210  制御部、
  211 画像取得部、
  212 キーポイント検出部、
  213 補完部、
  214 姿勢推定部、
  215 人数推定部、
  216 行動推定部、
  217 出力部、
  218 受け付け部、
  219 学習部、
  220  通信部、
  230  記憶部、
  300  通信ネットワーク、
  400  携帯端末、
  410  制御部、
  420  無線通信部、
  430  表示部、
  440  入力部、
  450  音声入出力部、
  500  画像、
  510  ケア対象者、
  520  ケアスタッフ、
  610  ベッド、
  620  車椅子、
  700  キーポイント、
  710  関節点、
  720  ノード、
  730  人矩形。

Claims (17)

  1.  検出対象の複数フレーム分のキーポイント検出結果を取得するキーポイント取得部と、
     前記複数フレーム分のキーポイント検出結果を使用して、前記キーポイント検出結果の未検出のキーポイントを補完する補完部と、を有する、情報処理装置。
  2.  前記キーポイント取得部は、時間的に連続する複数フレームの画像を含む動画におけるキーポイント検出結果を取得し、
     前記補完部は、前記動画におけるキーポイント検出結果を使用して、前記動画において未検出のキーポイントを補完する、請求項1に記載の情報処理装置。
  3.  前記キーポイント取得部は、少なくとも1つの撮影装置によって撮影された複数フレーム分の静止画に対して推定されたキーポイント検出結果を取得する、請求項1または2に記載の情報処理装置。
  4.  前記キーポイント検出結果は、2次元のキーポイントからなる、請求項3に記載の情報処理装置。
  5.  前記キーポイント取得部は、前記キーポイント検出結果に加えて、キーポイントを内包する矩形をさらに取得する、請求項4に記載の情報処理装置。
  6.  前記キーポイント検出結果は、複数の関節点の検出結果、または関節点と関節点同士を連結するノードとを含む骨格情報の検出結果である、請求項1または2に記載の情報処理装置。
  7.  前記キーポイント取得部は、前記補完部の処理方法に応じて、取得するキーポイント検出結果のフレーム数を変更する、請求項1または2に記載の情報処理装置。
  8.  前記補完部は、少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と当該キーポイント検出結果に対応する正解データとを学習モデルに入力し、前記正解データを目標として機械学習した学習済みモデルを使用して、前記キーポイント検出結果の未検出のキーポイントを補完する、請求項1または2に記載の情報処理装置。
  9.  前記学習モデルは、前記キーポイント検出結果から特徴量を抽出し、抽出された特徴量に基づいて、未検出のキーポイントを再構成する生成モデルである、請求項8に記載の情報処理装置。
  10.  前記学習モデルは、前記複数フレーム分のキーポイント検出結果を入力シーケンスとし、再構成された複数フレーム分のキーポイント検出結果を推論結果とするトランスフォーマーモデルである、請求項8に記載の情報処理装置。
  11.  前記補完部によって補完されたキーポイントを使用して、行動推定を行う行動推定部をさらに有する、請求項1または2に記載の情報処理装置。
  12.  前記補完部によって補完されたキーポイントを使用して、人数推定を行う人数推定部をさらに有する、請求項1または2に記載の情報処理装置。
  13.  前記補完部によって補完されたキーポイントを使用して、姿勢推定を行う姿勢推定部をさらに有する、請求項1または2に記載の情報処理装置。
  14.  前記キーポイント取得部は、前記検出対象の複数フレーム分の画像のキーポイントを検出する、請求項1または2に記載の情報処理装置。
  15.  検出対象の複数フレーム分のキーポイント検出結果を取得する手順(a)と、
     前記複数フレーム分のキーポイント検出結果を使用して、前記キーポイント検出結果の未検出のキーポイントを補完する手順(b)と、を含む処理をコンピューターに実行させるための情報処理プログラム。
  16.  少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける受け付け部と、
     前記複数フレーム分のキーポイント検出結果、および前記正解データを学習モデルに入力し、前記正解データを目標として、前記学習モデルを機械学習させることにより学習済みモデルを生成する学習部と、を有する、機械学習装置。
  17.  少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける手順(a)と、
     前記複数フレーム分のキーポイント検出結果、および前記正解データを学習モデルに入力し、前記正解データを目標として、前記学習モデルを機械学習させることにより学習済みモデルを生成する手順(b)と、をコンピューターに実行させるための機械学習プログラム。
     
PCT/JP2023/009509 2022-04-08 2023-03-13 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム WO2023195305A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-064277 2022-04-08
JP2022064277 2022-04-08

Publications (1)

Publication Number Publication Date
WO2023195305A1 true WO2023195305A1 (ja) 2023-10-12

Family

ID=88242679

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/009509 WO2023195305A1 (ja) 2022-04-08 2023-03-13 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム

Country Status (1)

Country Link
WO (1) WO2023195305A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019186833A1 (ja) * 2018-03-28 2019-10-03 日本電気株式会社 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体
CN110929687A (zh) * 2019-12-10 2020-03-27 山东大学 一种基于关键点检测的多人行为识别系统及工作方法
CN111027481A (zh) * 2019-12-10 2020-04-17 浩云科技股份有限公司 基于人体关键点检测的行为分析方法及装置
JP2020086819A (ja) * 2018-11-22 2020-06-04 コニカミノルタ株式会社 画像処理プログラムおよび画像処理装置
JP2020135551A (ja) * 2019-02-21 2020-08-31 セコム株式会社 対象物認識装置、対象物認識方法、及び対象物認識プログラム
JP2021034015A (ja) * 2019-08-20 2021-03-01 富士通株式会社 ターゲット検索装置及び方法、電子機器
WO2022024294A1 (ja) * 2020-07-30 2022-02-03 三菱電機株式会社 行動特定装置、行動特定方法及び行動特定プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019186833A1 (ja) * 2018-03-28 2019-10-03 日本電気株式会社 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体
JP2020086819A (ja) * 2018-11-22 2020-06-04 コニカミノルタ株式会社 画像処理プログラムおよび画像処理装置
JP2020135551A (ja) * 2019-02-21 2020-08-31 セコム株式会社 対象物認識装置、対象物認識方法、及び対象物認識プログラム
JP2021034015A (ja) * 2019-08-20 2021-03-01 富士通株式会社 ターゲット検索装置及び方法、電子機器
CN110929687A (zh) * 2019-12-10 2020-03-27 山东大学 一种基于关键点检测的多人行为识别系统及工作方法
CN111027481A (zh) * 2019-12-10 2020-04-17 浩云科技股份有限公司 基于人体关键点检测的行为分析方法及装置
WO2022024294A1 (ja) * 2020-07-30 2022-02-03 三菱電機株式会社 行動特定装置、行動特定方法及び行動特定プログラム

Similar Documents

Publication Publication Date Title
JP7271915B2 (ja) 画像処理プログラムおよび画像処理装置
JP7196645B2 (ja) 姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法
US20120194513A1 (en) Image processing apparatus and method with three-dimensional model creation capability, and recording medium
WO2016199495A1 (ja) 行動検知装置、該方法および該プログラム、ならびに、被監視者監視装置
JP6780641B2 (ja) 画像解析装置、画像解析方法、及び、画像解析プログラム
JP2019003554A (ja) 画像認識装置、画像認識方法、および画像認識装置用プログラム
JP2020027405A (ja) 物体検出プログラム、および物体検出装置
KR20220063847A (ko) 대상자의 보행 패턴을 식별하는 방법 및 이를 수행하는 전자 장치
JP2019121045A (ja) 姿勢推定システム、行動推定システム、および姿勢推定プログラム
WO2023195305A1 (ja) 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム
JP7243725B2 (ja) 対象物体検出プログラム、および対象物体検出装置
WO2023189309A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
JP7347577B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
US11937967B2 (en) Automating a medical environment
JP2020134971A (ja) 現場学習評価プログラム、現場学習評価方法、および現場学習評価装置
US20230412919A1 (en) Device and method for controlling a camera
WO2021033453A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP2021033379A (ja) 画像処理システム、画像処理プログラム、および画像処理方法
Jolly et al. Posture Correction and Detection using 3-D Image Classification
WO2021033597A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP2022165483A (ja) 検出装置、検出システム、検出方法、および検出プログラム
US20240164758A1 (en) Systems and methods for generating patient models based on ultrasound images
CN110852932A (zh) 图像处理方法及装置、图像设备及存储介质
JP2023075559A (ja) 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム
JP7435609B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23784598

Country of ref document: EP

Kind code of ref document: A1