WO2021033453A1 - 画像処理システム、画像処理プログラム、および画像処理方法 - Google Patents

画像処理システム、画像処理プログラム、および画像処理方法 Download PDF

Info

Publication number
WO2021033453A1
WO2021033453A1 PCT/JP2020/026877 JP2020026877W WO2021033453A1 WO 2021033453 A1 WO2021033453 A1 WO 2021033453A1 JP 2020026877 W JP2020026877 W JP 2020026877W WO 2021033453 A1 WO2021033453 A1 WO 2021033453A1
Authority
WO
WIPO (PCT)
Prior art keywords
target person
behavior
predetermined
subject
amount
Prior art date
Application number
PCT/JP2020/026877
Other languages
English (en)
French (fr)
Inventor
智也 岡▲崎▼
希武 田中
辰也 佐々木
池田 直樹
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Priority to JP2021540664A priority Critical patent/JP7351339B2/ja
Publication of WO2021033453A1 publication Critical patent/WO2021033453A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • the present invention relates to an image processing system, an image processing program, and an image processing method.
  • Patent Document 1 The following prior art is disclosed in Patent Document 1 below.
  • the monitoring function by the detection unit that detects the predetermined action of the monitored person and notifies the user is stopped based on the information received from the terminal unit. As a result, the monitoring function can be stopped as needed, so that false detections for persons other than the monitored person can be reduced.
  • Patent Document 1 can prevent erroneous detection of the behavior of a person other than the monitored person as the behavior of the monitored person, but cannot improve the detection accuracy of the behavior of the monitored person. There's a problem.
  • the present invention has been made to solve such a problem. That is, it is an object of the present invention to provide an image processing system, an image processing program, and an image processing method that can improve the estimation accuracy of a person's behavior based on a captured image.
  • the first detection unit that detects the movement amount of the target person based on the image including the target person taken by the photographing device, and the feature points related to the body of the target person are specified based on the image.
  • a second detection unit that detects the amount of movement of a predetermined part of the target person based on the specific unit specified by the specific unit, and a predetermined time detected by the first detection unit. Whether the behavior of the target person is included in the predetermined behavior based on the movement amount of the target person and the movement amount of the predetermined part of the target person for the predetermined time detected by the second detection unit. It has a determination unit for determining whether or not, and an output unit for outputting information regarding the behavior of the target person when the determination unit determines that the behavior of the target person is an action included in the predetermined behavior.
  • the determination unit has the predetermined time detected by the first detection unit when the movement amount of the target person for the predetermined time is equal to or less than the first threshold value and is detected by the second detection unit.
  • the image processing system according to (1) above wherein when the movement amount of the predetermined part of the target person is equal to or greater than the second threshold value, the action of the target person is determined to be an action included in the predetermined action.
  • the first detection unit that detects the movement amount of the target person based on the image including the target person taken by the photographing device, and the feature points regarding the body of the target person based on the image.
  • the area of the head is calculated based on the specific portion that identifies the head of the target person and the head specified by the specific portion, and the amount of change in the area of the head is detected.
  • An image processing system including an output unit that outputs information about the behavior of the target person.
  • the determination unit has the predetermined time detected by the first detection unit, in which the movement amount of the target person for the predetermined time is equal to or less than the first threshold value and is calculated by the third detection unit.
  • At least one of the first threshold value and the second threshold value is set according to the position of the target person on the image corresponding to the distance from the photographing device to the target person.
  • At least one of the first threshold value and the third threshold value is set according to the position of the target person on the image corresponding to the distance from the photographing device to the target person.
  • the predetermined portion is a point specified based on some of the feature points among the feature points specified by the specific portion.
  • the photographing device is a wide-angle camera, and the image includes the area photographed by the wide-angle camera installed at a position overlooking a predetermined area, according to the above (1) to (10).
  • the procedure (a) of detecting the movement amount of the target person based on the image including the target person taken by the photographing device, and the feature points related to the body of the target person are specified based on the image.
  • the action of the target person becomes a predetermined action.
  • An image processing program for causing a computer to execute a process having the output procedure (e) and.
  • the area of the head is calculated based on the procedure (g) for identifying the head of the subject and the head specified in the procedure (g), and the amount of change in the area of the head.
  • An image processing program for causing a computer to execute a process having a procedure (j) for outputting information on the behavior of the target person when it is determined that the behavior is included in the behavior.
  • step (d) of determining whether the behavior of the target person is an action included in the predetermined action and in the step (d), it is determined that the behavior of the target person is an action included in the predetermined action.
  • an image processing method having a step (e) of outputting information about the behavior of the target person.
  • the area of the head is calculated based on the step (g) of specifying the head of the subject and the head specified in the step (g), which are characteristic points relating to the body of the subject.
  • the image processing method includes a step (j) of outputting information regarding the behavior of the target person when it is determined that the behavior of the target person is an behavior included in the predetermined behavior.
  • the behavior of the subject based on the amount of movement of the subject detected based on the captured image and the amount of movement of the predetermined part of the subject detected based on the feature points related to the body of the subject identified from the image. Outputs information about the behavior of the target person when it is determined that is included in the predetermined behavior. As a result, the accuracy of estimating the behavior of the person based on the captured image can be improved.
  • FIG. 1 is a diagram showing a schematic configuration of an image recognition system 10.
  • the image recognition system 10 has a detection unit 100, a server 200, a communication network 300, and a mobile terminal 400.
  • the detection unit 100 is communicably connected to the server 200 and the mobile terminal 400 by the communication network 300.
  • the mobile terminal 400 may be connected to the communication network 300 via the access point 310.
  • the detection unit 100 constitutes an image processing system.
  • the detection unit 100 may be one integrated device or a plurality of devices separately arranged.
  • the server 200 may perform a part of the functions of the detection unit 100. In that case, the server 200 may configure the image processing system.
  • FIG. 2 is a block diagram showing the configuration of the detection unit 100.
  • the detection unit 100 includes a control unit 110, a communication unit 120, a camera 130, and a body motion sensor 140, which are connected to each other by a bus.
  • the camera 130 constitutes a photographing device.
  • the control unit 110 is composed of a CPU (Central Processing Unit) and memories such as a RAM (Random Access Memory) and a ROM (Read Only Memory), and controls and performs arithmetic processing of each part of the detection unit 100 according to a program.
  • the control unit 110 constitutes a first detection unit, a specific unit, a second detection unit, and a determination unit.
  • the control unit 110 constitutes an output unit together with the communication unit 120. The details of the operation of the control unit 110 will be described later.
  • the communication unit 120 is an interface circuit (for example, a LAN card or the like) for communicating with the mobile terminal 400 or the like via the communication network 300.
  • an interface circuit for example, a LAN card or the like
  • the camera 130 is, for example, a wide-angle camera.
  • the camera 130 is installed at a position where the detection unit 100 is installed on the ceiling or the like of the living room of the target person 500 to overlook a predetermined area, and an image including the predetermined area (hereinafter, also simply referred to as “image 600”). Take a picture of).
  • the target person 500 is a person who needs long-term care or nursing by, for example, a staff member.
  • the predetermined area may be a three-dimensional area including the entire floor surface of the living room of the subject 500.
  • the camera 130 may be a standard camera having a narrower angle of view than a wide-angle camera. Hereinafter, for the sake of simplicity, the camera 130 will be described as a wide-angle camera.
  • the image 600 may include the subject 500 as an image.
  • Image 600 includes still images and moving images.
  • the camera 130 is a near-infrared camera, which irradiates the near-infrared ray toward the photographing area by an LED (Light Emitting Device) and emits the reflected light of the near-infrared ray reflected by an object in the photographing area to a CMOS (Completion Metal Oxide Sensor) sensor. A predetermined area can be photographed by receiving light from the light.
  • the image 600 can be a monochrome image having the reflectance of near infrared rays as each pixel.
  • a visible light camera may be used instead of the near infrared camera, or these may be used in combination.
  • the body movement sensor 140 is a doppler shift type sensor that transmits and receives microwaves to the bed 700 and detects the doppler shift of microwaves generated by the body movement (for example, respiratory movement) of the subject 500.
  • control unit 110 The operation of the control unit 110 will be described.
  • FIG. 3 is a functional block diagram of the control unit 110.
  • the control unit 110 functions as a target person movement amount detection unit (first detection unit) 111, a specific unit 112, a site movement amount detection unit (second detection unit) 113, a determination unit 114, and an output unit 115.
  • the control unit 110 acts to execute the function shown in the functional block diagram of FIG. 3 on the silhouette of the image of the person detected from the image 600 (hereinafter, referred to as “human silhouette”). Based on this, it is when the predetermined behavior of the subject 500 is detected. Predetermined actions include, for example, getting up, getting out of bed, falling, and falling. First, the action of the control unit 110 that detects a predetermined action of the subject 500 based on the human silhouette will be described. Hereinafter, for the sake of simplicity, the predetermined actions will be described as falling and falling.
  • the control unit 110 detects a human silhouette from the image 600.
  • the human silhouette can be detected, for example, by extracting a range of pixels having a relatively large difference by the time difference method for extracting the difference between images (frames) whose shooting times are before and after.
  • the human silhouette may be detected by the background subtraction method that extracts the difference between the photographed image and the background image.
  • the control unit 110 can detect a predetermined action of the target person 500 based on the silhouette of the person.
  • the control unit 110 may fall due to, for example, the center of gravity of the detected silhouette changing from a state in which it was moving in time series to a state in which it suddenly stopped, or a change in the aspect ratio of a rectangle corresponding to a human silhouette. Can be detected.
  • the control unit 110 suddenly changes from a state in which the human silhouette exists in the area of the bed 700 to a state in which the person silhouette exists outside the area of the bed 700, and a rectangular aspect ratio corresponding to the human silhouette.
  • the fall can be detected by the change of.
  • the area of the bed 700 in the image 600 is preset when the detection unit 100 is installed, and can be stored in the memory of the control unit 110 as data.
  • the control unit 110 can detect getting up and getting out of bed by the relationship between the human silhouette and the area of the bed 700, the change in the aspect ratio of the rectangle corresponding to the human silhouette, and the like.
  • the control unit 110 may transmit the action specific information indicating the predetermined action of the target person 500, which is detected based on the human silhouette, to the server 200.
  • the control unit 110 acts to execute the function shown in the functional block diagram of FIG. 3 when the predetermined action of the target person 500 is detected based on the silhouette of the person detected from the image 600.
  • the target person movement amount detection unit 111 detects the person area 610 as an area including the target person 500 based on the image 600.
  • FIG. 4 is a diagram showing a person area 610 detected in the image 600.
  • the target person movement amount detection unit 111 detects the area including the target person 500 who is a person as the person area 610 from the image 600. Specifically, the target person movement amount detection unit 111 detects the person area 610 by detecting the area where the object (object) exists on the image 600 and estimating the category of the object included in the detected area. Can be. The region where the object exists can be detected as a rectangle (candidate rectangle) including the object on the image 600. The detection unit 100 detects the person area 610 by detecting the candidate rectangles whose object category is presumed to be a person among the detected candidate rectangles. The person region 610 can be detected using a neural network (hereinafter referred to as "NN").
  • NN neural network
  • Examples of the method for detecting the person region 610 by the NN include known methods such as Faster R-CNN, Fast R-CNN, and R-CNN.
  • the NN for detecting the person area 610 from the image 600 detects (estimates) the person area 610 from the image 600 by using the teacher data of the combination of the image 600 and the person area 610 set as the correct answer for the image 600. ) Is learned in advance.
  • the target person movement amount detection unit 111 calculates the center of gravity of the person area 610 of the frame that is moved back and forth in time, and thereby determines the movement amount of the center of gravity of the person area 610 by the movement amount of the target person 500 (hereinafter, “target person”). It can also be detected as "movement amount”).
  • the target person movement amount detection unit 111 may detect the movement amount of any vertex (for example, the upper right corner) of the person area 610 of the frame that is moved back and forth in time as the movement amount of the target person 500.
  • the target person movement amount detection unit 111 detects the movement amount of the target person 500 after a lapse of a predetermined time.
  • the predetermined time is, for example, the time from the time when the previously shot frame is shot to the time when the later shot frame is shot in the adjacent frames of the image 600.
  • the predetermined time can be appropriately set by an experiment from the viewpoint of the accuracy of determining whether or not the behavior of the subject 500 is included in the predetermined behavior.
  • the specific unit 112 detects a feature point related to the human body (hereinafter, also simply referred to as “feature point 620”) from the person area 610.
  • feature point 620 a feature point related to the human body
  • FIG. 5 is a diagram showing feature points 620.
  • Feature points 620 may include joint points 621 and head 622.
  • the identification unit 112 detects the feature point 620 based on the person area 610 detected by the target person movement amount detection unit 111.
  • the joint points 621 include, for example, the hip joint points 621a and 621b.
  • the head 622 is, for example, two pairs of vertices of a region (eg, a head rectangle) containing the head of the subject 50.
  • the joint points 621 and the head 622 can be detected as coordinates in the image 600.
  • the head 622 may be a parameter that can specify the position and area of the head of the subject 50 in the image 600, and is a combination of the center of gravity of the internal region of the circle including the head of the subject 50 and the radius of the internal region. It may be.
  • the feature point 620 can be detected by a known technique using NN such as DeepPose. Details of DeepPose are described in publicly known literature (Alexander Toshev, et al. "DeepPose: HumanPoseEstimation via DeepNeural Networks", in CVPR, 2014).
  • the NN for detecting the feature point 620 from the person area 610 uses the teacher data of the combination of the person area 610 and the feature point 620 set as the correct answer for the person area 610, and uses the teacher data of the combination of the person area 610 to the feature point 620. Learning for detecting (estimating) is performed in advance.
  • the feature point 620 may be estimated directly from the image 600 by using the NN for detecting the feature point 620 from the image 600.
  • the NN for detecting the feature point 620 from the image 600 uses the teacher data of the combination of the image 600 and the feature point 620 set as the correct answer for the image 600 to obtain the feature point 620 from the image 600. Learning for detection (estimation) is performed in advance.
  • the site movement amount detection unit 113 detects the movement amount of a predetermined site of the subject 500 (hereinafter, also referred to as “site movement amount”) based on the feature point 620 specified by the specific unit 112.
  • the predetermined portion may be a point specified based on a part of the feature points 620 among the feature points 620 specified by the specific unit 112.
  • the predetermined site may be the center of gravity of the hip joint points 621a and 621b.
  • the predetermined portion may be one or more feature points 620 in the feature points 620 specified by the specific unit 112.
  • the predetermined site may be the right hip joint point 621a (or the left hip joint point 621b).
  • the predetermined site may be two joint points 621 of the right hip joint point 621a and the left hip joint point 621b.
  • the predetermined portion will be described as assuming that it is the joint point 621a of the right hip.
  • the determination unit 114 determines whether or not the action of the target person 500 is included in the predetermined action based on the amount of movement of the target person and the amount of movement of the part. Specifically, the determination unit 114 is neither "a predetermined action of a fall or a fall” or "a predetermined action of a fall or a fall” based on the target person's movement amount and the site movement amount. , ”, Is determined.
  • 6A and 6B are explanatory views showing an example of an image 600 determined to be one of the predetermined actions of falling and falling.
  • FIG. 6A shows the image 600 of the t-frame in which the subject 500 is in a standing posture.
  • FIG. 6B shows an image 600 of the t + ⁇ frame after the t frame in which the subject 500 is in the recumbent posture.
  • is, for example, 1, but can be changed according to the frame rate of the image 600.
  • can be set to an appropriate value by an experiment from the viewpoint of the accuracy of determining whether or not it is included in a predetermined action.
  • the behavior of the subject 500 from the standing posture to the lying posture after the ⁇ frame includes a fall and a fall.
  • the position of the center of gravity of the person area 610 has not changed relatively. That is, the amount of movement of the target person is relatively small.
  • the position of the right hip joint point 621a which is a predetermined portion, changes relatively significantly in the upper right direction. That is, the amount of site movement is relatively large. Therefore, the position of the subject 500 does not change relatively, and only a part of the subject 500 changes relatively rapidly. Such a characteristic change indicates that the posture of the subject 500 changes from the standing position to the lying position in a relatively short time, and the subject 500 behaves in either a fall or a fall. It shows that it is likely.
  • the center of gravity of the person area 610 does not change relatively and the predetermined portion changes relatively rapidly, it can be determined that either the predetermined action of falling or falling has been performed.
  • the behavior of getting up when the subject 500 raises his upper body on the bed 700 and the behavior of getting out of bed when the subject 500 changes from the lying posture to the sitting posture on the bed 700 are also the positions of the subject 500. Is relatively unchanged, and only a part of the subject 500 changes relatively rapidly. Therefore, for example, by setting the joint points 621c and 621d of the head 622 and the tip of the foot as predetermined parts, it can be determined that the behavior of getting up and getting out of bed has been performed. That is, getting up and getting out of bed may be included in the predetermined behavior.
  • the determination unit 114 determines that the action of the target person 500 is an action included in the predetermined action. That is, when the target person's movement amount is equal to or less than the first threshold value and the site movement amount is above the second threshold value, the determination unit 114 is either a fall or a fall in which the action of the target person 500 is a predetermined action. Is determined.
  • the first threshold value and the second threshold value can be appropriately set experimentally from the viewpoint of determination accuracy of whether or not they are included in a predetermined action. In the judgment based on the amount of movement of the subject and the amount of movement of the site, falls are not distinguished.
  • a fall or a fall is distinguished in the detection of a predetermined behavior based on a human silhouette, it is sufficient if it can be determined to be either a fall or a fall.
  • the fall and the fall are detected by determining that the fall or the fall is one of the falls based on the movement amount of the subject and the movement amount of the site. The accuracy can be improved.
  • the output unit 115 outputs information on the behavior of the target person 500 only when it is determined that the subject has fallen or falls based on the amount of movement of the target person and the amount of movement of the part. Therefore, it is possible to suppress erroneous detection of a predetermined action based on a human silhouette.
  • a predetermined part is set as a plurality of feature points 620 and the part movement amount for each feature point 620 is detected, if any one of the detected part movement amounts is equal to or more than the second threshold value. It can be determined that the action of the subject 500 is an action included in the predetermined action. If all of the detected movement amounts of the plurality of sites are equal to or higher than the second threshold value, it may be determined that the behavior of the subject 500 is an behavior included in the predetermined behavior. Further, if the number of detected movements of a plurality of parts above the second threshold value is larger than the number of movements below the second threshold value, even if it is determined that the behavior of the subject 500 is included in the predetermined behavior. Good.
  • At least one of the first threshold value and the second threshold value is set according to the position of the target person 500 in the image 600.
  • the position of the subject 500 in the image 600 corresponds to the distance from the camera 130 to the subject 500.
  • the distance from the camera 130 to the target person 500 corresponds to the distance from the center of the image 600 to the target person 500 in the image 600. Therefore, setting the first threshold value and the second threshold value according to the distance from the camera 130 to the target person 500 means that the first threshold value and the second threshold value are from the center of the image 600 to the target person 500 in the image 600. Corresponds to being set according to the distance of.
  • the range of a relatively short distance from the center of the image 600 is the first range
  • the range of a distance relatively far from the center of the image 600 is the third range
  • the range between the first range and the third range is the second range.
  • the first threshold value can be set smaller in the order of the first threshold value set in the first range, the first threshold value set in the second range, and the first threshold value set in the third range.
  • the second threshold value may be set smaller in the order of the second threshold value set in the first range, the second threshold value set in the second range, and the second threshold value set in the third range. That is, the longer the distance from the camera 130 to the target person 500, the stricter the standard for determining that the action is included.
  • the output unit 115 provides information on the action of the target person 500 to the communication unit 120. Output by sending to the server 200 or the like.
  • the information regarding the behavior of the subject 500 indicates that the first information indicating that the behavior of the subject 500 is one of the predetermined behaviors, or that the probability (probability) of the predetermined behavior detected based on the human silhouette is high. It can be the second information.
  • the first information is, for example, information that "the behavior of the subject 500 is either a fall or a fall”.
  • the second information is, for example, information that "the probability of being a detected action is high".
  • control unit 110 may further transmit the behavior specific information indicating the predetermined behavior of the target person 500, which is detected based on the human silhouette, to the server 200 or the like in association with the information regarding the behavior of the target person 500.
  • the first information, the second information, and the action specific information can be associated with each other by including information that identifies the target person 500 such as the ID (number) of the target person 500, and the shooting time of the image 600.
  • the server 200 can make a final determination that the target person 500 has performed a predetermined action detected based on the human silhouette based on the action specific information and the information on the behavior of the target person 500. ..
  • control unit 110 detects any of the predetermined actions of the target person 500 based on the silhouette of the person, and the determination result of the action of the target person 500 by the determination unit 114 includes the target person 500 in the predetermined action.
  • the control unit 110 may make a final determination that the subject 500 has performed a predetermined action detected based on the silhouette of the person.
  • the output unit 115 may transmit (output) the third information indicating the final determination that the target person 500 has performed the predetermined action to the server 200 or the like as information regarding the action of the target person 500.
  • the action specific information does not need to be transmitted to the server 200 or the like.
  • the third information is, for example, information that "the subject 500 has fallen".
  • the third information includes information that identifies the target person 500, such as the name of the target person 500.
  • control unit 110 may be executed by the server 200.
  • the control unit 110 transmits the image 600 to the server 200, and also transmits the action specific information indicating the predetermined action of the target person 500, which is detected based on the silhouette of the person, to the server 200.
  • the server 200 detects the target person movement amount and the site movement amount based on the image 600, and determines whether or not the action of the target person 500 is an action included in the predetermined action.
  • the server 200 determines that the action of the target person 500 is an action included in the predetermined action
  • the server 200 makes a final determination that the target person 500 has performed the predetermined action indicated by the action specific information.
  • FIG. 7 is a block diagram showing the configuration of the server 200.
  • the server 200 includes a control unit 210, a communication unit 220, and a storage unit 230. The components are connected to each other by a bus.
  • the basic configuration of the control unit 210 and the communication unit 220 is the same as that of the control unit 110 and the communication unit 120, which are the corresponding components of the detection unit 100.
  • the storage unit 230 is composed of a RAM, a ROM, an HDD (Hard Disk Drive), and the like.
  • the control unit 210 receives information on the behavior of the target person 500 from the detection unit 100 by the communication unit 220.
  • the control unit 210 may further receive the action specific information from the detection unit 100.
  • the control unit 21 causes the target person 500 to perform the predetermined behavior indicated by the behavior specific information. Make the final decision that you did.
  • the control unit 21 also causes the target person 500 to act. Make a final judgment that the prescribed action indicated by the specific information has been performed.
  • control unit 21 When the control unit 21 makes a final determination that the predetermined action indicated by the action specific information has been performed, the control unit 21 sends an event notification to notify the staff or the like that the target person 500 has performed the predetermined action (for example, a fall). It can be transmitted to 400 etc.
  • an event notification to notify the staff or the like that the target person 500 has performed the predetermined action (for example, a fall). It can be transmitted to 400 etc.
  • the control unit 21 When the information regarding the behavior of the target person 500 is the third information indicating the final determination that the target person 500 has performed the predetermined action, the control unit 21 notifies the staff or the like that the target person 500 has performed the predetermined action. Event notification can be transmitted to the mobile terminal 400 or the like.
  • the server 200 can execute the function shown in FIG. 3 in place of the detection unit 100.
  • the server 200 receives the image 600 from the detection unit 100.
  • the server 200 receives the action specific information indicating the predetermined action of the target person 500, which is detected based on the human silhouette.
  • the server 200 executes the function shown in FIG. 3 on the occasion of receiving the action specific information, detects the target person movement amount and the site movement amount based on the image 600, and the action of the target person 500 is performed. Determine if the action is included in the predetermined action.
  • the server 200 determines that the action of the target person 500 is an action included in the predetermined action
  • the server 200 makes a final determination that the target person 500 has performed the predetermined action indicated by the action specific information.
  • the server 200 transmits information about the behavior of the target person 500, which indicates that the target person 500 has performed a predetermined action, to the mobile terminal 400 as an event notification, or displays it on a display unit (not shown). Output by.
  • the server 200 receives the image 600 from the detection unit 100, detects the human silhouette from the image 600 instead of the detection unit 100, and detects the predetermined action of the target person 500 based on the human silhouette. Good. Then, when the predetermined behavior of the target person 500 is detected, the function shown in FIG. 3 is executed to detect the target person movement amount and the site movement amount based on the image 600, and the target person 500 Determine if the action is included in the predetermined action.
  • the server 200 determines that the action of the target person 500 is an action included in the predetermined action
  • the server 200 makes a final determination that the target person 500 has performed the predetermined action detected based on the human silhouette. Then, the server 200 transmits information about the behavior of the target person 500, which indicates that the target person 500 has performed a predetermined action, to the mobile terminal 400 as an event notification, or displays it on a display unit (not shown). Output by.
  • FIG. 8 is a block diagram showing the configuration of the mobile terminal 400.
  • the mobile terminal 400 includes a control unit 410, a wireless communication unit 420, a display unit 430, an input unit 440, and a voice input / output unit 450.
  • the components are connected to each other by a bus.
  • the mobile terminal 400 may be composed of, for example, a communication terminal device such as a tablet computer, a smartphone, or a mobile phone.
  • the control unit 410 has a basic configuration such as a CPU, RAM, and ROM, similar to the configuration of the control unit 110 of the detection unit 100.
  • the wireless communication unit 420 has a function of performing wireless communication according to standards such as Wi-Fi and Bluetooth (registered trademark), and wirelessly communicates with each device via the access point 310 or directly.
  • the wireless communication unit 420 receives the event notification from the server 200.
  • the display unit 430 and the input unit 440 are touch panels, and a touch sensor as the input unit 440 is provided on the display surface of the display unit 430 composed of a liquid crystal or the like.
  • the event notification is displayed by the display unit 430 and the input unit 440. Then, an input screen for prompting the response to the target person 500 regarding the event notification is displayed, and the staff's intention to respond to the event notification entered in the input screen is received and transmitted to the server 200.
  • the voice input / output unit 450 is, for example, a speaker and a microphone, and enables voice communication between staff members with another mobile terminal 400 via the wireless communication unit 420. Further, the voice input / output unit 450 may have a function of enabling a voice call with the detection unit 100 via the wireless communication unit 420.
  • FIG. 9 is a flowchart showing the operation of the image recognition system 10. This flowchart can be executed by the control unit 110 of the detection unit 100 according to the program. When the function shown in FIG. 3 is executed by the server 200, this flowchart is executed by the control unit 210 of the server 200 according to the program.
  • the target person movement amount detection unit 111 detects the target person movement amount when the predetermined action of the target person 500 is detected based on the person silhouette detected from the image 600 (S101).
  • the amount of movement of the subject is the center of gravity of the person area 610 detected from the later frame in time with respect to the center of gravity of the person area 610 detected from the frame earlier in time in the frames of the images 600 that are adjacent in time. It can be detected as a movement amount.
  • the identification unit 112 identifies the feature point 620 based on the image 600 (S102).
  • the site movement amount detection unit 113 detects the site movement amount of the subject 500 based on the specified feature point 620 (S103).
  • the portion movement amount is detected as the movement amount of the predetermined portion detected from the later frame in time with respect to the predetermined portion detected from the earlier frame in time in the image 600 frames adjacent in time.
  • the determination unit 114 determines whether the target person movement amount is equal to or less than the first threshold value and the site movement amount is equal to or more than the second threshold value (S104).
  • the determination unit 114 determines that the movement amount of the target person is equal to or less than the first threshold value and the movement amount of the site is not equal to or more than the second threshold value (S104: NO), the action of the target person 500 is not included in the predetermined action. (S106).
  • the determination unit 114 determines that the target person's movement amount is equal to or less than the first threshold value and the site movement amount is equal to or more than the second threshold value (S104: YES).
  • the determination unit 114 determines that the action of the target person 500 is included in the predetermined action. Judgment (S105). Then, the output unit 115 outputs information regarding the behavior of the target person 500 (S107).
  • the second embodiment will be described.
  • the differences between the present embodiment and the first embodiment are as follows.
  • the first embodiment it is determined whether or not the action of the target person 500 is included in the predetermined action based on the amount of movement of the target person and the amount of movement of the part.
  • the present embodiment it is determined whether or not the action of the target person 500 is included in the predetermined action based on the amount of movement of the target person and the amount of change in the area of the head of the target person 500.
  • the present embodiment is similar to the first embodiment, and thus duplicate description will be omitted or simplified.
  • FIG. 10 is a functional block diagram of the control unit 110.
  • the control unit 110 functions as a target person movement amount detection unit (first detection unit) 111, a specific unit 112, a head area change amount detection unit (third detection unit) 116, a determination unit 114, and an output unit 115.
  • the control unit 110 acts to execute the function shown in the functional block diagram of FIG. 10 when the control unit 110 detects a predetermined action of the target person 500 based on the person silhouette detected from the image 600. Is.
  • the head area change detection unit 116 is the area on the image 600 occupied by the head of the subject 500 based on the head 622 of the feature points 620 specified by the specific unit 112 (hereinafter, simply "head area”).
  • the amount of change (hereinafter, also referred to as “head area change amount”) is detected.
  • the amount of change in the head area can be an amount that can be distinguished between the case where the head area increases and the case where the head area decreases.
  • the amount of change in the head area can be distinguished from the case where the head area increases and the case where the head area decreases, for example, by adding positive and negative signs.
  • the amount of change in the head area means the magnitude (absolute value) of the difference in the head area before and after the change regardless of whether the head area increases or decreases.
  • the head area change amount detection unit 116 calculates the head area based on the head 622 (for example, two pairs of vertices of the head rectangle), and detects the head area change amount at a predetermined time.
  • the determination unit 114 determines whether or not the action of the target person 500 is included in the predetermined action based on the amount of movement of the target person and the amount of change in the head area.
  • Predetermined actions can include, for example, getting up, getting out of bed, falling, and falling.
  • the predetermined actions will be described as falling and falling.
  • the determination unit 114 is either "a predetermined action of a fall or a fall” or "a predetermined action of a fall or a fall” based on the amount of movement of the subject and the amount of change in the head area. It is determined that it is either "not".
  • 11A and 11B are explanatory views showing an example of an image 600 determined to be one of the predetermined actions of falling and falling.
  • FIG. 11A shows the image 600 of the t-frame in which the subject 500 is in a standing posture.
  • FIG. 11B shows an image 600 of the t + ⁇ frame after the t frame in which the subject 500 is in the recumbent position.
  • is, for example, 1, but can be changed according to the frame rate of the image 600.
  • can be set to an appropriate value by an experiment from the viewpoint of the accuracy of determining whether or not it is included in a predetermined action.
  • the behavior of the subject 500 from the standing posture to the lying posture after the ⁇ frame includes a fall and a fall.
  • the center of gravity of the person area 610 has not changed relatively. That is, the amount of movement of the target person is relatively small.
  • the head area detected based on the head 622 changes (decreases) relatively significantly. That is, the amount of change in head area is relatively large.
  • the head area changes because the posture of the subject 500 changes from the standing position to the lying position, and the distance from the camera 130 to the head of the subject 500 changes relatively significantly.
  • the camera 130 is a wide-angle camera
  • the amount of change in the head area can be larger due to the distortion characteristics of the wide-angle camera.
  • the position of the subject 500 does not change relatively, and the head area of the subject 500 changes relatively rapidly.
  • Such a characteristic change indicates that the posture of the subject 500 changes from the standing position to the lying position in a relatively short time, and the subject 500 behaves in either a fall or a fall. It is shown that. As described above, when the center of gravity of the person area 610 does not change relatively and the head area changes relatively rapidly, it can be determined that one of the predetermined actions of falling or falling has been performed. In addition, the behavior of getting up when the subject 500 raises his upper body on the bed 700 and the behavior of getting out of bed when the subject 500 changes from the lying posture to the sitting posture on the bed 700 are also the positions of the subject 500. The head area of the subject 500 can change relatively rapidly without any change.
  • getting up and getting out of bed may be included in the predetermined behavior.
  • the determination unit 114 determines that the action of the target person 500 is included in the predetermined action when the amount of movement of the target person is equal to or less than the first threshold value and the amount of change in the head area is above the third threshold value. That is, when the target person's movement amount is equal to or less than the first threshold value and the head area change amount is above the third threshold value, the determination unit 114 either falls or falls, in which the action of the target person 500 is a predetermined action. Is determined to be.
  • the first threshold value and the third threshold value can be appropriately set experimentally from the viewpoint of the accuracy of determining whether or not the behavior is included in the predetermined action.
  • At least one of the first threshold value and the third threshold value is set according to the position of the target person 500 in the image 600.
  • the position of the subject 500 in the image 600 corresponds to the distance from the camera 130 to the subject 500.
  • the distance from the camera 130 to the target person 500 corresponds to the distance from the center of the image 600 to the target person 500 in the image 600. Therefore, setting the first threshold value and the third threshold value according to the distance from the camera 130 to the target person 500 means that the first and third threshold values are from the center of the image 600 to the target person 500 in the image 600. Corresponds to being set according to the distance of.
  • the range of a relatively short distance from the center of the image 600 is the first range
  • the range of a distance relatively far from the center of the image 600 is the third range
  • the range between the first range and the third range is the second range.
  • the first threshold value can be set smaller in the order of the first threshold value set in the first range, the first threshold value set in the second range, and the first threshold value set in the third range.
  • the third threshold value can be set smaller in the order of the third threshold value set in the first range, the third threshold value set in the second range, and the third threshold value set in the third range. That is, the longer the distance from the camera 130 to the target person 500, the stricter the criterion for determining that the behavior is included in the predetermined action.
  • FIG. 12 is a flowchart showing the operation of the image recognition system 10. This flowchart can be executed by the control unit 110 of the detection unit 100 according to the program. When the function shown in FIG. 10 is executed by the server 200, this flowchart is executed by the control unit 210 of the server 200 according to the program.
  • the target person movement amount detection unit 111 detects the target person movement amount when the predetermined action of the target person 500 is detected based on the person silhouette detected from the image 600 (S201).
  • the identification unit 112 identifies the head 622, which is the feature point 620, based on the image 600 (S202).
  • the head area change amount detection unit 116 calculates the head area based on the specified head 622 and detects the head area change amount of the subject 500 (S203).
  • the amount of change in the head area is the amount of change (decrease) in the head area detected from the later frame in time with respect to the head area detected from the earlier frame in time for 600 frames of images adjacent in time. Amount) is detected.
  • the determination unit 114 determines whether the amount of movement of the target person is equal to or less than the first threshold value and the amount of change in head area is equal to or greater than the third threshold value (S204).
  • the determination unit 114 determines that the movement amount of the target person is equal to or less than the first threshold value and the change amount of the head area is not equal to or more than the third threshold value (S204: NO), the action of the target person 500 is included in the predetermined action. It is determined that it cannot be done (S206).
  • the determination unit 114 determines that the amount of movement of the target person is equal to or less than the first threshold value and the amount of change in the head area is equal to or greater than the third threshold value (S204: YES)
  • the action of the target person 500 is included in the predetermined action. (S205).
  • the output unit 115 outputs information regarding the behavior of the target person 500 (S207).
  • the embodiment has the following effects.
  • the behavior of the subject based on the amount of movement of the subject detected based on the captured image and the amount of movement of the predetermined part of the subject detected based on the feature points related to the body of the subject identified from the image. Outputs information about the behavior of the target person when it is determined that is included in the predetermined behavior. As a result, the accuracy of estimating the behavior of the person based on the captured image can be improved.
  • the target person's movement amount at a predetermined time is equal to or less than the first threshold value and the site movement amount at the predetermined time is equal to or more than the second threshold value, it is determined that the target person's behavior is included in the predetermined behavior. To do. As a result, it is possible to improve the estimation accuracy of the behavior of the person based on the easily captured image.
  • the feature points are head points or joint points. As a result, it is possible to improve the estimation accuracy of the behavior of the person based on the easily and effectively captured image.
  • the behavior of the subject is based on the amount of movement of the subject detected based on the captured image and the amount of change in the head area of the subject detected based on the head of the subject identified from the image.
  • information about the behavior of the target person is output.
  • the accuracy of estimating the behavior of the person based on the captured image can be improved.
  • the behavior of the target person is included in the predetermined behavior. Judge that there is. As a result, it is possible to improve the estimation accuracy of the behavior of the person based on the easily captured image.
  • At least one of the first threshold value, the second threshold value, and the third threshold value is set according to the position of the target person on the image corresponding to the distance from the photographing device to the target person. As a result, the accuracy of estimating the behavior of the person based on the captured image can be further improved.
  • the predetermined part is a point specified based on some of the feature points among the feature points. As a result, the accuracy of estimating the behavior of the person based on the captured image can be further effectively improved.
  • the predetermined part is set as one or more feature points among the feature points.
  • the prescribed action is at least one of getting up, getting out of bed, falling, and falling.
  • the estimation accuracy for a specific action can be improved more effectively.
  • the image capturing device is a wide-angle camera, and the image is an image including the predetermined area taken by the wide-angle camera installed at a position overlooking the predetermined area.
  • the configuration of the image recognition system 10 described above has been described as a main configuration in explaining the features of the above-described embodiment, and is not limited to the above-mentioned configuration and may be variously modified within the scope of claims. it can. Further, the configuration provided in a general image recognition system is not excluded.
  • the predetermined part is the joint point 621a of the right hip
  • the predetermined portion in the first embodiment may be the head 622 or the like.
  • the detection unit 100, the server 200, and the mobile terminal 400 may each be configured by a plurality of devices, or any plurality of devices may be configured as a single device.
  • the means and methods for performing various processes in the image recognition system 10 described above can be realized by either a dedicated hardware circuit or a programmed computer.
  • the program may be provided by a computer-readable recording medium such as a USB memory or a DVD (Digital definitely Disc) -ROM, or may be provided online via a network such as the Internet.
  • the program recorded on the computer-readable recording medium is usually transferred to and stored in a storage unit such as a hard disk.
  • the above program may be provided as a single application software, or may be incorporated into the software of a device such as a detection unit as one function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

【課題】撮影された画像に基づく人物の行動の推定精度を向上できる画像処理システムを提供する。 【解決手段】撮影装置により撮影された、対象者を含む画像に基づいて、対象者の移動量を検出する第1検出部と、当該画像に基づいて、対象者の体に関する特徴点を特定する特定部と、当該特徴点に基づいて、対象者の所定部位の移動量を検出する第2検出部と、所定時間の対象者の移動量と、当該所定時間の対象者の所定部位の移動量と、に基づいて、対象者の行動が所定行動に含まれる行動かどうか判定する判定部と、対象者の行動が所定行動に含まれる行動であると判定された場合に、対象者の行動に関する情報を出力する出力部と、を有する。

Description

画像処理システム、画像処理プログラム、および画像処理方法
 本発明は、画像処理システム、画像処理プログラム、および画像処理方法に関する。
 我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。
 要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影された画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、画像から検知対象である人物の姿勢や行動を高精度で検出する必要がある。
 下記特許文献1には、次の先行技術が開示されている。被監視者の所定行動を検知して通知等をする検知ユニットによる監視機能を、端末ユニットから受信した情報等に基づいて停止する。これにより、必要に応じて監視機能を停止できるため、被監視者以外の者に対する誤検知を低減できる。
国際公開第2016/152428号
 しかし、上記特許文献1に開示された先行技術は、被監視者以外の者の行動を被監視者の行動として誤検知することを防止できるが、被監視者の行動の検知精度を向上できないという問題がある。
 本発明は、このような問題を解決するためになされたものである。すなわち、撮影された画像に基づく人物の行動の推定精度を向上できる、画像処理システム、画像処理プログラム、および画像処理方法を提供することを目的とする。
 本発明の上記課題は、以下の手段によって解決される。
 (1)撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する第1検出部と、前記画像に基づいて、前記対象者の体に関する特徴点を特定する特定部と、前記特定部により特定された前記特徴点に基づいて、前記対象者の所定部位の移動量を検出する第2検出部と、前記第1検出部により検出された、所定時間の前記対象者の移動量と、前記第2検出部により検出された、前記所定時間の前記対象者の所定部位の移動量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する判定部と、前記判定部により、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する出力部と、を有する画像処理システム。
 (2)前記判定部は、前記第1検出部により検出された、前記所定時間の前記対象者の移動量が第1閾値以下で、かつ、前記第2検出部により検出された、前記所定時間の前記対象者の所定部位の移動量が第2閾値以上である場合に、前記対象者の行動が前記所定行動に含まれる行動であると判定する、上記(1)に記載の画像処理システム。
 (3)前記特徴点は、頭部または関節点である、上記(1)または(2)に記載の画像処理システム。
 (4)撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する第1検出部と、前記画像に基づいて、前記対象者の体に関する特徴点である、前記対象者の頭部を特定する特定部と、前記特定部により特定された前記頭部に基づいて、前記頭部の面積を算出して、前記頭部の面積の変化量を検出する第3検出部と、前記第1検出部により検出された、所定時間の前記対象者の移動量と、前記第3検出部により検出された、前記所定時間の前記頭部の面積の変化量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する判定部と、前記判定部により、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する出力部と、を有する画像処理システム。
 (5)前記判定部は、前記第1検出部により検出された、前記所定時間の前記対象者の移動量が第1閾値以下で、かつ、前記第3検出部により算出された、前記所定時間の前記対象者の前記頭部の面積の変化量が第3閾値以上である場合に、前記対象者の行動が前記所定行動に含まれる行動であると判定する、上記(4)に記載の画像処理システム。
 (6)前記第1閾値および前記第2閾値の少なくともいずれかは、前記撮影装置から前記対象者までの距離に対応する、前記画像上の前記対象者の位置に応じて設定される、上記(2)に記載の画像処理システム。
 (7)前記第1閾値および前記第3閾値の少なくともいずれかは、前記撮影装置から前記対象者までの距離に対応する、前記画像上の前記対象者の位置に応じて設定される、上記(5)に記載の画像処理システム。
 (8)前記所定部位は、前記特定部により特定された前記特徴点の中の一部の前記特徴点に基づいて特定される点である、上記(1)~(3)、(6)のいずれかに記載の画像処理システム。
 (9)前記所定部位は、前記特定部により特定された前記特徴点の中の1つまたは複数の前記特徴点である、上記(1)~(3)、(6)のいずれかに記載の画像処理システム。
 (10)前記所定行動は、起床、離床、転倒、および転落の少なくともいずれかである、上記(1)~(9)のいずれかに記載の画像処理システム。
 (11)前記撮影装置は広角カメラであり、前記画像には、所定の領域を俯瞰する位置に設置された前記広角カメラにより撮影された前記領域が含まれる、上記(1)~(10)のいずれかに記載の画像処理システム。
 (12)撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する手順(a)と、前記画像に基づいて、前記対象者の体に関する特徴点を特定する手順(b)と、前記手順(b)において特定された前記特徴点に基づいて、前記対象者の所定部位の移動量を検出する手順(c)と、前記手順(a)において検出された、所定時間の前記対象者の移動量と、前記手順(c)において検出された、前記所定時間の前記対象者の所定部位の移動量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する手順(d)と、前記手順(d)において、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する手順(e)と、を有する処理をコンピューターに実行させるための画像処理プログラム。
 (13)撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する手順(f)と、前記画像に基づいて、前記対象者の体に関する特徴点である、前記対象者の頭部を特定する手順(g)と、前記手順(g)において特定された前記頭部に基づいて、前記頭部の面積を算出して、前記頭部の面積の変化量を検出する手順(h)と、前記手順(f)において検出された、所定時間の前記対象者の移動量と、前記手順(h)において算出された、前記所定時間の前記対象者の前記頭部の面積の変化量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する手順(i)と、前記手順(i)において、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する手順(j)と、を有する処理をコンピューターに実行させるための画像処理プログラム。
 (14)画像処理システムに実行させる方法であって、撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する段階(a)と、前記画像に基づいて、前記対象者の体に関する特徴点を特定する段階(b)と、前記段階(b)において特定された前記特徴点に基づいて、前記対象者の所定部位の移動量を検出する段階(c)と、前記段階(a)において検出された、所定時間の前記対象者の移動量と、前記段階(c)において検出された、前記所定時間の前記対象者の所定部位の移動量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する段階(d)と、前記段階(d)において、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する段階(e)と、を有する画像処理方法。
 (15)画像処理システムに実行させる方法であって、撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する段階(f)と、前記画像に基づいて、前記対象者の体に関する特徴点である、前記対象者の頭部を特定する段階(g)と、前記段階(g)において特定された前記頭部に基づいて、前記頭部の面積を算出して、前記頭部の面積の変化量を検出する段階(h)と、前記段階(f)において検出された、所定時間の前記対象者の移動量と、前記段階(h)において算出された、前記所定時間の前記対象者の前記頭部の面積の変化量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する段階(i)と、前記段階(i)において、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する段階(j)と、を有する画像処理方法。
 撮影された画像に基づいて検出した対象者の移動量と、当該画像から特定した対象者の体に関する特徴点に基づいて検出した対象者の所定部位の移動量と、に基づいて対象者の行動が所定行動に含まれると判定したときに、対象者の行動に関する情報を出力する。これにより、撮影された画像に基づく人物の行動の推定精度を向上できる。
画像認識システムの概略構成を示す図である。 検出部の構成を示すブロック図である。 制御部の機能ブロック図である。 画像において検出された人物領域を示す図である。 特徴点を示す図である。 所定行動である転倒および転落のいずれかの行動であると判定される画像の例を示す説明図である。 所定行動である転倒および転落のいずれかの行動であると判定される画像の例を示す説明図である。 サーバーの構成を示すブロック図である。 携帯端末の構成を示すブロック図である。 画像認識システムの動作を示すフローチャートである。 制御部の機能ブロック図である。 所定行動である転倒および転落のいずれかの行動であると判定される画像の例を示す説明図である。 所定行動である転倒および転落のいずれかの行動であると判定される画像の例を示す説明図である。 画像認識システムの動作を示すフローチャートである。
 以下、図面を参照して、本発明の実施形態に係る、画像処理システム、画像処理プログラム、および画像処理方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 (第1実施形態)
 図1は、画像認識システム10の概略構成を示す図である。
 画像認識システム10は、検出部100、サーバー200、通信ネットワーク300、および携帯端末400を有する。検出部100は、通信ネットワーク300によりサーバー200および携帯端末400と相互に通信可能に接続される。携帯端末400はアクセスポイント310を介して通信ネットワーク300と接続され得る。検出部100は、画像処理システムを構成する。検出部100は、1つの一体化された装置でも、分離配置される複数の装置でもあり得る。なお、後述するように、検出部100の機能の一部をサーバー200が実施するようにしてもよい。その場合、サーバー200が画像処理システムを構成し得る。
 (検出部100)
 図2は、検出部100の構成を示すブロック図である。図2の例に示すように、検出部100は、制御部110、通信部120、カメラ130、および体動センサー140を備え、これらはバスによって相互に接続されている。カメラ130は、撮影装置を構成する。
 制御部110は、CPU(Central Processing Unit)、およびRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリにより構成され、プログラムに従って検出部100の各部の制御および演算処理を行う。制御部110は、第1検出部、特定部、第2検出部、および判定部を構成する。制御部110は、通信部120とともに出力部を構成する。制御部110の作用の詳細については後述する。
 通信部120は、通信ネットワーク300を介して、携帯端末400等と通信するためのインターフェース回路(例えばLANカード等)である。
 カメラ130は、例えば広角カメラである。カメラ130は、検出部100が対象者500の居室の天井等に設置されることで、所定の領域を俯瞰する位置に設置され、当該所定の領域を含む画像(以下、単に「画像600」とも称する)を撮影する。対象者500は、例えばスタッフ等により介護または看護を必要とする者である。所定の領域は対象者500の居室の床面全体を含む3次元の領域であり得る。カメラ130は、広角カメラより画角が狭い標準カメラであってもよい。以下、説明を簡単にするために、カメラ130は、広角カメラであるものとして説明する。画像600には、対象者500が画像として含まれ得る。画像600には、静止画および動画が含まれる。カメラ130は近赤外線カメラであり、LED(Light Emitting Device)により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をCMOS(Complememtary Metal Oxide Semiconductor)センサーにより受光することで所定の領域を撮影し得る。画像600は近赤外線の反射率を各画素とするモノクロ画像であり得る。カメラ130は、近赤外線カメラに代替して可視光カメラを用いてもよく、これらを併用してもよい。
 体動センサー140は、ベッド700に対してマイクロ波を送受信して対象者500の体動(例えば呼吸動)によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。
 制御部110の作用について説明する。
 図3は、制御部110の機能ブロック図である。制御部110は、対象者移動量検出部(第1検出部)111、特定部112、部位移動量検出部(第2検出部)113、判定部114、および出力部115として機能する。
 制御部110が、図3の機能ブロック図に示す機能を実行するように作用するのは、制御部110が、画像600から検出した人の画像のシルエット(以下、「人シルエット」と称する)に基づいて、対象者500の所定行動を検出したときである。所定行動には、例えば、起床、離床、転倒、および転落が含まれる。まず、人シルエットに基づいて、対象者500の所定行動を検出する、制御部110の作用について説明する。以下、説明を簡単にするために、所定行動は、転倒および転落であるものとして説明する。
 制御部110は、画像600から人シルエットを検出する。人シルエットは、例えば、撮影時刻が前後する画像(フレーム)の差分を抽出する時間差分法により差分が相対的に大きい画素の範囲を抽出することで検出され得る。人シルエットは、撮影画像と背景画像との差分を抽出する背景差分法により検出されてもよい。制御部110は、人シルエットに基づいて、対象者500の所定行動を検出し得る。制御部110は、例えば、検出されたシルエットの重心が、時系列で動いていた状態から急に停止した状態に変化したことや、人シルエットに対応する矩形のアスペクト比の変化等により、転倒を検出し得る。制御部110は、例えば、人シルエットがベッド700の領域内に存在している状態から急にベッド700の領域外に存在している状態に変化したことや、人シルエットに対応する矩形のアスペクト比の変化等により、転落を検出し得る。画像600におけるベッド700の領域は、検出部100が設置される際に予め設定され、データとして制御部110のメモリに記憶され得る。なお、制御部110は、人シルエットと、ベッド700の領域との関係や、人シルエットに対応する矩形のアスペクト比の変化等により、起床および離床をそれぞれ検出し得る。後述するように、制御部110は、人シルエットに基づいて検出された、対象者500の所定行動を示す行動特定情報をサーバー200に送信し得る。
 制御部110は、画像600から検出した人シルエットに基づいて、対象者500の所定行動を検出したことを契機として、図3の機能ブロック図に示す機能を実行するように作用する。
 対象者移動量検出部111は、画像600に基づいて、対象者500を含む領域として、人物領域610を検出する。
 図4は、画像600において検出された人物領域610を示す図である。
 対象者移動量検出部111は、画像600から、人物である対象者500を含む領域を人物領域610として検出する。具体的には、対象者移動量検出部111は、画像600上で物体(オブジェクト)が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、人物領域610を検出し得る。物体が存在する領域は、画像600上で物体が含まれる矩形(候補矩形)として検出され得る。検出部100は、検出された候補矩形のうち、物体のカテゴリーが人物であると推定された候補矩形を検出することで、人物領域610を検出する。人物領域610は、ニューラルネットワーク(以下、「NN」と称する)を用いて検出され得る。NNによる人物領域610の検出方法としては、例えば、Faster R-CNN、Fast R-CNN、およびR-CNNといった公知の方法が挙げられる。画像600から人物領域610を検出するためのNNは、画像600と、当該画像600に対する正解として設定された人物領域610との組合せの教師データを用いて、画像600から人物領域610を検出(推定)するための学習が予めされる。
 対象者移動量検出部111は、時間的に前後するフレームの人物領域610の重心をそれぞれ算出することにより、人物領域610の重心の移動量を、対象者500の移動量(以下、「対象者移動量」とも称する)として検出し得る。なお、対象者移動量検出部111は、時間的に前後するフレームの人物領域610のいずれかの頂点(例えば、右上角)の移動量を、対象者500の移動量として検出してもよい。
 対象者移動量検出部111は、所定時間経過することによる、対象者500の移動量を検出する。所定時間は、例えば、画像600の隣接するフレームにおいて、先に撮影されたフレームが撮影された時間から、後に撮影されたフレームが撮影されるまでの時間である。所定時間は、対象者500の行動が所定行動に含まれるかどうかの判定精度の観点から、実験により、適当に設定され得る。
 特定部112は、人物領域610から、人の体に関する特徴点(以下、単に「特徴点620」とも称する)を検出する。
 図5は、特徴点620を示す図である。特徴点620には、関節点621、および頭部622が含まれ得る。
 特定部112は、対象者移動量検出部111により検出された人物領域610に基づいて、特徴点620を検出する。関節点621には、例えば、腰の関節点621a、621bが含まれる。頭部622は、例えば、対象者50の頭を含む領域(例えば、頭部矩形)の2つの対頂点である。関節点621および頭部622は、画像600における座標として検出され得る。頭部622は、画像600における、対象者50の頭の位置および面積を特定可能なパラメーターであればよく、対象者50の頭を含む円の内部領域の重心と、当該内部領域の半径の組合せであってもよい。特徴点620は、DeepPose等のNNを用いた公知の技術により検出され得る。DeepPoseについては、公知の文献(Alexander Toshev, et al. “DeepPose: Human Pose Estimation via DeepNeural Networks”, in CVPR, 2014)に詳細が記載されている。人物領域610から特徴点620を検出するためのNNは、人物領域610と、当該人物領域610に対する正解として設定された特徴点620との組合せの教師データを用いて、人物領域610から特徴点620を検出(推定)するための学習が予めされる。なお、特徴点620は、画像600から特徴点620を検出するためのNNを用いて、画像600から直接推定されてもよい。この場合、画像600から特徴点620を検出するためのNNは、画像600と、当該画像600に対する正解として設定された特徴点620との組合せの教師データを用いて、画像600から特徴点620を検出(推定)するための学習が予めされる。
 部位移動量検出部113は、特定部112により特定された特徴点620に基づいて、対象者500の所定部位の移動量(以下、「部位移動量」とも称する)を検出する。所定部位は、特定部112により特定された特徴点620の中の一部の特徴点620に基づいて特定される点であり得る。例えば、所定部位は腰の関節点621a、621bの重心であり得る。所定部位は、特定部112により特定された特徴点620の中の1つまたは複数の特徴点620であってもよい。所定部位は、右腰の関節点621a(または左腰の関節点621b)であってもよい。例えば、所定部位は、右腰の関節点621aおよび左腰の関節点621bの2つの関節点621であってもよい。以下、説明を簡単にするために、所定部位は、右腰の関節点621aであるものとして説明する。
 判定部114は、対象者移動量と部位移動量に基づいて、対象者500の行動が所定行動に含まれる行動かどうか判定する。具体的には、判定部114は、対象者移動量と部位移動量に基づいて、「所定行動である転倒および転落のいずれかである」、または「所定行動である転倒および転落のいずれでもない」、のいずれかであると判定する。
 図6Aおよび図6Bは、所定行動である転倒および転落のいずれかの行動であると判定される画像600の例を示す説明図である。
 図6Aは、対象者500が立位の姿勢にある、tフレーム目の画像600を示している。図6Bは、対象者500が臥位の姿勢にある、tフレームよりαフレーム後のt+αフレーム目の画像600を示している。αは、例えば1であるが、画像600のフレームレートに応じて変え得る。αは、所定行動に含まれるかどうかの判定精度の観点から、実験により、適当な値に設定され得る。立位の姿勢から、αフレーム後に臥位の姿勢になるような対象者500の行動には、転倒および転落が含まれる。
 図6Aと図6Bを比較すると、人物領域610の重心は比較的位置が変化していない。すなわち、対象者移動量が比較的小さい。一方、所定部位である、右腰の関節点621aは、右上の方向へ比較的大きく位置が変化している。すなわち、部位移動量が比較的大きい。よって、対象者500の位置が比較的変化することなく、対象者500の一部のみが比較的急激に変化している。このような特徴的な変化は、対象者500の姿勢が立位から臥位に比較的短時間に変化していることを示しており、対象者500が転倒および転落のいずれかの行動をした可能性が高いことを示している。このように、人物領域610の重心が比較的変化せず、所定部位が比較的急激に変化したときに、所定行動である転倒および転落のいずれかの行動をしたと判定できる。なお、対象者500がベッド700の上で上半身を起こすという起床の行動や、対象者500がベッド700の上で臥位の姿勢から座位の姿勢になるという離床の行動も、対象者500の位置が比較的変化することなく、対象者500の一部のみが比較的急激に変化する。このため、例えば、所定部位として頭部622や足の先端の関節点621c、621dを設定することにより、起床および離床の行動をしたと判定できる。すなわち、起床および離床を所定行動に含めてもよい。
 判定部114は、対象者移動量が第1閾値以下で、かつ部位移動量が第2閾値以上である場合に、対象者500の行動が所定行動に含まれる行動であると判定する。すなわち、判定部114は、対象者移動量が第1閾値以下で、かつ部位移動量が第2閾値上である場合に、対象者500の行動が所定行動である転倒および転落のいずれかであると判定する。第1閾値および第2閾値は、所定行動に含まれるかどうかの判定精度の観点から、実験により適当に設定され得る。なお、対象者移動量と、部位移動量とに基づく判定では、転倒および転落を区別しない。しかし、転倒か転落かは、人シルエットに基づく所定行動の検出において区別されているため、転倒および転落のいずれかであると判定できれば十分である。人シルエットに基づいて転倒または転落が検出されたときに、さらに、対象者移動量と、部位移動量とに基づいて、転倒および転落のいずれかであると判定することにより、転倒および転落の検出精度を向上できる。そして、後述するように、対象者移動量と、部位移動量とに基づいて、転倒および転落のいずれかであると判定された場合にのみ、出力部115により対象者500の行動に関する情報が出力されるため、人シルエットに基づく所定行動の誤検知を抑制できる。
 なお、所定部位を複数の特徴点620とし、それぞれの特徴点620についての部位移動量が検出される場合は、検出された複数の部位移動量のいずれか1つが第2閾値以上であれば、対象者500の行動が所定行動に含まれる行動であると判定され得る。検出された複数の部位移動量のすべてが第2閾値以上であれば、対象者500の行動が所定行動に含まれる行動であると判定されてもよい。また、検出された複数の部位移動量のうち第2閾値以上のものの数が第2閾値未満のものの数より多ければ、対象者500の行動が所定行動に含まれる行動であると判定されてもよい。
 第1閾値および第2閾値の少なくともいずれかは、画像600における対象者500の位置に応じて設定される。画像600における対象者500の位置は、カメラ130から対象者500までの距離に対応する。例えば、カメラ130の直下が画像600の中心に設定される場合は、カメラ130から対象者500までの距離は、画像600における、画像600の中心から対象者500までの距離に対応する。従って、第1閾値および第2閾値が、カメラ130から対象者500までの距離に応じて設定されることは、第1閾値および第2閾値が画像600における、画像600の中心から対象者500までの距離に応じて設定されることに対応する。例えば、画像600の中心から比較的短い距離の範囲内を第1範囲、画像600の中心から比較的遠い距離の範囲内を第3範囲、第1範囲と第3範囲の間の範囲を第2範囲とする。そして、第1範囲に設定する第1閾値、第2範囲に設定する第1閾値、第3範囲に設定する第1閾値の順に第1閾値を小さく設定し得る。また、第1範囲に設定する第2閾値、第2範囲に設定する第2閾値、第3範囲に設定する第2閾値の順に第2閾値を小さく設定し得る。すなわち、カメラ130から対象者500までの距離が長いほど所定行動に含まれると判定する基準を厳しい基準にする。これは、画像600の中心から遠い対象者500の画像の方が全体の画像600に占める割合が小さくなるためである。この傾向は、広角カメラで撮影された画像600のように、広角レンズの特性に起因して、画像600の中心の歪みは比較的小さく、周辺に行くに従い歪みが大きくなっているような場合に特に顕著になる。
 出力部115は、判定部114による対象者500の行動の判定結果が、対象者500が所定行動に含まれる行動であるという判定結果である場合、対象者500の行動に関する情報を、通信部120によりサーバー200に送信すること等により、出力する。対象者500の行動に関する情報は、対象者500の行動が所定行動のいずれかであることを示す第1情報、または、人シルエットに基づき検出された所定行動の確度(確率)が高いことを示す第2情報であり得る。第1情報は、例えば、「対象者500の行動が、転倒および転落のいずれかである」という情報である。第2情報は、例えば、「検出された行動である確率が高い」という情報である。制御部110は、上述したように、対象者500の行動に関する情報と関連付けて、人シルエットに基づいて検出された、対象者500の所定行動を示す行動特定情報をさらにサーバー200等に送信し得る。第1情報、第2情報、および行動特定情報には、対象者500のID(番号)等の対象者500を特定する情報、および画像600の撮影時間等が含まれることで関連付けされ得る。後述するように、サーバー200において、行動特定情報と、対象者500の行動に関する情報と、に基づいて、対象者500が、人シルエットに基づいて検出された所定行動をしたという最終判断がされ得る。
 また、制御部110により、人シルエットに基づいて対象者500の所定行動のいずれかが検出され、かつ、判定部114による対象者500の行動の判定結果が、対象者500が所定行動に含まれる行動である場合、制御部110が、対象者500が人シルエットに基づいて検出された所定行動をしたという最終判断をしてもよい。この場合、出力部115は、対象者500が所定行動をしたという最終判断を示す第3情報を、対象者500の行動に関する情報としてサーバー200等に送信(出力)し得る。なお、この場合、行動特定情報はサーバー200等に送信される必要はない。第3情報は、例えば、「対象者500が転倒した」という情報である。第3情報には、対象者500の氏名等の対象者500を特定する情報が含まれる。
 また、図3に示す制御部110の機能は、サーバー200により実行されてもよい。この場合、制御部110は、画像600をサーバー200へ送信するとともに、人シルエットに基づいて検出された、対象者500の所定行動を示す行動特定情報をサーバー200へ送信する。サーバー200は、画像600に基づいて、対象者移動量と部位移動量を検出し、対象者500の行動が所定行動に含まれる行動かどうか判定する。サーバー200は、対象者500の行動が所定行動に含まれる行動であると判定した場合は、対象者500が、行動特定情報が示す所定行動をしたという最終判断をする。
 (サーバー200)
 図7は、サーバー200の構成を示すブロック図である。サーバー200は、制御部210、通信部220、および記憶部230を備える。各構成要素は、バスによって、相互に接続されている。
 制御部210および通信部220の基本構成は、検出部100の対応する構成要素である、制御部110および通信部120と同様である。記憶部230は、RAM、ROM、HDD(Hard Disc Drive)等により構成される。
 制御部210は、通信部220により、検出部100から対象者500の行動に関する情報を受信する。制御部210は、検出部100から行動特定情報をさらに受信し得る。
 制御部21は、対象者500の行動に関する情報が、対象者500の行動が所定行動のいずれかであることを示す第1情報である場合、対象者500が、行動特定情報が示す所定行動をしたという最終判断をする。制御部21は、対象者500の行動に関する情報が、人シルエットに基づき検出された所定行動の確度(確率)が高いことを示す第2情報である場合も、同様に、対象者500が、行動特定情報が示す所定行動をしたという最終判断をする。制御部21は、行動特定情報が示す所定行動をしたという最終判断をしたときに、対象者500が所定行動(例えば、転倒)をしたことをスタッフ等に通知するためのイベント通知を、携帯端末400等に送信し得る。
 制御部21は、対象者500の行動に関する情報が、対象者500の所定行動をしたという最終判断を示す第3情報である場合、対象者500が所定行動をしたことをスタッフ等に通知するためのイベント通知を、携帯端末400等に送信し得る。
 サーバー200は、図3に示す機能を検出部100に代替して実行し得る。例えば、サーバー200は、検出部100から画像600を受信する。また、サーバー200は、人シルエットに基づいて検出された、対象者500の所定行動を示す行動特定情報を受信する。サーバー200は、行動特定情報を受信したことを契機として、図3に示す機能を実行することで、画像600に基づいて、対象者移動量と部位移動量を検出し、対象者500の行動が所定行動に含まれる行動かどうか判定する。サーバー200は、対象者500の行動が所定行動に含まれる行動であると判定した場合は、対象者500が、行動特定情報が示す所定行動をしたという最終判断をする。そして、サーバー200は、対象者500の所定行動をしたということを示す、対象者500の行動に関する情報を、イベント通知として携帯端末400へ送信し、または表示部(図示せず)に表示することにより出力する。
 また、サーバー200は、検出部100から画像600を受信し、検出部100に代替して、画像600から人シルエットを検出し、人シルエットに基づいて、対象者500の所定行動を検出してもよい。そして、対象者500の所定行動が検出されたことを契機として、図3に示す機能を実行することで、画像600に基づいて、対象者移動量と部位移動量を検出し、対象者500の行動が所定行動に含まれる行動かどうか判定する。サーバー200は、対象者500の行動が所定行動に含まれる行動であると判定した場合は、対象者500が、人シルエットに基づいて検出された所定行動をしたという最終判断をする。そして、サーバー200は、対象者500の所定行動をしたということを示す、対象者500の行動に関する情報を、イベント通知として携帯端末400へ送信し、または表示部(図示せず)に表示することにより出力する。
 (携帯端末400)
 図8は、携帯端末400の構成を示すブロック図である。携帯端末400は、制御部410、無線通信部420、表示部430、入力部440、および音声入出力部450を備える。各構成要素は、バスにより相互に接続されている。携帯端末400は、例えば、タブレット型コンピューター、スマートフォン、または携帯電話等の通信端末機器によって構成され得る。
 制御部410は、検出部100の制御部110の構成と同様に、CPU、RAM、ROMなどの基本構成を備える。
 無線通信部420は、Wi-Fi、Bluetooth(登録商標)などの規格による無線通信を行う機能を有し、アクセスポイント310を経由して、または直接に各装置と無線通信する。無線通信部420は、イベント通知をサーバー200から受信する。
 表示部430および入力部440は、タッチパネルであり、液晶などで構成される表示部430の表示面に、入力部440としてのタッチセンサーが設けられる。表示部430、入力部440によって、イベント通知を表示する。そして、イベント通知に関する対象者500への対応を促す入力画面を表示するとともに、当該入力画面に入力された、スタッフによるイベント通知への対応の意思を受け付けて、サーバー200へ送信する。
 音声入出力部450は、例えばスピーカーとマイクであり、無線通信部420を介して他の携帯端末400との間でスタッフ相互間の音声通話を可能にする。また、音声入出力部450は、無線通信部420を介して検出部100との間で音声通話を可能にする機能を備え得る。
 画像認識システム10の動作について説明する。
 図9は、画像認識システム10の動作を示すフローチャートである。本フローチャートは、プログラムに従い、検出部100の制御部110により実行され得る。なお、図3に示す機能がサーバー200により実行される場合は、本フローチャートは、プログラムに従い、サーバー200の制御部210により実行される。
 対象者移動量検出部111は、画像600から検出した人シルエットに基づいて、対象者500の所定行動が検出されたことを契機に、対象者移動量を検出する(S101)。対象者移動量は、時間的に隣接する画像600のフレームの、時間的に前のフレームから検出された人物領域610の重心に対する、時間的に後のフレームから検出された人物領域610の重心の移動量として検出され得る。
 特定部112は、画像600に基づいて特徴点620を特定する(S102)。
 部位移動量検出部113は、特定された特徴点620に基づいて、対象者500の部位移動量を検出する(S103)。部位移動量は、時間的に隣接する画像600フレームの、時間的に前のフレームから検出された所定部位に対する、時間的に後のフレームから検出された所定部位の移動量として検出される。
 判定部114は、対象者移動量が第1閾値以下で、かつ部位移動量が第2閾値以上かどうか判断する(S104)。
 判定部114は、対象者移動量が第1閾値以下で、かつ部位移動量が第2閾値以上ではないと判断した場合は(S104:NO)、対象者500の行動が所定行動に含まれないと判定する(S106)。
 判定部114は、対象者移動量が第1閾値以下で、かつ部位移動量が第2閾値以上であると判断した場合は(S104:YES)、対象者500の行動が所定行動に含まれると判定する(S105)。そして、出力部115は、対象者500の行動に関する情報を出力する(S107)。
 (第2実施形態)
 第2実施形態について説明する。本実施形態と第1実施形態とで異なる点は次の点である。第1実施形態は、対象者移動量と部位移動量とに基づいて、対象者500の行動が所定行動に含まれるかどうか判定する。一方、本実施形態は、対象者移動量と対象者500の頭部の面積の変化量とに基づいて、対象者500の行動が所定行動に含まれるかどうか判定する。その他の点においては、本実施形態は第1実施形態と同様であるため、重複する説明は省略または簡略化する。
 図10は、制御部110の機能ブロック図である。制御部110は、対象者移動量検出部(第1検出部)111、特定部112、頭部面積変化量検出部(第3検出部)116、判定部114、および出力部115として機能する。
 制御部110が、図10の機能ブロック図に示す機能を実行するように作用するのは、制御部110が、画像600から検出した人シルエットに基づいて、対象者500の所定行動を検出したときである。
 頭部面積変化量検出部116は、特定部112により特定された特徴点620のうち、頭部622に基づいて、対象者500の頭が占める画像600上の面積(以下、単に「頭部面積」とも称する)の変化量(以下、「頭部面積変化量」とも称する)を検出する。なお、頭部面積変化量は、頭部面積が増大する場合と、頭部面積が減少する場合とで区別可能な量であり得る。頭部面積変化量は、例えば、正負の符号が付されることにより、頭部面積が増大する場合と、頭部面積が減少する場合とが区別され得る。頭部面積変化量は、頭部面積が増大する場合と、頭部面積が減少する場合とにかかわらず、変化前後の頭部面積の差の大きさ(絶対値)を意味する。頭部面積変化量検出部116は、頭部622(例えば、頭部矩形の2つの対頂点)に基づいて頭部面積を算出して、所定時間の頭部面積変化量を検出する。
 判定部114は、対象者移動量と頭部面積変化量に基づいて、対象者500の行動が所定行動に含まれる行動かどうか判定する。所定行動には、例えば、起床、離床、転倒、および転落が含まれ得る。以下、説明を簡単にするために、所定行動は、転倒および転落であるものとして説明する。判定部114は、具体的には、対象者移動量と頭部面積変化量に基づいて、「所定行動である転倒および転落のいずれかである」、または「所定行動である転倒および転落のいずれでもない」、のいずれかであると判定する。
 図11Aおよび図11Bは、所定行動である転倒および転落のいずれかの行動であると判定される画像600の例を示す説明図である。
 図11Aは、対象者500が立位の姿勢にある、tフレーム目の画像600を示している。図11Bは、対象者500が臥位の姿勢にある、tフレームよりαフレーム後のt+αフレーム目の画像600を示している。αは、例えば1であるが、画像600のフレームレートに応じて変え得る。αは、所定行動に含まれるかどうかの判定精度の観点から、実験により、適当な値に設定され得る。立位の姿勢から、αフレーム後に臥位の姿勢になるような対象者500の行動には、転倒および転落が含まれる。
 図11Aと図11Bとを比較すると、人物領域610の重心は比較的変化していない。すなわち、対象者移動量が比較的小さい。一方、頭部622に基づいて検出される頭部面積は比較的大きく変化(減少)している。すなわち、頭部面積変化量が比較的大きい。頭部面積が変化するのは、対象者500の姿勢が立位から臥位に変化することで、カメラ130から対象者500の頭までの距離が比較的大きく変化するからである。頭部面積変化量は、カメラ130が広角カメラである場合、広角カメラの歪特性に起因してより大きくなり得る。図11Aおよび図11Bの例においては、対象者500の位置が比較的変化することなく、対象者500の頭部面積が比較的急激に変化している。このような特徴的な変化は、対象者500の姿勢が立位から臥位に比較的短時間に変化していることを示しており、対象者500が転倒および転落のいずれかの行動をしたことを示している。このように、人物領域610の重心が比較的変化せず、頭部面積が比較的急激に変化したときに、所定行動である転倒および転落のいずれかの行動をしたと判定できる。なお、対象者500がベッド700の上で上半身を起こすという起床の行動や、対象者500がベッド700の上で臥位の姿勢から座位の姿勢になるという離床の行動も、対象者500の位置が比較的変化することなく、対象者500の頭部面積が比較的急激に変化し得る。このため、例えば、人物領域610の重心が比較的変化せず、頭部面積は比較的大きく変化(増大)した場合に、起床および離床の行動をしたと判定できる。従って、起床および離床を所定行動に含めてもよい。
 判定部114は、対象者移動量が第1閾値以下で、かつ頭部面積変化量が第3閾値上である場合に、対象者500の行動が所定行動に含まれる行動であると判定する。すなわち、判定部114は、対象者移動量が第1閾値以下で、かつ頭部面積変化量が第3閾値上である場合に、対象者500の行動が所定行動である転倒および転落のいずれかであると判定する。第1閾値および第3閾値は、所定行動に含まれるかどうかの判定精度の観点から、実験により適当に設定され得る。
 第1閾値および第3閾値の少なくともいずれかは、画像600における対象者500の位置に応じて設定される。画像600における対象者500の位置は、カメラ130から対象者500までの距離に対応する。例えば、カメラ130の直下が画像600の中心に設定される場合は、カメラ130から対象者500までの距離は、画像600における、画像600の中心から対象者500までの距離に対応する。従って、第1閾値および第3閾値が、カメラ130から対象者500までの距離に応じて設定されることは、第1閾値および第3閾値が画像600における、画像600の中心から対象者500までの距離に応じて設定されることに対応する。例えば、画像600の中心から比較的短い距離の範囲内を第1範囲、画像600の中心から比較的遠い距離の範囲内を第3範囲、第1範囲と第3範囲の間の範囲を第2範囲とする。そして、第1範囲に設定する第1閾値、第2範囲に設定する第1閾値、第3範囲に設定する第1閾値の順に第1閾値を小さく設定し得る。また、第1範囲に設定する第3閾値、第2範囲に設定する第3閾値、第3範囲に設定する第3閾値の順に第3閾値を小さく設定し得る。すなわち、カメラ130から対象者500までの距離が長いほど所定行動に含まれると判定する基準を厳しい基準にし得る。これは、画像600の中心から遠い対象者500の画像の方が全体の画像600に占める割合が小さくなるためである。この傾向は、広角カメラで撮影された画像600のように、広角レンズの特性に起因して、画像600の中心の歪みは比較的小さく、周辺に行くに従い歪みが大きくなっているような場合に特に顕著になる。
 画像認識システム10の動作について説明する。
 図12は、画像認識システム10の動作を示すフローチャートである。本フローチャートは、プログラムに従い、検出部100の制御部110により実行され得る。なお、図10に示す機能がサーバー200により実行される場合は、本フローチャートは、プログラムに従い、サーバー200の制御部210により実行される。
 対象者移動量検出部111は、画像600から検出した人シルエットに基づいて、対象者500の所定行動を検出したことを契機に、対象者移動量を検出する(S201)。
 特定部112は、画像600に基づいて特徴点620である頭部622を特定する(S202)。
 頭部面積変化量検出部116は、特定された頭部622に基づいて、頭部面積を算出して、対象者500の頭部面積変化量を検出する(S203)。頭部面積変化量は、時間的に隣接する画像600フレームの、時間的に前のフレームから検出された頭部面積に対する、時間的に後のフレームから検出された頭部面積の変化量(減少量)として検出される。
 判定部114は、対象者移動量が第1閾値以下で、かつ頭部面積変化量が第3閾値以上かどうか判断する(S204)。
 判定部114は、対象者移動量が第1閾値以下で、かつ頭部面積変化量が第3閾値以上ではないと判断した場合は(S204:NO)、対象者500の行動が所定行動に含まれないと判定する(S206)。
 判定部114は、対象者移動量が第1閾値以下で、かつ頭部面積変化量が第3閾値以上であると判断した場合は(S204:YES)、対象者500の行動が所定行動に含まれると判定する(S205)。そして、出力部115は、対象者500の行動に関する情報を出力する(S207)。
 実施形態は以下の効果を奏する。
 撮影された画像に基づいて検出した対象者の移動量と、当該画像から特定した対象者の体に関する特徴点に基づいて検出した対象者の所定部位の移動量と、に基づいて対象者の行動が所定行動に含まれると判定したときに、対象者の行動に関する情報を出力する。これにより、撮影された画像に基づく人物の行動の推定精度を向上できる。
 さらに、所定時間の対象者移動量が第1閾値以下で、かつ、当該所定時間の部位移動量が第2閾値以上である場合に、対象者の行動が所定行動に含まれる行動であると判定する。これにより、簡単に撮影された画像に基づく人物の行動の推定精度を向上できる。
 さらに、特徴点を、頭部または関節点とする。これにより、簡単かつ効果的に撮影された画像に基づく人物の行動の推定精度を向上できる。
 撮影された画像に基づいて検出した対象者の移動量と、当該画像から特定した対象者の頭部に基づいて検出した対象者の頭部面積の変化量と、に基づいて対象者の行動が所定行動に含まれると判定した場合、対象者の行動に関する情報を出力する。これにより、撮影された画像に基づく人物の行動の推定精度を向上できる。
 さらに、所定時間の対象者移動量が第1閾値以下で、かつ、当該所定時間の頭部面積の変化量が第3閾値以上である場合に、対象者の行動が所定行動に含まれる行動であると判定する。これにより、簡単に撮影された画像に基づく人物の行動の推定精度を向上できる。
 さらに、第1閾値、第2閾値、および第3閾値の少なくともいずれかは、撮影装置から対象者までの距離に対応する、画像上の対象者の位置に応じて設定する。これにより、撮影された画像に基づく人物の行動の推定精度をさらに向上できる。
 さらに、所定部位を、特徴点の中の一部の特徴点に基づいて特定される点とする。これにより、撮影された画像に基づく人物の行動の推定精度をさらに効果的に向上できる。
 さらに、所定部位を、特徴点の中の1つまたは複数の特徴点とする。これにより、撮影された画像に基づく人物の行動の推定精度をさらに効果的に向上できる。
 さらに、所定行動を、起床、離床、転倒、および転落の少なくともいずれかとする。これにより、特定の行動に関する推定精度をさらに効果的に向上できる。
 さらに、画像の撮影装置を広角カメラとし、画像を、所定の領域を俯瞰する位置に設置された広角カメラにより撮影された当該所定の領域を含む画像とする。これにより、撮影された画像に基づく人物の行動の推定精度をさらに効果的に向上できる。
 以上に説明した画像認識システム10の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な画像認識システムが備える構成を排除するものではない。
 例えば、第1実施形態においては、所定部位を右腰の関節点621aとした例について説明した。しかし、第1実施形態における所定部位は、頭部622等であってもよい。
 また、検出部100、サーバー200、および携帯端末400は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。
 また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
 また、上述した画像認識システム10における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。
 本出願は、2019年8月21日に出願された日本特許出願(特願2019-151355号)に基づいており、その開示内容は、参照され、全体として、組み入れられている。

Claims (15)

  1.  撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する第1検出部と、
     前記画像に基づいて、前記対象者の体に関する特徴点を特定する特定部と、
     前記特定部により特定された前記特徴点に基づいて、前記対象者の所定部位の移動量を検出する第2検出部と、
     前記第1検出部により検出された、所定時間の前記対象者の移動量と、前記第2検出部により検出された、前記所定時間の前記対象者の所定部位の移動量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する判定部と、
     前記判定部により、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する出力部と、
     を有する画像処理システム。
  2.  前記判定部は、前記第1検出部により検出された、前記所定時間の前記対象者の移動量が第1閾値以下で、かつ、前記第2検出部により検出された、前記所定時間の前記対象者の所定部位の移動量が第2閾値以上である場合に、前記対象者の行動が前記所定行動に含まれる行動であると判定する、請求項1に記載の画像処理システム。
  3.  前記特徴点は、頭部または関節点である、請求項1または2に記載の画像処理システム。
  4.  撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する第1検出部と、
     前記画像に基づいて、前記対象者の体に関する特徴点である、前記対象者の頭部を特定する特定部と、
     前記特定部により特定された前記頭部に基づいて、前記頭部の面積を算出して、前記頭部の面積の変化量を検出する第3検出部と、
     前記第1検出部により検出された、所定時間の前記対象者の移動量と、前記第3検出部により検出された、前記所定時間の前記頭部の面積の変化量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する判定部と、
     前記判定部により、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する出力部と、
     を有する画像処理システム。
  5.  前記判定部は、前記第1検出部により検出された、前記所定時間の前記対象者の移動量が第1閾値以下で、かつ、前記第3検出部により算出された、前記所定時間の前記対象者の前記頭部の面積の変化量が第3閾値以上である場合に、前記対象者の行動が前記所定行動に含まれる行動であると判定する、請求項4に記載の画像処理システム。
  6.  前記第1閾値および前記第2閾値の少なくともいずれかは、前記撮影装置から前記対象者までの距離に対応する、前記画像上の前記対象者の位置に応じて設定される、請求項2に記載の画像処理システム。
  7.  前記第1閾値および前記第3閾値の少なくともいずれかは、前記撮影装置から前記対象者までの距離に対応する、前記画像上の前記対象者の位置に応じて設定される、請求項5に記載の画像処理システム。
  8.  前記所定部位は、前記特定部により特定された前記特徴点の中の一部の前記特徴点に基づいて特定される点である、請求項1~3、6のいずれか一項に記載の画像処理システム。
  9.  前記所定部位は、前記特定部により特定された前記特徴点の中の1つまたは複数の前記特徴点である、請求項1~3、6のいずれか一項に記載の画像処理システム。
  10.  前記所定行動は、起床、離床、転倒、および転落の少なくともいずれかである、請求項1~9のいずれか一項に記載の画像処理システム。
  11.  前記撮影装置は広角カメラであり、前記画像には、所定の領域を俯瞰する位置に設置された前記広角カメラにより撮影された前記領域が含まれる、請求項1~10のいずれか一項に記載の画像処理システム。
  12.  撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する手順(a)と、
     前記画像に基づいて、前記対象者の体に関する特徴点を特定する手順(b)と、
     前記手順(b)において特定された前記特徴点に基づいて、前記対象者の所定部位の移動量を検出する手順(c)と、
     前記手順(a)において検出された、所定時間の前記対象者の移動量と、前記手順(c)において検出された、前記所定時間の前記対象者の所定部位の移動量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する手順(d)と、
     前記手順(d)において、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する手順(e)と、
     を有する処理をコンピューターに実行させるための画像処理プログラム。
  13.  撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する手順(f)と、
     前記画像に基づいて、前記対象者の体に関する特徴点である、前記対象者の頭部を特定する手順(g)と、
     前記手順(g)において特定された前記頭部に基づいて、前記頭部の面積を算出して、前記頭部の面積の変化量を検出する手順(h)と、
     前記手順(f)において検出された、所定時間の前記対象者の移動量と、前記手順(h)において算出された、前記所定時間の前記対象者の前記頭部の面積の変化量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する手順(i)と、
     前記手順(i)において、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する手順(j)と、
     を有する処理をコンピューターに実行させるための画像処理プログラム。
  14.  画像処理システムに実行させる方法であって、
     撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する段階(a)と、
     前記画像に基づいて、前記対象者の体に関する特徴点を特定する段階(b)と、
     前記段階(b)において特定された前記特徴点に基づいて、前記対象者の所定部位の移動量を検出する段階(c)と、
     前記段階(a)において検出された、所定時間の前記対象者の移動量と、前記段階(c)において検出された、前記所定時間の前記対象者の所定部位の移動量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する段階(d)と、
     前記段階(d)において、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する段階(e)と、
     を有する画像処理方法。
  15.  画像処理システムに実行させる方法であって、
     撮影装置により撮影された、対象者を含む画像に基づいて、前記対象者の移動量を検出する段階(f)と、
     前記画像に基づいて、前記対象者の体に関する特徴点である、前記対象者の頭部を特定する段階(g)と、
     前記段階(g)において特定された前記頭部に基づいて、前記頭部の面積を算出して、前記頭部の面積の変化量を検出する段階(h)と、
     前記段階(f)において検出された、所定時間の前記対象者の移動量と、前記段階(h)において算出された、前記所定時間の前記対象者の前記頭部の面積の変化量と、に基づいて、前記対象者の行動が所定行動に含まれる行動かどうか判定する段階(i)と、
     前記段階(i)において、前記対象者の行動が前記所定行動に含まれる行動であると判定された場合に、前記対象者の行動に関する情報を出力する段階(j)と、
     を有する画像処理方法。
PCT/JP2020/026877 2019-08-21 2020-07-09 画像処理システム、画像処理プログラム、および画像処理方法 WO2021033453A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021540664A JP7351339B2 (ja) 2019-08-21 2020-07-09 画像処理システム、画像処理プログラム、および画像処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-151355 2019-08-21
JP2019151355 2019-08-21

Publications (1)

Publication Number Publication Date
WO2021033453A1 true WO2021033453A1 (ja) 2021-02-25

Family

ID=74660796

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/026877 WO2021033453A1 (ja) 2019-08-21 2020-07-09 画像処理システム、画像処理プログラム、および画像処理方法

Country Status (2)

Country Link
JP (1) JP7351339B2 (ja)
WO (1) WO2021033453A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7217820B1 (ja) 2022-01-24 2023-02-03 三菱電機株式会社 移動量特定装置、移動量特定方法及び移動量特定プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258830A (ja) * 2004-03-11 2005-09-22 Yamaguchi Univ 人物行動理解システム
JP2011123733A (ja) * 2009-12-11 2011-06-23 Denso Corp 乗員姿勢推定装置
JP2018106437A (ja) * 2016-12-27 2018-07-05 積水化学工業株式会社 行動評価装置、行動評価方法
JP2020014109A (ja) * 2018-07-18 2020-01-23 株式会社日立製作所 検出システム、および検出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258830A (ja) * 2004-03-11 2005-09-22 Yamaguchi Univ 人物行動理解システム
JP2011123733A (ja) * 2009-12-11 2011-06-23 Denso Corp 乗員姿勢推定装置
JP2018106437A (ja) * 2016-12-27 2018-07-05 積水化学工業株式会社 行動評価装置、行動評価方法
JP2020014109A (ja) * 2018-07-18 2020-01-23 株式会社日立製作所 検出システム、および検出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7217820B1 (ja) 2022-01-24 2023-02-03 三菱電機株式会社 移動量特定装置、移動量特定方法及び移動量特定プログラム
JP2023107613A (ja) * 2022-01-24 2023-08-03 三菱電機株式会社 移動量特定装置、移動量特定方法及び移動量特定プログラム

Also Published As

Publication number Publication date
JP7351339B2 (ja) 2023-09-27
JPWO2021033453A1 (ja) 2021-02-25

Similar Documents

Publication Publication Date Title
JP6137425B2 (ja) 画像処理システム、画像処理装置、画像処理方法、および画像処理プログラム
US20170143240A1 (en) Activity analysis, fall detection and risk assessment systems and methods
US11170522B2 (en) Storage medium storing image processing program, and image processor
US20020044682A1 (en) Method and apparatus for subject physical position and security determination
WO2016199495A1 (ja) 行動検知装置、該方法および該プログラム、ならびに、被監視者監視装置
JP2020123239A (ja) 姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法
JP6123971B1 (ja) 被監視者監視システム、被監視者監視装置および被監視者監視方法
KR102205964B1 (ko) 듀얼 카메라와 적외선 카메라를 이용한 낙상 예방 시스템 및 낙상 예방 방법
JP6048630B1 (ja) 行動検知装置および行動検知方法ならびに被監視者監視装置
WO2020145380A1 (ja) 介護記録装置、介護記録システム、介護記録プログラムおよび介護記録方法
JP2020027405A (ja) 物体検出プログラム、および物体検出装置
WO2021033453A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP7347577B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP2019197263A (ja) システム、およびシステムの制御方法
US20180322334A1 (en) Person Monitoring Device And Method, And Person Monitoring System
WO2020008726A1 (ja) 対象物体検出プログラム、および対象物体検出装置
JP2021033379A (ja) 画像処理システム、画像処理プログラム、および画像処理方法
WO2021024691A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP6870514B2 (ja) 見守り支援システム及びその制御方法
JP2020013185A (ja) 見守り装置および見守り装置の制御プログラム
WO2021033597A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP2022165483A (ja) 検出装置、検出システム、検出方法、および検出プログラム
JP7314939B2 (ja) 画像認識プログラム、画像認識装置、学習プログラム、および学習装置
JP7327396B2 (ja) 制御プログラム、レポート出力方法、およびレポート出力装置
JP2023121234A (ja) 補正システム、補正方法、および補正プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20854017

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021540664

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20854017

Country of ref document: EP

Kind code of ref document: A1