WO2020217812A1 - 被写体の状態を認識する画像処理装置及びその方法 - Google Patents

被写体の状態を認識する画像処理装置及びその方法 Download PDF

Info

Publication number
WO2020217812A1
WO2020217812A1 PCT/JP2020/012840 JP2020012840W WO2020217812A1 WO 2020217812 A1 WO2020217812 A1 WO 2020217812A1 JP 2020012840 W JP2020012840 W JP 2020012840W WO 2020217812 A1 WO2020217812 A1 WO 2020217812A1
Authority
WO
WIPO (PCT)
Prior art keywords
subject
image processing
point
detection
parts
Prior art date
Application number
PCT/JP2020/012840
Other languages
English (en)
French (fr)
Inventor
佐藤 俊介
広一 竹内
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Priority to SG11202110708XA priority Critical patent/SG11202110708XA/en
Publication of WO2020217812A1 publication Critical patent/WO2020217812A1/ja
Priority to US17/505,416 priority patent/US20220036056A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention particularly relates to an image processing device for recognizing the state of a subject and a method thereof.
  • Patent Document 1 discloses a device that recognizes a part of a human body and notifies whether or not a player is taking a correct posture in a golf swing or the like.
  • the part may not be detected and the result may be chipped due to the parting out of the image or the shielding by other objects. For example, when you sit on the ground and the tip of your foot is hidden by your body (self-shielding), and when the tip of your foot goes out of the screen and is cut off, the tip of your foot is both Unable to detect parts.
  • the position information of the human body parts may be similar between the case of self-shielding and the case of being cut off outside the screen, and there is a problem that it is difficult to distinguish between these states.
  • an object of the present invention is to make it possible to more accurately distinguish the state of the subject when some parts of the subject are not detected.
  • the image processing apparatus has a detection means for detecting a plurality of predetermined parts of a subject from an image, and an undetected portion of the predetermined plurality of parts in the detection result of the detection means. If there is, a determination means for determining the state of the subject based on the estimation means for estimating the undetected cause, the parts detected by the detection means, and the cause estimated by the estimation means. And.
  • it is a flowchart which shows an example of the processing procedure for determining the moving object shielding and the fixed object shielding.
  • it is a flowchart which shows an example of the processing procedure for determining the moving object shielding and the fixed object shielding.
  • it is a flowchart which shows an example of the processing procedure which classifies the feature amount of a subject. It is a figure which shows the example of the image taken by a plurality of cameras. It is a figure which shows the example of the image taken by a plurality of cameras. It is a figure for demonstrating the part of an automobile detected by a part detection part.
  • FIG. 1 is a diagram showing an overall configuration example of the information processing system 100 according to the present embodiment.
  • the information processing system 100 according to the present embodiment includes a camera 101, an analysis server 102, a recording server 103, and a terminal device 104.
  • the camera 101, the analysis server 102, and the recording server 103 are connected by the camera network 105.
  • the analysis server 102, the recording server 103, and the terminal device 104 are connected by the client network 106.
  • the camera network 105 and the client network 106 are configured by, for example, a LAN.
  • the camera 101 is an image pickup device composed of an image sensor, a lens, a motor for driving them, an MPU for controlling them, and the like, and captures moving images and converts them into electronic data.
  • the camera 101 is installed in a place where the user needs to be monitored, and the captured moving image (video data) is transmitted via the camera network 105.
  • the analysis server 102 is an information processing device such as a computer, and analyzes video data transmitted from the camera 101 or video data recorded on the recording server 103. In this analysis, recognition processing such as face recognition, person tracking, person flow measurement, intrusion detection, person attribute detection, weather detection, and traffic jam detection is performed according to the installation location. Then, the analysis server 102 aggregates the analysis results and notifies the user according to the settings.
  • the abnormal behavior is a behavior that is significantly different from the behavior normally observed at the place where the camera 101 is installed.
  • the behavior of falling, suddenly sitting down due to illness, or hitting a person or an object is an abnormal behavior.
  • behaviors that are significantly different from the standing walking normally observed in the corridor are regarded as abnormal behaviors.
  • the definition of abnormal behavior may differ depending on the location and situation in which the camera 101 is installed. For example, in the case of a skating rink or a frozen sidewalk in winter, a fall may not be included in the abnormal behavior.
  • the recording server 103 records the video data acquired from the camera 101 in a storage, and transmits the recorded video data in accordance with the requests of the analysis server 102, the terminal device 104, and the like. In addition to the video data, metadata showing the analysis result of the analysis server 102 is also recorded.
  • the storage is composed of a recording medium such as a hard disk and an MPU or the like. Instead of the recording medium, storage on the network such as NAS, SAN, or cloud service may be used.
  • the terminal device 104 is a computer provided with a display, and the video data acquired by the camera 101 is acquired through the recording server 103. Further, the terminal device 104 acquires the past video data recorded on the recording server 103, acquires the video data together with the analysis result of the analysis server 102, and receives the notification.
  • the camera 101, the analysis server 102, the recording server 103, and the terminal device 104 are different devices, but the present invention is not limited to such a configuration. ..
  • the analysis server 102 and the recording server 103 may be realized as different applications or virtual servers in one server device.
  • the analysis server 102 or the recording server 103 may be provided with the function of the terminal device 104, or the function of the analysis server 102 or the recording server 103 may be mounted on the camera 101.
  • FIG. 2 is a block diagram showing a functional configuration example in the information processing system according to the present embodiment.
  • the information processing system 100 includes a photographing unit 201, a parts detection unit 202, a feature amount calculation unit 203, a subject state estimation unit 204, a classification unit 205, a recognition unit 206, a storage unit 207, and a display unit 208. And has an operation unit 209.
  • the photographing unit 201 has a configuration included in the camera 101 shown in FIG.
  • the photographing unit 201 captures an image, converts it into electronic image data, and transmits it to the analysis server 102 and the recording server 103.
  • the parts detection unit 202, the feature amount calculation unit 203, the subject state estimation unit 204, the classification unit 205, and the recognition unit 206 are configured to be included in the analysis server 102 shown in FIG.
  • the parts detection unit 202 is composed of an MPU or the like, and detects a subject belonging to a predetermined category from the video data received from the photographing unit 201 and a predetermined part constituting the subject. In the present embodiment, for a subject belonging to the category of a person, the position information of the joint point on the image is detected.
  • the feature amount calculation unit 203 is composed of an MPU or the like, and extracts the feature amount of the subject using the parts detected by the parts detection unit 202.
  • the feature amount of the subject (person) is calculated by using the position information of the joint point.
  • the subject state estimation unit 204 is composed of an MPU or the like, and estimates the state of the subject detected by the parts detection unit 202 in the image. In this process, the undetected part of the subject and its cause are estimated as states. The specific state estimated in this embodiment will be described later. Not limited to the cause, any state that can be categorized as the state of the subject can be set as a state. For example, the brightness and image quality of the subject, and if the subject is a person, attributes such as gender and age, clothes, emotions, etc. It is also possible to consider a configuration in which the state of health is set.
  • the classification unit 205 is composed of an MPU or the like, and classifies the feature amount corresponding to the subject according to the state of the subject estimated by the subject state estimation unit 204.
  • the recognition unit 206 is composed of an MPU or the like, and recognizes a specific property of the subject by using the feature amount calculated by the feature amount calculation unit 203. In the present embodiment, it is a property to recognize that the subject person is behaving abnormally.
  • the storage unit 207 has a configuration included in the recording server 103 shown in FIG.
  • the storage unit 207 is composed of a recording medium such as a hard disk, an MPU, or the like, and records the video data captured by the photographing unit 201 on the recording medium.
  • metadata showing the analysis result of the analysis server 102 is also recorded.
  • the display unit 208 and the operation unit 209 are configured to be included in the terminal device 104 shown in FIG.
  • the display unit 208 is composed of a liquid crystal screen (display) and an MPU or the like that controls the liquid crystal screen (display), presents information to the user from the display, creates a user interface (UI) screen for performing operations, and displays the information on the display. ..
  • the operation unit 209 is composed of a switch, a touch panel, or the like, senses an operation by the user, and inputs the information to the terminal device 104.
  • a touch panel instead of the touch panel, another pointing device such as a mouse or a trackball may be used.
  • the detection target is not limited to this.
  • a specific person, vehicle type, text, etc. may be detected from the video, or an event, time zone, etc. may be recognized.
  • information such as audio and image metadata accompanying the video may be used for detection.
  • FIG. 4 is a schematic diagram showing an example in which the image captured by the photographing unit 201 is displayed on the display unit 208.
  • the camera 101 which is the shooting unit 201, is installed so as to shoot a portion to be monitored, and the current image shot by the camera is displayed on the display unit 208.
  • the user watches the video and checks whether any abnormality occurs in the monitored part.
  • the captured image is displayed as it is, but when the fallen person 402 is displayed as in the example shown in FIG. 4B, the display unit 208 displays the alarm 403. It is designed to call attention to users.
  • FIG. 4C shows a situation in which an alarm is unnecessary
  • FIG. 4D shows a situation in which an alarm is required.
  • both the left and right knees and ankles are missing, and the upper body parts have similar postures, so the difference in the feature amount based on the parts becomes small. I will end up. Therefore, if it is simply attempted to recognize a specific property of the subject, there is a high possibility that the example of FIG. 4C and the example of FIG. 4D will have the same recognition result.
  • a classification unit 205 is provided to deal with such a situation, and by classifying the person 404 and the person 405 separately, it is possible to prevent erroneous recognition by the recognition unit 206 and to improve the accuracy. We are trying to improve.
  • FIG. 5 is a flowchart showing an example of a processing procedure executed by the analysis server 102 each time a frame image of a video is received from the camera 101.
  • step S501 the parts detection unit 202 acquires a frame image of the received video as image data.
  • step S502 the parts detection unit 202 detects the person who is the subject and the position information of the joint point from the image data received in step S501.
  • the position information of the joint point detected by the part detection unit 202 in the present embodiment will be described with reference to FIG.
  • the parts detection unit 202 detects the following 14 joint points from the person 300. These include head apex 301, neck point 302, right shoulder point 303, right elbow point 304, right wrist point 305, left shoulder point 306, left elbow point 307, left wrist point 308, right hip joint point 309, right knee point 310, The right ankle point 311 and the left hip joint point 312, the left knee point 313, and the left ankle point 314.
  • the apex 301 is not exactly a joint of the human body, but here it is generically referred to as a joint point. Further, there is a connection relationship between two specific joint points, and the one closer to the body body is called the parent joint point, and the one farther from the body is called the child joint point.
  • the joint connection is displayed as an arrow from the parent joint point to the child joint point.
  • the specific connections are the following 11 sets. First, the neck point 302 and the head apex 301, the neck point 302 and the right shoulder point 303, the right shoulder point 303 and the right elbow point 304, the right elbow point 304 and the right wrist point 305, the neck point 302 and the left shoulder point 306, and the left shoulder point 306. And left elbow point 307, left elbow point 307 and left wrist point 308. Further, the right hip joint point 309 and the right knee point 310, the right knee point 310 and the right ankle point 311, the left hip joint point 312 and the left knee point 313, and the left knee point 313 and the left ankle point 314. The ones listed above are the parent joint points.
  • the part detection unit 202 detects the joint point by using a known method such as a method using a deep neural network shown in Non-Patent Document 1. Not all joint points are detected from one subject, and information "none" is given for joints that do not exist in the image. However, a subject whose all joint points are "none" is not included in the detection result.
  • the N persons detected by the parts detection unit 202 in step S502 are designated as P 1 , P 2 , ... PN , respectively.
  • each of the persons P i those listed by number in Figure 3 the point of articulation from the head top 301 to the left ankle point 314 J i1, J i2, and ⁇ ⁇ ⁇ J iM.
  • M 14.
  • the parts detection unit 202 performs both detection of the subject in the image and detection of the joints which are the parts.
  • the subject is detected by a method such as object recognition, and then each of them is detected.
  • the configuration may be such that parts are detected for the subject of.
  • the joint point is detected as a part of the human body, but the part to be detected is not limited to this.
  • the knuckles of both hands may be detected, or organs such as eyes, nose, and mouth may be detected.
  • joints, palms, soles, torso, head, buttocks, etc. may be detected in a plane manner, and upper arms, lower arms, thighs, shins, etc.
  • a person's clothing, accessories, belongings, etc. such as a uniform logo, a brim of a hat, and a tip of a white cane, may be detected as parts of the human body.
  • the feature amount calculation unit 203 for each of the person P 1, P 2, ⁇ P N, and calculates a feature amount in the manner previously described.
  • the feature amount of the person 300 calculated by the feature amount calculation unit 203 is calculated as follows. First, the position of the center of gravity is calculated from the coordinates in the image of all the detected joint points, and the relative coordinates from the center of gravity are obtained for all the detected joints. Then, the x value and the y value are alternately arranged in order from the apex 301 to the left ankle point 314 to form a 28-dimensional real value vector, which is used as the feature amount of the person 300. However, for the joint points that are "none", both the x value and the y value are set to 0.
  • the format and calculation method of this feature amount is just an example, and the calculation method of the feature amount is not limited to this method.
  • the feature amount may be calculated by using the distance between parts, the inclination of the connecting line segment, the area of the parts, the detection score of the parts detection unit 202, or the like, or by performing normalization.
  • the intermediate layer of the deep neural network obtained when estimating the part by the above-mentioned deep neural network is also used as the feature amount. You can also do it.
  • the intermediate layer may be subjected to processing such as normalization based on the maximum value or the like, and the value calculated by performing the process may be used as the feature amount.
  • step S504 the subject state estimation unit 204 estimates the state of the subject.
  • the state of the subject to be estimated in the present embodiment is indicated by six flags of screen bottom cutoff, screen left cutoff, screen right cutoff, screen cutoff, other person shielding, and self-shielding, and these are the subjects as independent flags. Granted for each. The details of the state estimation method will be described later with reference to FIG.
  • the classification unit 205 classifies the feature amount of the subject according to the state of the subject estimated in step S504.
  • the subjects are classified into a plurality of categories having different criteria for recognizing the properties of the subject.
  • subjects that are flagged as being cut off at the bottom of the screen, cut off on the left side of the screen, cut off on the right side of the screen, or cut off on the screen are classified into the "exclude” category.
  • subjects with the flag of blocking other people are classified in the category of "low priority”
  • those with only the flag of self-shielding are classified as "high priority”. Classify into categories.
  • those without any flags are classified into the "normal" category.
  • the recognition unit 206 recognizes the characteristics of each subject, that is, that it is taking an abnormal behavior.
  • the recognition of abnormal behavior is performed from normal behavior by locality-sensitive hash (LSH) as shown in Non-Patent Document 2, for example.
  • LSH locality-sensitive hash
  • a known method such as determining the degree of divergence is used.
  • LSH a score based on the hash distance is obtained, and if it exceeds the threshold value T, it is determined to be abnormal, otherwise it is determined to be normal, but here, the recognition method is changed based on the classification in step S505. .
  • the abnormal behavior may be recognized by using another method such as Bayesian determination or a neural network.
  • step S507 the terminal device 104 acquires video data together with the analysis result of the analysis server 102 (recognition result of the recognition unit 206). Then, the display unit 208 displays according to the recognition result in step S506. If even one subject is recognized as having abnormal behavior, an alarm is displayed in the video to alert the user. If this is not the case, the warning will not be displayed. This process does not interfere with the display of a normal subject. For example, the detected person may be emphasized with an extrinsic rectangle or parts may be displayed, and the result of classification in step S505 may be displayed near the person. It may be displayed in.
  • the bottom part of the screen, the left part of the screen, the right part of the screen, the parting on the screen, and the occlusion of another person are determined according to independent flows.
  • the order of this determination may be arbitrary, or may be processed in parallel. For each subject, the determination is made once according to these flows.
  • FIG. 6A is a flowchart showing an example of a processing procedure for determining the screen bottom cutoff in step S504.
  • the parts shown in FIG. 3 will be described as an example.
  • step S601 the subject state estimation unit 204 determines whether or not both the right ankle point 311 and the left ankle point 314 of the subject are "none" in the detection result of the parts detection unit 202. As a result of this determination, if at least one of them is not "None", it is considered that the screen bottom cutout is not set and the screen bottom cutout determination process is terminated without setting a flag. On the other hand, if both are "none", the process proceeds to step S602.
  • step S602 the subject state estimation unit 204 determines whether or not both the right knee point 310 and the left knee point 313 of the subject are "none" in the detection result of the parts detection unit 202. As a result of this determination, if at least one of them is not “none”, the process proceeds to step S603. Then, in step S603, the subject state estimation unit 204 selects the right knee point 310 and the left knee point 313, whichever is closer to the lower side of the screen, as a representative point. At this time, if one of the detection results of the part detection unit 202 is "none", the other is set as the representative point. On the other hand, if the result of the determination in step S602 is "none", the process proceeds to step S604.
  • step S604 the subject state estimation unit 204 determines whether or not both the right hip joint point 309 and the left hip joint point 312 of the subject are "none" in the detection result of the parts detection unit 202. As a result of this determination, if at least one of them is not “none", the process proceeds to step S605. Then, in step S605, the subject state estimation unit 204 selects the right hip joint point 309 and the left hip joint point 312, whichever is closer to the lower side of the screen, as a representative point. At this time, if one of the detection results of the part detection unit 202 is "none", the other is set as the representative point.
  • step S604 determines whether the result of the determination in step S604 is "none" or "none" in the detection results of the parts detection unit 202.
  • step S607 the subject state estimation unit 204 obtains the distance La between the representative point and the lower side of the screen, and determines whether or not the distance La is less than the predetermined threshold value L1. As a result of this determination, when the distance La is less than the threshold value L1, a flag is set as the screen undercut, and the screen undercut determination process is terminated. On the other hand, when the distance La is equal to or greater than the threshold value L1, the screen bottom cutout determination process is terminated without setting a flag as if the screen bottom cutoff is not set.
  • FIG. 6B is a flowchart showing an example of a processing procedure for determining the screen cutoff in step S504.
  • step S611 the subject state estimation unit 204 determines whether or not the head apex 301 of the subject is "none" in the detection result of the parts detection unit 202. As a result of this determination, if the head apex 301 of the subject is not "none", the screen cut-off determination process is terminated without setting a flag as not being a screen cut-out. On the other hand, if the head apex 301 of the subject is “none”, the process proceeds to step S612.
  • step S612 the subject state estimation unit 204 determines whether or not the neck point 302, the right shoulder point 303, and the left shoulder point 306 of the subject are all "none" in the detection result of the parts detection unit 202. As a result of this determination, if at least one is not "none", the process proceeds to step S613. Then, in step S613, the subject state estimation unit 204 selects, among the neck point 302, the right shoulder point 303, and the left shoulder point 306, the one closest to the upper side of the screen among those that are not “none” as representative points.
  • step S612 determines whether the neck point 302 is that the neck point 302, the right shoulder point 303, and the left shoulder point 306 are all "none"
  • the process proceeds to step S614.
  • step S614 the subject state estimation unit 204 selects as the representative point the joint point closest to the uppermost side among the joint points that are not “none” in the detection results of the parts detection unit 202.
  • step S615 the distance Lb between the representative point and the upper side of the screen is obtained, and it is determined whether or not the distance Lb is less than the predetermined threshold value L2. As a result of this determination, when the distance Lb is less than the threshold value L2, a flag is set as the screen is cut off, and the screen cut-out determination process is terminated. On the other hand, when the distance Lb is equal to or greater than the threshold value L2, the screen cut-off determination process is terminated without setting a flag as not being cut off on the screen.
  • FIG. 6C is a flowchart showing an example of a processing procedure for determining the screen right cutoff in step S504.
  • step S621 the subject state estimation unit 204 determines whether or not the subject state estimation unit 204 has a joint point determined to be "none" in the detection result of the parts detection unit 202. If, as a result of this determination, there is no joint point determined to be "none", the screen right-cutting determination process is terminated without setting a flag as not being a screen-right-cutting. On the other hand, if the result of the determination in step S621 has one or more joint points determined to be "none", the process proceeds to step S622.
  • step S622 the subject state estimation unit 204 obtains the distance between the parent joint point of the joint point and the right side of all the joint points determined to be “none”. Then, it is determined whether or not the minimum value Lc among these distances is less than the predetermined threshold value L3. As a result of this determination, when the minimum value Lc of the distance is less than the threshold value L3, a flag is set as if the screen is cut off on the right side of the screen, and the determination process of cutting off the right side of the screen is terminated. On the other hand, when the minimum value Lc of the distance is equal to or greater than the threshold value L3, the screen right cutoff determination process is terminated without setting a flag as not being the screen right cutoff.
  • the joint point determined to be “none” does not have a parent joint point, or if the parent joint point is also determined to be “none", the distance to the right side cannot be calculated.
  • the minimum value Lc is obtained by excluding the joint point. Further, when all are excluded and the minimum value Lc cannot be obtained, it is determined that the screen is not cut off on the right side.
  • the determination process of the left part of the screen is also performed in the same manner as the processing procedure shown in FIG. 6C. That is, by obtaining the distances between the parent joint point and the left side, and determining whether or not the minimum value among these distances is below the threshold value, it is similarly determined whether or not the left side of the screen is cut off.
  • FIG. 6D is a flowchart showing an example of the processing procedure for determining the occlusion of another person in step S504.
  • step S631 the subject state estimation unit 204 determines whether or not the subject state estimation unit 204 has a joint point determined to be "none" in the detection result of the parts detection unit 202. As a result of this determination, if there is no joint point determined to be "none", the determination process of shielding another person is terminated without setting a flag as not the shielding of another person. On the other hand, if the result of the determination in step S631 has one or more joint points determined to be "none", the process proceeds to step S632.
  • step S632 the subject state estimation unit 204 pays attention to the parent joint point of each of the joint points determined to be “none”. Then, when each circle having a radius R centered on the parent joint point is drawn, it is determined whether or not the joint point of any different subject is included in any of the circles. As a result of this determination, if even one joint point of a different subject is included, a flag is set as assuming that the subject is shielded from another person, and the determination process of shielding another person is terminated. On the other hand, if the joint points of different subjects are not included in any of the circles, the determination process of shielding another person is terminated without setting a flag as not the shielding of another person.
  • the joint point determined to be “none” does not have a parent joint point, or if the parent joint point is also determined to be "none", a circle with radius R cannot be drawn. In this case, the joint points are excluded to determine whether or not the joint points of different subjects are included in the circle. If all of them are excluded and no circle with radius R can be drawn, it is determined that the person is not shielded by another person.
  • the subject state estimation unit 204 subsequently performs self-shielding determination processing.
  • the self-shielding determination process when none of the flags are set in these determination processes and the part has a joint point determined to be "none" in the detection result of the part detection unit 202, the subject state estimation unit 204 Flags as self-shielding.
  • the state of the subject regarding the screen bottom cutoff, the screen left cutoff, the screen right cutoff, the screen cutoff, other person occlusion, and self-occlusion is estimated, and the characteristics of the subject are determined according to the subject state. I try to classify the quantities. As a result, it is possible to more appropriately recognize the scene in which an alarm or the like should be issued.
  • the integrated feature amount obtained by integrating the state of the subject with the feature amount estimated from the position of the joint point may be obtained and classified from the integrated feature amount.
  • the feature amount may be a feature amount obtained from the intermediate layer of the deep neural network.
  • a feature amount indicating the state of another subject useful for classification such as the movement of the subject may be used. It is not limited to.
  • FIG. 7 is a diagram for explaining the state of the subject displayed on the display unit 208 in more detail.
  • the examples shown in FIGS. 7 (a) to 7 (c) are images of a person walking from the bottom of the screen toward the back of the screen, and FIGS. 7 (d) to 7 (f) sit in front of the screen. It is a picture of a person.
  • the person 701 in FIG. 7A, the person 702 in FIG. 7B, and the person 703 in FIG. 7C are all the same person, and are walking from the bottom of the screen toward the back of the screen.
  • the person 704 in FIG. 7 (d), the person 705 in FIG. 7 (e), and the person 706 in FIG. 7 (c) are all the same person, and they are all sitting down.
  • the positional relationship is similar, so the positions of the joint points may also be similar.
  • the joint points of the person 702 in FIG. 7 (b) and the person 705 in FIG. 7 (e) are compared, the joint points of the legs and knees are not detected in the same manner, and the difference in position is within the range of blurring. It can fit. It is difficult to distinguish between the two if they are classified using only the features using the joint points.
  • the legs and knees may be hidden by the baggage 707 or the stairs 708.
  • the detection state and positional relationship of the joint points similar to those of the person 702 in FIG. 7 (b) and the person 705 in FIG. 7 (e) may occur. If features normalized by the size on the image are used, these differences also become difficult to identify.
  • the state of a person can be distinguished and classified more accurately.
  • time-series information from the frame images before and after, it can be recognized that the person is moving in the examples of FIGS. 7 (a) to 7 (c), and FIGS. 7 (d) to 7 (d)
  • FIGS. 7 (d) to 7 (f) it can be recognized that the person sits down and does not move.
  • FIGS. 7 (d) to 7 (f) it can be recognized that the person sits down and does not move.
  • FIGS. 7 (d) to 7 (f) a person who sits down and does not move can be recognized, and further, the example of FIG. 7 (g) or FIG. 7 (h). Distinguish between people who are shielded by baggage or the surrounding terrain, such as.
  • FIG. 8 is a block diagram showing a functional configuration example in the information processing system according to the present embodiment.
  • the subject state estimation unit 204 has the object recognition unit 802 and the terrain acquisition unit 803, and the classification unit 205 has the tracking unit 801.
  • the tracking unit 801 and the object recognition unit 802 and the terrain acquisition unit 803 are included in the subject state estimation unit 204 or the classification unit 205, but it is not always necessary to have such a configuration.
  • an additional functional block can be mounted on the camera 101 or a new server machine to communicate the results.
  • the tracking unit 801 is composed of an MPU or the like, and tracks a subject by using a known method such as template matching based on the video data received from the photographing unit 201 and the information of the parts detected by the parts detecting unit 202. Do.
  • the object recognition unit 802 is composed of an MPU or the like, and recognizes various objects from the video data received from the photographing unit 201 by using, for example, a general object recognition method as shown in Non-Patent Document 3.
  • the terrain acquisition unit 803 is composed of an MPU or the like, and acquires terrain information of a place where the photographing unit 201 is photographing.
  • the terrain information includes the positions of walls, stairs, and the like, the positions of fixed objects such as utility poles and signboards, and the position of the camera of the photographing unit 201, and is information representing the positional relationship of the photographed places.
  • Topographical information can be stored in advance in the analysis server 102, generated as three-dimensional information from building design drawings, etc., or generated by detecting columns, stairs, etc. from video data, and can be generated in advance. It shall be prepared.
  • the basic processing flow of the present embodiment is the same as that of FIG. 5, but in the present embodiment, in addition to the six types described in the first embodiment, the subject state estimation unit 204 shields and fixes moving objects.
  • the two objects of the object shield are similarly given as independent flags for each subject.
  • the classification method by the classification unit 205 is also different from that of the first embodiment. First, a method of estimating the state of the subject in the present embodiment will be described with reference to FIG.
  • FIG. 9A is a flowchart showing an example of the processing procedure for determining the moving object occlusion in step S504.
  • step S901 the object recognition unit 802 recognizes an object from the video data received from the photographing unit 201.
  • the object recognition unit 802 calculates the pair of the rectangle and the class of the object in the image by the number of recognized objects.
  • the subject state estimation unit 204 selects an object that may be shielding a person from the objects recognized in step S901 as a shielding candidate object.
  • This process excludes background classes such as sky, mountains, and clouds, and subclasses of people such as men and children.
  • an object of a class that a person may possess, such as a bag, a box, or a ball, is selected as a shielding candidate object.
  • the number of shielding candidate objects may be plural or zero.
  • the class of the object to be selected shall be determined in advance.
  • the object to be recognized by the object recognition unit 802 may be configured to be only the object of the class to be selected.
  • step S903 the subject state estimation unit 204 determines whether or not the subject state estimation unit 204 has a joint point determined to be "none" in the detection result of the parts detection unit 202. As a result of this determination, if there is no joint point determined to be "none", the determination process of the moving object shielding is terminated without setting a flag as not the moving object shielding. On the other hand, if the result of the determination in step S903 has one or more joint points determined to be "none", the process proceeds to step S904.
  • step S904 the subject state estimation unit 204 obtains the distance between the parent joint point of the joint point and the shielding candidate object selected in step S902 for all the joint points determined to be "none". Then, it is determined whether or not the minimum value Ld among these distances is less than the predetermined threshold value L4. As a result of this determination, when the minimum value Ld of the distance is less than the threshold value L4, a flag is set as a moving object shielding, and the moving object shielding determination process is terminated. On the other hand, when the minimum value Ld of the distance is the threshold value L4 or more, the determination process of the moving object shielding is terminated without setting a flag as not the moving object shielding. If there are no shielding candidate objects, it is determined that the object is not a moving object.
  • FIG. 9B is a flowchart showing an example of the processing procedure for determining the fixed object occlusion in step S504.
  • step S911 the terrain acquisition unit 803 acquires terrain information regarding the place where the photographing unit 201 is photographing.
  • step S912 the subject state estimation unit 204 calculates a fixed object included in the image captured by the photographing unit 201 as a range of polygons existing in the image based on the terrain information acquired in step S911. To do.
  • step S913 the subject state estimation unit 204 determines whether or not the subject state estimation unit 204 has a joint point determined to be “none” in the detection result of the parts detection unit 202. As a result of this determination, if there is no joint point determined to be "none", the determination process of the fixed object occlusion is terminated without setting a flag as not the fixed object occlusion. On the other hand, if the result of the determination in step S913 has one or more joint points determined to be "none", the process proceeds to step S914.
  • step S914 the subject state estimation unit 204 pays attention to the parent joint point of each joint point determined to be “none”, and selects a fixed object presumed to be in front of the parent joint point.
  • a fixed object F that overlaps the parent joint point is searched for. If it overlaps with the parent joint point, it is considered that the fixed object F is behind the parent joint point. Therefore, based on the terrain information, the fixed object in front of the fixed object F is placed in front of the parent joint point. Select as possible. If there is no fixed object F that overlaps the parent joint point, all the fixed objects are selected.
  • the anteroposterior relationship between the parent joint point and the fixed object may be determined by using a distance image camera or estimating a three-dimensional position.
  • step S915 the subject state estimation unit 204 obtains the distance between the parent joint point of each joint point determined to be "none" and the fixed object selected in step S914. Then, it is determined whether or not the minimum value Le among these distances is below the predetermined threshold value L5. As a result of this determination, when the minimum value Le of the distance is less than the threshold value L5, a flag is set as assuming that the fixed object is shielded, and the determination process of the fixed object shielding is terminated. On the other hand, when the minimum value Le of the distance is the threshold value L5 or more, the determination process of the fixed object shielding is terminated without setting a flag as not the fixed object shielding. If there is no fixed object to be selected in step S914, it is determined that the fixed object is not shielded.
  • step S504 the determination processing of screen bottom cutoff, screen left cutoff, screen right cutoff, screen top cutoff, other person shielding, moving object shielding, and fixed object shielding is performed.
  • the subject state estimation unit 204 subsequently performs self-shielding determination processing.
  • the self-shielding determination process when none of the flags are set in these determination processes and the part has a joint point determined to be "none" in the detection result of the part detection unit 202, the subject state estimation unit 204 Flags as self-shielding.
  • the feature amount of the subject is classified into four categories of "exclusion”, "normal”, “small joints”, and "normal external posture".
  • FIG. 10 is a flowchart showing an example of a processing procedure for classifying the feature amount of the subject by the classification unit 205 in step S505 in the present embodiment.
  • step S1001 the classification unit 205 branches the process according to the flag representing the state of the subject estimated in step S504.
  • branch No. 1 is selected, and the process proceeds to step S1002. It does not correspond to the first branch, and is flagged to indicate that the bottom of the screen is cut off, the left side of the screen is cut off, the right side of the screen is cut off, or the top of the screen is cut off, or the flag for blocking moving objects is set. If so, the second branch is selected and the process proceeds to step S1003. If it does not correspond to either No. 1 or No. 2 of the branch and the flag for blocking another person is set, the branch No. 3 is selected, classified as "small joints", and the process is terminated.
  • branch 4 is selected, classified as "normal outside posture", and the process is terminated. Further, if none of the flags are set and none of the branches 1 to 4 is set, the branch number 5 is selected, classified as "normal”, and the process is terminated.
  • step S1002 the classification unit 205 determines in step S506 whether or not the condition for the recognition unit 206 to sufficiently recognize the property of the target is satisfied.
  • the condition for the recognition unit 206 determines in step S506 whether or not the condition for the recognition unit 206 to sufficiently recognize the property of the target is satisfied.
  • the condition for the recognition unit 206 determines in step S506 whether or not the condition for the recognition unit 206 to sufficiently recognize the property of the target is satisfied.
  • the condition for the recognition unit 206 determines in step S506 whether or not the condition for the recognition unit 206 to sufficiently recognize the property of the target is satisfied.
  • the process is terminated by classifying it as "exclusion".
  • the conditions for sufficiently recognizing the properties of the object shown here are examples, and may be other conditions, or may be changed depending on the type of properties recognized by the recognition unit 206.
  • it may be a condition that the left and right wrist points 305 and 308 and the elbow points 304 and 307 are not all determined to be “none”.
  • it may be a condition that the two left and right ankle points 311 and 314 are not all determined to be "none”.
  • step S1003 is a process executed when the screen is cut off or a moving object is shielded.
  • the occlusion may be canceled by the movement of the person or the occlusion, so the final classification is determined using the time series information.
  • step S1003 the tracking unit 801 tracks the current subject using the image at a nearby time, and acquires the result at that time.
  • the video data for the current one second immediately before is acquired from the storage unit 207 of the recording server 103, and the result of parts detection for a person presumed to be the same as the current subject is acquired.
  • the one second immediately before is an example, and video data having another time width may be used.
  • the information may be acquired from the future video data as seen from the subject at the time of interest, for example, by waiting for 0.5 seconds and then acquiring the video data.
  • step S1004 the classification unit 205 calculates the moving speed of the subject using the tracking result in step S1003, and determines whether or not the moving speed is small.
  • the movement speed on the screen is obtained for each of the joint points that are not determined to be "none" during tracking, and whether the movement speed is small depending on whether the average speed is smaller than the predetermined threshold value V. Judge whether or not.
  • the process is terminated by classifying it into the "normal outside posture".
  • the moving speed is not low, the process proceeds to step S1005.
  • step S1005 among the joint points determined to be “none” in the current subject, the classification unit 205 has a joint point not determined to be “none” in the tracking result obtained in step S1003. Determine if it is. As a result of this determination, if there is one or more joint points that are not determined to be “none” in the tracking result, the process proceeds to step S1006, and if there is no joint point that is not determined to be “none", the step described above is performed. Proceed to S1002.
  • step S1006 the classification unit 205 estimates and complements the positions of the joint points that are determined to be “none” in the current subject and are not determined to be “none” in the tracking result from the tracking result.
  • the moving speed of the joint point is obtained from the tracking result, and the current position of the joint point is complemented by presuming that the head has moved to the current position at a constant velocity. Then, it is classified into "normal” and the process is terminated.
  • step S506 in this embodiment will be described.
  • the recognition unit 206 unconditionally determines that the items classified as "excluded” in step S505 are normal as in the first embodiment.
  • whether or not the behavior is abnormal is deviated from the normal behavior by the local sensitivity hash as in the first embodiment. Determine the degree.
  • hashes are created in advance based on different statistical models of normal behavior, and are used properly according to classification.
  • the statistical model used for determining the subject classified as "normal” the one learned using the image showing the normal whole body is used.
  • the statistical model used to determine the subject classified as "small joints” is a model learned from normal walking using images created by intentionally lacking joints.
  • the statistical model used for determining the subject classified into the "normal outside posture” the one learned by using the video of acting an action other than walking is used. Then, it is determined whether or not the behavior is abnormal by using different statistical models depending on the classification.
  • an appropriate recognition method can be taken according to the state of the subject, and the recognition accuracy can be further improved. ..
  • the basic configuration of the present embodiment is the same as that of FIG. 8, but there are a plurality of cameras 101, a plurality of video data are input to the analysis server 102, and the processing shown in the second embodiment is performed for each video.
  • the recording server 103 stores the images of the plurality of cameras and the processing results of the analysis server, respectively, and the terminal device 104 allows the user to view the images of the plurality of cameras, respectively, and abnormal behavior occurs with any of the cameras. A warning will be given if detected.
  • FIG. 11A is a schematic view showing an example of an image including the person 1101 whose feet are shielded by the stairs, and is the same as the image shown in FIG. 7 (h).
  • it since it is necessary to recognize from only the image of one camera, it is treated as, for example, "small joints".
  • the image shown in FIG. 11B can be obtained. If the image shown in FIG. 11B is obtained, all the joint points can be detected for the same person 1102. Therefore, when the image shown in FIG. 11B can be used, it is possible to avoid performing the process from the subject with few detected parts by giving priority to the process from the image shown in FIG. 11A.
  • the recognition result is obtained more accurately by giving priority to the recognition result.
  • the recognition unit 206 adds classification information to the recognition result for each of the images of the plurality of cameras 101. Then, when the recognition process is completed for the images of all the cameras, the recognition unit 206 detects whether or not the same subject is included in the images of the images of each camera. To detect whether they are the same or not, the tracking unit 801 is used to track between multiple cameras, or the information acquired by the terrain acquisition unit 803 is used to obtain information on overlapping visual fields between cameras and a subject on the image. It is possible to use a method of discriminating from the position of.
  • the recognition result classified as "normal” is given priority among the recognition results for that subject. For example, if the recognition result of the image classified as "normal” is normal, it is classified as "small joints" or "normal outside posture” by other cameras, and the reliability is obtained even if the recognition result of abnormal behavior is obtained. Is considered low, and the recognition result of these abnormal behaviors is ignored.
  • the recognition result is obtained based on more reliable information. It can be done and the accuracy can be improved.
  • FIG. 12 is a diagram for explaining the parts of the automobile detected by the parts detection unit 202 in the present embodiment.
  • the parts detection unit 202 From the automobile 1200, the parts detection unit 202 has a right headlight point 1201, a left headlight point 1202, a front license plate point 1203, a right front wheel point 1204, a left front wheel point 1205, a right rear wheel point 1206, and a left rear wheel point 1207. Is detected as a part point. Further, the parts detection unit 202 detects the bonnet center point 1208, the windshield center point 1209, the fuel filler port point 1210, the right rear light point 1211, the left rear light point 1212, and the rear license plate point 1213 as part points. As described above, the parts detection unit 202 detects 13 parts.
  • the right front wheel point 1204, the left front wheel point 1205, the right rear wheel point 1206, and the left rear wheel point 1207 are ground points. Further, in the example shown in FIG. 12, the right front wheel point 1204, the right rear wheel point 1206, the right rear light point 1211, and the rear license plate point 1213 are self-shielded.
  • the parent part point and the child part point There is a relationship between the parent part point and the child part point. The parent-child relationship may be reversed.
  • the front license plate point 1203 has the right headlight point 1201 and the left headlight point 1202 as parent part points
  • the rear license plate point 1213 has the right rear light point 1211 and the left rear light point 1212 as parent part points. And.
  • the relationship with the parent part point is used when there is a "none" part point. Therefore, it is desirable to make the parts existing at both ends of the front, back, left and right in a parent-child part relationship, or to specify the parent part point for an important part such as a license plate.
  • the definition of parts given here is an example, and different parts points may be defined for automobiles having different shapes such as trucks.
  • an automobile is taken as an example as a subject, but the same can be applied to an article holding a part that can be identified from an image and a living thing other than a human being.
  • the present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
  • a circuit for example, ASIC

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computational Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

画像処理装置に、画像から被写体の所定の複数のパーツを検出する検出手段と、前記検出手段の検出結果において、前記所定の複数のパーツのうち未検出の部位があった場合に、当該未検出の原因を推定する推定手段と、前記検出手段により検出されたパーツと、前記推定手段によって推定された原因とに基づいて、前記被写体の状態を判定する判定手段と、を備える。

Description

被写体の状態を認識する画像処理装置及びその方法
 本発明は、特に、被写体の状態を認識する画像処理装置及びその方法に関する。
 従来、映像処理の技術において、被写体のパーツを検出してその被写体の状態を認識する方法が提案されている。特許文献1には、人体の部位を認識してゴルフのスイングなどで正しい姿勢を取っているかどうかを通知する装置が開示されている。
特許第5881136号公報
Cao, Zhe, et al. "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields CVPR." (2017). ZHANG, Ying, et al. Video anomaly detection based on locality sensitive hashing filters. Pattern Recognition, 2016, 59: 302-311. Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.
 被写体のパーツを検出する方法では、映像の外への見切れや他の物体による遮蔽によって、そのパーツを検出できずに結果に欠けを生じることがある。例えば、地面に座り込んで足の先端が自分の身体で隠れてしまっている(自己遮蔽している)場合と、足の先端が画面外に出てしまって見切れた場合とでは、ともに足の先端のパーツを検出することができない。その結果、自己遮蔽した場合と画面外に見切れている場合とで人体パーツの位置情報が類似したものになることがあり、これらの状態を区別するのが困難となる課題がある。
 本発明は前述の問題点に鑑み、被写体の一部のパーツが検出されない場合に、被写体の状態をより精度よく区別できるようにすることを目的としている。
 本発明の1態様によれば、画像処理装置に、画像から被写体の所定の複数のパーツを検出する検出手段と、前記検出手段の検出結果において、前記所定の複数のパーツのうち未検出の部位があった場合に、当該未検出の原因を推定する推定手段と、前記検出手段により検出されたパーツと、前記推定手段によって推定された原因とに基づいて、前記被写体の状態を判定する判定手段と、を備える。
実施形態における情報処理システムの全体構成例を示す図である。 第1の実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。 パーツ検出部が検出する関節点の位置を説明するための図である。 撮影部で撮影している映像を表示部で表示している例を示す模式図である。 撮影部で撮影している映像を表示部で表示している例を示す模式図である。 撮影部で撮影している映像を表示部で表示している例を示す模式図である。 撮影部で撮影している映像を表示部で表示している例を示す模式図である。 映像のフレーム画像を受信するたびに解析サーバーが実行する処理手順の一例を示すフローチャートである。 画面見切れおよび他人物遮蔽を判定するための処理手順の一例を示すフローチャートである。 画面見切れおよび他人物遮蔽を判定するための処理手順の一例を示すフローチャートである。 画面見切れおよび他人物遮蔽を判定するための処理手順の一例を示すフローチャートである。 画面見切れおよび他人物遮蔽を判定するための処理手順の一例を示すフローチャートである。 表示部に表示される被写体の状態をより詳細に説明するための図である。 第2の実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。 第2の実施形態において、移動物遮蔽および固定物遮蔽を判定するための処理手順の一例を示すフローチャートである。 第2の実施形態において、移動物遮蔽および固定物遮蔽を判定するための処理手順の一例を示すフローチャートである。 第2の実施形態において、被写体の特徴量を分類する処理手順の一例を示すフローチャートである。 複数のカメラで撮影された映像の例を示す図である。 複数のカメラで撮影された映像の例を示す図である。 パーツ検出部が検出する自動車のパーツを説明するための図である。
 (第1の実施形態)
 以下、本発明の第1の実施形態について、図面を参照しながら説明する。図1は、本実施形態における情報処理システム100の全体構成例を示す図である。図1に示すように、本実施形態に係る情報処理システム100は、カメラ101と、解析サーバー102と、録画サーバー103と、端末装置104とを有している。カメラ101、解析サーバー102、および録画サーバー103は、カメラネットワーク105によって接続される。また、解析サーバー102、録画サーバー103、および端末装置104は、クライアントネットワーク106によって接続される。カメラネットワーク105およびクライアントネットワーク106は、例えばLANによって構成される。
 カメラ101は、撮像素子、レンズ及びこれらを駆動するモーター、並びにこれらを制御するMPU等によって構成される撮像装置であり、動画を撮影して電子データに変換する。カメラ101は利用者が監視を要する場所に設置され、撮影した動画(映像データ)を、カメラネットワーク105を介して送信する。
 解析サーバー102は例えば計算機などの情報処理装置であり、カメラ101から送信される映像データ、または録画サーバー103に記録された映像データを解析する。この解析では、設置個所に応じて例えば顔認証、人物追跡、人流計測、侵入検知、人物属性検出、天候検知、渋滞検知などの認識処理を行う。そして、解析サーバー102は解析結果を集計して、設定に従って利用者に通知する。
 本実施形態においては、映像中で異常な行動をとった人物を認識する方法について説明する。ここで、異常な行動とはカメラ101の設置された場所において、通常観測される行動と大きく異なる行動である。例えば廊下においては、転倒したり、具合が悪くなって急に座り込んだり、人や物に向かって殴りかかったりする行動が異常な行動である。これら以外にも、廊下で通常観測される立位の歩行とは大きく異なった行動を異常な行動とする。異常な行動の定義はカメラ101が設置された場所や状況によって異なっていてもよく、例えばスケートリンクや冬場の凍った歩道であれば、転倒が異常な行動に含まれないこともある。
 録画サーバー103は、カメラ101から取得した映像データを保有するストレージに記録し、解析サーバー102、端末装置104などの要求に従って記録した映像データを送信する。また、映像データとともに、解析サーバー102の解析結果を示すメタデータなども併せて記録する。ストレージはハードディスクなどの記録メディアおよびMPU等によって構成される。記録メディアの代わりに、NASやSAN、クラウドサービスなどのネットワーク上のストレージを用いてもよい。
 端末装置104はディスプレイを備えた計算機であり、カメラ101で取得した映像データを、録画サーバー103を通じて取得する。また、端末装置104は、録画サーバー103に記録された過去の映像データを取得したり、解析サーバー102の解析結果を合わせて映像データを取得したり、通知を受け取ったりする。
 なお、本実施形態に係る情報処理システム100では、カメラ101、解析サーバー102、録画サーバー103、および端末装置104はそれぞれ異なる装置としているが、本発明はこのような構成に限定されるものではない。例えば解析サーバー102、および録画サーバー103を1つのサーバー装置の中の異なるアプリケーションや仮想サーバーとして実現してもよい。また、解析サーバー102または録画サーバー103に端末装置104の機能を設けてもよいし、解析サーバー102または録画サーバー103の機能をカメラ101に搭載してもよい。
 図2は、本実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。図2に示すように、情報処理システム100は、撮影部201、パーツ検出部202、特徴量算出部203、被写体状態推定部204、分類部205、認識部206、記憶部207、表示部208、および操作部209を有する。
 撮影部201は、図1に示すカメラ101に含まれる構成である。撮影部201は、映像を撮影して電子的な映像データに変換し、解析サーバー102および録画サーバー103に送信する。
 パーツ検出部202、特徴量算出部203、被写体状態推定部204、分類部205、および認識部206は、図1に示す解析サーバー102に含まれる構成である。
 パーツ検出部202は、MPU等によって構成され、撮影部201から受信した映像データから予め定められたカテゴリに属する被写体と、その被写体を構成する所定のパーツとを検出する。本実施形態においては、人物のカテゴリに属する被写体について、その関節点の映像上の位置情報を検出する。
 特徴量算出部203は、MPU等によって構成され、パーツ検出部202で検出したパーツを用いて、被写体の特徴量を抽出する。本実施形態においては、関節点の位置情報を用いて、被写体(人物)の特徴量を算出する。
 被写体状態推定部204は、MPU等によって構成され、パーツ検出部202が検出した被写体について、その映像中の状態を推定する。この処理では、被写体の検出されなかったパーツとその原因とを状態として推定する。本実施形態で推定する具体的な状態については後述する。なお、原因に限らず、被写体の状態として類別できるものであれば状態とすることができ、例えば被写体の明るさや画質、また被写体が人物であるならば性別や年齢などの属性、服装、感情や健康状況などを状態とする構成も考えられる。
 分類部205は、MPU等によって構成され、被写体状態推定部204が推定した被写体の状態に応じて、被写体に対応した特徴量を分類する。
 認識部206は、MPU等によって構成され、特徴量算出部203で算出された特徴量を用いて、被写体の特定の性状を認識する。本実施形態においては、被写体の人物が異常な行動をとっていることを認識すべき性状とする。
 記憶部207は、図1に示す録画サーバー103に含まれる構成である。記憶部207は、ハードディスクなどの記録メディアおよびMPU等によって構成され、撮影部201が撮影した映像データを記録メディアに記録する。また、解析サーバー102の解析結果を示すメタデータもあわせて記録する。
 表示部208および操作部209は、図1に示す端末装置104に含まれる構成である。表示部208は、液晶画面(ディスプレイ)とこれを制御するMPU等によって構成され、ディスプレイから利用者に情報を提示し、また、操作を行うユーザーインターフェース(UI)画面を作成してディスプレイに表示する。
 操作部209は、スイッチやタッチパネル等によって構成され、利用者による操作を感知してその情報を端末装置104に入力する。なお、タッチパネルの代わりにマウスやトラックボールなど他のポインティングデバイスを用いてもよい。
 本実施形態においては映像から異常行動を検出する例について説明するが、検出対象はこれに限らない。例えば映像から特定の人物、車種、テキストなどを検出したり、イベントや時間帯などを認識したりしてもよい。また、映像に付随する音声や画像のメタデータなどの情報を検出に用いてもよい。
 次に、図4を用いて、本実施形態における情報処理装置の動作について説明する。
 図4は、撮影部201で撮影している映像を表示部208で表示している例を示す模式図である。撮影部201であるカメラ101は、監視対象とする箇所を撮影するように設置され、表示部208にカメラで撮影された現在の映像が表示される。利用者は映像を見て、監視対象箇所に異常が発生しないかをチェックしている。
 図4Aに示す例のように特に異常がない場合は、撮影された映像がそのまま表示されるが、図4Bに示す例のように転倒した人物402が映ると、表示部208は警報403を表示して利用者に注意を促すようになっている。
 図4Cの見切れた人物404と、図4Dの通路で座り込んでしまった人物405とを比較すると、図4Cは警報が不要な状況であり、図4Dは警報が必要な状況である。しかし、人物404と人物405との姿勢を比較すると、どちらも左右の膝と足首が欠けており、上半身の部分については似通った姿勢であるため、パーツに基づく特徴量においては差が小さくなってしまう。そのため、単に被写体の特定の性状を認識しようとすると、図4Cの例も図4Dの例も同じ認識結果となる可能性が高い。つまり、警報が出ない場合は図4Dにおいて座り込みの状態であることを見逃し、警報が出た場合は図4Cにおいて誤報となり、いずれにせよ誤った結果となる可能性が高い。
 本実施形態においては、このような状況に対処するために分類部205が備わっており、人物404と人物405とを区別して分類することによって、認識部206での誤認識を防止し、精度の向上を図っている。
 図5は、カメラ101から映像のフレーム画像を受信するたびに解析サーバー102が実行する処理手順の一例を示すフローチャートである。
 まず、ステップS501において、パーツ検出部202は、受信した映像のフレーム画像を画像データとして取得する。
 次に、ステップS502において、パーツ検出部202は、ステップS501で受信した画像データから、被写体である人物と、その関節点の位置情報を検出する。ここで、本実施形態においてパーツ検出部202が検出する関節点の位置情報について、図3を用いて説明する。
 パーツ検出部202は、人物300から以下の14個の関節点を検出する。これらは、頭頂点301、首点302、右肩点303、右肘点304、右手首点305、左肩点306、左肘点307、左手首点308、右股関節点309、右膝点310、右足首点311、左股関節点312、左膝点313、左足首点314である。頭頂点301は正確には人体の関節ではないが、ここでは関節点として総称することにする。また、特定の2つの関節点には接続の関係があり、身体の胴体に近い方を親関節点、遠い方を子関節点と呼ぶことにする。
 図3においては、関節の接続を親関節点から子関節点への矢印として表示している。具体的な接続は以下の11組である。まず、首点302と頭頂点301、首点302と右肩点303、右肩点303と右肘点304、右肘点304と右手首点305、首点302と左肩点306、左肩点306と左肘点307、左肘点307と左手首点308である。さらに、右股関節点309と右膝点310、右膝点310と右足首点311、左股関節点312と左膝点313、左膝点313と左足首点314である。それぞれ先に挙げた方が親関節点である。
 パーツ検出部202は、例えば非特許文献1に示された深層ニューラルネットワークを用いた手法などの公知の手法を用いて、関節点の検出を行う。一人の被写体から関節点が全て検出されるとは限らず、映像中に存在しない関節については「なし」という情報が与えられる。ただし、全ての関節点が「なし」であるような被写体は検出結果には含まないものとする。
 ここで、ステップS502でパーツ検出部202が検出したN名の人物をそれぞれP、P、・・・Pとする。そして、人物Pについてそれぞれ、関節点を頭頂点301から左足首点314まで図3の番号順に並べたものをJi1、Ji2、・・・JiMとする。ここではM=14である。
 なお、本実施形態においては、パーツ検出部202は映像中の被写体の検出と、そのパーツである関節の検出との両方を行うが、まず被写体を物体認識などの手法で検出してから、それぞれの被写体についてパーツの検出を行うような構成でもよい。また、本実施形態では関節点を人体のパーツとして検出しているが、検出対象のパーツはこれに限るものではない。例えば両手の指の関節などを検出してもよいし、目、鼻、口などの器官を検出してもよい。また、関節という点ではなく、手のひら、足の裏、胴体、頭部、臀部などを面的に検出してもよいし、上腕、下腕、太腿、脛などを棒状の部位として検出しても良い。さらに、制服のロゴ、帽子のつば、白杖の先端など、人物の衣類や付属物、所持品などを人体のパーツとみなして検出してもよい。
 次に、ステップS503において、特徴量算出部203は、人物P、P、・・・Pのそれぞれについて、前述した方法で特徴量を算出する。本実施形態においては、特徴量算出部203が算出する人物300の特徴量は以下のように算出する。まず、検出された全ての関節点の画像中の座標から重心位置を算出し、検出された全ての関節について、重心からの相対座標をそれぞれ求める。そして頭頂点301から左足首点314まで順番に、x値とy値とを交互に並べて28次元実数値ベクトルを構成し、これを人物300の特徴量とする。ただし、「なし」である関節点については、x値とy値をともに0とする。
 なお、この特徴量の形式と算出方法はあくまで一例であり、特徴量の算出方法はこの方法に限定されない。例えばパーツ間の距離や結ぶ線分の傾き、パーツの面積、パーツ検出部202の検出スコアなどを用いたり、正規化を行ったりして特徴量を算出してもよい。さらに、ここではパーツの推定結果を用いて算出した特徴量の例について説明したが、他に前述の深層ニューラルネットワークによるパーツの推定を行う際に得られる深層ニューラルネットワークの中間層を特徴量とすることもできる。その中間層を、例えば最大値などに基づいて正規化するなどの処理を行って算出した値を特徴量にするなどしてもよい。
 次に、ステップS504において、被写体状態推定部204は、被写体の状態を推定する。本実施形態で推定を行う被写体の状態は、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽、自己遮蔽の6つのフラグで示され、これらは独立したフラグとして、被写体ごとに付与される。状態の推定方法の詳細については図6を用いて後述する。
 次に、ステップS505において、分類部205は、ステップS504で推定した被写体の状態に応じて、被写体の特徴量を分類する。本実施形態では、被写体の性状を認識するための基準が異なる複数のカテゴリに分類する。まず、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れのいずれかのフラグが立っている被写体は、「除外」のカテゴリに分類する。一方で、「除外」に分類されないもののうち、他人物遮蔽のフラグが立っている被写体は「優先度低」のカテゴリに分類し、自己遮蔽のフラグのみ立っているものは「優先度高」のカテゴリに分類する。また、どのフラグも立っていないものは「通常」のカテゴリに分類する。
 次に、ステップS506において、認識部206は、それぞれの被写体の特徴量について、性状の認識、ここでは異常行動を取っていることの認識を行う。本実施形態においては、一部のカテゴリ(この場合は「除外」)を除き、異常行動の認識には、例えば非特許文献2に示すような、局所性鋭敏型ハッシュ(LSH)によって正常行動からの乖離度合いを判定するなどの公知の手法を用いる。LSHではハッシュ距離に基づくスコアを求め、それが閾値Tを上回った場合に異常、そうでない場合は正常であると判定するが、ここでステップS505における分類に基づいて認識の方法を変えるようにする。なお、ベイズ判定やニューラルネットワークなど他の方法を用いて異常行動の認識を行っても良い。
 まず、「除外」に分類されたものについては無条件で正常と判定する。これは、見切れによって情報が欠けた特徴量については、結果が不安定となりやすく、誤報を生じやすいためである。その他の分類についてはLSHを用いて判定を行うが、「通常」は閾値Tをそのまま用いるのに対し、「優先度低」の場合はTより大きい閾値T1、「優先度高」の場合はTより小さい閾値T2を用いて判定を行う。なお、閾値T,T1,T2については、LSHの学習時によってあらかじめ好適な値を設定しておく。
 他人物遮蔽の場合は、見切れと同様に結果が不安定となりやすく誤報が発生しやすい。また、他の人物が近くにいるため、実際に異常行動が発生していたとしてもすぐに救助が期待できる。したがって、他人物遮蔽のフラグが立っている場合は「優先度低」として警報を出しにくいように判定を行う。一方で、自己遮蔽については、異常な姿勢を実際に取っている可能性が高いため、自己遮蔽のフラグのみが立っている場合は「優先度高」として警報を出しやすいようにして判定を行う。
 次に、ステップS507において、端末装置104は、解析サーバー102の解析結果(認識部206の認識結果)とともに映像データを取得する。そして、表示部208は、ステップS506における認識の結果に応じた表示を行う。異常行動が認識された被写体が一つでもあった場合は、映像中に警報表示を行い、利用者に注意を促すようにする。なお、そうでない場合は特に警告表示を行わないようにする。この処理では、正常な被写体の表示を妨げるものではなく、例えば検出した人物を外接矩形で強調したり、パーツの表示を行ったりしてもよいし、ステップS505での分類の結果を人物のそばに表示してもよい。
 以上のようにして、被写体のパーツの状態に応じて好適な処理を行うことによって、誤報を抑えて高い精度で被写体の性状を認識することができる。
 次に、ステップS504における被写体の状態を推定する方法の詳細について説明する。前述したように、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽については、それぞれ独立のフローに従って判定を行う。この判定の順序はどのようにしてもよいし、並列に処理してもよい。それぞれの被写体について、これらのフローに従って一度ずつ判定を行う。
 図6Aは、ステップS504における、画面下見切れを判定するための処理手順の一例を示すフローチャートである。以下、図3に示したパーツを例に説明する。
 まず、ステップS601において、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の右足首点311と左足首点314とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合には画面下見切れではないものとしてフラグを立てずに画面下見切れの判定処理を終了する。一方、どちらも「なし」である場合はステップS602に進む。
 次に、ステップS602においては、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の右膝点310と左膝点313とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合にはステップS603に進む。そして、ステップS603において、被写体状態推定部204は、右膝点310と左膝点313とのうち、画面の下辺に近い方を代表点として選択する。このとき、パーツ検出部202の検出結果において片方が「なし」である場合には、そうでない方を代表点とする。一方、ステップS602の判定の結果、どちらも「なし」である場合はステップS604に進む。
 ステップS604においては、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の右股関節点309と左股関節点312とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合にはステップS605に進む。そして、ステップS605において、被写体状態推定部204は、右股関節点309と左股関節点312とのうち、画面の下辺に近い方を代表点として選択する。このとき、パーツ検出部202の検出結果において片方が「なし」である場合には、そうでない方を代表点とする。
 一方、ステップS604の判定の結果、どちらも「なし」である場合はステップS606に進む。そして、ステップS606において、被写体状態推定部204は、パーツ検出部202の検出結果の中の「なし」ではない関節点のうち、最も下辺に近いものを代表点として選択する。
 ステップS607においては、被写体状態推定部204は、代表点と画面の下辺との距離Laを求め、距離Laが予め定められた閾値L1を下回るかどうかを判定する。この判定の結果、距離Laが閾値L1を下回った場合は、画面下見切れであるものとしてフラグを立て、画面下見切れの判定処理を終了する。一方で、距離Laが閾値L1以上である場合は、画面下見切れではないものとしてフラグを立てずに画面下見切れの判定処理を終了する。
 図6Bは、ステップS504における、画面上見切れを判定するための処理手順の一例を示すフローチャートである。
 まず、ステップS611において、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の頭頂点301が「なし」であるかどうかを判定する。この判定の結果、被写体の頭頂点301が「なし」でない場合は、画面上見切れではないものとしてフラグを立てずに画面上見切れの判定処理を終了する。一方、被写体の頭頂点301が「なし」である場合はステップS612に進む。
 ステップS612においては、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の首点302、右肩点303、左肩点306が全て「なし」であるかどうかを判定する。この判定の結果、少なくとも1つが「なし」でない場合にはステップS613に進む。そして、ステップS613において、被写体状態推定部204は、首点302、右肩点303、左肩点306のうち、「なし」でないものの中で画面の上辺に最も近いものを代表点として選択する。
 一方、ステップS612の判定の結果、首点302、右肩点303、左肩点306が全て「なし」である場合はステップS614に進む。そして、ステップS614において、被写体状態推定部204は、パーツ検出部202の検出結果の中の「なし」ではない関節点のうち、最も上辺に近いものを代表点として選択する。
 ステップS615においては、代表点と画面の上辺との距離Lbを求め、距離Lbが予め定められた閾値L2を下回るかどうかを判定する。この判定の結果、距離Lbが閾値L2を下回った場合は、画面上見切れであるものとしてフラグを立て、画面上見切れの判定処理を終了する。一方で、距離Lbが閾値L2以上である場合は、画面上見切れではないものとしてフラグを立てずに画面上見切れの判定処理を終了する。
 図6Cは、ステップS504における、画面右見切れを判定するための処理手順の一例を示すフローチャートである。
 まず、ステップS621において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、画面右見切れではないものとしてフラグを立てずに画面右見切れの判定処理を終了する。一方、ステップS621の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS622に進む。
 そして、ステップS622において、被写体状態推定部204は、「なし」と判定された関節点のすべてについて、その関節点の親関節点と右辺との距離をそれぞれ求める。そして、これらの距離の中の最小値Lcが予め定められた閾値L3を下回るかどうかを判定する。この判定の結果、距離の最小値Lcが閾値L3を下回った場合は、画面右見切れであるものとしてフラグを立て、画面右見切れの判定処理を終了する。一方で、距離の最小値Lcが閾値L3以上である場合は、画面右見切れではないものとしてフラグを立てずに画面右見切れの判定処理を終了する。
 なお、「なし」と判定された関節点が親関節点を持たなかったり、親関節点も「なし」と判定されていたりした場合は、右辺との距離を算出することができない。この場合はその関節点を除外して最小値Lcを求める。また、全て除外されて最小値Lcを求めることができない場合は、画面右見切れではないと判定するものとする。
 また、画面左見切れの判定処理も、図6Cに示す処理手順と同様に行うものとする。つまり、親関節点と左辺との距離をそれぞれ求め、これらの距離の中の最小値が閾値を下回るかどうかを判定することによって、同様に画面左見切れか否かを判定する。
 図6Dは、ステップS504における、他人物遮蔽を判定するための処理手順の一例を示すフローチャートである。
 まず、ステップS631において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、他人物遮蔽ではないものとしてフラグを立てずに、他人物遮蔽の判定処理を終了する。一方、ステップS631の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS632に進む。
 ステップS632においては、被写体状態推定部204は、それぞれの「なし」と判定された関節点の親関節点に着目する。そして、その親関節点を中心とする半径Rの円をそれぞれ描いた場合に、いずれかの円内に、いずれかの異なる被写体の関節点が含まれるかどうかを判定する。この判定の結果、一つでも異なる被写体の関節点が含まれている場合は、他人物遮蔽であるものとしてフラグを立て、他人物遮蔽の判定処理を終了する。一方で、いずれの円内にも異なる被写体の関節点が全く含まれていない場合は、他人物遮蔽ではないものとしてフラグを立てずに、他人物遮蔽の判定処理を終了する。
 なお、「なし」判定された関節点が親関節点を持たなかったり、親関節点も「なし」と判定されていたりした場合は半径Rの円を描くことができない。この場合はその関節点を除外して円内に異なる被写体の関節点が含まれるか否かを判定するようにする。また、全て除外されて半径Rの円を1つも描くことができない場合は、他人物遮蔽ではないと判定するものとする。
 以上のように、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、および他人物遮蔽の判定処理がすべて終了すると、被写体状態推定部204は、続いて自己遮蔽の判定処理を行う。自己遮蔽の判定処理では、これらの判定処理でいずれのフラグも立たず、かつパーツ検出部202の検出結果で「なし」と判定された関節点を有している場合に、被写体状態推定部204は、自己遮蔽であるものとしてフラグを立てる。
 以上のように本実施形態によれば、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽および自己遮蔽に関する被写体の状態を推定し、被写体の状態に応じて被写体の特徴量を分類するようにしている。これにより、警報等を出すべきシーンをより適切に認識することができる。
 本実施形態では、関節点の位置から推定される特徴量と、被写体の画面位置または遮蔽から求められる被写体の状態とをそれぞれ求め、それらを元に被写体の特徴量を分類する方法について説明した。一方で、関節点の位置から推定される特徴量に被写体の状態を統合した統合特徴量を求め、統合特徴量から分類するようにしてもよい。また、特徴量は、前述したように、深層ニューラルネットワークの中間層から得られる特徴量であってもよい。そのほか、関節点の位置から推定される特徴量だけでは判定するのが困難な場合には、被写体の動作など分類に役立つそれ以外の被写体の状態を示す特徴量を用いてもよく、上記の内容に限ったものではない。
 (第2の実施形態)
 第1の実施形態では、単一のフレーム画像から得られる被写体のパーツの情報を用いて被写体の状態を推定する方法を説明した。しかしながら、単一のフレーム画像だけでは被写体の状態を区別することが難しい状況もあり、異常行動の見逃しが増える可能性がある。また、パーツの位置だけでは推測できないような被写体の状態については、他の情報との組み合わせで取得することが望ましい。そこで第2の実施形態では、時系列的な映像の情報と、物体認識と、地形の情報とを用いて、被写体の状態を推定する方法を説明する。なお、本実施形態では、第1の実施形態と異なる部分についてのみ説明し、共通部分については説明を省略する。
 図7は、表示部208に表示される被写体の状態をより詳細に説明するための図である。図7(a)~図7(c)に示す例は、画面下から画面奥に向かって歩行する人物の映像であり、図7(d)~図7(f)は、画面の手前で座り込む人の映像である。図7(a)の人物701、図7(b)の人物702、図7(c)の人物703はいずれも同一人物であり、画面下から画面奥に向かって歩行している。また、図7(d)の人物704、図7(e)の人物705、図7(c)の人物706はいずれも同一人物であり、いずれも座り込んでいる。
 この2つの例では、位置関係が類似していることから、関節点の位置も類似した関係になることがある。例えば図7(b)の人物702と図7(e)の人物705とで関節点を比較すると、同じように足や膝の関節点は不検出であり、かつ位置の違いはぶれの範囲に収まってしまうことがありうる。関節点を用いた特徴量のみを用いて分類すると、この2つの違いを識別することは困難である。
 また、場合によっては、図7(g)及び図7(h)に示すように、手荷物707または階段708によって足および膝が隠れることもありうる。これらの場合には、図7(b)の人物702および図7(e)の人物705と類似した関節点の検出状態や位置関係になってしまうことがありうる。映像上の大きさで正規化した特徴量を用いると、これらの違いも識別が困難になる。
 本実施形態では、追加的な情報を用いることによって、このように区別が難しい状況であっても、より精度よく人物の状態を区別して分類する。例えば、前後のフレーム画像から時系列的な情報を用いることによって、図7(a)~図7(c)の例では人物は移動しているのが認識でき、図7(d)~図7(f)の例では、人物は座り込んで動かないことが認識できる。また、物体認識によって物体を検出することによって、図7(d)~図7(f)の例では、座り込んで動かない人物を認識でき、さらに図7(g)または図7(h)の例のように、手荷物や周辺の地形によって遮蔽された人物を区別する。
 図8は、本実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。図2に示す機能構成と比較すると、被写体状態推定部204が物体認識部802および地形取得部803を有し、さらに、分類部205が追尾部801を有している。なお、追尾部801、物体認識部802および地形取得部803は、被写体状態推定部204または分類部205に含まれるものとしているが、必ずしもこのような構成である必要はない。例えばカメラ101や新たなサーバー機の上に追加の機能ブロックを搭載して、結果を通信するような構成にすることもできる。
 追尾部801は、MPU等によって構成され、撮影部201から受信した映像データおよびパーツ検出部202で検出したパーツの情報に基づき、例えばテンプレートマッチングのような公知の手法を用いて、被写体の追尾を行う。
 物体認識部802は、MPU等によって構成され、撮影部201から受信した映像データから、例えば非特許文献3に示したような一般物体認識の手法を用いて、様々な物体を認識する。地形取得部803は、MPU等によって構成され、撮影部201が撮影している場所の地形情報を取得する。ここで地形情報とは、壁、階段などの位置、電柱や看板など固定された物体の位置、および撮影部201のカメラの位置を含み、撮影された場所の位置関係を表す情報である。地形情報は、解析サーバー102に予め保持しておいたり、建物の設計図等から三次元情報として生成したり、映像データから柱や階段などを検出することで生成したりすることができ、予め用意しておくものとする。
 本実施形態の基本的な処理の流れは、図5と同様であるが、本実施形態では、被写体状態推定部204は、第1の実施形態で説明した6種類に加え、移動物遮蔽、固定物遮蔽の2つを同様に独立したフラグとして、被写体ごとに付与する。また、分類部205による分類方法も第1の実施形態と異なっている。まず、図9を用いて、本実施形態における被写体の状態を推定する方法を説明する。
 図9Aは、ステップS504における、移動物遮蔽を判定するための処理手順の一例を示すフローチャートである。
 まず、ステップS901において、物体認識部802は、撮影部201から受信した映像データから物体を認識する。物体認識部802は、映像中の矩形と物体のクラスとのペアを、認識された物体の数だけ算出する。
 次に、ステップS902において、被写体状態推定部204は、ステップS901で認識された物体から、人物を遮蔽している可能性のある物体を遮蔽候補物体として選択する。この処理では、空、山、雲などの背景的なクラス、および男性、子供などの人物のサブクラスを選択肢から除外する。ここで、人物は他人物遮蔽の判定処理で用いられることから、この処理では遮蔽候補物体からは除外する。そして、バッグ、箱、ボールなど人物が所持している可能性があるクラスの物体を遮蔽候補物体として選択する。遮蔽候補物体は複数でもよいし、0個でもよい。選択する物体のクラスは予め定めておくものとする。なお、物体認識部802による認識対象の物体を選択の対象となるクラスの物体のみとするように構成してもよい。
 次に、ステップS903において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、移動物遮蔽ではないものとしてフラグを立てずに移動物遮蔽の判定処理を終了する。一方、ステップS903の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS904に進む。
 ステップS904においては、被写体状態推定部204は、「なし」と判定された関節点のすべてについて、その関節点の親関節点と、ステップS902で選択した遮蔽候補物体との距離をそれぞれ求める。そして、これらの距離の中の最小値Ldが予め定められた閾値L4を下回るかどうかを判定する。この判定の結果、距離の最小値Ldが閾値L4を下回った場合は、移動物遮蔽であるとしてフラグを立て、移動物遮蔽の判定処理を終了する。一方で、距離の最小値Ldが閾値L4以上である場合は、移動物遮蔽ではないものとしてフラグを立てずに移動物遮蔽の判定処理を終了する。なお、遮蔽候補物体が0個の場合は、移動物遮蔽ではないと判定するものとする。
 図9Bは、ステップS504における、固定物遮蔽を判定するための処理手順の一例を示すフローチャートである。
 まず、ステップS911において、地形取得部803は、撮影部201が撮影している場所に関する地形情報を取得する。
 次に、ステップS912において、被写体状態推定部204は、ステップS911で取得した地形情報に基づいて、撮影部201が撮影した映像に含まれる固定物を、映像中に存在する多角形の範囲として算出する。
 次に、ステップS913において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、固定物遮蔽ではないものとしてフラグを立てずに固定物遮蔽の判定処理を終了する。一方、ステップS913の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS914に進む。
 ステップS914においては、被写体状態推定部204は、「なし」と判定されたそれぞれの関節点の親関節点に着目し、親関節点の前にあると推測される固定物を選択する。具体的な手順としては、まず、親関節点と重なっている固定物Fを探す。親関節点と重なっている場合には、固定物Fは親関節点の後ろにあると考えられるので、地形情報に基づき、固定物Fよりも前にある固定物を、親関節点の前にある可能性があるものとして選択する。また、親関節点と重なっている固定物Fがない場合は全ての固定物を選択する。なお、距離画像カメラを用いたり三次元位置を推定したりすることによって、親関節点と固定物との前後関係を判断するようにしてもよい。
 次に、ステップS915において、被写体状態推定部204は、「なし」と判定されたそれぞれの関節点の親関節点と、ステップS914で選択した固定物との距離をそれぞれ求める。そして、これらの距離の中の最小値Leが予め定められた閾値L5を下回るかどうかを判定する。この判定の結果、距離の最小値Leが閾値L5を下回った場合は、固定物遮蔽であるものとしてフラグを立て、固定物遮蔽の判定処理を終了する。一方で、距離の最小値Leが閾値L5以上である場合は、固定物遮蔽ではないものとしてフラグを立てずに固定物遮蔽の判定処理を終了する。なお、ステップS914で選択されるべき固定物がなかった場合は固定物遮蔽ではないと判定するものとする。
 以上のように本実施形態では、ステップS504において、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽、移動物遮蔽および固定物遮蔽の判定処理が行われる。そしてこれらのすべてが終了すると、被写体状態推定部204は、続いて自己遮蔽の判定処理を行う。自己遮蔽の判定処理では、これらの判定処理でいずれのフラグも立たず、かつパーツ検出部202の検出結果で「なし」と判定された関節点を有している場合に、被写体状態推定部204は、自己遮蔽であるものとしてフラグを立てる。
 次に、本実施形態におけるステップS505で分類部205が被写体ごとに行う、被写体の特徴量の分類の方法について、図10を用いて説明する。本実施形態においては、「除外」、「通常」、「関節少」、「通常外姿勢」の4つのカテゴリに被写体の特徴量を分類する。
 図10は、本実施形態において、ステップS505で分類部205により被写体の特徴量を分類する処理手順の一例を示すフローチャートである。
 まず、ステップS1001において、分類部205は、ステップS504で推定された被写体の状態を表すフラグに応じて処理を分岐する。まず、固定物遮蔽のフラグが立っている場合は分岐の1番を選択し、ステップS1002に進む。分岐の1番に該当せず、かつ画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れのいずれかの画面外への見切れを表すフラグが立っているか、もしくは移動物遮蔽のフラグが立っている場合は、分岐の2番を選択し、ステップS1003に進む。分岐の1番と2番のいずれにも該当せず、かつ他人物遮蔽のフラグが立っている場合は、分岐の3番を選択し、「関節少」へと分類して処理を終了する。分岐の1番から3番までのいずれにも該当せず、かつ自己遮蔽のフラグが立っている場合は、分岐の4番を選択し、「通常外姿勢」に分類して処理を終了する。さらに、どのフラグも立っておらず、分岐の1番から4番までのいずれにも該当しない場合は、分岐の5番を選択し、「通常」に分類して処理を終了する。
 ステップS1002においては、分類部205は、ステップS506で認識部206が対象の性状を十分に認識できるための条件を満たしているかどうかを判定する。本実施形態においては、パーツ検出部202により頭頂点301と首点302との少なくとも片方が「なし」と判定されておらず、かつ「なし」と判定された関節点が4個以下である場合に条件を満たしていると判定する。この判定の結果、上記条件を満たしている場合は「関節少」に分類し、処理を終了する。一方、上記条件を満たしていない場合は「除外」に分類して処理を終了する。
 なお、ここで示した対象の性状を十分に認識できるための条件は一例であって、他の条件でもよく、また、認識部206で認識する性状の種類によって変更してもよい。例えば、ものを掴む動作を認識したい場合は左右の手首点305、308と肘点304、307の4つが全て「なし」と判定されていないことを条件としてもよい。また、走る動作を認識したい場合は左右の足首点311、314の2つがすべて「なし」と判定されていないことを条件としてもよい。
 一方、ステップS1003は、画面外への見切れまたは移動物遮蔽の場合に実行される処理である。この場合は固定物遮蔽とは異なり、人物または遮蔽物の移動によって、遮蔽が解消される可能性があるため、時系列の情報を用いて最終的な分類を決定する。
 ステップS1003においては、追尾部801は、近傍の時刻の映像を用いて現在の被写体の追尾を行い、当時の結果を取得する。この処理では、現在の直前1秒間の映像データを録画サーバー103の記憶部207から取得し、現在の被写体と同一と推定される人物についてのパーツ検出の結果を取得する。なお、直前1秒間としているのは例示であって、他の時間幅の映像データでもよい。また、例えば0.5秒待ってから映像データを取得するなどして、注目する時点の被写体から見て未来の映像データから情報を取得してもよい。
 次に、ステップS1004において、分類部205は、ステップS1003における追尾の結果を用いて被写体の移動速度を計算し、移動速度が小さいかどうかを判定する。この処理では、追尾の間で「なし」と判定されなかった関節点について、それぞれ画面上の移動速度を求め、その平均速度が予め定められた閾値Vよりも小さいかどうかによって移動速度が小さいかどうかを判定する。この判定の結果、移動速度が小さい場合は、被写体が静止しているものとみなされ、図7(d)~図7(f)に示すようなパターンの可能性がある。よって、「通常外姿勢」に分類して処理を終了する。一方、移動速度が小さくない場合はステップS1005に進む。
 次に、ステップS1005において、分類部205は、現在の被写体において「なし」と判定された関節点のうち、ステップS1003で得られた追尾結果では、「なし」と判定されていない関節点があるかどうかを判定する。この判定の結果、追尾結果において「なし」と判定されていない関節点が1つ以上ある場合はステップS1006に進み、「なし」と判定されていない関節点が1つもない場合は、前述のステップS1002に進む。
 ステップS1006においては、分類部205は、現在の被写体において「なし」と判定され、かつ追尾結果では「なし」と判定されていない関節点の位置を、追尾結果から推測して補完する。補完方法としては、追尾の結果から関節点の移動速度を求め、等速で現在の位置に移動してきたと推定して現在の関節点の位置を補完する。そして、「通常」に分類して処理を終了する。
 次に、本実施形態におけるステップS506の処理について説明する。認識部206は、ステップS505で「除外」に分類されたものについては第1の実施形態と同様に無条件で正常と判定する。一方、「通常」、「関節少」、「通常外姿勢」に分類されたものについては、異常行動か否かについて、第1の実施形態と同様に局所性鋭敏型ハッシュによって正常行動からの乖離度合いを判定する。但し、本実施形態では、それぞれ異なる正常行動の統計モデルに基づいてハッシュを予め作成しておき、分類によって使い分ける。
 例えば、「通常」に分類された被写体の判定に用いる統計モデルは、通常の全身が映った映像を用いて学習したものを用いる。「関節少」に分類された被写体の判定に用いる統計モデルは、正常歩行から関節を意図的に欠いて作られた映像を用いて学習したものを用いる。また、「通常外姿勢」に分類された被写体の判定に用いる統計モデルは、歩行以外の行動を演技した映像を用いて学習したものを用いる。そして、分類によって異なる統計モデルでそれぞれ異常行動か否かを判定する。
 以上のように本実施形態によれば、時系列の情報および他の認識結果を用いることによって、被写体の状態に応じて適当な認識方法を取ることができ、認識精度をより向上させることができる。
 (第3の実施形態)
 第1および第2の実施形態では、単一のカメラ映像を用いる例を説明したが、複数のカメラを用いることができれば、より正確な認識を行うことができる。そこで第3の実施形態では、複数のカメラを用いた認識方法について説明する。なお、本実施形態では、第2の実施形態と異なる部分について説明し、共通部分については説明を省略する。
 本実施形態の基本的な構成は図8と同様であるが、カメラ101が複数存在し、解析サーバー102には複数の映像データが入力され、それぞれの映像について第2の実施形態で示した処理を行い、異常行動の検出を行う。録画サーバー103は複数のカメラの映像と解析サーバーの処理結果とをそれぞれ記憶し、端末装置104では、利用者は複数のカメラの映像をそれぞれ閲覧することができ、いずれかのカメラで異常行動が検出されると警告がなされる。
 図11Aは、階段で足元が遮蔽された人物1101を含む映像の例を示す模式図であり、図7(h)に示す映像と同様である。第2の実施形態においては、1台のカメラの映像のみから認識する必要があったため、例えば「関節少」として処理される。
 ここで、反対側にもう一つカメラが設置されている場合には、図11Bに示すような映像が得られる。図11Bに示す映像が得られれば、同じ人物1102について関節点を全て検出することができる。そこで、図11Bに示すような映像が利用できる場合は、図11Aに示す映像からの処理よりも優先することで、検出されたパーツの少ない被写体から処理を行うことを回避することができる。
 次に、具体的な処理手順について説明する。本実施形態では、認識結果に優先度を付与することによってより精度よく認識結果を得るようにしている。ステップS506では、認識部206は、複数のカメラ101の映像それぞれについて、認識結果に分類の情報を付与する。そして、全てのカメラの映像で認識処理が完了したら、認識部206は、それぞれのカメラの映像について、映っている被写体に同一の被写体が含まれるかどうかを検出する。同一か否かの検出には、追尾部801を用いて多カメラ間での追尾を行う方法、または地形取得部803で取得した情報に基づいて、カメラ間の視野重複の情報と映像上の被写体の位置とから判別する方法などを用いることができる。
 複数のカメラ101の映像で同一の被写体が含まれている場合には、その被写体に対する認識結果のうち、「通常」に分類された認識結果を優先するようにする。例えば、「通常」に分類された映像の認識結果が正常だった場合、他のカメラで「関節少」または「通常外姿勢」に分類され、異常行動という認識結果が得られていても信頼度が低いとみなし、これらの異常行動という認識結果を無視するようにする。
 以上のように本実施形態によれば、認識結果に優先度を付与し、「通常」に分類された映像の認識結果を優先することで、より信頼性の高い情報に基づいて認識結果を得ることができ、より精度を上げることができる。
 (第4の実施形態)
 第1~第3の実施形態では、被写体として人間、被写体のパーツとして人体の関節などを用いた例について説明したが、第4の実施形態では、人間以外の被写体で適用する例について説明する。具体的には、被写体として自動車、被写体のパーツとして自動車の部品とした例について説明する。なお、本実施形態では、第1の実施形態と異なる部分について説明し、共通部分については説明を省略する。
 図12は、本実施形態において、パーツ検出部202が検出する自動車のパーツを説明するための図である。パーツ検出部202は、自動車1200から、右ヘッドライト点1201、左ヘッドライト点1202、前ナンバープレート点1203、右前輪点1204、左前輪点1205、右後輪点1206、および左後輪点1207をパーツ点として検出する。さらに、パーツ検出部202は、ボンネット中央点1208、フロントガラス中央点1209、給油口点1210、右リアライト点1211、左リアライト点1212、後ナンバープレート点1213をパーツ点として検出する。以上のようにパーツ検出部202は、13個のパーツを検出する。なお、右前輪点1204、左前輪点1205、右後輪点1206、および左後輪点1207は接地点とする。また、図12に示す例では、右前輪点1204、右後輪点1206、右リアライト点1211、および後ナンバープレート点1213は自己遮蔽されている。
 ここで、右ヘッドライト点1201と左ヘッドライト点1202、右前輪点1204と右後輪点1206、左前輪点1205と左後輪点1207、右リアライト点1211と左リアライト点1212がそれぞれ互いに親パーツ点と子パーツ点との関係にある。なお、親子関係は逆であってもよい。また、前ナンバープレート点1203は、右ヘッドライト点1201と左ヘッドライト点1202とを親パーツ点とし、後ナンバープレート点1213は、右リアライト点1211と左リアライト点1212とを親パーツ点とする。
 被写体状態推定部204が行う処理では、「なし」のパーツ点が存在する場合に親パーツ点との関係を利用する。そのため、前後左右のそれぞれで両端に存在する部品を親子パーツ関係にしておいたり、ナンバープレートのような重要パーツに親パーツ点を指定したりすることが望ましい。なお、ここで挙げたパーツの定義は一例であり、トラックなど形状の異なる自動車については異なるパーツ点を定義するようにしてもよい。
 以上のように本実施形態によれば、第1~第3の実施形態における関節点をパーツ点と読み替えることによって、自動車等においても同様に被写体の分類を行って、認識の精度を高めることができる。なお、本実施形態では、被写体として自動車を例に挙げたが、映像から判別できるパーツを保持する物品、また人間以外の生物についても同様に適用することができる。
 (その他の実施形態)
 本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
 本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。
 本願は、2019年4月22日提出の日本国特許出願特願2019-080893を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims (20)

  1.  画像から被写体の所定の複数のパーツを検出する検出手段と、
     前記検出手段の検出結果において、前記所定の複数のパーツのうち未検出の部位があった場合に、当該未検出の原因を推定する推定手段と、
     前記検出手段により検出されたパーツと、前記推定手段によって推定された原因とに基づいて、前記被写体の状態を判定する判定手段と、
     を備える画像処理装置。
  2.  前記推定手段は、前記被写体の前記画像内の位置に基づいて前記未検出の原因を推定する請求項1に記載の画像処理装置。
  3.  前記推定手段は、前記被写体の前記画像内の位置と前記画像の端部との距離に基づいて前記未検出の原因を推定する請求項2に記載の画像処理装置。
  4.  前記推定手段は、前記被写体の位置と該被写体とは異なる物体の位置とに基づいて前記未検出の原因を推定する請求項1に記載の画像処理装置。
  5.  前記判別手段は、前記検出された部位の位置と、前記推定された原因とに基づいて、前記被写体の状態を判別する請求項1に記載の画像処理装置。
  6.  前記部位の位置は、前記被写体の基準位置に対する相対位置である請求項5に記載の画像処理装置。
  7.  前記判別手段は、前記被写体の状態が正常か異常かを判別する請求項1に記載の画像処理装置。
  8.  前記判別手段は、前記被写体の姿勢を判別する請求項1に記載の画像処理装置。
  9.  前記判別手段は、前記対象物体の姿勢の異常に関する判別を行う請求項8に記載の画像処理装置。
  10.  前記被写体は人間であり、前記所定のパーツは人間の関節または部位であることを特徴とする請求項1に記載の画像処理装置。
  11.  前記検出手段によって検出されたパーツに基づいて前記被写体の特徴量を抽出する抽出手段と、
     前記判定手段によって判定された状態に基づいて、前記特徴量を複数のカテゴリの中のいずれかに分類する分類手段と、
     前記分類手段の分類の結果に基づいて、前記被写体の性状を認識する性状認識手段と、
     を備える請求項1に記載の画像処理装置。
  12.  前記性状認識手段は、前記分類手段の分類の結果に基づいて認識の方法を変更することを特徴とする請求項11に記載の画像処理装置。
  13.  前記性状認識手段は、一部のカテゴリに分類された特徴量について、認識の対象から除外することを特徴とする請求項12に記載の画像処理装置。
  14.  前記性状認識手段は、認識に用いる閾値を変更することによって認識の方法を変更することを特徴とする請求項12に記載の画像処理装置。
  15.  前記性状認識手段は、認識に用いる統計モデルを変更することによって認識の方法を変更することを特徴とする請求項12に記載の画像処理装置。
  16.  前記分類手段は、前記被写体が含まれる複数の画像について、それぞれ前記特徴量を分類し、
     前記性状認識手段は、前記複数の画像についての前記分類手段の分類の結果に基づいて、前記被写体の性状を認識することを特徴とする請求項11に記載の画像処理装置。
  17.  前記分類手段は、時系列の複数の画像を用いて前記被写体の特徴量を分類することを特徴とする請求項11に記載の画像処理装置。
  18.  前記時系列の複数の画像を用いて前記被写体を追尾する追尾手段をさらに備え、前記分類手段は、前記追尾の結果に基づいて前記被写体の特徴量を分類することを特徴とする請求項11に記載の画像処理装置。
  19.  画像から被写体の所定の複数のパーツを検出する検出工程と、
     前記検出工程の検出結果において、前記所定の複数のパーツのうち未検出の部位があった場合に、当該未検出の原因を推定する推定工程と、
     前記検出工程で検出されたパーツと、前記推定手段によって推定された原因とに基づいて、前記被写体の状態を判定する判定工程と、
     を備えることを特徴とする画像処理方法。
  20.  画像から被写体の所定の複数のパーツを検出する検出工程と、
     前記検出工程の検出結果において、前記所定の複数のパーツのうち未検出の部位があった場合に、当該未検出の原因を推定する推定工程と、
     前記検出工程で検出されたパーツと、前記推定手段によって推定された原因とに基づいて、前記被写体の状態を判定する判定工程と、
     をコンピュータに実行させるためのプログラム。
PCT/JP2020/012840 2019-04-22 2020-03-24 被写体の状態を認識する画像処理装置及びその方法 WO2020217812A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
SG11202110708XA SG11202110708XA (en) 2019-04-22 2020-03-24 Image processing device that recognizes state of subject and method for same
US17/505,416 US20220036056A1 (en) 2019-04-22 2021-10-19 Image processing apparatus and method for recognizing state of subject

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-080893 2019-04-22
JP2019080893A JP7263094B2 (ja) 2019-04-22 2019-04-22 情報処理装置、情報処理方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/505,416 Continuation US20220036056A1 (en) 2019-04-22 2021-10-19 Image processing apparatus and method for recognizing state of subject

Publications (1)

Publication Number Publication Date
WO2020217812A1 true WO2020217812A1 (ja) 2020-10-29

Family

ID=72937630

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/012840 WO2020217812A1 (ja) 2019-04-22 2020-03-24 被写体の状態を認識する画像処理装置及びその方法

Country Status (4)

Country Link
US (1) US20220036056A1 (ja)
JP (1) JP7263094B2 (ja)
SG (1) SG11202110708XA (ja)
WO (1) WO2020217812A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453587B2 (ja) 2020-11-24 2024-03-21 日本電信電話株式会社 通信品質予測装置、通信品質予測システム、通信品質予測方法、及び、通信品質予測プログラム
JP2022086742A (ja) * 2020-11-30 2022-06-09 株式会社 日立産業制御ソリューションズ 映像解析サーバ、映像解析方法、および、映像解析プログラム
CN113096337B (zh) * 2021-04-08 2022-11-11 中国人民解放军军事科学院国防工程研究院工程防护研究所 用于复杂背景的移动目标识别处理方法及智能安防系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009296355A (ja) * 2008-06-05 2009-12-17 Toyota Motor Corp 顔画像処理装置
JP2011039994A (ja) * 2009-08-18 2011-02-24 Nec Soft Ltd 部品検出装置、部品検出方法、プログラムおよび記録媒体
JP2012155391A (ja) * 2011-01-24 2012-08-16 Panasonic Corp 姿勢状態推定装置および姿勢状態推定方法
JP2017199303A (ja) * 2016-04-28 2017-11-02 パナソニックIpマネジメント株式会社 識別装置、識別方法、識別プログラムおよび記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009296355A (ja) * 2008-06-05 2009-12-17 Toyota Motor Corp 顔画像処理装置
JP2011039994A (ja) * 2009-08-18 2011-02-24 Nec Soft Ltd 部品検出装置、部品検出方法、プログラムおよび記録媒体
JP2012155391A (ja) * 2011-01-24 2012-08-16 Panasonic Corp 姿勢状態推定装置および姿勢状態推定方法
JP2017199303A (ja) * 2016-04-28 2017-11-02 パナソニックIpマネジメント株式会社 識別装置、識別方法、識別プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2020177557A (ja) 2020-10-29
US20220036056A1 (en) 2022-02-03
JP7263094B2 (ja) 2023-04-24
SG11202110708XA (en) 2021-11-29

Similar Documents

Publication Publication Date Title
Bian et al. Fall detection based on body part tracking using a depth camera
Lu et al. Deep learning for fall detection: Three-dimensional CNN combined with LSTM on video kinematic data
CN107358149B (zh) 一种人体姿态检测方法和装置
Lotfi et al. Supporting independent living for older adults; employing a visual based fall detection through analysing the motion and shape of the human body
JP6144656B2 (ja) 歩行者の視覚的認識が困難であり得ることを運転者に警告するシステム及び方法
CN105574501B (zh) 一种人流视频侦测分析系统
WO2020217812A1 (ja) 被写体の状態を認識する画像処理装置及びその方法
Abtahi et al. YawDD: A yawning detection dataset
US9036902B2 (en) Detector for chemical, biological and/or radiological attacks
JP4198951B2 (ja) グループ属性推定方法及びグループ属性推定装置
CN107657244B (zh) 一种基于多摄像机的人体跌倒行为检测系统及其检测方法
Bertoni et al. Perceiving humans: from monocular 3d localization to social distancing
JP2008542922A (ja) 保安用途向けの人間の検出及び追跡
JP2008146356A (ja) 視線方向推定装置及び視線方向推定方法
WO2020195376A1 (ja) 監視装置、不審オブジェクト検出方法、および記録媒体
JP3655618B2 (ja) 歩行者年齢判定装置、歩行状態・歩行者年齢判定方法およびプログラム
JP2012221162A (ja) 対象物検出装置及びプログラム
Albawendi et al. Video based fall detection using features of motion, shape and histogram
Rezaee et al. Real-time intelligent alarm system of driver fatigue based on video sequences
CN114783037B (zh) 目标重识别方法、目标重识别装置和计算机可读存储介质
CN103456123B (zh) 一种基于流动和扩散特征的视频烟气探测方法
Pramerdorfer et al. Fall detection based on depth-data in practice
US11222439B2 (en) Image processing apparatus with learners for detecting orientation and position of feature points of a facial image
CN117593792A (zh) 一种基于视频帧的异常姿态检测方法和装置
Gilroy et al. An objective method for pedestrian occlusion level classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20796332

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20796332

Country of ref document: EP

Kind code of ref document: A1