WO2023152841A1 - 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体 - Google Patents

画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2023152841A1
WO2023152841A1 PCT/JP2022/005199 JP2022005199W WO2023152841A1 WO 2023152841 A1 WO2023152841 A1 WO 2023152841A1 JP 2022005199 W JP2022005199 W JP 2022005199W WO 2023152841 A1 WO2023152841 A1 WO 2023152841A1
Authority
WO
WIPO (PCT)
Prior art keywords
posture
orientation
image
feature amount
feature
Prior art date
Application number
PCT/JP2022/005199
Other languages
English (en)
French (fr)
Inventor
登 吉田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/005199 priority Critical patent/WO2023152841A1/ja
Publication of WO2023152841A1 publication Critical patent/WO2023152841A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Definitions

  • the present invention relates to an image processing system, an image processing method, and a non-transitory computer-readable medium.
  • Patent Documents 1 and 2 are known.
  • Japanese Patent Application Laid-Open No. 2002-200000 describes a technique for detecting a change in a person's posture based on a temporal change in an image area of the person.
  • Patent Literature 2 describes a technique for determining whether or not a person's posture is abnormal based on whether or not the height of the person's neck and knees from the floor satisfies a predetermined condition.
  • Patent Document 3 is known as a technique for searching an image database for images containing similar postures.
  • Non-Patent Document 1 is known as a technique related to human skeleton estimation.
  • Patent Documents 1 and 2 With related technologies such as Patent Documents 1 and 2, it is possible to detect that a person is in a predetermined state when predetermined conditions are met.
  • the related technology is based on the premise that the reference state of the person is set in advance. For this reason, the related art cannot detect the desired state of the person when it is difficult to define the state of the person to be detected.
  • an object of the present disclosure is to provide an image processing system, an image processing method, and a non-temporary computer-readable medium that can detect the state of a desired person.
  • An image processing system includes acquisition means for acquiring posture information obtained by estimating a posture of a person included in a first image; an extracting means for extracting an orientation dependency reduction feature quantity with reduced dependency; and setting means for setting as a feature amount.
  • An image processing method acquires posture information in which a posture of a person included in a first image is estimated, and based on the acquired posture information, determines whether the posture information depends on the orientation of the posture. and extracting an orientation dependency reduction feature amount with a reduced sensitivity, and setting the extracted orientation dependency reduction feature amount as a reference posture feature amount for detecting the state of the target person included in the second image. It is something to do.
  • a non-transitory computer-readable medium storing an image processing program acquires posture information that estimates a posture of a person included in a first image, and acquires posture information based on the acquired posture information. extracting an orientation dependency reduction feature amount in which the orientation dependence of the orientation information of the orientation information is reduced; It is a non-temporary computer-readable medium storing an image processing program for causing a computer to execute processing, which is set as a feature amount of a reference posture for detection.
  • an image processing system an image processing method, and a non-temporary computer-readable medium that can detect the state of a desired person.
  • FIG. 4 is a flow chart illustrating an associated monitoring method; 1 is a configuration diagram showing an overview of an image processing system according to an embodiment; FIG. 1 is a configuration diagram showing a configuration example of an image processing apparatus according to Embodiment 1; FIG. 4 is a flowchart showing an operation example of the image processing method according to Embodiment 1; 7 is a flowchart showing an operation example of reference attitude setting processing according to Embodiment 1; 4 is a flowchart showing an operation example of state detection processing according to Embodiment 1; 4 is a diagram showing a skeletal structure used in an operation example of the image processing apparatus according to Embodiment 1; FIG. FIG. 4 is a diagram for explaining orientation normalization processing according to the first embodiment; FIG. FIG.
  • FIG. 4 is a diagram for explaining orientation normalization processing according to the first embodiment;
  • FIG. FIG. 4 is a diagram for explaining tallying processing according to the first embodiment;
  • FIG. FIG. 4 is a diagram for explaining tallying processing according to the first embodiment;
  • FIG. FIG. 4 is a diagram for explaining tallying processing according to the first embodiment;
  • FIG. FIG. 4 is a diagram for explaining tallying processing according to the first embodiment;
  • FIG. FIG. 4 is a diagram for explaining tallying processing according to the first embodiment;
  • FIG. FIG. 8 is a diagram showing a display example of state detection results according to the first embodiment;
  • 2 is a configuration diagram showing a configuration example of an image processing apparatus according to Embodiment 2;
  • FIG. 11 is a flowchart showing an operation example of reference attitude setting processing according to the second embodiment;
  • FIG. 10 is a flowchart showing an operation example of state detection processing according to the second embodiment;
  • FIG. 11 is a diagram for explaining feature space mapping processing according to Embodiment 2;
  • FIG. 11 is a diagram for explaining feature space mapping processing according to Embodiment 2;
  • FIG. 11 is a diagram for explaining a tallying process according to the second embodiment;
  • FIG. 1 is a configuration diagram showing an overview of hardware of a computer according to an embodiment;
  • FIG. 1 shows the monitoring method in the related monitoring system.
  • the surveillance system acquires an image from a surveillance camera (S101), detects a person in the acquired image (S102), and recognizes the state and attributes of the person (S103). For example, a person's behavior (posture or action) or the like is recognized as a person's state, and a person's age, sex, height, or the like is recognized as a person's attribute.
  • the monitoring system analyzes data from the recognized state and attributes of the person (S104), and performs actions such as countermeasures based on the analysis results (S105). For example, an alert is displayed based on the recognized behavior or the like, or a person whose attribute such as height is recognized is monitored.
  • the inventor studied a method for detecting a state such as a person's behavior from an image, and found that there are cases where it is not possible to detect a desired state of a person with related techniques, and it is difficult to easily detect the state. I found a problem. For example, undefinable behavior such as "abnormal behavior" cannot be detected because it is difficult to set a reference state.
  • undefinable behavior such as "abnormal behavior” cannot be detected because it is difficult to set a reference state.
  • it is possible to detect the above behaviors by collecting a large amount of videos of the behaviors of the detection target and making them learn, but it is difficult to collect this learning data. and the cost is high.
  • posture estimation technology such as skeleton estimation technology using machine learning is used to detect the state of a person.
  • skeleton estimation techniques such as OpenPose disclosed in Non-Patent Document 1
  • the skeleton of a person is estimated by learning various patterns of correct-correct image data.
  • the state of a person is easily detected by utilizing such a skeleton estimation technique.
  • the skeletal structure estimated by skeletal estimation techniques such as OpenPose consists of "keypoints", which are characteristic points such as joints, and "bones (bone links)", which indicate links between keypoints. .
  • keypoints characteristic points such as joints
  • bones bone links
  • FIG. 2 shows an overview of the image processing system 10 according to the embodiment.
  • the image processing system 10 includes an acquisition section 11 , an extraction section 12 and a setting section 13 .
  • the image processing system 10 may be configured by one device, or may be configured by a plurality of devices.
  • the acquisition unit 11 acquires posture information obtained by estimating the posture of the person included in the first image.
  • the extraction unit 12 extracts the orientation dependency reduction feature quantity based on the posture information acquired by the acquisition unit 11 .
  • the reduced orientation dependence feature amount is a feature amount in which at least the dependence of posture information (person) on the orientation of the orientation is reduced (small), and may include a feature amount that does not depend on the orientation of the orientation.
  • the orientation of the orientation of the orientation information may be normalized in a predetermined direction, and the feature amount of the orientation information obtained by normalizing the orientation may be extracted as the orientation dependency reduction feature amount.
  • the feature quantity on the mapped feature space may be extracted as the orientation dependency reduction feature quantity.
  • the setting unit 13 sets the orientation dependency reduction feature amount extracted by the extraction unit 12 as the reference posture feature amount for detecting the state of the target person included in the second image. For example, it may be possible to detect whether or not the target person is in an abnormal state by using the normal posture as the reference posture.
  • the orientation dependency reduced feature amount in which the dependency of the posture of the person on the orientation is reduced is extracted. Then, the orientation dependency reduction feature is set as the feature of the reference pose. Accordingly, the reference orientation can be appropriately set from the acquired orientation information. Therefore, it is possible to detect a desired state of a person by using the set reference posture even if the state of the person is difficult to define.
  • the orientation-dependence reduction feature that reduces the dependence on the orientation of the person's posture the reference orientation is set regardless of the orientation of the person's posture in the image, and the state of the person is detected. becomes possible.
  • Embodiment 1 will be described below with reference to the drawings. In the present embodiment, an example will be described in which the orientation dependency reduction feature amount is extracted by normalizing the orientation of the orientation information.
  • FIG. 3 shows a configuration example of the image processing apparatus 100 according to this embodiment.
  • the image processing device 100 is a device that detects the state of a person based on the posture of the person estimated from the image.
  • the image processing device 100 may configure the image processing system 1 together with the image providing device 200 that provides images to the image processing device 100 .
  • the image processing system 1 including the image processing apparatus 100 is applied to a monitoring method in a monitoring system as shown in FIG. etc.
  • the image providing device 200 may be a camera that captures images, or an image storage device in which images are stored in advance.
  • the image providing device 200 generates (stores) a two-dimensional image including a person, and outputs the generated image to the image processing device 100 .
  • the image providing device 200 is directly connected or connected via a network or the like so that an image (video) can be output to the image processing device 100 .
  • the image providing device 200 may be provided inside the image processing device 100 .
  • the image processing apparatus 100 includes an image acquisition unit 101, a skeletal structure detection unit 102, a feature amount extraction unit 103, an aggregation unit 104, a state detection unit 105, an input unit 106, a display unit 107, and a storage unit 108. It has The configuration of each unit (block) is an example, and may be configured by other units as long as the operations (methods) described later are possible. Further, the image processing apparatus 100 is realized by a computer device such as a personal computer or a server that executes programs, for example, but may be realized by one device or by a plurality of devices on a network. good.
  • the skeletal structure detection unit 102 or the like may be an external device.
  • the storage unit 108 stores information (data) necessary for the operation (processing) of the image processing apparatus 100 .
  • the storage unit 108 is a nonvolatile memory such as a flash memory, a hard disk device, or the like.
  • the storage unit 108 stores images acquired by the image acquisition unit 101, images and detection results processed by the skeletal structure detection unit 102, data for machine learning, data aggregated by the aggregation unit 104, and the like.
  • the storage unit 108 may be an external storage device or an external storage device on a network. That is, the image processing apparatus 100 may acquire necessary images, data for machine learning, and the like from an external storage device, and may output aggregate result data and the like to the external storage device.
  • the image acquisition unit 101 acquires images from the image providing device 200 .
  • the image acquisition unit 101 acquires a two-dimensional image (video including a plurality of images) including a person generated (stored) by the image providing apparatus 200 .
  • the image acquisition unit 101 includes a first image acquisition unit that acquires a reference posture setting image (first image) during reference posture setting, and a second image acquisition unit that acquires a state detection target image (second image) during state detection. can be said to include the image acquisition unit of
  • the image providing device 200 is a camera
  • the image acquisition unit 101 acquires a plurality of images (videos) including a person captured by the camera during a predetermined counting period when the reference posture is set or at detection timing when the state is detected. do.
  • the skeletal structure detection unit 102 is a posture estimation unit (posture detection unit) that estimates (detects) the posture of a person in an image based on the image.
  • the skeletal structure detection unit 102 may acquire, from an external device (the image providing device 200, the input unit 106, etc.), posture information in which the posture of a person in the image is estimated in advance.
  • the skeletal structure detection unit 102 includes a first posture estimation unit for estimating the posture of the person in the reference posture setting image acquired during reference posture setting, and a posture estimation unit for estimating the posture of the person in the state detection target image acquired during state detection. It can also be said to include a second attitude estimation unit that estimates the .
  • the skeletal structure detection unit 102 detects the skeletal structure of the person from the image as the posture of the person. It should be noted that the posture of a person may be estimated not only by detecting the skeletal structure, but also by other methods. For example, other pose estimation models using machine learning may be used to estimate the pose of a person in an image.
  • the skeletal structure detection unit 102 detects the 2D skeletal structure (posture information) of the person in the image based on the acquired 2D image.
  • the skeletal structure detection unit 102 detects the skeletal structure of a person based on recognized features such as the joints of the person, using a skeletal structure estimation technique using machine learning.
  • the skeletal structure detection unit 102 detects the skeletal structure of a recognized person in each of the plurality of images.
  • the skeletal structure detection unit 102 may detect the skeletal structure of all persons recognized in the acquired image, or may detect the skeletal structure of a person specified in the image. .
  • the skeleton structure detection unit 102 uses, for example, a skeleton estimation technique such as OpenPose described in Non-Patent Document 1.
  • the feature quantity extraction unit 103 extracts the feature quantity of the skeleton (posture) of the person based on the two-dimensional skeleton structure (posture information) detected from the image.
  • a feature quantity extraction unit 103 includes a first feature quantity extraction unit that extracts a feature quantity of the posture of the person estimated from the reference posture setting image when setting the reference posture, and a human posture feature quantity that is estimated from the state detection target image during state detection. It can also be said that a second feature quantity extraction unit for extracting a feature quantity of the posture of the body is included.
  • the feature quantity extraction unit 103 extracts a feature quantity (orientation dependency reduced feature quantity) in which the dependency on the orientation of the skeleton (posture) of a person is reduced as the feature quantity of the skeleton structure.
  • the orientation of the skeletal structure is normalized in the direction of a predetermined reference posture, thereby extracting a feature amount with reduced dependence on the orientation.
  • the feature quantity extraction unit 103 adjusts the orientation of the skeletal structure in the direction of the reference posture (for example, the front direction), and calculates the feature quantity of the skeletal structure oriented in the direction of the reference posture.
  • the feature quantity (posture feature quantity) of the skeletal structure indicates the feature of the skeleton (posture) of the person, and is an element for detecting the state of the person based on the skeleton of the person.
  • the feature amount of the skeletal structure may be the feature amount of the entire skeletal structure, the feature amount of a part of the skeletal structure, or may include a plurality of feature amounts like each part of the skeletal structure.
  • the feature amount of the skeletal structure may include the position, size, direction, etc. of each part included in the skeletal structure.
  • the feature amount extraction unit 103 may normalize the calculated feature amount using other parameters. For example, the height of a person, the size of a skeleton region, or the like may be used as normalization parameters. For example, the feature amount extraction unit 103 calculates the height (the number of pixels of height) of the person in the two-dimensional image when standing upright, and normalizes the skeletal structure of the person based on the calculated number of pixels of the height of the person. do.
  • the number of height pixels is the height of the person in the two-dimensional image (the length of the whole body of the person on the two-dimensional image space).
  • the feature amount extraction unit 103 obtains the number of height pixels (the number of pixels) from the length of each bone of the detected skeletal structure (the length in the two-dimensional image space).
  • the feature amount extraction unit 103 may normalize the position of each key point (feature point) included in the skeletal structure on the image as the feature amount by the number of height pixels.
  • the position of the keypoint can be obtained from the X-coordinate and Y-coordinate values (the number of pixels) of the keypoint.
  • the height direction for obtaining the Y coordinate is also the direction of the vertical projection axis (vertical projection direction) obtained by projecting the direction of the vertical axis perpendicular to the ground (reference plane) in the three-dimensional coordinate space of the real world onto the two-dimensional coordinate space. good.
  • the height of the Y coordinate is obtained by calculating the vertical projection axis by projecting the axis perpendicular to the ground in the real world onto the two-dimensional coordinate space based on the camera parameters, and calculating the value along this vertical projection axis (the number of pixels ) can be obtained from
  • the camera parameters are imaging parameters of an image.
  • the camera parameters are the attitude, position, imaging angle, focal length, and the like of the camera.
  • a camera captures an image of an object whose length and position are known in advance, and camera parameters can be obtained from the image.
  • the aggregation unit 104 aggregates the feature amounts (orientation dependency reduction feature amounts) of the plurality of extracted skeletal structures (postures), and sets the aggregated feature amounts as the feature amounts of the reference posture.
  • the feature amount of the reference posture may be set from the feature amount of one extracted skeletal structure.
  • the counting unit 104 is a setting unit that sets the reference posture based on the posture of the person extracted from the reference posture setting image when setting the reference posture.
  • a reference posture is a posture that serves as a reference for detecting a state of a person, and is, for example, a posture of a person in a normal state (normal state).
  • the aggregation unit 104 aggregates feature amounts of a plurality of skeletal structures in a plurality of images captured during a predetermined aggregation period when setting the reference posture. For example, the aggregation unit 104 obtains an average value of a plurality of feature amounts, and uses this average value as the feature amount of the reference posture. That is, the tallying unit 104 obtains the average value of the feature amounts of all or part of a plurality of skeletal structures aligned in the reference posture direction. It should be noted that other statistical values such as variances and median values may be obtained without being limited to the average of the skeletal structures. For example, the obtained statistical value such as the variance may be used as a parameter (weight) for obtaining the degree of similarity during state detection.
  • the totaling unit 104 stores the feature amount of the reference posture set by totaling the feature amount in the storage unit 108 .
  • Aggregation unit 104 aggregates the feature amount of the skeletal structure for each predetermined unit.
  • the totaling unit 104 may total the feature quantity of the skeletal structure of the person in one image, or may total the feature quantity of the skeletal structure of the person in a plurality of images.
  • the counting unit 104 may count the feature amount for each predetermined region (location) in the image.
  • the tallying unit 104 may tally the feature amount for each predetermined time period in which the images are captured.
  • the state detection unit 105 detects the state of the person to be detected included in the image based on the set feature amount of the reference posture.
  • the state detection unit 105 detects the posture state of the person extracted from the state detection target image at the time of state detection.
  • the state detection unit 105 compares the feature quantity of the reference posture stored in the storage unit 108 with the feature quantity of the posture of the person to be detected, and detects the state of the person based on the comparison result.
  • the state detection unit 105 calculates the degree of similarity between the feature amount of the reference posture and the feature amount (orientation dependency reduction feature amount) of the posture (skeletal structure) of the target person. determine the state.
  • the state detection unit 105 is also a similarity determination unit that determines the degree of similarity between the feature amount of the reference posture and the feature amount of the posture of the target person.
  • the similarity between feature quantities is the distance between feature quantities.
  • the state detection unit 105 determines that the target person is in a normal state when the similarity is higher than a predetermined threshold, and determines that the target person is in an abnormal state when the similarity is lower than the predetermined threshold. It should be noted that not only the normal state and the abnormal state, but also a plurality of states may be detected. For example, reference postures may be prepared for each of a plurality of states, and the state of the closest reference posture may be selected.
  • the state detection unit 105 may obtain the similarity of the feature amount of the entire skeletal structure, or may obtain the similarity of the feature amount of a part of the skeletal structure. For example, the degree of similarity between the feature amounts of the first part (for example, both hands) and the second part (for example, both feet) of the skeletal structure may be obtained. Further, the degree of similarity may be obtained based on the weight set for each part of the reference posture (skeletal structure). Furthermore, the degree of similarity between the feature amounts of a plurality of reference poses and the feature amounts of a plurality of postures of the target person may be calculated.
  • the state detection unit 105 may detect the state of the person based on the feature amount of posture in each image, or may detect the state of the person based on changes in the feature amount of posture in a plurality of images (videos) that are consecutive in time series.
  • a person's state may be detected.
  • a reference action including a time-series reference posture is set from an acquired image, not limited to an image, and the state (behavior) of the person is determined based on the similarity between the action including the time-series posture of the target person and the reference action. may be detected.
  • the state detection unit 105 detects the degree of similarity of feature amounts in units of frames (images). For example, key frames may be extracted from a plurality of frames, and similarity may be determined using the extracted key frames.
  • the input unit 106 is an input interface that acquires information input by the user who operates the image processing apparatus 100 .
  • the input unit 106 is, for example, a GUI (Graphical User Interface), and receives information according to user operations from an input device such as a keyboard, mouse, or touch panel.
  • GUI Graphic User Interface
  • the input unit 106 may accept a specified person's posture from among a plurality of images as a posture for reference posture setting.
  • the user may manually input the posture (skeleton) of the person for setting the reference posture.
  • the display unit 107 is a display unit that displays the result of the operation (processing) of the image processing apparatus 100, and is, for example, a display device such as a liquid crystal display or an organic EL (Electro Luminescence) display.
  • the display unit 107 displays the processing results of each unit, such as the detection result of the state detection unit 105, on the GUI.
  • FIG. 4 to 6 show the operation (image processing method) of the image processing apparatus 100 according to this embodiment.
  • 4 shows the flow of the overall operation in the image processing apparatus 100
  • FIG. 5 shows the flow of the reference attitude setting process (S201) of FIG. 4
  • FIG. 6 shows the state detection process (S202) of FIG. showing the flow.
  • the image processing apparatus 100 performs reference attitude setting processing (S201), and then performs state detection processing (S202).
  • the image processing apparatus 100 may perform the reference orientation setting process using an image (reference orientation setting image) captured during a predetermined aggregation period (a period until necessary data is aggregated) when setting the reference orientation. to set the feature value of the posture in the normal state.
  • the image processing apparatus 100 detects the state of the person to be detected by performing state detection processing using an image (state detection target image) captured at the detection timing (or detection period) of subsequent state detection.
  • the image processing apparatus 100 acquires a reference attitude setting image (S211).
  • the image acquisition unit 101 acquires a reference posture setting image including a person's posture for setting a reference posture that is a posture in a normal state.
  • the image acquisition unit 101 may acquire one or more images captured in a predetermined period from a camera as images for reference posture setting, or acquire one or more images stored in a storage device. good too. Subsequent processing is performed on the acquired image or images.
  • the user may input (select) the reference posture setting image, or input (select) the human posture for reference posture setting.
  • a plurality of images may be displayed on the display unit 107, and the user may select an image including a pose of a person or a person (posture) in the image for reference pose setting.
  • the skeleton of a person whose pose is estimated may be displayed in each image so that an image or a person can be selected.
  • the user may select multiple images or multiple person poses for reference pose setting. For example, a posture in which a person is standing upright and a posture in which a person is talking may be set as reference postures.
  • the user may input the posture (skeleton) of the person to be set as the reference posture by other methods, not limited to the image.
  • the posture may be input by moving each part of the skeletal structure according to the user's operation. If the skeletal structure is input, the posture estimation process (S212a) may be omitted.
  • a weight (for example, 0 to 1) may be set to a part of the skeleton that is used as a reference posture in accordance with the user's input.
  • label-posture (skeleton) pairs such as upright, squatting, and lying down are prepared (stored), and the user selects a label-posture pair from among them to input the posture to be set as the reference posture. You may
  • the image processing apparatus 100 detects the skeletal structure of the person based on the obtained reference posture setting image (S212a).
  • the obtained reference posture setting image includes a plurality of persons
  • the skeletal structure detection unit 102 detects the skeletal structure as the posture of each person included in the image.
  • FIG. 7 shows the skeletal structure of the human body model 300 detected at this time.
  • a skeleton structure detection unit 102 detects the skeleton structure of a human body model (two-dimensional skeleton model) 300 as shown in FIG.
  • the human body model 300 is a two-dimensional model composed of key points such as human joints and bones connecting the key points.
  • the skeletal structure detection unit 102 extracts feature points that can be keypoints from the image, refers to information obtained by machine learning the image of the keypoints, and detects each keypoint of the person.
  • the key points of the person are head A1, neck A2, right shoulder A31, left shoulder A32, right elbow A41, left elbow A42, right hand A51, left hand A52, right hip A61, left hip A62, right knee A71. , left knee A72, right foot A81, and left foot A82.
  • the image processing apparatus 100 normalizes the orientation of the detected human skeleton structure (S213a).
  • the feature quantity extraction unit 103 adjusts the orientation of the skeletal structure to the direction of the reference posture (for example, the frontal direction) to normalize the orientation of the skeletal structure.
  • the feature amount extraction unit 103 detects the front, back, left, and right of the person from the detected skeletal structure, and extracts the front direction of the skeletal structure in the image as the orientation of the skeletal structure.
  • the feature quantity extraction unit 103 rotates the skeletal structure so that the orientation of the skeletal structure matches the direction of the reference posture. Rotation of the skeletal structure may be performed on a two-dimensional plane or may be performed on a three-dimensional space.
  • FIG. 8 is an example of using an image of a person standing with his left hand raised, captured obliquely from the front left.
  • the orientation of the person can be extracted from the coordinates of each part on the right side and the coordinates of each part on the left side, with the axis in the height direction from the neck or head as the central axis of the human body model (skeletal structure).
  • the orientation of the person on the two-dimensional image is the front left side (lower left side) with respect to the viewpoint direction (imaging direction) in which the image was taken. .
  • the feature amount extraction unit 103 rotates the human body model 301 so that the human body model 301 facing the front left side faces the front direction parallel to the direction of the viewpoint. For example, the angle between the direction of the human body model 301 and the direction of the viewpoint is obtained, and the human body model 301 is rotated by the obtained angle with the central axis of the human body model 301 as the rotation axis. If the central axis of the human body model 301 is tilted with respect to the vertical direction on the two-dimensional image, the inclination is adjusted so that the central axis of the human body model 301 coincides with the vertical direction on the two-dimensional image. As a result, a human body model 301 (skeletal structure) is obtained in which the person with the left hand raised is viewed from the front on the two-dimensional image.
  • FIG. 9 is an example of using an image of a person standing with his left hand raised, captured from the rear right diagonally.
  • the orientation of the person on the two-dimensional image is the right rear side (upper right side) with respect to the imaged viewpoint direction (imaging direction).
  • the feature amount extraction unit 103 rotates the human body model 302 so that the human body model 302 facing the right rear side is oriented in the front direction parallel to the viewpoint direction.
  • a human body model 302 (skeletal structure) is obtained in which the person with the left hand raised is viewed from the front on the two-dimensional image.
  • the image processing apparatus 100 extracts the feature amount of the skeletal structure of the person whose orientation has been normalized (S214a).
  • the feature amount extraction unit 103 extracts, for example, keypoint positions, which are the positions of all keypoints included in the detected skeleton structure, as the feature amount of the skeleton structure. It can be said that the keypoint position indicates the size and direction of the bone specified by the keypoint.
  • a keypoint position can be obtained from the X and Y coordinates of the keypoint in the two-dimensional image.
  • the keypoint position is the position of the keypoint relative to the reference point, and includes the position in the height direction (number of pixels) and the position in the width direction (number of pixels) of the keypoint with respect to the reference point.
  • the keypoint position may be obtained from the Y and X coordinates of the reference point and the Y and X coordinates of the keypoint in the image.
  • the difference between the Y coordinate of the reference point and the Y coordinate of the key point is the position in the height direction
  • the difference between the X coordinate of the reference point and the X coordinate of the key point is the position in the width direction.
  • a reference point is a reference point for representing the relative positions of key points.
  • the position of the reference point in the skeletal structure may be set in advance or may be selected by the user.
  • the reference point is preferably the center of the skeletal structure or higher than the center (above in the vertical direction of the image).
  • the coordinates of the neck keypoint may be used as the reference point.
  • the coordinates of the head or other key points may be used as the reference point instead of the neck.
  • Arbitrary coordinates for example, the center coordinates of the skeleton structure, etc. may be used as the reference point without being limited to the key point.
  • the feature amount extraction unit 103 calculates a normalization parameter such as the number of height pixels based on the detected skeletal structure.
  • the feature amount extraction unit 103 normalizes the feature amount such as the keypoint position based on the number of pixels of the height. For example, the number of height pixels, which is the height of the skeletal structure of the person in the image when standing upright, and the keypoint position of each keypoint of the skeletal structure of the person in the image are obtained.
  • the height pixel number may be obtained by totaling the lengths of the bones from the head to the feet among the bones of the skeletal structure. If the skeletal structure detection unit 102 does not output the top of the head and the feet, it may be corrected by multiplying by a constant as necessary.
  • the feature quantity extraction unit 103 acquires the length of the bones on the two-dimensional image from the head to the feet of the person, and obtains the number of pixels in the height. For example, among the bones in FIG. 7, bone B1 (length L1), bone B51 (length L21), bone B61 (length L31) and bone B71 (length L41), or bone B1 (length L1), The lengths (number of pixels) of bone B52 (length L22), bone B62 (length L32), and bone B72 (length L42) are obtained. The length of each bone can be obtained from the coordinates of each keypoint in the two-dimensional image.
  • the number of height pixels is calculated by multiplying L1+L21+L31+L41 or L1+L22+L32+L42 by a correction constant. If both values can be calculated, for example, the longer value is used as the number of height pixels. That is, each bone has the longest length in the image when the image is taken from the front, and is displayed to be short when the bone is tilted in the depth direction with respect to the camera. Therefore, the longer bones are more likely to be imaged from the front, and are considered to be closer to the true values. Therefore, it is preferable to choose the longer value.
  • the height pixel count may be calculated by other calculation methods. For example, an average human body model showing the relationship (ratio) between the length of each bone and the height in the two-dimensional image space is prepared in advance, and the length of each bone detected using the prepared human body model is used to determine the number of pixels in height. may be calculated.
  • the feature quantity extraction unit 103 divides each keypoint position (X coordinate and Y coordinate) by the height pixel count to obtain a normalized value.
  • the height (number of pixels) or area (pixel area) of the skeleton region may be used as the normalization parameter.
  • a skeletal region including all bones is extracted from the skeletal structure of an upright person.
  • the upper end of the skeleton region is the head key point A1
  • the lower end of the skeleton region is the right foot key point A81 or the left foot key point A82
  • the left end of the skeleton region is the right hand key point A51
  • the right end of the skeleton region is the left hand key point. Key point A52. Therefore, the height of the skeletal region is obtained from the difference between the Y coordinates of the keypoint A1 and the keypoint A81 or A82.
  • the width of the skeleton region is obtained from the difference between the X coordinates of the key points A51 and A52, and the area is obtained from the height and width of the skeleton region.
  • each keypoint position may be divided by the height, width, area, or the like of the skeleton region to obtain a normalized value.
  • the image processing apparatus 100 aggregates the feature amounts of the extracted multiple skeletal structures (S215).
  • the image processing apparatus 100 repeats collecting the feature amounts of the skeletal structure from the acquisition of the image (S211 to S215) until sufficient data is obtained (S216), and sets the collected feature amounts as the feature amounts of the reference posture (S217). .
  • the aggregation unit 104 aggregates the feature amounts of multiple skeletal structures extracted from one image or multiple images.
  • the tabulation unit 104 tabulates the keypoint positions for each keypoint.
  • the counting unit 104 obtains statistical values such as the average and variance of the feature amounts of a plurality of skeletal structures for each predetermined unit, and calculates the feature amounts of the skeletal structures (average posture and frequent postures) based on the obtained statistical values. is set as the feature quantity of the reference pose.
  • the counting unit 104 stores the set feature amount of the reference posture in the storage unit 108 .
  • FIG. 10 shows an example of determining the average posture from the feature values of a plurality of skeletal structures and setting the reference posture.
  • the human body models 301 and 302 are the skeletal structures of a person standing with the left hand raised, and the positions of the left hands of the human body models 301 and 302 are shifted.
  • Aggregation unit 104 obtains the average of each keypoint position of human body model 301 and each keypoint position of human body model 302 . For example, an intermediate coordinate between the left hand key point A52 of the human body model 301 and the left hand key point A52 of the human body model 302 is the average value of the key point A52.
  • An intermediate coordinate between the left elbow key point A42 of the human body model 301 and the left elbow key point A42 of the human body model 301 is the average value of the key point A42.
  • the tallying unit 104 sets the skeletal structure at the keypoint position of the calculated average value as the average posture as the reference posture.
  • the frequent posture may be set as the reference posture.
  • feature quantities of a plurality of skeletal structures may be clustered for each predetermined unit, and the feature quantity of a reference posture may be set based on the clustering result.
  • the feature amounts of a plurality of skeletal structures are clustered, and the feature amount (average or the like) included in one of the clusters is set as the feature amount of the reference posture.
  • the posture of a cluster that includes the most feature amount (posture information) among a plurality of clusters may be set as a reference posture as a frequent posture.
  • FIG. 11 shows an example in which frequently occurring postures are obtained from feature amounts of a plurality of skeletal structures, and frequently occurring postures are set as reference postures.
  • human body models 301 and 302 are skeletal structures of a person standing with his left hand raised
  • human body model 303 is a skeletal structure of a person standing with his left hand lowered.
  • the aggregation unit 104 classifies (clusters) such that similar postures are in the same cluster.
  • human body models 301 and 302 are included in the first cluster
  • human body model 303 is included in the second cluster. Since the first cluster has more feature amount data than the second cluster, for example, the average of the feature amounts included in the first cluster is set as the feature amount of the reference posture.
  • the summing unit 104 sets a reference orientation for the image based on the summed feature amount.
  • the totalizing unit 104 sets a reference orientation for each image location based on the totaled feature amount.
  • the tallying unit 104 divides the image into a plurality of tallying regions, tallies the feature quantity of the skeletal structure for each tallying region, and sets each tallying result as the feature quantity of the reference posture of each tallying region.
  • the aggregation area may be a predetermined area or an area designated by the user.
  • the aggregation area is a rectangular area (A11 to A19) obtained by dividing the image vertically and horizontally at predetermined intervals.
  • the aggregation area is not limited to a rectangle, and may be of any shape.
  • the aggregation area is divided at predetermined intervals without considering the background of the image. Note that the total area may be divided in consideration of the background of the image, the amount of total data, and the like.
  • the area far from the camera is made smaller than the area closer to the camera (lower side of the image) according to the imaging distance, so as to correspond to the size relationship between the image and the real world. good.
  • the area with a large feature amount may be made smaller than the area with a small feature amount. In the example of FIG.
  • the total area is an area obtained by dividing the image according to the background (scene). In this example, it is divided into a road area (A23), a building vicinity area (A21, A22), and a bus stop chair area area (A24).
  • Each region may be set by the user according to the background, or each region may be automatically set by recognizing an object or the like in the image.
  • a posture in which the right hand is raised and standing is set as a reference posture in the road region (A23), and both hands are lowered in the regions near buildings (A21, A22).
  • the standing posture is set as the reference posture
  • the sitting posture is set as the reference posture in the region (A24) near the chair.
  • the aggregation unit 104 aggregates, for each aggregation region, the feature amount of a person whose feet (for example, the bottom end of the foot) are detected in the aggregation region, for example. If the area other than the feet is detected, the areas other than the feet may be used as the standard for aggregation. For example, the feature amount of a person whose head or torso is detected in an aggregation area may be aggregated for each aggregation area.
  • the tallying unit 104 obtains the average posture and the frequent postures for each tallying region as described above, and sets the feature amount of the reference posture.
  • the totaling unit 104 sets a reference posture for each time period based on the totaled feature amount.
  • Each acquired image is set with the time when the image was taken, and the period in which all the images were taken is divided into a plurality of aggregation time periods.
  • the totaling unit 104 totals the feature amounts of the skeletal structure of the plurality of images included in the time period for each totaling time period, and sets each totaling result as the feature amount of the reference posture for each totaling time period.
  • the aggregation time period may be a predetermined time period or a time period specified by the user.
  • Each aggregation time period may be a time period of the same length, or may be a time period of different lengths.
  • the total time period may be divided in consideration of the time of an event related to human behavior, the amount of total data, and the like. Depending on the amount of aggregated data, the time slot with the large feature amount may be shorter than the time slot with the small feature amount.
  • the counting unit 104 obtains the average posture and the frequent postures for each time zone as described above, and sets the feature amount of the reference posture. Furthermore, in each time zone, the reference posture may be set by totaling for each total region as described above.
  • Fig. 14 shows an example of aggregating the feature values of the skeletal structure for each time period.
  • the entire period is divided into tally time periods T1 to T3.
  • it is divided into a time zone (T1) until the bus arrives at the bus stop, a time zone (T2) when the bus arrives at the bus stop, and a time zone (T3) after the bus departs.
  • T1 time zone
  • T2 time zone
  • T3 time zone
  • the image processing apparatus 100 acquires a state detection target image (S221).
  • the image acquisition unit 101 acquires an image of a person to be detected in order to detect the state (posture) of the person to be detected.
  • the image acquisition unit 101 may acquire one or more images captured in a predetermined period from a camera, or may acquire one or more images stored in a storage device, as a state detection target. . Subsequent processing is performed on the acquired image or images.
  • the user may input (select) the state detection target image, or input (select) the person (posture) of the state detection target.
  • a plurality of images may be displayed on the display unit 107, and the user may select an image including a person's posture or a person (posture) in the image as a state detection target.
  • the skeleton of a person whose pose is estimated may be displayed in each image so that an image or a person can be selected.
  • the user may select a plurality of images or a plurality of persons as the state detection targets.
  • the image processing apparatus 100 detects the skeletal structure of the person in the state detection target image (S212b), normalizes the orientation (S213b), and extracts the feature amount, in the same manner as when setting the reference posture. (S214b) is performed. That is, the skeletal structure detection unit 102 detects the skeletal structure of the person (the person designated as the detection target) in the state detection target image. The feature quantity extraction unit 103 normalizes the orientation of the detected skeleton structure and extracts the feature quantity of the skeleton structure whose orientation has been normalized.
  • the image processing apparatus 100 calculates the degree of similarity between the reference posture and the posture of the target person (S222), and determines the state of the target person based on the degree of similarity (S223).
  • the state detection unit 105 uses the similarity of the feature quantity to determine whether or not the posture (skeletal structure) of the extracted detection target person is close to the set reference posture. It is determined that the target person is in a normal state, and if the person is away from the reference pose, it is determined that the detection target person is in an abnormal state.
  • the state detection unit 105 calculates the degree of similarity between the feature quantity of the reference posture stored in the storage unit 108 in S217 and the feature quantity of the posture (skeletal structure) of the target person extracted in S214b. .
  • the state detection unit 105 obtains the distance (difference) between each part (keypoint or bone) of the reference posture and each part of the posture of the target person in the two-dimensional image space.
  • the keypoint positions are obtained as the feature quantity of the skeletal structure, the distance between the keypoint positions of each part is obtained.
  • the state detection unit 105 performs calculations such that the smaller the total distance of each part, the higher the similarity, and the larger the total distance of each part, the smaller the similarity.
  • the state detection unit 105 obtains the degree of similarity between postures of a plurality of target persons, determines that a target person whose posture is greater than the threshold is in a normal state, and determines that a target person whose posture is greater than the threshold is in a normal state. It is determined that the person is in an abnormal state. A possibility (probability) of determining that the person is in a normal state or an abnormal state may be obtained according to the similarity of the feature amount.
  • the reference posture and the target person's posture include a plurality of postures
  • the degree of similarity for each posture may be obtained, and the state of the target person may be determined based on the total value of the plurality of similarities.
  • the state detection unit 105 may calculate the degree of similarity based on the weight of each part.
  • the weight of each part may be set by the user at the time of inputting the reference posture, or may be set according to the variance of the counting result of setting the reference posture. For example, the state detection unit 105 multiplies the difference of each part by the weight of each part, and obtains the similarity based on the total value of the multiplied values.
  • the state detection unit 105 calculates the degree of similarity between the feature quantity of the posture of the person to be detected and the feature quantity of the reference posture set in the aggregation region corresponding to the detection target. may be calculated. For example, a tally region including the feet of a person to be detected is recognized, and the degree of similarity between the feature quantity of the reference posture in the recognized tally region and the feature quantity of the posture of the person to be detected is calculated.
  • the state detection unit 105 calculates the degree of similarity between the feature amount of the posture of the person to be detected and the feature amount of the reference posture set for the time period corresponding to the detection target. may be calculated. For example, the time at which the posture of the person to be detected was captured is acquired from the state detection target image, and the similarity between the feature amount of the reference posture and the feature amount of the posture of the person to be detected in the time period corresponding to the acquired time. Calculate
  • the image processing apparatus 100 displays the determination result of the person's state (S224).
  • the display unit 107 displays the state detection target image and displays the state of the person detected in the state detection target image.
  • FIG. 15 shows a display example of a person's state displayed by the display unit 107 .
  • the posture (skeletal structure) of the person in the image is displayed, and the posture of the person determined to be in an abnormal state is highlighted.
  • a rectangle is displayed in the posture of a person that has a low degree of similarity with the reference posture and is determined to be abnormal.
  • the degree of similarity to the calculated reference posture may be displayed instead of the rectangle, and the display mode of the posture of the person may be changed according to the degree of similarity.
  • the posture of the person may be emphasized for display. Further, the degree of similarity of the reference posture may be displayed for each part of the skeletal structure, and the display mode of each part of the posture of the person may be changed according to the degree of similarity.
  • FIG. 15 is an example in which a standing posture with the left hand raised is set as a reference posture.
  • a person standing with his left hand raised is determined to be in a normal state
  • a sitting person and a person standing with his right hand raised are determined to be in an abnormal state. Since a feature amount whose orientation is normalized is used, even a person standing with his or her left hand raised while facing backward is determined to be in a normal state.
  • the skeletal structure of a person is detected from the reference pose setting image, and the feature amounts of the detected skeletal structure are aggregated and set as the feature amount of the reference pose. Furthermore, the state of the target person is detected by obtaining the degree of similarity between the feature amount of the reference posture and the feature amount of the skeletal structure of the target person. As a result, it is possible to set a reference posture as a reference and detect the state of the person even in a state of the person that is difficult to define. For example, a person in an abnormal state can be detected with the normal state as the reference posture.
  • the state of the target person is detected by setting the reference posture using the orientation dependency reduction feature amount of the person and obtaining the similarity with the orientation dependency reduction feature amount of the target person.
  • the orientation dependency reduction feature amount the orientation of the skeleton structure is normalized to calculate the feature amount.
  • the reference posture can be set regardless of the orientation of the posture of the person on the image, and the state of the target person can be accurately detected.
  • the setting of the reference posture and the state of the target person are detected by detecting the skeletal structure using the skeletal estimation technique.
  • the skeletal estimation technique it is possible to set a reference posture and detect a person's state without collecting learning data.
  • Embodiment 2 will be described below with reference to the drawings.
  • an example will be described in which an orientation dependency reduction feature amount is extracted by using a feature space of orientation-invariant feature amounts.
  • FIG. 16 shows a configuration example of the image processing apparatus 100 according to this embodiment.
  • the image processing apparatus 100 according to the present embodiment includes a feature space mapping section 109 instead of the feature quantity extraction section 103, unlike the configuration of the first embodiment.
  • Other configurations are the same as those of the first embodiment.
  • the feature space mapping unit 109 maps the two-dimensional skeletal structure (posture) detected from the image onto the feature space, and generates (extracts) an orientation-invariant feature quantity that is invariant to the orientation of the person's posture.
  • the feature amount space of the orientation-invariant feature amount by using the feature amount space of the orientation-invariant feature amount, the feature amount (orientation dependency reduced feature amount) in which the dependence of the skeleton (orientation) of the person on the orientation is reduced is extracted.
  • the feature space mapping unit 109 may generate an orientation-invariant feature amount in the feature space from the skeleton structure using a feature amount extraction model using machine learning.
  • a feature quantity extraction model that has learned the relationship between the skeletal structure in various orientations and the feature quantity on the feature space, the skeletal structure can be mapped to the orientation-invariant feature quantity on the feature space.
  • the feature amount of the posture of the person included in the image may be generated (extracted) directly from the image using a feature amount extraction model that takes the image as input. That is, the function of the skeletal structure detection unit 102 and the function of the feature space mapping unit 109 may be realized by the feature quantity extraction model. For example, by using a feature extraction model that has learned the relationship between images of people in various orientations and postures and the feature values in the feature space, the image of the person is mapped to the orientation-invariant feature values in the feature space. good too.
  • FIG. 17 and 18 show the operation (image processing method) of the image processing apparatus 100 according to the present embodiment.
  • the overall flow of operations in the image processing apparatus 100 is the same as in FIG. 4 of the first embodiment.
  • FIG. 17 shows the flow of the reference attitude setting process (S201) according to this embodiment
  • FIG. 18 shows the flow of the state detection process (S202) according to this embodiment.
  • the image processing apparatus 100 acquires a reference attitude setting image (S211), and the acquired image for reference attitude setting is obtained as in the first embodiment. (S212a).
  • the image processing apparatus 100 maps the skeletal structure of the person detected from the reference posture setting image onto the feature space (S218a).
  • the feature space mapping unit 109 uses, for example, a feature amount extraction model to map the skeletal structure of the person detected from the reference posture setting image to the feature space, and generates an orientation-invariant feature amount.
  • FIG. 19 is an example of using an image of a person standing with his left hand raised, taken obliquely from the front left, as in FIG.
  • the human body model 301 detected from the image faces the front left side (lower left side) on the two-dimensional image with respect to the viewpoint direction (imaging direction) in which the image is taken.
  • the feature space mapping unit 109 maps the skeletal structure of the human body model 301 to the feature space using the feature extraction model to generate the orientation-invariant feature P1.
  • the orientation-invariant feature amount P1 is indicated by coordinates in the feature space.
  • the number of dimensions of the feature space and the like are not particularly limited.
  • FIG. 20 is an example of using an image of a person standing with his left hand raised, taken obliquely from behind to the right, as in FIG.
  • the human body model 302 detected from the image faces the rear right side (upper right side) on the two-dimensional image with respect to the viewpoint direction (imaging direction) in which the image is taken.
  • the feature space mapping unit 109 maps the skeletal structure of the human body model 302 onto the feature space using the feature extraction model, and generates orientation-invariant feature P2.
  • the human body model 301 in FIG. 19 faces the left front side on the image
  • the human body model 302 in FIG. 20 faces the right rear side on the image. , the position is close.
  • the image processing apparatus 100 aggregates the feature amounts (orientation-invariant feature amounts) of the plurality of skeletal structures extracted from the feature space (S215).
  • the image processing apparatus 100 repeats collecting the feature amounts of the skeletal structure from the acquisition of the image (S211 to S215) until sufficient data is obtained (S216), and sets the collected feature amounts as the feature amounts of the reference posture (S217). .
  • the counting method of the counting unit 104 is the same as in the first embodiment.
  • the aggregation unit 104 obtains an average of a plurality of orientation-invariant feature amounts in the feature space, and sets the obtained average orientation-invariant feature amount as the feature amount of the reference posture.
  • FIG. 21 shows an example of setting the average of multiple orientation-invariant feature quantities as the reference orientation.
  • the aggregation unit 104 calculates the intermediate (center) coordinates of the invariant feature amount P1 and the invariant feature amount P2 in the feature space as an average of the orientation invariant feature amount P1 of the human body model 301 and the orientation invariant feature amount P2 of the human body model 302.
  • the feature amount of the determined coordinates is used as the feature amount of the reference posture.
  • the image processing apparatus 100 acquires a state detection target image (S221) and extracts the skeleton of the person in the state detection target image, as in the first embodiment.
  • a structure is detected (S212b).
  • the image processing apparatus 100 maps the detected skeletal structure of the person to the feature space in the same manner as when setting the reference posture (S218b).
  • the feature space mapping unit 109 uses, for example, a feature extraction model to map the skeletal structure of the person detected from the state detection target image to the feature space to generate an orientation-invariant feature.
  • the image processing apparatus 100 calculates the degree of similarity between the reference posture and the posture of the target person (S222), determines the state of the target person based on the degree of similarity (S223), and performs the determination. Display the result (S224).
  • the state detection unit 105 calculates the degree of similarity between the orientation-invariant feature amount of the reference posture stored in the storage unit 108 in S217 and the orientation-invariant feature amount of the posture (skeletal structure) of the target person extracted in S218b.
  • the state detection unit 105 obtains the degree of similarity based on the distance between the orientation-invariant feature amount of the reference posture and the orientation-invariant feature amount of the posture of the target person, and determines the state of the target person based on the calculated degree of similarity.
  • the orientation-invariant feature amount obtained by mapping the skeletal structure to the feature space is used as the orientation dependency reduction feature amount of the person.
  • the reference posture can be set regardless of the orientation of the posture of the person on the image, and the state of the target person can be detected accurately.
  • Each configuration in the above-described embodiments is configured by hardware or software, or both, and may be configured from one piece of hardware or software, or may be configured from multiple pieces of hardware or software.
  • Each device and each function (process) may be realized by a computer 20 having a processor 21 such as a CPU (Central Processing Unit) and a memory 22 as a storage device, as shown in FIG.
  • a program for performing the method (image processing method) in the embodiment may be stored in the memory 22 and each function may be realized by executing the program stored in the memory 22 by the processor 21 .
  • These programs contain instructions (or software code) that, when read into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored in a non-transitory computer-readable medium or tangible storage medium.
  • computer readable media or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drives (SSD) or other memory technology, CDs - ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or communication medium.
  • transitory computer readable media or communication media include electrical, optical, acoustic, or other forms of propagated signals.
  • An image processing system comprising: (Appendix 2) The extracting means normalizes the orientation of the orientation of the orientation information in a predetermined direction, and extracts the feature amount of the orientation information obtained by normalizing the orientation as the orientation dependency reduction feature amount.
  • the image processing system according to Appendix 1. (Appendix 3)
  • the extracting means maps the orientation information to a feature space of orientation-invariant feature amounts, and extracts the feature amounts on the mapped feature space as the orientation dependency reduction feature amounts.
  • the image processing system according to Appendix 1. (Appendix 4)
  • the setting means aggregates the extracted orientation dependency reduction feature amount for each predetermined unit, and sets the feature amount of the reference posture based on the aggregation result. 4.
  • the image processing system according to any one of Appendices 1 to 3. (Appendix 5) the setting means obtains a statistic value of the orientation dependency reduction feature amount for each of the predetermined units;
  • the setting means clusters the orientation dependency reduction feature amount for each of the predetermined units, and sets the feature amount of the reference posture based on the clustering result.
  • the image processing system according to appendix 4. the setting means aggregates the orientation dependency reduction feature amount for each of the first images or for each predetermined region in the first image; 7.
  • the image processing system according to any one of Appendices 4 to 6. The setting means aggregates the orientation dependency reduction feature amount for each predetermined time period in which the first image is captured.
  • the image processing system according to any one of Appendices 4 to 7. (Appendix 9) state detection means for detecting a state of the target person included in the second image based on the set feature amount of the reference posture; 9.
  • the image processing system according to any one of Appendices 1 to 8.
  • the acquisition means acquires posture information obtained by estimating a posture of a target person included in the second image
  • the extracting means extracts an orientation dependency reduction feature amount of the posture of the target person based on the posture information acquired from the second image
  • the state detection means detects the state of the target person based on a degree of similarity between the feature quantity of the reference posture and the orientation dependency reduction feature quantity of the posture of the target person.
  • the image processing system according to appendix 9. (Appendix 11)
  • the state detection means obtains the degree of similarity based on the weight set for each part in the reference posture. 11.
  • the state detection means detects whether or not the target person is in an abnormal state based on the degree of similarity, with the reference posture as a posture of a normal state.
  • the image processing system according to any one of appendices 10 to 13.
  • (Appendix 15) acquiring posture information obtained by estimating the posture of a person included in the first image; based on the acquired posture information, extracting an orientation dependency reduction feature quantity in which the dependency of the posture information on the orientation of the posture is reduced; setting the extracted orientation dependency reduction feature amount as a reference posture feature amount for detecting the state of the target person included in the second image; Image processing method.
  • (Appendix 18) acquiring posture information obtained by estimating the posture of a person included in the first image; based on the acquired posture information, extracting an orientation dependency reduction feature quantity in which dependency of the posture information on the orientation of the posture is reduced; setting the extracted orientation dependency reduction feature quantity as a reference posture feature quantity for detecting the state of the target person included in the second image;
  • a non-transitory computer-readable medium storing an image processing program for causing a computer to execute processing.
  • (Appendix 19) normalizing the orientation of the orientation of the orientation information in a predetermined direction, and extracting the feature amount of the orientation information with the orientation normalized as the orientation dependency reduction feature amount; 19.
  • (Appendix 20) mapping the orientation information to a feature space of orientation-invariant feature quantities, and extracting the feature quantity on the mapped feature space as the orientation dependency reduction feature quantity; 20.
  • Image processing system 11
  • Acquisition unit 12
  • Extraction unit 13
  • Setting unit 20
  • Computer 21 Processor 22
  • Memory 100
  • Image acquisition unit 102
  • Skeletal structure detection unit 103
  • Feature amount extraction unit 104
  • Aggregation unit 105
  • State detection unit 106
  • Input unit 107
  • Display unit 108
  • Storage unit 109
  • Feature space mapping unit 200 Image providing device

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本開示に係る画像処理システム(10)は、第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得部(11)と、取得部(11)により取得された姿勢情報に基づいて、姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出する抽出部(12)と、抽出部(12)により抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する設定部(13)と、を備えるものである。

Description

画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体
 本発明は、画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体に関する。
 近年、カメラにより撮像された画像から人物の姿勢や行動等の状態を検出する技術が利用されている。関連する技術として、例えば、特許文献1や2が知られている。特許文献1には、人物の画像領域の時間的な変化から、人物の姿勢の変化を検知する技術が記載されている。特許文献2には、人物の首及び膝の床からの高さが所定の条件を満たすか否かによって、その人物の姿勢が異常であるか否かを判定する技術が記載されている。
 また、類似した姿勢を含む画像を画像データベースから検索する技術として特許文献3が知られている。その他、人物の骨格推定に関連する技術として、非特許文献1が知られている。
特開2010-237873号公報 特開2021-149313号公報 特開2019-091138号公報
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
 特許文献1や2などの関連する技術では、予め決まった条件を満たす場合に、人物が所定の状態であることを検出し得る。しかしながら、関連する技術では、予め基準となる人物の状態が設定されていることが前提となっている。このため、関連する技術では、検出したい人物の状態を定義することが難しい場合などにおいては、所望の人物の状態を検出することができない。
 本開示は、このような課題に鑑み、所望の人物の状態を検出可能とする画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体を提供することを目的とする。
 本開示に係る画像処理システムは、第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得手段と、前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出する抽出手段と、前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する設定手段と、を備えるものである。
 本開示に係る画像処理方法は、第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定するものである。
 本開示に係る画像処理プログラムが格納された非一時的なコンピュータ可読媒体は、第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒体である。
 本開示によれば、所望の人物の状態を検出可能とする画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体を提供することができる。
関連する監視方法を示すフローチャートである。 実施の形態に係る画像処理システムの概要を示す構成図である。 実施の形態1に係る画像処理装置の構成例を示す構成図である。 実施の形態1に係る画像処理方法の動作例を示すフローチャートである。 実施の形態1に係る参照姿勢設定処理の動作例を示すフローチャートである。 実施の形態1に係る状態検出処理の動作例を示すフローチャートである。 実施の形態1に係る画像処理装置の動作例で使用する骨格構造を示す図である。 実施の形態1に係る向き正規化処理を説明するための図である。 実施の形態1に係る向き正規化処理を説明するための図である。 実施の形態1に係る集計処理を説明するための図である。 実施の形態1に係る集計処理を説明するための図である。 実施の形態1に係る集計処理を説明するための図である。 実施の形態1に係る集計処理を説明するための図である。 実施の形態1に係る集計処理を説明するための図である。 実施の形態1に係る状態検出結果の表示例を示す図である。 実施の形態2に係る画像処理装置の構成例を示す構成図である。 実施の形態2に係る参照姿勢設定処理の動作例を示すフローチャートである。 実施の形態2に係る状態検出処理の動作例を示すフローチャートである。 実施の形態2に係る特徴空間写像処理を説明するための図である。 実施の形態2に係る特徴空間写像処理を説明するための図である。 実施の形態2に係る集計処理を説明するための図である。 実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。
 以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。
(実施の形態に至る検討)
 近年、機械学習を活用した画像認識技術が様々なシステムに応用されている。一例として、監視カメラの画像により監視を行う監視システムについて検討する。
 図1は、関連する監視システムにおける監視方法を示している。図1に示すように、監視システムは、監視カメラから画像を取得し(S101)、取得した画像の中から人物を検知し(S102)、人物の状態認識及び属性認識(S103)を行う。例えば、人物の状態として人物の振る舞い(姿勢や行動)等を認識し、人物の属性として人物の年齢や性別、身長等を認識する。また、監視システムでは、認識した人物の状態や属性からデータ分析を行い(S104)、分析結果に基づき対処等のアクチュエーションを行う(S105)。例えば、認識した振る舞い等からアラート表示を行ったり、認識した身長等の属性の人物の監視を行う。
 このような監視システムにおける状態認識では、人物の振る舞い、特に通常とは異なる振る舞いを監視カメラの映像から検知したいという需要が高まっている。例えば、振る舞いには、しゃがみ込み、車いす利用者、転倒等が含まれる。
 発明者は、画像から人物の振る舞い等の状態を検出する方法を検討したところ、関連する技術では、所望する人物の状態を検出できない場合があり、また、簡易に検出することは困難であるという課題を見出した。例えば、“異常行動”のような定義できない行動については、基準となる状態を設定することが難しいため、検出することはできない。また、近年のディープラーニングの発展により、検知対象の振る舞い等を撮影した映像を大量に集めて学習させることで上記の振る舞い等を検知することは可能であるが、この学習データを集めることが困難であり、コストも高い。
 そこで、実施の形態では、定義が困難な人物の状態であっても検出可能とする。また、実施の形態では、一例として、人物の状態検出に、機械学習を用いた骨格推定技術等の姿勢推定技術を利用する。例えば、非特許文献1に開示されたOpenPose等のように、関連する骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。以下の実施の形態では、このような骨格推定技術を活用することで、簡易に人物の状態を検出する。
 なお、OpenPose等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン(ボーンリンク)」とから構成される。このため、以下の実施の形態では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明するが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。
(実施の形態の概要)
 図2は、実施の形態に係る画像処理システム10の概要を示している。図2に示すように、画像処理システム10は、取得部11、抽出部12、設定部13を備えている。なお、画像処理システム10は、1つの装置により構成してもよいし、複数の装置により構成してもよい。
 取得部11は、第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する。抽出部12は、取得部11により取得された姿勢情報に基づいて、向き依存性低減特徴量を抽出する。向き依存性低減特徴量とは、少なくとも姿勢情報(人物)の姿勢の向きへの依存性が低減された(小さい)特徴量であり、姿勢の向きに依存しない特徴量を含んでもよい。例えば、姿勢情報の姿勢の向きを所定の方向に正規化し、向きを正規化した姿勢情報の特徴量を向き依存性低減特徴量として抽出してもよいし、姿勢情報を向きに不変の特徴量の特徴空間に写像し、写像した特徴空間上の特徴量を向き依存性低減特徴量として抽出してもよい。向きへの依存性が大きい特徴量を向きへの依存性が小さい特徴量に変換しているとも言える。設定部13は、抽出部12により抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する。例えば、参照姿勢を正常状態の姿勢として、対象人物が異常状態であるか否かを検出可能としてもよい。
 このように、実施の形態では、第1の画像から推定される人物の姿勢情報を用いて、人物の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、抽出された向き依存性低減特徴量を参照姿勢の特徴量に設定する。これにより、取得される姿勢情報から適切に参照姿勢を設定することができる。したがって、設定された参照姿勢により、定義することが困難な人物の状態などであっても所望の人物の状態を検出可能とすることができる。また、人物の姿勢の向きへの依存性が低減された向き依存性低減特徴量を使用することで、画像上の人物の姿勢の向きによらずに参照姿勢を設定し人物の状態を検出することが可能となる。
(実施の形態1)
 以下、図面を参照して実施の形態1について説明する。本実施の形態では、姿勢情報の向きを正規化することで向き依存性低減特徴量を抽出する例について説明する。
 図3は、本実施の形態に係る画像処理装置100の構成例を示している。画像処理装置100は、画像から推定される人物の姿勢に基づき、人物の状態を検出する装置である。
 画像処理装置100は、画像処理装置100に画像を提供する画像提供装置200とともに画像処理システム1を構成してもよい。例えば、画像処理装置100を含む画像処理システム1は、図1のような監視システムにおける監視方法に適用され、通常とは異なる振る舞い等の人物の状態を検出し、その検出に応じたアラームの表示等を行う。
 画像提供装置200は、画像を撮像するカメラでもよいし、予め画像が格納された画像記憶装置でもよい。画像提供装置200は、人物を含む2次元の画像を生成(記憶)し、生成した画像を画像処理装置100へ出力する。画像提供装置200は、画像(映像)を画像処理装置100へ出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、画像提供装置200を画像処理装置100の内部に設けてもよい。
 図3に示すように、画像処理装置100は、画像取得部101、骨格構造検出部102、特徴量抽出部103、集計部104、状態検出部105、入力部106、表示部107、記憶部108を備えている。なお、各部(ブロック)の構成は一例であり、後述の動作(方法)が可能であれば、その他の各部で構成されてもよい。また、画像処理装置100は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、1つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。例えば、骨格構造検出部102等を外部の装置としてもよい。
 記憶部108は、画像処理装置100の動作(処理)に必要な情報(データ)を記憶する。例えば、記憶部108は、フラッシュメモリなどの不揮発性メモリやハードディスク装置等である。記憶部108は、画像取得部101が取得した画像や、骨格構造検出部102が処理した画像や検出結果、機械学習用のデータ、集計部104が集計したデータ等を記憶する。なお、記憶部108は、外付けやネットワーク上の外部の記憶装置としてもよい。すなわち、画像処理装置100は、外部の記憶装置から必要な画像や機械学習用のデータ等を取得してもよいし、外部の記憶装置に集計結果のデータ等を出力してもよい。
 画像取得部101は、画像提供装置200から画像を取得する。画像取得部101は、画像提供装置200が生成(記憶)した人物を含む2次元の画像(複数の画像を含む映像)を取得する。画像取得部101は、参照姿勢設定時に参照姿勢設定用画像(第1の画像)を取得する第1の画像取得部と、状態検出時に状態検出対象画像(第2の画像)を取得する第2の画像取得部を含むとも言える。例えば、画像提供装置200がカメラの場合、画像取得部101は、参照姿勢設定時の所定の集計期間や状態検出時の検出タイミングにカメラが撮像した、人物を含む複数の画像(映像)を取得する。
 骨格構造検出部102は、画像に基づいて画像内の人物の姿勢を推定(検出)する姿勢推定部(姿勢検出部)である。なお、骨格構造検出部102は、外部の装置(画像提供装置200や入力部106等)から、予め画像内の人物の姿勢を推定した姿勢情報を取得してもよい。骨格構造検出部102は、参照姿勢設定時に取得された参照姿勢設定用画像内の人物の姿勢を推定する第1の姿勢推定部と、状態検出時に取得された状態検出対象画像内の人物の姿勢を推定する第2の姿勢推定部を含むとも言える。
 この例では、骨格構造検出部102は、人物の姿勢として、画像から人物の骨格構造を検出する。なお、骨格構造の検出に限らず、その他の手法により人物の姿勢を推定してもよい。例えば、機械学習を用いたその他の姿勢推定モデルにより、画像内の人物の姿勢を推定してもよい。
 骨格構造検出部102は、取得された2次元の画像に基づき、画像内の人物の2次元の骨格構造(姿勢情報)を検出する。骨格構造検出部102は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。骨格構造検出部102は、複数の画像のそれぞれにおいて、認識される人物の骨格構造を検出する。骨格構造検出部102は、取得された画像の中で認識される全ての人物について、骨格構造を検出してもよいし、画像の中で指定された人物について、骨格構造を検出してもよい。骨格構造検出部102は、例えば、非特許文献1のOpenPose等の骨格推定技術を用いる。
 特徴量抽出部103は、画像から検出された2次元の骨格構造(姿勢情報)に基づいて、人物の骨格(姿勢)の特徴量を抽出する。特徴量抽出部103は、参照姿勢設定時に参照姿勢設定用画像から推定された人物の姿勢の特徴量を抽出する第1の特徴量抽出部と、状態検出時に状態検出対象画像から推定された人物の姿勢の特徴量を抽出する第2の特徴量抽出部を含むとも言える。
 特徴量抽出部103は、骨格構造の特徴量として、人物の骨格(姿勢)の向きへの依存性が低減された特徴量(向き依存性低減特徴量)を抽出する。本実施の形態では、骨格構造の向きを所定の参照姿勢方向に正規化することで、向きへの依存性が低減された特徴量を抽出する。特徴量抽出部103は、骨格構造の向きを参照姿勢方向(例えば正面方向)に調整し、参照姿勢方向に向いた状態の骨格構造の特徴量を算出する。骨格構造の特徴量(姿勢特徴量)は、人物の骨格(姿勢)の特徴を示しており、人物の骨格に基づいて人物の状態を検出するための要素となる。骨格構造の特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。例えば、骨格構造の特徴量は、骨格構造に含まれる各部の位置や大きさ、方向等を含んでもよい。
 また、特徴量抽出部103は、算出した特徴量をその他のパラメータにより正規化してもよい。例えば、正規化パラメータとして、人物の身長や骨格領域の大きさ等を用いてもよい。例えば、特徴量抽出部103は、2次元の画像内の人物の直立時の高さ(身長画素数)を算出し、算出された人物の身長画素数に基づいて、人物の骨格構造を正規化する。身長画素数は、2次元の画像における人物の身長(2次元画像空間上の人物の全身の長さ)である。特徴量抽出部103は、検出された骨格構造の各ボーンの長さ(2次元画像空間上の長さ)から身長画素数(ピクセル数)を求める。
 例えば、特徴量抽出部103は、骨格構造に含まれる各キーポイント(特徴点)の画像上での位置を特徴量として、身長画素数で正規化してもよい。キーポイントの位置は、キーポイントのX座標及びY座標の値(画素数)から求めることができる。Y座標を求める高さ方向は、実世界の3次元座標空間における地面(基準面)に対し垂直な鉛直軸の方向を、2次元座標空間に投影した鉛直投影軸の方向(鉛直投影方向)でもよい。この場合、Y座標の高さは、実世界における地面に対し垂直な軸を、カメラパラメータに基づいて2次元座標空間に投影した鉛直投影軸を求め、この鉛直投影軸に沿った値(画素数)から求めることができる。なお、カメラパラメータは、画像の撮像パラメータであり、例えば、カメラパラメータは、カメラの姿勢、位置、撮像角度、焦点距離等である。カメラにより、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めることができる。
 集計部104は、抽出された複数の骨格構造(姿勢)の特徴量(向き依存性低減特徴量)を集計し、集計した特徴量を参照姿勢の特徴量として設定する。なお、抽出した1つの骨格構造の特徴量から参照姿勢の特徴量を設定してもよい。集計部104は、参照姿勢設定時に参照姿勢設定用画像から抽出された人物の姿勢に基づいて参照姿勢を設定する設定部であるとも言える。参照姿勢は、人物の状態を検出するための基準となる姿勢であり、例えば、正常状態(通常状態)における人物の姿勢である。
 集計部104は、参照姿勢設定時に所定の集計期間に撮像された複数の画像における複数の骨格構造の特徴量を集計する。例えば、集計部104は、複数の特徴量の平均値を求め、この平均値を参照姿勢の特徴量とする。すなわち、集計部104は、参照姿勢方向に揃えた複数の骨格構造の全体または一部の特徴量の平均値を求める。なお、骨格構造の平均に限らず、分散や中間値など、その他の統計値を求めてもよい。例えば、求めた分散などの統計値を状態検出の際に類似度を求めるパラメータ(重み)として使用してもよい。
 集計部104は、特徴量を集計し設定した参照姿勢の特徴量を記憶部108に格納する。集計部104は、所定の単位ごと骨格構造の特徴量を集計する。集計部104は、1つの画像における人物の骨格構造の特徴量を集計してもよいし、複数の画像における人物の骨格構造の特徴量を集計してもよい。また、集計部104は、画像における所定の領域(場所)ごとに特徴量を集計してもよい。集計部104は、画像を撮像した所定の時間帯ごとに特徴量を集計してもよい。
 状態検出部105は、設定された参照姿勢の特徴量に基づき、画像に含まれる検出対象の人物の状態を検出する。状態検出部105は、状態検出時に状態検出対象画像から抽出された人物の姿勢の状態を検出する。状態検出部105は、記憶部108に記憶された参照姿勢の特徴量と検出対象の人物の姿勢の特徴量とを比較し、その比較結果に基づいて人物の状態を検出する。
 状態検出部105は、参照姿勢の特徴量と対象人物の姿勢(骨格構造)の特徴量(向き依存性低減特徴量)との類似度を算出し、算出した類似度に基づいて、対象人物の状態を判定する。状態検出部105は、参照姿勢の特徴量と対象人物の姿勢の特徴量との類似度を判定する類似度判定部でもある。特徴量間の類似度は、特徴量間の距離である。状態検出部105は、類似度が所定の閾値よりも高い場合、対象人物は正常状態であると判断し、類似度が所定の閾値よりも低い場合、対象人物は異常状態であると判断する。なお、正常状態と異常状態に限らず、さらに複数の状態を検出してもよい。例えば、複数の状態ごとに参照姿勢を用意し、最も近い参照姿勢の状態を選択してもよい。
 状態検出部105は、姿勢の類似度を求める場合、骨格構造の全体の特徴量の類似度を求めてもよいし、骨格構造の一部の特徴量の類似度を求めてもよい。例えば、骨格構造の第1の部分(例えば両手)及び第2の部分(例えば両足)の特徴量の類似度を求めてもよい。また、参照姿勢(骨格構造)の各部に設定された重みに基づいて、類似度を求めてもよい。さらに、複数の参照姿勢の特徴量と複数の対象人物の姿勢の特徴量との類似度を求めてもよい。
 なお、状態検出部105は、各画像における姿勢の特徴量に基づいて人物の状態を検出してもよいし、時系列に連続する複数の画像(映像)における姿勢の特徴量の変化に基づいて人物の状態を検出してもよい。すなわち、画像に限らず取得した映像から時系列の参照姿勢を含む参照行動を設定し、対象人物の時系列の姿勢を含む行動と参照行動との類似度に基づいて、人物の状態(行動)を検出してもよい。この場合、状態検出部105は、特徴量の類似度の検出をフレーム(画像)単位で行う。例えば、複数のフレームからキーフレームを抽出し、抽出したキーフレームを用いて類似度を判定してもよい。
 入力部106は、画像処理装置100を操作するユーザから入力された情報を取得する入力インタフェースである。入力部106は、例えば、GUI(Graphical User Interface)であり、キーボードやマウス、タッチパネル等の入力装置から、ユーザの操作に応じた情報が入力される。例えば、入力部106は、複数の画像の中から、指定された人物の姿勢を参照姿勢設定用の姿勢として受け付けてもよい。また、参照姿勢設定用の人物の姿勢(骨格)をユーザが手動で入力してもよい。
 表示部107は、画像処理装置100の動作(処理)の結果等を表示する表示部であり、例えば、液晶ディスプレイや有機EL(Electro Luminescence)ディスプレイ等のディスプレイ装置である。表示部107は、状態検出部105の検出結果等、各部の処理結果をGUIに表示する。
 図4~図6は、本実施の形態に係る画像処理装置100の動作(画像処理方法)を示している。図4は、画像処理装置100における全体の動作の流れを示し、図5は、図4の参照姿勢設定処理(S201)の流れを示し、図6は、図4の状態検出処理(S202)の流れを示している。
 図4に示すように、画像処理装置100は、参照姿勢設定処理(S201)を行い、次に状態検出処理(S202)を行う。例えば、画像処理装置100は、参照姿勢設定時に所定の集計期間(必要なデータが集計されるまでの期間)に撮像された画像(参照姿勢設定用画像)を用いて参照姿勢設定処理を行うことにより正常状態の姿勢の特徴量を設定する。画像処理装置100は、その後の状態検出時の検出タイミング(もしくは検出期間)に撮像された画像(状態検出対象画像)を用いて状態検出処理を行うことにより検出対象の人物の状態を検出する。
 まず、参照姿勢設定処理(S201)では、図5に示すように、画像処理装置100は、参照姿勢設定用画像を取得する(S211)。画像取得部101は、正常状態の姿勢となる参照姿勢を設定するための人物の姿勢を含む参照姿勢設定用画像を取得する。画像取得部101は、参照姿勢設定用画像として、カメラから所定の期間に撮像された1つ以上の画像を取得してもよいし、記憶装置に格納された1つ以上の画像を取得してもよい。取得された1つ以上の画像について以降の処理を行う。
 なお、ユーザが参照姿勢設定用画像を入力(選択)してもよいし、参照姿勢設定用の人物の姿勢を入力(選択)してもよい。例えば、表示部107に複数の画像を表示し、ユーザは、参照姿勢設定用として、人物の姿勢を含む画像を選択してもよいし、画像中の人物(姿勢)を選択してもよい。例えば、各画像に姿勢推定結果の人物の骨格を表示し、画像または人物を選択可能としてもよい。ユーザは、参照姿勢設定用として、複数の画像を選択してもよいし、複数の人物の姿勢を選択してもよい。例えば、人物が直立している姿勢と人物が通話している姿勢を参照姿勢に設定してもよい。
 また、画像に限らず、その他の方法で参照姿勢に設定する人物の姿勢(骨格)をユーザが入力してもよい。例えば、ユーザの操作に応じて骨格構造の各部を動かすことで姿勢を入力してもよい。骨格構造を入力した場合、姿勢推定処理(S212a)は省略してもよい。また、ユーザの入力に応じて、参照姿勢とする骨格のうち、着目したい部位に重み(例えば0~1)を設定してもよい。また、直立、しゃがみ、寝込みなどのラベル-姿勢(骨格)のペアを準備(記憶)しておき、ユーザがその中からラベル-姿勢のペアを選択することで、参照姿勢に設定する姿勢を入力してもよい。
 続いて、画像処理装置100は、取得した参照姿勢設定用画像に基づいて人物の骨格構造を検出する(S212a)。例えば、取得した参照姿勢設定用画像には複数の人物が含まれており、骨格構造検出部102は、画像に含まれる各人物について、人物の姿勢として骨格構造を検出する。
 図7は、このとき検出する人体モデル300の骨格構造を示している。骨格構造検出部102は、OpenPose等の骨格推定技術を用いて、2次元の画像から図7のような人体モデル(2次元骨格モデル)300の骨格構造を検出する。人体モデル300は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された2次元モデルである。
 骨格構造検出部102は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図7の例では、人物のキーポイントとして、頭A1、首A2、右肩A31、左肩A32、右肘A41、左肘A42、右手A51、左手A52、右腰A61、左腰A62、右膝A71、左膝A72、右足A81、左足A82を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭A1と首A2を結ぶボーンB1、首A2と右肩A31及び左肩A32をそれぞれ結ぶボーンB21及びボーンB22、右肩A31及び左肩A32と右肘A41及び左肘A42をそれぞれ結ぶボーンB31及びボーンB32、右肘A41及び左肘A42と右手A51及び左手A52をそれぞれ結ぶボーンB41及びボーンB42、首A2と右腰A61及び左腰A62をそれぞれ結ぶボーンB51及びボーンB52、右腰A61及び左腰A62と右膝A71及び左膝A72をそれぞれ結ぶボーンB61及びボーンB62、右膝A71及び左膝A72と右足A81及び左足A82をそれぞれ結ぶボーンB71及びボーンB72を検出する。
 続いて、画像処理装置100は、検出した人物の骨格構造の向きを正規化する(S213a)。特徴量抽出部103は、骨格構造の向きを参照姿勢方向(例えば正面方向)に調整し、骨格構造の向きを正規化する。特徴量抽出部103は、検出した骨格構造から人物の前後左右を検出し、画像における骨格構造の前方向を骨格構造の向きとして抽出する。特徴量抽出部103は、骨格構造を回転させて骨格構造の向きを参照姿勢方向に一致させる。骨格構造の回転は、2次元平面上で行ってもよいし、3次元空間上で行ってもよい。
 図8及び図9は、骨格構造の向きを正規化する例を示している。図8は、左手を上げて立っている人物を左斜め前から撮像した画像を使用する例である。例えば、首または頭から高さ方向の軸を人体モデル(骨格構造)の中心軸として、右側の各部位の座標と左側の各部位の座標により、人物の向きが抽出できる。この場合、画像から検出された人体モデル301に基づいて向きを抽出すると、2次元画像上における人物の向きは、撮像した視点方向(撮像方向)に対し、左前側(左下側)の向きとなる。このため、特徴量抽出部103は、左前側を向いている人体モデル301が視点方向と平行な正面方向の向きとなるよう人体モデル301を回転させる。例えば、人体モデル301の向きと視点方向との間の角度を求め、人体モデル301の中心軸を回転軸として、求めた角度により人体モデル301を回転させる。なお、人体モデル301の中心軸が2次元画像上の縦方向に対し傾いている場合、人体モデル301の中心軸が2次元画像上の縦方向と一致するよう傾きを調整する。これにより、2次元画像上で左手を上げた人物を正面から見た人体モデル301(骨格構造)が得られる。
 図9は、左手を上げて立っている人物を右斜め後ろから撮像した画像を使用する例である。この場合、画像から検出された人体モデル302に基づいて向きを抽出すると、2次元画像上における人物の向きは、撮像した視点方向(撮像方向)に対し、右後側(右上側)の向きとなる。このため、特徴量抽出部103は、右後側を向いている人体モデル302の向きが視点方向と平行な正面方向の向きとなるよう人体モデル302を回転させる。これにより、図8と同様に、2次元画像上で左手を上げた人物を正面から見た人体モデル302(骨格構造)が得られる。
 続いて、画像処理装置100は、向きを正規化した人物の骨格構造の特徴量を抽出する(S214a)。特徴量抽出部103は、骨格構造の特徴量として、例えば、検出された骨格構造に含まれる全てのキーポイントの位置であるキーポイント位置を抽出する。キーポイント位置は、キーポイントにより特定されるボーンの大きさ及び方向を示しているとも言える。キーポイント位置は、2次元の画像におけるキーポイントのX座標及びY座標から求めることができる。キーポイント位置は、基準点に対するキーポイントの相対的な位置であり、基準点に対するキーポイントの高さ方向の位置(画素数)及び幅方向の位置(画素数)を含む。一例として、キーポイント位置を、画像における基準点のY座標及びX座標とキーポイントのY座標及びX座標から求めてもよい。基準点のY座標とキーポイントのY座標の差が高さ方向の位置であり、基準点のX座標とキーポイントのX座標の差が幅方向の位置となる。
 基準点は、キーポイントの相対的な位置を表すための基準となる点である。骨格構造における基準点の位置は、予め設定されていてもよいし、ユーザが選択できるようにしてもよい。基準点は、骨格構造の中心もしくは中心よりも高い(画像の上下方向における上である)ことが好ましく、例えば、首のキーポイントの座標を基準点としてもよい。なお、首に限らず頭やその他のキーポイントの座標を基準点としてもよい。キーポイントに限らず、任意の座標(例えば骨格構造の中心座標等)を基準点としてもよい。
 また、特徴量を正規化する場合、例えば、特徴量抽出部103は、検出された骨格構造に基づいて身長画素数などの正規化パラメータを算出する。特徴量抽出部103は、身長画素数等によりキーポイント位置などの特徴量を正規化する。例えば、画像における直立時の人物の骨格構造の高さである身長画素数と、画像の人物の骨格構造の各キーポイントのキーポイント位置を求める。骨格構造の各ボーンのうち、頭部から足部までのボーンの長さを合計することで、身長画素数を求めてもよい。骨格構造検出部102が頭頂と足元を出力しない場合は、必要に応じて定数を乗じて補正してもよい。
 具体的には、特徴量抽出部103は、人物の頭部から足部の2次元の画像上のボーンの長さを取得し、身長画素数を求める。例えば図7のボーンのうち、ボーンB1(長さL1)、ボーンB51(長さL21)、ボーンB61(長さL31)及びボーンB71(長さL41)、もしくは、ボーンB1(長さL1)、ボーンB52(長さL22)、ボーンB62(長さL32)及びボーンB72(長さL42)の各長さ(画素数)を取得する。各ボーンの長さは、2次元の画像における各キーポイントの座標から求めることができる。これらを合計した、L1+L21+L31+L41、もしくは、L1+L22+L32+L42に補正定数を乗じた値を身長画素数として算出する。両方の値を算出できる場合、例えば、長い方の値を身長画素数とする。すなわち、各ボーンは正面から撮像された場合が画像中での長さが最も長くなり、カメラに対して奥行き方向に傾くと短く表示される。従って、長いボーンの方が正面から撮像されている可能性が高く、真実の値に近いと考えられる。このため、長い方の値を選択することが好ましい。
 なお、その他の算出方法により、身長画素数を算出してもよい。例えば、各ボーンの長さと2次元画像空間上の身長との関係(比率)を示す平均的な人体モデルを予め用意し、用意した人体モデルを用いて検出した各ボーンの長さから身長画素数を算出してもよい。
 特徴量抽出部103は、各キーポイント位置を身長画素数で正規化する場合、各キーポイント位置(X座標及びY座標)を身長画素数により除算し、正規化値とする。
 また、正規化パラメータとして骨格領域の高さ(画素数)や面積(画素面積)を用いてもよい。図7の例では、直立した人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントA1、骨格領域の下端は右足のキーポイントA81または左足のキーポイントA82、骨格領域の左端は右手のキーポイントA51、骨格領域の右端は左手のキーポイントA52となる。このため、キーポイントA1とキーポイントA81またはA82のY座標の差分から骨格領域の高さを求める。また、キーポイントA51とキーポイントA52のX座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。例えば、各キーポイント位置を骨格領域の高さや幅、面積等により除算して正規化値としてもよい。
 続いて、画像処理装置100は、抽出された複数の骨格構造の特徴量を集計する(S215)。画像処理装置100は、データが十分得られるまで(S216)、画像取得から骨格構造の特徴量の集計を繰り返し(S211~S215)、集計した特徴量を参照姿勢の特徴量として設定する(S217)。
 集計部104は、1つの画像または複数の画像から抽出された複数の骨格構造の特徴量を集計する。集計部104は、骨格構造の特徴量としてキーポイント位置を求めた場合、キーポイントごとにキーポイント位置を集計する。例えば、集計部104は、所定の単位ごとに、複数の骨格構造の特徴量の平均や分散などの統計値を求め、求めた統計値に基づいた骨格構造(平均姿勢や頻出姿勢)の特徴量を参照姿勢の特徴量に設定する。集計部104は、設定した参照姿勢の特徴量を記憶部108に格納する。
 図10は、複数の骨格構造の特徴量から平均姿勢を求め、参照姿勢を設定する例を示している。図10の例では、人体モデル301及び302が左手を上げて立っている人物の骨格構造であり、人体モデル301及び302の左手の位置がずれている。集計部104は、人体モデル301の各キーポイント位置と人体モデル302の各キーポイント位置の平均を求める。例えば、人体モデル301の左手のキーポイントA52と人体モデル302の左手のキーポイントA52の中間の座標がキーポイントA52の平均値となる。人体モデル301の左肘のキーポイントA42と人体モデル301の左肘のキーポイントA42の中間の座標がキーポイントA42の平均値となる。集計部104は、求めた平均値のキーポイント位置の骨格構造を平均姿勢として参照姿勢に設定する。
 また、平均姿勢に限らず頻出姿勢を参照姿勢に設定してもよい。頻出姿勢を設定する例として、例えば、所定の単位ごとに複数の骨格構造の特徴量をクラスタリングし、クラスタリングした結果に基づいて参照姿勢の特徴量を設定してもよい。この場合、複数の骨格構造の特徴量をクラスタリングし、いずれかのクラスタに含まれる特徴量(平均等)を、参照姿勢の特徴量に設定する。複数のクラスタのうち最も多い特徴量(姿勢情報)を含むクラスタの姿勢を頻出姿勢として参照姿勢に設定してもよい。
 図11は、複数の骨格構造の特徴量から頻出姿勢を求め、頻出姿勢を参照姿勢に設定する例を示している。図11の例では、人体モデル301及び302が左手を上げて立っている人物の骨格構造であり、人体モデル303が左手を下げて立っている人物の骨格構造である。集計部104は、類似する姿勢が同じクラスタとなるように分類(クラスタリング)する。例えば、人体モデル301及び302が第1のクラスタに含まれ、人体モデル303が第2のクラスタに含まれる。第2のクラスタよりも第1のクラスタの方が特徴量のデータ数が多いため、例えば、第1のクラスタに含まれる特徴量の平均を参照姿勢の特徴量に設定する。
 集計部104は、画像全体の特徴量を集計する場合、集計した特徴量により画像に対し参照姿勢を設定する。また、集計部104は、画像の場所ごとに特徴量を集計する場合、集計した特徴量により画像の場所ごとに参照姿勢を設定する。この場合、集計部104は、画像を複数の集計領域に分割し、集計領域ごとに骨格構造の特徴量を集計し、各集計結果を各集計領域の参照姿勢の特徴量として設定する。集計領域は、予め決められた領域でもよいし、ユーザが指定した領域でもよい。
 図12及び図13は、集計領域ごとに骨格構造の特徴量を集計する例を示している。図12の例では、集計領域は、画像を縦方向及び横方向に所定の間隔で分割した矩形領域(A11~A19)である。集計領域は、矩形に限らず、任意の形状としてもよい。例えば、集計領域は、画像の背景を考慮せずに所定の間隔で分割されている。なお、集計領域は、画像の背景や集計データの量等を考慮して分割してもよい。例えば、画像と実世界の大きさの関係に対応するように、撮像距離に応じて、カメラに近い領域(画像の下側)よりも、カメラに遠い領域(画像の上側)を小さくしてもよい。また、集計されるデータの量に応じて、特徴量が少ない領域よりも、特徴量が多い領域を小さくしてもよい。図12の例では、各矩形領域で集計した結果、道路を含む矩形領域(A14~A18)では、右手を上げて立っている姿勢が参照姿勢として設定され、建物を含む矩形領域(A11~A13)では、両手を下げて立っている姿勢が参照姿勢として設定され、椅子を含む矩形領域(A19)では、座っている姿勢が参照姿勢として設定されている。
 また、図13の例では、集計領域は、画像を背景(シーン)に応じて分割した領域である。この例では、道路の領域(A23)、建物付近の領域(A21、A22)、バス停の椅子付近の領域(A24)に分割されている。背景に応じてユーザが各領域を設定してもよいし、画像内の物体等を画像認識することで自動的に各領域を設定してもよい。図13の例では、各領域で集計した結果、道路の領域(A23)では、右手を上げて立っている姿勢が参照姿勢として設定され、建物付近の領域(A21、A22)では、両手を下げて立っている姿勢が参照姿勢として設定され、椅子付近の領域(A24)では、座っている姿勢が参照姿勢として設定されている。
 集計部104は、例えば、集計領域の中に足元(例えば足の下端)が検出されている人物の特徴量を、集計領域ごとに集計する。足元以外が検出されている場合、足元以外を集計の基準としてもよい。例えば、集計領域の中に頭部や胴部が検出されている人物の特徴量を、集計領域ごとに集計してもよい。集計部104は、集計領域ごとに、上記のように平均姿勢や頻出姿勢を求め、参照姿勢の特徴量を設定する。
 集計領域ごとに、より多くの骨格構造の特徴量を集計することで、正常状態の設定精度及び人物の検出精度を向上することができる。例えば、集計領域ごとに3~5の特徴量を集計し、平均を求めることが好ましい。複数の特徴量の平均を求めることで、集計領域における正常状態のデータを得ることができる。集計領域及び集計データを増やすことにより、検出精度を向上できるものの、検出処理に時間やコストを要する。集計領域及び集計データを減らすことにより、簡易に検出できるものの、検出精度が低下し得る。このため、必要とする検出精度とかかるコストを考慮して集計領域及び集計データの数を決めることが好ましい。
 また、集計部104は、時間帯ごとに特徴量を集計する場合、集計した特徴量により時間帯ごとに参照姿勢を設定する。取得した各画像には、撮像した時刻が設定されており、全ての画像を撮像した期間を複数の集計時間帯に分割する。集計部104は、集計時間帯ごとに、その時間帯に含まれる複数の画像の骨格構造の特徴量を集計し、各集計結果を各集計時間帯の参照姿勢の特徴量として設定する。集計時間帯は、予め決められた時間帯でもよいし、ユーザが指定した時間帯でもよい。各集計時間帯は、同じ長さの時間帯でもよいし、異なる長さの時間帯でもよい。集計時間帯は、人の行動に関連するイベントの時刻や、集計データの量等を考慮して分割してもよい。集計されるデータの量に応じて、特徴量が少ない時間帯よりも、特徴量が多い時間帯を短くしてもよい。集計部104は、時間帯ごとに、上記のように平均姿勢や頻出姿勢を求め、参照姿勢の特徴量を設定する。さらに、各時間帯において、上記のように集計領域ごとに集計し参照姿勢を設定してもよい。
 図14は、時間帯ごとに骨格構造の特徴量を集計する例を示している。図14の例では、全体の期間を集計時間帯T1~T3に分割している。図14では、バス停にバスが到着するまでの時間帯(T1)、バス停にバスが到着している時間帯(T2)、バス停が出発した後の時間帯(T3)に分けている。例えば、各時間帯で集計した結果、バス停にバスが到着するまでの時間帯(T1)では、椅子に座っている姿勢が参照姿勢として設定され、バス停にバスが到着している時間帯(T2)では、両手を下げて立っている姿勢が参照姿勢として設定され、バス停が出発した後の時間帯(T3)では、右手を上げて立っている姿勢が参照姿勢として設定されている。
 次に、状態検出処理(S202)では、図6に示すように、画像処理装置100は、状態検出対象画像を取得する(S221)。画像取得部101は、検出対象の人物の状態(姿勢)を検出するために、検出対象の人物を撮像した画像を取得する。画像取得部101は、状態検出対象として、カメラから所定の期間に撮像された1つ以上の画像を取得してもよいし、記憶装置に格納された1つ以上の画像を取得してもよい。取得された1つ以上の画像について以降の処理を行う。
 なお、ユーザが状態検出対象画像を入力(選択)してもよいし、状態検出対象の人物(姿勢)を入力(選択)してもよい。例えば、表示部107に複数の画像を表示し、ユーザは、状態検出対象として、人物の姿勢を含む画像を選択してもよいし、画像中の人物(姿勢)を選択してもよい。例えば、各画像に姿勢推定結果の人物の骨格を表示し、画像または人物を選択可能としてもよい。ユーザは、状態検出対象として、複数の画像を選択してもよいし、複数の人物を選択してもよい。
 状態検出対象画像が入力されると、画像処理装置100は、参照姿勢設定時と同様に、状態検出対象画像の人物の骨格構造の検出(S212b)、向き正規化(S213b)、及び特徴量抽出(S214b)を行う。すなわち、骨格構造検出部102は、状態検出対象画像における人物(検出対象として指定された人物)の骨格構造を検出する。特徴量抽出部103は、検出した骨格構造の向きを正規化し、向きを正規化した骨格構造の特徴量を抽出する。
 続いて、画像処理装置100は、参照姿勢と対象人物の姿勢の類似度を算出し(S222)、類似度に基づいて対象人物の状態を判定する(S223)。状態検出部105は、特徴量の類似度を用いて、抽出された検出対象の人物の姿勢(骨格構造)が、設定された参照姿勢に近いか否か判定し、参照姿勢に近い場合、検出対象の人物は正常状態であると判断し、参照姿勢から離れている場合、検出対象の人物は異常状態であると判断する。
 具体的には、状態検出部105は、S217で記憶部108に格納された参照姿勢の特徴量と、S214bで抽出された対象人物の姿勢(骨格構造)の特徴量との類似度を算出する。例えば、状態検出部105は、2次元画像空間における参照姿勢の各部位(キーポイントまたはボーン)と対象人物の姿勢の各部位との距離(差)を求める。骨格構造の特徴量としてキーポイント位置を求めている場合、各部位のキーポイント位置の距離を求める。状態検出部105は、各部位の距離の合計値が小さい程、類似度が高くなり、各部位の距離の合計値が大きい程、類似度が小さくなるように演算する。
 例えば、状態検出部105は、複数の対象人物の姿勢の類似度を求め、類似度が閾値よりも大きい姿勢の対象人物は正常状態であると判断し、類似度が閾値よりも小さい姿勢の対象人物は異常状態であると判断する。特徴量の類似度に応じて、人物の正常状態または異常状態と判断される可能性(確率)を求めてもよい。参照姿勢及び対象人物の姿勢が複数の姿勢を含む場合、姿勢ごとの類似度を求め、複数の類似度の合計値に基づいて、対象人物の状態を判定してもよい。
 参照姿勢の各部位に重みが設定されている場合、状態検出部105は、各部位の重み基づいて類似度を算出してもよい。各部位の重みは、参照姿勢の入力時にユーザが設定してもよいし、参照姿勢設定の集計結果の分散などに応じて設定されてもよい。例えば、状態検出部105は、各部位の差に各部位の重みを乗算し、乗算した値の合計値に基づいて類似度を求める。
 集計領域ごとに参照姿勢を設定している場合、状態検出部105は、検出対象の人物の姿勢の特徴量と、検出対象に対応する集計領域に設定された参照姿勢の特徴量との類似度を算出してもよい。例えば、検出対象の人物の足元が含まれる集計領域を認識し、認識した集計領域における参照姿勢の特徴量と、検出対象の人物の姿勢の特徴量との類似度を算出する。
 時間帯ごとに参照姿勢を設定している場合、状態検出部105は、検出対象の人物の姿勢の特徴量と、検出対象に対応する時間帯に設定された参照姿勢の特徴量との類似度を算出してもよい。例えば、検出対象の人物の姿勢を撮像した時刻を状態検出対象画像から取得し、取得した時刻に対応する時間帯における参照姿勢の特徴量と、検出対象の人物の姿勢の特徴量との類似度を算出する。
 続いて、画像処理装置100は、人物の状態の判定結果を表示する(S224)。表示部107は、状態検出対象画像を表示し、状態検出対象画像内で検出した人物の状態を表示する。図15は、表示部107が表示する人物の状態の表示例を示している。例えば、画像における人物の姿勢(骨格構造)を表示し、異常状態と判定された人物の姿勢を強調表示する。図15の例では、参照姿勢との類似度が低く、異常と判定された人物の姿勢に矩形を表示している。矩形に限らず、算出した参照姿勢との類似度を表示してもよいし、類似度に応じて人物の姿勢の表示態様を変えてもよい。類似度が低くなるにしたがって、人物の姿勢が強調されるように表示してもよい。また、骨格構造の部位ごとに参照姿勢の類似度を表示してもよいし、類似度に応じて人物の姿勢の各部位の表示態様を変えてもよい。
 図15は、例えば、左手を上げて立っている姿勢を参照姿勢に設定した例である。この場合、左手を上げて立っている人物は正常状態であると判定され、座っている人物及び右手を上げて立っている人物は異常状態であると判定される。向きを正規化した特徴量を使用しているため、画像上で後ろを向いた状態で左手を上げて立っている人物も正常状態であると判定される。
 以上のように、本実施の形態では、参照姿勢設定用画像から人物の骨格構造を検出し、検出した骨格構造の特徴量を集計して参照姿勢の特徴量として設定する。さらに、参照姿勢の特徴量と対象人物の骨格構造の特徴量との類似度を求めることで、対象人物の状態を検出する。これにより、定義することが困難な人物の状態であっても、基準となる参照姿勢を設定することができ、人物の状態を検出することができる。例えば、参照姿勢を正常状態として、異常状態の人物を検出できる。
 また、本実施の形態では、人物の向き依存性低減特徴量を用いて参照姿勢を設定し、対象人物の向き依存性低減特徴量との類似度を求めることで、対象人物の状態を検出する。例えば、向き依存性低減特徴量として、骨格構造の向きを正規化して特徴量を算出する。これにより、画像上の人物の姿勢の向きによらずに参照姿勢を設定でき、正確に対象人物の状態を検出することができる。
 また、本実施の形態では、骨格推定技術を用いて骨格構造を検出することで、参照姿勢の設定及び対象人物の状態を検出する。これにより、学習データを集めることなく、参照姿勢を設定し、人物の状態を検知できる。
(実施の形態2)
 以下、図面を参照して実施の形態2について説明する。本実施の形態では、向きに不変の特徴量の特徴空間を用いることで向き依存性低減特徴量を抽出する例について説明する。
 図16は、本実施の形態に係る画像処理装置100の構成例を示している。図16に示すように、本実施の形態に係る画像処理装置100は、実施の形態1の構成と比べて、特徴量抽出部103の代わりに、特徴空間写像部109を備えている。その他の構成は、実施の形態1と同様である。
 特徴空間写像部109は、画像から検出された2次元の骨格構造(姿勢)を特徴空間に写像(マッピング)し、人物の姿勢の向きに不変な向き不変特徴量を生成(抽出)する。本実施の形態では、向き不変特徴量の特徴量空間を用いることで、人物の骨格(姿勢)の向きへの依存性が低減された特徴量(向き依存性低減特徴量)を抽出する。
 例えば、特徴空間写像部109は、機械学習を用いた特徴量抽出モデルにより、骨格構造から特徴空間における向き不変特徴量を生成してもよい。様々な向きの骨格構造と特徴空間上の特徴量との関係を学習した特徴量抽出モデルを使用することで、骨格構造を特徴空間上の向き不変特徴量に写像できる。
 なお、画像を入力とする特徴量抽出モデルにより、画像から直接、画像に含まれる人物の姿勢の特徴量を生成(抽出)してもよい。すなわち、特徴量抽出モデルにより、骨格構造検出部102の機能及び特徴空間写像部109の機能を実現してもよい。例えば、様々な向き及び姿勢の人物の画像と特徴空間上の特徴量との関係を学習した特徴量抽出モデルを使用することで、人物の画像から特徴空間上の向き不変特徴量に写像してもよい。
 図17~図18は、本実施の形態に係る画像処理装置100の動作(画像処理方法)を示している。画像処理装置100における全体の動作の流れは、実施の形態1の図4と同様である。図17は、本実施の形態に係る参照姿勢設定処理(S201)の流れを示し、図18は、本実施の形態に係る状態検出処理(S202)の流れを示している。
 まず、参照姿勢設定処理(S201)では、図17に示すように、実施の形態1と同様、画像処理装置100は、参照姿勢設定用画像を取得し(S211)、取得した参照姿勢設定用画像に基づいて人物の骨格構造を検出する(S212a)。
 続いて、画像処理装置100は、参照姿勢設定用画像から検出した人物の骨格構造を特徴空間に写像する(S218a)。特徴空間写像部109は、例えば特徴量抽出モデルを用いて、参照姿勢設定用画像から検出された人物の骨格構造を特徴空間に写像し、向き不変特徴量を生成する。
 図19及び図20は、骨格構造を特徴空間に写像する例を示している。図19は、図8と同様、左手を上げて立っている人物を左斜め前から撮像した画像を使用する例である。この場合、画像から検出された人体モデル301は、撮像した視点方向(撮像方向)に対し、2次元画像上において左前側(左下側)を向いている。特徴空間写像部109は、特徴量抽出モデルにより、人体モデル301の骨格構造を特徴空間に写像し、向き不変特徴量P1を生成する。例えば、向き不変特徴量P1は、特徴空間上の座標で示される。特徴空間の次元数等は、特に制限されない。
 図20は、図9と同様、左手を上げて立っている人物を右斜め後ろから撮像した画像を使用する例である。この場合、画像から検出された人体モデル302は、撮像した視点方向(撮像方向)に対し、2次元画像上において右後側(右上側)を向いている。特徴空間写像部109は、特徴量抽出モデルにより、人体モデル302の骨格構造を特徴空間に写像し、向き不変特徴量P2を生成する。図19の人体モデル301は、画像上で左前側を向いており、図20の人体モデル302は、画像上で右後側を向いているが、向き不変特徴量P1及びP2は、特徴空間上で近い位置となる。
 続いて、画像処理装置100は、特徴空間により抽出された複数の骨格構造の特徴量(向き不変特徴量)を集計する(S215)。画像処理装置100は、データが十分得られるまで(S216)、画像取得から骨格構造の特徴量の集計を繰り返し(S211~S215)、集計した特徴量を参照姿勢の特徴量として設定する(S217)。
 集計部104の集計方法は、実施の形態1と同様である。例えば、集計部104は、特徴空間における複数の向き不変特徴量の平均を求め、求めた平均の向き不変特徴量を参照姿勢の特徴量に設定する。
 図21は、複数の向き不変特徴量の平均を参照姿勢に設定する例を示している。例えば、集計部104は、人体モデル301の向き不変特徴量P1と人体モデル302の向き不変特徴量P2の平均として、特徴空間における不変特徴量P1と不変特徴量P2の中間(中心)の座標を求め、求めた座標の特徴量を参照姿勢の特徴量とする。
 次に、状態検出処理(S202)では、図18に示すように、実施の形態1と同様、画像処理装置100は、状態検出対象画像を取得し(S221)、状態検出対象画像の人物の骨格構造を検出する(S212b)。次に、画像処理装置100は、参照姿勢設定時と同様に、検出した人物の骨格構造を特徴空間に写像する(S218b)。特徴空間写像部109は、例えば特徴量抽出モデルを用いて、状態検出対象画像から検出された人物の骨格構造を特徴空間に写像し向き不変特徴量を生成する。
 続いて、画像処理装置100は、実施の形態1と同様、参照姿勢と対象人物の姿勢の類似度を算出し(S222)、類似度に基づいて対象人物の状態を判定し(S223)、判定結果を表示する(S224)。状態検出部105は、S217で記憶部108に格納された参照姿勢の向き不変特徴量と、S218bで抽出された対象人物の姿勢(骨格構造)の向き不変特徴量との類似度を算出する。状態検出部105は、参照姿勢の向き不変特徴量と対象人物の姿勢の向き不変特徴量との距離に基づいて類似度を求め、求めた類似度に基づいて対象人物の状態を判定する。
 以上のように、本実施の形態では、人物の向き依存性低減特徴量として、骨格構造を特徴空間に写像して得られる向き不変特徴量を使用する。この場合でも、実施の形態1と同様に、画像上の人物の姿勢の向きによらずに参照姿勢を設定でき、正確に対象人物の状態を検出することができる。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
 上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、図22に示すような、CPU(Central Processing Unit)等のプロセッサ21及び記憶装置であるメモリ22を有するコンピュータ20により実現してもよい。例えば、メモリ22に実施形態における方法(画像処理方法)を行うためのプログラムを格納し、各機能を、メモリ22に格納されたプログラムをプロセッサ21で実行することにより実現してもよい。
 これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得手段と、
 前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出する抽出手段と、
 前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する設定手段と、
 を備える、画像処理システム。
(付記2)
 前記抽出手段は、前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
 付記1に記載の画像処理システム。
(付記3)
 前記抽出手段は、前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
 付記1に記載の画像処理システム。
(付記4)
 前記設定手段は、前記抽出された向き依存性低減特徴量を所定の単位ごとに集計し、前記集計した結果に基づいて前記参照姿勢の特徴量を設定する、
 付記1乃至3のいずれか一項に記載の画像処理システム。
(付記5)
 前記設定手段は、前記所定の単位ごとに前記向き依存性低減特徴量の統計値を求める、
 付記4に記載の画像処理システム。
(付記6)
 前記設定手段は、前記所定の単位ごとに前記向き依存性低減特徴量をクラスタリングし、前記クラスタリングした結果に基づいて前記参照姿勢の特徴量を設定する、
 付記4に記載の画像処理システム。
(付記7)
 前記設定手段は、前記第1の画像ごと、または、前記第1の画像における所定の領域ごとに前記向き依存性低減特徴量を集計する、
 付記4乃至6のいずれか一項に記載の画像処理システム。
(付記8)
 前記設定手段は、前記第1の画像を撮像した所定の時間帯ごとに前記向き依存性低減特徴量を集計する、
 付記4乃至7のいずれか一項に記載の画像処理システム。
(付記9)
 前記設定した参照姿勢の特徴量に基づいて、前記第2の画像に含まれる対象人物の状態を検出する状態検出手段を備える、
 付記1乃至8のいずれか一項に記載の画像処理システム。
(付記10)
 前記取得手段は、前記第2の画像に含まれる対象人物の姿勢を推定した姿勢情報を取得し、
 前記抽出手段は、前記第2の画像から取得された姿勢情報に基づいて、前記対象人物の姿勢の向き依存性低減特徴量を抽出し、
 前記状態検出手段は、前記参照姿勢の特徴量と前記対象人物の姿勢の向き依存性低減特徴量との類似度に基づいて、前記対象人物の状態を検出する、
 付記9に記載の画像処理システム。
(付記11)
 前記状態検出手段は、前記参照姿勢における各部位に設定された重みに基づいて、前記類似度を求める、
 付記10に記載の画像処理システム。
(付記12)
 前記参照姿勢の特徴量及び前記対象人物の姿勢の向き依存性低減特徴量は、それぞれ複数の姿勢の特徴量を含み、
 前記状態検出手段は、前記複数の姿勢の特徴量の類似度を求める、
 付記10または11に記載の画像処理システム。
(付記13)
 前記参照姿勢の特徴量及び前記対象人物の姿勢の向き依存性低減特徴量は、それぞれ時系列に連続する複数の画像に基づいて抽出された時系列の特徴量を含み、
 前記状態検出手段は、前記時系列の特徴量の類似度を求める、
 付記10乃至12のいずれか一項に記載の画像処理システム。
(付記14)
 前記状態検出手段は、前記参照姿勢を正常状態の姿勢として、前記類似度に基づいて、前記対象人物が異常状態であるか否かを検出する、
 付記10乃至13のいずれか一項に記載の画像処理システム。
(付記15)
 第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、
 前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、
 前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、
 画像処理方法。
(付記16)
 前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
 付記15に記載の画像処理方法。
(付記17)
 前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
 付記15に記載の画像処理方法。
(付記18)
 第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、
 前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、
 前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、
 処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒体。
(付記19)
 前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
 付記18に記載の非一時的なコンピュータ可読媒体。
(付記20)
 前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
 付記19に記載の非一時的なコンピュータ可読媒体。
1、10 画像処理システム
11  取得部
12  抽出部
13  設定部
20  コンピュータ
21  プロセッサ
22  メモリ
100 画像処理装置
101 画像取得部
102 骨格構造検出部
103 特徴量抽出部
104 集計部
105 状態検出部
106 入力部
107 表示部
108 記憶部
109 特徴空間写像部
200 画像提供装置

Claims (20)

  1.  第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得手段と、
     前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出する抽出手段と、
     前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する設定手段と、
     を備える、画像処理システム。
  2.  前記抽出手段は、前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
     請求項1に記載の画像処理システム。
  3.  前記抽出手段は、前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
     請求項1に記載の画像処理システム。
  4.  前記設定手段は、前記抽出された向き依存性低減特徴量を所定の単位ごとに集計し、前記集計した結果に基づいて前記参照姿勢の特徴量を設定する、
     請求項1乃至3のいずれか一項に記載の画像処理システム。
  5.  前記設定手段は、前記所定の単位ごとに前記向き依存性低減特徴量の統計値を求める、
     請求項4に記載の画像処理システム。
  6.  前記設定手段は、前記所定の単位ごとに前記向き依存性低減特徴量をクラスタリングし、前記クラスタリングした結果に基づいて前記参照姿勢の特徴量を設定する、
     請求項4に記載の画像処理システム。
  7.  前記設定手段は、前記第1の画像ごと、または、前記第1の画像における所定の領域ごとに前記向き依存性低減特徴量を集計する、
     請求項4乃至6のいずれか一項に記載の画像処理システム。
  8.  前記設定手段は、前記第1の画像を撮像した所定の時間帯ごとに前記向き依存性低減特徴量を集計する、
     請求項4乃至7のいずれか一項に記載の画像処理システム。
  9.  前記設定した参照姿勢の特徴量に基づいて、前記第2の画像に含まれる対象人物の状態を検出する状態検出手段を備える、
     請求項1乃至8のいずれか一項に記載の画像処理システム。
  10.  前記取得手段は、前記第2の画像に含まれる対象人物の姿勢を推定した姿勢情報を取得し、
     前記抽出手段は、前記第2の画像から取得された姿勢情報に基づいて、前記対象人物の姿勢の向き依存性低減特徴量を抽出し、
     前記状態検出手段は、前記参照姿勢の特徴量と前記対象人物の姿勢の向き依存性低減特徴量との類似度に基づいて、前記対象人物の状態を検出する、
     請求項9に記載の画像処理システム。
  11.  前記状態検出手段は、前記参照姿勢における各部位に設定された重みに基づいて、前記類似度を求める、
     請求項10に記載の画像処理システム。
  12.  前記参照姿勢の特徴量及び前記対象人物の姿勢の向き依存性低減特徴量は、それぞれ複数の姿勢の特徴量を含み、
     前記状態検出手段は、前記複数の姿勢の特徴量の類似度を求める、
     請求項10または11に記載の画像処理システム。
  13.  前記参照姿勢の特徴量及び前記対象人物の姿勢の向き依存性低減特徴量は、それぞれ時系列に連続する複数の画像に基づいて抽出された時系列の特徴量を含み、
     前記状態検出手段は、前記時系列の特徴量の類似度を求める、
     請求項10乃至12のいずれか一項に記載の画像処理システム。
  14.  前記状態検出手段は、前記参照姿勢を正常状態の姿勢として、前記類似度に基づいて、前記対象人物が異常状態であるか否かを検出する、
     請求項10乃至13のいずれか一項に記載の画像処理システム。
  15.  第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、
     前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、
     前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、
     画像処理方法。
  16.  前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
     請求項15に記載の画像処理方法。
  17.  前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
     請求項15に記載の画像処理方法。
  18.  第1の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、
     前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、
     前記抽出された向き依存性低減特徴量を、第2の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、
     処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒体。
  19.  前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
     請求項18に記載の非一時的なコンピュータ可読媒体。
  20.  前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
     請求項19に記載の非一時的なコンピュータ可読媒体。
PCT/JP2022/005199 2022-02-09 2022-02-09 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体 WO2023152841A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/005199 WO2023152841A1 (ja) 2022-02-09 2022-02-09 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/005199 WO2023152841A1 (ja) 2022-02-09 2022-02-09 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2023152841A1 true WO2023152841A1 (ja) 2023-08-17

Family

ID=87563810

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/005199 WO2023152841A1 (ja) 2022-02-09 2022-02-09 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

Country Status (1)

Country Link
WO (1) WO2023152841A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020046928A (ja) * 2018-09-19 2020-03-26 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2022009301A1 (ja) * 2020-07-07 2022-01-13 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020046928A (ja) * 2018-09-19 2020-03-26 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2022009301A1 (ja) * 2020-07-07 2022-01-13 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
EP4053791A1 (en) Image processing device, image processing method, and non-transitory computer-readable medium having image processing program stored thereon
JPWO2019064375A1 (ja) 情報処理システム、制御方法、及びプログラム
WO2020217812A1 (ja) 被写体の状態を認識する画像処理装置及びその方法
JP2024103572A (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020261404A1 (ja) 人物状態検出装置、人物状態検出方法及びプログラムが格納された非一時的なコンピュータ可読媒体
WO2022041953A1 (zh) 行为识别方法、装置和存储介质
JP7409499B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2020086994A (ja) 情報処理装置、情報処理方法及びプログラム
WO2023152841A1 (ja) 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体
JP7435781B2 (ja) 画像選択装置、画像選択方法、及びプログラム
JP7491380B2 (ja) 画像選択装置、画像選択方法、及びプログラム
WO2022079794A1 (ja) 画像選択装置、画像選択方法、及びプログラム
JP7364077B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7396364B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2022249278A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2022249331A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7302741B2 (ja) 画像選択装置、画像選択方法、およびプログラム
WO2023152974A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2023152977A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7435754B2 (ja) 画像選択装置、画像選択方法、及びプログラム
JP7501621B2 (ja) 画像選択装置、画像選択方法、およびプログラム
JP7485040B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7375921B2 (ja) 画像分類装置、画像分類方法、およびプログラム
JP6543546B2 (ja) 特定動作検出装置及び特定動作検出方法
WO2023112321A1 (ja) 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22925862

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023579929

Country of ref document: JP

Kind code of ref document: A