WO2023152974A1 - 画像処理装置、画像処理方法、およびプログラム - Google Patents

画像処理装置、画像処理方法、およびプログラム Download PDF

Info

Publication number
WO2023152974A1
WO2023152974A1 PCT/JP2022/005689 JP2022005689W WO2023152974A1 WO 2023152974 A1 WO2023152974 A1 WO 2023152974A1 JP 2022005689 W JP2022005689 W JP 2022005689W WO 2023152974 A1 WO2023152974 A1 WO 2023152974A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
human body
posture
similarity
motion
Prior art date
Application number
PCT/JP2022/005689
Other languages
English (en)
French (fr)
Inventor
諒 川合
登 吉田
健全 劉
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/005689 priority Critical patent/WO2023152974A1/ja
Publication of WO2023152974A1 publication Critical patent/WO2023152974A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an image processing device, an image processing method, and a program.
  • Patent Documents 1 to 3 disclose Technologies related to the present invention.
  • Japanese Patent Laid-Open No. 2002-200000 describes a method of calculating a feature amount for each of a plurality of key points of a human body included in an image, and retrieving an image containing a human body with a similar posture or a similar movement based on the calculated feature amount. Techniques for grouping and classifying objects having similar postures and movements are disclosed. In addition, Non-Patent Document 1 discloses a technique related to human skeleton estimation.
  • Patent Document 2 when a plurality of images captured in a predetermined area and information indicating a change in the situation of the predetermined area are obtained, the plurality of images are classified based on the information indicating the change in the situation of the predetermined area, and the classification result is obtained.
  • Patent Literature 3 discloses a technique for detecting a change in the state of a person based on an input image and determining an abnormal state in response to detection of a change in the state of the object for multiple people.
  • Patent Document 1 by registering an image including a human body in a desired posture and desired movement as a template image in advance, a desired posture and a desired motion can be obtained from images to be processed. The movement of the human body can be detected.
  • the present inventors newly set an image including a human body in a desired posture and motion different from the posture and motion indicated by the registered template image as a new template image. We have newly found that there is room for improvement in the workability of searching for such images when performing additional registration.
  • Patent Documents 1 to 3 and Non-Patent Document 1 disclose the problem regarding the template image and the means for solving the problem, so there was a problem that the above problem could not be solved.
  • An object of the present invention in view of the problems described above, is the workability problem of registering, as a template image, an image containing a human body in a desired posture and motion different from the posture and motion indicated by a registered template image.
  • An object of the present invention is to provide an image processing device, an image processing method, and a program that solve the above.
  • skeletal structure detection means for detecting key points of the human body included in the image; a similarity calculating means for calculating, based on the detected key points, a similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by a pre-registered template image; a specifying means for specifying a portion in the image in which the human body is shown, the degree of similarity of which is less than a first threshold to the posture or movement of the human body indicated by any of the template images; Information indicating the specified location as a candidate for the template image to be additionally registered in a determination device that determines the posture or motion of the human body detected from the image based on the posture or motion of the human body indicated by the template image; or output means for outputting a partial image obtained by cutting out the specified portion from the image; is provided.
  • the computer Perform processing to detect key points of the human body included in the image, calculating a degree of similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by a pre-registered template image, based on the detected keypoints; identifying a location in the image in which the human body is shown and the degree of similarity to the posture or movement of the human body shown by any of the template images is less than a first threshold; Information indicating the specified location as a candidate for the template image to be additionally registered in a determination device that determines the posture or motion of the human body detected from the image based on the posture or motion of the human body indicated by the template image; or outputting a partial image obtained by cutting out the identified portion from the image; An image processing method is provided.
  • the computer skeletal structure detection means for detecting key points of the human body included in the image; a similarity calculating means for calculating, based on the detected key points, a similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by a pre-registered template image; identifying means for identifying a portion in the image in which the human body is shown, the degree of similarity to the posture or movement of the human body shown by any of the template images being less than a first threshold; Information indicating the specified location as a candidate for the template image to be additionally registered in a determination device that determines the posture or motion of the human body detected from the image based on the posture or motion of the human body indicated by the template image; or output means for outputting a partial image obtained by cutting out the specified portion from the image;
  • a program is provided to act as a
  • image processing that solves the problem of workability in registering an image including a human body in a desired posture and motion different from the posture and motion indicated by a registered template image as a template image.
  • FIG. 3 is a diagram for explaining processing contents of an image processing apparatus; It is a figure which shows an example of the hardware constitutions of an image processing apparatus. It is a figure which shows an example of the skeleton structure of the human body model detected by the image processing apparatus. It is a figure which shows an example of the skeleton structure of the human body model detected by the image processing apparatus. It is a figure which shows an example of the skeleton structure of the human body model detected by the image processing apparatus. It is a figure which shows an example of the skeleton structure of the human body model detected by the image processing apparatus. It is a figure which shows an example of the skeleton structure of the human body model detected by the image processing apparatus.
  • FIG. 3 is a diagram showing an example of keypoint feature amounts calculated by an image processing apparatus; FIG.
  • FIG. 3 is a diagram showing an example of keypoint feature amounts calculated by an image processing apparatus;
  • FIG. 3 is a diagram showing an example of keypoint feature amounts calculated by an image processing apparatus;
  • FIG. 4 is a diagram schematically showing an example of information output by an image processing device;
  • 4 is a flow chart showing an example of the flow of processing of the image processing apparatus;
  • FIG. 3 is a diagram for explaining processing contents of an image processing apparatus;
  • 4 is a flow chart showing an example of the flow of processing of the image processing apparatus; It is a figure which shows an example of the functional block diagram of an image processing apparatus.
  • FIG. 4 is a diagram schematically showing an example of information output by an image processing device;
  • FIG. 1 is a functional block diagram showing an overview of an image processing apparatus 10 according to the first embodiment.
  • the image processing apparatus 10 includes a skeleton structure detection unit 11, a similarity calculation unit 12, a specification unit 13, and an output unit .
  • the skeletal structure detection unit 11 performs processing to detect key points of the human body included in the image. Based on the detected keypoints, the similarity calculation unit 12 calculates the similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by the pre-registered template image.
  • the specifying unit 13 specifies a portion in the image in which the human body is shown, in which the degree of similarity to the posture or movement of the human body indicated by any of the template images is less than a first threshold.
  • the output unit 14 selects the location specified by the specifying unit 13 as a template image candidate to be additionally registered in the determination device for determining the posture or motion of the human body detected from the image based on the posture or motion of the human body indicated by the template image. or a partial image obtained by cutting out the specified portion from the image.
  • this image processing apparatus 10 it is possible to solve the workability problem of registering, as a template image, an image containing a human body in a desired posture and motion different from the posture and motion indicated by a registered template image. can.
  • the image processing apparatus 10 calculates the degree of similarity between the posture or motion of the human body included in the original image of the template image (hereinafter simply referred to as “image”) and the posture or motion of the human body indicated by the pre-registered template image. After the calculation, a portion in the image in which the human body is photographed is identified in which the degree of similarity to the posture or movement of the human body indicated by any template image is less than the first threshold. Then, the image processing apparatus 10 outputs information indicating the specified portion or a partial image obtained by cutting out the specified portion from the image as a template image candidate to be additionally registered for the determination device. Incidentally, the determination device performs detection processing and the like using registered template images. It is determined that the posture or motion of the human body is the same or the same type of posture or motion.
  • the set of human bodies detected from the images is: It is classified into a set of determined human bodies and (2) a set of other human bodies.
  • a group of other human bodies is a group of human bodies that are not determined to have the same or the same kind of posture or movement as the posture or movement of the human body indicated by any template image.
  • (2) a location in an image in which a human body included in a group of other human bodies appears is specified, and information about the specified location is output.
  • Each functional unit of the image processing apparatus 10 includes a CPU (Central Processing Unit) of any computer, a memory, a program loaded into the memory, a storage unit such as a hard disk for storing the program (previously stored from the stage of shipping the apparatus). Programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet can also be stored), realized by any combination of hardware and software centering on the interface for network connection be done.
  • CPU Central Processing Unit
  • FIG. 3 is a block diagram illustrating the hardware configuration of the image processing device 10.
  • the image processing apparatus 10 has a processor 1A, a memory 2A, an input/output interface 3A, a peripheral circuit 4A and a bus 5A.
  • the peripheral circuit 4A includes various modules.
  • the image processing device 10 may not have the peripheral circuit 4A.
  • the image processing apparatus 10 may be composed of a plurality of physically and/or logically separated devices. In this case, each of the plurality of devices can have the above hardware configuration.
  • the bus 5A is a data transmission path for mutually transmitting and receiving data between the processor 1A, the memory 2A, the peripheral circuit 4A and the input/output interface 3A.
  • the processor 1A is, for example, an arithmetic processing device such as a CPU or a GPU (Graphics Processing Unit).
  • the memory 2A is, for example, RAM (Random Access Memory) or ROM (Read Only Memory).
  • the input/output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, a camera, etc., an interface for outputting information to an output device, an external device, an external server, etc. .
  • Input devices are, for example, keyboards, mice, microphones, physical buttons, touch panels, and the like.
  • the output device is, for example, a display, speaker, printer, mailer, or the like.
  • the processor 1A can issue commands to each module and perform calculations based on the calculation results thereof.
  • FIG. 1 is a functional block diagram showing an overview of an image processing apparatus 10 according to the second embodiment.
  • the image processing apparatus 10 has a skeleton structure detection unit 11, a similarity calculation unit 12, a specification unit 13, and an output unit .
  • the skeletal structure detection unit 11 performs processing to detect key points of the human body included in the image.
  • Image is the original image of the template image.
  • a template image is an image that is registered in advance in the technology disclosed in Patent Document 1 described above, and is an image that includes a human body in a desired posture and desired movement (posture and movement that the user wants to detect).
  • the image may be a moving image composed of a plurality of frame images, or may be a single still image.
  • the skeletal structure detection unit 11 detects N (N is an integer equal to or greater than 2) keypoints of the human body included in the image. When moving images are to be processed, the skeletal structure detection unit 11 performs processing to detect key points for each frame image.
  • the processing by the skeletal structure detection unit 11 is realized using the technique disclosed in Japanese Patent Application Laid-Open No. 2002-200013. Although the details are omitted, the technique disclosed in Patent Document 1 detects the skeleton structure using the skeleton estimation technique such as OpenPose disclosed in Non-Patent Document 1.
  • the skeletal structure detected by this technique consists of "keypoints", which are characteristic points such as joints, and "bones (bone links)", which indicate links between keypoints.
  • FIG. 4 shows the skeletal structure of the human body model 300 detected by the skeletal structure detection unit 11, and FIGS. 5 to 7 show detection examples of the skeletal structure.
  • the skeleton structure detection unit 11 detects the skeleton structure of a human body model (two-dimensional skeleton model) 300 as shown in FIG. 4 from a two-dimensional image using a skeleton estimation technique such as OpenPose.
  • the human body model 300 is a two-dimensional model composed of key points such as human joints and bones connecting the key points.
  • the skeletal structure detection unit 11 extracts feature points that can be keypoints from the image, refers to information obtained by machine learning the image of the keypoints, and detects N keypoints of the human body.
  • the N keypoints to detect are predetermined.
  • the number of keypoints to be detected that is, the number of N
  • which parts of the human body are to be detected as keypoints are various, and all variations can be adopted.
  • head A1, neck A2, right shoulder A31, left shoulder A32, right elbow A41, left elbow A42, right hand A51, left hand A52, right hip A61, left hip A62, right knee A71, left Assume that the knee A72, the right foot A81, and the left foot A82 are defined as N keypoints (N 14) to be detected.
  • the human bones connecting these key points are bone B1 connecting head A1 and neck A2, bone B21 and bone B22 connecting neck A2 and right shoulder A31 and left shoulder A32, respectively.
  • FIG. 5 is an example of detecting a person standing upright.
  • an upright person is imaged from the front, and bones B1, B51 and B52, B61 and B62, and B71 and B72 viewed from the front are detected without overlapping each other.
  • the bones B61 and B71 are slightly more bent than the left leg bones B62 and B72.
  • Fig. 6 is an example of detecting a person who is crouching.
  • a crouching person is imaged from the right side, and bones B1, B51 and B52, B61 and B62, and B71 and B72 are detected from the right side, and the right leg bone B61 is detected. And the bone B71 and the bones B62 and B72 of the left leg are greatly bent and overlapped.
  • FIG. 7 is an example of detecting a sleeping person.
  • a sleeping person is imaged obliquely from the front left, bones B1, B51 and B52, bones B61 and B62, bones B71 and B72 are detected from the oblique front left, and bones B71 and B72 are detected.
  • the bones B61 and B71 of the left leg and the bones B62 and B72 of the left leg are bent and overlapped.
  • the similarity calculation unit 12 calculates the posture or movement of the human body detected from the image and the posture or motion of the human body indicated by the pre-registered template image. Calculate the degree of similarity with motion.
  • the degree of similarity of the posture or movement of the human body there are various ways to calculate the degree of similarity of the posture or movement of the human body, and any technique can be adopted.
  • the technology disclosed in Patent Document 1 may be adopted.
  • the similarity between the posture or motion of the human body indicated by the template image and the posture or motion of the human body detected from within the image is calculated, and a human body whose similarity is equal to or greater than a first threshold is the same as the human body indicated by the template image.
  • the same method as that of the determination device that detects a human body with the same type of posture or movement may be employed. An example will be described below, but it is not limited to this.
  • the similarity calculation unit 12 calculates the feature amount of the skeletal structure indicated by the detected keypoints, and calculates the feature amount of the skeletal structure of the human body detected from the image and the skeletal structure of the human body indicated by the template image.
  • the degree of similarity between the postures of the two human bodies may be calculated by calculating the degree of similarity with the feature amount.
  • the feature value of the skeletal structure indicates the characteristics of the person's skeleton, and is an element for classifying the state (posture and movement) of the person based on the person's skeleton.
  • this feature quantity includes multiple parameters.
  • the feature amount may be the feature amount of the entire skeleton structure, the feature amount of a part of the skeleton structure, or may include a plurality of feature amounts like each part of the skeleton structure. Any method such as machine learning or normalization may be used as the method for calculating the feature amount, and the minimum value or the maximum value may be obtained as the normalization.
  • the feature amount is the feature amount obtained by machine learning the skeletal structure, the size of the skeletal structure on the image from the head to the foot, and the vertical direction of the skeletal region including the skeletal structure on the image. and the relative positional relationship of a plurality of keypoints in the lateral direction of the skeletal region.
  • the size of the skeletal structure is the vertical height, area, etc. of the skeletal region containing the skeletal structure on the image.
  • the vertical direction (height direction or vertical direction) is the vertical direction (Y-axis direction) in the image, for example, the direction perpendicular to the ground (reference plane).
  • the left-right direction (horizontal direction) is the left-right direction (X-axis direction) in the image, for example, the direction parallel to the ground.
  • FIG. 8 shows an example of the feature amount of each of the multiple keypoints obtained by the similarity calculation unit 12.
  • FIG. A set of feature amounts of a plurality of key points becomes the feature amount of the skeletal structure. Note that the feature amount of the keypoints exemplified here is merely an example, and the present invention is not limited to this.
  • the keypoint feature quantity indicates the relative positional relationship of multiple keypoints in the vertical direction of the skeletal region containing the skeletal structure on the image. Since the key point A2 of the neck is used as the reference point, the feature amount of the key point A2 is 0.0, and the feature amount of the key point A31 of the right shoulder and the key point A32 of the left shoulder, which are at the same height as the neck, are also 0.0. be.
  • the feature value of the keypoint A1 of the head higher than the neck is -0.2.
  • the right hand keypoint A51 and left hand keypoint A52 lower than the neck have a feature quantity of 0.4, and the right foot keypoint A81 and left foot keypoint A82 have a feature quantity of 0.9.
  • the feature amount (normalized value) of the example indicates the feature in the height direction (Y direction) of the skeletal structure (key point), and is affected by the change in the lateral direction (X direction) of the skeletal structure. do not have.
  • the similarity of the posture may be calculated based on the similarities of the feature amounts of a plurality of keypoints. For example, the average value, the maximum value, the minimum value, the mode value, the median value, the weighted average value, the weighted sum, etc. of the similarities of the feature amounts of a plurality of keypoints may be calculated as the posture similarities.
  • the weight of each keypoint may be set by the user or may be predetermined.
  • the similarity calculation unit 12 calculates, for example, the degree of similarity of posture for each combination of a plurality of frame images corresponding to each other by the above method, and then calculates the degree of similarity of posture calculated for each combination of a plurality of frame images.
  • a statistical value average value, maximum value, minimum value, mode value, median value, weighted average value, weighted sum, etc. may be calculated as the motion similarity.
  • the identification unit 13 selects an image including a human body whose degree of similarity to the posture or movement of the human body shown by any of the template images is less than the first threshold as a candidate for the template image to be additionally registered for the determination device. Identify the part in Specifically, the identifying unit 13 compares the degree of similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by each of the plurality of template images with a first threshold. Then, based on the result of the comparison, the identifying unit 13 identifies a portion in the image in which the human body is shown and whose degree of similarity to the posture or movement of the human body indicated by any of the template images is less than the first threshold.
  • the determination device determines the posture or motion of the human body detected from the image based on the posture or motion of the human body indicated by the template image. Specifically, when the degree of similarity is equal to or greater than a first threshold, the determination device determines that the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by the template image are the same or are of the same type. It is determined that it is the posture or action of That is, the specifying unit 13 determines that the posture or motion of the human body shown by any of the template images in the set of human bodies detected from the image is the same or the same type of posture or motion as the image in which the human body is not determined by the determination device. This will specify the location in the
  • the "location specified by the specifying unit 13" is a partial area within one still image.
  • the location is indicated by the coordinates of the coordinate system set for the still image, for example.
  • the "portion specified by the specifying unit 13" is a partial area within each of a plurality of frame images forming the moving image.
  • information indicating a partial frame image among a plurality of frame images (frame identification information, elapsed time from the beginning, etc.) and the coordinates of the coordinate system set for the frame image. , the above points are indicated.
  • the output unit 14 outputs information indicating the location identified by the identification unit 13 or a partial image obtained by cutting out the location identified by the identification unit 13 from the image as a template image candidate to be additionally registered in the determination device.
  • the image processing device 10 can have a processing unit that cuts out the portion specified by the specifying unit 13 from the image to generate the partial image.
  • the output unit 14 can output the partial image generated by the processing unit.
  • place specified by the specifying unit 13 that is, places in the image showing the human body whose similarity to the posture or movement of the human body shown by any of the template images is less than the first threshold are candidates for the template image. becomes. Based on the information or the partial image, the user can browse the locations, and select, as a template image, a location that includes a human body in a desired posture and desired movement.
  • FIG. 11 schematically shows an example of information output by the output unit 14.
  • human body identification information for mutually identifying a plurality of detected human bodies and attribute information of each human body are displayed in association with each other.
  • the attribute information information indicating the location in the image (information indicating the location where the human body is shown) and the date and time when the image was taken are displayed.
  • Attribute information also includes information indicating the installation position (shooting position) of the camera that shot the image (e.g., the back of the bus No. 102, the entrance to XX park, etc.), and the attribute information of the person calculated by image analysis (e.g., : sex, age group, body type, etc.) may be included.
  • the image processing apparatus 10 performs processing to detect keypoints of the human body included in the image (S10), based on the detected keypoints, the posture or movement of the human body detected from the image and a pre-registered template A degree of similarity with the posture or movement of the human body shown by the image is calculated (S11).
  • the image processing apparatus 10 selects, as candidates for template images to be additionally registered for the determination apparatus, images in images in which the human body is shown in which the degree of similarity to the posture or movement of the human body indicated by any of the template images is less than the first threshold.
  • a location is specified (S12). Specifically, the image processing apparatus 10 compares the degree of similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by each of the plurality of template images with a first threshold. Then, based on the result of the comparison, the image processing apparatus 10 identifies a portion in the image in which the human body is shown in which the degree of similarity to the posture or movement of the human body indicated by any of the template images is less than the first threshold.
  • the determination device determines that the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by the template image are the same, or are of the same type. It is determined to be motion.
  • the image processing apparatus 10 outputs information indicating the location identified in S12 or a partial image obtained by cutting out the location identified in S12 from the image (S13).
  • the set of human bodies detected from the images is: They are classified into a set of human bodies determined by the determination device and (2) a set of other human bodies.
  • a set of other human bodies is a set of human bodies that are not determined by the determining device to have the same or the same type of posture or movement as the posture or movement of the human body indicated by any template image.
  • the image processing apparatus 10 of the second embodiment (2) it is possible to specify a location in an image in which a human body included in a collection of other human bodies is captured, and output information about the specified location. The user can browse the identified locations, and select a location including a human body in a desired posture and desired movement as a template image. As a result, it is possible to solve the workability problem of registering, as a template image, an image containing a human body in a desired posture and motion different from the posture and motion indicated by the registered template image.
  • the image processing apparatus 10 of the third embodiment identifies a portion of the locations in the image identified by the image processing apparatus 10 of the second embodiment as candidates for the template image to be additionally registered for the determination apparatus. do.
  • the set of human bodies detected from the images is: and (2-1) a set of human bodies whose postures or movements are not determined to be the same as or of the same type as the postures or movements of the human body indicated by any template image, but which are similar in posture or movement.
  • (2-2) a set of other human bodies That is, in the third embodiment, (2) a set of other human bodies (see FIG. 2) in the second embodiment is (2-1) the same posture or movement of the human body indicated by any template image, or They are classified into a set of human bodies with similar postures or movements, which are not determined as the same type of posture or movement, and (2-2) other human body collections.
  • (2-2) A set of other human bodies is not determined to have the same or the same type of posture or movement as the posture or movement of the human body shown by any template image, and a collection of human bodies with postures or movements that are not similar. is.
  • (2-2) a location in the image in which the human body included in the group of other human bodies appears is specified, and information about the specified location is output. A detailed description will be given below.
  • the specifying unit 13 selects a human body ((2-1 in FIG. 13 ) and (2-2)) that does not satisfy the first similarity condition with any of the postures or movements of the human body shown by any of the template images (the human body that belongs to the set (2-2) Identify the location in the image where the human body belongs to).
  • the specifying unit 13 uses the method described in the second embodiment to specify the human bodies belonging to the sets (2-1) and (2-2) in FIG. 13 from among the human bodies detected from the image.
  • the identifying unit 13 determines whether the posture or movement of the human body indicated by any template image satisfies the first similarity condition for each identified human body. Based on the determination result, the identifying unit 13 identifies the human body belonging to the group (2-2) in FIG. 13, and identifies the location in the image in which the identified human body is captured.
  • a human body that satisfies the first similarity condition belongs to the set (2-1) in FIG. 13, and a human body that does not satisfy the first similarity condition belongs to the set (2-2) in FIG. Become.
  • the first similarity condition is - "the degree of similarity to the posture or movement of the human body indicated by the template image is equal to or greater than the second threshold and less than the first threshold"; "The degree of similarity with the posture or movement of the human body shown by the template image calculated based on some of the keypoints (N keypoints) detected from each human body is the third threshold be more than ⁇ "The degree of similarity with the posture or movement of the human body shown by the template image calculated in consideration of the weighting values assigned to each of the plurality of key points detected from each human body is equal to or greater than a fourth threshold", as well as, - "A plurality of human body postures showing human body postures having a degree of similarity equal to or greater than a fifth threshold to the postures of the human body represented by frame images in a predetermined proportion or more of the plurality of frame images included in the template image, which is a moving image. including frame images", including at least one of
  • the first similar condition can be content that connects the plurality of conditions with a logical operator such as "or”.
  • the degree of similarity with the posture or movement of the human body indicated by the template image is equal to or greater than the second threshold and less than the first threshold.
  • the “similarity” of this condition is a value calculated by the same method as the calculation method by the similarity calculation unit 12 described in the second embodiment.
  • the second threshold is a value smaller than the first threshold.
  • the posture or movement of the human body shown by any template image is not determined to be the same or the same kind of posture or movement, but the posture or movement of the human body is similar (see FIG. 13).
  • a human body belonging to the set (2-1)) can be detected.
  • out of the human bodies belonging to the sets (2-1) and (2-2) in FIG. 13 identified by the method described in the second embodiment By removing , the human body belonging to the set (2-2) in FIG. 13 can be identified.
  • the degree of similarity with the posture or movement of the human body shown by the template image calculated based on some of the keypoints (N keypoints) detected from each human body is equal to or greater than the third threshold.
  • the "similarity" of this condition is a value calculated based on some of the keypoints (N keypoints) to be detected.
  • Which key point to use is a design matter, but for example, the user may be able to specify it.
  • the user can specify the keypoints of the body part to be emphasized (eg, upper body) and remove the keypoints of the body part that is not to be emphasized (eg, lower body) from the specification.
  • the third threshold it is determined that the posture or movement of the human body shown by any template image is not the same or the same kind of posture or movement, but the posture or movement in which a part of the body is the same or similar.
  • a moving human body a human body belonging to the set (2-1) in FIG. 13
  • the human bodies belonging to the sets (2-1) and (2-2) in FIG. 13 identified by the method described in the second embodiment, By removing , the human body belonging to the set (2-2) in FIG. 13 can be identified.
  • the degree of similarity with the posture or movement of the human body shown by the template image calculated in consideration of the weighting values assigned to each of the multiple keypoints detected from each human body is equal to or greater than a fourth threshold.
  • the “similarity” of this condition is a value calculated by assigning weights to a plurality of keypoints (N keypoints) to be detected. For example, after calculating the similarity of the feature amount for each keypoint by adopting the same calculation method as the calculation method by the similarity calculation unit 12 described in the second embodiment, using the weighting value, a plurality of keypoints A weighted average value or a weighted sum of the similarities of the feature amounts is calculated as the posture similarity.
  • the weight of each keypoint may be set by the user or may be predetermined.
  • the fourth threshold it is determined that the posture or motion of the human body shown by any template image is not the same or the same type of posture or motion, but is the same when weighting a part of the body.
  • a plurality of frames showing a human body in a posture whose degree of similarity to the posture of the human body represented by each frame image of a predetermined ratio or more among a plurality of frame images included in a template image that is a moving image is equal to or greater than a fifth threshold.
  • Contain images This condition is used when the image and the template image are moving images, and the movement of the human body is indicated by temporal changes in the posture of the human body indicated by each of the plurality of template images included in the moving image.
  • a template image is composed of M frame images, and a predetermined percentage or more (for example, 70% or more) of the frame images out of the M frame images are similar to the posture of the human body indicated by a predetermined level or more.
  • a plurality of frame images including each human body in a posture (with a degree of similarity greater than or equal to the fifth threshold) satisfies the condition.
  • the method described in the second embodiment can be adopted as the method for calculating the degree of similarity of posture for each combination of a plurality of frame images corresponding to each other.
  • the fifth threshold and the predetermined ratio it is possible to determine that the posture or motion is not the same as or of the same kind as the motion of the human body indicated by any of the template images, but one of the template images (moving images) It is possible to detect a human body whose movement is the same as or similar to that of the human body in the partial time period (a human body belonging to the group (2-1) in FIG. 13). Then, out of the human bodies belonging to the sets (2-1) and (2-2) in FIG. 13 identified by the method described in the second embodiment, By removing , the human body belonging to the set (2-2) in FIG. 13 can be identified.
  • the image processing apparatus 10 performs processing for detecting keypoints of the human body included in the image (S20), based on the detected keypoints, the posture or movement of the human body detected from the image and a pre-registered template are obtained. The degree of similarity with the posture or movement of the human body shown by the image is calculated (S21).
  • the image processing apparatus 10 identifies, from among the detected human bodies, those whose degree of similarity to the posture or movement of the human body indicated by any template image is less than the first threshold (S22). Specifically, the image processing apparatus 10 compares the degree of similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by each of the plurality of template images with a first threshold. Then, based on the result of the comparison, the image processing apparatus 10 identifies a human body whose degree of similarity to the posture or movement of the human body indicated by any of the template images is less than the first threshold.
  • the image processing apparatus 10 selects, as candidates for template images to be additionally registered for the determination apparatus, human body postures or movements indicated by any of the template images among the human bodies identified in S22 that do not satisfy the first similarity condition. is identified in the image (S23). Specifically, the image processing apparatus 10 determines whether the posture or movement of the human body indicated by any template image satisfies the first similarity condition for each human body specified in S22. Then, based on the determination result, the image processing apparatus 10 selects a portion in the image containing the human body that does not satisfy the first similarity condition for the posture or movement of the human body indicated by any of the template images in the human body identified in S22. Identify.
  • the image processing apparatus 10 outputs information indicating the location identified in S23 or a partial image obtained by cutting out the location identified in S23 from the image (S24).
  • the posture or movement of the human body shown by any template image in the set of human bodies detected from the image is the same as or the same type of posture or movement. It is possible to output information about a part in the image in which the human body is not determined by the determination device and which is not similar to the posture or movement of the human body shown by any template image.
  • the set of human bodies detected from the images is: and (2-1) a set of human bodies whose postures or movements are not determined to be the same as or of the same type as the postures or movements of the human body indicated by any template image, but which are similar in posture or movement.
  • the set of other human bodies is not determined by the determination device to be the same or the same type of posture or motion as the posture or motion of the human body indicated by any template image, and the human body indicated by any template image It is a set of human bodies that do not resemble the postures or movements of human beings.
  • (2-2) it is possible to specify a location in an image in which a human body included in a collection of other human bodies is captured, and output information about the specified location.
  • the user can browse the identified locations, and select a location including a human body in a desired posture and desired movement as a template image.
  • the image processing apparatus 10 of the present embodiment groups a plurality of human bodies appearing in a location in an image specified by any of the methods of the first to third embodiments based on the degree of similarity in posture or movement, and divides them into groups. It has a function to output the result. A detailed description will be given below.
  • FIG. 15 shows an example of a functional block diagram of the image processing device 10 of this embodiment.
  • the image processing apparatus 10 has a skeleton structure detection unit 11 , a similarity calculation unit 12 , an identification unit 13 , an output unit 14 and a grouping unit 15 .
  • the grouping unit 15 groups a plurality of human bodies appearing in the locations in the image specified by the specifying unit 13 based on the degree of similarity in posture or movement.
  • the grouping unit 15 creates a group by grouping objects having similar postures or movements.
  • the grouping can be realized using the classification technique disclosed in Patent Document 1.
  • the output unit 14 further outputs the result of grouping by the grouping unit 15.
  • FIG. 16 shows an example of information output by the output unit 14 .
  • a plurality of human bodies appearing at locations within the image specified by the specifying unit 13 are classified into three groups. For example, as shown in FIG. 16, posture areas WA1 to WA3 for each posture (for each group) are displayed in the display window W1, and the human body corresponding to each posture is displayed in the posture regions WA1 to WA3.
  • the image processing apparatus 10 of the fourth embodiment effects similar to those of the first to third embodiments are achieved. Further, according to the image processing apparatus 10 of the fourth embodiment, it is possible to group a plurality of human bodies appearing in a specified portion of an image based on the degree of similarity in posture or motion, and output the result. Based on this information, the user can easily grasp what kind of posture and movement of the human body is included in the template image candidates. As a result, it is possible to solve the workability problem of registering, as a template image, an image containing a human body in a desired posture and motion different from the posture and motion indicated by the registered template image.
  • skeletal structure detection means for detecting key points of the human body included in the image; a similarity calculating means for calculating, based on the detected key points, a similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by a pre-registered template image; a specifying means for specifying a portion in the image in which the human body is shown, the degree of similarity of which is less than a first threshold to the posture or movement of the human body indicated by any of the template images; Information indicating the specified location as a candidate for the template image to be additionally registered in a determination device that determines the posture or motion of the human body detected from the image based on the posture or motion of the human body indicated by the template image; or output means for outputting a partial image obtained by cutting out the specified portion from the image; An image processing device having 2.
  • the specifying means may be configured such that the degree of similarity to the posture or motion of the human body represented by any of the template images is less than the first threshold, and the posture or motion of the human body represented by any of the template images is first.
  • the image processing apparatus according to 1 which identifies a portion in the image in which a human body does not satisfy the similarity condition of 1. 3.
  • the first similarity condition is that the degree of similarity with the posture or movement of the human body indicated by the template image calculated based on some of the plurality of keypoints detected from each human body is the first. 4.
  • the image processing device including being equal to or greater than a threshold of 3.
  • the first similarity condition is that the degree of similarity between the posture or movement of the human body indicated by the template image calculated in consideration of the weighting values assigned to each of the plurality of key points detected from each human body is the first. 5.
  • the image processing apparatus according to any one of 2 to 4, including being equal to or greater than a threshold of 4. 6.
  • the image and the template image are moving images, and the movement of the human body is indicated by temporal changes in the posture of the human body indicated by each of the plurality of template images included in the moving image;
  • the first similarity condition is that each human body in a posture whose similarity to the posture of the human body indicated by each of the frame images of a predetermined ratio or more among the plurality of frame images included in the template image is equal to or greater than a fifth threshold.
  • the image processing device according to any one of 2 to 5, wherein a plurality of frame images showing are included. 7. further comprising grouping means for grouping a plurality of human bodies appearing at the specified location based on similarity in posture or movement; The output means further outputs the result of the grouping. 7.
  • the image processing device perform processing to detect key points of the human body included in the image, calculating a degree of similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by a pre-registered template image, based on the detected keypoints; identifying a location in the image in which the human body is shown and the degree of similarity to the posture or movement of the human body shown by any of the template images is less than a first threshold; Information indicating the specified location as a candidate for the template image to be additionally registered in a determination device that determines the posture or motion of the human body detected from the image based on the posture or motion of the human body indicated by the template image; or outputting a partial image obtained by cutting out the identified portion from the image; Image processing method.
  • skeletal structure detection means for detecting key points of the human body included in the image; a similarity calculating means for calculating, based on the detected key points, a similarity between the posture or motion of the human body detected from the image and the posture or motion of the human body indicated by a pre-registered template image; identifying means for identifying a portion in the image in which the human body is shown, the degree of similarity to the posture or movement of the human body shown by any of the template images being less than a first threshold; Information indicating the specified location as a candidate for the template image to be additionally registered in a determination device that determines the posture or motion of the human body detected from the image based on the posture or motion of the human body indicated by the template image; or output means for outputting a partial image obtained by cutting out the specified portion from the image;
  • a program that acts as

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出部(11)と、検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出部(12)と、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体が写る画像内の箇所を特定する特定部(13)と、テンプレート画像が示す人体の姿勢又は動きに基づいて画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録するテンプレート画像の候補として、特定された箇所を示す情報、又は画像から特定された箇所を切り出した部分画像を出力する出力部(14)と、を有する画像処理装置(10)を提供する。

Description

画像処理装置、画像処理方法、およびプログラム
 本発明は、画像処理装置、画像処理方法、およびプログラムに関する。
 本発明に関連する技術が特許文献1乃至3及び非特許文献1に開示されている。
 特許文献1には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が開示されている。また、非特許文献1には、人物の骨格推定に関連する技術が開示されている。
 特許文献2には、所定区域を撮像した複数の画像、及び所定区域の状況の変化を示す情報を取得すると、所定区域の状況の変化を示す情報に基づいて複数の画像を分類し、分類結果に従って、複数の画像の少なくとも一部を用いて画像から所定区域の状況を判定する識別器の学習を行う技術が開示されている。
 特許文献3には、入力画像に基づいて人物における対象の状態変化を検出し、対象の状態変化が複数人で生じたことの検出に応じて異常状態を判定する技術が開示されている。
国際公開第2021/084677号 特開2021-87031号 国際公開第2015/198767号
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
 上述した特許文献1に開示の技術によれば、所望の姿勢や所望の動きの人体を含む画像を事前にテンプレート画像として登録しておくことで、処理対象の画像の中から所望の姿勢や所望の動きの人体を検出することができる。本発明者は、このような特許文献1に開示の技術を検討した結果、登録済のテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像を新たにテンプレート画像として追加登録する際に、そのような画像を探す作業の作業性に改善の余地があることを新たに見出した。
 上述した特許文献1乃至3及び非特許文献1はいずれも、テンプレート画像に関する課題及びその解決手段を開示していないため、上記課題を解決できないという問題点があった。
 本発明の目的の一例は、上述した課題を鑑み、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題を解決する画像処理装置、画像処理方法、およびプログラムを提供することにある。
 本発明の一態様によれば、
 画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
 検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段と、
 いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定する特定手段と、
 前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置が提供される。
 また、本発明の一態様によれば、
 コンピュータが、
  画像に含まれる人体のキーポイントを検出する処理を行い、
  検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出し、
  いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定し、
  前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する、
画像処理方法が提供される。
 また、本発明の一態様によれば、
 コンピュータを、
  画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
  検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段、
  いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定する特定手段、
  前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラムが提供される。
 本発明の一態様によれば、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題を解決する画像処理装置、画像処理方法、およびプログラムが得られる。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
画像処理装置の機能ブロック図の一例を示す図である。 画像処理装置の処理内容を説明するための図である。 画像処理装置のハードウエア構成の一例を示す図である。 画像処理装置により検出される人体モデルの骨格構造の一例を示す図である。 画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。 画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。 画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。 画像処理装置により算出されるキーポイントの特徴量の一例を示す図である。 画像処理装置により算出されるキーポイントの特徴量の一例を示す図である。 画像処理装置により算出されるキーポイントの特徴量の一例を示す図である。 画像処理装置により出力される情報の一例を模式的に示す図である。 画像処理装置の処理の流れの一例を示すフローチャートである。 画像処理装置の処理内容を説明するための図である。 画像処理装置の処理の流れの一例を示すフローチャートである。 画像処理装置の機能ブロック図の一例を示す図である。 画像処理装置により出力される情報の一例を模式的に示す図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
<第1の実施形態>
 図1は、第1の実施形態に係る画像処理装置10の概要を示す機能ブロック図である。図1に示すように、画像処理装置10は、骨格構造検出部11と、類似度算出部12と、特定部13と、出力部14とを備える。
 骨格構造検出部11は、画像に含まれる人体のキーポイントを検出する処理を行う。類似度算出部12は、検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する。特定部13は、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体が写る画像内の箇所を特定する。出力部14は、テンプレート画像が示す人体の姿勢又は動きに基づいて画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録するテンプレート画像の候補として、特定部13により特定された箇所を示す情報、又は画像から特定された箇所を切り出した部分画像を出力する。
 この画像処理装置10によれば、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題を解決することができる。
<第2の実施形態>
「概要」
 画像処理装置10は、テンプレート画像の元となる画像(以下、単に「画像」という)に含まれる人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出した後、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体が写る画像内の箇所を特定する。そして、画像処理装置10は、特定された箇所を示す情報、又は画像から特定された箇所を切り出した部分画像を、判定装置用に追加登録するテンプレート画像の候補として出力する。ちなみに、判定装置は、登録されたテンプレート画像を利用した検出処理等を行うが、上記類似度が第1の閾値以上である場合に、画像から検出された人体の姿勢又は動きとテンプレート画像が示す人体の姿勢又は動きとが同じ、あるいは同じ種類の姿勢又は動きであると判定する。
 このような画像処理装置10によれば、画像から検出された人体の集合の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されない人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力することができる。図2を用いてより詳細に説明する。第2の実施形態では、図2に示すように、画像から検出された人体の集合は、(1)いずれかのテンプレート画像が示す人体の姿勢又は動きと同じ、あるいは同じ種類の姿勢又は動きと判定される人体の集合と、(2)その他の人体の集合とに分類される。(2)その他の人体の集合は、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されない人体の集合である。本実施形態では、(2)その他の人体の集合に含まれる人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力する。
「ハードウエア構成」
 次に、画像処理装置10のハードウエア構成の一例を説明する。画像処理装置10の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 図3は、画像処理装置10のハードウエア構成を例示するブロック図である。図3に示すように、画像処理装置10は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。画像処理装置10は周辺回路4Aを有さなくてもよい。なお、画像処理装置10は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
 バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
「機能構成」
 図1は、第2の実施形態に係る画像処理装置10の概要を示す機能ブロック図である。図1に示すように、画像処理装置10は、骨格構造検出部11と、類似度算出部12と、特定部13と、出力部14とを有する。
 骨格構造検出部11は、画像に含まれる人体のキーポイントを検出する処理を行う。
 「画像」は、テンプレート画像の元となる画像である。テンプレート画像は、上述した特許文献1に開示の技術において事前に登録される画像であって、所望の姿勢や所望の動き(ユーザが検出したい姿勢や動き)の人体を含む画像である。画像は、複数のフレーム画像で構成される動画像であってもよいし、1枚で構成される静止画像であってもよい。
 骨格構造検出部11は、画像に含まれる人体のN(Nは2以上の整数)個のキーポイントを検出する。動画像が処理対象の場合、骨格構造検出部11は、フレーム画像毎にキーポイントを検出する処理を行う。骨格構造検出部11による当該処理は、特許文献1に開示されている技術を用いて実現される。詳細は省略するが、特許文献1に開示されている技術では、非特許文献1に開示されたOpenPose等の骨格推定技術を利用して骨格構造の検出を行う。当該技術で検出される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン(ボーンリンク)」とから構成される。
 図4は、骨格構造検出部11により検出される人体モデル300の骨格構造を示しており、図5乃至図7は、骨格構造の検出例を示している。骨格構造検出部11は、OpenPose等の骨格推定技術を用いて、2次元の画像から図4のような人体モデル(2次元骨格モデル)300の骨格構造を検出する。人体モデル300は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された2次元モデルである。
 骨格構造検出部11は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人体のN個のキーポイントを検出する。検出するN個のキーポイントは予め定められる。検出するキーポイントの数(すなわち、Nの数)や、人体のどの部分を検出するキーポイントとするかは様々であり、あらゆるバリエーションを採用できる。
 以下では、図4に示すように、頭A1、首A2、右肩A31、左肩A32、右肘A41、左肘A42、右手A51、左手A52、右腰A61、左腰A62、右膝A71、左膝A72、右足A81、左足A82が、検出対象のN個のキーポイント(N=14)として定められているものとする。なお、図3に示す人体モデル300では、これらのキーポイントを連結した人物の骨として、頭A1と首A2を結ぶボーンB1、首A2と右肩A31及び左肩A32をそれぞれ結ぶボーンB21及びボーンB22、右肩A31及び左肩A32と右肘A41及び左肘A42をそれぞれ結ぶボーンB31及びボーンB32、右肘A41及び左肘A42と右手A51及び左手A52をそれぞれ結ぶボーンB41及びボーンB42、首A2と右腰A61及び左腰A62をそれぞれ結ぶボーンB51及びボーンB52、右腰A61及び左腰A62と右膝A71及び左膝A72をそれぞれ結ぶボーンB61及びボーンB62、右膝A71及び左膝A72と右足A81及び左足A82をそれぞれ結ぶボーンB71及びボーンB72がさらに定められている。
 図5は、直立した状態の人物を検出する例である。図5では、直立した人物が正面から撮像されており、正面から見たボーンB1、ボーンB51及びボーンB52、ボーンB61及びボーンB62、ボーンB71及びボーンB72がそれぞれ重ならずに検出され、右足のボーンB61及びボーンB71は左足のボーンB62及びボーンB72よりも多少折れ曲がっている。
 図6は、しゃがみ込んでいる状態の人物を検出する例である。図6では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンB1、ボーンB51及びボーンB52、ボーンB61及びボーンB62、ボーンB71及びボーンB72がそれぞれ検出され、右足のボーンB61及びボーンB71と左足のボーンB62及びボーンB72は大きく折れ曲がり、かつ、重なっている。
 図7は、寝込んでいる状態の人物を検出する例である。図7では、寝込んでいる人物が左斜め前から撮像されており、左斜め前から見たボーンB1、ボーンB51及びボーンB52、ボーンB61及びボーンB62、ボーンB71及びボーンB72がそれぞれ検出され、右足のボーンB61及びボーンB71と左足のボーンB62及びボーンB72は折れ曲がり、かつ、重なっている。
 図1に戻り、類似度算出部12は、骨格構造検出部11により検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する。
 上記人体の姿勢又は動きの類似度の算出の仕方は様々であり、あらゆる技術を採用できる。例えば、特許文献1に開示の技術を採用してもよい。また、テンプレート画像が示す人体の姿勢又は動きと、画像内から検出した人体の姿勢又は動きとの類似度を算出し、類似度が第1の閾値以上である人体をテンプレート画像が示す人体と同じ、あるいは同じ種類の姿勢又は動きの人体として検出する判定装置と同じ手法を採用してもよい。以下、一例を説明するがこれに限定されない。
 一例として、類似度算出部12は、検出されたキーポイントで示される骨格構造の特徴量を算出し、画像から検出された人体の骨格構造の特徴量と、テンプレート画像が示す人体の骨格構造の特徴量との類似度を算出することで、2つの人体の姿勢の類似度を算出してもよい。
 骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態(姿勢や動き)を分類するための要素となる。通常、この特徴量は、複数のパラメータを含んでいる。そして特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係、当該骨格領域の左右方向における複数のキーポイントの相対的な位置関係等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向(高さ方向または縦方向)は、画像における上下の方向(Y軸方向)であり、例えば、地面(基準面)に対し垂直な方向である。また、左右方向(横方向)は、画像における左右の方向(X軸方向)であり、例えば、地面に対し平行な方向である。
 なお、ユーザが望む分類を行うためには、判定処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない判定を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。骨格構造の特徴量を算出する処理の一例は、特許文献1に開示されている。
 図8は、類似度算出部12が求めた複数のキーポイント各々の特徴量の例を示している。複数のキーポイントの特徴量の集合が、骨格構造の特徴量となる。なお、ここで例示するキーポイントの特徴量はあくまで一例であり、これに限定されない。
 この例では、キーポイントの特徴量は、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係を示す。首のキーポイントA2を基準点とするため、キーポイントA2の特徴量は0.0となり、首と同じ高さの右肩のキーポイントA31及び左肩のキーポイントA32の特徴量も0.0である。首よりも高い頭のキーポイントA1の特徴量は-0.2である。首よりも低い右手のキーポイントA51及び左手のキーポイントA52の特徴量は0.4であり、右足のキーポイントA81及び左足のキーポイントA82の特徴量は0.9である。この状態から人物が左手を挙げると、図9のように左手が基準点よりも高くなるため、左手のキーポイントA52の特徴量は-0.4となる。一方で、Y軸の座標のみを用いて正規化を行っているため、図10のように、図8に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、当該例の特徴量(正規化値)は、骨格構造(キーポイント)の高さ方向(Y方向)の特徴を示しており、骨格構造の横方向(X方向)の変化に影響を受けない。
 このような特徴量で示される姿勢の類似度の算出の仕方は様々である。例えば、キーポイント毎に特徴量の類似度を算出した後、複数のキーポイントの特徴量の類似度に基づき、姿勢の類似度を算出してもよい。例えば、複数のキーポイントの特徴量の類似度の平均値、最大値、最小値、最頻値、中央値、加重平均値、加重和等が、姿勢の類似度として算出されてもよい。加重平均値や加重和を算出する場合、各キーポイントの重みはユーザが設定できてもよいし、予め定められていてもよい。
 また、動きは、複数の姿勢の時間変化としてあらわされる。このため類似度算出部12は、例えば、互いに対応する複数のフレーム画像の組み合わせ毎に、上記手法で姿勢の類似度を算出した後、複数のフレーム画像の組み合わせ毎に算出した姿勢の類似度の統計値(平均値、最大値、最小値、最頻値、中央値、加重平均値、加重和等)を、動きの類似度として算出してもよい。
 図1に戻り、特定部13は、判定装置用に追加登録するテンプレート画像の候補として、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体が写る画像内の箇所を特定する。具体的には、特定部13は、画像から検出された人体の姿勢又は動きと、複数のテンプレート画像各々が示す人体の姿勢又は動きとの類似度を、第1の閾値と比較する。そして、特定部13は、当該比較の結果に基づき、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体が写る画像内の箇所を特定する。
 なお、判定装置は、テンプレート画像が示す人体の姿勢又は動きに基づいて画像から検出された人体の姿勢又は動きを判定する。具体的には、判定装置は、上記類似度が第1の閾値以上である場合に、画像から検出された人体の姿勢又は動きとテンプレート画像が示す人体の姿勢又は動きとが同じ、あるいは同じ種類の姿勢又は動作であると判定する。すなわち、特定部13は、画像から検出された人体の集合の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定されない人体が写る画像内の箇所を特定することとなる。
 画像が静止画像である場合、「特定部13により特定される箇所」は、1枚の静止画像内の一部領域となる。この場合、静止画像毎に、例えば静止画像に設定された座標系の座標で上記箇所が示される。一方、画像が動画像である場合、「特定部13により特定される箇所」は、動画像を構成する複数のフレーム画像の中の一部のフレーム画像各々内の一部領域となる。この場合、動画像ごとに、例えば複数のフレーム画像の中の一部のフレーム画像を示す情報(フレーム識別情報、冒頭からの経過時間等)と、フレーム画像に設定された座標系の座標とで、上記箇所が示される。
 出力部14は、判定装置に追加登録するテンプレート画像の候補として、特定部13により特定された箇所を示す情報、又は画像から特定部13により特定された箇所を切り出した部分画像を出力する。なお、出力部14が部分画像を出力する場合、画像処理装置10は、画像から、特定部13により特定された箇所を切り出して部分画像を生成する処理部を有することができる。そして、出力部14は、処理部が生成した部分画像を出力することができる。
 上述した「特定部13により特定された箇所」、すなわちいずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体が写る画像内の箇所が、テンプレート画像の候補となる。ユーザは、上記情報又は上記部分画像に基づき、上記箇所を閲覧等し、その中から、所望の姿勢や所望の動きの人体を含む箇所をテンプレート画像として選別することができる。
 図11に、出力部14が出力した情報の一例を模式的に示す。図11に示す例では、検出された複数の人体を互いに識別するための人体識別情報と、各人体の属性情報とが互いに紐付けて表示されている。そして、属性情報の一例として、画像内箇所を示す情報(上述した人体が写る箇所を示す情報)、画像の撮影日時が表示されている。属性情報は、その他、画像を撮影したカメラの設置位置(撮影位置)を示す情報(例:102号バス車内後方、〇〇公園入口等)や、画像解析で算出される人物の属性情報(例:性別、年齢層、体型等)を含んでもよい。
 次に、図12のフローチャートを用いて、画像処理装置10の処理の流れの一例を説明する。
 画像処理装置10は、画像に含まれる人体のキーポイントを検出する処理を行うと(S10)、検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する(S11)。
 次いで、画像処理装置10は、判定装置用に追加登録するテンプレート画像の候補として、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体が写る画像内の箇所を特定する(S12)。具体的には、画像処理装置10は、画像から検出された人体の姿勢又は動きと、複数のテンプレート画像各々が示す人体の姿勢又は動きとの類似度を、第1の閾値と比較する。そして、画像処理装置10は、当該比較の結果に基づき、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体が写る画像内の箇所を特定する。なお、判定装置は、上記類似度が第1の閾値以上である場合に、画像から検出された人体の姿勢又は動きとテンプレート画像が示す人体の姿勢又は動きとが同じ、あるいは同じ種類の姿勢又は動きであると判定する。
 そして、画像処理装置10は、S12で特定された箇所を示す情報、又は画像からS12で特定された箇所を切り出した部分画像を出力する(S13)。
「作用効果」
 第2の実施形態の画像処理装置10によれば、第1の実施形態と同様の作用効果が実現される。また、第2の実施形態の画像処理装置10によれば、画像から検出された人体の集合の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定されない人体が写る画像内の箇所に関する情報を出力することができる。
 図2を用いてより詳細に説明する。第2の実施形態では、図2に示すように、画像から検出された人体の集合は、(1)いずれかのテンプレート画像が示す人体の姿勢又は動きと同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定される人体の集合と、(2)その他の人体の集合とに分類される。(2)その他の人体の集合は、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動き姿勢又は動きと判定装置により判定されない人体の集合である。第2の実施形態の画像処理装置10によれば、(2)その他の人体の集合に含まれる人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力することができる。ユーザは、上記特定した箇所を閲覧等し、その中から、所望の姿勢や所望の動きの人体を含む箇所をテンプレート画像として選別することができる。結果、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題が解決される。
<第3の実施形態>
 第3の実施形態の画像処理装置10は、第2の実施形態の画像処理装置10により特定される画像内の箇所の中の一部を、判定装置用に追加登録するテンプレート画像の候補として特定する。
 第3の実施形態では、図13に示すように、画像から検出された人体の集合は、(1)いずれかのテンプレート画像が示す人体の姿勢又は動きと同じ、あるいは同じ種類の姿勢又は動きと判定される人体の集合と、(2―1)いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、似ている姿勢又は動きの人体の集合と、(2-2)その他の人体の集合とに分類される。すなわち、第3の実施形態では、第2の実施形態における(2)その他の人体の集合(図2参照)が、(2―1)いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、似ている姿勢又は動きの人体の集合と、(2-2)その他の人体の集合とに分類されている。
 (2-2)その他の人体の集合は、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されず、かつ、似ていない姿勢又は動きの人体の集合である。本実施形態では、(2-2)その他の人体の集合に含まれる人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力する。以下、詳細に説明する。
 特定部13は、判定装置用に追加登録するテンプレート画像の候補として、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体(図13の(2-1)及び(2-2)の集合に属する人体)の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも第1の類似条件を満たさない人体(図13の(2-2)の集合に属する人体)が写る画像内の箇所を特定する。
 特定部13は、第2の実施形態で説明した手法で、画像から検出した人体の中から、図13の(2-1)及び(2-2)の集合に属する人体を特定する。次いで、特定部13は、特定した人体毎に、いずれかのテンプレート画像が示す人体の姿勢又は動きと第1の類似条件を満たすか判定する。そして、特定部13は、判定の結果に基づき、図13の(2-2)の集合に属する人体を特定するとともに、特定したその人体が写る画像内の箇所を特定する。第1の類似条件を満たす人体は、図13の(2-1)の集合に属する人体となり、第1の類似条件を満たさない人体は、図13の(2-2)の集合に属する人体となる。
 第1の類似条件は、
・「テンプレート画像が示す人体の姿勢又は動きとの類似度が第2の閾値以上かつ第1の閾値未満であること」、
・「各人体から検出される複数のキーポイント(N個のキーポイント)の中の一部のキーポイントに基づき算出されたテンプレート画像が示す人体の姿勢又は動きとの類似度が第3の閾値以上であること」、
・「各人体から検出される複数のキーポイント各々に付与された重み付け値を考慮して算出されたテンプレート画像が示す人体の姿勢又は動きとの類似度が第4の閾値以上であること」、及び、
・「動画像であるテンプレート画像に含まれる複数のフレーム画像の中の所定割合以上のフレーム画像各々が示す人体の姿勢との類似度が第5の閾値以上である姿勢の人体各々を示す複数のフレーム画像を含むこと」、
の中の少なくとも1つを含む。
 上記例示した条件の中の複数を含む場合、第1の類似条件は、複数の条件を「or」等の論理演算子で繋いだ内容とすることができる。以下、上記例示した条件各々について説明する。
「テンプレート画像が示す人体の姿勢又は動きとの類似度が第2の閾値以上かつ第1の閾値未満であること」
 この条件の「類似度」は、第2の実施形態で説明した類似度算出部12による算出方法と同じ方法で算出された値である。そして、第2の閾値は第1の閾値より小さい値である。
 第2の閾値を適切に設定することで、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、似ている姿勢又は動きの人体(図13の(2-1)の集合に属する人体)を検出することができる。そして、第2の実施形態で説明した手法で特定した図13の(2-1)及び(2-2)の集合に属する人体の中から、図13の(2-1)の集合に属する人体を取り除くことで、図13の(2-2)の集合に属する人体を特定することができる。
「各人体から検出される複数のキーポイント(N個のキーポイント)の中の一部のキーポイントに基づき算出されたテンプレート画像が示す人体の姿勢又は動きとの類似度が第3の閾値以上であること」
 この条件の「類似度」は、検出対象の複数のキーポイント(N個のキーポイント)の中の一部のキーポイントに基づき算出された値である。複数のキーポイント(N個のキーポイント)の中の一部のキーポイントの特徴量のみを用いる点を除き、第2の実施形態で説明した類似度算出部12による算出方法と同じ方法を採用して、この条件の類似度を算出することができる。
 いずれのキーポイントを利用するかは設計的事項であるが、例えばユーザが指定できてもよい。ユーザは、重視したい身体部分(例:上半身)のキーポイントを指定し、重視しない身体部分(例:下半身)のキーポイントを指定から外すことができる。
 第3の閾値を適切に設定することで、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、身体の一部が同じ又は似ている姿勢又は動きの人体(図13の(2-1)の集合に属する人体)を検出することができる。そして、第2の実施形態で説明した手法で特定した図13の(2-1)及び(2-2)の集合に属する人体の中から、図13の(2-1)の集合に属する人体を取り除くことで、図13の(2-2)の集合に属する人体を特定することができる。
「各人体から検出される複数のキーポイント各々に付与された重み付け値を考慮して算出されたテンプレート画像が示す人体の姿勢又は動きとの類似度が第4の閾値以上であること」
 この条件の「類似度」は、検出対象の複数のキーポイント(N個のキーポイント)に重みを付与して算出された値である。例えば、第2の実施形態で説明した類似度算出部12による算出方法と同じ方法を採用してキーポイント毎に特徴量の類似度を算出した後、上記重み付け値を用いて、複数のキーポイントの特徴量の類似度の加重平均値又は加重和を姿勢の類似度として算出する。各キーポイントの重みはユーザが設定できてもよいし、予め定められていてもよい。
 第4の閾値を適切に設定することで、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、身体の一部に重みを置いた場合に同じ又は似ている姿勢又は動きの人体(図13の(2-1)の集合に属する人体)を検出することができる。そして、第2の実施形態で説明した手法で特定した図13の(2-1)及び(2-2)の集合に属する人体の中から、図13の(2-1)の集合に属する人体を取り除くことで、図13の(2-2)の集合に属する人体を特定することができる。
「動画像であるテンプレート画像に含まれる複数のフレーム画像の中の所定割合以上のフレーム画像各々が示す人体の姿勢との類似度が第5の閾値以上である姿勢の人体各々を示す複数のフレーム画像を含むこと」
 当該条件は、画像及びテンプレート画像は動画像であり、動画像に含まれる複数のテンプレート画像各々が示す人体の姿勢の時間変化により人体の動きが示されている場合に利用される。
 例えば、テンプレート画像はM個のフレーム画像で構成されるが、そのM個のフレーム画像の中の所定割合以上(例:7割以上)のフレーム画像各々が示す人体の姿勢と所定レベル以上類似する(類似度が第5の閾値以上)姿勢の人体各々を含む複数のフレーム画像が当該条件を満たすこととなる。互いに対応する複数のフレーム画像の組み合わせ毎に姿勢の類似度を算出する手法は、第2の実施形態で説明した手法を採用できる。
 第5の閾値、及び所定割合を適切に設定することで、いずれのテンプレート画像が示す人体の動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、テンプレート画像(動画像)の中の一部時間帯における人体の動きと同じ又は似ている動きの人体(図13の(2-1)の集合に属する人体)を検出することができる。そして、第2の実施形態で説明した手法で特定した図13の(2-1)及び(2-2)の集合に属する人体の中から、図13の(2-1)の集合に属する人体を取り除くことで、図13の(2-2)の集合に属する人体を特定することができる。
 次に、図14のフローチャートを用いて、画像処理装置10の処理の流れの一例を説明する。
 画像処理装置10は、画像に含まれる人体のキーポイントを検出する処理を行うと(S20)、検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する(S21)。
 次いで、画像処理装置10は、検出された人体の中から、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体を特定する(S22)。具体的には、画像処理装置10は、画像から検出された人体の姿勢又は動きと、複数のテンプレート画像各々が示す人体の姿勢又は動きとの類似度と、第1の閾値とを比較する。そして、画像処理装置10は、当該比較の結果に基づき、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第1の閾値未満である人体を特定する。
 次いで、画像処理装置10は、判定装置用に追加登録するテンプレート画像の候補として、S22で特定した人体の中のいずれのテンプレート画像が示す人体の姿勢又は動きとも第1の類似条件を満たさない人体が写る画像内の箇所を特定する(S23)。具体的には、画像処理装置10は、S22で特定した人体毎に、いずれかのテンプレート画像が示す人体の姿勢又は動きと第1の類似条件を満たすか判定する。そして、画像処理装置10は、判定の結果に基づき、S22で特定した人体の中のいずれのテンプレート画像が示す人体の姿勢又は動きとも第1の類似条件を満たさない人体が写る画像内の箇所を特定する。
 そして、画像処理装置10は、S23で特定された箇所を示す情報、又は画像からS23で特定された箇所を切り出した部分画像を出力する(S24)。
 第3の実施形態の画像処理装置10のその他の構成は、第1及び第2の実施形態の画像処理装置10の構成と同様である。
 第3の実施形態の画像処理装置10によれば、第1及び第2の実施形態と同様の作用効果が実現される。また、第3の実施形態の画像処理装置10によれば、画像から検出された人体の集合の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定されず、かつ、いずれのテンプレート画像が示す人体の姿勢又は動きとも似ていない人体が写る画像内の箇所に関する情報を出力することができる。
 図13を用いてより詳細に説明する。第3の実施形態では、図13に示すように、画像から検出された人体の集合は、(1)いずれかのテンプレート画像が示す人体の姿勢又は動きと同じ、あるいは同じ種類の姿勢又は動きと判定される人体の集合と、(2―1)いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、似ている姿勢又は動きの人体の集合と、(2-2)その他の人体の集合とに分類される。(2-2)その他の人体の集合は、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定されず、かつ、いずれのテンプレート画像が示す人体の姿勢又は動きとも似ていない人体の集合である。第3の実施形態の画像処理装置10によれば、(2-2)その他の人体の集合に含まれる人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力することができる。ユーザは、上記特定した箇所を閲覧等し、その中から、所望の姿勢や所望の動きの人体を含む箇所をテンプレート画像として選別することができる。結果、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題が解決される。
<第4の実施形態>
 本実施形態の画像処理装置10は、第1乃至第3の実施形態のいずれかの手法で特定した画像内の箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けし、その結果を出力する機能を有する。以下、詳細に説明する。
 図15に、本実施形態の画像処理装置10の機能ブロック図の一例を示す。図示するように、画像処理装置10は、骨格構造検出部11と、類似度算出部12と、特定部13と、出力部14と、グループ化部15とを有する。
 グループ化部15は、特定部13により特定された画像内の箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けする。グループ化部15は、姿勢又は動きが似ているもの同士をまとめてグループを作成する。当該グループ分けは、特許文献1に開示の分類の技術を利用して実現することができる。
 出力部14は、グループ化部15によるグループ分けの結果をさらに出力する。図16に、出力部14が出力する情報の一例を示す。図示する例では、特定部13により特定された画像内の箇所に写る複数の人体は、3つのグループに分類されている。例えば、図16に示すように、表示ウインドウW1に、姿勢毎(グループ毎)の姿勢領域WA1乃至WA3を表示し、姿勢領域WA1乃至WA3にそれぞれの姿勢に該当する人体を表示する。
 第4の実施形態の画像処理装置10のその他の構成は、第1乃至第3の実施形態の画像処理装置10の構成と同様である。
 第4の実施形態の画像処理装置10によれば、第1乃至第3の実施形態と同様の作用効果が実現される。また、第4の実施形態の画像処理装置10によれば、特定した画像内の箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けし、その結果を出力することができる。ユーザは、その情報に基づき、テンプレート画像の候補の中に、どのような姿勢や動きの人体が含まれているのか、容易に把握することができる。結果、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題が解決される。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
 検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段と、
 いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定する特定手段と、
 前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置。
2. 前記特定手段は、いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も前記第1の閾値未満である人体の中の、いずれの前記テンプレート画像が示す人体の姿勢又は動きとも第1の類似条件を満たさない人体が写る前記画像内の箇所を特定する1に記載の画像処理装置。
3. 前記第1の類似条件は、前記類似度が第2の閾値以上かつ前記第1の閾値未満であること、を含む2に記載の画像処理装置。
4. 前記第1の類似条件は、各人体から検出される複数の前記キーポイントの中の一部の前記キーポイントに基づき算出された前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度が第3の閾値以上であること、を含む2又は3に記載の画像処理装置。
5. 前記第1の類似条件は、各人体から検出される複数の前記キーポイント各々に付与された重み付け値を考慮して算出された前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度が第4の閾値以上であること、を含む2から4のいずれかに記載の画像処理装置。
6. 前記画像及び前記テンプレート画像は動画像であり、前記動画像に含まれる複数のテンプレート画像各々が示す人体の姿勢の時間変化により人体の動きが示されており、
 前記第1の類似条件は、前記テンプレート画像に含まれる複数のフレーム画像の中の所定割合以上の前記フレーム画像各々が示す人体の姿勢との類似度が第5の閾値以上である姿勢の人体各々を示す複数のフレーム画像を含むこと、である2から5のいずれかに記載の画像処理装置。
7. 前記特定された箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けするグループ化手段をさらに有し、
 前記出力手段は、前記グループ分けの結果をさらに出力する、
1から6のいずれかに記載の画像処理装置。
8. コンピュータが、
  画像に含まれる人体のキーポイントを検出する処理を行い、
  検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出し、
  いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定し、
  前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する、
画像処理方法。
9. コンピュータを、
  画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
  検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段、
  いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定する特定手段、
  前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラム。
 10  画像処理装置
 11  骨格構造検出部
 12  類似度算出部
 13  特定部
 14  出力部
 15  グループ化部
 1A  プロセッサ
 2A  メモリ
 3A  入出力I/F
 4A  周辺回路
 5A  バス

Claims (9)

  1.  画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
     検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段と、
     いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定する特定手段と、
     前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段と、
    を有する画像処理装置。
  2.  前記特定手段は、いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も前記第1の閾値未満である人体の中の、いずれの前記テンプレート画像が示す人体の姿勢又は動きとも第1の類似条件を満たさない人体が写る前記画像内の箇所を特定する請求項1に記載の画像処理装置。
  3.  前記第1の類似条件は、前記類似度が第2の閾値以上かつ前記第1の閾値未満であること、を含む請求項2に記載の画像処理装置。
  4.  前記第1の類似条件は、各人体から検出される複数の前記キーポイントの中の一部の前記キーポイントに基づき算出された前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度が第3の閾値以上であること、を含む請求項2又は3に記載の画像処理装置。
  5.  前記第1の類似条件は、各人体から検出される複数の前記キーポイント各々に付与された重み付け値を考慮して算出された前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度が第4の閾値以上であること、を含む請求項2から4のいずれか1項に記載の画像処理装置。
  6.  前記画像及び前記テンプレート画像は動画像であり、前記動画像に含まれる複数のテンプレート画像各々が示す人体の姿勢の時間変化により人体の動きが示されており、
     前記第1の類似条件は、前記テンプレート画像に含まれる複数のフレーム画像の中の所定割合以上の前記フレーム画像各々が示す人体の姿勢との類似度が第5の閾値以上である姿勢の人体各々を示す複数のフレーム画像を含むこと、である請求項2から5のいずれか1項に記載の画像処理装置。
  7.  前記特定された箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けするグループ化手段をさらに有し、
     前記出力手段は、前記グループ分けの結果をさらに出力する、
    請求項1から6のいずれか1項に記載の画像処理装置。
  8.  コンピュータが、
      画像に含まれる人体のキーポイントを検出する処理を行い、
      検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出し、
      いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定し、
      前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する、
    画像処理方法。
  9.  コンピュータを、
      画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
      検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段、
      いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第1の閾値未満である人体が写る前記画像内の箇所を特定する特定手段、
      前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段、
    として機能させるプログラム。
PCT/JP2022/005689 2022-02-14 2022-02-14 画像処理装置、画像処理方法、およびプログラム WO2023152974A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/005689 WO2023152974A1 (ja) 2022-02-14 2022-02-14 画像処理装置、画像処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/005689 WO2023152974A1 (ja) 2022-02-14 2022-02-14 画像処理装置、画像処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023152974A1 true WO2023152974A1 (ja) 2023-08-17

Family

ID=87563985

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/005689 WO2023152974A1 (ja) 2022-02-14 2022-02-14 画像処理装置、画像処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023152974A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097610A (ja) * 2011-11-01 2013-05-20 Canon Inc 情報処理装置、及びその制御方法
JP2013229394A (ja) * 2012-04-24 2013-11-07 Hitachi High-Technologies Corp パターンマッチング方法及び装置
WO2015186436A1 (ja) * 2014-06-06 2015-12-10 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
JP2016081286A (ja) * 2014-10-16 2016-05-16 株式会社東芝 端末操作支援装置および端末操作支援方法
JP2021520016A (ja) * 2018-11-01 2021-08-12 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド データベース更新方法及び装置、電子機器、並びにコンピュータ記憶媒体
JP2021530815A (ja) * 2018-07-27 2021-11-11 マジック リープ, インコーポレイテッドMagic Leap, Inc. 仮想キャラクタの姿勢空間変形のための姿勢空間次元低減

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097610A (ja) * 2011-11-01 2013-05-20 Canon Inc 情報処理装置、及びその制御方法
JP2013229394A (ja) * 2012-04-24 2013-11-07 Hitachi High-Technologies Corp パターンマッチング方法及び装置
WO2015186436A1 (ja) * 2014-06-06 2015-12-10 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
JP2016081286A (ja) * 2014-10-16 2016-05-16 株式会社東芝 端末操作支援装置および端末操作支援方法
JP2021530815A (ja) * 2018-07-27 2021-11-11 マジック リープ, インコーポレイテッドMagic Leap, Inc. 仮想キャラクタの姿勢空間変形のための姿勢空間次元低減
JP2021520016A (ja) * 2018-11-01 2021-08-12 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド データベース更新方法及び装置、電子機器、並びにコンピュータ記憶媒体

Similar Documents

Publication Publication Date Title
Khraief et al. Elderly fall detection based on multi-stream deep convolutional networks
US20100033574A1 (en) Method and System for Object Surveillance and Real Time Activity Recognition
EP4053791A1 (en) Image processing device, image processing method, and non-transitory computer-readable medium having image processing program stored thereon
JP5290227B2 (ja) 対象物検知装置及びその学習装置
WO2022009301A1 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2021250808A1 (ja) 画像処理装置、画像処理方法、及びプログラム
Folgado et al. A block-based model for monitoring of human activity
WO2021229751A1 (ja) 画像選択装置、画像選択方法、およびプログラム
JP7435781B2 (ja) 画像選択装置、画像選択方法、及びプログラム
WO2023152974A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2022079794A1 (ja) 画像選択装置、画像選択方法、及びプログラム
WO2023152977A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2022009279A1 (ja) 画像選択装置、画像選択方法、及びプログラム
WO2023152971A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP6308011B2 (ja) 同一対象検出装置、同一対象検出方法、及び同一対象検出プログラム
JP7468642B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7302741B2 (ja) 画像選択装置、画像選択方法、およびプログラム
JP7364077B2 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2022003854A1 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7485040B2 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2023152973A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2022249278A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2023089690A1 (ja) 検索装置、検索方法、およびプログラム
JP7375921B2 (ja) 画像分類装置、画像分類方法、およびプログラム
WO2022249331A1 (ja) 画像処理装置、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22925993

Country of ref document: EP

Kind code of ref document: A1