WO2023152973A1 - 画像処理装置、画像処理方法、およびプログラム - Google Patents

画像処理装置、画像処理方法、およびプログラム Download PDF

Info

Publication number
WO2023152973A1
WO2023152973A1 PCT/JP2022/005682 JP2022005682W WO2023152973A1 WO 2023152973 A1 WO2023152973 A1 WO 2023152973A1 JP 2022005682 W JP2022005682 W JP 2022005682W WO 2023152973 A1 WO2023152973 A1 WO 2023152973A1
Authority
WO
WIPO (PCT)
Prior art keywords
quality value
human body
image
detected
cameras
Prior art date
Application number
PCT/JP2022/005682
Other languages
English (en)
French (fr)
Inventor
諒 川合
登 吉田
健全 劉
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/005682 priority Critical patent/WO2023152973A1/ja
Publication of WO2023152973A1 publication Critical patent/WO2023152973A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to an image processing device, an image processing method, and a program.
  • Patent Documents 1 to 4 disclose Technologies related to the present invention.
  • Japanese Patent Laid-Open No. 2002-200000 describes a method of calculating a feature amount for each of a plurality of key points of a human body included in an image, and retrieving an image containing a human body with a similar posture or a similar movement based on the calculated feature amount. Techniques for grouping and classifying objects having similar postures and movements are disclosed. In addition, Non-Patent Document 1 discloses a technique related to human skeleton estimation.
  • Patent Document 2 discloses a technique for extracting skeletal points (joint positions) from each image captured by a plurality of cameras, and pairing the skeletal points representing the same joint positions of the same person extracted from the plurality of images. is disclosed.
  • Patent Document 3 discloses a technique for photographing the same subject from multiple directions with multiple cameras.
  • skeleton points corresponding to an object to be detected are extracted from an image, and the number of extracted skeleton points whose reliability is equal to or higher than a threshold is equal to or higher than the threshold.
  • the target is an object to be detected.
  • Patent Document 1 by registering an image including a human body in a desired posture and desired movement as a template image in advance, a desired posture and a desired motion can be obtained from images to be processed. The movement of the human body can be detected.
  • the inventors of the present invention have found that the accuracy of detection deteriorates unless an image of a certain quality is registered as a template image, and that such a template image We have newly found that there is room for improvement in the workability of the work of preparing the.
  • Patent Documents 1 to 4 and Non-Patent Document 1 disclose the problems related to the template image and the means for solving the problems, so there was a problem that the above problems could not be solved.
  • One example of the object of the present invention is to provide an image processing device, an image processing method, and a program that solve the workability problem of preparing a template image of a certain quality in view of the above-mentioned problems.
  • skeletal structure detection means for detecting key points of a human body included in each of a plurality of images generated by photographing the same location with a plurality of cameras; identifying means for identifying the same human body included in the plurality of images generated by the plurality of cameras; quality value calculation means for calculating quality values of the key points detected from the plurality of images generated by the plurality of cameras for each human body; an output means for outputting information indicating a portion where the human body whose quality value is equal to or greater than a threshold value is captured, or a partial image obtained by cutting out the portion from the image; is provided.
  • one or more computers Perform processing to detect key points of the human body contained in each of multiple images generated by shooting the same place with multiple cameras, identifying the same human body included in the plurality of images generated by the plurality of cameras; calculating quality values of the key points detected from the plurality of images generated by the plurality of cameras for each human body; outputting information indicating a location where the human body whose quality value is equal to or higher than a threshold is captured, or a partial image obtained by cutting out the location from the image; An image processing method is provided.
  • the computer Skeletal structure detection means for detecting key points of a human body included in each of a plurality of images generated by photographing the same location with a plurality of cameras; identifying means for identifying the same human body included in the plurality of images generated by the plurality of cameras; quality value calculation means for calculating quality values of the key points detected from the plurality of images generated by the plurality of cameras for each human body; output means for outputting information indicating a portion where a human body is captured, the quality value of which is equal to or greater than a threshold, or a partial image obtained by cutting out the portion from the image;
  • a program is provided to act as a
  • an image processing device an image processing method, and a program that solve the workability problem of preparing a template image of constant quality are obtained.
  • FIG. 10 is a diagram for explaining an example of processing for calculating quality values from a plurality of still images;
  • FIG. 10 is a diagram for explaining an example of processing for calculating quality values from a plurality of moving images;
  • FIG. 10 is a diagram for explaining an example of processing for calculating quality values from a plurality of moving images;
  • FIG. 4 is a diagram schematically showing an example of information output by an image processing device; 4 is a flow chart showing an example of the flow of processing of the image processing apparatus; It is a figure for demonstrating the effect of an image processing apparatus. It is a figure for demonstrating the effect of an image processing apparatus.
  • FIG. 5 is a diagram for explaining an example of processing for calculating partial quality values from a plurality of still images and calculating quality values;
  • FIG. 10 is a diagram for explaining an example of processing for calculating partial quality values from a plurality of moving images and calculating quality values;
  • FIG. 1 is a functional block diagram showing an overview of an image processing apparatus 10 according to the first embodiment.
  • the image processing apparatus 10 includes a skeleton structure detection unit 11, a specification unit 12, a quality value calculation unit 13, and an output unit .
  • the skeletal structure detection unit 11 performs processing for detecting key points of the human body included in each of a plurality of images generated by photographing the same place with a plurality of cameras.
  • the identifying unit 12 identifies the same human body included in multiple images generated by multiple cameras.
  • the quality value calculation unit 13 calculates quality values of key points detected from a plurality of images generated by a plurality of cameras for each human body.
  • the output unit 14 outputs information indicating a portion in which a human body whose quality value is equal to or greater than a threshold value is captured, or a partial image obtained by cutting out the portion from the image.
  • this image processing apparatus 10 it is possible to solve the workability problem of preparing a template image of a certain quality.
  • the image processing apparatus 10 detects key points of a human body included in each of a plurality of images generated by photographing the same place with a plurality of cameras. Next, when the image processing apparatus 10 identifies the same human body included in the plurality of images generated by the plurality of cameras, the image processing apparatus 10 identifies key points detected from each of the plurality of images generated by the plurality of cameras for each human body. Calculate the quality value of the detected keypoints based on the sum of the numbers. Then, the image processing apparatus 10 outputs information indicating a portion in which a human body whose quality value is equal to or higher than the threshold value is captured, or a partial image obtained by cutting out the portion from the image.
  • the user can prepare a template image of a certain quality by selecting the template image from the parts in which the human body is photographed and whose quality value is equal to or higher than the threshold.
  • the image processing device 10 may be communicably connected to the plurality of cameras.
  • Each functional unit of the image processing apparatus 10 includes a CPU (Central Processing Unit) of any computer, a memory, a program loaded into the memory, a storage unit such as a hard disk for storing the program (previously stored from the stage of shipping the apparatus).
  • Programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet can also be stored), realized by any combination of hardware and software centering on the interface for network connection be done. It should be understood by those skilled in the art that there are various modifications to the implementation method and apparatus.
  • FIG. 2 is a block diagram illustrating the hardware configuration of the image processing device 10.
  • the image processing apparatus 10 has a processor 1A, a memory 2A, an input/output interface 3A, a peripheral circuit 4A and a bus 5A.
  • the peripheral circuit 4A includes various modules.
  • the image processing device 10 may not have the peripheral circuit 4A.
  • the image processing apparatus 10 may be composed of a plurality of physically and/or logically separated devices. In this case, each of the plurality of devices can have the above hardware configuration.
  • the bus 5A is a data transmission path for mutually transmitting and receiving data between the processor 1A, the memory 2A, the peripheral circuit 4A and the input/output interface 3A.
  • the processor 1A is, for example, an arithmetic processing device such as a CPU or a GPU (Graphics Processing Unit).
  • the memory 2A is, for example, RAM (Random Access Memory) or ROM (Read Only Memory).
  • the input/output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, a camera, etc., an interface for outputting information to an output device, an external device, an external server, etc. .
  • Input devices are, for example, keyboards, mice, microphones, physical buttons, touch panels, and the like.
  • the output device is, for example, a display, speaker, printer, mailer, or the like.
  • the processor 1A can issue commands to each module and perform calculations based on the calculation results thereof.
  • FIG. 1 is a functional block diagram showing an overview of an image processing apparatus 10 according to the second embodiment.
  • the image processing apparatus 10 includes a skeleton structure detection unit 11, a specification unit 12, a quality value calculation unit 13, and an output unit .
  • the skeletal structure detection unit 11 performs processing to detect key points of the human body included in each of a plurality of images generated by photographing the same place with a plurality of cameras (two or more cameras).
  • the shooting location may be inside a vehicle such as a bus or train, inside a building or near an entrance, or inside an outdoor facility such as a park or near an entrance. Alternatively, it may be outdoors such as at an intersection.
  • Image is the original image of the template image.
  • a template image is an image that is registered in advance in the technology disclosed in Patent Document 1 described above, and is an image that includes a human body in a desired posture and desired movement (posture and movement that the user wants to detect).
  • the image may be a moving image composed of a plurality of frame images, or may be a single still image.
  • the skeletal structure detection unit 11 detects N (N is an integer equal to or greater than 2) keypoints of the human body included in the image. When moving images are to be processed, the skeletal structure detection unit 11 performs processing to detect key points for each frame image.
  • the processing by the skeletal structure detection unit 11 is realized using the technique disclosed in Japanese Patent Application Laid-Open No. 2002-200012. Although the details are omitted, the technique disclosed in Patent Document 1 detects the skeleton structure using the skeleton estimation technique such as OpenPose disclosed in Non-Patent Document 1.
  • the skeletal structure detected by this technique consists of "keypoints", which are characteristic points such as joints, and "bones (bone links)", which indicate links between keypoints.
  • FIG. 3 shows the skeletal structure of the human body model 300 detected by the skeletal structure detection unit 11, and FIGS. 4 and 5 show detection examples of the skeletal structure.
  • the skeletal structure detection unit 11 detects the skeletal structure of a human body model (two-dimensional skeletal model) 300 as shown in FIG.
  • the human body model 300 is a two-dimensional model composed of key points such as human joints and bones connecting the key points.
  • the skeletal structure detection unit 11 extracts feature points that can be keypoints from the image, refers to information obtained by machine learning the image of the keypoints, and detects N keypoints of the human body.
  • the N keypoints to detect are predetermined.
  • the number of keypoints to be detected that is, the number of N
  • which parts of the human body are to be detected as keypoints are various, and all variations can be adopted.
  • head A1, neck A2, right shoulder A31, left shoulder A32, right elbow A41, left elbow A42, right hand A51, left hand A52, right hip A61, left hip A62, right knee A71, left Assume that the knee A72, the right foot A81, and the left foot A82 are defined as N keypoints (N 14) to be detected.
  • the human bones connecting these key points are bone B1 connecting head A1 and neck A2, bone B21 and bone B22 connecting neck A2 and right shoulder A31 and left shoulder A32, respectively.
  • FIG. 4 is an example of detecting a person standing upright.
  • an upright person is imaged from the front, and bones B1, B51 and B52, B61 and B62, and B71 and B72 viewed from the front are detected without overlapping each other.
  • the bones B61 and B71 are slightly more bent than the left leg bones B62 and B72.
  • Fig. 5 is an example of detecting a crouching person.
  • a crouching person is imaged from the right side, and bones B1, B51 and B52, B61 and B62, and B71 and B72 are detected from the right side, and the right leg bone B61 is detected. And the bone B71 and the bones B62 and B72 of the left leg are greatly bent and overlapped.
  • the identifying unit 12 identifies the same human body included in multiple images generated by multiple cameras.
  • the same human body is the human body of the same person.
  • a plurality of images generated by a plurality of cameras are generated by simultaneously photographing the same location with a plurality of cameras. Therefore, the same person may appear across multiple images.
  • the same human body captured across multiple frame images in one moving image is specified by the same method as above or in combination with human tracking technology. be able to.
  • the quality value calculation unit 13 calculates quality values of key points detected from multiple images generated by multiple cameras for each human body. The quality value calculation unit 13 also determines whether the quality value of the detected keypoint is equal to or greater than the threshold for each detected human body. Then, the quality value calculation unit 13 identifies a portion in the image in which the human body is captured, in which the quality value of the detected keypoint is equal to or greater than the threshold value, according to the determination result.
  • the quality value calculator 13 calculates a quality value for each human body. For example, when the human body of person A appears in the first image and the second image, the quality value calculation unit 13 calculates the human body of person A in the first image and the human body in the second image. One quality value corresponding to the human body of the person A is calculated instead of calculating the quality value separately for the human body of the person A.
  • the quality value of the human body of person A is calculated based on a plurality of still images.
  • the quality value calculation unit 13 selects a plurality of frame images taken at the same timing among the plurality of moving images based on the time stamps attached to the moving image. identify. Then, the quality value calculator 13 calculates the quality value for each combination of a plurality of frame images captured at the same timing.
  • “Quality value of detected keypoint” is a value that indicates how good the quality of the detected keypoint is, and can be calculated based on various data.
  • the quality value calculator 13 calculates the quality value based on the sum of the number of keypoints detected from each of the images.
  • the quality value calculation unit 13 calculates a higher quality value as the sum of the number of keypoints detected from each of the plurality of images increases.
  • the quality value calculation unit 13 may set a value obtained by summing the number of keypoints detected from each of a plurality of images as a quality value, or a value obtained by normalizing the summed value according to a predetermined rule. It may be calculated as a value.
  • K 1 K 1 is an integer less than or equal to N
  • K 2 K 2 keypoints are detected from the human body of person A appearing in the second image
  • ( K2 is an integer less than or equal to N) keypoints are detected.
  • the quality value calculator 13 calculates the quality value of the keypoint detected from the human body of person A based on (K 1 +K 2 ).
  • the quality value calculation unit 13 identifies a portion in the image in which the human body is captured, where the quality value of the detected keypoint is equal to or greater than the threshold value, based on the calculation result of the process of calculating the quality value described above.
  • the quality value calculator 13 determines whether the quality value of the detected keypoint is equal to or greater than a threshold for each detected human body. Then, the quality value calculation unit 13 identifies a portion in which a human body whose quality value is equal to or higher than the threshold value is captured according to the determination result.
  • the "portion where the human body whose quality value is greater than or equal to the threshold" is a partial area within one still image.
  • the position in the image where the quality value of the detected keypoint is equal to or greater than the threshold is indicated by the coordinates of the coordinate system set for the still image.
  • the "portion where the human body is captured and whose quality value is equal to or greater than the threshold" is a partial area within each of the plurality of frame images that constitute the moving image.
  • the "portion where the human body is captured and whose quality value is equal to or greater than the threshold" is a partial area within each of the plurality of frame images that constitute the moving image.
  • information indicating a partial frame image among a plurality of frame images (frame identification information, elapsed time from the beginning, etc.) and the coordinates of the coordinate system set for the frame image. , points in the image where the human body is shown where the quality value of the detected keypoint is equal to or greater than the threshold.
  • the image is a moving image
  • the condition that "the human body of the same person is continuously captured and that the quality value of the keypoint detected from the human body is equal to or greater than the threshold value" is satisfied. It is preferable to specify "the place where the human body is photographed”.
  • the identifying unit 12 can identify the human body of the same person appearing across a plurality of frame images.
  • the quality value calculation unit 13 can identify a plurality of frame images in which the human body of the same person is continuously captured based on the result of the identification.
  • This condition may require that all of the identified multiple frame images satisfy the condition. That is, in the plurality of frame images specified by the quality value calculation unit 13, the human body of the same person is continuously captured, and the quality value of the keypoint detected from the human body in all the frame images is equal to or greater than the threshold. It may be
  • the above conditions may require that at least some of the specified frame images satisfy the above conditions. That is, in the plurality of frame images specified by the quality value calculation unit 13, the human body of the same person is continuously captured, and the quality values of the key points detected from the human body in at least some of the frame images are It may be greater than or equal to the threshold.
  • ⁇ the number of consecutive frame images in which a human body is captured for which the quality value is less than the threshold is Q or less'' or the like may be added. . By adding such an additional condition, it is possible to suppress the inconvenience that a human body with a low quality value appears continuously for a predetermined number of frames or more in the plurality of frame images specified by the quality value calculation unit 13 .
  • the output unit 14 outputs information indicating a location where a human body whose quality value is greater than or equal to a threshold (a human body whose quality value of a detected keypoint is greater than or equal to a threshold) is captured, or a partial image obtained by extracting the location from the image. do.
  • the output unit 14 outputs a plurality of frame images that continuously show the human body of the same person and satisfy the condition that "the quality value of the keypoint detected from the human body is equal to or greater than the threshold".
  • Information indicating the location where the human body appears in each image, or a partial image obtained by cutting out the location from the image may be output.
  • the image processing device 10 can have a processing unit that generates a partial image by cutting out a part of the image in which a human body whose quality value is equal to or higher than a threshold value is captured.
  • the output unit 14 can output the partial image generated by the processing unit.
  • the output unit 14 may link partial images cut out from each of a plurality of images generated by a plurality of cameras and output the partial images relating to the same human body.
  • the output unit 14 may output information indicating locations in which a human body whose quality value is equal to or higher than a threshold value in each of a plurality of images generated by a plurality of cameras are associated with each other and output.
  • the output unit 14 may output information indicating that the image includes a human body whose quality value is equal to or higher than the threshold.
  • the above-mentioned "places in the image where the quality value is above the threshold and where the human body appears" are candidates for the template image.
  • the user browses the locations where the human body whose quality value is equal to or higher than the threshold value is displayed, and selects the location including the human body with the desired posture and desired movement as a template image. be able to.
  • FIG. 8 An example of information output by the output unit 14 is schematically shown in FIG.
  • human body identification information for mutually identifying a plurality of detected human bodies and attribute information of each human body are displayed in association with each other.
  • the attribute information the quality value, the number of detected keypoints, information indicating the location in the image (information indicating the location in which the human body is shown), and the shooting date and time of the image are displayed.
  • the number of detected keypoints is a value obtained by summing the number of keypoints detected from each of a plurality of images.
  • Attribute information also includes information indicating the installation position (shooting position) of the camera that shot the image (e.g., the back of the bus No. 102, the entrance to XX park, etc.), and the attribute information of the person calculated by image analysis (e.g., : sex, age group, body type, etc.) may be included.
  • the image processing device 10 When the image processing device 10 acquires a plurality of images generated by photographing the same place with a plurality of cameras (S10), it performs processing to detect key points of the human body included in each of the plurality of images (S11). Next, the image processing device 10 identifies the same human body included in the multiple images generated by the multiple cameras (S12). The processing order of S11 and S12 may be reversed, or these two processing may be performed in parallel.
  • the image processing apparatus 10 calculates quality values of keypoints detected from a plurality of images generated by a plurality of cameras for each human body (S13). In the second embodiment, the image processing apparatus 10 calculates the quality value based on the sum of the number of keypoints detected from each of multiple images generated by multiple cameras. The image processing apparatus 10 calculates a higher quality value as the added value is higher.
  • the image processing device 10 determines whether the quality value of the keypoint detected for each human body is equal to or greater than the threshold (S14).
  • the image processing apparatus 10 identifies a portion in the image in which a human body is captured, where the quality value of the detected keypoint is equal to or greater than the threshold value, according to the determination result of S14 (S15).
  • the image processing apparatus 10 outputs information indicating a portion in which a human body whose quality value is equal to or higher than the threshold value is captured, or a partial image obtained by cutting out the portion from the image (S16).
  • the image processing apparatus 10 may link partial images cut out from each of a plurality of images generated by a plurality of cameras and output the partial images relating to the same human body.
  • the image processing apparatus 10 may output information indicating locations in which a human body whose quality value is equal to or higher than a threshold value in each of a plurality of images generated by a plurality of cameras are linked to each other with respect to the same human body. good.
  • some key points of the human body P may not be detected because they are hidden behind an obstacle Q or another part of the human body P itself.
  • An image of a human body in which many key points are not detected is not preferable as a template image.
  • the feature amount of the keypoint detected from the other image is used to compensate for the shortage. can be done.
  • only one image is not preferable as a template image, but a combination of a plurality of images taken at the same timing may be preferable as a template image.
  • the quality values of key points detected from a plurality of images generated by a plurality of cameras are calculated for each human body, and template image candidates are selected based on the quality values. It is possible to select an image of a human body, which is preferable as a template image when combining a plurality of images taken at the same timing as described above, as a template image candidate.
  • the image processing apparatus 10 of the third embodiment differs from those of the first and second embodiments in the method of calculating the quality value.
  • the quality value calculation unit 13 calculates the number of keypoints detected in at least one of the plurality of images generated by the plurality of cameras among the plurality of keypoints to be detected (N keypoints described above), Alternatively, the quality value is calculated based on the number of keypoints that are not detected in any of the images generated by the cameras among the keypoints to be detected.
  • the quality value calculation unit 13 calculates a higher quality value as the number of keypoints detected in at least one of the plurality of images generated by the plurality of cameras among the plurality of keypoints to be detected is larger.
  • the quality value calculation unit 13 may set the number of keypoints detected in at least one of the plurality of images generated by the plurality of cameras among the plurality of keypoints to be detected as the quality value, A value obtained by normalizing the number according to a predetermined rule may be calculated as the quality value.
  • the quality value calculation unit 13 calculates a higher quality value as the number of keypoints that are not detected in any of the plurality of images generated by the plurality of cameras among the plurality of keypoints to be detected is smaller. do. For example, the quality value calculation unit 13 subtracts the number of keypoints that are not detected in any of the plurality of images generated by the plurality of cameras among the plurality of keypoints to be detected, from a predetermined value. may be used as the quality value, or a value obtained by normalizing the number according to a predetermined rule may be calculated as the quality value.
  • the above quality value will be explained using a specific example.
  • two images (first and second images) generated by two cameras of the same location are processed.
  • the plurality of key points to be detected are C 1 to C 5 .
  • keypoints C1 to C3 are detected from the first image and keypoints C2 to C4 are detected from the second image.
  • the keypoints detected in at least one of the plurality of images generated by the plurality of cameras among the plurality of keypoints to be detected are the keypoints C1 to C4 , the number of which is "4 ”.
  • a keypoint that is not detected in any of the plurality of images generated by the plurality of cameras is keypoint C5 , and its number is "1".
  • the quality value calculator 13 calculates the quality value of the key points detected from the human body based on such numbers.
  • the quality value calculation unit 13 uses the method described in the second embodiment and at least one of the plurality of images generated by the plurality of cameras among the plurality of key points to be detected.
  • a quality value is calculated using a combination of techniques based on the number of keypoints or the number of keypoints not detected in any of the images generated by the cameras among the keypoints to be detected.
  • the quality value calculation unit 13 normalizes the quality value calculated by the method described in the second embodiment according to a predetermined rule to calculate a first quality value, and calculates a plurality of key points to be detected. or the number of keypoints detected in at least one of the images generated by the cameras in the target detection target, or the images generated by the cameras in the keypoints to be detected.
  • the second quality value is calculated by normalizing the quality value calculated by the method based on the number of keypoints not detected in the above according to a predetermined rule. Then, the quality value calculation unit 13 calculates the statistical values (average value, maximum value, minimum value, median value, mode value, weighted average value, etc.) of the first quality value and the second quality value to determine the quality of the human body. It may be calculated as a value.
  • the image processing apparatus 10 of the third embodiment effects similar to those of the first and second embodiments are achieved. Further, according to the image processing apparatus 10 of the third embodiment, at least one of the N keypoints to be detected in the image has a large number of detected keypoints, and a portion of the template image in which a human body appears. Can be presented to the user as a candidate. By selecting a template image from among the template image candidates presented in this way, the user can easily prepare a template image that satisfies a certain quality in terms of the number of keypoints detected in at least one image. can be done.
  • the image processing apparatus 10 of the fourth embodiment differs from those of the first to third embodiments in the method of calculating the quality value.
  • the quality value calculation unit 13 calculates, for each image, partial quality values of key points detected from each of a plurality of images generated by a plurality of cameras, integrates the partial quality values for each image, and calculates quality for each human body. Calculate the value.
  • the quality value calculator 13 calculates a partial quality value for each human body detected from each of the plurality of images. Then, the quality value calculation unit 13 integrates the partial quality values of the human body of the same person and calculates the quality value of the human body of that person.
  • the quality value calculation unit 13 selects a plurality of frame images shot at the same timing from among the plurality of moving images based on the time stamps attached to the moving image. Identify. Then, the quality value calculation unit 13 integrates the partial quality values of the human body of the same person detected from each of the plurality of frame images for each combination of a plurality of frame images shot at the same timing, and to calculate the quality value of the human body.
  • the "partial quality value of the detected keypoint" is a value indicating how good the quality of the detected keypoint is, and can be calculated based on various data.
  • the quality value calculator 13 calculates the partial quality value based on the certainty of the keypoint detection result.
  • a method for calculating the certainty is not particularly limited. For example, in a skeleton estimation technique such as OpenPose, a score output in association with each detected keypoint may be used as the certainty of each keypoint.
  • the quality value calculation unit 13 calculates a higher partial quality value as the degree of certainty of the keypoint detection result is higher. For example, the quality value calculation unit 13 calculates the statistic values (mean value, maximum value, minimum value, median value, mode value, weighted average value, etc.) of the confidence of each of the N keypoints detected from the human body. It may be calculated as a partial quality value of the human body. If some of the N keypoints are not detected, the confidence of the undetected keypoints may be a fixed value such as "0". This fixed value is lower than the certainty of the detected keypoint.
  • the quality value calculation unit 13 calculates a higher partial quality value as the degree of certainty of the keypoint detection result is higher. For example, the quality value calculation unit 13 calculates the statistic values (mean value, maximum value, minimum value, median value, mode value, weighted average value, etc.) of the confidence of each of the N keypoints detected from the human body. It may be calculated as a partial quality value of the human body. If some of the N
  • the quality value calculation unit 13 calculates a partial quality value for each human body detected from the still image.
  • the quality value calculator 13 calculates a partial quality value for each human body detected from each of the plurality of frame images.
  • the quality value calculator 13 calculates statistical values (mean value, maximum value, minimum value, median value, mode value, weighted average value) can be calculated as the quality value of the human body.
  • the quality value calculation unit 13 may calculate the quality value by combining at least one of the methods described in the second and third embodiments and a method based on the degree of certainty of the keypoint detection result. For example, the quality value calculation unit 13 normalizes the quality value calculated by the method described in the second embodiment according to a predetermined rule to calculate the first quality value, and the process described in the third embodiment. At least one of processing for calculating a second quality value by normalizing the quality value calculated by the method according to a predetermined rule is performed. Further, the quality value calculation unit 13 normalizes the quality value calculated by the method based on the degree of certainty of the keypoint detection result according to a predetermined rule to calculate a third quality value.
  • the quality value calculation unit 13 calculates at least one of the first and second quality values and statistical values of the third quality value (average value, maximum value, minimum value, median value, mode value, weighted average value etc.) may be calculated as the quality value of the human body.
  • the image processing apparatus 10 of the fourth embodiment effects similar to those of the first to third embodiments are achieved.
  • the image processing apparatus 10 of the fifth embodiment differs from the first to fourth embodiments in the method of calculating the quality value.
  • the quality value calculation unit 13 calculates, for each image, partial quality values of key points detected from each of a plurality of images generated by a plurality of cameras, integrates the partial quality values for each image, and calculates quality for each human body. Calculate the value. Then, the quality value calculation unit 13 calculates the partial quality value of the human body with a relatively large number of detected keypoints higher than the partial quality value of the human body with a relatively small number of detected keypoints. . For example, the quality value calculator 13 may use the number of detected keypoints as the partial quality value. In addition, a weighting point may be set for each of a plurality of keypoints. A higher weighting point is set for a relatively more important keypoint. Then, the quality value calculation unit 13 may calculate a value obtained by adding the weighting points of the detected key points as the partial quality value.
  • the quality value calculation unit 13 may calculate the quality value by combining at least one of the methods described in the second to fourth embodiments and the method based on the number of key points. For example, the quality value calculation unit 13 normalizes the quality value calculated by the method described in the second embodiment according to a predetermined rule to calculate the first quality value, or the method described in the third embodiment. A process for calculating a second quality value by normalizing the quality value calculated by a predetermined rule, and a third quality value by normalizing the quality value calculated by the method described in the fourth embodiment according to a predetermined rule At least one of the processes of calculating the value is performed.
  • the quality value calculation unit 13 normalizes the quality value calculated by the method based on the number of key points according to a predetermined rule to calculate a fourth quality value. Then, the quality value calculation unit 13 calculates at least one of the first to third quality values and statistical values of the fourth quality value (average value, maximum value, minimum value, median value, mode value, weighted average value etc.) may be calculated as the quality value of the human body.
  • the image processing apparatus 10 of the fifth embodiment effects similar to those of the first to fourth embodiments are achieved. Further, according to the image processing apparatus 10 of the fifth embodiment, it is possible to present to the user, as a template image candidate, a portion of the human body in which many key points are detected. The user can easily prepare a template image in which the number of detected keypoints satisfies a certain level of quality by selecting the template image from among the presented template image candidates.
  • the image processing apparatus 10 of the sixth embodiment differs from the first to fifth embodiments in the method of calculating the quality value.
  • the quality value calculation unit 13 calculates, for each image, partial quality values of key points detected from each of a plurality of images generated by a plurality of cameras, integrates the partial quality values for each image, and calculates quality for each human body. Calculate the value. Then, the quality value calculator 13 calculates a partial quality value based on the degree of overlap with other human bodies. Note that "a state in which the human body of person A overlaps that of person B" is a state in which the human body of person A is partially or wholly hidden by the human body of person B, and that the human body of person A overlaps the human body of person B. includes a state in which part or all of is hidden, and a state in which both occur. The calculation method will be specifically described below.
  • the quality value calculator 13 calculates the partial quality value of the human body that does not overlap with other human bodies to be higher than the partial quality value of the human body that overlaps with other human bodies. For example, a rule is created in advance and stored in the image processing apparatus 10, in which the partial quality value of a human body that does not overlap with other human bodies is set to X1 , and the partial quality value of a human body that overlaps with another human body is set to X2 . . Note that X 1 >X 2 . Based on the rules, the quality value calculation unit 13 calculates the partial quality value of the human body that does not overlap with other human bodies as X1 , and the partial quality value of the human body that overlaps with other human bodies as X2 . do.
  • Whether or not the human body overlaps with another human body may be identified based on the degree of overlap of the human body model 300 (see FIG. 3) detected by the skeletal structure detection unit 11, or may be identified based on the degree of overlap of the body captured in the image. may
  • the threshold may be a variable value that varies depending on the size of the detected human body in the image. The larger the size of the detected human body in the image, the larger the threshold.
  • the length of a predetermined bone eg, bone B1 connecting head A1 and neck A2 or the size of the face in the image may be used.
  • any bone of a certain human body intersects with any bone of another human body, it may be determined that the two human bodies overlap each other.
  • the quality value calculation unit 13 calculates the partial quality value of the human body that does not overlap with other human bodies to be higher than the partial quality value of the human body that overlaps with other human bodies, and calculates the partial quality value of the human body that overlaps with other human bodies. , the partial quality value of the human body located on the front side is calculated to be higher than the partial quality value of the human body located on the rear side.
  • the quality value calculation unit 13 calculates the highest partial quality value for the human body that does not overlap with other human bodies, and calculates the second highest partial quality value for the human body that overlaps with another human body but is positioned in front. , the lowest partial quality value is calculated for the human body that overlaps with the other human body and is located on the back side.
  • X1 be the partial quality value of the human body that does not overlap with other human bodies
  • X21 be the partial quality value of the human body that overlaps with the other human body and is located in the front
  • X21 is the partial quality value of the human body that overlaps the other human body and is located in the back.
  • a rule for the partial quality value X 22 of the human body is created in advance and stored in the image processing apparatus 10 .
  • X 1 >X 21 >X 22 .
  • the quality value calculation unit 13 calculates the partial quality value of the human body that does not overlap with the other human body as X1, and the partial quality value of the human body that overlaps with the other human body and is located on the front side is X1 .
  • X 21 is calculated
  • X 22 is calculated as the partial quality value of the human body positioned behind the other human body.
  • Whether the human body is positioned in front or behind the other human body may be specified based on the degree of hiding or lacking of the human body model 300 (see FIG. 3) detected by the skeletal structure detection unit 11, or may be determined based on the extent of the body in the image. It may be specified based on the degree of hiding. For example, if all N keypoints are detected in one of the two bodies overlapping each other, and only some of the N keypoints are detected in the other, then all N keypoints It can be determined that the detected human body is located on the front side and the other human body is located on the rear side.
  • the quality value calculation unit 13 may calculate the quality value by combining at least one of the methods described in the second to fifth embodiments and the method based on the degree of overlap of the human body. For example, the quality value calculation unit 13 normalizes the quality value calculated by the method described in the second embodiment according to a predetermined rule to calculate the first quality value, or the method described in the third embodiment. A second quality value is calculated by normalizing the quality value calculated in step 2 according to a predetermined rule, and a third quality value is obtained by normalizing the quality value calculated by the method described in the fourth embodiment according to a predetermined rule. and normalizing the quality value calculated by the method described in the fifth embodiment according to a predetermined rule to calculate a fourth quality value.
  • the quality value calculation unit 13 normalizes the quality value calculated by the method based on the overlapping degree of the human body according to a predetermined rule to calculate a fifth quality value. Then, the quality value calculation unit 13 calculates at least one of the first to fourth quality values and statistical values of the fifth quality value (average value, maximum value, minimum value, median value, mode value, weighted average value etc.) may be calculated as the quality value of the human body.
  • the image processing apparatus 10 of the sixth embodiment effects similar to those of the first to fifth embodiments are achieved. Further, according to the image processing apparatus 10 of the sixth embodiment, a portion where a human body is captured that does not overlap with another human body, and a portion where a human body that overlaps with another human body but is located on the front side is captured in the template image. Can be presented to the user as a candidate. By selecting a template image from among the template image candidates presented in this way, the user can easily prepare a template image that satisfies a certain quality in terms of the degree of overlap with other human bodies.
  • the image processing apparatus 10 of the seventh embodiment differs from the first to sixth embodiments in the method of calculating the quality value.
  • the skeletal structure detection unit 11 performs a process of detecting a human region within an image and detecting key points within the detected human region. That is, the skeletal structure detection unit 11 does not subject all regions in the image to the process of detecting keypoints, but subjects only the detected human region to the process of detecting keypoints.
  • the details of processing for detecting a person region in an image are not particularly limited, and may be implemented using object detection technology such as YOLO, for example.
  • the quality value calculation unit 13 calculates, for each image, partial quality values of key points detected from each of a plurality of images generated by a plurality of cameras, integrates the partial quality values for each image, and calculates quality for each human body. Calculate the value. Then, the quality value calculation unit 13 calculates a partial quality value based on the certainty of the human region detection result.
  • a score also referred to as reliability or the like
  • a score output in association with a detected object region may be used as the confidence of each person region.
  • the quality value calculation unit 13 calculates a higher partial quality value as the degree of certainty of the human region detection result is higher.
  • the quality value calculation unit 13 may calculate the certainty of the human region detection result as the partial quality value.
  • the quality value calculation unit 13 may calculate the quality value by combining at least one of the methods described in the second to sixth embodiments and a method based on the degree of certainty of the human region detection result. For example, the quality value calculation unit 13 normalizes the quality value calculated by the method described in the second embodiment according to a predetermined rule to calculate the first quality value, or the method described in the third embodiment. A second quality value is calculated by normalizing the quality value calculated in step 2 according to a predetermined rule, and a third quality value is obtained by normalizing the quality value calculated by the method described in the fourth embodiment according to a predetermined rule.
  • the process of calculating the fourth quality value by normalizing the quality value calculated by the method described in the fifth embodiment according to a predetermined rule and the method described in the sixth embodiment. At least one of processing for calculating a fifth quality value by normalizing the quality value according to a predetermined rule is performed. Further, the quality value calculation unit 13 normalizes the quality value calculated by the method based on the degree of certainty of the human region detection result according to a predetermined rule to calculate a sixth quality value. Then, the quality value calculation unit 13 calculates at least one of the first to fifth quality values and statistical values of the sixth quality value (average value, maximum value, minimum value, median value, mode value, weighted average value etc.) may be calculated as the quality value of the human body.
  • statistical values of the sixth quality value average value, maximum value, minimum value, median value, mode value, weighted average value etc.
  • the image processing apparatus 10 of the seventh embodiment effects similar to those of the first to sixth embodiments are achieved. Further, according to the image processing apparatus 10 of the seventh embodiment, it is possible to present to the user, as a template image candidate, a portion in which a person is captured with a high degree of certainty. By selecting a template image from among the template image candidates presented in this way, the user can easily prepare a template image that satisfies a certain level of quality in the human region detection result.
  • the image processing apparatus 10 of the eighth embodiment differs from the first to seventh embodiments in the method of calculating the quality value.
  • the quality value calculation unit 13 calculates, for each image, partial quality values of key points detected from each of a plurality of images generated by a plurality of cameras, integrates the partial quality values for each image, and calculates quality for each human body. Calculate the value. Then, the quality value calculator 13 calculates the partial quality value based on the size of the human body on the image. The quality value calculator 13 calculates a relatively large human body partial quality value higher than a relatively small human body partial quality value.
  • the size of the human body on the image may be indicated by the size (area, etc.) of the human region shown in the seventh embodiment, or by the length of a predetermined bone (eg, bone B1). Alternatively, it may be indicated by the length between two predetermined key points (eg, key points A31 and A32), or may be indicated by other methods.
  • the quality value calculation unit 13 may calculate the quality value by combining at least one of the methods described in the second to seventh embodiments and the method based on the size of the human body. For example, the quality value calculation unit 13 normalizes the quality value calculated by the method described in the second embodiment according to a predetermined rule to calculate the first quality value, or the method described in the third embodiment. A second quality value is calculated by normalizing the quality value calculated in step 2 according to a predetermined rule, and a third quality value is obtained by normalizing the quality value calculated by the method described in the fourth embodiment according to a predetermined rule.
  • a process of calculating a fourth quality value by normalizing the quality value calculated by the method described in the fifth embodiment according to a predetermined rule, and the quality calculated by the method described in the sixth embodiment A process of calculating a fifth quality value by normalizing the value according to a predetermined rule, and calculating a sixth quality value by normalizing the quality value calculated by the method described in the seventh embodiment according to a predetermined rule. At least one of the processes is performed. Further, the quality value calculation unit 13 normalizes the quality value calculated by the method based on the size of the human body according to a predetermined rule to calculate a seventh quality value.
  • the quality value calculation unit 13 calculates at least one of the first to sixth quality values and statistical values of the seventh quality value (average value, maximum value, minimum value, median value, mode value, weighted average value etc.) may be calculated as the quality value of the human body.
  • the image processing apparatus 10 of the eighth embodiment effects similar to those of the first to seventh embodiments are achieved. Further, according to the image processing apparatus 10 of the eighth embodiment, it is possible to present to the user, as a template image candidate, a part in which the human body appears to be somewhat large. The user can easily prepare a template image that satisfies a certain quality of the size of the human body by selecting the template image from among the presented template image candidates.
  • the image processing apparatus 10 of the ninth embodiment differs from those of the first to eighth embodiments in the process of selecting portions to be candidates for the template image.
  • the quality value calculation unit 13 identifies locations where the human body is captured, whose quality value is equal to or greater than the threshold and the number of keypoints detected from each of the multiple images generated by multiple cameras is equal to or greater than the lower limit. Then, the output unit 14 outputs information indicating a part of a human body whose quality value is equal to or higher than a threshold value and whose number of keypoints detected from each of a plurality of images generated by a plurality of cameras is equal to or higher than a lower limit value, Alternatively, a partial image obtained by cutting out the relevant portion from the image is output.
  • the image processing apparatus 10 of the ninth embodiment effects similar to those of the first to eighth embodiments are realized. Further, according to the image processing apparatus 10 of the ninth embodiment, if the above-described quality value is equal to or greater than the threshold value and keypoints equal to or greater than the lower limit value are detected in each of a plurality of images generated by a plurality of cameras, It is possible to present a user with a portion where a human body is shown as a template image candidate. By selecting a template image from among the template image candidates presented in this way, the user can determine that the above-described quality value is equal to or greater than the threshold and that the number of keypoints detected in each of the plurality of images is A template image that satisfies a certain quality can be easily prepared.
  • the output unit 14 outputs information indicating such a portion and a partial image obtained by cutting out such a portion from the image.
  • This configuration assumes that one frame image can include a plurality of human bodies.
  • the part where the human body whose quality value is equal to or higher than the threshold may be part of the plurality of frame images that make up the moving image. Then, the output unit 14 may output information indicating a portion of such a plurality of frame images, or a partial image obtained by cutting out a portion of the frame images from the image. Also, a frame image itself showing a human body whose quality value is equal to or higher than a threshold value may be output as a template image candidate. This configuration assumes that one frame image can include only one human body whose quality value is equal to or higher than the threshold.
  • skeletal structure detection means for detecting key points of a human body included in each of a plurality of images generated by photographing the same location with a plurality of cameras; identifying means for identifying the same human body included in the plurality of images generated by the plurality of cameras; quality value calculation means for calculating quality values of the key points detected from the plurality of images generated by the plurality of cameras for each human body; an output means for outputting information indicating a portion where the human body whose quality value is equal to or greater than a threshold value is captured, or a partial image obtained by cutting out the portion from the image; An image processing device having 2. 2.
  • the image processing apparatus calculates the quality value based on a value obtained by adding the number of the keypoints detected from each of the plurality of images generated by the plurality of cameras. . 3.
  • the quality value calculation means calculates the number of the keypoints detected in at least one of the plurality of images generated by the plurality of cameras among the plurality of keypoints to be detected, or the number of the keypoints to be detected. 3.
  • Image processing according to claim 1 or 2 wherein the quality value is calculated based on the number of the keypoints that are not detected in any of the plurality of images generated by the plurality of cameras among the plurality of keypoints.
  • Device 4.
  • the quality value calculation means calculates, for each image, partial quality values of the key points detected from each of the plurality of images generated by the plurality of cameras, and integrates the partial quality values for each of the images. 4.
  • the image processing device according to any one of 1 to 3, wherein the quality value is calculated by 5.
  • the image processing apparatus wherein the quality value calculation means calculates the partial quality value based on the certainty of the keypoint detection result.
  • the skeletal structure detection means detects a person region in the image, and performs a process of detecting the key point in the detected person region, 6.
  • the image processing apparatus according to any one of 4 to 6, wherein the quality value calculation means calculates the partial quality value based on a degree of overlap with another human body. 8. 8. The image processing apparatus according to 7, wherein the quality value calculation means calculates the partial quality value of a human body that does not overlap with another human body to be higher than the partial quality value of a human body that overlaps with another human body. 9. 9. The method according to 8, wherein the quality value calculation means calculates the partial quality value of a human body located on the front side among the human bodies overlapping other human bodies to be higher than the partial quality value of the human body located on the rear side. Image processing device. 10.
  • the quality value calculation means sets the partial quality value of a human body with a relatively large number of detected keypoints higher than the partial quality value of a human body with a relatively small number of detected keypoints. 10.
  • the image processing device according to any one of 4 to 9, which calculates. 11.
  • the image processing apparatus according to any one of 4 to 10, wherein the quality value calculation means calculates the partial quality value based on the size of the human body on the image. 12.
  • one or more computers Perform processing to detect key points of the human body contained in each of multiple images generated by shooting the same place with multiple cameras, identifying the same human body included in the plurality of images generated by the plurality of cameras; calculating quality values of the key points detected from the plurality of images generated by the plurality of cameras for each human body; outputting information indicating a location where the human body whose quality value is equal to or greater than a threshold is captured, or a partial image obtained by cutting out the location from the image; Image processing method. 13.
  • skeletal structure detection means for detecting key points of the human body included in each of a plurality of images generated by photographing the same location with a plurality of cameras; identifying means for identifying the same human body included in the plurality of images generated by the plurality of cameras; quality value calculation means for calculating quality values of the key points detected from the plurality of images generated by the plurality of cameras for each human body; output means for outputting information indicating a portion where the human body is captured, the quality value of which is equal to or greater than a threshold, or a partial image obtained by cutting out the portion from the image;
  • a program that acts as a

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出部(11)と、複数のカメラで生成された複数の画像に含まれる同一の人体を特定する特定部(12)と、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出する品質値算出部(13)と、品質値が閾値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する出力部(14)と、を有する画像処理装置(10)を提供する。

Description

画像処理装置、画像処理方法、およびプログラム
 本発明は、画像処理装置、画像処理方法、およびプログラムに関する。
 本発明に関連する技術が特許文献1乃至4及び非特許文献1に開示されている。
 特許文献1には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が開示されている。また、非特許文献1には、人物の骨格推定に関連する技術が開示されている。
 特許文献2には、複数のカメラで撮影された画像各々から骨格点(関節の位置)を抽出し、複数の画像から抽出された同一人物の同じ関節の位置を示す骨格点をペアにする技術が開示されている。
 特許文献3には、同一の被写体を複数の方向から複数のカメラで撮影する技術が開示されている。
 特許文献4には、検出対象の物体(例:人)に対応する骨格点を画像から抽出し、抽出された骨格点のうち信頼度が閾値以上である骨格点の個数が閾値以上である場合、その対象は検出対象の物体であると判定する技術が開示されている。
国際公開第2021/084677号 特開2019-102877号 特開2019-103067号 特開2021-56968号
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
 上述した特許文献1に開示の技術によれば、所望の姿勢や所望の動きの人体を含む画像を事前にテンプレート画像として登録しておくことで、処理対象の画像の中から所望の姿勢や所望の動きの人体を検出することができる。そして、本発明者は、このような特許文献1に開示の技術を検討した結果、一定の品質の画像をテンプレート画像として登録しなければ検出の精度が悪くなること、及び、そのようなテンプレート画像を用意する作業の作業性に改善の余地があることを新たに見出した。
 上述した特許文献1乃至4及び非特許文献1はいずれも、テンプレート画像に関する課題及びその解決手段を開示していないため、上記課題を解決できないという問題点があった。
 本発明の目的の一例は、上述した課題を鑑み、一定の品質のテンプレート画像を用意する作業の作業性の問題を解決する画像処理装置、画像処理方法、およびプログラムを提供することにある。
 本発明の一態様によれば、
 複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
 複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段と、
 人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段と、
 前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置が提供される。
 また、本発明の一態様によれば、
 1以上のコンピュータが、
  複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行い、
  複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定し、
  人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出し、
  前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する、
画像処理方法が提供される。
 また、本発明の一態様によれば、
 コンピュータを、
  複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
  複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段、
  人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段、
  前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラムが提供される。
 本発明の一態様によれば、一定の品質のテンプレート画像を用意する作業の作業性の問題を解決する画像処理装置、画像処理方法、およびプログラムが得られる。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
画像処理装置の機能ブロック図の一例を示す図である。 画像処理装置のハードウエア構成の一例を示す図である。 画像処理装置により検出される人体モデルの骨格構造の一例を示す図である。 画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。 画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。 複数の静止画像から品質値を算出する処理の一例を説明するための図である。 複数の動画像から品質値を算出する処理の一例を説明するための図である。 画像処理装置により出力される情報の一例を模式的に示す図である。 画像処理装置の処理の流れの一例を示すフローチャートである。 画像処理装置の作用効果を説明するための図である。 画像処理装置の作用効果を説明するための図である。 複数の静止画像から部分品質値を算出し、品質値を算出する処理の一例を説明するための図である。 複数の動画像から部分品質値を算出し、品質値を算出する処理の一例を説明するための図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
<第1の実施形態>
 図1は、第1の実施形態に係る画像処理装置10の概要を示す機能ブロック図である。図1に示すように、画像処理装置10は、骨格構造検出部11と、特定部12と、品質値算出部13と、出力部14とを備える。骨格構造検出部11は、複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う。特定部12は、複数のカメラで生成された複数の画像に含まれる同一の人体を特定する。品質値算出部13は、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出する。出力部14は、品質値が閾値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する。
 この画像処理装置10によれば、一定の品質のテンプレート画像を用意する作業の作業性の問題を解決することができる。
<第2の実施形態>
「概要」
 画像処理装置10は、複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する。次いで、画像処理装置10は、複数のカメラで生成された複数の画像に含まれる同一の人体を特定すると、人体毎に、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数を足し合わせた値に基づき、検出されたキーポイントの品質値を算出する。そして、画像処理装置10は、上記品質値が閾値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する。
 ユーザは、上記品質値が閾値以上である人体が写る箇所の中からテンプレート画像を選別することで、一定の品質のテンプレート画像を用意することができる。
「ハードウエア構成」
 次に、画像処理装置10のハードウエア構成の一例を説明する。画像処理装置10は上記複数のカメラと通信可能に接続されていてもよい。画像処理装置10の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 図2は、画像処理装置10のハードウエア構成を例示するブロック図である。図2に示すように、画像処理装置10は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。画像処理装置10は周辺回路4Aを有さなくてもよい。なお、画像処理装置10は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
 バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
「機能構成」
 図1は、第2の実施形態に係る画像処理装置10の概要を示す機能ブロック図である。図1に示すように、画像処理装置10は、骨格構造検出部11と、特定部12と、品質値算出部13と、出力部14とを備える。
 骨格構造検出部11は、複数のカメラ(2個以上のカメラ)で同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う。
 複数のカメラは互いに異なる位置に設置され、同じ場所を互いに異なる角度から同時に撮影する。撮影する場所は限定されない。例えば、撮影する場所は、バスや電車等の乗り物の中であってもよいし、建物の中や出入口付近であってもよいし、公園等の屋外施設の中や出入口付近であってもよいし、交差点等の屋外であってもよい。
 「画像」は、テンプレート画像の元となる画像である。テンプレート画像は、上述した特許文献1に開示の技術において事前に登録される画像であって、所望の姿勢や所望の動き(ユーザが検出したい姿勢や動き)の人体を含む画像である。画像は、複数のフレーム画像で構成される動画像であってもよいし、1枚で構成される静止画像であってもよい。
 骨格構造検出部11は、画像に含まれる人体のN(Nは2以上の整数)個のキーポイントを検出する。動画像が処理対象の場合、骨格構造検出部11は、フレーム画像毎にキーポイントを検出する処理を行う。骨格構造検出部11による当該処理は、特許文献1に開示されている技術を用いて実現される。詳細は省略するが、特許文献1に開示されている技術では、非特許文献1に開示されたOpenPose等の骨格推定技術を利用して骨格構造の検出を行う。当該技術で検出される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン(ボーンリンク)」とから構成される。
 図3は、骨格構造検出部11により検出される人体モデル300の骨格構造を示しており、図4及び図5は、骨格構造の検出例を示している。骨格構造検出部11は、OpenPose等の骨格推定技術を用いて、2次元の画像から図3のような人体モデル(2次元骨格モデル)300の骨格構造を検出する。人体モデル300は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された2次元モデルである。
 骨格構造検出部11は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人体のN個のキーポイントを検出する。検出するN個のキーポイントは予め定められる。検出するキーポイントの数(すなわち、Nの数)や、人体のどの部分を検出するキーポイントとするかは様々であり、あらゆるバリエーションを採用できる。
 以下では、図3に示すように、頭A1、首A2、右肩A31、左肩A32、右肘A41、左肘A42、右手A51、左手A52、右腰A61、左腰A62、右膝A71、左膝A72、右足A81、左足A82が、検出対象のN個のキーポイント(N=14)として定められているものとする。なお、図3に示す人体モデル300では、これらのキーポイントを連結した人物の骨として、頭A1と首A2を結ぶボーンB1、首A2と右肩A31及び左肩A32をそれぞれ結ぶボーンB21及びボーンB22、右肩A31及び左肩A32と右肘A41及び左肘A42をそれぞれ結ぶボーンB31及びボーンB32、右肘A41及び左肘A42と右手A51及び左手A52をそれぞれ結ぶボーンB41及びボーンB42、首A2と右腰A61及び左腰A62をそれぞれ結ぶボーンB51及びボーンB52、右腰A61及び左腰A62と右膝A71及び左膝A72をそれぞれ結ぶボーンB61及びボーンB62、右膝A71及び左膝A72と右足A81及び左足A82をそれぞれ結ぶボーンB71及びボーンB72がさらに定められている。
 図4は、直立した状態の人物を検出する例である。図4では、直立した人物が正面から撮像されており、正面から見たボーンB1、ボーンB51及びボーンB52、ボーンB61及びボーンB62、ボーンB71及びボーンB72がそれぞれ重ならずに検出され、右足のボーンB61及びボーンB71は左足のボーンB62及びボーンB72よりも多少折れ曲がっている。
 図5は、しゃがみ込んでいる状態の人物を検出する例である。図5では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンB1、ボーンB51及びボーンB52、ボーンB61及びボーンB62、ボーンB71及びボーンB72がそれぞれ検出され、右足のボーンB61及びボーンB71と左足のボーンB62及びボーンB72は大きく折れ曲がり、かつ、重なっている。
 図1に戻り、特定部12は、複数のカメラで生成された複数の画像に含まれる同一の人体を特定する。同一の人体は、同一人物の人体である。上述の通り、複数のカメラで生成された複数の画像は、複数のカメラで同じ場所を同時に撮影して生成されたものである。このため、同一人物が複数の画像に跨って写っている可能性がある。
 複数の画像に跨って写っている同一の人体を特定する手段は様々である。例えば、顔認証技術等を利用して複数の画像に跨って写っている同一人物を特定し、同一人物が写っている複数の画像各々内の位置で検出された人体を、同一の人体として特定してもよい。
 なお、画像が動画像の場合、さらに、上記と同様の手法で、又は人物追跡技術等を組み合わせて、1つの動画像の中の複数のフレーム画像に跨って写っている同一の人体を特定することができる。
 品質値算出部13は、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出する。また、品質値算出部13は、検出された人体毎に、検出されたキーポイントの品質値が閾値以上か判定する。そして、品質値算出部13は、判定結果に応じて、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所を特定する。以下、これらの処理を詳細に説明する。
-検出されたキーポイントの品質値を算出する処理-
 品質値算出部13は、人体毎に品質値を算出する。例えば、人物Aの人体が第1の画像及び第2の画像に写っている場合、品質値算出部13は、第1の画像に写っている人物Aの人体、及び、第2の画像に写っている人物Aの人体別々に品質値を算出するのでなく、人物Aの人体に対応して1つの品質値を算出する。
 図6に示すように、画像が静止画像の場合、人物Aの人体の品質値が、複数の静止画像に基づき算出される。
 図7に示すように、画像が動画像の場合、品質値算出部13は、動画像に付与されたタイムスタンプに基づき、複数の動画像の中から互いに同じタイミングで撮影された複数のフレーム画像を特定する。そして、品質値算出部13は、互いに同じタイミングで撮影された複数のフレーム画像の組み合わせ毎に、上記品質値を算出する。
 「検出されたキーポイントの品質値」は、検出されたキーポイントの質がどれだけ良いものかを示す値であり、各種データに基づき算出することができる。本実施形態では、品質値算出部13は、複数の画像各々から検出されたキーポイントの数を足し合わせた値に基づき、品質値を算出する。品質値算出部13は、複数の画像各々から検出されたキーポイントの数を足し合わせた値が大きいほど、高い品質値を算出する。例えば、品質値算出部13は、複数の画像各々から検出されたキーポイントの数を足し合わせた値を品質値としてもよいし、当該足し合わせた値を所定のルールで正規化した値を品質値として算出してもよい。
 ここで、具体例を用いて上記品質値を説明する。話を簡単にするため、2個のカメラで同じ場所を撮影して生成された2個の画像(第1及び第2の画像)を処理するものとする。例えば、第1の画像に写っている人物Aの人体からK個(KはN以下の整数)のキーポイントが検出され、第2の画像に写っている人物Aの人体からK個(KはN以下の整数)のキーポイントが検出されたとする。この場合、品質値算出部13は、人物Aの人体から検出されたキーポイントの品質値を、(K+K)に基づき算出する。
-検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所を特定する処理-
 品質値算出部13は、上述した品質値を算出する処理の算出結果に基づき、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所を特定する。品質値算出部13は、検出された人体毎に、検出されたキーポイントの品質値が閾値以上か判定する。そして、品質値算出部13は、判定結果に応じて、品質値が閾値以上である人体が写る箇所を特定する。
 画像が静止画像である場合、「品質値が閾値以上である人体が写る箇所」は、1枚の静止画像内の一部領域となる。この場合、静止画像毎に、例えば静止画像に設定された座標系の座標で、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所が示される。
 一方、画像が動画像である場合、「品質値が閾値以上である人体が写る箇所」は、動画像を構成する複数のフレーム画像の中の一部のフレーム画像各々内の一部領域となる。この場合、動画像ごとに、例えば複数のフレーム画像の中の一部のフレーム画像を示す情報(フレーム識別情報、冒頭からの経過時間等)と、フレーム画像に設定された座標系の座標とで、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所が示される。
 なお、画像が動画像である場合、「同一人物の人体が継続して写っており、かつ"その人体から検出されたキーポイントの品質値が閾値以上"という条件を満たす複数のフレーム画像各々においてその人体が写る箇所」を特定することが好ましい。
 上述の通り、画像が動画像の場合、特定部12は、複数のフレーム画像に跨って写っている同一人物の人体を特定することができる。品質値算出部13は、当該特定の結果に基づき、同一人物の人体が継続して写っている複数のフレーム画像を特定することができる。
 次に、"その人体から検出されたキーポイントの品質値が閾値以上"という条件について説明する。この条件は、特定した複数のフレーム画像の全てが当該条件を満たすことを要求するものであってもよい。すなわち、品質値算出部13が特定した複数のフレーム画像においては、同一人物の人体が継続して写っており、かつ、すべてのフレーム画像においてその人体から検出されたキーポイントの品質値が閾値以上となっていてもよい。
 その他、上記条件は、特定した複数のフレーム画像の少なくとも一部が上記条件を満たすことを要求するものであってもよい。すなわち、品質値算出部13が特定した複数のフレーム画像においては、同一人物の人体が継続して写っており、かつ、少なくとも一部のフレーム画像においてその人体から検出されたキーポイントの品質値が閾値以上となっていてもよい。この場合、品質値算出部13が特定する複数のフレーム画像の条件として、さらに、「品質値が閾値未満となる人体が写るフレーム画像が連続する数はQ個以下」等を付与してもよい。このような追加の条件を付与することで、品質値算出部13が特定した複数のフレーム画像において、品質値が低い人体が所定フレーム数以上連続して現れるという不都合を抑制できる。
 出力部14は、品質値が閾値以上である人体(検出されたキーポイントの品質値が閾値以上である人体のこと)が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する。画像が動画像である場合、出力部14は、同一人物の人体が継続して写っており、かつ"その人体から検出されたキーポイントの品質値が閾値以上"という条件を満たす複数のフレーム画像各々においてその人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力してもよい。
 なお、出力部14が部分画像を出力する場合、画像処理装置10は、画像から、品質値が閾値以上である人体が写る箇所を切り出して部分画像を生成する処理部を有することができる。そして、出力部14は、処理部が生成した部分画像を出力することができる。
 また、出力部14は、複数のカメラで生成された複数の画像各々から切り出した部分画像を、同一人体に関するもの同士で互いに紐付けて出力してもよい。また、出力部14は、複数のカメラで生成された複数の画像各々における品質値が閾値以上である人体が写る箇所を示す情報を、同一人体に関する情報同士で互いに紐付けて出力してもよい。また、出力部14は、画像に品質値が閾値以上である人体が含まれていることを示す情報を出力してもよい。
 上述した「画像内の品質値が閾値以上である人体が写る箇所」が、テンプレート画像の候補となる。ユーザは、上記情報又は上記部分画像に基づき、品質値が閾値以上である人体が写る箇所を閲覧等し、その中から、所望の姿勢や所望の動きの人体を含む箇所をテンプレート画像として選別することができる。
 図8に、出力部14が出力した情報の一例を模式的に示す。図8に示す例では、検出された複数の人体を互いに識別するための人体識別情報と、各人体の属性情報とが互いに紐付けて表示されている。そして、属性情報の一例として、品質値、検出キーポイント数、画像内箇所を示す情報(上述した人体が写る箇所を示す情報)、画像の撮影日時が表示されている。検出キーポイント数は、複数の画像各々から検出されたキーポイントの数を足し合わせた値である。属性情報は、その他、画像を撮影したカメラの設置位置(撮影位置)を示す情報(例:102号バス車内後方、〇〇公園入口等)や、画像解析で算出される人物の属性情報(例:性別、年齢層、体型等)を含んでもよい。
 次に、図9のフローチャートを用いて、画像処理装置10の処理の流れの一例を説明する。
 画像処理装置10は、複数のカメラで同じ場所を撮影して生成された複数の画像を取得すると(S10)、複数の画像各々に含まれる人体のキーポイントを検出する処理を行う(S11)。次いで、画像処理装置10は、複数のカメラで生成された複数の画像に含まれる同一の人体を特定する(S12)。なお、S11及びS12の処理順は逆でもよいし、これら2つの処理が並行して行われてもよい。
 次いで、画像処理装置10は、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出する(S13)。第2の実施形態では、画像処理装置10は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数を足し合わせた値に基づき、品質値を算出する。画像処理装置10は、当該足し合わせた値が高いほど、高い品質値を算出する。
 次いで、画像処理装置10、人体毎に検出されたキーポイントの品質値が閾値以上か判定する(S14)。次いで、画像処理装置10は、S14の判定結果に応じて、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所を特定する(S15)。そして、画像処理装置10は、品質値が閾値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する(S16)。例えば、画像処理装置10は、複数のカメラで生成された複数の画像各々から切り出した部分画像を、同一人体に関するもの同士で互いに紐付けて出力してもよい。また、画像処理装置10は、複数のカメラで生成された複数の画像各々における品質値が閾値以上である人体が写る箇所を示す情報を、同一人体に関する情報同士で互いに紐付けて出力してもよい。
「作用効果」
 第2の実施形態の画像処理装置10によれば、第1の実施形態と同様の作用効果が実現される。また、第2の実施形態の画像処理装置10によれば、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数を足し合わせた値が大きい人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、複数の画像各々から検出されたキーポイントの数を足し合わせた値が一定の品質を満たすテンプレート画像を容易に用意することができる。
 また、図10に示すように、障害物Qや自身の人体Pの他の部分に隠れて、人体Pの一部のキーポイントが検出されない場合がある。多くのキーポイントが未検出である人体の画像はテンプレート画像として好ましくない。しかし、図11に示すように、その未検出のキーポイントが他のカメラで生成された画像において検出されている場合、他の画像から検出されたキーポイントの特徴量で不足分を補完することができる。このように、1つの画像のみではテンプレート画像として好ましくないが、同じタイミングで撮影された複数の画像を組み合わせた場合に、テンプレート画像として好ましくなる場合がある。画像処理装置10のように、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出し、その品質値に基づきテンプレート画像の候補を選別することで、上述のような同じタイミングで撮影された複数の画像を組み合わせた場合にテンプレート画像として好ましくなる人体の画像をテンプレート画像の候補として選別することが可能となる。
<第3の実施形態>
 第3の実施形態の画像処理装置10は、品質値の算出の仕方が第1及び第2の実施形態と異なる。
 品質値算出部13は、検出対象の複数のキーポイント(上述したN個のキーポイント)の中の複数のカメラで生成された複数の画像の少なくとも1つにおいて検出されているキーポイントの数、又は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数に基づき、品質値を算出する。
 品質値算出部13は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも1つにおいて検出されているキーポイントの数が大きいほど、高い品質値を算出する。例えば、品質値算出部13は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも1つにおいて検出されているキーポイントの数を品質値としてもよいし、当該数を所定のルールで正規化した値を品質値として算出してもよい。
 また、品質値算出部13は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数が小さいほど、高い品質値を算出する。例えば、品質値算出部13は、所定の値から、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数を引いた数を品質値としてもよいし、当該数を所定のルールで正規化した値を品質値として算出してもよい。
 ここで、具体例を用いて上記品質値を説明する。話を簡単にするため、2個のカメラで同じ場所を撮影して生成された2個の画像(第1及び第2の画像)を処理するものとする。また、検出対象の複数のキーポイントはC乃至Cの5個とする。第1の画像からキーポイントC乃至Cが検出され、第2の画像からキーポイントC乃至Cが検出されたとする。この場合、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも1つにおいて検出されているキーポイントはキーポイントC乃至Cであり、その数は「4」となる。そして、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントはキーポイントCであり、その数は「1」となる。品質値算出部13は、このような数に基づき、その人体から検出されたキーポイントの品質値を算出する。
 その他、品質値算出部13は、第2の実施形態で説明した手法と、上記検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも1つにおいて検出されているキーポイントの数、又は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部13は、第2の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第1の品質値を算出するとともに、上記検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも1つにおいて検出されているキーポイントの数、又は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数に基づく手法で算出した品質値を所定のルールで正規化して第2の品質値を算出する。そして、品質値算出部13は、第1の品質値と第2の品質値の統計値(平均値、最大値、最小値、中央値、最頻値、重み付け平均値等)を、人体の品質値として算出してもよい。
 第3の実施形態の画像処理装置10のその他の構成は、第1及び第2の実施形態と同様である。
 第3の実施形態の画像処理装置10によれば、第1及び第2の実施形態と同様の作用効果が実現される。また、第3の実施形態の画像処理装置10によれば、検出対象のN個のキーポイントの中の少なくとも1つの画像で検出されたキーポイントの数が多い人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、少なくとも1つの画像で検出されたキーポイントの数が一定の品質を満たすテンプレート画像を容易に用意することができる。
<第4の実施形態>
 第4の実施形態の画像処理装置10は、品質値の算出の仕方が第1乃至第3の実施形態と異なる。
 品質値算出部13は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。図12に示すように画像が静止画像の場合、品質値算出部13は、複数の画像各々から検出された人体毎に、部分品質値を算出する。そして、品質値算出部13は、同一人物の人体の部分品質値を統合して、その人物の人体の品質値を算出する。
 図13に示すように画像が動画像の場合、品質値算出部13は、動画像に付与されたタイムスタンプに基づき、複数の動画像の中から互いに同じタイミングで撮影された複数のフレーム画像を特定する。そして、品質値算出部13は、互いに同じタイミングで撮影された複数のフレーム画像の組み合わせ毎に、その複数のフレーム画像各々から検出された同一人物の人体の部分品質値を統合して、その人物の人体の品質値を算出する。
「検出されたキーポイントの部分品質値」は、検出されたキーポイントの質がどれだけ良いものかを示す値であり、各種データに基づき算出することができる。本実施形態では、品質値算出部13は、キーポイントの検出結果の確信度に基づき、部分品質値を算出する。以下の実施形態で、キーポイントの検出結果の確信度以外のデータに基づき上記部分品質値を算出する例を説明する。当該確信度の算出方法は特段制限されない。例えば、OpenPose等の骨格推定技術において、検出された各キーポイントに紐付けて出力されるスコアを、各キーポイントの確信度としてもよい。
 品質値算出部13は、キーポイントの検出結果の確信度が高いほど、高い部分品質値を算出する。例えば、品質値算出部13は、人体から検出されたN個のキーポイント各々の確信度の統計値(平均値、最大値、最小値、中央値、最頻値、重み付け平均値等)をその人体の部分品質値として算出してもよい。N個のキーポイントの中の一部が検出されていない場合、その検出されていないキーポイントの確信度は「0」等の固定値としてもよい。この固定値は、検出されたキーポイントの確信度よりも低い値とする。
 なお、画像が静止画像の場合、品質値算出部13は、その静止画像から検出された人体毎に、部分品質値を算出する。一方、画像が動画像の場合、品質値算出部13は、複数のフレーム画像各々から検出された人体毎に、部分品質値を算出する。
 次に、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を統合して品質値を算出する処理を説明する。品質値算出部13は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値の統計値(平均値、最大値、最小値、中央値、最頻値、重み付け平均値等)を、その人体の品質値として算出することができる。
 その他、品質値算出部13は、第2及び第3の実施形態で説明した手法の少なくとも一方と、上記キーポイントの検出結果の確信度に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部13は、第2の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第1の品質値を算出する処理、及び第3の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第2の品質値を算出する処理の少なくとも一方を行う。また、品質値算出部13は、上記キーポイントの検出結果の確信度に基づく手法で算出した品質値を所定のルールで正規化して第3の品質値を算出する。そして、品質値算出部13は、第1及び第2の品質値の少なくとも一方と、第3の品質値の統計値(平均値、最大値、最小値、中央値、最頻値、重み付け平均値等)を、人体の品質値として算出してもよい。
 第4の実施形態の画像処理装置10のその他の構成は、第1乃至第3の実施形態と同様である。
 第4の実施形態の画像処理装置10によれば、第1乃至第3の実施形態と同様の作用効果が実現される。また、第4の実施形態の画像処理装置10によれば、キーポイントの検出結果の確信度が高い人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、キーポイントの検出結果の確信度が一定の品質を満たすテンプレート画像を容易に用意することができる。
<第5の実施形態>
 第5の実施形態の画像処理装置10は、品質値の算出の仕方が第1乃至第4の実施形態と異なる。
 品質値算出部13は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。そして、品質値算出部13は、検出されたキーポイントの数が相対的に多い人体の部分品質値を、検出されたキーポイントの数が相対的に少ない人体の部分品質値よりも高く算出する。例えば、品質値算出部13は、検出されたキーポイントの数を部分品質値としてもよい。その他、複数のキーポイント各々に重み付けポイントが設定されていてもよい。相対的に重要なキーポイントほど高い重み付けポイントが設定される。そして、品質値算出部13は、検出されたキーポイント各々の重み付けポイントを足し合わせた値を部分品質値として算出してもよい。
 その他、品質値算出部13は、第2乃至第4の実施形態で説明した手法の少なくとも1つと、上記キーポイントの数に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部13は、第2の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第1の品質値を算出する処理、第3の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第2の品質値を算出する処理、及び第4の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第3の品質値を算出する処理の少なくとも1つを行う。また、品質値算出部13は、上記キーポイントの数に基づく手法で算出した品質値を所定のルールで正規化して第4の品質値を算出する。そして、品質値算出部13は、第1乃至第3の品質値の少なくとも1つと、第4の品質値の統計値(平均値、最大値、最小値、中央値、最頻値、重み付け平均値等)を、人体の品質値として算出してもよい。
 第5の実施形態の画像処理装置10のその他の構成は、第1乃至第4の実施形態と同様である。
 第5の実施形態の画像処理装置10によれば、第1乃至第4の実施形態と同様の作用効果が実現される。また、第5の実施形態の画像処理装置10によれば、多くのキーポイントが検出された人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、検出されたキーポイントの数が一定の品質を満たすテンプレート画像を容易に用意することができる。
<第6の実施形態>
 第6の実施形態の画像処理装置10は、品質値の算出の仕方が第1乃至第5の実施形態と異なる。
 品質値算出部13は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。そして、品質値算出部13は、他の人体との重なり度合に基づき、部分品質値を算出する。なお、「人物Aの人体が人物Bの人体と重なっている状態」は、人物Aの人体が人物Bの人体により一部もしくは全部を隠されている状態、人物Aの人体が人物Bの人体の一部もしくは全部を隠している状態、及び、その両方が発生している状態を含む。以下、当該算出の手法を具体的に説明する。
-第1の手法-
 品質値算出部13は、他の人体と重なっていない人体の部分品質値を、他の人体と重なっている人体の部分品質値よりも高く算出する。例えば、他の人体と重なっていない人体の部分品質値をXとし、他の人体と重なっている人体の部分品質値をXとするルールが予め作成され、画像処理装置10に記憶される。なお、X>Xである。そして、品質値算出部13は、当該ルールに基づき、他の人体と重なっていない人体の部分品質値をXと算出し、他の人体と重なっている人体の部分品質値をXと算出する。
 他の人体と重なっているか否かは、骨格構造検出部11が検出した人体モデル300(図3参照)の重なり度合に基づき特定してもよいし、画像に写る身体の重なり度合に基づき特定してもよい。
 例えば、2つの人体の所定のキーポイント(例:頭A1)の画像内の距離が閾値以下である場合、その2つの人体は重なり合うと判定してもよい。この場合、閾値は、検出された人体の画像内での大きさに応じて変わる可変値であってもよい。検出された人体の画像内での大きさが大きいほど、閾値も大きくなる。なお、人体の画像内での大きさに代えて、所定のボーン(例:頭A1と首A2とを結ぶボーンB1)の長さや、画像内の顔の大きさ等を採用してもよい。
 その他、ある人体のいずれかのボーンが他の人体のいずれかのボーンと交わっている場合、その2つの人体は互いに重なり合っていると判定してもよい。
-第2の手法-
 品質値算出部13は、他の人体と重なっていない人体の部分品質値を、他の人体と重なっている人体の部分品質値よりも高く算出するとともに、他の人体と重なっている人体のうち、前側に位置する人体の部分品質値を、後ろ側に位置する人体の部分品質値よりも高く算出する。
 すなわち、品質値算出部13は、他の人体と重なっていない人体の部分品質値を最も高く算出し、他の人体と重なっているが前側に位置する人体の部分品質値を次に高く算出し、他の人体と重なっており後ろ側に位置する人体の部分品質値を最も低く算出する。
 例えば、他の人体と重なっていない人体の部分品質値をXとし、他の人体と重なっており前側に位置する人体の部分品質値X21とし、他の人体と重なっており後ろ側に位置する人体の部分品質値X22とするルールが予め作成され、画像処理装置10に記憶される。なお、X>X21>X22である。そして、品質値算出部13は、当該ルールに基づき、他の人体と重なっていない人体の部分品質値をXと算出し、他の人体と重なっており前側に位置する人体の部分品質値をX21と算出し、他の人体と重なっており後ろ側に位置する人体の部分品質値をX22と算出する。
 他の人体よりも前側にいるか後ろ側にいるかは、骨格構造検出部11が検出した人体モデル300(図3参照)の隠れ具合または欠損具合に基づき特定してもよいし、画像に写る身体の隠れ具合に基づき特定してもよい。例えば、互いに重なっている2つの人体のうち、一方はN個全てのキーポイントが検出され、他方はN個のキーポイントのうちの一部のみが検出されている場合、N個全てのキーポイントが検出された人体が前側に位置し、他方の人体が後ろ側に位置すると判断できる。
 その他、品質値算出部13は、第2乃至第5の実施形態で説明した手法の少なくとも1つと、上記人体の重なり度合に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部13は、第2の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第1の品質値を算出する処理、第3の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第2の品質値を算出する処理、第4の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第3の品質値を算出する処理、及び第5の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第4の品質値を算出する処理の少なくとも1つを行う。また、品質値算出部13は、上記人体の重なり度合に基づく手法で算出した品質値を所定のルールで正規化して第5の品質値を算出する。そして、品質値算出部13は、第1乃至第4の品質値の少なくとも1つと、第5の品質値の統計値(平均値、最大値、最小値、中央値、最頻値、重み付け平均値等)を、人体の品質値として算出してもよい。
 第6の実施形態の画像処理装置10のその他の構成は、第1乃至第5の実施形態と同様である。
 第6の実施形態の画像処理装置10によれば、第1乃至第5の実施形態と同様の作用効果が実現される。また、第6の実施形態の画像処理装置10によれば、他の人体と重なっていない人体が写る箇所や、他の人体と重なっているが前側に位置する人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、他の人体との重なり度合が一定の品質を満たすテンプレート画像を容易に用意することができる。
<第7の実施形態>
 第7の実施形態の画像処理装置10は、品質値の算出の仕方が第1乃至第6の実施形態と異なる。
 まず、骨格構造検出部11は、画像内で人物領域を検出し、検出した前記人物領域内でキーポイントを検出する処理を行う。すなわち、骨格構造検出部11は、画像内の全ての領域を、キーポイントを検出する処理の対象とするのでなく、検出した人物領域のみを、キーポイントを検出する処理の対象とする。画像内で人物領域を検出する処理の詳細は特段制限されず、例えばYOLO等の物体検出技術を用いて実現されてもよい。
 品質値算出部13は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。そして、品質値算出部13は、上記人物領域の検出結果の確信度に基づき、部分品質値を算出する。人物領域の検出結果の確信度の算出方法は特段制限されない。例えば、YOLO等の物体検出技術において、検出された物体領域に紐付けて出力されるスコア(信頼度等と言う場合もある)を、各人物領域の確信度としてもよい。
 品質値算出部13は、人物領域の検出結果の確信度が高いほど、高い部分品質値を算出する。例えば、品質値算出部13は、人物領域の検出結果の確信度を部分品質値として算出してもよい。
 その他、品質値算出部13は、第2乃至第6の実施形態で説明した手法の少なくとも1つと、上記人物領域の検出結果の確信度に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部13は、第2の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第1の品質値を算出する処理、第3の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第2の品質値を算出する処理、第4の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第3の品質値を算出する処理、第5の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第4の品質値を算出する処理、及び第6の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第5の品質値を算出する処理の少なくとも1つを行う。また、品質値算出部13は、上記人物領域の検出結果の確信度に基づく手法で算出した品質値を所定のルールで正規化して第6の品質値を算出する。そして、品質値算出部13は、第1乃至第5の品質値の少なくとも1つと、第6の品質値の統計値(平均値、最大値、最小値、中央値、最頻値、重み付け平均値等)を、人体の品質値として算出してもよい。
 第7の実施形態の画像処理装置10のその他の構成は、第1乃至第6の実施形態と同様である。
 第7の実施形態の画像処理装置10によれば、第1乃至第6の実施形態と同様の作用効果が実現される。また、第7の実施形態の画像処理装置10によれば、人物が高い確信度で写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、人物領域の検出結果が一定の品質を満たすテンプレート画像を容易に用意することができる。
<第8の実施形態>
 第8の実施形態の画像処理装置10は、品質値の算出の仕方が第1乃至第7の実施形態と異なる。
 品質値算出部13は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。そして、品質値算出部13は、画像上での人体の大きさに基づき、部分品質値を算出する。品質値算出部13は、相対的に大きい人体の部分品質値を、相対的に小さい人体の部分品質値よりも高く算出する。画像上での人体の大きさは、第7の実施形態で示した人物領域の大きさ(面積等)で示されてもよいし、所定のボーン(例:ボーンB1)の長さで示されてもよいし、所定の2つのキーポイント(例:キーポイントA31とA32)間の長さで示されてもよいし、その他の手法で示されてもよい。
 その他、品質値算出部13は、第2乃至第7の実施形態で説明した手法の少なくとも1つと、上記人体の大きさに基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部13は、第2の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第1の品質値を算出する処理、第3の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第2の品質値を算出する処理、第4の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第3の品質値を算出する処理、第5の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第4の品質値を算出する処理、第6の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第5の品質値を算出する処理、及び第7の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第6の品質値を算出する処理の少なくとも1つを行う。また、品質値算出部13は、上記人体の大きさに基づく手法で算出した品質値を所定のルールで正規化して第7の品質値を算出する。そして、品質値算出部13は、第1乃至第6の品質値の少なくとも1つと、第7の品質値の統計値(平均値、最大値、最小値、中央値、最頻値、重み付け平均値等)を、人体の品質値として算出してもよい。
 第8の実施形態の画像処理装置10のその他の構成は、第1乃至第7の実施形態と同様である。
 第8の実施形態の画像処理装置10によれば、第1乃至第7の実施形態と同様の作用効果が実現される。また、第8の実施形態の画像処理装置10によれば、人体がある程度大きく写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、人体の大きさが一定の品質を満たすテンプレート画像を容易に用意することができる。
<第9の実施形態>
 第9の実施形態の画像処理装置10は、テンプレート画像の候補とする箇所を選別する処理が第1乃至第8の実施形態と異なる。
 品質値算出部13は、品質値が閾値以上であり、かつ、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数が下限値以上である人体が写る箇所を特定する。そして、出力部14は、品質値が閾値以上であり、かつ、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数が下限値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する。
 第9の実施形態の画像処理装置10のその他の構成は、第1乃至第8の実施形態と同様である。
 第9の実施形態の画像処理装置10によれば、第1乃至第8の実施形態と同様の作用効果が実現される。また、第9の実施形態の画像処理装置10によれば、上述した品質値が閾値以上であり、かつ複数のカメラで生成された複数の画像の各々において下限値以上のキーポイントが検出されている人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、上述した品質値が閾値以上であり、かつ複数の画像の各々において検出されているキーポイントの数が一定の品質を満たすテンプレート画像を容易に用意することができる。
<変形例>
 上記実施形態では、画像が動画像である場合、「品質値が閾値以上である人体が写る箇所」は、動画像を構成する複数のフレーム画像の中の一部のフレーム画像各々内の一部領域であった。そして、出力部14は、このような箇所を示す情報や、画像からこのような箇所を切り出した部分画像を出力した。これは、1つのフレーム画像に複数の人体が含まれ得ることを想定した構成である。
 変形例として、画像が動画像である場合、品質値が閾値以上である人体が写る箇所は、動画像を構成する複数のフレーム画像の中の一部であってもよい。そして、出力部14は、このような複数のフレーム画像の中の一部を示す情報や、画像から一部のフレーム画像を切り出した部分画像を出力してもよい。また、品質値が閾値以上である人体が映るフレーム画像自体をテンプレート画像の候補として出力してもよい。これは、1つのフレーム画像に品質値が閾値以上である人体が1つだけ含まれ得ることを想定した構成である。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
 複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段と、
 人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段と、
 前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置。
2. 前記品質値算出手段は、複数の前記カメラで生成された複数の前記画像各々から検出された前記キーポイントの数を足し合わせた値に基づき、前記品質値を算出する1に記載の画像処理装置。
3. 前記品質値算出手段は、検出対象の複数の前記キーポイントの中の複数の前記カメラで生成された複数の前記画像の少なくとも1つにおいて検出されている前記キーポイントの数、又は、検出対象の複数の前記キーポイントの中の複数の前記カメラで生成された複数の前記画像のいずれにおいても検出されていない前記キーポイントの数に基づき、前記品質値を算出する1又は2に記載の画像処理装置。
4. 前記品質値算出手段は、複数の前記カメラで生成された複数の前記画像各々から検出された前記キーポイントの部分品質値を前記画像毎に算出し、前記画像毎の前記部分品質値を統合して前記品質値を算出する1から3のいずれかに記載の画像処理装置。
5. 前記品質値算出手段は、前記キーポイントの検出結果の確信度に基づき、前記部分品質値を算出する4に記載の画像処理装置。
6. 前記骨格構造検出手段は、前記画像内で人物領域を検出し、検出した前記人物領域内で前記キーポイントを検出する処理を行い、
 前記品質値算出手段は、前記人物領域の検出結果の確信度に基づき、前記部分品質値を算出する4又は5に記載の画像処理装置。
7. 前記品質値算出手段は、他の人体との重なり度合に基づき、前記部分品質値を算出する4から6のいずれかに記載の画像処理装置。
8. 前記品質値算出手段は、他の人体と重なっていない人体の前記部分品質値を、他の人体と重なっている人体の前記部分品質値よりも高く算出する7に記載の画像処理装置。
9. 前記品質値算出手段は、他の人体と重なっている人体のうち、前側に位置する人体の前記部分品質値を、後ろ側に位置する人体の前記部分品質値よりも高く算出する8に記載の画像処理装置。
10. 前記品質値算出手段は、検出された前記キーポイントの数が相対的に多い人体の前記部分品質値を、検出された前記キーポイントの数が相対的に少ない人体の前記部分品質値よりも高く算出する4から9のいずれかに記載の画像処理装置。
11. 前記品質値算出手段は、前記画像上での人体の大きさに基づき、前記部分品質値を算出する4から10のいずれかに記載の画像処理装置。
12. 1以上のコンピュータが、
  複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行い、
  複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定し、
  人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出し、
  前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する、
画像処理方法。
13. コンピュータを、
  複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
  複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段、
  人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段、
  前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラム。
 10  画像処理装置
 11  骨格構造検出部
 12  特定部
 13  品質値算出部
 14  出力部
 1A  プロセッサ
 2A  メモリ
 3A  入出力I/F
 4A  周辺回路
 5A  バス

Claims (13)

  1.  複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
     複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段と、
     人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段と、
     前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段と、
    を有する画像処理装置。
  2.  前記品質値算出手段は、複数の前記カメラで生成された複数の前記画像各々から検出された前記キーポイントの数を足し合わせた値に基づき、前記品質値を算出する請求項1に記載の画像処理装置。
  3.  前記品質値算出手段は、検出対象の複数の前記キーポイントの中の複数の前記カメラで生成された複数の前記画像の少なくとも1つにおいて検出されている前記キーポイントの数、又は、検出対象の複数の前記キーポイントの中の複数の前記カメラで生成された複数の前記画像のいずれにおいても検出されていない前記キーポイントの数に基づき、前記品質値を算出する請求項1又は2に記載の画像処理装置。
  4.  前記品質値算出手段は、複数の前記カメラで生成された複数の前記画像各々から検出された前記キーポイントの部分品質値を前記画像毎に算出し、前記画像毎の前記部分品質値を統合して前記品質値を算出する請求項1から3のいずれか1項に記載の画像処理装置。
  5.  前記品質値算出手段は、前記キーポイントの検出結果の確信度に基づき、前記部分品質値を算出する請求項4に記載の画像処理装置。
  6.  前記骨格構造検出手段は、前記画像内で人物領域を検出し、検出した前記人物領域内で前記キーポイントを検出する処理を行い、
     前記品質値算出手段は、前記人物領域の検出結果の確信度に基づき、前記部分品質値を算出する請求項4又は5に記載の画像処理装置。
  7.  前記品質値算出手段は、他の人体との重なり度合に基づき、前記部分品質値を算出する請求項4から6のいずれか1項に記載の画像処理装置。
  8.  前記品質値算出手段は、他の人体と重なっていない人体の前記部分品質値を、他の人体と重なっている人体の前記部分品質値よりも高く算出する請求項7に記載の画像処理装置。
  9.  前記品質値算出手段は、他の人体と重なっている人体のうち、前側に位置する人体の前記部分品質値を、後ろ側に位置する人体の前記部分品質値よりも高く算出する請求項8に記載の画像処理装置。
  10.  前記品質値算出手段は、検出された前記キーポイントの数が相対的に多い人体の前記部分品質値を、検出された前記キーポイントの数が相対的に少ない人体の前記部分品質値よりも高く算出する請求項4から9のいずれか1項に記載の画像処理装置。
  11.  前記品質値算出手段は、前記画像上での人体の大きさに基づき、前記部分品質値を算出する請求項4から10のいずれか1項に記載の画像処理装置。
  12.  1以上のコンピュータが、
      複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行い、
      複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定し、
      人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出し、
      前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する、
    画像処理方法。
  13.  コンピュータを、
      複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
      複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段、
      人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段、
      前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段、
    として機能させるプログラム。
PCT/JP2022/005682 2022-02-14 2022-02-14 画像処理装置、画像処理方法、およびプログラム WO2023152973A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/005682 WO2023152973A1 (ja) 2022-02-14 2022-02-14 画像処理装置、画像処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/005682 WO2023152973A1 (ja) 2022-02-14 2022-02-14 画像処理装置、画像処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023152973A1 true WO2023152973A1 (ja) 2023-08-17

Family

ID=87564026

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/005682 WO2023152973A1 (ja) 2022-02-14 2022-02-14 画像処理装置、画像処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023152973A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021250808A1 (ja) * 2020-06-10 2021-12-16 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム
WO2022009301A1 (ja) * 2020-07-07 2022-01-13 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021250808A1 (ja) * 2020-06-10 2021-12-16 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム
WO2022009301A1 (ja) * 2020-07-07 2022-01-13 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US9330307B2 (en) Learning based estimation of hand and finger pose
Khraief et al. Elderly fall detection based on multi-stream deep convolutional networks
CN112506340B (zh) 设备控制方法、装置、电子设备及存储介质
WO2022009301A1 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2022237026A1 (zh) 平面信息检测方法及系统
CN112657176A (zh) 一种结合人像行为信息的双目投影人机交互方法
WO2021250808A1 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2021229751A1 (ja) 画像選択装置、画像選択方法、およびプログラム
CN111353325A (zh) 关键点检测模型训练方法及装置
Ueng et al. Vision based multi-user human computer interaction
WO2023152973A1 (ja) 画像処理装置、画像処理方法、およびプログラム
CN116645697A (zh) 一种多视角步态识别方法、装置、电子设备及存储介质
WO2023152971A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7435781B2 (ja) 画像選択装置、画像選択方法、及びプログラム
WO2022079794A1 (ja) 画像選択装置、画像選択方法、及びプログラム
WO2022009279A1 (ja) 画像選択装置、画像選択方法、及びプログラム
WO2023152977A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2023152974A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7468642B2 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2023084780A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2023084778A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7485040B2 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2022003854A1 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2021255846A1 (ja) 画像処理装置、画像処理方法、及びプログラム
Yen et al. Adaptive Indoor People-Counting System Based on Edge AI Computing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22925992

Country of ref document: EP

Kind code of ref document: A1