WO2023209809A1 - 情報処理装置、情報処理方法、情報処理システム及び記録媒体 - Google Patents
情報処理装置、情報処理方法、情報処理システム及び記録媒体 Download PDFInfo
- Publication number
- WO2023209809A1 WO2023209809A1 PCT/JP2022/018892 JP2022018892W WO2023209809A1 WO 2023209809 A1 WO2023209809 A1 WO 2023209809A1 JP 2022018892 W JP2022018892 W JP 2022018892W WO 2023209809 A1 WO2023209809 A1 WO 2023209809A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- posture
- query
- image
- images
- estimation
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 116
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000003384 imaging method Methods 0.000 claims abstract description 24
- 230000009471 action Effects 0.000 claims abstract description 20
- 230000036544 posture Effects 0.000 description 272
- 238000004458 analytical method Methods 0.000 description 72
- 238000000034 method Methods 0.000 description 42
- 230000006870 function Effects 0.000 description 41
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 210000000988 bone and bone Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 210000002414 leg Anatomy 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001489106 Laccaria laccata Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Definitions
- the present invention relates to an information processing device, an information processing method, an information processing system, and a recording medium.
- the image search device described in Patent Document 1 includes a posture estimation section, a feature amount extraction section, a query generation section, and an image search section.
- the pose estimation unit described in the same document recognizes the pose information of a search target, which is composed of a plurality of feature points, from an input image.
- the feature amount extraction unit described in this document extracts feature amounts from posture information and an input image.
- the query generation unit described in this document generates a search query from an image database that stores feature amounts in association with input images and posture information specified by the user.
- the image search unit described in this document searches an image database for images containing similar postures according to a search query.
- Patent Document 2 discloses a method of calculating feature amounts of each of a plurality of key points of a human body included in an image, and searching for images containing human bodies with similar postures or similar movements based on the calculated feature amounts. , describes a technique for classifying objects with similar postures and movements together.
- Non-Patent Document 1 describes a technique related to human skeleton estimation.
- Patent Document 1 describes a technique for estimating posture or behavior based on images. However, in Patent Document 1, it is difficult to improve the accuracy of estimating the posture of the photographed person shown in the image because it is not known whether the posture has been correctly estimated.
- Patent Document 2 and Non-Patent Document 1 also do not disclose a technique for improving the accuracy of detecting a person in a predetermined posture from an image of a person.
- an example of the object of the present invention is to provide an information processing device, an information processing method, an information processing system, and a recording medium that solve the problem of improving the accuracy of estimating the posture of a photographed person shown in an image. It's about doing.
- Each of the plurality of query images is based on a plurality of query images obtained based on multiple shootings while performing a predetermined action, and a reference image showing a person associated with a predetermined posture.
- an estimation means for estimating the posture of the photographed person shown in An information processing apparatus comprising: when the plurality of query images include query images with different estimation results, display control means causes a display means to display the query images for which different estimations have been made.
- An information processing system including one or more imaging units that perform the plurality of imaging operations.
- the computer is The information displayed in each of the plurality of query images is based on a plurality of query images obtained based on multiple shootings while performing a predetermined action, and a reference image showing a person corresponding to a predetermined posture. Estimates the pose of the person being photographed.
- An information processing method is provided, in which when the plurality of query images include query images with different estimation results, the query images with different estimation results are displayed on a display means.
- the information displayed in each of the plurality of query images is based on a plurality of query images obtained based on multiple shootings while performing a predetermined action, and a reference image showing a person corresponding to a predetermined posture. Estimates the pose of the person being photographed.
- a recording medium is provided that stores a program for causing a display unit to display query images with different estimation results when the plurality of query images include query images with different estimation results. be done.
- an information processing device an information processing method, an information processing system, and a recording medium that solve the problem of improving the accuracy of estimating the posture of a photographed person shown in an image. Become.
- FIG. 1 is a diagram showing an overview of an information processing device according to a first embodiment.
- 1 is a diagram showing an overview of an information processing system according to a first embodiment
- FIG. 3 is a flowchart showing an overview of information processing according to the first embodiment.
- 1 is a diagram illustrating a detailed functional configuration example of an information processing system according to a first embodiment
- FIG. 7 is a diagram illustrating a configuration example of reference information including reference images associated with telephone conversation postures.
- FIG. 7 is a diagram illustrating a configuration example of weight information indicating weights associated with telephone conversation postures.
- 3 is a diagram illustrating an example of a functional configuration of a similarity degree acquisition unit according to the first embodiment.
- FIG. 1 is a diagram illustrating an example of a physical configuration of an information processing device according to a first embodiment
- FIG. 7 is a flowchart illustrating an example of posture estimation processing according to the first embodiment.
- FIG. 3 is a diagram illustrating an example of a method of thinning out a portion of a plurality of frame images.
- 7 is a flowchart illustrating a detailed example of similarity acquisition processing according to the first embodiment.
- 7 is a flowchart illustrating an example of estimation support processing according to the first embodiment. It is a figure which shows the example of an erroneous estimation pattern.
- 3 is a diagram illustrating a detailed functional configuration example of an information processing system S2 according to a second embodiment.
- FIG. 1 is a diagram showing an overview of an information processing apparatus 100 according to the first embodiment.
- the information processing device 100 includes an estimation section 115 and a display control section 119.
- the estimation unit 115 calculates a plurality of query images based on a plurality of query images obtained based on a plurality of images taken while performing a predetermined action, and a reference image indicating a person associated with a predetermined posture. The posture of the photographed person shown in each of the query images is estimated.
- the display control unit 119 causes the display unit to display the query images for which the different estimation results have been obtained.
- this information processing device 100 it is possible to provide an information processing device 100 that solves the problem of improving the accuracy of estimating the posture of a photographed person shown in an image.
- FIG. 2 is a diagram showing an overview of the information processing system S1 according to the first embodiment.
- the information processing system S1 includes an information processing device 100 and one or more imaging units 101 that perform multiple imaging operations.
- this information processing system S1 it is possible to provide an information processing system S1 that solves the problem of improving the accuracy of estimating the posture of a photographed person shown in an image.
- FIG. 3 is a flowchart showing an overview of information processing according to the first embodiment.
- the estimation unit 115 calculates a plurality of query images based on a plurality of query images obtained based on a plurality of images taken while performing a predetermined action, and a reference image indicating a person associated with a predetermined posture.
- the posture of the photographed person shown in each of the query images is estimated (step S105).
- the display control unit 119 causes the display unit to display the query images with different estimation results (step S202).
- FIG. 4 is a diagram showing a detailed functional configuration example of the information processing system S1 according to the first embodiment.
- the information processing system S1 includes an imaging unit 101, an information processing device 100, and an analysis device 102.
- the imaging unit 101, the information processing device 100, and the analysis device 102 are connected via a network N configured by wire, wireless, or a combination thereof, and can send and receive information to and from each other.
- the photographing unit 101 photographs a person (person to be photographed) performing a predetermined action.
- the photographing unit 101 is, for example, a camera that is installed in a store of a financial institution such as a bank and photographs an operator who operates an automatic teller machine (ATM).
- ATM automatic teller machine
- the photographing unit 101 is not limited to a camera for photographing an ATM operator, but may also be a camera for photographing the inside of a store such as a bank, or a camera installed in various stores other than financial institutions. There may be.
- the photographing unit 101 photographs a predetermined photographing area and transmits image information indicating a moving image to the information processing device 100.
- the photographing unit 101 sequentially photographs multiple times in chronological order at a predetermined frame rate.
- the photographing unit 101 generates frame information including a frame image in each photograph.
- the photographing unit 101 transmits frame information including each of the time-series frame images to the information processing apparatus 100 via the network N.
- the analysis device 102 is a device that analyzes images.
- the analysis device 102 acquires image information generated by the imaging unit 101 via the network N.
- the analysis device 102 acquires image information from the imaging unit 101 via the information processing device 100, but it may also directly acquire image information from the imaging unit 101.
- the analysis device 102 is a device that analyzes images included in the acquired image information.
- the analysis device 102 includes one or more analysis functions that perform processing for analyzing images (analysis processing).
- the analysis functions provided by the analysis device 102 include (1) object detection function, (2) face analysis function, (3) human figure analysis function, (4) posture analysis function, (5) behavior analysis function, and (6) appearance attributes. (7) slope feature analysis function, (8) color feature analysis function, (9) flow line analysis function, etc.
- the object detection function detects people and objects from images. Object detection functionality can also determine the location of people and objects within an image. An example of a model applied to object detection processing is YOLO (You Only Look Once).
- the object detection function detects, for example, an operator, a mobile phone (including a smartphone), a wheelchair, and the like. For example, the object detection function determines the positions of detected persons and objects.
- the face analysis function detects a human face from an image, extracts the feature amount of the detected face (facial feature amount), and categorizes the detected face (classification).
- the face analysis function can also determine the position of a face within an image.
- the face analysis function can also determine the identity of persons detected from different images based on the degree of similarity between facial feature amounts of persons detected from different images.
- Human figure analysis function extracts the human body features of the person included in the image (e.g., values indicating overall characteristics such as body shape, height, clothing, etc.), Perform classification (classification), etc.
- the human shape analysis function can also identify the position of a person in an image.
- the human figure analysis function can also determine the identity of a person included in different images based on the human body features of the person included in the different images.
- the posture analysis function generates posture information indicating the posture of the person.
- the posture information includes, for example, a person's posture estimation model.
- the posture estimation model is a model in which joints of a person estimated from an image are connected.
- the posture estimation model is composed of a plurality of model elements corresponding to joint elements corresponding to joints, trunk elements corresponding to the torso, bone elements corresponding to bones connecting joints, and the like.
- the posture analysis function for example, detects joint points of a person from an image and connects the joint points to create a posture estimation model.
- the posture analysis function uses information from the posture estimation model to estimate a person's posture, extract features of the estimated posture (posture features), and classify people included in the image. conduct.
- the posture analysis function can also determine the identity of a person included in different images based on the posture feature amount of the person included in the different images.
- the posture analysis function creates posture estimation models such as a talking posture and a wheelchair posture, and extracts posture features in these postures.
- the talking posture is a posture for talking using a mobile phone.
- the wheelchair posture is the posture of a person using a wheelchair.
- Behavior analysis processing uses the information of the posture estimation model, changes in posture, etc. to estimate the movement of the person, extract the feature amount of the person's movement (motion feature amount), and classify the person included in the image. (Classification) etc.
- information on the stick figure model can also be used to estimate a person's height or specify the position of a person in an image.
- a behavior such as a change or transition in posture or movement (change or transition in position) can be estimated from an image, and a motion feature amount of the behavior can be extracted.
- the appearance attribute analysis function can recognize appearance attributes associated with a person.
- the appearance attribute analysis function extracts feature amounts related to recognized appearance attributes (appearance attribute feature amounts), and classifies people included in the image.
- the appearance attribute is an appearance attribute, and includes one or more of, for example, the color of clothes, the color of shoes, hairstyle, and whether or not a hat, tie, and glasses are worn.
- the gradient feature analysis function extracts the gradient feature amount (gradient feature amount) in the image.
- techniques such as SIFT, SURF, RIFF, ORB, BRISK, CARD, and HOG can be applied to the gradient feature detection process.
- the color feature analysis function can detect an object from an image, extract the color feature amount (color feature amount) of the detected object, classify the detected object, etc.
- the color feature amount is, for example, a color histogram.
- the color feature analysis function can detect, for example, a person or an object included in an image.
- the flow line analysis function uses, for example, the results of the identity determination in any of the analysis functions (2) to (6) above to analyze the flow lines (trajectories of movement) of people included in the video. You can ask for it. In detail, for example, by connecting people determined to be the same in images that are different in time series, the flow line of that person can be determined. Note that the flow line analysis function can also calculate flow lines spanning multiple images shot in different shooting areas, such as when images shot by multiple shooting units 101 shooting different shooting areas are acquired. .
- Image features include, for example, object detection results using object detection functions, facial features, human body features, posture features, movement features, appearance attribute features, gradient features, color features, and flow lines. include.
- the information processing device 100 may include an analysis unit having the functions of the analysis device 102.
- the information processing device 100 is a device that estimates the posture of a person included in a frame image. As shown in FIG. 4, the information processing device 100 functionally includes an image acquisition section 111, a storage section 112, a posture acquisition section 113, a similarity acquisition section 114, an estimation section 115, and an input section 116. , a determination section 117, a display section 118, and a display control section 119.
- the image acquisition unit 111 acquires image information indicating a moving image from the imaging unit 101. That is, the image acquisition unit 111 acquires a plurality of time-series frame images obtained by a plurality of consecutive time-series image captures.
- the image acquisition unit 111 acquires frame information including each of a plurality of time-series frame images from the imaging unit 101.
- the image acquisition unit 111 stores the acquired frame information.
- the storage unit 112 is a storage unit for storing various information.
- the storage unit 112 stores in advance, for example, reference information 112a indicating a reference image, weight information 112b indicating weight, and the like.
- the reference image is an image of a person associated with a predetermined posture.
- the reference image is an image that is referred to in order to estimate the posture of the person included in the query image, and is appropriately selected and set in the storage unit 112.
- the predetermined posture is, for example, a telephone conversation posture, a wheelchair posture, or the like.
- FIG. 5 is a diagram illustrating an example of the configuration of reference information 112a including reference images associated with conversation postures.
- the reference information 112a illustrated in FIG. 5 includes, for example, a positive example and a negative example.
- a positive example is a reference image of a person in a predetermined posture.
- the positive examples (ie, reference images 1 to 4) illustrated in FIG. 5 are reference images of a person in a conversation posture, such as a person standing and talking while holding a mobile phone with the right or left hand.
- a negative example is a reference image of a person who is not in a predetermined posture.
- an image of a person not in a predetermined posture but in a posture similar to the predetermined posture may be selected.
- the negative examples (ie, reference images 5 to 7) illustrated in FIG. 5 are reference images of a person who is not in a talking posture, and for example, show a person who is standing upright without holding a mobile phone.
- reference information 112a may include any number of reference images, as long as it includes at least one reference image. Further, the reference information 112a may include only positive examples.
- the weight is a value indicating the degree to which each model element is emphasized in order to determine the degree of similarity between posture estimation models in a predetermined posture.
- the weight information 112b includes the weight of each model element for each predetermined posture.
- FIG. 6 is a diagram illustrating a configuration example of weight information 112b indicating weights associated with conversation postures.
- the weight information 112b illustrated in FIG. 5 associates the element ID and weight in the conversation posture.
- Element ID is information for identifying a model element.
- the element ID is, for example, a number appropriately assigned to each of the bone elements and joint elements corresponding to the trunk element, the upper and lower parts of the left and right arms, the thighs and lower legs of the left and right legs, etc. be.
- Weights are determined for each model element in a predetermined posture.
- FIG. 5 shows an example in which the weight is an integer greater than or equal to 0, the method for setting the weight may be changed as appropriate.
- the weight set for the arm is larger than the weight set for the leg.
- the weight set for the right hand is larger than the weight set for the left hand.
- the posture acquisition unit 113 acquires a plurality of reference images associated with a predetermined posture such as a telephone conversation posture from the storage unit 112, and acquires first posture information based on the acquired plurality of reference images.
- the first posture information is information indicating the posture of a person shown in each of a plurality of reference images associated with a predetermined posture.
- the first posture information includes, for example, a first model that is a posture estimation model regarding the person shown in the reference image.
- the posture acquisition unit 113 acquires time-series frame images from the image acquisition unit 111, and acquires a query image by thinning out a part of the time-series frame images. Then, the posture acquisition unit 113 acquires second posture information based on the acquired query image.
- the second posture information is information indicating the posture of the photographed person shown in the query image.
- the second posture information includes, for example, a second model that is a posture estimation model regarding the photographed person shown in the query image.
- the posture acquisition unit 113 transmits each of the acquired reference image and query image to the analysis device 102 via the network N.
- the posture acquisition unit 113 acquires first posture information including a first model related to the person shown in the reference image from the analysis device 102.
- the posture acquisition unit 113 acquires second posture information including a second model related to the person shown in the query image from the analysis device 102.
- the similarity acquisition unit 114 calculates information regarding the postures of the photographed person shown in the query image and the person shown in the reference images. Find similarity.
- the similarity is a value indicating the degree of similarity between posture estimation models in a predetermined posture.
- the similarity acquisition unit 114 acquires from the posture acquisition unit 113 a first model of a person shown in each of the plurality of reference images corresponding to a predetermined posture. Further, the similarity acquisition unit 114 acquires a second model of the photographed person shown in each of the time-series query images from the posture acquisition unit 113. The similarity obtaining unit 114 obtains the similarity using the first model and the second model for each combination of the first model and the second model.
- the similarity includes the overall similarity and the element similarity.
- the overall similarity is a value indicating the overall degree of similarity between the first model and the second model in a predetermined posture, that is, the overall similarity between the first model and the second model.
- the element similarity is the similarity of each corresponding model element between the first model and the second model in a predetermined posture, that is, the similarity of each corresponding model element between the first model and the second model. It is.
- the similarity may include at least one of the overall similarity and the element similarity.
- FIG. 7 is a diagram showing an example of the functional configuration of the similarity degree acquisition unit 114 according to the present embodiment.
- the similarity acquisition unit 114 includes an overall calculation unit 114a and an element calculation unit 114b.
- the overall calculation unit 114a calculates the overall similarity between the first model and the second model. Specifically, the overall calculation unit 114a calculates the overall similarity using the weight corresponding to the predetermined posture included in the weight information 112b and the element similarity calculated by the element calculation unit 114b.
- the overall calculation unit 114a calculates the product of each of the similarity of the model elements and the weight of the corresponding model element, and constructs a posture estimation model. Add the products obtained for each model element. The value obtained as a result of this summation is the overall similarity.
- the element calculation unit 114b calculates element similarity, which is the similarity of each corresponding model element between the first model and the second model.
- the element calculation unit 114b calculates element similarity for each corresponding model element between the first model and the second model, based on the size, length, slope, etc., for example.
- the estimation unit 115 calculates a plurality of query images based on a plurality of query images obtained based on a plurality of images taken while performing a predetermined action, and a reference image indicating a person associated with a predetermined posture. The posture of the photographed person shown in each of the query images is estimated.
- the estimating unit 115 estimates the posture of the photographed person shown in each of the time-series query images based on the similarity (for example, overall similarity) determined by the similarity obtaining unit 114.
- the estimating unit 115 determines, based on the at least one thinned out frame image among the time-series frame images and the reference image, the person to be photographed who is shown in the at least one thinned out frame image.
- the posture of the object may be estimated.
- the posture acquisition unit 113 acquires at least one thinned-out frame image from the image acquisition unit 111, and acquires the second model of the photographed person shown in the frame image.
- the similarity obtaining unit 114 obtains the overall similarity based on the second model of the person shown in the frame image and the first model of the person shown in each of the plurality of reference images.
- the estimation unit 115 estimates the posture of the photographed person shown in the at least one thinned-out frame image based on the overall similarity obtained by the similarity obtaining unit 114.
- the estimating unit 115 may estimate the posture of the photographed person shown in the query image or the frame image based on the reference image having the largest similarity value among the positive example and the negative example. In this case, for example, if the reference image with the highest degree of similarity is a positive example, the estimation unit 115 estimates that the posture of the photographed person is a predetermined posture corresponding to the reference image. If the reference image with the highest degree of similarity is a negative example, the estimation unit 115 estimates that the posture of the photographed person is not the predetermined posture corresponding to the reference image.
- the estimation unit 115 may estimate the posture of the photographed person shown in the query image or the frame image based on the positive example average value and the negative example average value.
- the positive example average value is the average value of the degrees of similarity between a plurality of positive examples associated with a predetermined posture and the query image or frame image.
- the negative example average value is an average value of similarities between a plurality of negative examples associated with a predetermined posture and the query image or frame image.
- the estimation unit 115 estimates that the posture of the photographed person is a predetermined posture corresponding to the reference image.
- the estimation unit 115 estimates that the posture of the photographed person is not the predetermined posture corresponding to the reference image.
- the estimation unit 115 performs image matching between the query image or frame image and the reference image, and based on the similarity between the reference image matched in the image matching and the query image or frame image, the estimation unit 115 The posture of the photographed person shown may be estimated. In this case, the estimation unit 115 estimates the posture of the photographed person shown in the query image or frame image based on the positive example average value and the negative example average value of the reference images matched by image matching. Good too.
- the estimation unit 115 determines that the posture of the photographed person is in a predetermined posture corresponding to the reference image. We estimate that there is. If the positive example average value of the reference images matched by image matching is less than or equal to the negative example average value, the estimating unit 115 estimates that the posture of the photographed person is not the predetermined posture corresponding to the reference image.
- the estimation unit 115 calculates the degree of similarity between images based on the feature amount between the person shown in the query image or the frame image and the person shown in the reference image. The estimation unit 115 determines whether the query image or frame image and the reference image match by comparing the degree of similarity between images with a threshold value. For example, the estimating unit 115 determines that the images are compatible (similar) when the degree of similarity between the images is equal to or greater than the threshold, and determines that the images are not compatible (dissimilar) when the degree of similarity between the images is less than the threshold.
- the estimation unit 115 may estimate the posture of the photographed person using only image matching without using the degree of similarity.
- the estimating unit 115 may estimate that the photographed person shown in the query image or frame image is in a predetermined posture corresponding to the reference image when the image matches at least one positive example.
- the estimation unit 115 may estimate that the photographed person shown in the query image or frame image is not in a predetermined posture corresponding to the reference image when the image matches at least one negative example. .
- the estimating unit 115 may estimate the posture of the photographed person based on the number of matching positive examples and negative examples that match through image matching. In this case, for example, if the number of matches with the positive example is greater than the number of matches with the negative example, the estimation unit 115 determines that the subject shown in the query image or frame image is in a predetermined posture corresponding to the reference image. We estimate that there is. For example, if the number of matches with the positive example is less than or equal to the number of matches with the negative example, the estimation unit 115 estimates that the photographed person shown in the query image or frame image is not in the predetermined posture corresponding to the reference image. do.
- the estimation unit 115 determines that the query image or the frame image is different from either the positive example or the negative example. It may be determined that this is a negative example.
- the estimation unit 115 performs machine learning using the reference image and uses a trained learning model to determine whether the query image or the frame image matches (is similar to) a positive example or a negative example. Good too.
- This learning model is a trained learning model that has undergone machine learning to determine whether the photographed person fits into a positive example or a negative example.
- the estimation unit 115 inputs image information including the query image indicating the photographed person or the frame image into the learning model, thereby determining whether the query image or the frame image is suitable for a positive example or a negative example. (similar) Obtain the determination result.
- the input data to the learning model during learning includes image information indicating a person. Further, in the learning, supervised learning including a label (correct answer) indicating whether input data fits a positive example or a negative example is preferably performed.
- the input unit 116 is a keyboard, mouse, touch panel, etc. that accepts input from the user.
- the determining unit 117 determines whether the plurality of query images include query images with different estimation results, based on the estimation result by the estimation unit 115.
- the determination unit 117 determines whether the estimation results for a plurality of query images correspond to a predetermined erroneous estimation pattern.
- the erroneous estimation pattern is a pattern resulting from estimation regarding the posture of the photographed person included in each of the plurality of query images.
- the erroneous estimation pattern is, for example, determined in advance and held in the storage unit 112.
- the erroneous estimation pattern may include a different estimation result for at least one query image than for other query images.
- the determination unit 117 determines whether or not the estimation result in the estimation unit 115 corresponds to an erroneous estimation pattern. It can be determined whether or not it is included.
- the display unit 118 is a display that displays various information.
- the display control unit 119 controls the display unit 118 and causes the display unit 118 to display various information. For example, when the estimation unit 115 detects a photographed person in a predetermined posture, the display control unit 119 causes the display unit 118 to display a query image or a frame image in which the photographed person is marked.
- the mark is, for example, a rectangular frame surrounding the subject.
- the display control unit 119 selects a query image with different estimation results. It is displayed on the display unit 118.
- the information processing system S1 is physically composed of an imaging unit 101, an information processing device 100, and an analysis device 102 that are connected via a network N.
- the imaging unit 101, the information processing device 100, and the analysis device 102 are each configured from a single physically different device.
- the photographing unit 101 is, for example, a camera.
- the information processing device 100 and the analysis device 102 may be physically configured as a single device.
- the information processing device 100 and the analysis device 102 use an internal bus 1010, which will be described later, instead of the network N.
- one or both of the information processing device 100 and the analysis device 102 may be configured from a plurality of devices physically connected via an appropriate communication line such as the network N.
- FIG. 8 is a diagram showing an example of the physical configuration of the information processing device 100 according to the present embodiment.
- the information processing device 100 is, for example, a general-purpose computer.
- the information processing device 100 includes, for example, a bus 1010, a processor 1020, a memory 1030, a storage device 1040, a network interface 1050, an input interface 1060, and an output interface 1070.
- the bus 1010 is a data transmission path through which the processor 1020, memory 1030, storage device 1040, network interface 1050, input interface 1060, and output interface 1070 exchange data with each other.
- the method of connecting the processors 1020 and the like to each other is not limited to bus connection.
- the processor 1020 is a processor implemented by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
- the memory 1030 is a main storage device implemented by RAM (Random Access Memory) or the like.
- the storage device 1040 is an auxiliary storage device realized by a HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
- the storage device 1040 stores program modules for realizing each function of the information processing apparatus 100.
- the processor 1020 reads each of these program modules into the memory 1030 and executes them, each function corresponding to the program module is realized.
- the network interface 1050 is an interface for connecting the information processing device 100 to the network N.
- the input interface 1060 is an interface for the user to input information.
- Input interface 1060 is composed of one or more of, for example, a keyboard, a mouse, and a touch panel.
- the output interface 1070 is an interface for presenting information to the user.
- the output interface 1070 is composed of, for example, a liquid crystal panel, an organic EL (Electro-Luminescence) panel, or the like.
- the analysis device 102 is physically, for example, a general-purpose computer.
- the analysis device 102 is physically configured in substantially the same manner as the information processing device 100 (see FIG. 8).
- the storage device 1040 of the analysis device 102 stores program modules for realizing each function of the analysis device 102.
- processor 1020 of the analysis device 102 reads each of these program modules into the memory 1030 and executes them, each function corresponding to the program module is realized.
- Network interface 1050 of analysis device 102 is an interface for connecting analysis device 102 to network N. Except for these points, the analysis device 102 may be physically configured similarly to the information processing device 100.
- the information processing system S1 executes information processing for estimating the posture of the photographed person included in the query image.
- the information processing executed by the information processing system S1 includes posture estimation processing and estimation support processing.
- the posture estimation process is a process of estimating the posture of the photographed person included in the query image using a reference image associated with a predetermined posture.
- the estimation support process is a process for supporting estimation of the posture of the photographed person.
- FIG. 9 is a flowchart illustrating an example of posture estimation processing according to the present embodiment.
- the posture estimation process is executed, for example, while the information processing system S1 is in operation.
- the image acquisition unit 111 acquires a plurality of time-series frame images (step S101).
- the image acquisition unit 111 stores the acquired frame images.
- the image acquisition unit 111 thins out a part of the plurality of frame images acquired in step S101 to acquire a query image (step S102).
- the image acquisition unit 111 thins out a part of the plurality of frame images according to a predetermined rule.
- FIG. 10 is a diagram illustrating an example of a method for thinning out a portion of a plurality of frame images.
- the image acquisition unit 111 thins out frame images acquired during a predetermined time interval ⁇ T (excluding times at both ends). Thereby, the image acquisition unit 111 acquires time-series query images at a predetermined constant time interval ⁇ T.
- the method of obtaining a query image by thinning out a part of a plurality of frame images is not limited to this.
- the time interval ⁇ T may not be constant, and (mode for detecting the posture of the photographer).
- the query image may be a plurality of frame images that are not thinned out.
- the posture acquisition unit 113 acquires first posture information based on a plurality of reference images associated with a predetermined posture and second posture information based on the query image acquired in step S102 (step S103).
- the posture acquisition unit 113 acquires a plurality of reference images corresponding to a predetermined posture from the storage unit 112.
- the predetermined posture is a telephone conversation posture and the reference information 112a shown in FIG. 5 is stored in the storage section 112
- the posture acquisition section 113 acquires reference images 1 to 7.
- the posture acquisition unit 113 transmits the acquired reference images 1 to 7 to the analysis device 102.
- the analysis device 102 generates first posture information including the first model of the person shown in each of the reference images 1 to 7, and transmits it to the information processing device 100.
- the posture acquisition unit 113 acquires first posture information from the analysis device 102.
- the posture acquisition unit 113 acquires the query image acquired in step S102 from the image acquisition unit 111.
- the posture acquisition unit 113 transmits the acquired query image to the analysis device 102.
- the analysis device 102 generates second posture information including the second model of the person indicated by the query image and transmits it to the information processing device 100.
- the posture acquisition unit 113 acquires second posture information from the analysis device 102.
- the similarity obtaining unit 114 obtains the similarity between each of the first models and the second model included in each of the first posture information and second posture information obtained in step S103 (step S104).
- FIG. 11 is a flowchart showing a detailed example of the similarity acquisition process (step S104) according to the present embodiment.
- the element calculation unit 114b repeats steps S104b to S104c for each of the first models included in the first posture information acquired in step S103 (step S104a).
- the element calculation unit 114b calculates element similarity, which is the similarity for each corresponding model element, between the first model and the second model (step S104b).
- the overall calculation unit 114a acquires the weight information 112b stored in the storage unit 112, and calculates the overall similarity between the first model and the second model based on the element similarity and weight for each model element obtained in step S104b. The degree is calculated (step S104c).
- the overall calculation unit 114a calculates the sum of products of element similarities and weights of corresponding model elements, and sets this sum as the overall similarity.
- the overall calculation unit 114a calculates the overall similarity between each of the first models and the second model as a result of repeating steps S104b to S104c for each of the first models included in the first posture information acquired in step S103. After executing steps S104b to S104c for each of the first models included in the first posture information acquired in step S103, the overall calculation unit 114a ends loop A (step S104a) and returns to the posture estimation process.
- the estimation unit 115 estimates the posture of the photographed person shown in the query image based on the query image acquired in step S102 and the plurality of reference images (step S105).
- the estimation unit 115 estimates the posture of the photographed person shown in the query image based on the overall similarity between the query image acquired in step S102 and each of reference images 1 to 7. Note that in step S105, the estimating unit 115 may use any of the posture estimation methods 1 to 5 described above to estimate the posture of the photographed person, and may use any of the posture estimation methods 1 to 5 described above. Good too.
- the estimation unit 115 determines whether a predetermined posture has been detected (step S106).
- the estimation unit 115 determines that a predetermined posture has been detected. If it is estimated in step S105 that the person to be photographed shown in the query image is not in the predetermined posture, the estimation unit 115 determines that the predetermined posture has not been detected.
- step S106 If it is determined that the predetermined posture has not been detected (step S106; No), the image acquisition unit 111 executes step S101 again.
- step S106 If it is determined that the predetermined posture has been detected (step S106; No), the display control unit 119 causes the display unit 118 to display that the predetermined posture has been detected (step S107). After that, the image acquisition unit 111 executes step S101 again.
- step S107 the display control unit 119 causes the display unit 118 to display a query image showing the photographed person in a predetermined posture.
- the query image displayed here may be an image in which the person to be photographed is marked, as described above.
- the user can see the display unit 118 and know that the person to be photographed in a predetermined posture has been detected. For example, if the user is talking while operating an ATM, the user may be the victim of a bank transfer fraud or a suspicious person, so the user should take measures such as notifying a security guard near the ATM to confirm. can be taken.
- the posture of the photographed person can be estimated for each of the time-series query images.
- the plurality of frame images are, for example, images based on photography performed while the ATM is being operated.
- the plurality of frame images during which the same person operates the ATM and the query images between them are time-series images showing a common photographed person.
- the display control unit 119 causes the display unit 118 to display the query images with different estimation results.
- the display control unit 119 may store the query images for which different estimates have been made, and display the query images for which different estimates have been made on the display unit 118 in response to a user's instruction or the like.
- FIG. 12 is a flowchart illustrating an example of estimation support processing according to the present embodiment.
- the estimation support process is a process for displaying a query image whose posture may have been incorrectly estimated, in order to support estimation of the posture of the photographed person.
- the estimation support process is executed while the posture estimation process is being performed.
- the estimation support process may be executed repeatedly.
- the determination unit 117 obtains the estimation results in step S105, which is repeatedly executed, and determines whether the estimation results for a plurality of query images correspond to an erroneous estimation pattern (step S201). This makes it possible to detect estimation results that correspond to the erroneous estimation pattern.
- the erroneous estimation pattern is, for example, a pattern of estimation results for each of a predetermined number of time-series query images.
- the predetermined number here may be 2 or more.
- the erroneous estimation pattern may include a different estimation result for at least one query image than for other query images.
- FIG. 13 is a diagram showing an example of such an erroneous estimation pattern.
- "OK” indicates positive estimation
- "NG” indicates negative estimation.
- a positive presumption is the result of a predetermined pose.
- a negative presumption is the result of a presumption that the pose is not the predetermined one.
- Pattern 1 shown in FIG. 13(a) is an example of a pattern in which the estimation results for each of four time-series query images are "OK/NG/OK/NG" in order.
- This pattern 1 is an example of a pattern in which the estimation results for the time-series query images are repeated a predetermined number of times or more and are different.
- FIG. 13A shows an example in which the predetermined number of times is two.
- Pattern 2 shown in FIG. 13(b) is an example of a pattern in which the estimation results for each of the four time-series query images are "OK/OK/OK/NG" in order.
- This pattern 2 is an example of a pattern in which a predetermined posture is estimated to be not the predetermined posture immediately after a predetermined number or more consecutive query images are estimated to be in the predetermined posture.
- FIG. 13(b) shows an example in which the predetermined number is three.
- the erroneous estimation pattern is not limited to patterns such as patterns 1 and 2 that include a different estimation result for at least one query image than for other query images.
- the erroneous estimation pattern may be any pattern that includes a plurality of query images with different estimation results. This makes it possible to detect potentially erroneous estimation results.
- An example of such an erroneous estimation pattern is a pattern that includes an estimation result that is different from at least one of the previous and subsequent ones in chronological order (represented by "OK" and "NG” as in FIG. 13, each of the query images in the chronological order (one or both of patterns in which the estimation results are "OK/NG” and patterns in which the estimation results are "NG/OK” in order) can be cited.
- step S201 If it is determined that the estimation results for the plurality of query images do not correspond to the erroneous estimation pattern (step S201; No), the determination unit 117 repeats step S201.
- the display control unit 119 acquires the query image related to the erroneous estimation pattern, and displays the obtained query image.
- the information is displayed on the display unit 118 (step S202).
- Query images related to the erroneous estimation pattern include a query image for which estimation is different from other query images among the plurality of query images.
- the display control unit 119 may also display the estimation results for the acquired query image.
- step S202 by executing step S202, if the estimation results for the time-series query images are different after repeating a predetermined number of times or more, the display control unit 119 displays the query images for which different estimations have been made repeatedly on the display. 118. In this case, the display control unit 119 preferably causes the display unit 118 to display at least one of the query images that correspond to pattern 1.
- step S202 the display control unit 119 estimates that the time-series query images are not in the predetermined pose immediately after a predetermined number or more consecutive query images are estimated to be in the predetermined pose. , the query image determined not to be in the predetermined posture is displayed on the display unit 118.
- the display control unit 119 determines whether or not the result estimated in step S105 for the query image displayed in step S202 is incorrect, based on the user's input, for example (step S203).
- the user views and confirms the query image displayed in step S202 and the estimation result for the query image on the display unit 118. Then, the user operates the input unit 116 to input whether or not the result estimated in step S105 for the displayed query image is incorrect.
- step S203 If it is determined that the estimated result is not incorrect (step S203; No), the display control unit 119 returns to step S201.
- step S203 If it is determined that the estimated result is incorrect (step S203; Yes), the display control unit 119 displays the reference image on the display unit 118 (step S204).
- the display control unit 119 may display one or more query images for which the estimation result is incorrect among the time-series query images for which different estimations have been made. At least one of the reference images is displayed on the display unit 118.
- the reference image displayed here is the reference image used when estimating the query image displayed in step S202 in step S105. More specifically, the reference image displayed here is a reference image showing a person whose degree of similarity to the photographed person shown in the incorrectly estimated query image satisfies a predetermined criterion.
- the predetermined criteria include that the degree of similarity is the highest, that the degree of similarity is greater than or equal to a threshold value, and so on.
- the display control unit 119 determines whether or not a predetermined instruction for displaying the thinned-out frame image has been received, based on the user's input, for example (step S205).
- step S205 If it is determined that the predetermined instruction has not been received (step S205; No), the display control unit 119 returns to step S201.
- step S205 If it is determined that the predetermined instruction has been received (step S205; Yes), the display control unit 119 acquires the frame images thinned out in step S102 from the image acquisition unit 111 (step S206).
- the display control unit 119 acquires at least one frame image thinned out between time-series query images for which different determinations have been made.
- the display control unit 119 may display at least one of the thinned frame images acquired by the image acquisition unit 111 during the time between the query image for which the positive estimation was made and the query image for which the negative estimation was made. get.
- the display control unit 119 may display at least one of the thinned frame images acquired by the image acquisition unit 111 at a time between the query image for which the negative estimation has been made and the query image for which the positive estimation has been made. get.
- the imaging unit 101 may store the frame images, and the display control unit 119 may acquire the thinned out frame images from the imaging unit 101.
- the number of frame images transmitted from the photographing section 101 to the information processing apparatus 100 can be reduced, so that communication charges between the photographing section 101 and the information processing apparatus 100 can be reduced.
- the posture acquisition section 113, the similarity degree acquisition section 114, and the estimation section 115 execute processes similar to steps S103 to S105 of the posture estimation process.
- the posture acquisition unit 113 uses first posture information based on a plurality of reference images associated with a predetermined posture and the frame image acquired in step S206. and second posture information based on the second posture (step S103).
- the similarity obtaining unit 114 obtains the similarity between each of the first models and the second model included in each of the first posture information and second posture information obtained in step S103 (step S104).
- the estimation unit 115 estimates the posture of the photographed person shown in the frame image based on the frame image acquired in step S206 and the plurality of reference images (step S105). In step S105, the estimation unit 115 estimates the pose of the photographed person shown in the query image based on the overall similarity between the frame image acquired in step S206 and each of reference images 1 to 7. do.
- the estimation unit 115 estimates the posture of the photographed person shown in the frame image based on at least one thinned-out frame image and the reference image. .
- the display control unit 119 causes the display unit 118 to display the frame image acquired in step S206 and the result estimated in step S105 for the frame image (step S207), and returns to step S201.
- the display control unit 119 causes the display unit 118 to display at least one frame image thinned out between the time-series query images for which different determinations have been made.
- the query image that may have been estimated incorrectly, the reference image related thereto, and the thinned out frame image can be displayed on the display unit 118. Furthermore, the display unit 118 can display the result of estimating whether or not the posture is a predetermined posture using the thinned out frame image and the reference image. This allows the user to know what kind of query image has been incorrectly estimated. Furthermore, the user can know which reference image was used to make the incorrect estimation.
- the information processing device 100 includes the estimation section 115 and the display control section 119.
- the estimation unit 115 estimates a plurality of images based on a plurality of query images obtained by photographing a person performing a predetermined action a plurality of times, and a reference image showing a person associated with a predetermined posture. The posture of the photographed person shown in each of the query images is estimated.
- the display control unit 119 causes the display unit 118 to display the query images for which the different estimation results have been obtained.
- the estimation results may contain errors.
- the user can refer to query images for which different estimates have been made. The user then checks whether the estimated pose is correct for each query image and takes measures to improve the accuracy of pose estimation, such as by deleting reference images that may be causing incorrect estimation. can do. Therefore, it is possible to improve the accuracy of estimating the posture of the photographed person shown in the image.
- the plurality of query images are time-series query images. This makes it possible to improve the accuracy of estimating the posture of the photographed person shown in the time-series query images.
- the display control unit 119 causes the display unit 118 to display the query images for which different estimations have been made repeatedly. .
- the information processing device 100 calculates the degree of similarity in posture between the photographed person shown in the query image and the person shown in the reference image for each combination of a time-series query image and one or more reference images.
- a degree acquisition unit 114 is provided.
- the estimation unit 115 estimates the posture of the photographed person shown in each of the time-series query images based on the degree of similarity. If there is a query image for which the estimation result is incorrect among the time-series query images for which different estimations have been repeatedly made, the display control unit 119 selects one or more reference images that have been incorrectly estimated.
- the display section 118 displays a reference image indicating a person whose similarity with the photographed person shown in the query image obtained satisfies a predetermined criterion.
- the information processing device 100 includes an image acquisition unit 111 that acquires time-series frame images obtained by temporally consecutively photographing a person to be photographed multiple times.
- the plurality of query images are frame images obtained by thinning out some of the time-series frame images.
- the display control unit 119 further causes the display unit 118 to display at least one frame image thinned out between the time-series query images for which different determinations have been made.
- the estimation unit 115 further estimates the posture of the photographed person shown in the frame image based on at least one thinned-out frame image and the reference image.
- the display control unit 119 controls the display control unit 119 when it is estimated that the time-series query images are not in the predetermined pose immediately after a predetermined number or more consecutive query images are estimated to be in the predetermined pose. , causes the display unit 118 to display the query image determined not to be in the predetermined posture.
- the information processing device 100 further includes a determination unit 117 that determines whether a plurality of query images include query images with different estimation results.
- the determination unit 117 determines whether the estimation results for a plurality of query images correspond to a predetermined erroneous estimation pattern.
- the erroneous estimation pattern is a pattern of estimation results regarding the posture of the photographed person included in each of the plurality of query images, and includes a different estimation result for at least one query image than for other query images.
- the display control unit 119 causes the display unit 118 to display a query image related to the erroneous estimation pattern.
- an erroneous estimation pattern is a pattern in which the estimation result for a time-series query image is repeatedly different for a predetermined number of times or more, and a pattern in which the estimation result for a time-series query image is repeatedly different for a predetermined number of times or more, and a pattern in which a predetermined posture is continuously different for a predetermined number of times or more for a time-series query image.
- a predetermined posture is continuously different for a predetermined number of times or more for a time-series query image.
- multiple shots are taken while the ATM is being operated. This makes it possible to improve the accuracy of estimating the posture of the person shown in the image taken while the ATM is being operated.
- the plurality of query images are images showing a common photographed person. This makes it possible to improve the accuracy of estimating the posture of a common subject shown in images.
- the information processing device 100 includes an estimation section 115 and a display control section 119.
- the estimating unit 115 determines what is shown in the query image based on a query image obtained based on photography while performing a predetermined action, and one or more reference images showing a person corresponding to a predetermined posture. The pose of the person being photographed is estimated.
- the display control unit 119 determines the degree of similarity in posture between the one or more reference images and the subject shown in the query image for which the incorrect estimation was made.
- a reference image indicating a person meeting predetermined criteria is displayed on the display unit 118.
- ⁇ Embodiment 2> In the first embodiment, an example has been described in which a plurality of imaging operations are performed at consecutive (different) times.
- the multiple shootings may be shootings performed from two or more different directions at the same time.
- FIG. 14 is a diagram showing a detailed functional configuration example of the information processing system S2 according to the second embodiment.
- the information processing system S2 includes two imaging units 101, an information processing device 100, and an analysis device 102. Note that the number of photographing units 101 may be three or more.
- the two photographing units 101 are cameras that photograph a common area, such as the front of the ATM, for example. Therefore, the two photographing units 101 can photograph a common subject from different directions at the same time.
- Each of the imaging units 101 may be functionally and physically similar to the imaging unit 101 according to the first embodiment.
- Each of the information processing device 100 and the analysis device 102 may be functionally and physically similar to those in the first embodiment.
- the display control unit 119 causes the display unit 118 to display the query images with different estimation results.
- the information processing system S2 preferably operates in the same manner as the information processing system S1 according to the first embodiment.
- multiple shootings are shootings performed from two or more different directions at the same time.
- the subject shown in the query image is an estimation means for estimating the posture of a person;
- the estimating means makes an incorrect estimation, the degree of similarity in posture with the photographed person shown in the query image for which the incorrect estimation was made among the one or more reference images satisfies a predetermined standard.
- display control means for displaying the reference image indicating a person satisfying the above criteria on a display means.
- Each of the plurality of query images is based on a plurality of query images obtained by photographing a person performing a predetermined action multiple times, and a reference image showing a person associated with a predetermined posture.
- Estimating means for estimating the posture of the photographed person shown in An information processing device comprising: when the plurality of query images include query images with different estimation results, display control means causes a display means to display the query images with different estimation results. 3.
- the plurality of query images are time-series query images.2.
- the display control means causes the display means to display the query images for which different estimations have been made repeatedly, when the estimation results for the time-series query images are different after repeating a predetermined number of times or more.3.
- the reference image is one or more, Similarity acquisition for each combination of the time-series query image and the one or more reference images to determine the degree of similarity in posture between the photographed person shown in the query image and the person shown in the reference image. further equipped with means;
- the estimating means estimates a posture of the photographed person shown in each of the time-series query images based on the degree of similarity;
- the display control means displays a query image with an incorrect estimation result among the one or more reference images. 4. displaying the reference image indicating a person whose similarity with the photographed person shown in the estimated query image satisfies a predetermined criterion on the display means; 4.
- the information processing device described in . 6. further comprising image acquisition means for acquiring time-series frame images obtained by temporally consecutively photographing the photographed person a plurality of times;
- the plurality of query images are frame images obtained by thinning out some of the time-series frame images, 3.
- the display control means further causes the display means to display at least one frame image thinned out between the time-series query images for which the different determinations have been made.3. From 5.
- the estimation means further estimates the posture of the photographed person shown in the frame image based on the at least one thinned-out frame image and the reference image.
- the display control means may display the predetermined posture for the time-series query images when it is estimated that the predetermined posture is not the predetermined posture immediately after a predetermined number or more consecutive query images are estimated to be in the predetermined posture. Displaying the query image determined not to be a posture on the display means 3.
- the determining means determines whether the estimation results for the plurality of query images correspond to a predetermined erroneous estimation pattern;
- the erroneous estimation pattern is a pattern of estimation results regarding the posture of the photographed person included in each of a plurality of query images, and includes a different estimation result for at least one query image than for other query images,
- the display control means causes the display means to display a query image related to the erroneous estimation pattern when the determination means determines that the estimation result for the plurality of query images corresponds to the erroneous estimation pattern.9 ..
- the erroneous estimation pattern is a pattern in which the estimation results for a time-series query image are repeatedly different for a predetermined number of times or more, and a pattern in which the predetermined posture is estimated for a predetermined number or more consecutive times for a time-series query image. 10. At least one pattern that is estimated to be not in the predetermined posture is included immediately after the posture.
- the multiple shootings are shots taken from two or more different directions at the same time.
- the information processing device described in . 13. The multiple shots are taken while the ATM is being operated.2. From 12.
- the plurality of query images are images showing the same person to be photographed.1. From 10.
- the information processing device according to any one of An information processing system comprising: one or more imaging units that perform the plurality of imaging operations.
- the computer is The information displayed in each of the plurality of query images is based on a plurality of query images obtained based on multiple shootings while performing a predetermined action, and a reference image showing a person corresponding to a predetermined posture. Estimates the pose of the person being photographed.
- An information processing method wherein when the plurality of query images include query images with different estimation results, the query images with different estimation results are displayed on a display means. 17.
- the information displayed in each of the plurality of query images is based on a plurality of query images obtained based on multiple shootings while performing a predetermined action, and a reference image showing a person corresponding to a predetermined posture. Estimates the pose of the person being photographed.
- a recording medium storing a program for causing a display unit to display a query image with a different estimation result when the plurality of query images include a query image with a different estimation result. 18. to the computer, The information displayed in each of the plurality of query images is based on a plurality of query images obtained based on multiple shootings while performing a predetermined action, and a reference image showing a person corresponding to a predetermined posture. Estimates the pose of the person being photographed.
- S1, S2 Information processing system 100 Information processing device 101 Photographing unit 102 Analysis device 111 Image acquisition unit 112 Storage unit 112a Reference information 112b Weight information 113 Posture acquisition unit 114 Similarity acquisition unit 114a Overall calculation unit 114b Element calculation unit 115 Estimation unit 116 Input section 117 Judgment section 118 Display section 119 Display control section
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
情報処理装置(100)は、推定部(115)及び表示制御部(119)を備える。推定部(115)は、所定の行動を行う被撮影者を複数回撮影することで得られた複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、複数のクエリ画像の各々に示される被撮影者の姿勢を推定する。表示制御部(119)は、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示部に表示させる。
Description
本発明は、情報処理装置、情報処理方法、情報処理システム及び記録媒体に関する。
例えば特許文献1に記載の画像検索装置は、姿勢推定部と、特徴量抽出部と、クエリ生成部と、画像検索部とを備える。
同文献に記載の姿勢推定部は、入力画像から複数の特徴点で構成される検索対象の姿勢情報を認識する。同文献に記載の特徴量抽出部は、姿勢情報と入力画像から特徴量を抽出する。同文献に記載のクエリ生成部は、特徴量を入力画像と関連付けて蓄積する画像データベースと、ユーザが指定した姿勢情報から検索クエリを生成する。同文献に記載の画像検索部は、検索クエリに従って類似した姿勢を含む画像を画像データベースから検索する。
なお、特許文献2には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が記載されている。非特許文献1には、人物の骨格推定に関連する技術が記載されている。
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, [Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields];, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
特許文献1には、画像に基づいて姿勢又は行動を推定するための技術が記載されている。しかしながら、特許文献1では、姿勢が正しく推定されたか否かが分からないため、画像に示される被撮影者の姿勢を推定する精度を向上させることが困難である。
なお、特許文献2及び非特許文献1も、人物を撮影した画像から予め定められた姿勢である人物を検出する精度を向上させるための技術を開示していない。
本発明の目的の一例は、上述した課題を鑑み、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置、情報処理方法、情報処理システム及び記録媒体を提供することにある。
本発明の一態様によれば、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定する推定手段と、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる表示制御手段とを備える
情報処理装置が提供される。
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定する推定手段と、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる表示制御手段とを備える
情報処理装置が提供される。
本発明の一態様によれば、
上記の情報処理装置と、
前記複数回の撮影を行う1つ又は複数の撮影部とを備える
情報処理システムが提供される。
上記の情報処理装置と、
前記複数回の撮影を行う1つ又は複数の撮影部とを備える
情報処理システムが提供される。
本発明の一態様によれば、
コンピュータが、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる
情報処理方法が提供される。
コンピュータが、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる
情報処理方法が提供される。
本発明の一態様によれば、
コンピュータに、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させることを実行させるためのプログラムが記録された記録媒体が提供される。
コンピュータに、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させることを実行させるためのプログラムが記録された記録媒体が提供される。
本発明の一態様によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置、情報処理方法、情報処理システム及び記録媒体を提供することが可能になる。
以下、本発明の実施の形態について、図面を用いて説明する。なお、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
<実施形態1>
(概要)
図1は、実施形態1に係る情報処理装置100の概要を示す図である。情報処理装置100は、推定部115及び表示制御部119を備える。
(概要)
図1は、実施形態1に係る情報処理装置100の概要を示す図である。情報処理装置100は、推定部115及び表示制御部119を備える。
推定部115は、所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、複数のクエリ画像の各々に示される被撮影者の姿勢を推定する。
表示制御部119は、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示部に表示させる。
この情報処理装置100によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置100を提供することが可能になる。
図2は、実施形態1に係る情報処理システムS1の概要を示す図である。情報処理システムS1は、情報処理装置100と、複数回の撮影を行う1つ又は複数の撮影部101とを備える。
この情報処理システムS1によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理システムS1を提供することが可能になる。
図3は、実施形態1に係る情報処理の概要を示すフローチャートである。
推定部115は、所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、複数のクエリ画像の各々に示される被撮影者の姿勢を推定する(ステップS105)。
表示制御部119は、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示部に表示させる(ステップS202)。
この情報処理によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理システムS1を提供することが可能になる。
(詳細)
以下、実施形態1に係る情報処理システムS1の詳細例について説明する。
以下、実施形態1に係る情報処理システムS1の詳細例について説明する。
図4は、実施形態1に係る情報処理システムS1の詳細な機能的な構成例を示す図である。情報処理システムS1は、撮影部101と、情報処理装置100と、解析装置102とを備える。撮影部101、情報処理装置100及び解析装置102は、有線、無線又はこれらを組み合わせて構成されるネットワークNを介して接続されており、互いに情報を送受信することができる。
撮影部101は、所定の行動を行っている人物(被撮影者)を撮影する。撮影部101は、例えば、銀行などの金融機関の店舗に設置され、現金自動預払機(ATM)を操作する操作者を撮影するカメラである。
なお、撮影部101は、ATMの操作者を撮影するためのカメラに限られず、銀行などの店舗内を撮影するカメラであってもよく、金融機関以外の各種の店舗などに設置されるカメラであってもよい。
撮影部101は、所定の撮影領域を撮影して動画像を示す画像情報を情報処理装置100へ送信する。
詳細には、撮影部101は、所定のフレームレートにて時系列で連続して複数回撮影する。撮影部101は、各撮影でフレーム画像を含むフレーム情報を生成する。撮影部101は、時系列のフレーム画像の各々を含むフレーム情報をネットワークNを介して情報処理装置100へ送信する。
解析装置102は、画像を解析する装置である。解析装置102は、撮影部101にて生成された画像情報をネットワークNを介して取得する。本実施形態では、解析装置102は、撮影部101から情報処理装置100を介して画像情報を取得する例を説明するが、撮影部101から直接画像情報を取得してもよい。
解析装置102は、取得した画像情報に含まれる画像を解析する装置である。
詳細には、解析装置102は、画像を解析するための処理(解析処理)を行う1つ又は複数の解析機能を備える。解析装置102が備える解析機能は、(1)物体検出機能、(2)顔解析機能、(3)人型解析機能、(4)姿勢解析機能、(5)行動解析機能、(6)外観属性解析機能、(7)勾配特徴解析機能、(8)色特徴解析機能、(9)動線解析機能などの1つ又は複数である。
(1)物体検出機能は、画像から人物及び物を検出する。物体検出機能は、画像内の人物及び物の位置を求めることもできる。物体検出処理に適用されるモデルとして、例えば、YOLO(You Only Look Once)がある。物体検出機能は、例えば、操作者、携帯電話(スマートフォンを含む。)、車椅子などを検出する。また例えば、物体検出機能は、検出した人物及び物の位置を求める。
(2)顔解析機能は、画像から人の顔を検出し、検出した顔の特徴量(顔特徴量)の抽出、検出した顔の分類(クラス分け)などを行う。顔解析機能は、顔の画像内の位置を求めることもできる。顔解析機能は、異なる画像から検出した人物の顔特徴量同士の類似度などに基づいて、異なる画像から検出した人物の同一性を判定することもできる。
(3)人型解析機能は、画像に含まれる人の人体的特徴量(例えば、体形の肥痩や、身長、服装などの全体的な特徴を示す値)の抽出、画像に含まれる人の分類(クラス分け)などを行う。人型解析機能は、人の画像内の位置を特定することもできる。人型解析機能は、異なる画像に含まれる人の人体的特徴量などに基づいて、異なる画像に含まれる人の同一性を判定することもできる。
(4)姿勢解析機能は、人の姿勢を示す姿勢情報を生成する。姿勢情報は、例えば、人物の姿勢推定モデルを含む。姿勢推定モデルは、画像から推定される人物の関節を繋いだモデルである。姿勢推定モデルは、関節に対応する関節要素、胴体に対応する体幹要素、関節間を接続する骨に対応する骨要素などに対応する複数のモデル要素から構成される。姿勢解析機能は、例えば、画像から人物の関節点を検出し、関節点を繋げて姿勢推定モデルを作成する。
そして、姿勢解析機能は、姿勢推定モデルの情報を用いて、人の姿勢を推定し、推定した姿勢の特徴量(姿勢特徴量)の抽出、画像に含まれる人の分類(クラス分け)などを行う。姿勢解析機能は、異なる画像に含まれる人の姿勢特徴量などに基づいて、異なる画像に含まれる人の同一性を判定することもできる。
例えば、姿勢解析機能は、通話姿勢、車椅子姿勢などの姿勢推定モデルを作成し、それらの姿勢における姿勢特徴量を抽出する。通話姿勢は、携帯電話を用いて通話する姿勢である。車椅子姿勢は、車椅子を利用する者の姿勢である。
姿勢解析機能には、例えば、特許文献2、非特許文献1に開示された技術を適用することができる。
(5)行動解析処理は、姿勢推定モデルの情報、姿勢の変化などを用いて、人の動きを推定し、人の動きの特徴量(動き特徴量)の抽出、画像に含まれる人の分類(クラス分け)などを行うことができる。行動解析処理では、棒人間モデルの情報を用いて、人の身長を推定したり、人物の画像内の位置を特定したりすることもできる。行動解析処理は、例えば、姿勢の変化又は推移、移動(位置の変化又は推移)などの行動を画像から推定し、その行動の動き特徴量を抽出することができる。
(5)行動解析処理は、姿勢推定モデルの情報、姿勢の変化などを用いて、人の動きを推定し、人の動きの特徴量(動き特徴量)の抽出、画像に含まれる人の分類(クラス分け)などを行うことができる。行動解析処理では、棒人間モデルの情報を用いて、人の身長を推定したり、人物の画像内の位置を特定したりすることもできる。行動解析処理は、例えば、姿勢の変化又は推移、移動(位置の変化又は推移)などの行動を画像から推定し、その行動の動き特徴量を抽出することができる。
(6)外観属性解析機能は、人に付随する外観属性を認識することができる。外観属性解析機能は、認識した外観属性に関する特徴量(外観属性特徴量)の抽出、画像に含まれる人の分類(クラス分け)などを行う。外観属性とは、外観上の属性であり、例えば、服装の色、靴の色、髪型、帽子やネクタイ、眼鏡などの着用又は非着用などの1つ以上を含む。
(7)勾配特徴解析機能は、画像における勾配の特徴量(勾配特徴量)を抽出する。勾配特徴検出処理には、例えば、SIFT、SURF、RIFF、ORB、BRISK、CARD、HOGなどの技術を適用することができる。
(8)色特徴解析機能は、画像から物体を検出し、検出した物体の色の特徴量(色特徴量)の抽出、検出した物体の分類(クラス分け)などを行うことができる。色特徴量は、例えばカラーヒストグラムなどである。色特徴解析機能は、例えば、画像に含まれる人物、物を検出することができる。
(9)動線解析機能は、例えば上述の(2)~(6)の解析機能のいずれかにおける同一性の判定の結果を用いて、映像に含まれる人の動線(移動の軌跡)を求めることができる。詳細には例えば、時系列的に異なる画像間で同一であると判定された人を接続することで、その人の動線を求めることができる。なお、動線解析機能は、異なる撮影領域を撮影する複数の撮影部101で撮影した映像を取得した場合などには、異なる撮影領域を撮影した複数の映像間に跨る動線を求めることもできる。
画像特徴量は、例えば、物体検出機能での物品の検知結果、顔特徴量、人体的特徴量、姿勢特徴量、動き特徴量、外観属性特徴量、勾配特徴量、色特徴量、動線を含む。
なお、(1)~(9)の各解析機能は、他の解析機能が行った解析の結果を適宜利用してもよい。情報処理装置100は、解析装置102の機能を備える解析部を備えてもよい。
実施形態1に係る情報処理装置100は、フレーム画像に含まれる人物の姿勢を推定する装置である。情報処理装置100は、図4に示すように、機能的に、画像取得部111と、記憶部112と、姿勢取得部113と、類似度取得部114と、推定部115と、入力部116と、判定部117と、表示部118と、表示制御部119とを備える。
画像取得部111は、動画像を示す画像情報を撮影部101から取得する。すなわち、画像取得部111は、時系列で連続する複数回の撮影で得られる時系列の複数のフレーム画像を取得する。
詳細には、画像取得部111は、時系列の複数のフレーム画像の各々を含むフレーム情報を撮影部101から取得する。画像取得部111は、取得したフレーム情報を記憶する。
記憶部112は、各種情報を記憶するための記憶部である。記憶部112は、例えば、参照画像を示す参照情報112a、重みを示す重み情報112bなどを予め記憶する。
参照画像は、所定の姿勢に対応付けられた人物の画像である。参照画像は、クエリ画像に含まれる人物の姿勢を推定するために参照される画像であり、適宜選定して記憶部112に設定される。所定の姿勢は、例えば、通話姿勢、車椅子姿勢などである。
図5は、通話姿勢に対応付けられた参照画像を含む参照情報112aの構成例を示す図である。図5に例示する参照情報112aは、例えば、正例と、負例とを含む。
正例は、所定の姿勢である人物の参照画像である。図5に例示する正例(すなわち、参照画像1~4)は、通話姿勢である人物の参照画像であり、例えば、立って右手又は左手で携帯電話を持って通話する人物などを示す。
負例は、所定の姿勢ではない人物の参照画像である。負例には、所定の姿勢ではないが当該所定の姿勢に類似する姿勢である人物の画像が選定されるとよい。図5に例示する負例(すなわち、参照画像5~7)は、通話姿勢ではない人物の参照画像であり、例えば、携帯電話を持たずに直立する姿勢の人物などを示す。
なお、参照情報112aは、少なくとも1つの参照画像を含めば、幾つの参照画像を含んでもよい。また、参照情報112aは、正例のみを含んでもよい。
重みは、所定の姿勢における姿勢推定モデル間の類似度を求めるためにモデル要素の各々が重視される程度を示す値である。重み情報112bは、所定の姿勢ごとに、モデル要素の各々の重みを含む。
図6は、通話姿勢に対応付けられた重みを示す重み情報112bの構成例を示す図である。図5に例示する重み情報112bは、通話姿勢における要素IDと重みとを関連付ける。要素IDは、モデル要素を識別するための情報である。要素IDは、例えば、体幹要素、左右の腕の上部及び下部、左右の脚の大腿部及び下腿部などに対応する骨要素と、関節要素との各々に適宜付与される番号などである。重みは、所定の姿勢のモデル要素ごとに定められる。図5では、重みが0以上の整数である例を示すが、重みの設定方法は適宜変更されてもよい。
例えば、通話姿勢では携帯電話を持って通話するため、腕に関して設定される重みは、脚に関して設定される重みよりも大きい。また例えば、右手で通話する場合の通話姿勢では、右手に関して設定される重みは、左手に関して設定される重みよりも大きい。
姿勢取得部113は、通話姿勢などの所定の姿勢に対応付けられた複数の参照画像を記憶部112から取得して、取得した複数の参照画像に基づいて、第1姿勢情報を取得する。
第1姿勢情報は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す情報である。第1姿勢情報は、例えば、参照画像に示される人物に関する姿勢推定モデルである第1モデルを含む。
また、姿勢取得部113は、画像取得部111から時系列のフレーム画像を取得し、時系列のフレーム画像から一部を間引くことでクエリ画像を取得する。そして、姿勢取得部113は、取得したクエリ画像に基づいて、第2姿勢情報を取得する。
第2姿勢情報は、クエリ画像に示される被撮影者の姿勢を示す情報である。第2姿勢情報は、例えば、クエリ画像に示される被撮影者に関する姿勢推定モデルである第2モデルを含む。
詳細には例えば、姿勢取得部113は、取得した参照画像及びクエリ画像の各々を解析装置102へネットワークNを介して送信する。参照画像を解析装置102へ送信した場合、姿勢取得部113は、当該参照画像に示される人物に関する第1モデルを含む第1姿勢情報を解析装置102から取得する。クエリ画像を解析装置102へ送信した場合、姿勢取得部113は、当該クエリ画像に示される人物に関する第2モデルを含む第2姿勢情報を解析装置102から取得する。
類似度取得部114は、時系列のクエリ画像と、所定の姿勢に対応する複数の参照画像との組み合わせの各々について、クエリ画像に示される被撮影者と参照画像に示される人物との姿勢に関する類似度を求める。
類似度は、所定の姿勢における姿勢推定モデル間の類似する程度を示す値である。
例えば、類似度取得部114は、所定の姿勢に対応する複数の参照画像の各々に示される人物の第1モデルを姿勢取得部113から取得する。また、類似度取得部114は、時系列のクエリ画像の各々に示される被撮影者の第2モデルを姿勢取得部113から取得する。類似度取得部114は、第1モデルと第2モデルとの組み合わせの各々について、第1モデルと第2モデルとを用いて類似度を求める。
類似度は、全体類似度と、要素類似度とを含む。
全体類似度は、所定の姿勢における第1モデルと第2モデルとの全体的な類似する程度を示す値、すなわち、第1モデルと第2モデルとの全体的な類似度である。
要素類似度は、所定の姿勢における第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度、すなわち、第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度である。
なお、類似度は、全体類似度と、要素類似度との少なくとも一方を含めばよい。
図7は、本実施形態に係る類似度取得部114の機能的な構成例を示す図である。類似度取得部114は、全体算出部114aと、要素算出部114bとを含む。
全体算出部114aは、第1モデルと第2モデルとの全体類似度を求める。詳細には、全体算出部114aは、重み情報112bに含まれる所定の姿勢に対応する重みと、要素算出部114bが求める要素類似度と、を用いて、全体類似度を求める。
例えば、全体算出部114aは、各モデル要素の類似度を要素算出部114bから取得すると、モデル要素の類似度の各々と、対応するモデル要素の重みとの積を求め、姿勢推定モデルを構成する各モデル要素について得られた積を合算する。この合算の結果として得られる値が全体類似度である。
要素算出部114bは、第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度である要素類似度を求める。要素算出部114bは、例えば、第1モデルと第2モデルとで対応するモデル要素ごとに、大きさ、長さ、傾きなどに基づいて、要素類似度を求める。
推定部115は、所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、複数のクエリ画像の各々に示される被撮影者の姿勢を推定する。
例えば、推定部115は、類似度取得部114が求めた類似度(例えば、全体類似度)に基づいて、時系列のクエリ画像の各々に示される被撮影者の姿勢を推定する。
また、推定部115は、時系列のフレーム画像のうち、間引かれた少なくとも1つのフレーム画像と、参照画像と、に基づいて、当該間引かれた少なくとも1つのフレーム画像に示される被撮影者の姿勢を推定してもよい。
この場合、姿勢取得部113は、間引かれた少なくとも1つのフレーム画像を画像取得部111から取得し、当該フレーム画像に示される被撮影者の第2モデルを取得する。類似度取得部114は、当該フレーム画像に示される被撮影者の第2モデルと、複数の参照画像の各々に示される人物の第1モデルとに基づいて、全体類似度を求める。そして、推定部115は、類似度取得部114が求めた全体類似度に基づいて、当該間引かれた少なくとも1つのフレーム画像に示される被撮影者の姿勢を推定する。
推定部115が類似度に基づいて被撮影者の姿勢を推定する方法は、種々である。以下にその例として、姿勢推定方法1~5を説明する。
(姿勢推定方法1)
例えば、推定部115は、正例と負例のうち、類似度が最も大きい値の参照画像に基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。この場合、例えば、類似度が最大の参照画像が正例の場合、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。類似度が最大の参照画像が負例の場合、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。
例えば、推定部115は、正例と負例のうち、類似度が最も大きい値の参照画像に基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。この場合、例えば、類似度が最大の参照画像が正例の場合、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。類似度が最大の参照画像が負例の場合、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。
(姿勢推定方法2)
また例えば、推定部115は、正例平均値と負例平均値とに基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。正例平均値は、所定の姿勢に対応付けられた複数の正例とクエリ画像又はフレーム画像との類似度の平均値である。負例平均値は、所定の姿勢に対応付けられた複数の負例とクエリ画像又はフレーム画像との類似度の平均値である。
また例えば、推定部115は、正例平均値と負例平均値とに基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。正例平均値は、所定の姿勢に対応付けられた複数の正例とクエリ画像又はフレーム画像との類似度の平均値である。負例平均値は、所定の姿勢に対応付けられた複数の負例とクエリ画像又はフレーム画像との類似度の平均値である。
この場合、例えば、推定部115は、正例平均値が負例平均値より大きい場合に、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。正例平均値が負例平均値以下である場合に、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。
(姿勢推定方法3)
さらに例えば、推定部115は、クエリ画像又はフレーム画像と参照画像との画像マッチングを行い、画像マッチングにおいて適合した参照画像とクエリ画像又はフレーム画像との類似度に基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。この場合、推定部115は、画像マッチングで適合した参照画像のうちの、正例平均値と負例平均値とに基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。
さらに例えば、推定部115は、クエリ画像又はフレーム画像と参照画像との画像マッチングを行い、画像マッチングにおいて適合した参照画像とクエリ画像又はフレーム画像との類似度に基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。この場合、推定部115は、画像マッチングで適合した参照画像のうちの、正例平均値と負例平均値とに基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。
詳細には例えば、推定部115は、画像マッチングで適合した参照画像のうちの正例平均値が負例平均値より大きい場合に、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。画像マッチングで適合した参照画像のうちの正例平均値が負例平均値以下である場合に、推定部115は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。
なお、画像マッチングには、種々の公知の技術が適用されてよい。例えば、推定部115は、クエリ画像又はフレーム画像に示される被撮影者と参照画像に示される人物との特徴量などに基づいて画像間の類似度を求める。推定部115は、画像間の類似度と閾値とを比較することで、クエリ画像又はフレーム画像と参照画像とが適合するか否かを判定する。推定部115は、例えば、画像間の類似度が閾値以上である場合に適合(類似)すると判定し、画像間の類似度が閾値未満である場合に適合しない(非類似)と判定する。
(姿勢推定方法4)
推定部115は、類似度を用いずに、画像マッチングのみを用いて、被撮影者の姿勢を推定してもよい。
推定部115は、類似度を用いずに、画像マッチングのみを用いて、被撮影者の姿勢を推定してもよい。
例えば、推定部115は、画像マッチングで少なくとも1つの正例と適合した場合に、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢であると推定してもよい。また例えば、推定部115は、画像マッチングで少なくとも1つの負例と適合した場合に、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢でないと推定してもよい。
さらに例えば、推定部115は、画像マッチングで適合する正例と負例との適合する数に基づいて、被撮影者の姿勢を推定してもよい。この場合、例えば、推定部115は、正例との適合数が負例との適合数よりも多い場合、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢であると推定する。また例えば、推定部115は、正例との適合数が負例との適合数以下である場合、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢でないと推定する。
画像マッチングにおいて、クエリ画像又はフレーム画像が正例と負例のいずれとも適合しない場合、推定部115は、当該クエリ画像又は当該フレーム画像を、正例と負例のいずれとも異なると判定してもよく、負例と判定してもよい。
(姿勢推定方法5)
推定部115は、参照画像を用いた機械学習を行って学習済みの学習モデルを用いて、クエリ画像又は当該フレーム画像が正例と負例とのいずれに適合(類似)するかを判定してもよい。この学習モデルは、被撮影者が正例と負例とのいずれに適合するかを判定するための機械学習を行った学習済みの学習モデルである。この場合、推定部115は、被撮影者を示すクエリ画像又は当該フレーム画像を含む画像情報を、学習モデルに入力することで、クエリ画像又は当該フレーム画像が正例と負例とのいずれに適合(類似)するかの判定結果を取得する。
推定部115は、参照画像を用いた機械学習を行って学習済みの学習モデルを用いて、クエリ画像又は当該フレーム画像が正例と負例とのいずれに適合(類似)するかを判定してもよい。この学習モデルは、被撮影者が正例と負例とのいずれに適合するかを判定するための機械学習を行った学習済みの学習モデルである。この場合、推定部115は、被撮影者を示すクエリ画像又は当該フレーム画像を含む画像情報を、学習モデルに入力することで、クエリ画像又は当該フレーム画像が正例と負例とのいずれに適合(類似)するかの判定結果を取得する。
学習時の学習モデルへのインプットデータは、人物を示す画像情報を含む。また、学習では、インプットデータが正例と負例とのいずれに適合するかを示すラベル(正解)を含む教師あり学習が行われるとよい。
入力部116は、ユーザからの入力を受け付けるキーボード、マウス、タッチパネルなどである。
判定部117は、推定部115での推定の結果に基づいて、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれるか否かを判定する。
詳細には例えば、判定部117は、複数のクエリ画像についての推定の結果が予め定められる誤推定パターンに該当するか否かを判定する。
誤推定パターンは、複数のクエリ画像の各々に含まれる被撮影者の姿勢に関する推定の結果のパターンである。誤推定パターンは、例えば予め定められて、記憶部112に保持される。
誤推定パターンは、少なくとも1つのクエリ画像について、他のクエリ画像とは異なる推定の結果を含むとよい。これにより、ステップS201にて判定部117は、推定部115での推定の結果が誤推定パターンに該当するか否かを判定することで、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれるか否かを判定することができる。
表示部118は、各種情報を表示するディスプレイなどである。表示制御部119は、表示部118を制御し、各種情報を表示部118に表示させる。表示制御部119は、例えば、推定部115が所定の姿勢の被撮影者を検出した場合、当該被撮影者に印を付したクエリ画像又はフレーム画像を表示部118に表示させる。印は、例えば、被撮影者を囲む矩形の枠などである。
また、表示制御部119は、例えば判定部117での判定の結果に基づいて、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示部118に表示させる。
(情報処理システムS1の物理的構成)
情報処理システムS1は、物理的に、ネットワークNを介して接続された撮影部101、情報処理装置100及び解析装置102から構成される。撮影部101、情報処理装置100及び解析装置102の各々は、物理的に異なる単一の装置から構成される。撮影部101は、例えば、カメラである。
情報処理システムS1は、物理的に、ネットワークNを介して接続された撮影部101、情報処理装置100及び解析装置102から構成される。撮影部101、情報処理装置100及び解析装置102の各々は、物理的に異なる単一の装置から構成される。撮影部101は、例えば、カメラである。
なお、情報処理装置100及び解析装置102は物理的に単一の装置から構成されてもよく、この場合、情報処理装置100及び解析装置102はネットワークNの代わりに、後述する内部のバス1010を用いて接続される。また、情報処理装置100及び解析装置102の一方又は両方は、物理的に、ネットワークNなどの適宜の通信回線を介して接続された複数の装置から構成されてもよい。
図8は、本実施形態に係る情報処理装置100の物理的な構成例を示す図である。情報処理装置100は、例えば汎用のコンピュータである。情報処理装置100は、例えば、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、ネットワークインタフェース1050、入力インタフェース1060及び出力インタフェース1070を有する。
バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、ネットワークインタフェース1050、入力インタフェース1060及び出力インタフェース1070が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
プロセッサ1020は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040は、情報処理装置100の各機能を実現するためのプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。
ネットワークインタフェース1050は、情報処理装置100をネットワークNに接続するためのインタフェースである。
入力インタフェース1060は、ユーザが情報を入力するためのインタフェースである。入力インタフェース1060は、例えば、キーボード、マウス、タッチパネルなどの1つ又は複数から構成される。
出力インタフェース1070は、ユーザに情報を提示するためのインタフェースである。出力インタフェース1070は、例えば、液晶パネル、有機EL(Electro-Luminescence)パネルなどから構成される。
解析装置102は、物理的には例えば汎用のコンピュータである。解析装置102は、物理的には、情報処理装置100と概ね同様に構成される(図8参照)。
解析装置102のストレージデバイス1040は、解析装置102の各機能を実現するためのプログラムモジュールを記憶している。解析装置102のプロセッサ1020がこれら各プログラムモジュールをメモリ1030に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。解析装置102のネットワークインタフェース1050は、解析装置102をネットワークNに接続するためのインタフェースである。これらの点を除いて、解析装置102は物理的に、情報処理装置100と同様に構成されるとよい。
(情報処理システムS1の動作)
本実施形態に係る情報処理システムS1は、クエリ画像に含まれる被撮影者の姿勢を推定するための情報処理を実行する。情報処理システムS1が実行する情報処理は、姿勢推定処理と、推定支援処理とを含む。
本実施形態に係る情報処理システムS1は、クエリ画像に含まれる被撮影者の姿勢を推定するための情報処理を実行する。情報処理システムS1が実行する情報処理は、姿勢推定処理と、推定支援処理とを含む。
姿勢推定処理は、所定の姿勢に対応付けられた参照画像を用いて、クエリ画像に含まれる被撮影者の姿勢を推定する処理である。推定支援処理は、被撮影者の姿勢の推定を支援するための処理である。
図9は、本実施形態に係る姿勢推定処理の一例を示すフローチャートである。姿勢推定処理は、例えば情報処理システムS1の稼働中に実行される。
画像取得部111は、時系列の複数のフレーム画像を取得する(ステップS101)。画像取得部111は、取得したフレーム画像を記憶する。
詳細には例えば、画像取得部111は、時刻T1から時刻T2よりも前まで、時系列の複数のフレーム画像を順次取得する。時刻T2-時刻T1=時間間隔ΔTとする。
画像取得部111は、ステップS101にて取得した複数のフレーム画像の一部を間引いて、クエリ画像を取得する(ステップS102)。
詳細には例えば、画像取得部111は、予め定められた規則に従って、複数のフレーム画像の一部を間引く。例えば、図10は、複数のフレーム画像から一部を間引く方法の一例を示す図である。画像取得部111は、同図に示すように、予め定められた時間間隔ΔTの間(両端の時間を除く)に取得されたフレーム画像を間引く。これにより、画像取得部111は、予め定められた一定の時間間隔ΔTの時系列のクエリ画像を取得する。なお、複数のフレーム画像から一部を間引いてクエリ画像を取得する方法は、これに限られず、例えば、時間間隔ΔTは一定でなくてもよく、動作モード(被撮影者を追跡するモード、被撮影者の姿勢を検出するモード)に応じて変更されてもよい。また、クエリ画像は、間引いていない複数のフレーム画像であってもよい。
姿勢取得部113は、所定の姿勢に対応付けられた複数の参照画像に基づく第1姿勢情報と、ステップS102にて取得されたクエリ画像に基づく第2姿勢情報とを取得する(ステップS103)。
詳細には例えば、姿勢取得部113は、記憶部112から所定の姿勢に対応する複数の参照画像を取得する。所定の姿勢が通話姿勢であり、図5に示す参照情報112aが記憶部112に記憶されている場合、姿勢取得部113は、参照画像1~参照画像7を取得する。姿勢取得部113は、取得した参照画像1~参照画像7を解析装置102へ送信する。これに応じて、解析装置102は、参照画像1~参照画像7の各々が示す人物の第1モデルを含む第1姿勢情報を生成して情報処理装置100へ送信する。姿勢取得部113は、第1姿勢情報を解析装置102から取得する。
姿勢取得部113は、ステップS102にて取得されたクエリ画像を画像取得部111から取得する。姿勢取得部113は、取得したクエリ画像を解析装置102へ送信する。これに応じて、解析装置102は、クエリ画像が示す被撮影者の第2モデルを含む第2姿勢情報を生成して情報処理装置100へ送信する。姿勢取得部113は、第2姿勢情報を解析装置102から取得する。
類似度取得部114は、ステップS103で取得した第1姿勢情報と第2姿勢情報とのそれぞれに含まれる第1モデルの各々と第2モデルとの類似度を求める(ステップS104)。
図11は、本実施形態に係る類似度取得処理(ステップS104)の詳細例を示すフローチャートである。
要素算出部114bは、ステップS103で取得した第1姿勢情報に含まれる第1モデルの各々について、ステップS104b~S104cを繰り返す(ステップS104a)。
要素算出部114bは、第1モデルと第2モデルとの間で対応するモデル要素ごとの類似度である要素類似度を求める(ステップS104b)。
全体算出部114aは、記憶部112に記憶された重み情報112bを取得し、ステップS104bで求めたモデル要素ごとの要素類似度と重みとに基づいて、第1モデルと第2モデルとの全体類似度を求める(ステップS104c)。
例えば、全体算出部114aは、対応するモデル要素の要素類似度と重みとの積の総和を求め、この総和を全体類似度とする。
全体算出部114aは、ステップS103で取得した第1姿勢情報に含まれる第1モデルの各々についてステップS104b~S104cを繰り返す結果、第1モデルの各々と第2モデルと全体類似度を求める。全体算出部114aは、ステップS103で取得した第1姿勢情報に含まれる第1モデルの各々についてステップS104b~S104cを実行すると、ループA(ステップS104a)を終了し、姿勢推定処理に戻る。
図9を再び参照する。
推定部115は、ステップS102で取得されたクエリ画像と、複数の参照画像と、に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する(ステップS105)。
推定部115は、ステップS102で取得されたクエリ画像と、複数の参照画像と、に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する(ステップS105)。
例えば、推定部115は、ステップS102で取得されたクエリ画像と参照画像1~参照画像7の各々との全体類似度に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する。なお、ステップS105では、推定部115は、被撮影者の姿勢を推定するために、上述の姿勢推定方法1~5のいずれを用いてもよく、姿勢推定方法1~5以外の方法を用いてもよい。
推定部115は、所定の姿勢を検出したか否かを判定する(ステップS106)。
詳細には例えば、推定部115は、クエリ画像に示される被撮影者がステップS105で所定の姿勢であると推定された場合に、所定の姿勢を検出したと判定する。推定部115は、クエリ画像に示される被撮影者がステップS105で所定の姿勢でないと推定された場合に、所定の姿勢を検出していないと判定する。
所定の姿勢を検出していないと判定された場合(ステップS106;No)、画像取得部111は、ステップS101を再び実行する。
所定の姿勢を検出したと判定された場合(ステップS106;No)、表示制御部119は、所定の姿勢が検出された旨を表示部118に表示させる(ステップS107)。その後、画像取得部111は、ステップS101を再び実行する。
ステップS107では、表示制御部119は、所定の姿勢である被撮影者を示すクエリ画像を表示部118に表示させる。ここで表示されるクエリ画像は、上述のように、被撮影者に印を付した画像であってもよい。
ユーザは、表示部118を見て、所定の姿勢の被撮影者が検出されたことを知ることができる。例えば、ATMの操作中に通話姿勢である場合、振り込め詐欺の被欺罔者や不審人物の可能性があるため、ユーザは、例えば、ATMの近くの警備員に確認するように通知するなどの措置を講じることができる。
このような姿勢推定処理を繰り返し実行することで、時系列のクエリ画像の各々について、被撮影者の姿勢を推定することができる。
ここで、複数のフレーム画像は、例えば、ATMが操作されている間に行われる撮影に基づく画像である。この場合、同一人物がATMを操作する間の複数のフレーム画像及びその間のクエリ画像は、共通の被撮影者を示す時系列の画像である。
そのため、時系列のクエリ画像の各々が示す被撮影者について、推定される姿勢が異なる場合(すなわち、所定の姿勢であるか否かが異なる場合)、姿勢推定処理でのいずれかの推定の結果に誤りを含む可能性がある。表示制御部119は、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示部118に表示させる。表示制御部119は、当該異なる推定がなされたクエリ画像を記憶しておき、ユーザの指示などに応じて、異なる推定がなされたクエリ画像をまとめて表示部118に表示させてもよい。
図12は、本実施形態に係る推定支援処理の一例を示すフローチャートである。推定支援処理は、被撮影者の姿勢の推定を支援するために、誤って姿勢が推定された可能性があるクエリ画像を表示するための処理である。推定支援処理は、姿勢推定処理が行われている間に実行される。推定支援処理は、繰り返して実行されてもよい。
判定部117は、繰り返し実行されるステップS105での推定の結果を取得し、複数のクエリ画像についての推定の結果が誤推定パターンに該当するか否かを判定する(ステップS201)。これにより、誤推定パターンに該当する推定の結果を検出することができる。
誤推定パターンは、詳細には例えば、予め定められた数の時系列のクエリ画像のそれぞれについての推定の結果のパターンである。ここでの予め定められた数は、2以上であればよい。誤推定パターンは、上述の通り、少なくとも1つのクエリ画像について他のクエリ画像とは異なる推定の結果を含むとよい。
図13は、このような誤推定パターンの例を示す図である。図13において、「OK」は肯定推定を示し、「NG」は否定推定を示す。肯定推定は、所定の姿勢であるという推定の結果である。否定推定は、所定の姿勢でないという推定の結果である。
図13(a)に示すパターン1は、時系列の4つのクエリ画像のそれぞれについての推定の結果が順に「OK/NG/OK/NG」であるパターンの例を示す。このパターン1は、時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なるパターンの一例である。図13(a)では、この所定の回数が2回の例を示す。
同一人物がATMを操作する間の被撮影者について、例えば、携帯電話で通話するか否かが頻繁に変わることは極めて稀であるため、通話姿勢であるか否かが頻繁に変わることは極めて稀である。車椅子姿勢についても同様である。そのため、同一人物がATMを操作する間の被撮影者を示すクエリ画像について、肯定推定と否定推定とが繰り返される場合、これらの推定の結果のいずれかが誤りである可能性が高い。そのため、パターン1に該当するステップS105での推定の結果を検出することで、誤っている可能性が高い推定の結果を検出することができる。
図13(b)に示すパターン2は、時系列の4つのクエリ画像のそれぞれについての推定の結果が順に「OK/OK/OK/NG」であるパターンの例を示す。このパターン2は、時系列のクエリ画像に対して、所定数以上連続して所定の姿勢であると推定された直後に、所定の姿勢でないと推定されたパターンの一例である。図13(b)では、この所定数が3の例を示す。
同一人物がATMを操作する間の被撮影者について、例えば、振り込め詐欺の欺罔者の指示に応じてATMを操作している場合、携帯電話での通話は、ATMの操作が終了するまで継続することが多いと考えられ、否定推定は誤りの可能性がある。一方、車椅子姿勢については、車椅子姿勢が終了することは極めて稀であり、否定推定は誤りの可能性が高い。そのため、パターン2に該当するステップS105での推定の結果を検出することで、誤っている可能性が高い推定の結果を検出することができる。
パターン1,2に例示するように、少なくとも1つのクエリ画像について他のクエリ画像とは異なる推定の結果を含む場合、推定の結果に誤りを含む可能性が高い。そのため、少なくとも1つのクエリ画像について他のクエリ画像とは異なる推定の結果を検出することで、誤っている可能性が高い推定の結果を検出することができる。
なお、誤推定パターンは、パターン1,2のような少なくとも1つのクエリ画像について他のクエリ画像とは異なる推定の結果を含むパターンに限られない。誤推定パターンは、複数のクエリ画像の中に推定の結果が異なるクエリ画像を含むパターンであればよい。これにより、誤っている可能性がある推定の結果を検出することができる。このような誤推定パターンの例として、時系列順で前後の少なくとも一方と異なる推定の結果を含むパターン(図13と同様に「OK」及び「NG」で表すと、時系列のクエリ画像のそれぞれについての推定の結果が順に「OK/NG」であるパターンと「NG/OK」であるパターンとの一方又は両方)を挙げることができる。
図12を再び参照する。
複数のクエリ画像についての推定の結果が誤推定パターンに該当しないと判定した場合(ステップS201;No)、判定部117は、ステップS201を繰り返す。
複数のクエリ画像についての推定の結果が誤推定パターンに該当しないと判定した場合(ステップS201;No)、判定部117は、ステップS201を繰り返す。
複数のクエリ画像についての推定の結果が誤推定パターンに該当すると判定した場合(ステップS201;Yes)、表示制御部119は、誤推定パターンに関連するクエリ画像を取得し、当該取得したクエリ画像を表示部118に表示させる(ステップS202)。誤推定パターンに関連するクエリ画像は、複数のクエリ画像の中で他のクエリ画像とは異なる推定がなされたクエリ画像を含む。このとき、表示制御部119は、当該取得したクエリ画像に対する推定の結果も併せて表示させてもよい。
例えば、図13(a)に示すパターン1に該当したとする。この場合、ステップS202を実行することで、表示制御部119は、時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なる場合に、当該繰り返して異なる推定がなされたクエリ画像を表示部118に表示させる。この場合、表示制御部119は、パターン1に該当するクエリ画像の少なくとも1つを表示部118に表示させるとよい。
例えば、図13(b)に示すパターン2に該当したとする。この場合、ステップS202を実行することで、表示制御部119は、時系列のクエリ画像に対して、所定数以上連続して所定の姿勢であると推定された直後に、所定の姿勢でないと推定された場合に、当該所定の姿勢でないと判定されたクエリ画像を表示部118に表示させる。
図12を再び参照する。
表示制御部119は、例えばユーザの入力に基づいて、ステップS202で表示されたクエリ画像についてステップS105で推定された結果が誤りであるか否かを判定する(ステップS203)。
表示制御部119は、例えばユーザの入力に基づいて、ステップS202で表示されたクエリ画像についてステップS105で推定された結果が誤りであるか否かを判定する(ステップS203)。
詳細には例えば、ユーザは、ステップS202で表示されたクエリ画像と、当該クエリ画像に対する推定の結果を表示部118で見て確認する。そして、ユーザは、入力部116を操作して、当該表示されたクエリ画像についてステップS105で推定された結果が誤りであるか否かを入力する。
推定された結果が誤りでないと判定された場合(ステップS203;No)、表示制御部119は、ステップS201に戻る。
推定された結果が誤りであると判定された場合(ステップS203;Yes)、表示制御部119は、参照画像を表示部118に表示させる(ステップS204)。
詳細には例えば、ステップS204を実行することで、表示制御部119は、異なる推定がなされた時系列のクエリ画像のうち、推定の結果が誤っているクエリ画像がある場合に、1つ又は複数の参照画像のうちの少なくとも1つを表示部118に表示させる。
ここで表示される参照画像は、ステップS202で表示されたクエリ画像についてステップS105で推定する際に用いられた参照画像である。より詳細には、ここで表示される参照画像は、誤った推定がなされたクエリ画像に示される被撮影者との類似度が所定の基準を満たす人物を示す参照画像である。所定の基準とは、類似度が最も高いこと、類似度が閾値以上であることなどである。
表示制御部119は、例えばユーザの入力に基づいて、間引かれたフレーム画像を表示させるための所定の指示を受け付けたか否かを判定する(ステップS205)。
所定の指示を受け付けていないと判定された場合(ステップS205;No)、表示制御部119は、ステップS201に戻る。
所定の指示を受け付けたと判定された場合(ステップS205;Yes)、表示制御部119は、ステップS102で間引かれたフレーム画像を画像取得部111から取得する(ステップS206)。
詳細には例えば、表示制御部119は、異なる判定がなされた時系列のクエリ画像の間で間引かれた少なくとも1つのフレーム画像を取得する。
例えば、図13(a)に示すパターン1に該当したとする。この場合、例えば、表示制御部119は、肯定推定されたクエリ画像と否定推定されたクエリ画像との間の時間に、画像取得部111が取得して間引かれたフレーム画像の少なくとも1つを取得する。
例えば、図13(b)に示すパターン2に該当したとする。この場合、例えば、表示制御部119は、否定推定されたクエリ画像と肯定推定されたクエリ画像との間の時間に、画像取得部111が取得して間引かれたフレーム画像の少なくとも1つを取得する。
なお、撮影部101がフレーム画像を記憶し、表示制御部119は、間引かれたフレーム画像を撮影部101から取得してもよい。これにより、撮影部101から情報処理装置100へ送信するフレーム画像を減らすことができるので、撮影部101と情報処理装置100との間の通信料を低減させることができる。
図12を再び参照する。
姿勢取得部113、類似度取得部114及び推定部115は、姿勢推定処理のステップS103~S105と同様の処理を実行する。
姿勢取得部113、類似度取得部114及び推定部115は、姿勢推定処理のステップS103~S105と同様の処理を実行する。
詳細には例えば、姿勢取得部113は、表示制御部119の指示を受けて、所定の姿勢に対応付けられた複数の参照画像に基づく第1姿勢情報と、ステップS206で取得されたフレーム画像に基づく第2姿勢情報とを取得する(ステップS103)。
類似度取得部114は、ステップS103で取得した第1姿勢情報と第2姿勢情報とのそれぞれに含まれる第1モデルの各々と第2モデルとの類似度を求める(ステップS104)。
推定部115は、ステップS206で取得されたフレーム画像と、複数の参照画像と、に基づいて、当該フレーム画像に示される被撮影者の姿勢を推定する(ステップS105)。このステップS105では、推定部115は、ステップS206で取得されたフレーム画像と参照画像1~参照画像7の各々との全体類似度に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する。
すなわち、ここでのステップS105を実行することで、推定部115は、間引かれた少なくとも1つのフレーム画像と、参照画像と、に基づいて、フレーム画像に示される被撮影者の姿勢を推定する。
表示制御部119は、ステップS206で取得されたフレーム画像と、当該フレーム画像についてステップS105で推定された結果とを表示部118に表示させ(ステップS207)、ステップS201に戻る。
ステップS207を実行することで、表示制御部119は、異なる判定がなされた時系列のクエリ画像の間で間引かれた少なくとも1つのフレーム画像を表示部118に表示させる。
推定支援処理を実行することで、誤って推定された可能性があるクエリ画像及びこれに関連する参照画像、間引かれたフレーム画像を表示部118に表示させることができる。また、間引かれたフレーム画像と参照画像とを用いて、所定の姿勢であるか否かを推定した結果を表示部118に表示させることができる。これにより、ユーザは、どのようなクエリ画像について誤った推定がなされたかを知ることができる。また、ユーザは、いずれの参照画像を用いて誤った推定がなされたかを知ることができる。
(作用・効果)
以上、本実施形態によれば、情報処理装置100は、推定部115と、表示制御部119とを備える。
以上、本実施形態によれば、情報処理装置100は、推定部115と、表示制御部119とを備える。
推定部115は、所定の行動を行う被撮影者を複数回撮影することで得られた複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、複数のクエリ画像の各々に示される被撮影者の姿勢を推定する。
表示制御部119は、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示部118に表示させる。
一般的に、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合、推定の結果に誤りを含む可能性がある。このようなクエリ画像を表示することで、ユーザは、異なる推定がなされたクエリ画像を参照することができる。そして、ユーザは、クエリ画像ごとに推定された姿勢の正誤を確認し、誤った推定の原因となっている可能性がある参照画像を削除するなど、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、複数のクエリ画像は、時系列のクエリ画像である。これにより、時系列のクエリ画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、表示制御部119は、時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なる場合に、当該繰り返して異なる推定がなされたクエリ画像を表示部118に表示させる。
これにより、誤って推定された可能性が高いクエリ画像を確認して、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、参照画像は、1つ又は複数である。情報処理装置100は、時系列のクエリ画像と1つ又は複数の参照画像との組み合わせの各々について、クエリ画像に示される被撮影者と参照画像に示される人物との姿勢に関する類似度を求める類似度取得部114を備える。
推定部115は、類似度に基づいて、時系列のクエリ画像の各々に示される被撮影者の姿勢を推定する。表示制御部119は、繰り返して異なる推定がなされた時系列のクエリ画像のうち、推定の結果が誤っているクエリ画像がある場合に、1つ又は複数の参照画像のうち、誤った推定がなされたクエリ画像に示される被撮影者との類似度が所定の基準を満たす人物を示す参照画像を表示部118に表示させる。
これにより、誤って推定された原因となりそうな参照画像を確認して、誤った推定の原因となっている可能性がある参照画像を削除するなど、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、情報処理装置100は、時間的に連続して被撮影者を複数回撮影することで得られる時系列のフレーム画像を取得する画像取得部111を備える。複数のクエリ画像は、時系列のフレーム画像から一部を間引くことで得られるフレーム画像である。
表示制御部119は、さらに、異なる判定がなされた時系列のクエリ画像の間で間引かれた少なくとも1つのフレーム画像を表示部118に表示させる。
これにより、誤って推定された可能性が高いクエリ画像と近い時間に撮影されたフレーム画像を確認して、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、推定部115は、さらに、間引かれた少なくとも1つのフレーム画像と、参照画像と、に基づいて、フレーム画像に示される被撮影者の姿勢を推定する。
これにより、誤って推定された可能性が高いクエリ画像と近い時間に撮影されたフレーム画像について推定される結果を確認して、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、表示制御部119は、時系列のクエリ画像に対して、所定数以上連続して所定の姿勢であると推定された直後に、所定の姿勢でないと推定された場合に、当該所定の姿勢でないと判定されたクエリ画像を表示部118に表示させる。
これにより、誤って推定された可能性が高いクエリ画像を確認して、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、情報処理装置100は、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれるか否かを判定する判定部117をさらに備える。
これにより、誤っている可能性が高い推定の結果を検出することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、判定部117は、複数のクエリ画像についての推定の結果が予め定められる誤推定パターンに該当するか否かを判定する。誤推定パターンは、複数のクエリ画像の各々に含まれる被撮影者の姿勢に関する推定の結果のパターンであって、少なくとも1つのクエリ画像について他のクエリ画像とは異なる推定の結果を含む。表示制御部119は、判定部117が複数のクエリ画像についての推定の結果が誤推定パターンに該当すると判定した場合に、当該誤推定パターンに関連するクエリ画像を表示部118に表示させる。
これにより、誤っている可能性が高い推定の結果を検出して、当該推定の結果を確認することができる。そして、クエリ画像ごとに推定された姿勢の正誤を確認し、誤った推定の原因となっている可能性がある参照画像を削除するなど、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、誤推定パターンは、時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なるパターンと、時系列のクエリ画像に対して、所定数以上連続して所定の姿勢であると推定された直後に、所定の姿勢でないと推定されるパターンとの少なくとも1つを含む。
これにより、誤っている可能性が高い推定の結果を検出することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、複数回の撮影は、ATMが操作されている間に行われる。これにより、ATMが操作されている間に撮影された画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、複数のクエリ画像は、共通の被撮影者を示す画像である。これにより、画像に示される共通の被撮影者の姿勢を推定する精度を向上させることが可能になる。
本実施形態によれば、情報処理装置100は、推定部115と、表示制御部119とを備える。
推定部115は、所定の行動を行っている間の撮影に基づいて得られるクエリ画像と、所定の姿勢に対応する人物を示す1つ又は複数の参照画像と、に基づいて、クエリ画像に示される被撮影者の姿勢を推定する。
表示制御部119は、推定部115が誤った推定をした場合に、1つ又は複数の参照画像のうち、当該誤った推定がなされたクエリ画像に示される被撮影者との姿勢に関する類似度が所定の基準を満たす人物を示す参照画像を表示部118に表示させる。
これにより、誤って推定された原因となりそうな参照画像を確認して、誤った推定の原因となっている可能性がある参照画像を削除するなど、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
<実施形態2>
実施形態1では、複数回の撮影が時間的に連続して(異なる)時期に行われる例を説明した。複数回の撮影は、2つ以上の異なる方向からの同時期に行われる撮影であってもよい。
実施形態1では、複数回の撮影が時間的に連続して(異なる)時期に行われる例を説明した。複数回の撮影は、2つ以上の異なる方向からの同時期に行われる撮影であってもよい。
図14は、実施形態2に係る情報処理システムS2の詳細な機能的な構成例を示す図である。情報処理システムS2は、2つの撮影部101と、情報処理装置100と、解析装置102とを備える。なお、撮影部101は、3つ以上であってもよい。
2つの撮影部101は、例えば、ATMの前方などの共通の領域を撮影するカメラである。そのため、2つの撮影部101は、共通の被撮影者を異なる方向から同時期に撮影することができる。撮影部101の各々は、機能的及び物理的に、実施形態1に係る撮影部101と同様でよい。
情報処理装置100と解析装置102との各々は、機能的及び物理的に、実施形態1と同様でよい。例えば、表示制御部119は、複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示部118に表示させる。情報処理システムS2は、実施形態1に係る情報処理システムS1と同様に動作するとよい。
(作用・効果)
以上、本実施形態によれば、複数回の撮影は、2つ以上の異なる方向からの同時期に行われる撮影である。
以上、本実施形態によれば、複数回の撮影は、2つ以上の異なる方向からの同時期に行われる撮影である。
これにより、ユーザは、同時期に撮影されて異なる推定がなされたクエリ画像を参照して、クエリ画像ごとに推定された姿勢の正誤を確認し、誤った推定の原因となっている可能性がある参照画像を削除するなど、姿勢を推定する精度が向上するように対処することができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上させることが可能になる。
以上、図面を参照して本発明の実施の形態及び変形例について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、実施の形態の各々で実行される工程の実行順序は、その記載の順番に制限されない。実施の形態の各々では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の実施の形態及び変形例は、内容が相反しない範囲で組み合わせることができる。
上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 所定の行動を行う被撮影者を撮影することで得られたクエリ画像と、所定の姿勢に対応する人物を示す1つ又は複数の参照画像と、に基づいて、前記クエリ画像に示される被撮影者の姿勢を推定する推定手段と、
前記推定手段が誤った推定をした場合に、前記1つ又は複数の参照画像のうち、当該誤った推定がなされたクエリ画像に示される前記被撮影者との姿勢に関する類似度が所定の基準を満たす人物を示す前記参照画像を表示手段に表示させる表示制御手段とを備える
情報処理装置。
2. 所定の行動を行う被撮影者を複数回撮影することで得られた複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される前記被撮影者の姿勢を推定する推定手段と、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる表示制御手段とを備える
情報処理装置。
3. 前記複数のクエリ画像は、時系列のクエリ画像である
2.に記載の情報処理装置。
4. 前記表示制御手段は、前記時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なる場合に、当該繰り返して異なる推定がなされたクエリ画像を前記表示手段に表示させる
3.に記載の情報処理装置。
5. 前記参照画像は、1つ又は複数であり、
前記時系列のクエリ画像と前記1つ又は複数の参照画像との組み合わせの各々について、前記クエリ画像に示される被撮影者と前記参照画像に示される人物との姿勢に関する類似度を求める類似度取得手段をさらに備え、
前記推定手段は、前記類似度に基づいて、前記時系列のクエリ画像の各々に示される前記被撮影者の姿勢を推定し、
前記表示制御手段は、前記繰り返して異なる推定がなされた前記時系列のクエリ画像のうち、推定の結果が誤っているクエリ画像がある場合に、前記1つ又は複数の参照画像のうち、前記誤った推定がなされたクエリ画像に示される被撮影者との前記類似度が所定の基準を満たす人物を示す前記参照画像を前記表示手段に表示させる
4.に記載の情報処理装置。
6. 時間的に連続して前記被撮影者を前記複数回の撮影することで得られる時系列のフレーム画像を取得する画像取得手段をさらに備え、
前記複数のクエリ画像は、前記時系列のフレーム画像から一部を間引くことで得られるフレーム画像であり、
前記表示制御手段は、さらに、前記異なる判定がなされた時系列のクエリ画像の間で間引かれた少なくとも1つのフレーム画像を前記表示手段に表示させる
3.から5.のいずれか1つに記載の情報処理装置。
7. 前記推定手段は、さらに、前記間引かれた少なくとも1つのフレーム画像と、前記参照画像と、に基づいて、前記フレーム画像に示される被撮影者の姿勢を推定する
6.に記載の情報処理装置。
8. 前記表示制御手段は、前記時系列のクエリ画像に対して、所定数以上連続して前記所定の姿勢であると推定された直後に、前記所定の姿勢でないと推定された場合に、当該所定の姿勢でないと判定されたクエリ画像を前記表示手段に表示させる
3.に記載の情報処理装置。
9.前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれるか否かを判定する判定手段をさらに備える
1.から8.のいずれか1つに記載の情報処理装置。
10.前記判定手段は、前記複数のクエリ画像についての推定の結果が予め定められる誤推定パターンに該当するか否かを判定し、
前記誤推定パターンは、複数のクエリ画像の各々に含まれる被撮影者の姿勢に関する推定の結果のパターンであって、少なくとも1つのクエリ画像について他のクエリ画像とは異なる推定の結果を含み、
前記表示制御手段は、前記判定手段が前記複数のクエリ画像についての推定の結果が前記誤推定パターンに該当すると判定した場合に、当該誤推定パターンに関連するクエリ画像を前記表示手段に表示させる
9.に記載の情報処理装置。
11. 前記誤推定パターンは、時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なるパターンと、時系列のクエリ画像に対して、所定数以上連続して前記所定の姿勢であると推定された直後に、前記所定の姿勢でないと推定されるパターンとの少なくとも1つを含む
10.に記載の情報処理装置。
12. 前記複数回の撮影は、2つ以上の異なる方向からの同時期に行われる撮影である
2.に記載の情報処理装置。
13. 前記複数回の撮影は、ATMが操作されている間に行われる
2.から12.のいずれか1つに記載の情報処理装置。
14. 前記複数のクエリ画像は、共通の前記被撮影者を示す画像である
1.から10.のいずれか1つに記載の情報処理装置。
15. 1.から14.のいずれか1つに記載の情報処理装置と、
前記複数回の撮影を行う1つ又は複数の撮影部とを備える
情報処理システム。
16. コンピュータが、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる
情報処理方法。
17. コンピュータに、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させることを実行させるためのプログラムが記録された記録媒体。
18. コンピュータに、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させることを実行させるためのプログラム。
前記推定手段が誤った推定をした場合に、前記1つ又は複数の参照画像のうち、当該誤った推定がなされたクエリ画像に示される前記被撮影者との姿勢に関する類似度が所定の基準を満たす人物を示す前記参照画像を表示手段に表示させる表示制御手段とを備える
情報処理装置。
2. 所定の行動を行う被撮影者を複数回撮影することで得られた複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される前記被撮影者の姿勢を推定する推定手段と、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる表示制御手段とを備える
情報処理装置。
3. 前記複数のクエリ画像は、時系列のクエリ画像である
2.に記載の情報処理装置。
4. 前記表示制御手段は、前記時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なる場合に、当該繰り返して異なる推定がなされたクエリ画像を前記表示手段に表示させる
3.に記載の情報処理装置。
5. 前記参照画像は、1つ又は複数であり、
前記時系列のクエリ画像と前記1つ又は複数の参照画像との組み合わせの各々について、前記クエリ画像に示される被撮影者と前記参照画像に示される人物との姿勢に関する類似度を求める類似度取得手段をさらに備え、
前記推定手段は、前記類似度に基づいて、前記時系列のクエリ画像の各々に示される前記被撮影者の姿勢を推定し、
前記表示制御手段は、前記繰り返して異なる推定がなされた前記時系列のクエリ画像のうち、推定の結果が誤っているクエリ画像がある場合に、前記1つ又は複数の参照画像のうち、前記誤った推定がなされたクエリ画像に示される被撮影者との前記類似度が所定の基準を満たす人物を示す前記参照画像を前記表示手段に表示させる
4.に記載の情報処理装置。
6. 時間的に連続して前記被撮影者を前記複数回の撮影することで得られる時系列のフレーム画像を取得する画像取得手段をさらに備え、
前記複数のクエリ画像は、前記時系列のフレーム画像から一部を間引くことで得られるフレーム画像であり、
前記表示制御手段は、さらに、前記異なる判定がなされた時系列のクエリ画像の間で間引かれた少なくとも1つのフレーム画像を前記表示手段に表示させる
3.から5.のいずれか1つに記載の情報処理装置。
7. 前記推定手段は、さらに、前記間引かれた少なくとも1つのフレーム画像と、前記参照画像と、に基づいて、前記フレーム画像に示される被撮影者の姿勢を推定する
6.に記載の情報処理装置。
8. 前記表示制御手段は、前記時系列のクエリ画像に対して、所定数以上連続して前記所定の姿勢であると推定された直後に、前記所定の姿勢でないと推定された場合に、当該所定の姿勢でないと判定されたクエリ画像を前記表示手段に表示させる
3.に記載の情報処理装置。
9.前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれるか否かを判定する判定手段をさらに備える
1.から8.のいずれか1つに記載の情報処理装置。
10.前記判定手段は、前記複数のクエリ画像についての推定の結果が予め定められる誤推定パターンに該当するか否かを判定し、
前記誤推定パターンは、複数のクエリ画像の各々に含まれる被撮影者の姿勢に関する推定の結果のパターンであって、少なくとも1つのクエリ画像について他のクエリ画像とは異なる推定の結果を含み、
前記表示制御手段は、前記判定手段が前記複数のクエリ画像についての推定の結果が前記誤推定パターンに該当すると判定した場合に、当該誤推定パターンに関連するクエリ画像を前記表示手段に表示させる
9.に記載の情報処理装置。
11. 前記誤推定パターンは、時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なるパターンと、時系列のクエリ画像に対して、所定数以上連続して前記所定の姿勢であると推定された直後に、前記所定の姿勢でないと推定されるパターンとの少なくとも1つを含む
10.に記載の情報処理装置。
12. 前記複数回の撮影は、2つ以上の異なる方向からの同時期に行われる撮影である
2.に記載の情報処理装置。
13. 前記複数回の撮影は、ATMが操作されている間に行われる
2.から12.のいずれか1つに記載の情報処理装置。
14. 前記複数のクエリ画像は、共通の前記被撮影者を示す画像である
1.から10.のいずれか1つに記載の情報処理装置。
15. 1.から14.のいずれか1つに記載の情報処理装置と、
前記複数回の撮影を行う1つ又は複数の撮影部とを備える
情報処理システム。
16. コンピュータが、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる
情報処理方法。
17. コンピュータに、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させることを実行させるためのプログラムが記録された記録媒体。
18. コンピュータに、
所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させることを実行させるためのプログラム。
S1,S2 情報処理システム
100 情報処理装置
101 撮影部
102 解析装置
111 画像取得部
112 記憶部
112a 参照情報
112b 重み情報
113 姿勢取得部
114 類似度取得部
114a 全体算出部
114b 要素算出部
115 推定部
116 入力部
117 判定部
118 表示部
119 表示制御部
100 情報処理装置
101 撮影部
102 解析装置
111 画像取得部
112 記憶部
112a 参照情報
112b 重み情報
113 姿勢取得部
114 類似度取得部
114a 全体算出部
114b 要素算出部
115 推定部
116 入力部
117 判定部
118 表示部
119 表示制御部
Claims (16)
- 所定の行動を行う被撮影者を複数回撮影することで得られた複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される前記被撮影者の姿勢を推定する推定手段と、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる表示制御手段とを備える
情報処理装置。 - 前記複数のクエリ画像は、時系列のクエリ画像である
請求項1に記載の情報処理装置。 - 前記表示制御手段は、前記時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なる場合に、当該繰り返して異なる推定がなされたクエリ画像を前記表示手段に表示させる
請求項2に記載の情報処理装置。 - 前記参照画像は、1つ又は複数であり、
前記時系列のクエリ画像と前記1つ又は複数の参照画像との組み合わせの各々について、前記クエリ画像に示される被撮影者と前記参照画像に示される人物との姿勢に関する類似度を求める類似度取得手段をさらに備え、
前記推定手段は、前記類似度に基づいて、前記時系列のクエリ画像の各々に示される前記被撮影者の姿勢を推定し、
前記表示制御手段は、前記繰り返して異なる推定がなされた前記時系列のクエリ画像のうち、推定の結果が誤っているクエリ画像がある場合に、前記1つ又は複数の参照画像のうち、前記誤った推定がなされたクエリ画像に示される被撮影者との前記類似度が所定の基準を満たす人物を示す前記参照画像を前記表示手段に表示させる
請求項3に記載の情報処理装置。 - 時間的に連続して前記被撮影者を複数回撮影することで得られる時系列のフレーム画像を取得する画像取得手段をさらに備え、
前記複数のクエリ画像は、前記時系列のフレーム画像から一部を間引くことで得られるフレーム画像であり、
前記表示制御手段は、さらに、前記異なる判定がなされた時系列のクエリ画像の間で間引かれた少なくとも1つのフレーム画像を前記表示手段に表示させる
請求項2から4のいずれか1項に記載の情報処理装置。 - 前記推定手段は、さらに、前記間引かれた少なくとも1つのフレーム画像と、前記参照画像と、に基づいて、前記フレーム画像に示される被撮影者の姿勢を推定する
請求項5に記載の情報処理装置。 - 前記表示制御手段は、前記時系列のクエリ画像に対して、所定数以上連続して前記所定の姿勢であると推定された直後に、前記所定の姿勢でないと推定された場合に、当該所定の姿勢でないと判定されたクエリ画像を前記表示手段に表示させる
請求項2に記載の情報処理装置。 - 前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれるか否かを判定する判定手段をさらに備える
請求項1から4のいずれか1項に記載の情報処理装置。 - 前記判定手段は、前記複数のクエリ画像についての推定の結果が予め定められる誤推定パターンに該当するか否かを判定し、
前記誤推定パターンは、複数のクエリ画像の各々に含まれる被撮影者の姿勢に関する推定の結果のパターンであって、少なくとも1つのクエリ画像について他のクエリ画像とは異なる推定の結果を含み、
前記表示制御手段は、前記判定手段が前記複数のクエリ画像についての推定の結果が前記誤推定パターンに該当すると判定した場合に、当該誤推定パターンに関連するクエリ画像を前記表示手段に表示させる
請求項8に記載の情報処理装置。 - 前記誤推定パターンは、時系列のクエリ画像に対する推定の結果が所定の回数以上繰り返して異なるパターンと、時系列のクエリ画像に対して、所定数以上連続して前記所定の姿勢であると推定された直後に、前記所定の姿勢でないと推定されるパターンとの少なくとも1つを含む
請求項9に記載の情報処理装置。 - 前記複数回の撮影は、2つ以上の異なる方向からの同時期に行われる撮影である
請求項1に記載の情報処理装置。 - 前記複数回の撮影は、現金自動預払機が操作されている間に行われる
請求項1から4のいずれか1項に記載の情報処理装置。 - 前記複数のクエリ画像は、共通の前記被撮影者を示す画像である
請求項1から4のいずれか1項に記載の情報処理装置。 - 請求項1から4のいずれか1項に記載の情報処理装置と、
前記複数回の撮影を行う1つ又は複数の撮影部とを備える
情報処理システム。 - コンピュータが、
所定の行動を行う被撮影者を複数回撮影することで得られた複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される前記被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させる
情報処理方法。 - コンピュータに、
所定の行動を行う被撮影者を複数回撮影することで得られた複数のクエリ画像と、所定の姿勢に対応する人物を示す参照画像と、に基づいて、前記複数のクエリ画像の各々に示される前記被撮影者の姿勢を推定し、
前記複数のクエリ画像の中に推定の結果が異なるクエリ画像が含まれる場合に、当該異なる推定がなされたクエリ画像を表示手段に表示させることを実行させるためのプログラムが記録された記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/018892 WO2023209809A1 (ja) | 2022-04-26 | 2022-04-26 | 情報処理装置、情報処理方法、情報処理システム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/018892 WO2023209809A1 (ja) | 2022-04-26 | 2022-04-26 | 情報処理装置、情報処理方法、情報処理システム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023209809A1 true WO2023209809A1 (ja) | 2023-11-02 |
Family
ID=88518276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/018892 WO2023209809A1 (ja) | 2022-04-26 | 2022-04-26 | 情報処理装置、情報処理方法、情報処理システム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023209809A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016200899A (ja) * | 2015-04-08 | 2016-12-01 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2021005229A (ja) * | 2019-06-26 | 2021-01-14 | 株式会社 日立産業制御ソリューションズ | 安全管理装置、安全管理方法及び安全管理プログラム |
-
2022
- 2022-04-26 WO PCT/JP2022/018892 patent/WO2023209809A1/ja unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016200899A (ja) * | 2015-04-08 | 2016-12-01 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2021005229A (ja) * | 2019-06-26 | 2021-01-14 | 株式会社 日立産業制御ソリューションズ | 安全管理装置、安全管理方法及び安全管理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7575747B2 (ja) | 深層学習ネットワークを使用してユーザ写真から体重を測定するシステム及び方法 | |
WO2021114892A1 (zh) | 基于环境语义理解的人体行为识别方法、装置、设备及存储介质 | |
CN106897658B (zh) | 人脸活体的鉴别方法和装置 | |
JP4318465B2 (ja) | 人物検出装置および人物検出方法 | |
US9098740B2 (en) | Apparatus, method, and medium detecting object pose | |
Bobick et al. | The recognition of human movement using temporal templates | |
JP6013241B2 (ja) | 人物認識装置、及び方法 | |
Burl et al. | Face localization via shape statistics | |
US20220383653A1 (en) | Image processing apparatus, image processing method, and non-transitory computer readable medium storing image processing program | |
CN105260726B (zh) | 基于人脸姿态控制的交互式视频活体检测方法及其系统 | |
CN110569731A (zh) | 一种人脸识别方法、装置及电子设备 | |
JP6822482B2 (ja) | 視線推定装置、視線推定方法及びプログラム記録媒体 | |
JP7151875B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
KR20150089370A (ko) | 얼굴 포즈 변화에 강한 연령 인식방법 및 시스템 | |
JP2007048172A (ja) | 情報分類装置 | |
US20240282147A1 (en) | Action recognition method, action recognition device, and non-transitory computer readable recording medium | |
Yao et al. | An improved feature-based method for fall detection | |
JP2005351814A (ja) | 検出装置および検出方法 | |
WO2023209809A1 (ja) | 情報処理装置、情報処理方法、情報処理システム及び記録媒体 | |
JP7331910B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP7259921B2 (ja) | 情報処理装置、及び制御方法 | |
JP2017097549A (ja) | 画像処理装置、方法、及びプログラム | |
WO2023209955A1 (ja) | 情報処理装置、情報処理方法及び記録媒体 | |
CN107742112A (zh) | 一种基于图像的人脸防伪方法及装置 | |
JP7396364B2 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22940089 Country of ref document: EP Kind code of ref document: A1 |