WO2019198233A1 - 動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2019198233A1
WO2019198233A1 PCT/JP2018/015561 JP2018015561W WO2019198233A1 WO 2019198233 A1 WO2019198233 A1 WO 2019198233A1 JP 2018015561 W JP2018015561 W JP 2018015561W WO 2019198233 A1 WO2019198233 A1 WO 2019198233A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
motion recognition
target object
loss
estimated
Prior art date
Application number
PCT/JP2018/015561
Other languages
English (en)
French (fr)
Inventor
利憲 細井
諒 川合
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/015561 priority Critical patent/WO2019198233A1/ja
Priority to US17/043,275 priority patent/US11809997B2/en
Priority to JP2020513040A priority patent/JP6981543B2/ja
Publication of WO2019198233A1 publication Critical patent/WO2019198233A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Definitions

  • the present invention relates to a motion recognition device, a motion recognition method, and a computer-readable recording medium that recognize motion of a target object.
  • a method for recognizing the motion of the target object there is a method for recognizing the motion of the target object using features extracted from a plurality of images captured by the imaging device.
  • Two-Stream ConvNets Two-Stream Convolutional Networks for Action Recognition in Videos
  • Two-Stream ConvNets Two-Stream Convolutional Networks for Action Recognition in Videos
  • a technique called Two-Stream ConvNets Two-Stream Convolutional Networks for Action Recognition in Videos
  • a spatial CNN Convolutional Neural ⁇ ⁇ Network
  • a CNN in the time series direction for extracting the features related to. Then, by integrating the features extracted by these CNNs, the operation of the target object is recognized with high accuracy.
  • the target object image corresponding to the target object captured in the image is in a state where the target object image and another image overlap or are adjacent to each other. In this case, the movement of the target object cannot be accurately recognized.
  • An example of the object of the present invention is to provide a motion recognition device, a motion recognition method, and a computer-readable recording medium that improve the motion recognition accuracy of a target object.
  • a motion recognition apparatus includes: A generation unit that adds a preset setting image to the target object image corresponding to the target object and generates an additional image; Recognizing the motion of the target object using the additional image, outputting motion recognition information indicating a motion recognition result, estimating the setting image using the additional image, and outputting estimated information indicating the estimation result , Motion recognition / estimator, A motion recognition loss calculating unit that calculates motion recognition loss using the motion recognition information serving as a reference generated in advance based on the additional image and the motion recognition information; An estimated loss calculating unit that calculates estimated loss using estimated information that is a reference generated in advance based on the additional image and the estimated information; A learning parameter updating unit that updates the learning parameter using the motion recognition loss and the estimated loss; It is characterized by having.
  • an operation recognition method includes: (A) adding a preset setting image to the target object image corresponding to the target object to generate an additional image; and (B) Recognizing the motion of the target object using the additional image, outputting motion recognition information indicating a motion recognition result, estimating the setting image using the additional image, and outputting estimated information indicating the estimation result Step, and (C) calculating a motion recognition loss using motion recognition information serving as a reference generated in advance based on the additional image and the motion recognition information; (D) calculating an estimated loss using estimated information as a reference generated in advance based on the additional image and the estimated information; (E) updating the learning parameter using the motion recognition loss and the estimated loss; It is characterized by having.
  • a program stored in a computer-readable recording medium includes: On the computer, (A) adding a preset setting image to the target object image corresponding to the target object to generate an additional image; and (B) Recognizing the motion of the target object using the additional image, outputting motion recognition information indicating a motion recognition result, estimating the setting image using the additional image, and outputting estimated information indicating the estimation result Step, and (C) calculating a motion recognition loss using motion recognition information serving as a reference generated in advance based on the additional image and the motion recognition information; (D) calculating an estimated loss using estimated information as a reference generated in advance based on the additional image and the estimated information; (E) updating the learning parameter using the motion recognition loss and the estimated loss; Is executed.
  • the motion recognition accuracy of the target object can be improved.
  • FIG. 1 is a diagram illustrating an example of a motion recognition apparatus in the case of learning.
  • FIG. 2 is a diagram illustrating an example of a motion recognition system having a motion recognition device in the case of learning.
  • FIG. 3 is a diagram illustrating an example of the target object image, the setting image, and the additional image.
  • FIG. 4 is a diagram illustrating an example of a motion recognition device after learning and a system including the motion recognition device.
  • FIG. 5 is a diagram illustrating an example of the operation of the motion recognition apparatus in the case of learning.
  • FIG. 6 is a diagram illustrating an example of a computer that implements the motion recognition apparatus.
  • FIG. 1 is a diagram illustrating an example of a motion recognition apparatus in the case of learning.
  • the motion recognition device 1 is a device that accurately recognizes the motion of a target object.
  • the motion recognition device 1 includes a generation unit 2, a motion recognition / estimation unit 3, a motion recognition loss calculation unit 4, an estimated loss calculation unit 5, and a learning parameter update unit 6.
  • the generation unit 2 adds a preset setting image to the target object image corresponding to the target object, and generates an additional image.
  • the target object indicates an object that is a target for motion recognition, such as a human body, a human body part, a non-human organism, or a machine.
  • the target object image is an image corresponding to the target object in an image (for example, a moving image) captured by the imaging device.
  • the setting image is an image that is set in order to make it difficult to recognize the target object image captured in the image in the learning.
  • the setting image is an image corresponding to a still object or a building in addition to the target object described above.
  • the additional image is an image having only the target object image, and an image having the target object image and the setting image.
  • the additional image is, for example, an image in which a setting image is arranged on the front surface, the back surface, or both of the target object image.
  • the motion recognition / estimation unit 3 recognizes the motion of the target object using the additional image, outputs motion recognition information indicating the motion recognition result, estimates the setting image using the additional image, and estimates the result.
  • the estimation information indicating is output.
  • the motion recognition loss calculation unit 4 calculates the motion recognition loss using the motion recognition information serving as a reference generated in advance based on the additional image and the motion recognition information. Moreover, the estimated loss calculation part 5 calculates an estimated loss using the estimated information used as the reference
  • the motion recognition apparatus 1 can be learned using the large amount of additional images. . Therefore, the motion recognition accuracy of the motion recognition device 1 can be improved. That is, the motion recognition device 1 is trained by using a large amount of additional images generated by using a computer or the like instead of learning using an image actually captured as in the prior art. The motion recognition accuracy can be improved. All the additional images may be created using computer graphics. For example, a two-dimensional (2D) model or a three-dimensional (3D) model may be used.
  • the learning performed by the motion recognition apparatus 1 is machine learning or the like. Specifically, deep learning or the like is used.
  • the update of the learning parameter is to update the learning parameter of the neural network in the deep learning.
  • the motion recognition device 1 when learning is performed by the motion recognition device 1, learning for motion recognition of a target object is performed using a large amount of additional images generated in advance, and learning for estimation of a set image is also performed. That is, when the motion recognition apparatus 1 is trained, motion recognition learning and setting image estimation learning are performed simultaneously. Furthermore, a formulation is made so that learning can be performed with an emphasis on motion recognition rather than estimation of a set image. By doing so, it is possible to construct the motion recognition device 1 that recognizes the motion of the target object after removing the setting image from the additional image and is capable of highly accurate motion recognition. In other words, the motion recognition apparatus 1 can learn to improve the accuracy of motion recognition as a total even if the estimation of the set image is inaccurate.
  • the monitoring moving image can be used to detect a suspicious person. It is possible to detect the motion of the suspicious person by removing the image captured on the front surface, the back surface, or both of the corresponding target object image.
  • FIG. 2 is a diagram illustrating an example of a motion recognition system having a motion recognition device in the case of learning.
  • FIG. 3 is a diagram illustrating an example of the target object image, the setting image, and the additional image.
  • the motion recognition apparatus 1 includes a generation unit 2, a motion recognition / estimation unit 3, a motion recognition loss calculation unit 4, an estimated loss calculation unit 5, and a learning parameter update unit 6.
  • the motion recognition / estimation unit 3 includes a motion recognition unit 25 (discriminator), an estimation unit 26 (estimator), and a holding unit 27.
  • the generation unit 2 acquires an image having a target object image corresponding to the target object, adds a setting image to the acquired image, and generates an additional image.
  • the generation unit 2 first acquires an image or a moving image in which only the target object stored in the target object image storage unit 21 is captured.
  • a moving image is, for example, an image captured in time series.
  • the generation unit 2 adds a setting image to the image having the acquired target object image.
  • the generation unit 2 adds the setting images S1_IMG, S2_IMG, and S3_IMG to the target object image T_IMG of the image 31 illustrated in FIG. 3, adds noise to a part of the image 31, or paints the additional image. 35 is generated.
  • the generation unit 2 stores the generated additional image in the additional image storage unit 22. Note that in the additional image 35 of FIG.
  • the target object image or the setting image may be a human body image or an image imitating a human body.
  • the target object image or the setting image may be an image in which the outline is filled with one or more colors. For example, a silhouette image.
  • the setting image may be an image that hides a part of the target object image, imitating a phenomenon that the image becomes white due to the influence of strong sunlight, or a phenomenon that a part of the exposure becomes excessively low and the image becomes black.
  • the setting image is not limited to a physical object, and may be an image that transparently hides the target object, such as fog or glass.
  • the motion recognition unit / estimation unit 3 includes a motion recognition unit 25, an estimation unit 26, and a holding unit 27.
  • the motion recognition unit 25 receives the additional image as input and recognizes the motion of the target object based on the learning parameter held in the holding unit 27.
  • the estimation unit 26 receives the additional image while the motion recognition unit 25 is performing the motion recognition learning, and based on the learning parameter held in the holding unit 27, the estimation unit 26 sets the setting image set as the additional image. Make an estimate.
  • the motion recognition unit 25 acquires an additional image from the additional image storage unit 22. Subsequently, the motion recognition unit 25 uses the acquired additional image as input, and recognizes the motion of the target object based on the learning parameter held in the holding unit 27. Then, the motion recognition unit 25 outputs motion recognition information indicating the motion recognition result.
  • the motion recognition unit 25 is labeled 1 when it recognizes a walking motion, label 2 when it recognizes a running motion, label 3 when it recognizes a squatting motion or a squatting state, When the stationary state is recognized, the label 4 or the like is output as the action recognition information.
  • the motion recognition unit 25 may recognize the motion of the target object using information obtained by extracting the feature of the target object image in the additional image via the motion feature extraction unit 23. . On that occasion, the motion recognition unit 25 recognizes the motion of the target object based on the learning parameter held in the holding unit 27 using the feature of the additional image target object image.
  • the estimation unit 26 acquires an additional image from the additional image storage unit 22 while the motion recognition unit 25 is performing motion recognition learning. Subsequently, the estimation unit 26 uses the acquired additional image as an input, and estimates a setting image based on the learning parameter held in the holding unit 27. And the estimation part 26 outputs the estimation information which shows an estimation result.
  • the estimation unit 26 may, for example, (1) estimate a plurality of joint points from an additional image in which the setting image is a human body image, or (2) silhouette from the additional image in which the setting image is a silhouette image imitating a human body.
  • the image may be estimated, (3) the filled image may be estimated from the additional image obtained by painting the setting image, or (4) the additional image obtained by removing the setting image from the target object is estimated. May be.
  • the estimation unit 26 may acquire information obtained by extracting the feature of the setting image in the additional image via the feature extraction unit 24 to estimate the setting image. On that occasion, the estimation unit 26 estimates the setting image based on the learning parameter held in the holding unit 27 using the feature of the setting image extracted from the additional image.
  • FIG. 2 an example in which the motion feature extraction unit 23 and the feature extraction unit 24 are provided before the motion recognition unit / estimation unit 3 is shown. 3 may be input. Alternatively, only one of the motion feature extraction unit 23 and the feature extraction unit 24 may be used.
  • the additional image is stored in the additional image storage unit 22, but without the additional image storage unit 22, the generation unit 2 performs the motion recognition / estimation unit 3 or the motion feature extraction unit 23 and the feature. You may output an additional image directly to the extraction part 24.
  • FIG. 2 the additional image is stored in the additional image storage unit 22, but without the additional image storage unit 22, the generation unit 2 performs the motion recognition / estimation unit 3 or the motion feature extraction unit 23 and the feature. You may output an additional image directly to the extraction part 24.
  • the motion recognition loss calculation unit 4 calculates the motion recognition loss using the motion recognition information serving as a reference generated in advance and the motion recognition information acquired from the motion recognition unit 25 based on the additional image.
  • the motion recognition loss calculation unit 4 compares the motion recognition information output from the motion recognition unit 25 with the reference motion recognition information, and the motion recognition loss becomes closer to the reference motion recognition information. A smaller value is set, and the motion recognition loss is set to a larger value as the distance increases.
  • label 1 is associated with walking
  • label 2 is associated with running
  • label 3 is associated with squatting or squatting
  • label 4 is associated with motion or stationary with motion recognition information.
  • the motion recognition loss calculation unit 4 sets the motion recognition loss to 0.0 when the reference motion recognition information label matches the motion recognition information label, for example, and does not match.
  • the motion recognition loss may be 1.0.
  • the four scores are converted by applying a SoftMax function. Then, a vector of the scores ⁇ 0.1, 0.0, 0.9, 0.1 ⁇ after the conversion of the four scores and the reference motion recognition information labels ⁇ 0, 0, 1, ⁇ 0 ⁇
  • the distance may be a loss.
  • the estimated loss calculation unit 5 calculates an estimated loss based on the additional image, using the estimation information that is a reference generated in advance by the generation unit 2 and the estimation information acquired from the estimation unit 26.
  • the estimated loss calculation unit 5 compares the estimation information output from the estimation unit 26 with the reference estimation information generated by the generation unit 2, and the estimated loss becomes closer to the reference estimation information. Is set to a smaller value, and the estimated loss is set to a larger value as the distance increases.
  • the estimated loss calculation unit 5 When using joint points as estimation information, the estimated loss calculation unit 5 first generates an additional image generated by the generation unit 2. The coordinate corresponding to the joint point in the generated additional image associated with is acquired. Subsequently, the estimated loss calculation unit 5 calculates the distance between the coordinates corresponding to the reference joint point and the coordinates corresponding to the joint point estimated from the additional image indicated by the estimation information output from the estimation unit 26 as the joint point. Calculate for each. Then, the estimated loss calculation unit 5 calculates the sum of the distances calculated for each joint point, divides the calculated sum by the size of the human body (the area of the target object image in the additional image), and calculates the divided value as the estimated loss. To do.
  • the estimated loss calculating unit 5 When using a silhouette image as estimated information, the estimated loss calculating unit 5 is first associated with the additional image generated by the generating unit 2. The coordinates and area of the additional image in which the reference silhouette image is arranged in the generated additional image (for example, the number of pixels of the silhouette image on the additional image) are acquired. Subsequently, the estimated loss calculation unit 5 calculates an area where the reference silhouette image overlaps the silhouette image estimated from the additional image indicated by the estimation information output from the estimation unit 26. Then, the estimated loss calculation unit 5 sets the reciprocal of the value obtained by dividing the overlapping area by the area of the silhouette image as a reference as the estimated loss.
  • the estimated loss calculating unit 5 When using a filled image as estimated information, the estimated loss calculating unit 5 first associates with the additional image generated by the generating unit 2 The coordinates and area (for example, the number of pixels of the painted image on the additional image, etc.) of the additional image where the filled image serving as the reference in the generated additional image is arranged are acquired. Subsequently, the estimated loss calculation unit 5 calculates an area where the filled image serving as the reference overlaps with the filled image estimated from the additional image indicated by the estimation information output from the estimation unit 26. Then, the estimated loss calculation unit 5 sets the reciprocal of the value obtained by dividing the overlapping area by the area of the filled image as a reference as the estimated loss.
  • the estimation loss calculation unit 5 When using an image obtained by removing the setting image from the additional image as estimation information, the estimation loss calculation unit 5 first generates An image obtained by removing the setting image serving as a reference in the generated additional image that is associated with the additional image generated by the unit 2 is acquired. Subsequently, the estimated loss calculation unit 5 sets each of the image obtained by removing the reference setting image and the image obtained by removing the setting image estimated from the additional image indicated by the estimation information output from the estimation unit 26 as a vector.
  • the estimated loss is a value obtained by taking a normalized correlation between vectors or a distance between vectors.
  • the learning parameter update unit 7 updates the learning parameter using the motion recognition loss and the estimated loss, and updates the learning parameter held in the holding unit 27 of the motion recognition / estimation unit 3.
  • the holding unit 27 may use the motion recognition device 1 or a storage unit provided outside the motion recognition device 1.
  • the learning parameter update unit 7 acquires the motion recognition loss output from the motion recognition loss calculation unit 4 and the estimated loss output from the estimated loss calculation unit 5, and is used in, for example, machine learning.
  • the update parameter is derived by the error back propagation method, and the update parameter of the holding unit 7 is updated.
  • FIG. 4 is a diagram illustrating an example of a motion recognition device after learning and a system including the motion recognition device.
  • the system illustrated in FIG. 4 includes an imaging device 41, the motion recognition device 1, and an output unit 42.
  • the system is a system applied to an image monitoring system or the like.
  • the imaging device 41 is, for example, a video camera or a digital camera. Specifically, the imaging device 41 transmits the captured monitoring moving image to the motion recognition device 1 after learning.
  • the action recognition device 1 actually recognizes the action using the monitoring moving image and outputs the action recognition information.
  • the motion recognition device 1 recognizes a motion using a motion recognition / estimation unit 3 as shown in FIG.
  • the motion recognition unit 25 included in the motion recognition / estimation unit 3 outputs the motion recognition information
  • the estimation unit 26 also outputs the estimation information, but only the motion recognition information may be used.
  • the motion recognition apparatus 1 when detecting the suspicious person, the motion recognition apparatus 1 removes the image captured on the front surface, the back surface, or both of the target object image corresponding to the suspicious person from the monitoring moving image, and thus the suspicious person. Detecting the movement of
  • the output unit 42 outputs the operation recognition result indicated by the operation recognition information, for example, when the information obtained by converting the operation recognition information into a format that can be output to the output unit 42 is acquired.
  • the output unit 42 is, for example, a display device or an audio output device.
  • FIG. 5 is a diagram illustrating an example of the operation of the motion recognition apparatus in the case of learning.
  • FIGS. 1 to 4 are referred to as appropriate.
  • the motion recognition method is implemented by operating the motion recognition device. Therefore, the description of the motion recognition method in the present embodiment is replaced with the following description of the motion recognition apparatus.
  • the generation unit 2 generates an additional image obtained by adding a preset setting image to the target object image corresponding to the target object (step A1).
  • the motion recognition / estimation unit 3 recognizes the motion of the target object using the additional image, outputs motion recognition information indicating the motion recognition result, estimates a set image, and estimates information indicating the estimation result.
  • the motion recognition loss calculation unit 4 calculates the motion recognition loss using the motion recognition information serving as a reference generated in advance based on the additional image and the motion recognition information (step A3).
  • the estimated loss calculation part 5 calculates an estimated loss using the estimated information used as the reference
  • the learning parameter updating unit 6 is used to update the learning parameter using the motion recognition loss and the estimated loss (step A5).
  • steps A1 to A5 shown in FIG. 5 will be described in detail.
  • step A ⁇ b> 1 the generation unit 2 acquires an image or a moving image obtained by capturing only the target object stored in the target object image storage unit 21. Subsequently, the generation unit 2 adds a setting image to the image having the acquired target object image. For example, the generating unit 2 adds the setting images S1_IMG, S2_IMG, and S3_IMG to the target object image T_IMG of the image 31 illustrated in FIG. Then, the generation unit 2 stores the generated additional image in the additional image storage unit 22.
  • step A2 the motion recognition unit / estimation unit 3 acquires an additional image. Subsequently, the motion recognition unit / estimation unit 3 uses the acquired additional image as an input, and recognizes the motion of the target object based on the learning parameter held in the holding unit 27. Then, the motion recognition / estimation unit 3 outputs motion recognition information indicating the motion recognition result.
  • the motion recognition unit / estimation unit 3 acquires an additional image during learning of motion recognition. Subsequently, the estimation unit 26 uses the acquired additional image as an input, and estimates a setting image based on the learning parameter held in the holding unit 27. And the estimation part 26 outputs the estimation information which shows an estimation result.
  • the motion recognition unit / estimation unit 3 learns the motion recognition information and the estimation information of the setting image using the same additional image.
  • step A ⁇ b> 3 the motion recognition loss calculation unit 4 uses the motion recognition information output from the motion recognition unit 25 and the motion recognition information serving as a reference generated in advance by the generation unit 2, with respect to the motion recognition information serving as a reference. Calculate motion recognition loss.
  • step A4 the estimated loss calculation unit 5 calculates the estimated loss for the reference estimation information using the estimation information output from the estimation unit 26 and the reference estimation information generated by the generation unit 2. .
  • step A5 the learning parameter update unit 7 acquires the motion recognition loss output from the motion recognition loss calculation unit 4 and the estimated loss output from the estimated loss calculation unit 5, and performs error back propagation used in machine learning.
  • the update parameter is derived by the method, and the update parameter of the holding unit 7 is updated.
  • step A6 the motion recognition apparatus 1 determines whether or not to end learning. For example, when the processing shown in steps A1 to A5 is performed on all or predetermined target object images stored in the target object image storage unit 21 (step A6: Yes), the learning is terminated. If there is a target object image stored in the target object image storage unit 21 (step A6: No), the process of step A1 is executed again.
  • step A1 the generation unit 2 generates an additional image in which a portion where the setting image overlaps the target object image is set larger as the update progresses.
  • step A2 the motion recognition / estimation unit 3 uses these additional images to update the update parameters based on the results of motion recognition and setting image estimation.
  • the additional image is generated so that the ratio between the area where the setting image overlaps the object image and the area of the target object image is small. Thereafter, the ratio is increased as the number of times of repeating steps A1 to A6 is increased. For example, for the first repetition, an additional image is generated with a ratio of 10%, and when repeated 10 times, the ratio is set to 20%. And when it repeats 100 times, a ratio shall be 40 [%].
  • a ratio shall be 40 [%].
  • Step A4 when the estimated loss calculation unit 5 determines that the loss is large, the estimated loss calculation unit 5 instructs the learning parameter update unit 6 not to update the holding unit 27.
  • the motion recognition device 1 when learning is performed by the motion recognition device 1, learning for motion recognition of a target object is performed using a large amount of additional images generated in advance, and learning for estimation of a set image is also performed. That is, when the motion recognition apparatus 1 is trained, motion recognition learning and setting image estimation learning are performed simultaneously. Furthermore, a formulation is made so that learning can be performed with an emphasis on motion recognition rather than estimation of a set image. By doing so, it is possible to construct the motion recognition device 1 capable of recognizing the motion of the target object and capable of highly accurate motion recognition after removing the setting image from the additional image. In other words, the motion recognition apparatus 1 can learn to improve the accuracy of motion recognition as a total even if the estimation of the set image is inaccurate.
  • the program in the embodiment of the present invention may be a program that causes a computer to execute steps A1 to A5 shown in FIG.
  • the processor of the computer functions as the generation unit 2, the motion recognition / estimation unit 3, the motion recognition loss calculation unit 4, the estimated loss calculation unit 5, and the learning parameter update unit 6, and performs processing.
  • each computer may function as any one of the generation unit 2, the motion recognition / estimation unit 3, the motion recognition loss calculation unit 4, the estimated loss calculation unit 5, and the learning parameter update unit 6, respectively.
  • FIG. 6 is a block diagram illustrating an example of a computer that implements the motion recognition apparatus according to the embodiment of the present invention.
  • the computer 110 includes a CPU 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. These units are connected to each other via a bus 121 so that data communication is possible.
  • the computer 110 may include a GPU (GraphicsGraphProcessing Unit) or an FPGA (Field-Programmable Gate Array) in addition to or instead of the CPU 111.
  • the CPU 111 performs various operations by developing the program (code) in the present embodiment stored in the storage device 113 in the main memory 112 and executing them in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program in the present embodiment is provided in a state of being stored in a computer-readable recording medium 120. Note that the program in the present embodiment may be distributed on the Internet connected via the communication interface 117.
  • the storage device 113 includes a hard disk drive and a semiconductor storage device such as a flash memory.
  • the input interface 114 mediates data transmission between the CPU 111 and an input device 118 such as a keyboard and a mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119.
  • the data reader / writer 116 mediates data transmission between the CPU 111 and the recording medium 120, and reads a program from the recording medium 120 and writes a processing result in the computer 110 to the recording medium 120.
  • the communication interface 117 mediates data transmission between the CPU 111 and another computer.
  • the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash (registered trademark)) and SD (Secure Digital), magnetic recording media such as a flexible disk, or CD- An optical recording medium such as ROM (Compact Disk Read Only Memory).
  • CF Compact Flash (registered trademark)
  • SD Secure Digital
  • magnetic recording media such as a flexible disk
  • CD- An optical recording medium such as ROM (Compact Disk Read Only Memory).
  • a generation unit that adds a preset setting image to the target object image corresponding to the target object and generates an additional image; Recognizing the motion of the target object using the additional image, outputting motion recognition information indicating a motion recognition result, estimating the setting image using the additional image, and outputting estimated information indicating the estimation result ,
  • Motion recognition / estimator A motion recognition loss calculating unit that calculates motion recognition loss using the motion recognition information serving as a reference generated in advance based on the additional image and the motion recognition information;
  • An estimated loss calculating unit that calculates estimated loss using estimated information that is a reference generated in advance based on the additional image and the estimated information;
  • a learning parameter updating unit that updates the learning parameter using the motion recognition loss and the estimated loss;
  • a motion recognition apparatus comprising:
  • Appendix 2 The motion recognition device according to appendix 1, The generation unit generates the additional image by using the target object image or the setting image as a human body image or an image imitating a human body.
  • the motion recognition device according to appendix 1 or 2
  • the generation unit generates the additional image as an image in which the target object image or the setting image is filled with one or more colors in an outline.
  • (Appendix 6) (A) adding a preset setting image to the target object image corresponding to the target object to generate an additional image; and (B) Recognizing the motion of the target object using the additional image, outputting motion recognition information indicating a motion recognition result, estimating the setting image using the additional image, and outputting estimated information indicating the estimation result Step, and (C) calculating a motion recognition loss using motion recognition information serving as a reference generated in advance based on the additional image and the motion recognition information; (D) calculating an estimated loss using estimated information as a reference generated in advance based on the additional image and the estimated information; (E) updating the learning parameter using the motion recognition loss and the estimated loss;
  • a motion recognition method comprising:
  • Appendix 12 A computer-readable recording medium according to appendix 11, In the step (A), the additional image is generated by using the target object image or the setting image as a human body image or an image imitating a human body.
  • Appendix 14 A computer-readable recording medium according to any one of appendices 11 to 13, The computer-readable recording medium, wherein the learning parameter is updated using the additional image in which a portion where the setting image overlaps the target object image is set larger as the update progresses.
  • Appendix 15 A computer-readable recording medium according to any one of appendices 11 to 14, The learning parameter is updated without using an additional image with a large estimated loss when the estimated loss is large.
  • the motion recognition accuracy of the target object can be improved.
  • the present invention is useful in a field where it is necessary to improve the motion recognition accuracy of a target object.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】対象物体の動作認識精度を向上させる動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体を提供する。 【解決手段】対象物体画像に対して、設定画像を付加し、付加画像を生成する生成部2と、対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、設定画像を推定し、推定結果を示す推定情報を出力する動作認識・推定部3と、予め生成した基準となる動作認識情報と、動作認識情報とを用いて動作認識損失を算出する動作認識損失算出部4と、予め生成した基準となる推定情報と、推定情報とを用いて推定損失を算出する推定損失算出部5と、動作認識損失と推定損失とを用いて学習パラメータを更新する、学習パラメータ更新部6と、を有する動作認識装置1である。

Description

動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体
 本発明は、対象物体の動作を認識する動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体に関する。
 対象物体の動作を認識する方法として、撮像装置により撮像した複数の画像から抽出した特徴を用いて、対象物体の動作を認識する方法がある。
 また、対象物体の動作を認識する方法として、深層学習の一種であるTwo-Stream ConvNets(Two-Stream Convolutional Networks for Action Recognition in Videos)という技術が開示されている。非特許文献1を参照。その技術によれば、画像を入力して物体と背景との特徴を抽出する空間方向のCNN(Convolutional Neural Network)と、オプティカルフローの水平方向成分と垂直方向成分の系列を入力して物体の動作に関する特徴を抽出する時系列方向のCNNとを有する。そして、これらCNNにより抽出された特徴を統合することで、対象物体の動作を精度よく認識している。
Karen Simonyan、Andrew Zisserman、"Two-Stream Convolutional Networks for Action Recognition in Videos"、[online]、平成26年6月9日、Visual Geometry Group, University of Oxford、[平成17年10月3日検索]、インターネット<URL:https://papers.nips.cc/paper/5353-two-stream-convolutional-networks-for-action-recognition-in-videos.pdf>
 しかしながら、非特許文献1に開示されているTwo-Stream ConvNetsでは、画像に撮像された対象物体に対応する対象物体画像に、対象物体画像と別の画像が、重なった状態又は隣接した状態である場合、対象物体の動作を精度よく認識することができない。
 本発明の目的の一例は、対象物体の動作認識精度を向上させる動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面における動作認識装置は、
 対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
 前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
 前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
 前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
 前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、学習パラメータ更新部と、
 を有することを特徴とする。
 また、上記目的を達成するため、本発明の一側面における動作認識方法は、
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
 を有することを特徴とする。
 更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体に記憶するプログラムは、
 コンピュータに、
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
 を実行させることを特徴とする。
 以上のように本発明によれば、対象物体の動作認識精度を向上させることができる。
図1は、学習する場合における動作認識装置の一例を示す図である。 図2は、学習する場合における動作認識装置を有する動作認識システムの一例を示す図である。 図3は、対象物体画像、設定画像、付加画像の一例を示す図である。 図4は、学習後における動作認識装置と、その動作認識装置を有するシステムの一例を図である。 図5は、学習する場合における動作認識装置の動作の一例を示す図である。 図6は、動作認識装置を実現するコンピュータの一例を示す図である。
(実施の形態)
 以下、本発明の実施の形態における動作認識装置について、図1から図6を参照しながら説明する。
[装置構成]
 最初に、図1を用いて、本実施の形態における動作認識装置の構成について説明する。図1は、学習する場合における動作認識装置の一例を示す図である。
 図1に示すように、動作認識装置1は、対象物体の動作を精度よく認識する装置である。動作認識装置1は、生成部2と、動作認識・推定部3と、動作認識損失算出部4と、推定損失算出部5と、学習パラメータ更新部6とを有する。
 このうち、生成部2は、対象物体に対応する対象物体画像に対して、予め設定された設定画像を付加し、付加画像を生成する。対象物体は、人体、人体部位、人間以外の生物、機械など、動作認識を行う対象となる物体を示す。対象物体画像は、撮像装置により撮像された画像(例えば、動画像の画像など)における、対象物体に対応する画像である。設定画像は、例えば、学習において、画像に撮像された対象物体画像を、画像上で認識困難にするために設定される画像である。また、設定画像は、上述した対象物体に加え、静物、又は建造物などに対応する画像である。付加画像は、対象物体画像のみを有する画像、対象物体画像と設定画像とを有する画像である。付加画像は、例えば、対象物体画像の前面、又は背面、又はその両方に、設定画像を配置した画像である。
 続いて、動作認識・推定部3は、付加画像を用いて対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、付加画像を用いて設定画像を推定し、推定結果を示す推定情報を出力する。
 続いて、動作認識損失算出部4は、付加画像に基づいて予め生成した基準となる動作認識情報と、動作認識情報とを用いて動作認識損失を算出する。また、推定損失算出部5は、付加画像に基づいて予め生成した基準となる推定情報と、推定情報とを用いて推定損失を算出する。そして、学習パラメータ更新部6は、動作認識損失と推定損失とを用いて、学習パラメータを更新する。
 このように、本実施の形態では、多種多様な対象物体画像と設定画像とを用意し、パターンの異なる大量の付加画像を生成し、大量の付加画像を用いて、動作認識装置1を学習できる。そのため、動作認識装置1の動作認識精度を向上させることができる。すなわち、従来のように実際に撮像した画像を用いて学習をさせるのではなく、コンピュータなどを利用して生成した大量の付加画像を用いて、動作認識装置1を学習させるので、動作認識装置1の動作認識精度を向上させることができる。付加画像すべてを、コンピュータグラフィクスを用いて作成してもよい。例えば、二次元(2D)モデル又は三次元(3D)モデルを用いて作成してもよい。
 なお、動作認識装置1が行う学習は、機械学習などである。具体的には、深層学習などを用いる。また、学習パラメータの更新は、深層学習におけるニューラルネットワークの学習パラメータを更新することである。
 また、本実施の形態では、動作認識装置1に学習をさせる場合、予め生成した大量の付加画像を利用して、対象物体の動作認識に対する学習をさせるとともに、設定画像の推定に対する学習もさせる。すなわち、動作認識装置1に学習をさせる場合、動作認識の学習と、設定画像の推定の学習とを同時に行う。更に、設定画像の推定よりも動作認識に重点をおいて学習ができるよう定式化しておく。そうすることで、付加画像から設定画像を除去した後に、対象物体の動作を認識する、高精度な動作認識が可能な動作認識装置1を構築できる。言い換えれば、動作認識装置1は、設定画像の推定が不正確でも、トータルとして動作認識の精度がよくなるように学習できる。
 具体的には、街頭などの人混みで撮像した監視動画像から不審者を検出する場合、上述した高精度な動作認識モデルを適用した動作認識装置1を用いることで、監視動画像から不審者に対応する対象物体画像の前面又は背面又はそれら両方に撮像されている画像を除去して、不審者の動作を検出することができる。
 続いて、図2、図3を用いて、本実施の形態における動作認識装置1の構成をより具体的に説明する。図2は、学習する場合における動作認識装置を有する動作認識システムの一例を示す図である。図3は、対象物体画像、設定画像、付加画像の一例を示す図である。
 図2に示すように、本実施の形態における動作認識装置1は、生成部2、動作認識・推定部3、動作認識損失算出部4、推定損失算出部5、学習パラメータ更新部6に加えて、対象物体画像記憶部21、付加画像記憶部22、動作特徴抽出部23、特徴抽出部24、を有する。また、動作認識・推定部3は、動作認識部25(識別器)と推定部26(推定器)と保持部27とを有する。
 生成部2は、対象物体に対応する対象物体画像を有する画像を取得し、取得した画像に設定画像を付加して、付加画像を生成する。
 具体的には、生成部2は、まず、対象物体画像記憶部21に記憶されている対象物体のみが撮像された画像又は動画像を取得する。動画像とは、例えば、時系列に撮像された画像である。続いて、生成部2は、取得した対象物体画像を有する画像に対して、設定画像を付加する。例えば、生成部2は、図3に示す画像31の対象物体画像T_IMGに、設定画像S1_IMG、S2_IMG、S3_IMGを付加したり、画像31の一部にノイズを加えたり、塗り潰したりして、付加画像35を生成する。そして、生成部2は、生成した付加画像を付加画像記憶部22に記憶する。なお、図3の付加画像35では、設定画像S1_IMG、S2_IMG、S3_IMGを全て付加しているが、設定画像S1_IMG、S2_IMG、S3_IMGのいずれか一つ、又は二つ以上を組み合わせて設定してもよい。
 また、対象物体画像又は設定画像は、人体画像又は人体を模した画像としてもよい。また、対象物体画像又は設定画像は、輪郭内を一つ以上の色を用いて塗り潰した画像としてもよい。例えば、シルエット画像。また、設定画像は、強い日光の影響による画像が白くなる現象、又は一部の露出が過剰に低くなり画像が黒くなる現象などを模した、対象物体画像の一部を隠蔽する画像でもよい。更に、設定画像は、物理的な物体に限らず、霧やガラスのように透過的に対象物体を隠蔽する画像でもよい。
 動作認識部・推定部3は、動作認識部25と推定部26と保持部27とを有する。動作認識部25は、付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、対象物体の動作認識をする。また、推定部26は、動作認識部25が動作認識の学習を実行中に、付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、付加画像に設定された設定画像の推定をする。
 具体的には、動作認識部25は、付加画像記憶部22から、付加画像を取得する。続いて、動作認識部25は、取得した付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、対象物体の動作認識をする。そして、動作認識部25は、動作認識結果を示す動作認識情報を出力する。
 動作認識部25は、例えば、歩く動作を認識した場合にはラベル1、走る動作を認識した場合にはラベル2、しゃがむ動作又はしゃがんだ状態を認識した場合にはラベル3、立ち止まっている動作又は立ち止まっている状態を認識した場合にはラベル4などを、動作認識情報として出力する。
 また、動作認識部25は、図2に示すように、動作特徴抽出部23を介して、付加画像における対象物体画像の特徴を抽出した情報を用いて、対象物体の動作認識をしてもよい。その場、動作認識部25は、付加画像対象物体画像の特徴を用いて、保持部27に保持されている学習パラメータに基づいて、対象物体の動作認識をする。
 具体的には、推定部26は、動作認識部25が動作認識の学習を実行中に、付加画像記憶部22から、付加画像を取得する。続いて、推定部26は、取得した付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、設定画像を推定する。そして、推定部26は、推定結果を示す推定情報を出力する。
 推定部26は、例えば、(1)設定画像を人体画像とした付加画像から複数の関節点を推定してもよいし、(2)設定画像を人体を模したシルエット画像とした付加画像からシルエット画像を推定してもよいし、(3)設定画像を塗りつぶした画像とした付加画像から塗りつぶした画像を推定してもよいし、(4)対象物体から設定画像を除去した付加画像を推定してもよい。
 また、推定部26は、図2に示すように、特徴抽出部24を介して、付加画像における設定画像の特徴を抽出した情報を取得し、設定画像を推定してもよい。その場、推定部26は、付加画像から抽出した設定画像の特徴を用いて、保持部27に保持されている学習パラメータに基づいて、設定画像の推定をする。
 なお、図2では、動作認識部・推定部3の前段に、動作特徴抽出部23及び特徴抽出部24を設ける例を示したが、それらは設けず、直接付加画像を動作認識部・推定部3へ入力してもよい。又は、動作特徴抽出部23又は特徴抽出部24のいずれか一方のみを用いてもよい。
 また、図2では、付加画像記憶部22に付加画像を記憶しているが、付加画像記憶部22を介さず、生成部2から動作認識・推定部3、又は、動作特徴抽出部23及び特徴抽出部24へ直接付加画像を出力してもよい。
 動作認識損失算出部4は、付加画像に基づいて、予め生成しておいた基準となる動作認識情報と、動作認識部25から取得した動作認識情報とを用いて動作認識損失を算出する。
 具体的には、動作認識損失算出部4は、動作認識部25から出力された動作認識情報と、基準となる動作認識情報とを比較し、基準となる動作認識情報に近づくほど動作認識損失を小さい値に設定し、遠くなるほど動作認識損失を大きな値に設定する。
 例えば、動作認識情報として、歩く動作にラベル1、走る動作にラベル2、しゃがむ動作又はしゃがんだ状態にラベル3、立ち止まっている動作又は立ち止まっている状態にラベル4などを対応付けた場合について説明する。上述したような場合において、動作認識損失算出部4は、例えば、基準となる動作認識情報のラベルと、動作認識情報のラベルとが一致した場合、動作認識損失を0.0とし、不一致の場合、動作認識損失を1.0とすることが考えられる。
 また、上述した四つのラベル1から4を設定した場合、動作認識部25の出力として、四つのスコアを出力するため、それら四つのスコアにSoftMax関数をかけて変換する。そして、四つのスコアを変換した後のスコア{0.1,0.0, 0.9, 0.1}と、基準となる動作認識情報のラベル{0,0, 1, 0}とのベクトル間距離を損失としてもよい。
 推定損失算出部5は、付加画像に基づいて、生成部2が予め生成した基準となる推定情報と、推定部26より取得した推定情報とを用いて推定損失を算出する。
 具体的には、推定損失算出部5は、推定部26から出力された推定情報と、生成部2で生成された基準となる推定情報とを比較し、基準となる推定情報に近づくほど推定損失を小さい値に設定し、遠くなるほど推定損失を大きな値に設定する。
 推定損失について、上述した(1)から(4)に示した推定情報を用いた場合について説明する。
(1)関節点を推定情報として利用する場合
 推定情報として、人体の複数の関節点を利用して推定損失を算出する場合、推定損失算出部5は、まず、生成部2が生成した付加画像に関連付けられている、生成した付加画像における関節点に対応する座標を取得する。続いて、推定損失算出部5は、基準となる関節点に対応する座標と、推定部26から出力された推定情報が示す付加画像から推定した関節点に対応する座標との距離を、関節点それぞれに対して算出する。そして、推定損失算出部5は、関節点ごとに算出した距離の総和を算出し、算出した総和を人体のサイズ(付加画像における対象物体画像の面積)で除算し、除算した値を推定損失とする。
(2)シルエット画像を推定情報として利用する場合
 推定情報として、シルエット画像を利用して推定損失を算出する場合、推定損失算出部5は、まず、生成部2が生成した付加画像に関連付けられている、生成した付加画像において基準となるシルエット画像が配置されている付加画像の座標と面積(例えば、付加画像上のシルエット画像の画素数など)を取得する。続いて、推定損失算出部5は、基準となるシルエット画像と、推定部26から出力された推定情報が示す付加画像から推定したシルエット画像とが重複する面積を算出する。そして、推定損失算出部5は、重複する面積を基準となるシルエット画像の面積で除算した値の逆数を推定損失とする。
(3)塗りつぶした画像を推定情報として利用する場合
 推定情報として、塗りつぶした画像を利用して推定損失を算出する場合、推定損失算出部5は、まず、生成部2が生成した付加画像に関連付けられている、生成した付加画像において基準となる塗りつぶした画像が配置されている付加画像の座標と面積(例えば、付加画像上の塗りつぶした画像の画素数など)を取得する。続いて、推定損失算出部5は、基準となる塗りつぶした画像と、推定部26から出力された推定情報が示す付加画像から推定した塗りつぶした画像とが重複する面積を算出する。そして、推定損失算出部5は、重複する面積を基準となる塗りつぶした画像の面積で除算した値の逆数を推定損失とする。
(4)付加画像から設定画像を除去した画像を推定情報として利用する場合
 推定情報として、設定画像を除去した画像を利用して推定損失を算出する場合、推定損失算出部5は、まず、生成部2が生成した付加画像に関連付けられている、生成した付加画像において基準となる設定画像を除去した画像を取得する。続いて、推定損失算出部5は、基準となる設定画像を除去した画像と、推定部26から出力された推定情報が示す付加画像から推定した設定画像を除去した画像とについて、それぞれをベクトルと見做してベクトル間の正規化相関をとった値、又はベクトル間の距離を推定損失とする。
 学習パラメータ更新部7は、動作認識損失と推定損失とを用いて学習パラメータを更新し、動作認識・推定部3が有する保持部27に保持されている、学習パラメータを更新する。保持部27は、動作認識装置1又は動作認識装置1の外部に設けられた記憶部を用いてもよい。
 具体的には、学習パラメータ更新部7は、動作認識損失算出部4から出力された動作認識損失と、推定損失算出部5から出力された推定損失とを取得し、例えば、機械学習において用いられる誤差逆伝播法により更新パラメータを導出し、保持部7の更新パラメータを更新する。
 学習後における動作認識装置1の動作認識について説明する。図4は、学習後における動作認識装置と、その動作認識装置を有するシステムの一例を図である。図4に示すシステムは、撮像装置41と、動作認識装置1と、出力部42とを有する。具体的には、システムは、画像監視システムなどに適用するシステムである。
 撮像装置41は、例えば、ビデオカメラ、ディジタルカメラなどである。具体的には、撮像装置41は、撮像した監視動画像を、学習した後の動作認識装置1に送信する。
 動作認識装置1は、実際に、監視動画像を用いて、動作認識をして、動作認識情報を出力する。動作認識装置1は、実際に動作認識をする場合、図4に示すように動作認識・推定部3を用いて、動作認識をする。この際、動作認識・推定部3が有する動作認識部25が動作認識情報を出力し、推定部26も推定情報を出力するが、動作認識情報のみを用いればよい。
 具体的には、動作認識装置1は、不審者を検出する場合、監視動画像から不審者に対応する対象物体画像の前面又は背面又はそれら両方に撮像されている画像を除去して、不審者の動作を検出する。
 出力部42は、例えば、動作認識情報を出力部42に出力可能な形式に変換された情報を取得すると、動作認識情報が示す動作認識結果を出力する。出力部42は、例えば、表示装置、音声出力装置などである。
[装置動作]
 次に、本発明の実施の形態における動作認識装置の動作について図5を用いて説明する。図5は、学習する場合における動作認識装置の動作の一例を示す図である。以下の説明においては、適宜図1から図4を参酌する。また、本実施の形態では、動作認識装置を動作させることによって、動作認識方法が実施される。よって、本実施の形態における動作認識方法の説明は、以下の動作認識装置の動作説明に代える。
 図5に示すように、最初に、生成部2は、対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加した、付加画像を生成する(ステップA1)。続いて、動作認識・推定部3は、付加画像を用いて対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、設定画像を推定し、推定結果を示す推定情報を出力する(ステップA2)。続いて、動作認識損失算出部4は、付加画像に基づいて予め生成した基準となる動作認識情報と、動作認識情報とを用いて動作認識損失を算出する(ステップA3)。また、推定損失算出部5は、付加画像に基づいて予め生成した基準となる推定情報と、推定情報とを用いて推定損失を算出する(ステップA4)。学習パラメータ更新部6と、動作認識損失と推定損失とを用いて学習パラメータを更新する(ステップA5)。
 続いて、図5に示したステップA1からA5について詳細に説明する。
 まず、動作認識装置1の学習を実行する前に、初期パラメータを、保持部27に設定する。続いて、ステップA1において、生成部2は、対象物体画像記憶部21に記憶されている対象物体のみが撮像された画像又は動画像を取得する。続いて、生成部2は、取得した対象物体画像を有する画像に対して、設定画像を付加する。生成部2は、例えば、図3に示す画像31の対象物体画像T_IMGに、設定画像S1_IMG、S2_IMG、S3_IMGを付加して、付加画像35を生成する。そして、生成部2は、生成した付加画像を付加画像記憶部22に記憶する。
 ステップA2において、動作認識部・推定部3は、付加画像を取得する。続いて、動作認識部・推定部3は、取得した付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、対象物体の動作認識をする。そして、動作認識部・推定部3は、動作認識結果を示す動作認識情報を出力する。
 また、動作認識部・推定部3は、動作認識の学習を実行中に、付加画像を取得する。続いて、推定部26は、取得した付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、設定画像を推定する。そして、推定部26は、推定結果を示す推定情報を出力する。
 なお、動作認識部・推定部3は、同じ付加画像を用いて、動作認識情報と設定画像の推定情報とを学習することが好適である。
 ステップA3において、動作認識損失算出部4は、動作認識部25から出力された動作認識情報と、生成部2が予め生成した基準となる動作認識情報とを用いて、基準となる動作認識情報に対する動作認識損失を算出する。
 ステップA4において、推定損失算出部5は、推定部26から出力された推定情報と、生成部2で生成された基準となる推定情報とを用いて、基準となる推定情報に対する推定損失を算出する。
 ステップA5において、学習パラメータ更新部7は、動作認識損失算出部4から出力された動作認識損失と、推定損失算出部5から出力された推定損失とを取得し、機械学習において用いられる誤差逆伝播法により更新パラメータを導出し、保持部7の更新パラメータを更新する。
 ステップA6において、動作認識装置1は、学習を終了するか否かを判定する。例えば、対象物体画像記憶部21に記憶されているすべて又は所定の対象物体画像に対してステップA1からA5に示した処理を実施した場合(ステップA6:Yes)、学習を終了する。また、対象物体画像記憶部21に記憶されている対象物体画像がある場合(ステップA6:No)、ステップA1の処理を再度実行する。
 なお、ステップA1において、生成部2は、更新が進むほど、設定画像が対象物体画像に重なる部分を大きく設定した付加画像を生成する。そして、ステップA2において、動作認識・推定部3は、これらの付加画像を使用して、動作認識と設定画像の推定との結果に基づいて、更新パラメータを更新する。
 具体的には、設定画像が対象物画像に重なる面積と対象物体画像の面積との比率が小さくなるように付加画像を生成する。その後、ステップA1からA6の処理を繰り返す回数が進むにつれ比率を大きくする。例えば、繰り返し回数一回目は、比率を10[%]として付加画像を生成し、十回繰り返した場合には比率を20[%]にする。そして百回繰り返した場合には比率を40[%]とする。
 このように、初期の段階では対象物体画像と設定画像との重複を最小にした付加画像を利用し、徐々に重複する部分の面積を大きくした付加画像を用いることで、高精度な学習モデルを構築できる。また、動作認識装置1の学習をする際、初期の段階で、設定画像を推定し難い付加画像を用いた場合、動作認識の学習精度が低下するため、初期の段階では、設定画像を推定し易い付加画像を用いるのが好適である。
 また、学習パラメータは、推定損失が大きい場合、推定損失の大きい付加画像を用いずに更新をする。具体的には、推定損失が大きい付加画像を除外して、再度学習をやり直す。また、ステップA4において、推定損失算出部5が損失が大きいと判定した場合、推定損失算出部5から学習パラメータ更新部6へ、保持部27への更新をしないように指示をする。
 理由は、動作認識装置1の学習をする際、設定画像を推定し難い付加画像を用いた場合、動作認識の学習精度が低下するため、設定画像を推定し易い付加画像を用いるのが好適である。特に、初期段階に適用した場合に有効である。
[本実施の形態の効果]
 以上のように本実施の形態によれば、多種多様な対象物体画像と設定画像とを用意し、パターンの異なる大量の付加画像を用意し、大量の付加画像を用いて、動作認識装置1を学習できる。そのため、動作認識装置1の動作認識精度を向上させることができる。すなわち、従来のように実際に撮像した画像を用いて学習をさせるのではなく、コンピュータなどを利用して生成した大量の付加画像を用いて、動作認識装置1を学習させるので、動作認識装置1の動作認識精度を向上させることができる。
 また、本実施の形態では、動作認識装置1に学習をさせる場合、予め生成した大量の付加画像を利用して、対象物体の動作認識に対する学習をさせるとともに、設定画像の推定に対する学習もさせる。すなわち、動作認識装置1に学習をさせる場合、動作認識の学習と、設定画像の推定の学習とを同時に行う。更に、設定画像の推定よりも動作認識に重点をおいて学習ができるよう定式化しておく。そうすることで、付加画像から設定画像を除去した後、対象物体の動作を認識する、高精度な動作認識が可能な動作認識装置1を構築できる。言い換えれば、動作認識装置1は、設定画像の推定が不正確でも、トータルとして動作認識の精度がよくなるように学習できる。
[プログラム]
 本発明の実施の形態におけるプログラムは、コンピュータに、図5に示すステップA1からA5を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における動作認識装置と動作認識方法とを実現することができる。この場合、コンピュータのプロセッサは、生成部2、動作認識・推定部3、動作認識損失算出部4、推定損失算出部5、学習パラメータ更新部6として機能し、処理を行なう。
 また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、生成部2、動作認識・推定部3、動作認識損失算出部4、推定損失算出部5、学習パラメータ更新部6のいずれかとして機能してもよい。
[物理構成]
 ここで、実施の形態におけるプログラムを実行することによって、動作認識装置を実現するコンピュータについて図6を用いて説明する。図6は、本発明の実施の形態における動作認識装置を実現するコンピュータの一例を示すブロック図である。
 図6に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていてもよい。
 CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであってもよい。
 また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置があげられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
 データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体があげられる。
[付記]
 以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する(付記1)から(付記15)により表現することができるが、以下の記載に限定されるものではない。
(付記1)
 対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
 前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
 前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
 前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
 前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、学習パラメータ更新部と、
 を有することを特徴とする動作認識装置。
(付記2)
 付記1に記載の動作認識装置であって、
 前記生成部は、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
 ことを特徴とする動作認識装置。
(付記3)
 付記1又は2に記載の動作認識装置であって、
 前記生成部は、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
 ことを特徴とする動作認識装置。
(付記4)
 付記1から3のいずれか一つに記載の動作認識装置であって、
 前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
 ことを特徴とする動作認識装置。
(付記5)
 付記1から4のいずれか一つに記載の動作認識装置であって、
 前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
 ことを特徴とする動作認識装置。
(付記6)
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
 を有することを特徴とする動作認識方法。
(付記7)
 付記6に記載の動作認識方法であって、
 前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
 ことを特徴とする動作認識方法。
(付記8)
 付記6又は7に記載の動作認識方法であって、
 前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
 ことを特徴とする動作認識方法。
(付記9)
 付記6から8のいずれか一つに記載の動作認識方法であって、
 前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
 ことを特徴とする動作認識方法。
(付記10)
 付記6から9のいずれか一つに記載の動作認識方法であって、
 前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
 ことを特徴とする動作認識方法。
(付記11)
 コンピュータに、
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
 を実行させる命令を含む、動作認識プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記12)
 付記11に記載のコンピュータ読み取り可能な記録媒体であって、
 前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記13)
 付記11又は12に記載のコンピュータ読み取り可能な記録媒体であって、
 前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗りつぶした画像として、前記付加画像を生成する
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記14)
 付記11から13のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
 前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記15)
 付記11から14のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
 前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 以上のように本発明によれば、対象物体の動作認識精度を向上させることができる。本発明は、対象物体の動作認識精度を向上させることが必要な分野において有用である。
  1 動作認識装置
  2 生成部
  3 動作認識・推定部
  4 動作認識損失算出部
  5 推定損失算出部
  6 学習パラメータ更新部
 21 対象物体画像記憶部
 22 付加画像記憶部
 23 動作特徴抽出部
 24 特徴抽出部
 25 動作認識部
 26 推定部
 27 保持部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (15)

  1.  対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
     前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
     前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
     前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
     前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、学習パラメータ更新部と、
     を有することを特徴とする動作認識装置。
  2.  請求項1に記載の動作認識装置であって、
     前記生成部は、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
     ことを特徴とする動作認識装置。
  3.  請求項1又は2に記載の動作認識装置であって、
     前記生成部は、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
     ことを特徴とする動作認識装置。
  4.  請求項1から3のいずれか一つに記載の動作認識装置であって、
     前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
     ことを特徴とする動作認識装置。
  5.  請求項1から4のいずれか一つに記載の動作認識装置であって、
     前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
     ことを特徴とする動作認識装置。
  6. (A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
    (B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
    (C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
    (D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
    (E)前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
     を有することを特徴とする動作認識方法。
  7.  請求項6に記載の動作認識方法であって、
     前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
     ことを特徴とする動作認識方法。
  8.  請求項6又は7に記載の動作認識方法であって、
     前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
     ことを特徴とする動作認識方法。
  9.  請求項6から8のいずれか一つに記載の動作認識方法であって、
     前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
     ことを特徴とする動作認識方法。
  10.  請求項6から9のいずれか一つに記載の動作認識方法であって、
     前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
     ことを特徴とする動作認識方法。
  11.  コンピュータに、
    (A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
    (B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
    (C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
    (D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
    (E)前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
     を実行させる命令を含む、動作認識プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  12.  請求項11に記載のコンピュータ読み取り可能な記録媒体であって、
     前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
  13.  請求項11又は12に記載のコンピュータ読み取り可能な記録媒体であって、
     前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗りつぶした画像として、前記付加画像を生成する
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
  14.  請求項11から13のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
     前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
  15.  請求項11から14のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
     前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2018/015561 2018-04-13 2018-04-13 動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体 WO2019198233A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2018/015561 WO2019198233A1 (ja) 2018-04-13 2018-04-13 動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体
US17/043,275 US11809997B2 (en) 2018-04-13 2018-04-13 Action recognition apparatus, action recognition method, and computer-readable recording medium
JP2020513040A JP6981543B2 (ja) 2018-04-13 2018-04-13 動作認識装置、動作認識方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/015561 WO2019198233A1 (ja) 2018-04-13 2018-04-13 動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
WO2019198233A1 true WO2019198233A1 (ja) 2019-10-17

Family

ID=68163989

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/015561 WO2019198233A1 (ja) 2018-04-13 2018-04-13 動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US11809997B2 (ja)
JP (1) JP6981543B2 (ja)
WO (1) WO2019198233A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7167668B2 (ja) * 2018-11-30 2022-11-09 コニカミノルタ株式会社 学習方法、学習装置、プログラムおよび記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274636A (ja) * 1993-01-19 1994-09-30 Japan Technical Software:Kk 識別システムおよびその方法並びに立体識別システム
WO2017154630A1 (ja) * 2016-03-09 2017-09-14 日本電気株式会社 画像処理装置、画像処理方法および記録媒体
WO2018008593A1 (ja) * 2016-07-04 2018-01-11 日本電気株式会社 画像診断学習装置、画像診断装置、方法およびプログラムを格納する記憶媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018013495A1 (en) 2016-07-11 2018-01-18 Gravity Jack, Inc. Augmented reality methods and devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274636A (ja) * 1993-01-19 1994-09-30 Japan Technical Software:Kk 識別システムおよびその方法並びに立体識別システム
WO2017154630A1 (ja) * 2016-03-09 2017-09-14 日本電気株式会社 画像処理装置、画像処理方法および記録媒体
WO2018008593A1 (ja) * 2016-07-04 2018-01-11 日本電気株式会社 画像診断学習装置、画像診断装置、方法およびプログラムを格納する記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKAGAKI YUKIHIDE ET AL.: "Deep Spatio - Temporal Transformation", IEICE TECHNICAL REPORT- THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. 117, no. 238, 5 October 2017 (2017-10-05), pages 31 - 35, ISSN: 0913-5685 *

Also Published As

Publication number Publication date
JPWO2019198233A1 (ja) 2021-03-11
JP6981543B2 (ja) 2021-12-15
US11809997B2 (en) 2023-11-07
US20210049351A1 (en) 2021-02-18

Similar Documents

Publication Publication Date Title
US10949649B2 (en) Real-time tracking of facial features in unconstrained video
US10394318B2 (en) Scene analysis for improved eye tracking
US11274922B2 (en) Method and apparatus for binocular ranging
EP2880633B1 (en) Animating objects using the human body
US10204423B2 (en) Visual odometry using object priors
Wang et al. Monocular 3d object detection with depth from motion
US20120306874A1 (en) Method and system for single view image 3 d face synthesis
Kaluri et al. Optimized feature extraction for precise sign gesture recognition using self-improved genetic algorithm
JP2018500645A (ja) オブジェクトをトラッキングするためのシステムおよび方法
JP2009237845A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
CN110838122B (zh) 点云的分割方法、装置及计算机存储介质
JP2014137756A5 (ja)
WO2022095514A1 (zh) 图像检测方法、装置、电子设备及存储介质
Joung et al. Unsupervised stereo matching using confidential correspondence consistency
CN111696196A (zh) 一种三维人脸模型重建方法及装置
JP7031685B2 (ja) モデル学習装置、モデル学習方法及びコンピュータプログラム
CN115115971A (zh) 处理图像以定位新颖对象
WO2019198233A1 (ja) 動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体
JP2017033556A (ja) 画像処理方法及び電子機器
Nguyen et al. 3d pedestrian tracking using local structure constraints
KR102364728B1 (ko) 피사체의 프레임 데이터로부터 캐릭터 모션을 생성하는 방법 및 이를 이용한 장치
KR20190110259A (ko) 객체 추적을 이용한 객체 탐지 장치 및 방법
CN110753239B (zh) 视频预测方法、视频预测装置、电子设备和车辆
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
US11393069B2 (en) Image processing apparatus, image processing method, and computer readable recording medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18914080

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020513040

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18914080

Country of ref document: EP

Kind code of ref document: A1