WO2020195732A1 - 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体 - Google Patents

画像処理装置、画像処理方法、およびプログラムが格納された記録媒体 Download PDF

Info

Publication number
WO2020195732A1
WO2020195732A1 PCT/JP2020/009917 JP2020009917W WO2020195732A1 WO 2020195732 A1 WO2020195732 A1 WO 2020195732A1 JP 2020009917 W JP2020009917 W JP 2020009917W WO 2020195732 A1 WO2020195732 A1 WO 2020195732A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
movement
head
feature
index value
Prior art date
Application number
PCT/JP2020/009917
Other languages
English (en)
French (fr)
Inventor
和之 櫻井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/437,476 priority Critical patent/US11908157B2/en
Priority to EP20777945.5A priority patent/EP3944188A4/en
Priority to JP2021508952A priority patent/JP7151875B2/ja
Priority to CN202080023319.XA priority patent/CN113646806A/zh
Publication of WO2020195732A1 publication Critical patent/WO2020195732A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • an image processing method for example, an image processing device that executes face recognition of a person.
  • Face recognition is used for security or identity verification in entrance / exit management of airports and stadiums.
  • An attempt is made to break through face recognition using another person's face image (for example, printing a photo).
  • Such an act is an example of spoofing by pretending to be another person.
  • FIG. 8 An example of spoofing will be described in detail with reference to FIG. 8
  • a person hides his / her face by holding a print or display of a photograph in front of his / her face.
  • An image of another person's face is displayed on the print or display.
  • a person fraudulently passes face recognition using another person's face image printed or displayed on a display.
  • Related techniques for detecting spoofing as described above are shown in Patent Document 1 and Non-Patent Document 1.
  • the face of a person is photographed as a moving image, and the blink of the person is detected based on the difference between the images in the time series. Then, if the blink of the person is not detected even once within the predetermined period, it is determined that the face of the person is not genuine.
  • the fact that a human face is not real means that it is not the person's own face. In this way, in the related technique described in Patent Document 1, spoofing is determined.
  • Non-Patent Document 1 spoofing is determined by using machine learning. Specifically, a convolutional neural network is used to learn real facial features. Then, a classifier for discriminating between a face image displayed on a print or a display and a real face is generated. The learned classifier is used to determine whether a person's face is fake or genuine.
  • Non-Patent Document 1 the higher the resolution of the face image displayed on the display, the lower the accuracy of the classifier, and the higher the possibility that the face image is mistakenly identified as a real face. Become.
  • the present invention has been made in view of the above problems, and an object of the present invention is to provide an image processing device or the like capable of accurately identifying spoofing using a face image.
  • the image processing apparatus detects motion detection by detecting features related to the movement of the head of a person and features related to the movement of a body portion other than the head of the person from time-series images.
  • the means and an index value calculating means for calculating an index value indicating a high degree of consistency between the characteristics related to the movement of the head of the person and the characteristics related to the movement of the body of the person are provided.
  • the image processing method detects features related to the movement of the head of a person and features related to the movement of a body portion other than the head of the person from time-series images, and the above-mentioned It includes calculating an index value indicating a high degree of consistency between the characteristics related to the movement of the head of the person and the characteristics related to the movement of the body of the person.
  • a program detects from time-series images the features related to the movement of the head of a person and the features related to the movement of a body portion other than the head of the person.
  • the computer is made to calculate an index value indicating a high degree of consistency between the characteristics related to the movement of the head of the person and the characteristics related to the movement of the body of the person.
  • spoofing using a facial image can be accurately identified.
  • FIG. It is a block diagram which shows the structure of the image processing apparatus which concerns on Embodiment 1.
  • FIG. It is a figure explaining the relationship between the movement of a person's head / body, and spoofing.
  • It is a flowchart which shows the flow of the process for identifying the spoofing which concerns on Embodiment 1.
  • It is a flowchart which shows the flow from image acquisition to spoofing determination processing in the image processing apparatus which concerns on Embodiment 2.
  • FIG. 1 is a block diagram showing a configuration of an image processing device 100 according to the first embodiment.
  • the image processing device 100 includes a motion detection unit 104 and an index value calculation unit 106.
  • the motion detection unit 104 is an example of motion detection means.
  • the index value calculation unit 106 is an example of the index value calculation means.
  • the motion detection unit 104 detects features related to the movement of the head of the person and features related to the movement of the body, which is a portion other than the head of the person, from the time-series images. For example, the motion detection unit 104 uses a deep learning neural network to detect features related to the movement of the head of a person and features related to the movement of the body for each image from time-series images.
  • the head of a person is a part including the neck, face, head, and back of the head of the person.
  • the body part is at least a part of the whole person excluding the head.
  • the body is a torso, arms, legs, or a combination thereof.
  • a time-series image is, for example, data of a plurality of frame images of a moving image obtained by photographing a person by one or more imaging devices (not shown).
  • the frame image data is also referred to as an image below for convenience.
  • the time-series images may be a plurality of still images obtained by repeatedly taking the same person by the imaging device.
  • the motion detection unit 104 detects the head region and the body region of the person by analyzing the images.
  • the motion detection unit 104 detects the first information indicating the change in the position of the head from the image of the region of the head between the images in the time series, and from the first information, the feature related to the movement of the head. Is extracted. Further, the motion detection unit 104 detects the second information indicating the change in the position of the body part from the image of the region of the body part between the images in the time series, and from the second information, the feature related to the movement of the body part. Is extracted.
  • the characteristics related to movement are abbreviated as movement characteristics.
  • the first information indicating the change in the position of the head is, for example, information indicating the change (displacement) in the position of the tracking point detected from the region of the head in the time-series image.
  • the second information indicating the change in the position of the body is, for example, information indicating the change (displacement) in the position of the tracking point detected from the region of the body between the images in the time series.
  • the movement feature of the head is, for example, a motion vector indicating the direction in which the head moves.
  • the motion detection unit 104 may calculate the change in the position of the head in a fixed time based on the first information, and calculate the direction in which the head moves in a fixed time.
  • the movement feature of the head may be the magnitude of the displacement of the head or the cycle of the movement of the head.
  • the motion detection unit 104 may calculate the average time during which the position of the head changes from the highest apex to the next highest apex as the cycle of the movement of the head based on the first information.
  • the information indicating the movement characteristics of the head may be data relating to a motion vector indicating the direction in which the head moves, data indicating the magnitude of displacement of the head, or data indicating the period of movement of the head.
  • motion vector information about head movement includes data about motion vectors of tracking points in the area of the head.
  • the data may include position coordinates before and after the tracking point is displaced, and data representing the orientation and magnitude of the vector.
  • the movement characteristic of the body part is, for example, a motion vector indicating the direction in which the body part moves.
  • the movement feature of the body part may be the magnitude of the displacement of the body part or the cycle of the movement of the body part.
  • the information indicating the movement characteristics of the body is data relating to a motion vector indicating the direction in which the body moves, data indicating the magnitude of displacement of the body, or data indicating the period of movement of the body.
  • the motion vector information regarding the movement of the body may be data regarding the motion vector of the tracking point in the region of the body.
  • the data may include position coordinates before and after the tracking point is displaced, and data representing the orientation and magnitude of the vector.
  • the motion detection unit 104 transmits information indicating the movement characteristics of the head and information indicating the movement characteristics of the body to the index value calculation unit 106.
  • the index value calculation unit 106 receives information indicating the movement characteristics of the head and information indicating the movement characteristics of the body from the movement detection unit 104.
  • the index value calculation unit 106 has a high degree of consistency between the movement of the head of the person and the movement of the body of the person based on the information indicating the movement characteristics of the head and the information indicating the movement characteristics of the body. Calculate the index value indicating.
  • the index value calculated by the index value calculation unit 106 is an output from a deep learning neural network that inputs a motion vector indicating the direction in which the head moves and a motion vector indicating the direction in which the body moves.
  • the index value is the distance between the motion vector indicating the direction in which the head moves and the motion vector indicating the direction in which the body moves.
  • the index value may be an angle between a motion vector indicating the direction in which the head moves and a motion vector indicating the direction in which the body moves.
  • the calculation method is not limited as long as the index value indicates a high degree of consistency between the movement of the person's head and the movement of the person's body. The relationship between the index value calculated by the index value calculation unit 106 and the spoofing by a person will be described below.
  • the index value indicates the high degree of consistency between the movement of the person's head and the movement of the person's body. Impersonation is the act of pretending that a person is another person.
  • a person impersonates by printing or using a face image of another person displayed on a display will be described.
  • FIG. 2 is a diagram for explaining the relationship between the index value and the presence / absence of spoofing.
  • Case (a) in FIG. 2 shows a case where the index value is low.
  • a low index value indicates that there is a contradiction between the movement characteristics of the head and the movement characteristics of the body.
  • a person impersonates using another person's face image. The person holds the display in his hand and holds the display in front of his face, like the person shown in FIG. Therefore, in the case (a), there may be a contradiction as the movement of one person between the movement of the head and the movement of the body. More specifically, in walk-through authentication, when a person holding a display walks, the person concerned regarding the cycle and magnitude of movement between the movement of the body and the movement of the arm (elbow). An unintended shift occurs, and there is a contradiction between the movement of the head shown on the display and the movement of the body of the person as the movement of one person. Therefore, the lower the index value, the higher the possibility that the person is impersonating.
  • (B) in FIG. 2 shows a case where the index value is high.
  • a high index value indicates that the movement characteristics of the head and the movement characteristics of the body are consistent.
  • the person is not impersonating. Therefore, the direction in which the head of the person moves and the direction in which the body moves are synchronized, and there is almost no difference between the displacement of the head and the displacement of the body. That is, in case (b), the movement of the head and the movement of the body are the same or at least similar. Therefore, the lower the index value, the less likely the person is impersonating.
  • FIG. 3 is a flowchart showing the flow of the index value calculation process by the image processing device 100.
  • the motion detection unit 104 acquires time-series images.
  • the motion detection unit 104 acquires a moving image taken by a surveillance camera (not shown), and extracts a plurality of images including a person from the moving image.
  • the motion detection unit 104 detects the region of the head of the person and the region of the body of the person from the acquired time-series images (S101).
  • the motion detection unit 104 analyzes the region of the head of the person and the region of the body of the person detected from the time-series images, and thereby, the characteristics related to the movement of the head of the person (movement features of the head) and the body. Each of the characteristics related to the movement of the part (the movement characteristic of the body part) is detected. (S102).
  • the motion detection unit 104 transmits the information indicating the movement characteristics of the head and the information indicating the movement characteristics of the body detected in step S102 to the index value calculation unit 106.
  • the index value calculation unit 106 receives the movement characteristics of the head and the movement characteristics of the body from the movement detection unit 104. Then, the index value calculation unit 106 calculates the above-mentioned index value from the received movement characteristics of the head and the movement characteristics of the body (S103).
  • the index value calculation unit 106 may output the calculated index value to an external device (not shown) such as a display device.
  • the image processing device 100 may determine spoofing using a face image from the magnitude of the index value and output an alert.
  • the motion detection unit 104 detects a feature related to the movement of the head of the person and a feature related to the movement of the body part which is a portion other than the head of the person.
  • the index value calculation unit 106 calculates an index value indicating a high degree of consistency between the characteristics related to the movement of the head of the person and the characteristics related to the movement of the body.
  • the index value represents the result of identifying spoofing.
  • the index value calculated by the index value calculation unit 106 is low. That is, the index value is a parameter that reflects the possibility that the person is impersonating. According to the first embodiment, spoofing using a face image can be accurately identified.
  • the second embodiment includes not only calculating an index value representing the result of identifying spoofing, but also determining whether or not a person is spoofing based on the index value, and outputting the determination result. ..
  • the spoofing score described in the second embodiment is an example of a parameter based on an index value.
  • FIG. 4 is a block diagram showing the configuration of the image processing device 200.
  • the image processing device 200 includes a motion detection unit 210, an index value calculation unit 230, and a spoofing determination unit 240.
  • the motion detection unit 210 is an example of motion detection means.
  • the index value calculation unit 230 is an example of the index value calculation means.
  • the spoofing determination unit 240 is an example of the spoofing determination means.
  • the image processing device 200 is connected to the input unit 10 and the output unit 20.
  • the input unit 10 inputs time-series images to the head detection unit 211 and the body part detection unit 212 included in the motion detection unit 210 of the image processing device 200.
  • the input unit 10 may include an imaging device that generates time-series images.
  • the output unit 20 is a determination result (described as a spoofing determination result in FIG. 4) indicating whether or not a person is impersonating from the spoofing determination unit 240 of the image processing device 200, and a spoofing score described later.
  • Receive data The output unit 20 outputs the received spoofing score and spoofing determination result to an external device such as a display device.
  • the image processing device 200, the input unit 10, the output unit 20, the weight value storage unit 30, the standard value storage unit 40, and the threshold value storage unit 50 constitute the spoofing detection device 1.
  • the motion detection unit 210 includes a head detection unit 211, a body part detection unit 212, a head movement feature extraction unit 215, a body movement feature extraction unit 216, and a feature integration unit 220. ..
  • the head detection unit 211 is an example of the head detection means.
  • the body part detecting unit 212 is an example of the body part detecting means.
  • the head detection unit 211 detects an area corresponding to the head of a person in a time-series image.
  • the head of a person is a part including the neck, face, head, and back of the head of the person.
  • the body part detection unit 212 detects a region corresponding to the body part of a person in a time-series image.
  • the body part is at least a part of the whole person excluding the head.
  • the head detection unit 211 detects the contour of a person's head by pattern matching from each of the time-series images.
  • the body body detection unit 212 detects the contour of a person's body body by pattern matching from each of the time-series images. In this case, the head detection unit 211 matches the sample image of the contour of the head collected in advance with the time-series image acquired from the input unit 10 to obtain the contour of the head of the person from the time-series image. Is detected.
  • the body body detection unit 212 detects the contour of the body part of the person from the time-series images.
  • the head detection unit 211 detects the tracking point of the person's head in the detected area of the person's head.
  • the tracking point of the head is the position of a part of the face such as the eyes, nose, or ears, or the position of the neck or crown.
  • the body part detection unit 212 detects a tracking point of the person's body part in the area of the person's body part detected by the body part detection unit 212.
  • the tracking point of the body is, for example, the position of a joint on the torso, arm, or leg.
  • head and body tracking points are not limited to the examples described herein.
  • the head detection unit 211 detects the tracking point of the head of a person from each of the time-series images by using the information for identifying the tracking point.
  • the body body detection unit 212 detects the tracking point of the body part of the person from each of the time-series images by using the information for identifying the tracking point.
  • the information for identifying the tracking point is, for example, the feature amount of the tracking point.
  • the feature amount of the tracking point may be a Haar-like feature amount relating to the brightness difference between the pixel corresponding to the tracking point and the pixels around the tracking point.
  • the information indicating the tracking point may be obtained by converting the brightness and hue of the pixel corresponding to the tracking point into vector data (numerical data string) using a Gabor filter (Non-Patent Document 2).
  • Vector data is also called a feature vector.
  • a SIFT Scale-Invariant Feature Transform
  • a HOG Histograms of Oriented Gradients
  • the head detection unit 211 and the body unit detection unit 212 may be designed to select an appropriate feature amount conversion filter according to the type of image.
  • the head detection unit 211 transmits the detection result of the tracking point of the head in the plurality of time-series images together with the data of the plurality of time-series images to the head movement feature extraction unit 215.
  • the body part detection unit 212 transmits the detection result of the tracking point of the body part in the plurality of time-series images together with the data of the plurality of time-series images to the body part movement feature extraction unit 216.
  • the head detection unit 211 transmits the detection result of the head region (for example, the position information of the contour of the head) to the head movement feature extraction unit 215 instead of the detection result of the tracking point of the head.
  • the body body detection unit 212 transmits the detection result of the body region (for example, the position information of the contour of the body body) to the body movement feature extraction unit 216 instead of the detection result of the tracking point of the body body. You may.
  • the head movement feature extraction unit 215 receives the detection result of the head of a person in the time-series images together with the data of a plurality of time-series images from the head detection unit 211.
  • the body movement feature extraction unit 216 receives from the body detection unit 212 the data of the plurality of time-series images as well as the detection result of the body part of the person in the time-series images.
  • the head movement feature extraction unit 215 extracts features related to head movement (head movement features) from a plurality of time-series images by using the detection result of the head of a person in the time-series images.
  • Head movement features include motion vectors of tracking points on a person's head.
  • the body movement feature extraction unit 216 extracts features related to body movement (body movement features) from a plurality of time-series images by using the detection result of the body part of the person in the time-series images.
  • Body movement features include motion vectors of tracking points of a person's body.
  • the head movement feature extraction unit 215 calculates the change in the position of the head in the time-series image based on the detection result of the head of the person received from the head detection unit 211. For example, the head movement feature extraction unit 215 detects the first information indicating the change in the position of the head from the image of the region of the head between the images in the time series. Then, the head movement feature extraction unit 215 calculates the movement feature of the head of the person from the calculated first information indicating the change in the position of the head. For example, the head movement feature extraction unit 215 calculates information on a motion vector indicating a movement feature of a person's head from the first information.
  • the body movement feature extraction unit 216 calculates the change in the position of the body part in the time-series image based on the detection result of the body part of the person received from the body part detection unit 212. For example, the body movement feature extraction unit 216 detects a second piece of information indicating a change in the position of the body part from an image of a region of the body part between images in a time series. Then, the body movement feature extraction unit 216 calculates the movement feature of the body part of the person from the calculated second information indicating the change in the position of the body part. For example, the body movement feature extraction unit 216 calculates information on a motion vector indicating a movement feature of a person's body from the second information.
  • the head movement feature extraction unit 215 transmits information indicating the head movement feature extracted from the time-series images to the feature integration unit 220.
  • the body movement feature extraction unit 216 transmits information indicating the movement characteristics of the body body extracted from the time-series images to the feature integration unit 220.
  • the feature integration unit 220 receives information indicating the head movement feature and information indicating the body movement feature from the head movement feature extraction unit 215 and the body movement feature extraction unit 216, respectively.
  • the feature integration unit 220 generates one integrated feature by integrating features related to the movement of the head of a person and features related to the movement of the body.
  • the feature integration unit 220 generates integrated features relating to the combination of the movement of the head of the person and the movement of the body of the person from the movement features of the head and the movement features of the body.
  • the integrated feature is a vector in which the motion vector of the head representing the motion feature of the head and the motion vector of the head representing the motion feature of the body are connected.
  • the integrated feature is the weighted sum of the movement features of the head and the movement features of the body.
  • the integrated feature may be expressed by the following equation (1).
  • the identifier of the tracking point of the head is represented by the symbol i (i is an integer of 1 or more)
  • the identifier of the tracking point of the body is represented by the symbol j (j is an integer of 1 or more).
  • F (i, j, x i , y j ) is an integrated feature
  • f (i) is a motion feature of the tracking point i of the head
  • g (j) is a body part. This is a movement feature of the tracking point j.
  • x i and y j are the weight value of the movement feature of the head and the weight value of the movement feature of the body, respectively. The method by which the feature integration unit 220 sets the weight values x i and y j will be described later.
  • the feature integration unit 220 calculates the integrated feature F according to the equation (1) using the movement features of the head and the movement features of the body. Then, the feature integration unit 220 transmits the calculated information indicating the integrated feature F to the index value calculation unit 230.
  • the index value calculation unit 230 receives information indicating the integrated feature from the feature integration unit 220.
  • the index value calculation unit 230 of the second embodiment calculates the index value from the integrated features. Specifically, the index value calculation unit 230 inputs the integrated feature into the deep learning neural network and obtains the index value as an output value. Alternatively, the index value calculation unit 230 calculates the distance between the integrated feature and the standard value.
  • the standard value is a typical value of the integrated feature obtained according to the equation (1) from the combination of the movement feature of the head and the movement feature of the body of the person who is not spoofing. An example of the standard value will be described later.
  • the distance between the integrated feature and the standard value may be the Euclidean distance in the feature space, or may be another distance.
  • the index value calculation unit 230 calculates the distance between the integrated feature and the standard value as an index value.
  • the index value of the second embodiment indicates a high degree of consistency between the movement of the head of the person and the movement of the body of the person, as in the first embodiment.
  • the index value calculation unit 230 transmits the calculated index value data to the spoofing determination unit 240.
  • the spoofing determination unit 240 receives the index value data from the index value calculation unit 230.
  • the spoofing determination unit 240 determines whether or not the person is impersonating according to the spoofing determination criteria based on the received index value.
  • the criterion for spoofing is a threshold value for comparison with the index value. A specific example of the spoofing determination criteria used by the spoofing determination unit 240 will be described later with reference to FIG.
  • the spoofing determination unit 240 calculates the "spoofing score" based on the index value calculated by the index value calculation unit 230.
  • the spoofing score is a parameter indicating the high possibility that a person is spoofing (see FIG. 2).
  • the spoofing score is the reciprocal of the index value.
  • the spoofing score may be obtained by subtracting the index value from the maximum value of the index value.
  • the maximum value of the index value is an index value when the movement of the person's head and the movement of the person's body completely match.
  • the larger the index value the smaller the spoofing score, and the lower the possibility that a person is spoofing.
  • the smaller the index value the higher the spoofing score, and the higher the possibility that a person is spoofing.
  • the spoofing determination unit 240 transmits information indicating the spoofing determination result and spoofing score data to the output unit 20.
  • the output unit 20 outputs the spoofing determination result and the spoofing score.
  • the output destination may be a display device or a terminal of an operator who monitors fraud. Alternatively, the spoofing determination unit 240 may output only the spoofing determination result to the output unit 20.
  • the feature integration unit 220 sets the weight values x i and y j of the motion features f (i) and g (j) (i and j are identifiers of the tracking points). It is necessary to set in advance.
  • the feature integration unit 220 is a combination of head movement features and body movement features detected from a large number of sample images of a person performing impersonation (case (a) in FIG. 2) (hereinafter referred to as group A). ) And the combination of head movement features and body movement features (hereinafter referred to as group B) detected from a large number of sample images of a person who is not spoofing (case (b) in FIG. 2). , Get it first.
  • the feature integration unit 220 may generate these groups A and B from a combination of a large number of motion features received from the head movement feature extraction unit 215 and the body movement feature extraction unit 216.
  • Feature integration section 220 integrates features F A (x i, y j ) and integrating feature F B (x i, y j ) to be able distinguish between, it sets the weight value x i, y j.
  • Feature integration unit 220 while changing the value of n, integrating feature F A, determined comprehensively the value of integrating feature F B, satisfies weights above
  • the values x i and y j may be obtained.
  • the weight values x i, y j, x m, y n can take some values of 0 or more and 1 or less, and the feature integration unit 220 has the weight values x i, y j, x.
  • the above-mentioned comprehensive calculation may be performed while changing the values assigned to m and y n .
  • the feature integration unit 220 makes sure that the integrated features of the non-spoofed person are similar to each other, while the integrated features of the non-spoofed person are not similar to the integrated features of the spoofed person.
  • the weight values x i and y j are set in.
  • the weight values x i and y j may be different for each set (i, j) of the tracking points of the head and the tracking points of the body.
  • the threshold Th data is stored in advance in the threshold storage unit 50 shown in FIG.
  • the feature integration unit 220 stores the set data of the weight values x i and y j in the weight value storage unit 30 shown in FIG.
  • the index value calculation unit 230 sets a standard value in advance in order to calculate the above-mentioned index value.
  • the standard value is a typical value of the integrated feature obtained according to the equation (1) from the combination of the movement feature of the head and the movement feature of the body of the person who is not spoofing.
  • the standard value integrating feature obtained from a plurality of sample images of a person not performing impersonation F B (x i, y j ) (i, j is the identifier of the tracking point) in a statistical value such as an average of There may be.
  • the index value calculation unit 230 stores the set standard value data in the standard value storage unit 40 shown in FIG.
  • FIG. 5 is a graph showing a feature space.
  • the feature space is an N-dimensional (N> 1) Euclidean space.
  • FIG. 5 represents an N-dimensional (N> 1) Euclidean space in three dimensions. Each axis of the feature space corresponds to a different feature quantity contained in the integrated feature.
  • the standard value is shown in the graph shown in FIG.
  • the standard value is a statistical leveling value of the integrated features obtained from multiple sample images of a non-spoofed person.
  • the standard value As the center, the outside of the range up to a certain distance (threshold value Th) is meshed.
  • the distance from the standard value to the integrated feature F is represented by d.
  • d ⁇ Th. That is, in the integrated feature F, the integrated feature is within a range up to a certain distance (threshold value Th) about the standard value.
  • the spoofing determination unit 240 determines that the person is genuine (that is, the person is not spoofing). Is determined. On the other hand, if the integrated feature is outside the range up to a certain distance (threshold value Th) centered on the standard value, the spoofing determination unit 240 determines that the person is impersonating.
  • FIG. 6 is a flowchart showing a processing flow from image acquisition by the image processing device 200 to determination of spoofing.
  • the head detection unit 211 and the body part detection unit 212 each acquire a plurality of time-series images from the input unit 10 (S201).
  • the head detection unit 211 and the body body detection unit 212 acquire data of a frame image of a moving image taken within a predetermined period (for example, 10 seconds) by one camera.
  • the head detection unit 211 detects the head of a person from each of the acquired time-series images. Further, the body part detection unit 212 detects the body part of a person from each of the acquired images of the same time series (S202).
  • step S202 the head detection unit 211 first extracts a region of the head of a person from each image by pattern matching or the like, and then obtains a tracking point of the head from the region of the head of the extracted person. It may be detected.
  • the body body detection unit 212 first extracts a body area of a person from each image by pattern matching or the like, and then detects a tracking point of the body body from the extracted body body area of the person. You may.
  • the head detection unit 211 transmits the detection result of the person's head together with the time-series image data to the head movement feature extraction unit 215. Further, the body part detection unit 212 transmits the detection result of the body part of the person together with the time-series image data to the body part movement feature extraction unit 216.
  • the head movement feature extraction unit 215 receives the detection result of the head of a person from the head detection unit 211 together with the time-series image data. Further, the body movement feature extraction unit 216 receives the detection result of the body part of the person from the body part detection unit 212 together with the time-series image data.
  • the head movement feature extraction unit 215 extracts the movement feature of the person's head from the time-series images. Further, the body movement feature extraction unit 216 extracts the movement characteristics of the body of a person from the time-series images (S203).
  • the head movement feature extraction unit 215 transmits the detected information indicating the head movement feature to the feature integration unit 220.
  • the body movement feature extraction unit 216 transmits the detected information indicating the movement characteristics of the body part to the feature integration unit 220.
  • the feature integration unit 220 receives information indicating the head movement feature and information indicating the body movement feature from the head movement feature extraction unit 215 and the body movement feature extraction unit 216, respectively.
  • the feature integration unit 220 generates integrated features by integrating the movement features of the head and the movement features of the body (S204).
  • the feature integration unit 220 has weight values x i and y j (i and j are identifiers of tracking points of the head and body, respectively) stored in the weight value storage unit 30 (see FIG. 4).
  • the integrated feature F i, corresponding to the weight values x i , y j , the head movement feature f (i), and the body movement feature g (j). j, x i , y j
  • the feature integration unit 220 transmits the generated information indicating the integrated feature to the index value calculation unit 230.
  • the index value calculation unit 230 receives information indicating the integrated feature from the feature integration unit 220.
  • the index value calculation unit 230 acquires the standard value stored in advance in the standard value storage unit 40 (see FIG. 5), and sets the distance d (see FIG. 5) between the integrated feature and the standard value in the feature space as an index. Calculate as a value (S205).
  • the index value calculation unit 230 may calculate the index value based on the distance d. For example, the index value calculation unit 230 calculates the value of the function depending on the distance d as the index value. The index value calculation unit 230 transmits the calculated index value data to the spoofing determination unit 240.
  • the spoofing determination unit 240 receives the index value data from the index value calculation unit 230.
  • the spoofing determination unit 240 refers to the threshold value storage unit 50 and acquires the threshold value Th. Then, the spoofing determination unit 240 determines whether or not the index value is equal to or less than the threshold value Th (see FIG. 5) (S206).
  • the spoofing determination unit 240 determines the presence or absence of spoofing as follows.
  • the spoofing determination unit 240 determines that the person is not spoofing (S207A).
  • the spoofing determination unit 240 determines that the person is impersonating (S207B).
  • the spoofing determination unit 240 outputs the spoofing determination result in steps S207A or S207B and the spoofing score data (S208).
  • the output destination may be a display device or an operator's terminal.
  • the spoofing determination unit 240 may output the index value calculated by the index value calculation unit 230 together with the spoofing determination result and the spoofing score data.
  • the motion detection unit 210 detects features related to the movement of the head of the person and features related to the movement of the body portion other than the head of the person from the time-series images. ..
  • the index value calculation unit 230 calculates an index value indicating a high degree of consistency between the characteristics related to the movement of the head of the person and the characteristics related to the movement of the body.
  • spoofing can be accurately identified from the index value indicating the high degree of consistency between the characteristics related to the movement of the head of the person and the characteristics related to the movement of the body part.
  • the spoofing determination unit 240 determines whether or not a person is impersonating another person based on the index value.
  • the index value indicates the high degree of consistency between the movement of the person's head and the movement of the person's body. Therefore, the spoofing determination unit 240 can determine with high accuracy whether or not a person is impersonating another person.
  • the index value calculation unit 230 calculates the index value based on the integrated feature generated by the feature integration unit 220 and the preset standard value.
  • the integrated feature may be a weighted sum of the feature relating to the movement of the head of the person and the feature relating to the movement of the body part of the person.
  • the standard value is a typical value of the integrated feature obtained from the combination of the head movement feature and the body movement feature of the person who is not spoofing. Therefore, the closer the integrated feature is to the standard value, the more the person is. It is highly possible that you are not spoofing. By using such integrated features and standard values, it is possible to calculate an index value that accurately indicates the high degree of consistency between the features related to the movement of the head of a person and the features related to the movement of the body.
  • Each component of the image processing devices 100 and 200 described in the first and second embodiments shows a block of functional units. Some or all of these components are realized by, for example, the information processing apparatus 900 as shown in FIG.
  • FIG. 7 is a block diagram showing an example of the hardware configuration of the information processing apparatus 900.
  • the information processing apparatus 900 includes the following configuration as an example.
  • -CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • -Program 904 loaded into RAM 903
  • a storage device 905 that stores the program 904.
  • Drive device 907 that reads and writes the recording medium 906.
  • -Communication interface 908 that connects to the communication network 909 -I / O interface 910 that inputs and outputs data -Bus 911 connecting each component
  • Each component of the image processing devices 100 and 200 described in the first and second embodiments is realized by the CPU 901 reading and executing the program 904 that realizes these functions.
  • the program 904 that realizes the functions of the respective components is stored in, for example, a storage device 905 or ROM 902 in advance, and the CPU 901 loads the program 904 into the RAM 903 and executes the program as needed.
  • the program 904 may be supplied to the CPU 901 via the communication network 909, or may be stored in the recording medium 906 in advance, and the drive device 907 may read the program and supply the program to the CPU 901.
  • the image processing apparatus described in the above embodiment is realized as hardware. Therefore, it is possible to obtain the same effect as the effect described in the above embodiment.
  • the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention. This application claims priority on the basis of Japanese application Japanese Patent Application No. 2019-055164 filed on March 22, 2019, and incorporates all of its disclosures herein.
  • Image processing device 104 Motion detection unit 106 Index value calculation unit 200
  • Image processing device 210 Motion detection unit 211 Head detection unit 212 Body part detection unit 215 Head movement feature extraction unit 216
  • Body movement feature extraction unit 220 Feature integration unit 230
  • Index value calculation unit 240 Spoofing judgment unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

画像処理装置(100)は、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出する動き検出部(104)と、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する指標値計算部(106)とを備えることによって、顔画像を用いたなりすましを正確に判定する。

Description

画像処理装置、画像処理方法、およびプログラムが格納された記録媒体
 画像処理装置、画像処理方法、およびプログラムに関し、例えば、人物の顔認証を実行する画像処理装置等に関する。
 空港および競技場などの入退場管理において、保安または本人確認のために、顔認証が利用されている。他人の顔画像(例えば写真の印刷などである)を用いて、顔認証を突破しようと試みる行為が行われる。このような行為は、他人のふりをして行動するなりすましの一例である。
 図8を参照して、なりすましの一例について詳細に説明する。図8に示すように、人物は、写真の印刷またはディスプレイなどを、自分の顔の前に掲げることにより、自分の顔を隠す。印刷またはディスプレイ上には、他人の顔画像が表示される。人物は、印刷またはディスプレイ上に表示された他人の顔画像を用いて、顔認証を不正に通過する。上述のようななりすましを見破るための関連技術が、特許文献1及び非特許文献1に示されている。
 特許文献1に記載の関連技術では、人物の顔を動画で撮影し、時系列の画像間の差分に基づいて、人物のまばたきを検出する。そして、所定期間内に人物のまばたきを一度も検出しなかった場合、人物の顔が本物ではないと判定する。人間の顔が本物ではないとは、その人物本人の顔ではないということである。このようにして、特許文献1に記載の関連技術では、なりすましを判定する。
 非特許文献1に記載の関連技術では、機械学習を利用することによって、なりすましを判定する。具体的には、畳み込みニューラルネットワークを用いて、本物の顔の特徴を学習する。そして、印刷やディスプレイに映る顔画像と、本物の顔とを識別するための識別器を生成する。学習した識別器を用いて、人物の顔が偽物であるか本物であるかを判定する。
特許第5061563号公報
伊藤康一ほか著、「畳み込みニューラルネットワークを用いた生体検出手法」(電子情報通信学会論文誌A)、2017年12月1日、Vol.J100-A, No. 12, pp. 455-464 SHEN Linlin,"Gabor Features and Support Vector Machine for Face Identification", Biomedical fuzzy and human sciences, the official journal of the Biomedical Fuzzy Systems Association 14(1), pp.61-66, 2009-01-08
 特許文献1に記載の関連技術では、人物のまばたきを検出することによって、なりすましを識別する。そのため、まばたきをする他人の顔を撮影した動画がディスプレイに表示されている場合、特許文献1に記載の関連技術では、ディスプレイに表示されている顔画像が本物であると誤って識別する可能性がある。したがって、悪意ある人物が、他人の顔画像が表示されたディスプレイを図8のように手に持ちながら、顔認証を不正に通過することを防止できない。
 非特許文献1に記載の関連技術では、ディスプレイに表示される顔画像の解像度が高くなるほど、識別器の精度が低下して、顔画像を本物の顔であると誤って識別する可能性が高くなる。
 本発明は、上記の課題に鑑みてなされたものであり、その目的は、顔画像を用いたなりすましを正確に識別できる画像処理装置等を提供することにある。
 本発明の一態様に係わる画像処理装置は、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出する動き検出手段と、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する指標値計算手段とを備えている。
 本発明の一態様に係わる画像処理方法は、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出し、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算することを含む。
 本発明の一態様に係わるプログラムは、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出することと、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算することとをコンピュータに実行させる。
 本発明の一態様によれば、顔画像を用いたなりすましを正確に識別できる。
実施形態1に係わる画像処理装置の構成を示すブロック図である。 人物の頭部/体部の動きと、なりすましとの関係を説明する図である。 実施形態1に係わるなりすましを識別するための処理の流れを示すフローチャートである。 実施形態2に係わる画像処理装置の構成を示すブロック図である。 実施形態2におけるなりすましの判定基準である標準値を示す図である。 実施形態2に係わる画像処理装置において、画像の取得からなりすまし判定処理までの流れを示すフローチャートである。 実施形態3に係わる装置のハードウェア構成を示す図である。 なりすましを行う人物の一例を示す図である。
 以下の説明において参照する図面上に記載する矢印は、ある信号またはデータの流れの方向を端的に示したものであり、その信号あるいはデータが双方向、あるいは矢印の向きとは逆方向に通信されることを排除することを意図していない。
 〔実施形態1〕
 (画像処理装置100)
 図1は、本実施形態1に係わる画像処理装置100の構成を示すブロック図である。図1に示すように、画像処理装置100は、動き検出部104、および、指標値計算部106を備えている。動き検出部104は、動き検出手段の一例である。また、指標値計算部106は、指標値計算手段の一例である。
 動き検出部104は、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出する。例えば、動き検出部104は、深層学習ニューラルネットワークを用いて、時系列の画像から、人物の頭部の動きに関する特徴、および体部の動きに関する特徴を、画像ごとに検出する。
 ここで、人物の頭部とは、人物の首、顔、頭、および後頭部を含む部位である。体部とは、人物全体のうち頭部を除いた部位の少なくとも一部である。具体的には、体部は、胴体、腕、脚、またはそれらの組み合わせである。時系列の画像は、例えば、図示されない1つ以上の撮像装置が人物を撮影することによって得られる動画の複数のフレーム画像のデータである。フレーム画像のデータは、以下、便宜のため画像とも記載される。時系列の画像は、撮像装置が同じ人物を繰り返して撮影することによって得られた複数の静止画であってもよい。
 上述した動き検出部104の構成の一例について説明する。動き検出部104は、時系列の画像を取得すると、それら画像を解析することにより、人物の頭部の領域および体部の領域をそれぞれ検出する。
 そして、動き検出部104は、時系列の画像間における頭部の領域の画像から、頭部の位置の変化を示す第1の情報を検出し、第1の情報から、頭部の動きに関する特徴を抽出する。また、動き検出部104は、時系列の画像間における体部の領域の画像から、体部の位置の変化を示す第2の情報を検出し、第2の情報から、体部の動きに関する特徴を抽出する。以下では、動きに関する特徴のことを、動き特徴と略称する。
 頭部の位置の変化を示す第1の情報とは、たとえば、時系列の画像における頭部の領域から検出される追跡点の位置の変化(変位)を示す情報である。また体部の位置の変化を示す第2の情報とは、たとえば、時系列の画像間における体部の領域から検出される追跡点の位置の変化(変位)を示す情報である。
 頭部の動き特徴は、例えば、頭部が動く方向を示す動きベクトルである。動き検出部104は、第1の情報に基づいて、一定時間における頭部の位置の変化を計算し、頭部が一定時間に動く方向を計算してもよい。あるいは、頭部の動き特徴は、頭部の変位の大きさであってもよいし、頭部の動きの周期であってもよい。動き検出部104は、第1の情報に基づいて、頭部の位置が最頂点から次の最頂点まで変化する平均時間を、頭部の動きの周期として計算してもよい。
 頭部の動き特徴を示す情報は、頭部が動く方向を示す動きベクトルに関するデータ、頭部の変位の大きさを表すデータ、あるいは頭部の動きの周期を表すデータであってよい。たとえば、頭部の動きに関する動きベクトルの情報は、頭部の領域内の追跡点の動きベクトルに関するデータを含む。そのデータは、追跡点が変位する前後の位置座標と、ベクトルの向きおよび大きさを表すデータを含んでもよい。
 一方、体部の動き特徴は、例えば体部が動く方向を示す動きベクトルである。あるいは、体部の動き特徴は、体部の変位の大きさであってもよいし、体部の動きの周期であってもよい。体部の動き特徴を示す情報は、体部が動く方向を示す動きベクトルに関するデータ、体部の変位の大きさを表すデータ、あるいは体部の動きの周期を表すデータである。たとえば、体部の動きに関する動きベクトルの情報には、体部の領域内の追跡点の動きベクトルに関するデータであっても良い。そのデータは、追跡点が変位する前後の位置座標と、ベクトルの向き、大きさを表すデータを含んでも良い。
 動き検出部104は、頭部の動き特徴を示す情報および体部の動き特徴を示す情報を、指標値計算部106へ送信する。
 指標値計算部106は、動き検出部104から、頭部の動き特徴を示す情報および体部の動き特徴を示す情報を受信する。指標値計算部106は、頭部の動き特徴を示す情報および体部の動き特徴を示す情報に基づいて、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示す指標値を計算する。
 なお、ここでいう整合性とは、人物の頭部の動きと人物の体部の動きとが完全に一致することだけを含む概念ではない。人物の頭部の動き特徴と人物の体部の動き特徴との間の近さを表す類似度も、整合性が意味する概念の範疇に含まれる。
 例えば、指標値計算部106が計算する指標値は、頭部が動く方向を示す動きベクトルと体部が動く方向を示す動きベクトルを入力とする、深層学習ニューラルネットワークからの出力である。または、指標値は、頭部が動く方向を示す動きベクトルと、体部が動く方向を示す動きベクトルとの間の距離である。あるいは、指標値は、頭部が動く方向を示す動きベクトルと、体部が動く方向を示す動きベクトルとの間の角度であってもよい。指標値は、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示すものであれば、計算の手法は限定されない。指標値計算部106が計算する指標値と、人物によるなりすましとの関係を、以下で説明する。
 (指標値となりすましとの関係)
 上述したように、指標値は、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示す。なりすましとは、人物が他人であるふりをする行為である。ここでは、人物が、印刷やディスプレイに表示させた他人の顔画像を用いて、なりすましを行う場合について説明する。
 図2を参照して、指標値と、人物によるなりすましの行為との関係について説明する。図2は、指標値となりすましの有無との関係を説明する図である。
 図2中のケース(a)は、指標値が低いケースを示す。指標値が低いことは、頭部の動き特徴と体部の動き特徴との間に矛盾があることを示す。ケース(a)では、人物が他人の顔画像を用いてなりすましを行っている。人物は、図8に示す人物のように、ディスプレイを手に持ち、顔の前でディスプレイを掲げている。そのため、ケース(a)では、頭部の動きと体部の動きとの間において、一人の人間の動きとして矛盾が生じる場合がある。より具体的には、ウォークスルー認証において、ディスプレイを手に持った人物が歩くときに、体部の動きと腕(肘)の動きとの間で、動きの周期や大きさに関して、当該人物が意図しないずれが生じ、ディスプレイに表示された頭部の動きと、当該人物の体部の動きとの間において、一人の人間の動きとして矛盾が生じる。したがって、指標値が低いほど、人物がなりすましを行っている可能性が高くなる。
 図2中の(b)は、指標値が高いケースを示す。指標値が高いということは、頭部の動き特徴と体部の動き特徴とが整合していることを示す。ケース(b)では、人物はなりすましを行っていない。そのため、人物の頭部の動く方向と体部の動く方向とが同期しており、頭部の変位と体部の変位との間にほとんど差がない。すなわち、ケース(b)では、頭部の動きと体部の動きとが一致しているか、あるいは少なくとも類似している。したがって、指標値が低いほど、人物がなりすましを行っている可能性が低くなる。
 (指標値計算処理の流れ)
 図3を参照して、本実施形態1に係わる画像処理装置100が実行する指標値計算処理について説明する。図3は、画像処理装置100による指標値計算処理の流れを示すフローチャートである。
 図3に示すように、動き検出部104は、時系列の画像を取得する。例えば、動き検出部104は、図示しない監視カメラが撮影した動画を取得し、動画のうち、人物を含む複数の画像を抽出する。
 動き検出部104は、取得した時系列の画像から、人物の頭部の領域および人物の体部の領域をそれぞれ検出する(S101)。
 動き検出部104は、時系列の画像から検出された人物の頭部の領域および人物の体部の領域を解析することによって、人物の頭部の動きに関する特徴(頭部の動き特徴)および体部の動きに関する特徴(体部の動き特徴)を、それぞれ検出する。(S102)。
 動き検出部104は、ステップS102において検出した頭部の動き特徴を示す情報および体部の動き特徴を示す情報を、指標値計算部106へ送信する。
 指標値計算部106は、動き検出部104から、頭部の動き特徴および体部の動き特徴を受信する。そして、指標値計算部106は、受信した頭部の動き特徴および体部の動き特徴から、上述した指標値を計算する(S103)。
 図示しないが、ステップS103の後、指標値計算部106は、計算した指標値を表示デバイス等の外部機器(図示せず)に出力してもよい。加えて、本実施形態1において画像処理装置100は、指標値の大きさから顔画像を用いたなりすましを判定して、アラートを出力してもよい。
 以上で、本実施形態1に係わる画像処理装置100が実行する指標値計算処理は終了する。
 (本実施形態の効果)
 本実施形態に構成によれば、動き検出部104は、人物の頭部の動きに関する特徴と、人物の頭部以外の部位である体部の動きに関する特徴とを検出する。指標値計算部106は、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する。指標値は、なりすましを識別した結果を表す。
 人物の顔が、印刷またはディスプレイ上に表示された顔画像である場合、人物の頭部の動きと頭部以外の部位の動きとの間に矛盾が生じる。そのため、動き検出部104が計算する頭部の動き特徴と、体部の動き特徴とが一致しないので、指標値計算部106が計算する指標値は低くなる。すなわち、指標値は、人物がなりすましを行っている可能性を反映したパラメータである。本実施形態1によれば、顔画像を用いたなりすましを正確に識別できる。
 〔実施形態2〕
 本実施形態2は、なりすましを識別した結果を表す指標値を算出するだけでなく、指標値に基づいて、人物がなりすましを行っているか否かを判定し、その判定結果を出力する構成を含む。なお本実施形態2で説明するなりすましスコアは、指標値に基づくパラメータの一例である。
 (画像処理装置200)
 図4を参照して、本実施形態2に係わる画像処理装置200の構成を説明する。図4は、画像処理装置200の構成を示すブロック図である。図4に示すように、画像処理装置200は、動き検出部210、指標値計算部230、および、なりすまし判定部240を備えている。動き検出部210は、動き検出手段の一例である。指標値計算部230は、指標値計算手段の一例である。なりすまし判定部240は、なりすまし判定手段の一例である。
 画像処理装置200は、入力部10および出力部20と接続されている。入力部10は、時系列の画像を、画像処理装置200の動き検出部210に含まれる頭部検出部211および体部検出部212へ入力する。入力部10は、時系列の画像を生成する撮像装置を備えていてもよい。
 出力部20は、画像処理装置200のなりすまし判定部240から、人物がなりすましをしているか否かを示す判定結果(図4では、なりすまし判定結果と記載している)と、後述するなりすましスコアのデータを受信する。出力部20は、受信したなりすましスコアおよびなりすまし判定結果を、表示デバイスなどの外部機器へ出力する。
 図4に示すように、画像処理装置200、入力部10、および出力部20、重み値記憶部30、標準値記憶部40、及び閾値記憶部50は、なりすまし検知装置1を構成している。
 図4に示すように、動き検出部210は、頭部検出部211、体部検出部212、頭部動き特徴抽出部215、体部動き特徴抽出部216、および特徴統合部220を備えている。
 頭部検出部211は、頭部検出手段の一例である。体部検出部212は、体部検出手段の一例である。
 頭部検出部211は、時系列の画像において、人物の頭部に対応する領域を検出する。前記実施形態1で説明したように、人物の頭部とは、人物の首、顔、頭、および後頭部を含む部位である。体部検出部212は、時系列の画像において、人物の体部に対応する領域を検出する。体部とは、人物全体のうち頭部を除いた部位の少なくとも一部である。
 例えば、頭部検出部211は、時系列の画像のそれぞれから、パターンマッチングによって、人物の頭部の輪郭を検出する。例えば、体部検出部212は、時系列の画像のそれぞれから、パターンマッチングによって、人物の体部の輪郭を検出する。この場合、頭部検出部211は、予め収集した頭部の輪郭のサンプル画像と、入力部10から取得した時系列の画像とをマッチングすることによって、時系列の画像から人物の頭部の輪郭を検出する。同様に、パターンマッチングの手法によって、体部検出部212は、時系列の画像から人物の体部の輪郭を検出する。
 頭部検出部211は、検出した人物の頭部の領域において、人物の頭部の追跡点を検出する。頭部の追跡点は、例えば、目、鼻、または耳などの顔にあるパーツの位置、または首または頭頂の位置である。体部検出部212は、体部検出部212が検出した人物の体部の領域において、人物の体部の追跡点を検出する。体部の追跡点は、例えば、胴体、腕、または脚にある関節の位置である。しかしながら、頭部および体部の追跡点は、ここで説明した例に限定されない。
 具体的には、頭部検出部211は、追跡点を特定するための情報を用いて、時系列の画像の各々から、人物の頭部の追跡点を検出する。体部検出部212は、追跡点を特定するための情報を用いて、時系列の画像の各々から、人物の体部の追跡点を検出する。
 追跡点を特定するための情報は、例えば、追跡点の特徴量である。追跡点の特徴量は、追跡点に対応する画素とその周辺の画素との間の輝度差に関するHaar-like特徴量であってもよい。あるいは、追跡点を示す情報は、追跡点に対応する画素の輝度や色合いを、Gaborフィルタ(非特許文献2)を用いて、ベクトルデータ(数値データ列)に変換したものであってもよい。ベクトルデータは、特徴ベクトルとも呼ばれる。
 時系列の画像のデータをベクトルデータに変換する他の手法として、SIFT(Scale-Invariant Feature Transform)手法またはHOG(Histograms of Oriented Gradients)手法を使用してもよい。頭部検出部211および体部検出部212は、画像の種類に応じて、適切な特徴量変換フィルタを選択するように設計されてもよい。
 頭部検出部211は、時系列の複数の画像のデータとともに、時系列の複数の画像における頭部の追跡点の検出結果を、頭部動き特徴抽出部215へ送信する。体部検出部212は、時系列の複数の画像のデータとともに、時系列の複数の画像における体部の追跡点の検出結果を、体部動き特徴抽出部216へ送信する。
 あるいは、頭部検出部211は、頭部の追跡点の検出結果の代わりに、頭部の領域の検出結果(例えば、頭部の輪郭の位置情報)を、頭部動き特徴抽出部215へ送信してもよい。また体部検出部212は、体部の追跡点の検出結果の代わりに、体部の領域の検出結果(例えば、体部の輪郭の位置情報)を、体部動き特徴抽出部216へ送信してもよい。
 頭部動き特徴抽出部215は、頭部検出部211から、時系列の複数の画像のデータとともに、時系列の画像における人物の頭部の検出結果を受信する。体部動き特徴抽出部216は、体部検出部212から、時系列の複数の画像のデータとともに、時系列の画像における人物の体部の検出結果を受信する。
 頭部動き特徴抽出部215は、時系列の画像における人物の頭部の検出結果を用いて、時系列の複数の画像から、頭部の動きに関する特徴(頭部の動き特徴)を抽出する。頭部の動き特徴は、人物の頭部の追跡点の動きベクトルを含む。
 体部動き特徴抽出部216は、時系列の画像における人物の体部の検出結果を用いて、時系列の複数の画像から、体部の動きに関する特徴(体部の動き特徴)を抽出する。体部の動き特徴は、人物の体部の追跡点の動きベクトルを含む。
 具体的には、頭部動き特徴抽出部215は、頭部検出部211から受信した人物の頭部の検出結果に基づいて、時系列の画像における頭部の位置の変化を計算する。たとえば、頭部動き特徴抽出部215は、時系列の画像間における頭部の領域の画像から、頭部の位置の変化を示す第1の情報を検出する。そして、頭部動き特徴抽出部215は、計算した頭部の位置の変化を示す第1の情報から、人物の頭部の動き特徴を計算する。たとえば、頭部動き特徴抽出部215は、第1の情報から、人物の頭部の動き特徴を示す動きベクトルに関する情報を算出する。
 また、体部動き特徴抽出部216は、体部検出部212から受信した人物の体部の検出結果に基づいて、時系列の画像における体部の位置の変化を計算する。たとえば、体部動き特徴抽出部216は、時系列の画像間における体部の領域の画像から、体部の位置の変化を示す第2の情報を検出する。そして、体部動き特徴抽出部216は、計算した体部の位置の変化を示す第2の情報から、人物の体部の動き特徴を計算する。たとえば、体部動き特徴抽出部216は、第2の情報から、人物の体部の動き特徴を示す動きベクトルに関する情報を算出する。
 頭部動き特徴抽出部215は、時系列の画像から抽出した頭部の動き特徴を示す情報を、特徴統合部220へ送信する。体部動き特徴抽出部216は、時系列の画像から抽出した体部の動き特徴を示す情報を、特徴統合部220へ送信する。
 特徴統合部220は、頭部動き特徴抽出部215および体部動き特徴抽出部216から、頭部の動き特徴を示す情報および体部の動き特徴を示す情報を、それぞれ受信する。特徴統合部220は、人物の頭部の動きに関する特徴と、体部の動きに関する特徴とを統合することによって、一つの統合特徴を生成する。換言すれば、特徴統合部220は、頭部の動き特徴および体部の動き特徴から、人物の頭部の動きと人物の体部の動きとの組み合わせに関する統合特徴を生成する。統合特徴の一例を以下で説明する。
 (統合特徴の一例)
 例えば、統合特徴は、頭部の動き特徴を表す頭部の動きベクトルと、体部の動き特徴を表す頭部の動きベクトルとを連結したベクトルである。あるいは、統合特徴は、頭部の動き特徴と体部の動き特徴との加重和である。後者の場合、統合特徴は、以下の式(1)のように表されてもよい。ここで、頭部の追跡点の識別子を符号i(iは1以上の整数)で表し、体部の追跡点の識別子を符号j(jは1以上の整数)で表す。
Figure JPOXMLDOC01-appb-M000001

 式(1)において、F(i,j,x,y)は統合特徴であり、f(i)は頭部の追跡点iの動き特徴であり、g(j)は、体部の追跡点jの動き特徴である。x,yは、それぞれ、頭部の動き特徴の重み値、体部の動き特徴の重み値である。特徴統合部220が重み値x,yを設定する手法については後述する。
 特徴統合部220は、頭部の動き特徴および体部の動き特徴を用いて、式(1)にしたがって、統合特徴Fを計算する。そして、特徴統合部220は、計算した統合特徴Fを示す情報を、指標値計算部230へ送信する。
 指標値計算部230は、特徴統合部220から、統合特徴を示す情報を受信する。本実施形態2の指標値計算部230は、統合特徴から指標値を計算する。具体的には、指標値計算部230は、深層学習ニューラルネットワークに統合特徴を入力し、出力値として、指標値を得る。
 または、指標値計算部230は、統合特徴と標準値との距離を計算する。標準値は、なりすましを行っていない人物の頭部の動き特徴と体部の動き特徴との組み合わせから、式(1)にしたがって得られる統合特徴の代表的な値である。なお、標準値の一例を後で説明する。
 例えば、統合特徴と標準値との距離は、特徴空間におけるユークリッド距離であってもよいし、それ以外の距離であってもよい。本実施形態2では、指標値計算部230は、統合特徴と標準値との距離を、指標値として計算する。本実施形態2の指標値は、前記実施形態1と同様に、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示す。
 指標値計算部230は、計算した指標値のデータを、なりすまし判定部240へ送信する。
 なりすまし判定部240は、指標値計算部230から、指標値のデータを受信する。なりすまし判定部240は、受信した指標値に基づいて、なりすましの判定基準にしたがって、人物がなりすましをしているのかどうかを判定する。なりすましの判定基準は、指標値と比較するための閾値である。なりすまし判定部240が用いるなりすましの判定基準の具体例を、後で図5を参照しつつ説明する。
 さらに、なりすまし判定部240は、指標値計算部230が計算した指標値に基づいて、「なりすましスコア」を計算する。なりすましスコアは、人物がなりすましをしている(図2参照)可能性の高さを示すパラメータである。例えば、なりすましスコアは、指標値の逆数である。あるいは、なりすましスコアは、指標値の最大値から、指標値を減算したものであってもよい。指標値の最大値とは、人物の頭部の動きと人物の体部の動きとが完全に一致しているときの指標値である。
 上記の定義により、指標値が大きいほど、なりすましスコアは小さくなり、人物がなりすましをしている可能性は低くなる。一方、指標値が小さいほど、なりすましスコアは大きくなり、人物がなりすましをしている可能性は高くなる。
 なりすまし判定部240は、なりすましの判定結果を示す情報およびなりすましスコアのデータを、出力部20へ送信する。出力部20は、なりすましの判定結果およびなりすましスコアを出力する。出力先は、表示デバイスであってもよいし、不正を監視するオペレータの端末であってもよい。あるいは、なりすまし判定部240は、なりすましの判定結果のみを、出力部20へ出力してもよい。
 (重み値)
 特徴統合部220は、式(1)に示す統合特徴を生成するために、動き特徴f(i)、g(j)の重み値x,yj(i、jは追跡点の識別子)を予め設定する必要がある。
 特徴統合部220は、なりすましを行っている人物(図2のケース(a))の多数のサンプル画像から検出された頭部の動き特徴および体部の動き特徴の組み合わせ(以下、群Aと呼ぶ)と、なりすましを行っていない人物(図2のケース(b))の多数のサンプル画像から検出された頭部の動き特徴および体部の動き特徴の組み合わせ(以下、群Bと呼ぶ)とを、まず取得する。
 あるいは、特徴統合部220は、頭部動き特徴抽出部215および体部動き特徴抽出部216から受信した多数の動き特徴の組み合わせから、これらの群Aおよび群Bを生成してもよい。
 群Aに属する頭部の動き特徴および体部の動き特徴の組み合わせを、上述した式(1)のf(i)、g(j)として代入した場合の統合特徴を、F(x,y)とする。また、群Bに属する頭部の動き特徴および体部の動き特徴の組み合わせを、式(1)のf(i)、g(j)として代入した場合の統合特徴を、F(x,y)とする。
 特徴統合部220は、統合特徴F(x,y)と統合特徴F(x,y)とを区別できるように、重み値x,yを設定する。例えば、特徴統合部220は、F(x,y)と、F(x,y)(m、nはi、jとは異なる追跡点の識別子)との差分の絶対値が、(i,j,m,n)の組み合わせによらず、必ず所定の閾値Th以下になり、かつ、F(x,y)とF(x,y)との差分の絶対値が、(i,j)の組み合わせによらず、所定の閾値Thを必ず超えるように、重み値x,yを設定する。特徴統合部220は、より具体的には、例えば、i、j、m、nの値を変えながら、統合特徴FA、統合特徴Fの値を網羅的に求め、上述した条件を満たす重み値xi、を求めればよい。この場合、重み値xi、j、m、は、例えば、0以上1以下のいくつかの値を取りうることとし、特徴統合部220は、重み値xi、j、m、に代入する値を変えながら、上述した網羅的な計算を行えばよい。 
 すなわち、特徴統合部220は、なりすましを行っていない人物の統合特徴同士は、互いに類似する一方、なりすましを行っていない人物の統合特徴と、なりすましを行っている人物の統合特徴とは類似しないように、重み値x,yを設定する。なお、重み値x,yは、頭部の追跡点と体部の追跡点の組(i,j)ごとに異なっていてよい。閾値Thのデータは、図4に示す閾値記憶部50に予め格納されている。
 特徴統合部220は、設定した重み値x,yのデータを、図5に示す重み値記憶部30に格納する。
 (標準値)
 本実施形態2に係わる指標値計算部230は、上述した指標値を計算するために、標準値を予め設定する。上述したように、標準値は、なりすましを行っていない人物の頭部の動き特徴と体部の動き特徴との組み合わせから、式(1)にしたがって得られる統合特徴の代表的な値である。例えば、標準値は、なりすましを行っていない人物の複数のサンプル画像から得られる統合特徴F(x,y)(i、jは追跡点の識別子)の平均などの統計的な値であってもよい。
 指標値計算部230は、設定した標準値のデータを、図5に示す標準値記憶部40に格納する。
 (なりすましの判定基準の一例)
 図5を参照して、なりすまし判定部240がなりすましを判定する手法の一例を説明する。図5は、特徴空間を示すグラフである。特徴空間は、N次元(N>1)のユークリッド空間である。図5は、N次元(N>1)のユークリッド空間を3次元で表している。特徴空間の各軸は、統合特徴に含まれる異なる特徴量と対応する。
 図5に示すグラフ中には、標準値が示されている。上述したように、標準値は、なりすましを行っていない人物の複数のサンプル画像から得られる統合特徴の統計的な平準値である。標準値を中心として、一定距離(閾値Th)までの範囲よりも外側はメッシュをかけられている。標準値から統合特徴Fまでの距離をdで表す。図5では、d<Thである。すなわち、統合特徴Fは、統合特徴が、標準値を中心として、一定距離(閾値Th)までの範囲内にある。
 図5に示す特徴空間において、統合特徴Fが、標準値を中心として、一定距離(閾値Th)までの範囲内にあれば、なりすまし判定部240は、人物が本物(すなわちなりすましを行っていない)と判定する。一方、統合特徴が、標準値を中心として、一定距離(閾値Th)までの範囲外にあれば、なりすまし判定部240は、人物がなりすましを行っていると判定する。
 図5に関して、統合特徴Fが標準値に近いほど、人物が他人になりすましている可能性が低い。逆に、統合特徴Fが標準値から離れるほど、人物が他人になりすましている可能性が高い。したがって、統合特徴と標準値との距離d(指標値に対応)が閾値Th以下である場合、なりすまし判定部240は、人物がなりすましを行っていないと判定する。一方、統合特徴と標準値との距離dが閾値Thを超える場合、なりすまし判定部240は、人物がなりすましを行っていると判定する。
 (画像処理装置200の動作)
 図6を参照して、本実施形態2に係わる画像処理装置200が実行する動作について説明する。図6は、画像処理装置200による画像の取得から、なりすましの判定までの処理の流れを示すフローチャートである。
 図6に示すように、頭部検出部211および体部検出部212は、それぞれ、入力部10から、複数の時系列の画像を取得する(S201)。
 例えば、頭部検出部211および体部検出部212は、一つのカメラによって所定期間内(例えば10秒間)に撮影された動画のフレーム画像のデータを取得する。
 頭部検出部211は、取得した時系列の画像の各々から、人物の頭部を検出する。また体部検出部212は、取得した同じ時系列の画像の各々から、人物の体部を検出する(S202)。
 ステップS202において、頭部検出部211は、まず、各画像から、パターンマッチング等によって、人物の頭部の領域を抽出し、その後、抽出した人物の頭部の領域から、頭部の追跡点を検出してもよい。同様に、体部検出部212は、まず、各画像から、パターンマッチング等によって、人物の体部の領域を抽出し、その後、抽出した人物の体部の領域から、体部の追跡点を検出してもよい。
 頭部検出部211は、時系列の画像のデータとともに、人物の頭部の検出結果を、頭部動き特徴抽出部215へ送信する。また体部検出部212は、時系列の画像のデータとともに、人物の体部の検出結果を、体部動き特徴抽出部216へ送信する。
 頭部動き特徴抽出部215は、頭部検出部211から、時系列の画像のデータとともに、人物の頭部の検出結果を受信する。また体部動き特徴抽出部216は、体部検出部212から、時系列の画像のデータとともに、人物の体部の検出結果を受信する。
 頭部動き特徴抽出部215は、時系列の画像から、人物の頭部の動き特徴を抽出する。また体部動き特徴抽出部216は、時系列の画像から、人物の体部の動き特徴を抽出する(S203)。
 頭部動き特徴抽出部215は、検出した頭部の動き特徴を示す情報を、特徴統合部220へ送信する。体部動き特徴抽出部216は、検出した体部の動き特徴を示す情報を、特徴統合部220へ送信する。
 特徴統合部220は、頭部動き特徴抽出部215および体部動き特徴抽出部216から、頭部の動き特徴を示す情報および体部の動き特徴を示す情報をそれぞれ受信する。
 特徴統合部220は、頭部の動き特徴および体部の動き特徴を統合することによって、統合特徴を生成する(S204)。
 具体的には、特徴統合部220は、重み値記憶部30(図4参照)に予め格納された重み値x,y(i,jはそれぞれ頭部、体部の追跡点の識別子)を用いて、上述した式(1)にしたがって、重み値x,y、頭部の動き特徴f(i)、および体部の動き特徴g(j)に対応する統合特徴F(i,j,x,y)を生成する。特徴統合部220は、生成した統合特徴を示す情報を、指標値計算部230へ送信する。
 指標値計算部230は、特徴統合部220から、統合特徴を示す情報を受信する。指標値計算部230は、標準値記憶部40(図5参照)に予め格納された標準値を取得し、特徴空間における統合特徴と標準値との間の距離d(図5参照)を、指標値として計算する(S205)。
 あるいは、ステップS205において、指標値計算部230は、距離dに基づく指標値を計算してもよい。例えば、指標値計算部230は、距離dに依存する関数の値を、指標値として計算する。指標値計算部230は、計算した指標値のデータを、なりすまし判定部240へ送信する。
 なりすまし判定部240は、指標値計算部230から、指標値のデータを受信する。なりすまし判定部240は、閾値記憶部50を参照して、閾値Thを取得する。そして、なりすまし判定部240は、指標値が閾値Th(図5参照)以下であるかどうかを判定する(S206)。
 ステップS206の後、なりすまし判定部240は、以下のように、なりすましの有無を判定する。
 統合特徴と標準値との距離d(指標値に対応)が閾値Th以下である場合(S206でYes)、なりすまし判定部240は、人物がなりすましを行っていないと判定する(S207A)。
 一方、統合特徴と標準値との距離dが閾値Thを超える場合(S206でNo)、なりすまし判定部240は、人物がなりすましを行っていると判定する(S207B)。
 その後、なりすまし判定部240は、ステップS207AまたはS207Bにおけるなりすましの判定結果と、なりすましスコアのデータとを出力する(S208)。
 出力先は、表示装置であってもよいし、オペレータの端末であってもよい。なお、このステップS208において、なりすまし判定部240は、なりすましの判定結果およびなりすましスコアのデータとともに、指標値計算部230が計算した指標値も出力してもよい。
 以上で、本実施形態2に係わる画像処理装置200が実行するなりすまし判定処理は終了する。
 (本実施形態の効果)
 本実施形態の構成によれば、動き検出部210は、時系列の画像から、人物の頭部の動きに関する特徴と、人物の頭部以外の部位である体部の動きに関する特徴とを検出する。指標値計算部230は、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する。
 人物が印刷やディスプレイなどに表示した顔画像を用いたなりすましをしている場合、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間に矛盾が生じ、整合性が失われる。本実施形態2では、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間の整合性の高さを示す指標値から、なりすましを正確に識別できる。
 なりすまし判定部240は、指標値に基づいて、人物が他人になりすましているか否かを判定する。指標値は、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示す。そのため、なりすまし判定部240は、人物が他人になりすましているか否かを高精度に判定できる。
 さらに、指標値計算部230は、特徴統合部220が生成した統合特徴と、予め設定された標準値とに基づいて、指標値を計算する。統合特徴は、人物の頭部の動きに関する特徴と、人物の体部の動きに関する特徴との加重和であってもよい。標準値は、なりすましを行っていない人物の頭部の動き特徴と体部の動き特徴との組み合わせから得られる統合特徴の代表的な値であるから、統合特徴が標準値に近いほど、人物はなりすましを行っていない可能性が高い。このような統合特徴および標準値を用いることで、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間の整合性の高さを高精度に示す指標値を計算できる。
 〔実施形態3〕
 図7を参照して、実施形態3について以下で説明する。
 (ハードウェア構成について)
 前記実施形態1~2で説明した画像処理装置100、200の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図7に示すような情報処理装置900により実現される。図7は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
 図7に示すように、情報処理装置900は、一例として、以下のような構成を含む。
  ・CPU(Central Processing Unit)901
  ・ROM(Read Only Memory)902
  ・RAM(Random Access Memory)903
  ・RAM903にロードされるプログラム904
  ・プログラム904を格納する記憶装置905
  ・記録媒体906の読み書きを行うドライブ装置907
  ・通信ネットワーク909と接続する通信インターフェース908
  ・データの入出力を行う入出力インターフェース910
  ・各構成要素を接続するバス911
 前記実施形態1~2で説明した画像処理装置100、200の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
 (本実施形態の効果)
 本実施形態の構成によれば、前記実施形態において説明した画像処理装置が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2019年3月22日に出願された日本出願特願2019-055164を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 100 画像処理装置
 104 動き検出部
 106 指標値計算部
 200 画像処理装置
 210 動き検出部
 211 頭部検出部
 212 体部検出部
 215 頭部動き特徴抽出部
 216 体部動き特徴抽出部
 220 特徴統合部
 230 指標値計算部
 240 なりすまし判定部

Claims (10)

  1.  時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出する動き検出手段と、
     前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する指標値計算手段と
     を備えた画像処理装置。
  2.  前記指標値は、
      前記人物の頭部が動く方向を示す動きベクトルと、前記人物の体部が動く方向を示す動きベクトルとの間の距離、
      前記人物の頭部が動く方向を示す動きベクトルと、前記人物の体部が動く方向を示す動きベクトルとの間の角度、および、
      前記人物の頭部が動く方向を示す動きベクトルと、前記人物の体部が動く方向を示す動きベクトルを入力とする、深層学習ニューラルネットワークで構成される関数の出力値、のうちいずれかである
     ことを特徴とする請求項1に記載の画像処理装置。
  3.  前記動き検出手段は、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴とを統合することによって、一つの統合特徴を生成する特徴統合手段を含み、
     前記指標値計算手段は、前記統合特徴から前記指標値を計算する
     ことを特徴とする請求項1または2に記載の画像処理装置。
  4.  前記特徴統合手段は、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との加重和を、前記統合特徴として計算する
     ことを特徴とする請求項3に記載の画像処理装置。
  5.  前記指標値に基づいて、前記人物が他人になりすましているか否かを判定するなりすまし判定手段をさらに備えた
     ことを特徴とする請求項1から4のいずれか1項に記載の画像処理装置。
  6.  前記動き検出手段は、
      前記時系列の画像から、前記人物の頭部を検出する頭部検出手段と、
      前記時系列の画像から、前記人物の頭部以外の部位を検出する体部検出手段と、
      前記時系列の画像における前記人物の頭部の検出結果から、前記人物の頭部の動きに関する特徴を抽出する頭部の動き特徴抽出手段と、
      前記時系列の画像における前記人物の頭部の検出結果から、前記人物の体部の動きに関する特徴を抽出する体部の動き特徴抽出手段と、
     を含む
     ことを特徴とする請求項1から5のいずれか1項に記載の画像処理装置。
  7.  前記人物の頭部の動きに関する特徴は、前記人物の頭部の動きベクトルを含み、
     前記人物の体部の動きに関する特徴は、前記人物の体部の動きベクトルを含む
     ことを特徴とする請求項1から6のいずれか1項に記載の画像処理装置。
  8.  前記動き検出手段は、ニューラルネットワークを用いて、前記時系列の画像から、前記人物の頭部の動きに関する特徴、および前記人物の頭部以外の部位の動きに関する特徴をそれぞれ検出する
     ことを特徴とする請求項1から7のいずれか1項に記載の画像処理装置。
  9.  時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出し、
     前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する
     ことを含む画像処理方法。
  10.  時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出することと、
     前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算することと
    をコンピュータに実行させるためのプログラムが格納された記録媒体。
PCT/JP2020/009917 2019-03-22 2020-03-09 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体 WO2020195732A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/437,476 US11908157B2 (en) 2019-03-22 2020-03-09 Image processing device, image processing method, and recording medium in which program is stored
EP20777945.5A EP3944188A4 (en) 2019-03-22 2020-03-09 IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD, AND RECORDING MEDIA IN WHICH A PROGRAM IS STORED
JP2021508952A JP7151875B2 (ja) 2019-03-22 2020-03-09 画像処理装置、画像処理方法、およびプログラム
CN202080023319.XA CN113646806A (zh) 2019-03-22 2020-03-09 图像处理设备、图像处理方法和存储程序的记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019055164 2019-03-22
JP2019-055164 2019-03-22

Publications (1)

Publication Number Publication Date
WO2020195732A1 true WO2020195732A1 (ja) 2020-10-01

Family

ID=72611360

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/009917 WO2020195732A1 (ja) 2019-03-22 2020-03-09 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体

Country Status (5)

Country Link
US (1) US11908157B2 (ja)
EP (1) EP3944188A4 (ja)
JP (1) JP7151875B2 (ja)
CN (1) CN113646806A (ja)
WO (1) WO2020195732A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023507898A (ja) * 2020-11-27 2023-02-28 上▲海▼商▲湯▼智能科技有限公司 ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113646806A (zh) * 2019-03-22 2021-11-12 日本电气株式会社 图像处理设备、图像处理方法和存储程序的记录介质
US11682272B2 (en) * 2020-07-07 2023-06-20 Nvidia Corporation Systems and methods for pedestrian crossing risk assessment and directional warning
US20210397863A1 (en) * 2021-09-03 2021-12-23 Intel Corporation Methods and devices for an occupant of a vehicle

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006700A (ja) * 2012-06-25 2014-01-16 Mitsubishi Motors Corp 歩行者検出装置
JP2018045435A (ja) * 2016-09-14 2018-03-22 株式会社東芝 検出装置、検出方法、および検出プログラム
JP2019055164A (ja) 2017-09-19 2019-04-11 浩志 伊藤 消灯時殺菌灯

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5061563B2 (ja) 2006-09-29 2012-10-31 オムロン株式会社 検出装置、生体判定方法、およびプログラム
US20140347479A1 (en) * 2011-11-13 2014-11-27 Dor Givon Methods, Systems, Apparatuses, Circuits and Associated Computer Executable Code for Video Based Subject Characterization, Categorization, Identification, Tracking, Monitoring and/or Presence Response
US10002297B2 (en) * 2012-06-20 2018-06-19 Imprivata, Inc. Active presence detection with depth sensing
US9842250B2 (en) * 2015-05-13 2017-12-12 Capital One Services, Llc Systems and methods for authenticating a user based on captured image data
CN112932416A (zh) * 2015-06-04 2021-06-11 松下知识产权经营株式会社 生物体信息检测装置及生物体信息检测方法
WO2017000213A1 (zh) * 2015-06-30 2017-01-05 北京旷视科技有限公司 活体检测方法及设备、计算机程序产品
US10331945B2 (en) * 2015-12-22 2019-06-25 Intel Corporation Fair, secured, and efficient completely automated public Turing test to tell computers and humans apart (CAPTCHA)
US10679443B2 (en) * 2017-10-13 2020-06-09 Alcatraz AI, Inc. System and method for controlling access to a building with facial recognition
CN113646806A (zh) * 2019-03-22 2021-11-12 日本电气株式会社 图像处理设备、图像处理方法和存储程序的记录介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006700A (ja) * 2012-06-25 2014-01-16 Mitsubishi Motors Corp 歩行者検出装置
JP2018045435A (ja) * 2016-09-14 2018-03-22 株式会社東芝 検出装置、検出方法、および検出プログラム
JP2019055164A (ja) 2017-09-19 2019-04-11 浩志 伊藤 消灯時殺菌灯

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KOICHI ITO ET AL.: "A Liveness Detection Method Using Convolutional Neural Network", IEICE TRANSACTIONS A, vol. J100-A, no. 12, 1 December 2017 (2017-12-01), pages 455 - 464
See also references of EP3944188A4
SHEN LINLIN: "Gabor Features and Support Vector Machine for Face Identification", BIOMEDICAL FUZZY AND HUMAN SCIENCES, THE OFFICIAL JOURNAL OF THE BIOMEDICAL FUZZY SYSTEMS ASSOCIATION, vol. 14, no. 1, 8 January 2009 (2009-01-08), pages 61 - 66

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023507898A (ja) * 2020-11-27 2023-02-28 上▲海▼商▲湯▼智能科技有限公司 ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体

Also Published As

Publication number Publication date
JPWO2020195732A1 (ja) 2020-10-01
JP7151875B2 (ja) 2022-10-12
US11908157B2 (en) 2024-02-20
EP3944188A4 (en) 2022-05-11
CN113646806A (zh) 2021-11-12
EP3944188A1 (en) 2022-01-26
US20220156959A1 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
KR102596897B1 (ko) 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치
Agarwal et al. Swapped! digital face presentation attack detection via weighted local magnitude pattern
WO2020195732A1 (ja) 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体
Chen et al. A multi-task convolutional neural network for joint iris detection and presentation attack detection
Chakraborty et al. An overview of face liveness detection
JP5010905B2 (ja) 顔認証装置
US20190138807A1 (en) Iris liveness detection for mobile devices
US9098760B2 (en) Face recognizing apparatus and face recognizing method
Sharma et al. D-netpad: An explainable and interpretable iris presentation attack detector
JP5517858B2 (ja) 画像処理装置、撮像装置、画像処理方法
Pala et al. Iris liveness detection by relative distance comparisons
JP6544900B2 (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
JP2017033469A (ja) 画像識別方法、画像識別装置及びプログラム
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
JP6351243B2 (ja) 画像処理装置、画像処理方法
JP2011100229A (ja) 画像処理装置、画像処理方法
JP6410450B2 (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
JP6822482B2 (ja) 視線推定装置、視線推定方法及びプログラム記録媒体
CN113269010B (zh) 一种人脸活体检测模型的训练方法和相关装置
JP7120590B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112183357B (zh) 一种基于深度学习的多尺度活体检测方法及系统
Sehgal Palm recognition using LBP and SVM
JP3841482B2 (ja) 顔画像認識装置
CN112183202B (zh) 一种基于牙齿结构特征的身份认证方法及装置
Priyanka et al. Genuine selfie detection algorithm for social media using image quality measures

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20777945

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021508952

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2020777945

Country of ref document: EP