WO2020137536A1 - 人物認証装置、制御方法、及びプログラム - Google Patents

人物認証装置、制御方法、及びプログラム Download PDF

Info

Publication number
WO2020137536A1
WO2020137536A1 PCT/JP2019/048414 JP2019048414W WO2020137536A1 WO 2020137536 A1 WO2020137536 A1 WO 2020137536A1 JP 2019048414 W JP2019048414 W JP 2019048414W WO 2020137536 A1 WO2020137536 A1 WO 2020137536A1
Authority
WO
WIPO (PCT)
Prior art keywords
image sequence
person
image
matching
feature
Prior art date
Application number
PCT/JP2019/048414
Other languages
English (en)
French (fr)
Inventor
雄太 工藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to CN201980093096.1A priority Critical patent/CN113544735A/zh
Priority to US17/417,939 priority patent/US12020510B2/en
Priority to JP2020563040A priority patent/JP7314959B2/ja
Publication of WO2020137536A1 publication Critical patent/WO2020137536A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition

Definitions

  • the present invention relates to verification of a person using a video.
  • a feature expressing the time-series information of a walking person (hereinafter referred to as a gait feature) is extracted, and the person is authenticated by comparing them.
  • Examples of documents related to gait features include Patent Documents 1 to 3 and Non-Patent Document 1.
  • the gait feature described in Patent Document 1 is the positional relationship of the legs at each time.
  • the gait features described in Patent Document 2 are leg movement information such as stride length, gait, or step speed, and skeletal information such as leg length.
  • the gait feature described in Patent Document 3 is a frequency component of the amount of movement of the silhouette.
  • Non-Patent Document 1 discloses a technique for extracting gait features from the entire silhouette arranged in time series using deep learning.
  • the gait feature that does not have time series information has a lower expression ability than other gait features that have time series information. There is. Therefore, there is a problem that the recognition accuracy is deteriorated when the number of registered people increases.
  • the present invention has been invented in view of the above problems, and one of the objects thereof is to provide a technique for improving the accuracy of collating a person using a video.
  • the person authentication device of the present invention includes 1) a generation unit that generates one or more second image sequences by applying a predetermined time series operation to the first image sequence, and 2) the first image sequence and the second image sequence.
  • An extracting unit that extracts the gait characteristics of the person included in the image sequence from any two or more of the image sequences, and 3) the extracted gait characteristics, and the steps stored in the storage unit.
  • a collation unit that authenticates a person by comparing the collation feature that is a feature.
  • the control method of the present invention is executed by a computer.
  • the control method includes 1) a generating step of generating one or more second image sequences by applying a predetermined time series operation to the first image sequence, and 2) a first image sequence and a second image sequence.
  • An extraction step of extracting the gait characteristics of the person included in the image sequence from any two or more of them, and 3) the extracted gait characteristics and the gait characteristics stored in the storage unit.
  • a verification step of authenticating a person by comparing the verification characteristic with a verification characteristic.
  • the program of the present invention causes a computer to execute each step of the control method of the present invention.
  • -It is to provide technology that improves the accuracy of matching people using video images.
  • FIG. 1 shows the 1st example of a time series operation. It is a figure which shows the 2nd example of a time series operation. It is a figure which shows an example of the silhouette image produced
  • each block diagram represents a functional unit configuration, not a hardware unit configuration, unless otherwise specified.
  • FIG. 1 is a diagram illustrating an outline of the person authentication device 20 according to the present embodiment.
  • FIG. 1 is an example for facilitating understanding of the person authentication device 20, and does not limit the content of the person authentication device 20.
  • the camera 10 captures an image to generate the first image sequence 40.
  • the first image sequence 40 is time-series data of a captured image (hereinafter, image 42) generated by the camera 10.
  • image 42 a captured image
  • the first image sequence 40 is time-series data of video frames, that is, video data.
  • the first image sequence 40 includes a person.
  • the person authentication device 20 authenticates a person by analyzing the image sequence. For that purpose, the person authentication device 20 first generates one or more second image sequences 50 from the first image sequence 40.
  • the second image sequence 50 is generated by applying a predetermined time series operation to the first image sequence 40.
  • the second image sequence 50 is generated by arranging the plurality of images 42 forming the first image sequence 40 in reverse chronological order.
  • the person authentication device 20 extracts a gait characteristic of a person from each of two or more of the first image sequence 40 and the second image sequence 50.
  • the person authentication device 20 performs person authentication by collating the extracted plurality of gait features with gait features stored in a collation database 30 described later.
  • the person authentication referred to here is, for example, a process of "determining whether or not a person included in the first image sequence 40 is registered in the matching database 30" or a "first image sequence using the matching database 30".
  • the person included in 40 is specified (identifier of person)”.
  • the collation database 30 is an arbitrary storage device that stores the gait characteristics of a person.
  • the gait characteristics stored in the matching database 30 are also referred to as matching characteristics.
  • the matching database 30 stores one or more gait characteristics of a person in association with the person's identifier.
  • the verification database 30 may store gait characteristics registered in advance, or may store gait characteristics transmitted from another person authentication system that operates at the same time.
  • one or more second image sequences 50 are generated from the first image sequence 40 by a predetermined time-series operation, and the gait characteristics of the person are extracted from each of the two or more image sequences. It Then, by comparing the plurality of extracted gait characteristics with the matching characteristics stored in the matching database 30, the person is authenticated.
  • the person authentication device 20 a plurality of image sequences are obtained based on one image sequence, and person authentication is performed using the gait characteristics of the person obtained from each image sequence. It is possible to improve the accuracy of person authentication as compared with the case where person authentication is performed using only the image sequence.
  • FIG. 2 is a block diagram illustrating a functional configuration of the person authentication device 20.
  • the person authentication device 20 includes a generation unit 22, a feature extraction unit 23, and a matching unit 24.
  • the generation unit 22 generates one or more second image sequences 50 by applying a predetermined time series operation to the first image sequence 40.
  • the feature extraction unit 23 extracts the gait feature of the person included in the image sequence from each two or more of the first image sequence 40 and the second image sequence 50.
  • the matching unit 24 authenticates the person by comparing the extracted plurality of gait features with the matching features stored in the matching database 30.
  • FIG. 3 is a diagram exemplifying a computer 1000 for realizing the person authentication device 20.
  • the computer 1000 is an arbitrary computer.
  • the computer 1000 is a stationary computer such as a personal computer (PC) or a server machine.
  • the computer 1000 is a portable computer such as a smartphone or a tablet terminal.
  • the computer 1000 may be a dedicated computer designed to realize the person authentication device 20, or may be a general-purpose computer.
  • the computer 1000 has a bus 1020, a processor 1040, a memory 1060, a storage device 1080, an input/output interface 1100, and a network interface 1120.
  • the bus 1020 is a data transmission path for the processor 1040, the memory 1060, the storage device 1080, the input/output interface 1100, and the network interface 1120 to mutually transmit and receive data.
  • the method of connecting the processors 1040 and the like to each other is not limited to bus connection.
  • the processor 1040 is various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and an FPGA (Field-Programmable Gate Array).
  • the memory 1060 is a main storage device realized by using a RAM (Random Access Memory) or the like.
  • the storage device 1080 is an auxiliary storage device realized by using a hard disk, SSD (Solid State Drive), memory card, ROM (Read Only Memory), or the like.
  • the input/output interface 1100 is an interface for connecting the computer 1000 and an input/output device.
  • the input/output interface 1100 is connected with an input device such as a keyboard and an output device such as a display device.
  • the network interface 1120 is an interface for connecting the computer 1000 to a communication network.
  • This communication network is, for example, LAN (Local Area Network) or WAN (Wide Area Network).
  • the method for connecting the network interface 1120 to the communication network may be wireless connection or wired connection.
  • the storage device 1080 stores a program module that implements each functional configuration unit of the person authentication device 20.
  • the processor 1040 realizes the function corresponding to each program module by reading each of these program modules into the memory 1060 and executing them.
  • the camera 10 is any camera that generates the first image sequence 40 by repeatedly capturing images and generating the images 42 in time series.
  • the camera 10 is a monitoring camera provided to monitor a specific facility or road.
  • the camera 10 may be installed indoors or outdoors.
  • the camera 10 may be a camera whose position does not move (hereinafter, fixed camera) or a camera whose position moves (hereinafter, moving camera).
  • a fixed camera is a camera fixedly installed at various places such as a wall, a pillar, or a ceiling.
  • the wall on which the fixed camera is installed may be fixed in position for a certain period of time, and is not limited to the one whose position is not changed at all.
  • the wall or the like on which the fixed camera is installed may be a partition or a pillar that is temporarily installed at an event site or the like.
  • a moving camera is a camera attached to a person or moving object whose position moves.
  • the mobile camera worn by a person is, for example, a camera held by a hand (a video camera or a camera of a mobile terminal such as a smartphone) or a camera fixed to a head or a chest (a wearable camera).
  • the moving object is a car, a motorcycle, a robot, a flying object (such as a drone or an airship), or the like.
  • the camera attached to the moving object may be a camera attached for use as a so-called drive recorder, or may be a camera attached separately for surveillance shooting.
  • the fixed camera may be realized by stopping the position of the moving camera.
  • the computer 1000 that realizes the person authentication device 20 may be the camera 10.
  • the camera 10 generates the second image sequence 50 from the first image sequence 40 generated by itself, and performs the person authentication using the second image sequence 50.
  • a camera 10 having such a function for example, a camera called an intelligent camera, a network camera, an IP (Internet Protocol) camera, or the like can be used. Note that not all the functions of the person authentication device 20 are realized by the camera 10, but only some functions of the person authentication device 20 may be realized by the camera 10.
  • FIG. 4 is a flowchart exemplifying the flow of processing executed by the person authentication device 20.
  • the generation unit 22 acquires the first image sequence 40 generated by the camera 10 (S1).
  • the generation unit 22 generates a second image sequence 50 by performing a predetermined time series operation on the first image sequence 40 (S2).
  • the feature extraction unit 23 extracts a gait feature from each of the plurality of image sequences (any two or more of the first image sequence 40 and the second image sequence 50) (S3).
  • the matching unit 24 performs person authentication using the extracted plurality of gait characteristics and the matching characteristics stored in the matching database 30 (S4).
  • the person authentication device 20 outputs the authentication result (S5).
  • the generation unit 22 acquires the first image sequence 40 (S1).
  • various methods can be used as a method of acquiring the first image sequence 40.
  • the generation unit 22 acquires the first image sequence 40 by receiving the first image sequence 40 transmitted from the camera 10.
  • the generation unit 22 acquires the first image sequence 40 by reading the first image sequence 40 stored in the storage device by the camera 10 from the storage device.
  • the generation unit 22 generates one or more second image sequences 50 by performing a predetermined time series operation on the first image sequence 40 (S2).
  • a predetermined time series operation will be described.
  • FIG. 5 is a diagram showing a first example of time series operation.
  • the generation unit 22 rearranges the captured images (hereinafter, image 42) forming the first image sequence 40 in reverse order to generate the second image sequence 50.
  • the first image sequence 40 in FIG. 5 is an image in which the image 42-1, the image 42-2, the image 42-3, and the image 42-4 are arranged in this order.
  • the second image sequence 50 is formed by arranging these in the reverse order of the image 42-4, the image 42-3, the image 42-2, and the image 42-1. That is, the image 52-1, the image 52-2, the image 52-3, and the image 52-4 correspond to the image 42-4, the image 42-3, the image 42-2, and the image 42-1 respectively.
  • the second image sequence 50 in which the first image sequence 40 is rearranged in the reverse order is generated and used for matching.
  • FIG. 6 is a diagram showing a second example of time series operation.
  • the generation unit 22 generates the second image sequence 50 by extracting the image sequence of a partial period from the first image sequence 40.
  • the generation unit 22 extracts T consecutive images 42 from the first image sequence 40, and sets the image sequence composed of the extracted images 42 as the second image sequence 50.
  • the generation unit 22 extracts image sequences of a plurality of different periods from the first image sequence 40.
  • the second image sequence 50-1 and the second image sequence 50-2 are extracted.
  • the second image sequence 50-1 is composed of T images 42 starting from the beginning of the first image sequence 40.
  • the second image sequence 50-2 is composed of T images 42 starting from the position shifted after the beginning of the second image sequence 50-1.
  • the length T and the shift width ss of the second image sequence 50 can be any size.
  • the length of the second image sequence 50 is set to 0.3 seconds in time. In this case, if the camera 10 generates 25 images per second, the number of images forming the second image sequence 50 will be 8.
  • the slide width is preferably smaller than the length of the second image sequence 50. For example, when the number of images forming the second image sequence 50 is eight, the shift width is set to one or two. By doing so, a part of the second image sequences 50 overlap each other.
  • the predetermined time series operation may be an operation that combines the above two. For example, it is an operation of “extracting some images 42 from the first image sequence 40 arranged in reverse chronological order”. Further, the predetermined time series operation may be a time series operation other than the above two examples.
  • the image 42 forming the first image sequence 40 is used as it is as the image 52 forming the second image sequence 50.
  • the generation unit 22 may generate a second image sequence 50 by applying a predetermined process (image process) to the image 42 and using the processed image 42.
  • the image processing that the generation unit 22 adds to the image 42 is arbitrary.
  • the generation unit 22 adds image processing that reduces noise to the image 42.
  • the generation unit 22 performs image processing for converting the image 42 into a silhouette image of a person included in the image 42.
  • the silhouette image is an image that is binarized so that the image area representing a person and the other image areas have different pixel values.
  • FIG. 7 is a diagram showing an example of a silhouette image generated by the generation unit 22. For convenience of illustration, black is represented by a dot pattern in FIG. 7.
  • the generation unit 22 first detects a person from the image 42 (detects an image area representing the person).
  • a technique for detecting an image region representing a person from an image an existing technique can be used.
  • a method using a convolutional neural network or a method using HOG (Histogram Oriented Gradients) can be used.
  • the generation unit 22 converts the image 42 into a silhouette image of the detected person.
  • Existing techniques can be used to generate the silhouette image. For example, a method using a convolutional neural network is used to generate a silhouette image of a person at the same time as detecting the person.
  • a silhouette generated in advance by a method using background subtraction may be integrated with the detection result of a person.
  • the first image sequence 40 is converted into an image sequence of silhouette images.
  • the generation unit 22 generates a second image sequence 50 by adding a predetermined time series operation to the image sequence of this silhouette image. As a result, the second image sequence 50 also becomes an image sequence of silhouette images.
  • the feature extraction unit 23 extracts gait features from each of the plurality of image sequences (S3). At least the feature extraction unit 23 extracts gait features from the second image sequence 50 generated by the generation unit 22. On the other hand, the gait feature may or may not be extracted from the first image sequence 40.
  • the existing method of extracting spatiotemporal image features from an image sequence can be used as the technology for extracting the gait features of a person from an image sequence.
  • the spatio-temporal image feature is a feature that simultaneously expresses the image feature of each image and the time-series information of the image feature.
  • gait features can be extracted by a method using a convolutional neural network or a method using DT (Dense Trajectories).
  • the feature extraction unit 23 inputs an image sequence to the convolutional neural network and extracts the output of the intermediate layer (hidden layer) as a gait feature.
  • the intermediate layer is composed of a plurality of layers, the output of any one of the plurality of layers can be used as the gait feature.
  • the matching unit 24 authenticates the person by comparing (matching) the gait feature extracted by the feature extracting unit 23 with the matching feature stored in the matching database 30. For example, the matching unit 24 calculates a matching score for each gait feature extracted by the feature extraction unit 23 with each matching feature stored in the matching database 30. For example, when m matching features are stored in the matching database 30, m matching scores are calculated for each of the gait features extracted from each image sequence.
  • the matching score is an index value indicating the degree of similarity between the gait feature and the matching feature.
  • the matching score various index values that represent the degree of similarity between features can be used.
  • the matching score may be the distance (euclidean distance, etc.) between the gait feature and the matching feature, or the similarity (angle) such as the cosine similarity.
  • the similarity angle
  • index values that decrease in value as the similarity between features increases such as the distance between features
  • the reciprocal of the index value is used, or the index value is multiplied by a negative number. It is preferable that the higher the similarity between the two, the larger the value.
  • any one of the plurality of types of index values described above may be used, or a plurality of types of index values may be calculated and statistical values thereof (maximum value, minimum value, average value, or Weighted average value) may be used as the matching score.
  • the matching unit 24 calculates, for each matching feature, a statistical value of the matching score (hereinafter, statistical score) for each image sequence obtained by comparison with the matching feature. That is, one statistical score is obtained for each matching feature.
  • the matching unit 24 performs person authentication using the statistical score.
  • the matching unit 24 determines whether the statistical score is equal to or higher than a predetermined threshold value. When there is a statistical score that is equal to or higher than the predetermined threshold value (when the maximum value of the statistical score is equal to or higher than the threshold value), the matching unit 24 registers the person included in the first image sequence 40 in the matching database 30. It is determined that it has been done.
  • the matching unit 24 determines that the person included in the first image sequence 40 is the matching database 30. It is determined that it is not registered in.
  • the matching unit 24 identifies the maximum statistical score that is equal to or higher than the above-described predetermined threshold value from the statistical scores. Then, the matching unit 24 specifies a person having a matching feature corresponding to the specified statistical score (a person having a person identifier associated with the matching feature) as a person included in the first image sequence 40. For example, the statistical score calculated between the matching feature of the person A registered in the matching database 30 and the gait feature calculated by the feature extracting unit 23 is the maximum statistical score and has a predetermined threshold.
  • the matching unit 24 determines that the person included in the first image sequence 40 is not registered in the matching database 30.
  • the person authentication device 20 outputs the authentication result (S5).
  • There are various methods of outputting the authentication result For example, assume that a process of “determining whether or not the person included in the first image sequence 40 is registered in the matching database 30” is performed as the person authentication. In this case, for example, the person authentication device 20 outputs whether or not the person included in the first image sequence 40 is the person registered in the collation database 30. For example, this output is a text message or a voice message that indicates "a person registered in the collation database 30" or "not a person registered in the collation database 30". In addition, for example, output using a lamp or the like that outputs a color according to the determination result may be performed.
  • the person authenticating device 20 outputs the identifier of the identified person, or outputs that the person is not a person registered in the collation database 30. For example, this output is a text message or a voice message.
  • each output device (a display device that displays a text message, a speaker that outputs a voice message, or a lamp) may be provided in the person authentication device 20, or may be provided other than the person authentication device 20. It may be. In the latter case, for example, the person authenticating device 20 transmits information indicating the output to another device.
  • a generation unit that generates one or more second image sequences by applying a predetermined time series operation to the first image sequence;
  • An extraction unit that extracts the gait characteristics of the person included in the image sequence from any two or more of the first image sequence and the second image sequence, respectively.
  • a person authenticating device comprising: a collating unit that authenticates a person by comparing the extracted plurality of gait features with a collating feature that is a gait feature stored in a storage unit.
  • the generation unit generates the second image sequence by arranging the images included in the first image sequence in reverse chronological order. Person authentication device described in. 3.
  • the generation unit extracts a plurality of images from a part of the period of the first image sequence and generates the second image sequence composed of the extracted plurality of images.
  • Person authentication device described in. 4. The generation unit generates a first second image sequence from a first period included in the first image sequence, and generates a second second image sequence from a second period included in the first image sequence. Generate, 2. The first period and the second period partially overlap each other; Person authentication device described in. 5.
  • the generation unit detects a person from each image forming the first image sequence, generates a silhouette image of the detected person, and generates the second image sequence using the generated silhouette image. ⁇ 4.
  • the extraction unit extracts spatiotemporal image features of a person detected from an image sequence as the gait features extracted from the image sequence. ⁇ 5.
  • the person authentication device described in any one of 1. 7 The extraction unit extracts the gait feature by inputting an image sequence into a convolutional neural network. ⁇ 5.
  • the convolutional neural network has an input layer, an intermediate layer, and an output layer, 6.
  • the extraction unit extracts an output from any of the layers forming the intermediate layer as the gait feature. Person authentication device described in. 9.
  • the collating unit For each of the plurality of matching features stored in the storage unit, calculate a matching score representing the degree of similarity with the gait features extracted from each image sequence, For each of the matching features, calculate a statistical score that is a statistical value of the calculated multiple matching scores, The person included in the first image sequence is authenticated using the statistical score for each matching feature.
  • the matching unit specifies that the first image sequence is a registered person when any of the statistical scores is equal to or higher than a predetermined threshold value. Person authentication device described in. 11.
  • the storage unit stores an identifier of a person and a matching feature of the person in association with each other,
  • the collating unit From a plurality of matching features, the statistical score is the maximum, and the matching feature whose statistical score is greater than or equal to a predetermined threshold is specified, 8.
  • a person having an identifier associated with the identified matching feature in the storage unit is identified as a person included in the first image sequence. Person authentication device described in.
  • a control method executed by a computer comprising: A generating step of generating one or more second image sequences by applying a predetermined time series operation to the first image sequence; An extracting step of extracting a gait characteristic of a person included in the image sequence from each two or more of the first image sequence and the second image sequence, A control method comprising: a verification step of authenticating a person by comparing the extracted plurality of gait characteristics with a verification characteristic which is a gait characteristic stored in a storage unit. 13. 12. In the generating step, the second image sequence is generated by arranging the images included in the first image sequence in reverse chronological order. Control method described in. 14. 12.
  • a plurality of images are extracted from a part of the period of the first image sequence, and the second image sequence composed of the extracted plurality of images is generated.
  • a first second image sequence is generated from a first period included in the first image sequence
  • a second second image sequence is generated from a second period included in the first image sequence.
  • the first period and the second period partially overlap each other.
  • a person is detected from each image forming the first image sequence, a silhouette image of the detected person is generated, and the second image sequence is generated using the generated silhouette image. ⁇ 15.
  • the control method according to any one of 1. 17. 12.
  • the gait feature extracted from the image sequence a spatiotemporal image feature of a person detected from the image sequence is extracted. ⁇ 16.
  • the gait features are extracted by inputting an image sequence into a convolutional neural network. ⁇ 16.
  • the convolutional neural network has an input layer, an intermediate layer, and an output layer, 17.
  • outputs from any of the layers forming the intermediate layer are extracted as the gait feature. Control method described in. 20.
  • the matching step For each of the plurality of matching features stored in the storage unit, calculate a matching score representing the degree of similarity with the gait features extracted from each image sequence, For each of the matching features, calculate a statistical score that is a statistical value of the calculated multiple matching scores, 12. The person included in the first image sequence is authenticated using the statistical score for each matching feature. ⁇ 19.
  • the control method according to any one of 1. 21. 20.
  • the matching step if any one of the statistical scores is equal to or more than a predetermined threshold value, the first image sequence is identified as a registered person, 20. Control method described in. 22.
  • the storage unit stores an identifier of a person and a matching feature of the person in association with each other, In the matching step, From a plurality of matching features, the statistical score is the maximum, and the matching feature whose statistical score is greater than or equal to a predetermined threshold is specified, 19. A person having an identifier associated with the identified matching feature in the storage unit is identified as a person included in the first image sequence, 20. Control method described in.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

人物認証装置(20)は、カメラ(10)から得られる第1画像シーケンス(40)に対して所定の時系列操作を加えることで、1つ以上の第2画像シーケンス(50)を生成する。人物認証装置(20)は、第1画像シーケンス(40)及び第2画像シーケンス(50)のうち、いずれか2つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する。人物認証装置(20)は、抽出した複数の歩容特徴と、照合データベース(30)に記憶されている照合特徴とを比較することにより、人物の認証を行う。

Description

人物認証装置、制御方法、及びプログラム
 本発明は、映像を用いた人物の照合に関する。
 関連する一般的な歩容に基づく認証装置では、歩行する人物の時系列情報を表現する特徴(以下、歩容特徴)を抽出し、それを比較することで人物の認証を実現している。歩容特徴に関連する文献として、特許文献1から3、及び非特許文献1が挙げられる。特許文献1に記載されている歩容特徴は、各時間における脚部の位置関係である。特許文献2に記載されている歩容特徴は、歩幅、歩調、又は歩速などの脚部の動きの情報と、脚長などの骨格情報である。特許文献3に記載されている歩容特徴は、シルエットの移動量の周波数成分である。非特許文献1は、深層学習を用いて時系列に整列したシルエット全体から歩容特徴を抽出する技術を開示している。
国際公開第2006/013765号 特開2010-239992号公報 特開2018-26018号公報
Daksh Thapar、Divyansh Aggarwal、Punjal Agarwal、及び Aditya Nigam、「VGR-Net: A View Invariant Gait Recognition Network」、IEEE 4th International Conference on Identity, Security, and Behavior Analysis(ISBA 2018)、2018年1月
 上述した各文献における歩容特徴の抽出は、人物が同じ方向に十分な時間歩行していることを前提とする。しかしながら、実際の映像に常にそのような歩行が映っているとは限らず、そのような歩行が映っていない場合には、映像から歩容特徴を抽出することが難しいため、歩容特徴に基づく認証が難しい。すなわち、映像内の人物が右左折や転回によって歩行方向を変更する場合や、映像内の人物の歩行時間が短い場合、歩容特徴を抽出して認証を行うことが難しいという問題点がある。
 また、特許文献2に記載の脚長や身長などの骨格情報のように、時系列情報を持たない歩容特徴には、時系列情報を持つ他の歩容特徴に比べ、表現能力が低いという問題がある。そのため、登録人数が増えた場合などにおいて、認識精度が低下するという問題点がある。
 本発明は上記の問題点を鑑みて発明されたものであり、その目的の一つは、映像を用いた人物の照合の精度を向上させる技術を提供することである。
 本発明の人物認証装置は、1)第1画像シーケンスに対して所定の時系列操作を加えることで1つ以上の第2画像シーケンスを生成する生成部と、2)第1画像シーケンス及び第2画像シーケンスのうちのいずれか2つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出部と、3)抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合部と、を有する。
 本発明の制御方法はコンピュータによって実行される。当該制御方法は、1)第1画像シーケンスに対して所定の時系列操作を加えることで1つ以上の第2画像シーケンスを生成する生成ステップと、2)第1画像シーケンス及び第2画像シーケンスのうちのいずれか2つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出ステップと、3)抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合ステップと、を有する。
 本発明のプログラムは、本発明の制御方法が有する各ステップをコンピュータに実行させる。
 映像を用いた人物の照合の精度を向上させる技術を提供することである。
人物認証装置の理解を容易にするための例示であり、人物認証装置の内容を限定するものではない。 人物認証装置の構成を示すブロック図である。 人物認証装置を実現するための計算機を例示する図である。 人物認証装置が実行する処理の流れを例示するフローチャートである。 時系列操作の第1の例を示す図である。 時系列操作の第2の例を示す図である。 生成部によって生成されるシルエット画像の一例を示す図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
[実施形態1]
<概要>
 図1は、本実施形態に係る人物認証装置20の概要を例示する図である。図1は、人物認証装置20の理解を容易にするための例示であり、人物認証装置20の内容を限定するものではない。
 カメラ10は、撮像を行うことで、第1画像シーケンス40を生成する。第1画像シーケンス40は、カメラ10によって生成された撮像画像(以下、画像42)の時系列データである。例えば、第1画像シーケンス40は、ビデオフレームの時系列データ、すなわちビデオデータである。第1画像シーケンス40には、人物が含まれている。
 人物認証装置20は、画像シーケンスを解析することで、人物の認証を行う。そのために、まず人物認証装置20は、第1画像シーケンス40から、1つ以上の第2画像シーケンス50を生成する。第2画像シーケンス50は、第1画像シーケンス40に対して所定の時系列操作を加えることで生成される。例えば第2画像シーケンス50は、第1画像シーケンス40を構成する複数の画像42を時系列で逆順に並べることで生成される。
 人物認証装置20は、第1画像シーケンス40及び第2画像シーケンス50のうち、いずれか2つ以上それぞれから、人物の歩容特徴を抽出する。人物認証装置20は、抽出された複数の歩容特徴を、後述の照合データベース30に記憶されている歩容特徴と照合することで、人物認証を行う。ここでいう人物認証は、例えば、「第1画像シーケンス40に含まれる人物が照合データベース30に登録されているか否かを判定する」という処理や、「照合データベース30を用いて、第1画像シーケンス40に含まれている人物を(人物の識別子を)特定する」という処理などである。
 照合データベース30は、人物の歩容特徴を記憶する任意の記憶装置である。ここで、照合データベース30に記憶されている歩容特徴を、照合特徴とも呼ぶ。例えば照合データベース30は、人物の識別子に対応づけて、その人物の歩容特徴を1つ以上記憶している。なお、照合データベース30は、事前に登録された歩容特徴を記憶していてもよいし、同時に稼働する別の人物認証システムから送信される歩容特徴を記憶してもよい。
<作用効果>
 本実施形態では、所定の時系列操作によって、第1画像シーケンス40から1つ以上の第2画像シーケンス50が生成され、いずれか2つ以上の画像シーケンスそれぞれから、人物の歩容特徴が抽出される。そして、抽出された複数の歩容特徴と、照合データベース30に記憶されている照合特徴とを比較することで、人物の認証が行われる。このように、人物認証装置20では、1つの画像シーケンスに基づいて複数の画像シーケンスが得られ、各画像シーケンスから得られる人物の歩容特徴を用いて人物認証が行われるため、カメラ10から得られる画像シーケンスのみを用いて人物認証を行うケースと比較し、人物認証の精度を高くすることができる。
<機能構成の例>
 図2は、人物認証装置20の機能構成を例示するブロック図である。人物認証装置20は、生成部22、特徴抽出部23、及び照合部24を有する。生成部22は、第1画像シーケンス40に対して所定の時系列操作を加えることで1つ以上の第2画像シーケンス50を生成する。特徴抽出部23は、第1画像シーケンス40及び第2画像シーケンス50のうちのいずれか2つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する。照合部24は、抽出した複数の歩容特徴と、照合データベース30に記憶されている照合特徴とを比較することにより、人物認証を行う。
<人物認証装置20のハードウエア構成の例>
 図3は、人物認証装置20を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、Personal Computer(PC)やサーバマシンなどの据え置き型の計算機である。その他にも例えば、計算機1000は、スマートフォンやタブレット端末などの可搬型の計算機である。なお、計算機1000は、人物認証装置20を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
 計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
 入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
 ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 ストレージデバイス1080は、人物認証装置20の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
<カメラ10について>
 カメラ10は、繰り返し撮像を行って時系列の画像42を生成することにより、第1画像シーケンス40を生成する任意のカメラである。例えばカメラ10は、特定の施設や道路などを監視するために設けられている監視カメラである。カメラ10の設置場所は、屋内であってもよいし、屋外であってもよい。
 カメラ10は、その位置が移動しないカメラ(以下、固定カメラ)であってもよいし、その位置が移動するカメラ(以下、移動カメラ)であってもよい。例えば固定カメラは、壁、柱、又は天井などの様々な場所に固定で設置されたカメラである。固定カメラが設置される壁等は、ある程度の期間位置が固定されていればよく、その位置が全く変更されないものに限定されない。例えば固定カメラが設置される壁等は、イベント会場などに臨時で設置される仕切りや柱などでもよい。
 例えば移動カメラは、その位置が移動する人や移動物体に取り付けられているカメラである。人に身につけられる移動カメラは、例えば手で保持するカメラ(ビデオカメラや、スマートフォンなどの携帯端末のカメラ)、又は頭や胸などに固定されるカメラ(ウェアラブルカメラなど)などである。例えば移動物体は、車、バイク、ロボット、又は飛翔体(ドローンや飛行船など)などである。移動物体に取り付けられるカメラは、いわゆるドライブレコーダとして用いるために取り付けられているカメラであってもよいし、監視撮影用に別途取り付けられたカメラであってもよい。なお、移動カメラの位置を停止させることで固定カメラを実現してもよい。
 ここで、人物認証装置20を実現する計算機1000は、カメラ10であってもよい。この場合、カメラ10は、自身で生成した第1画像シーケンス40から第2画像シーケンス50を生成し、第2画像シーケンス50を利用した人物認証を行う。このような機能を持たせるカメラ10としては、例えば、インテリジェントカメラ、ネットワークカメラ、又は IP(Internet Protocol)カメラなどと呼ばれるカメラを用いることができる。なお、人物認証装置20の全ての機能をカメラ10で実現するのではなく、人物認証装置20の一部の機能のみがカメラ10で実現されてもよい。
<処理の流れ>
 図4は、人物認証装置20が実行する処理の流れを例示するフローチャートである。生成部22は、カメラ10によって生成された第1画像シーケンス40を取得する(S1)。生成部22は、第1画像シーケンス40に対して所定の時系列操作を施すことで第2画像シーケンス50を生成する(S2)。特徴抽出部23は、複数の画像シーケンス(第1画像シーケンス40及び第2画像シーケンス50のうちのいずれか2つ以上)それぞれから、歩容特徴を抽出する(S3)。照合部24は、抽出された複数の歩容特徴及び照合データベース30に記憶されている照合特徴を用いて、人物認証を行う(S4)。人物認証装置20は、認証結果を出力する(S5)。
<第1画像シーケンス40の取得:S1>
 生成部22は第1画像シーケンス40を取得する(S1)。ここで、第1画像シーケンス40を取得する方法には様々な方法を利用できる。例えば生成部22は、カメラ10から送信される第1画像シーケンス40を受信することで、第1画像シーケンス40を取得する。その他にも例えば、生成部22は、カメラ10によって記憶装置に記憶された第1画像シーケンス40をその記憶装置から読み出すことで、第1画像シーケンス40を取得する。
<第2画像シーケンス50の生成:S2>
 生成部22は、第1画像シーケンス40に対して所定の時系列操作を加えることで、1つ以上の第2画像シーケンス50を生成する(S2)。以下、所定の時系列操作の具体例を説明する。
 図5は、時系列操作の第1の例を示す図である。図5において、生成部22は、第1画像シーケンス40を構成する撮像画像(以下、画像42)を逆順に並べ替えることで、第2画像シーケンス50を生成している。例えば図5の第1画像シーケンス40は、画像42-1、画像42-2、画像42-3、及び画像42-4をこの順で並べたものである。そして、第2画像シーケンス50は、これらを画像42-4、画像42-3、画像42-2、及び画像42-1という逆の順序で並べることによって構成される。すなわち、画像52-1、画像52-2、画像52-3、及び画像52-4がそれぞれ、画像42-4、画像42-3、画像42-2、及び画像42-1に相当する。
 このように第1画像シーケンス40を逆順に並べ替えた第2画像シーケンス50を生成して照合に利用することにより、第1画像シーケンス40の長さが短い(画像42の数)が少ない場合でも、歩行状態が類似した画像シーケンスから抽出した歩容特徴を用いて照合することができる。そのため、カメラ10から得られる画像シーケンスの長さの影響が人物認証の精度に与える影響を小さくし、カメラ10から得られる画像シーケンスの長さが短い場合であっても精度のよい認証を実現できる。
 図6は、時系列操作の第2の例を示す図である。図6において、生成部22は、第1画像シーケンス40から一部の期間の画像シーケンスを抽出することで、第2画像シーケンス50を生成する。例えば図6の例において、生成部22は、第1画像シーケンス40から連続する T 枚の画像42を抽出し、抽出した画像42で構成される画像シーケンスを、第2画像シーケンス50としている。
 ここで、生成部22は、第1画像シーケンス40から、それぞれ異なる複数の期間の画像シーケンスを抽出することが好適である。例えば図6では、第2画像シーケンス50-1及び第2画像シーケンス50-2が抽出されている。ここで、第2画像シーケンス50-1は、第1画像シーケンス40の先頭から始まる T 枚の画像42によって構成されている。一方、第2画像シーケンス50-2は、第2画像シーケンス50-1の先頭よりも後ろに s ずらした位置から始まる T 枚の画像42によって構成されている。
 ここで、第2画像シーケンス50の長さ T やずらし幅 s は、任意の大きさとすることができる。例えば、第2画像シーケンス50の長さを時間で 0.3秒 と定める。この場合、カメラ10が1秒間に25枚の画像を生成するならば、第2画像シーケンス50を構成する画像の枚数は8枚となる。スライド幅は、第2画像シーケンス50の長さよりも小さくすることが好適である。例えば第2画像シーケンス50を構成する画像の枚数が8枚である場合において、ずらし幅は1枚や2枚などとする。こうすることで、第2画像シーケンス50同士の一部が重複することになる。
 このように第1画像シーケンス40の一部を切り出して1つ以上の第2画像シーケンス50を生成することにより、第1画像シーケンス40中で人物が進行方向を変えている場合などにおいても、照合が容易な進行方向の部分から抽出した歩容特徴を用いて照合を行うことができる。よって、第1画像シーケンス40の途中における人物の進行方向の変更が認証の精度に与える影響を小さくし、第1画像シーケンス40の途中で人物が進行方向を変更する場合においても精度の高い認証を実現できる。
 所定の時系列操作は、上記2つを組み合わせた操作であってもよい。例えば、「第1画像シーケンス40を時系列の逆順に並べたものから、一部の画像42を抽出する」という操作である。また、所定の時系列操作は、上記2つの例以外の時系列操作であってもよい。
<<画像42の加工>>
 上述の例では、第2画像シーケンス50を構成する画像52として、第1画像シーケンス40を構成する画像42をそのまま用いている。しかし、生成部22は、画像42に対して所定の加工(画像処理)を加え、当該加工後の画像42を用いて、第2画像シーケンス50を生成してもよい。
 生成部22が画像42に対して加える画像処理は任意である。例えば生成部22は、画像42に対して、ノイズを低減させる画像処理を加える。その他にも例えば、生成部22は、画像42を、画像42に含まれる人物のシルエット画像に変換する画像処理を行う。シルエット画像とは、人物を表す画像領域とそれ以外の画像領域とが互いに異なる画素値になるように2値化された画像である。図7は、生成部22によって生成されるシルエット画像の一例を示す図である。なお、図示の都合上、図7では、黒色をドット柄で表している。
 シルエット画像を生成するために、まず生成部22は、画像42から人物を検出する(人物を表す画像領域を検出する)。ここで、画像から人物を表す画像領域を検出する技術には、既存の技術を利用することができる。例えば、畳み込みニューラルネットワークを用いた手法や、HOG(Histogram of Oriented Gradients)を用いた手法などを利用できる。
 さらに生成部22は、画像42を検出した人物のシルエット画像に変換する。シルエット画像の生成には、既存の技術を利用することができる。例えば、畳み込みニューラルネットワークを用いた手法により、人物の検出と同時に人物のシルエット画像を生成する。その他にも例えば、背景差分を用いた手法などで事前に生成したシルエットを、人物の検出結果と統合してもよい。
 第1画像シーケンス40を構成する各画像42をシルエット画像に変換することにより、第1画像シーケンス40が、シルエット画像の画像シーケンスに変換される。生成部22は、このシルエット画像の画像シーケンスに所定の時系列操作を加えることで、第2画像シーケンス50を生成する。これにより、第2画像シーケンス50も、シルエット画像の画像シーケンスとなる。
<歩容特徴の抽出:S3>
 特徴抽出部23は、複数の画像シーケンスそれぞれから、歩容特徴を抽出する(S3)。少なくとも、特徴抽出部23は、生成部22によって生成された第2画像シーケンス50からは、歩容特徴を抽出する。一方、第1画像シーケンス40からは、歩容特徴を抽出してもよいし、しなくてもよい。
 画像シーケンスから人物の歩容特徴を抽出する技術には、画像シーケンスから時空間画像特徴を抽出する既存の手法を利用することができる。ここで、時空間画像特徴とは、各画像の画像特徴と画像特徴の時系列情報を同時に表現する特徴である。例えば歩容特徴は、畳み込みニューラルネットワークを用いた手法や、DT(Dense Trajectories)を用いた手法によって抽出できる。例えば畳み込みニューラルネットワークを用いる場合、特徴抽出部23は、畳み込みニューラルネットワークに対して画像シーケンスを入力し、中間層(隠れ層)の出力を、歩容特徴として抽出する。なお、中間層が複数の層で構成される場合、歩容特徴には、これら複数の層のうちの任意の層の出力を利用できる。
<歩容特徴による人物認証:S4>
 照合部24は、特徴抽出部23で抽出した歩容特徴と、照合データベース30に記憶されている照合特徴とを比較する(照合する)ことで、人物認証を行う。例えば照合部24は、特徴抽出部23で抽出した各歩容特徴について、照合データベース30に記憶されている各照合特徴との間で照合スコアを計算する。例えば照合データベース30に m 個の照合特徴が記憶されている場合、各画像シーケンスから抽出された歩容特徴について、照合スコアが m 個ずつ算出される。照合スコアは、歩容特徴と照合特徴との類似度の高さを表す指標値である。
 照合スコアには、特徴同士の類似度を表す種々の指標値を利用することができる。例えば照合スコアには、歩容特徴と照合特徴の間の距離(ユークリッド距離など)や、コサイン類似度などの類似度(角度)を用いることができる。なお、特徴間の距離のように、特徴間の類似度が高いほど値が小さくなる指標値については、指標値の逆数を用いたり、指標値に負の数を掛けたりするなどして、特徴間の類似度が高いほど値が大きくなるにようにすることが好適である。また、照合スコアには、上述した複数の種類の指標値のいずれか1つを用いてもよいし、複数種類の指標値を算出してその統計値(最大値、最小値、平均値、又は加重平均値など)を照合スコアとして用いてもよい。
 さらに照合部24は、照合特徴ごとに、その照合特徴との比較によって得られた各画像シーケンスについての照合スコアの統計値(以下、統計スコア)を算出する。すなわち、各照合特徴について、統計スコアが1つ得られる。照合部24は、統計スコアを用いて人物認証を行う。
 例えば人物認証として、「第1画像シーケンス40に含まれる人物が照合データベース30に登録されているか否かを判定する」という処理を行うとする。この場合、例えば照合部24は、統計スコアが所定のしきい値以上であるか否かを判定する。所定のしきい値以上である統計スコアが存在する場合(統計スコアの最大値がしきい値以上である場合)、照合部24は、第1画像シーケンス40に含まれる人物が照合データベース30に登録されていると判定する。一方、所定のしきい値以上である統計スコアが存在しない場合(統計スコアの最大値がしきい値未満である場合)、照合部24は、第1画像シーケンス40に含まれる人物が照合データベース30に登録されていないと判定する。
 その他にも例えば、人物認証として、「照合データベース30を用いて、第1画像シーケンス40に含まれる人物を特定する」という処理を行うとする。例えばこの場合、照合部24は、統計スコアの中から、上述した所定のしきい値以上であり、なおかつ最大の統計スコアを特定する。そして照合部24は、特定した統計スコアに対応する照合特徴を持つ人物(その照合特徴に対応づけられている人物識別子を持つ人物)を、第1画像シーケンス40に含まれる人物として特定する。例えば、照合データベース30に登録されている人物Aの照合特徴と特徴抽出部23によって算出された歩容特徴との間で算出された統計スコアが、最大の統計スコアであってなおかつ所定のしきい値以上である場合、第1画像シーケンス40に含まれている人物が人物Aであると特定される。なお、最大の統計スコアが所定のしきい値未満である場合には、照合部24は、第1画像シーケンス40に含まれる人物が照合データベース30に登録されていないと判定する。
<認証結果の出力:S5>
 人物認証装置20は、認証結果を出力する(S5)。認証結果の出力方法は様々である。例えば、人物認証として、「第1画像シーケンス40に含まれる人物が照合データベース30に登録されているか否かを判定する」という処理を行うとする。この場合、例えば人物認証装置20は、第1画像シーケンス40に含まれる人物が照合データベース30に登録されている人物であるか否かを表す出力を行う。例えばこの出力は、「照合データベース30に登録されている人物である」又は「照合データベース30に登録されている人物でない」旨を表すテキストメッセージや音声メッセージである。その他にも例えば、判定結果に応じた色を出力するランプなどを用いた出力を行ってもよい。
 その他にも例えば、人物認証として、「照合データベース30を用いて、第1画像シーケンス40に含まれる人物を特定する」という処理を行うとする。この場合、例えば人物認証装置20は、特定された人物の識別子の出力、又は「照合データベース30に登録されている人物でない」旨を表す出力を行う。例えばこの出力は、テキストメッセージや音声メッセージである。
 ここで、各出力装置(テキストメッセージを表示させるディスプレイ装置など、音声メッセージを出力させるスピーカなど、又はランプなど)は、人物認証装置20に設けられていてもよいし、人物認証装置20以外に設けられていてもよい。後者の場合、例えば人物認証装置20は、出力を表す情報を他の装置に送信する。
 以上、本発明の実施形態を詳細に説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で上記実施形態に対して変更や修正を加えたものも、本発明に含まれる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
1. 第1画像シーケンスに対して所定の時系列操作を加えることで1つ以上の第2画像シーケンスを生成する生成部と、
 前記第1画像シーケンス及び前記第2画像シーケンスのうちのいずれか2つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出部と、
 前記抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合部と、を有する人物認証装置。
2. 前記生成部は、前記第1画像シーケンスに含まれる画像を時系列で逆順に並べることにより、前記第2画像シーケンスを生成する、1.に記載の人物認証装置。
3. 前記生成部は、前記第1画像シーケンスの一部の期間から複数の画像を抽出し、抽出した複数の画像で構成される前記第2画像シーケンスを生成する、1.に記載の人物認証装置。
4. 前記生成部は、前記第1画像シーケンスに含まれる第1期間から第1の前記第2画像シーケンスを生成し、前記第1画像シーケンスに含まれる第2期間から第2の前記第2画像シーケンスを生成し、
 前記第1期間と前記第2期間は互いに一部が重複する、3.に記載の人物認証装置。
5. 前記生成部は、前記第1画像シーケンスを構成する各画像から人物を検出し、検出した人物のシルエット画像を生成し、前記生成したシルエット画像を用いて前記第2画像シーケンスを生成する、1.~4.のいずれか1つに記載の人物認証装置。
6. 前記抽出部は、画像シーケンスから抽出される前記歩容特徴として、画像シーケンスから検出される人物についての時空間画像特徴を抽出する、1.~5.のいずれか1つに記載の人物認証装置。
7. 前記抽出部は、画像シーケンスを畳み込みニューラルネットワークに入力することで、前記歩容特徴を抽出する、1.~5.のいずれか1つに記載の人物認証装置。
8. 前記畳み込みニューラルネットワークは、入力層、中間層、及び出力層を有し、
 前記抽出部は、前記中間層を構成するいずれかの層からの出力を前記歩容特徴として抽出する、7.に記載の人物認証装置。
9. 前記照合部は、
  前記記憶部に記憶されている複数の照合特徴それぞれについて、各画像シーケンスから抽出された歩容特徴との類似度を表す照合スコアを算出し、
  前記照合特徴ごとに、算出された複数の照合スコアの統計値である統計スコアを算出し、
  前記照合特徴ごとの統計スコアを用いて、前記第1画像シーケンスに含まれる人物の認証を行う、1.~8.のいずれか1つに記載の人物認証装置。
10. 前記照合部は、いずれかの前記統計スコアが所定のしきい値以上である場合に、前記第1画像シーケンスが登録済みの人物であると特定する、9.に記載の人物認証装置。
11. 前記記憶部は、人物の識別子とその人物の照合特徴とを対応づけて記憶しており、
 前記照合部は、
  複数の照合特徴の中から、前記統計スコアが最大であり、なおかつその統計スコアが所定のしきい値以上である照合特徴を特定し、
  前記記憶部において前記特定された照合特徴と対応づけられている識別子を持つ人物を、前記第1画像シーケンスに含まれる人物として特定する、9.に記載の人物認証装置。
12. コンピュータによって実行される制御方法であって、
 第1画像シーケンスに対して所定の時系列操作を加えることで1つ以上の第2画像シーケンスを生成する生成ステップと、
 前記第1画像シーケンス及び前記第2画像シーケンスのうちのいずれか2つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出ステップと、
 前記抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合ステップと、を有する制御方法。
13. 前記生成ステップにおいて、前記第1画像シーケンスに含まれる画像を時系列で逆順に並べることにより、前記第2画像シーケンスを生成する、12.に記載の制御方法。
14. 前記生成ステップにおいて、前記第1画像シーケンスの一部の期間から複数の画像を抽出し、抽出した複数の画像で構成される前記第2画像シーケンスを生成する、12.に記載の制御方法。
15. 前記生成ステップにおいて、前記第1画像シーケンスに含まれる第1期間から第1の前記第2画像シーケンスを生成し、前記第1画像シーケンスに含まれる第2期間から第2の前記第2画像シーケンスを生成し、
 前記第1期間と前記第2期間は互いに一部が重複する、14.に記載の制御方法。
16. 前記生成ステップにおいて、前記第1画像シーケンスを構成する各画像から人物を検出し、検出した人物のシルエット画像を生成し、前記生成したシルエット画像を用いて前記第2画像シーケンスを生成する、12.~15.のいずれか1つに記載の制御方法。
17. 前記抽出ステップにおいて、画像シーケンスから抽出される前記歩容特徴として、画像シーケンスから検出される人物についての時空間画像特徴を抽出する、12.~16.のいずれか1つに記載の制御方法。
18. 前記抽出ステップにおいて、画像シーケンスを畳み込みニューラルネットワークに入力することで、前記歩容特徴を抽出する、12.~16.のいずれか1つに記載の制御方法。
19. 前記畳み込みニューラルネットワークは、入力層、中間層、及び出力層を有し、
 前記抽出ステップにおいて、前記中間層を構成するいずれかの層からの出力を前記歩容特徴として抽出する、18.に記載の制御方法。
20. 前記照合ステップにおいて、
  前記記憶部に記憶されている複数の照合特徴それぞれについて、各画像シーケンスから抽出された歩容特徴との類似度を表す照合スコアを算出し、
  前記照合特徴ごとに、算出された複数の照合スコアの統計値である統計スコアを算出し、
  前記照合特徴ごとの統計スコアを用いて、前記第1画像シーケンスに含まれる人物の認証を行う、12.~19.のいずれか1つに記載の制御方法。
21. 前記照合ステップにおいて、いずれかの前記統計スコアが所定のしきい値以上である場合に、前記第1画像シーケンスが登録済みの人物であると特定する、20.に記載の制御方法。
22. 前記記憶部は、人物の識別子とその人物の照合特徴とを対応づけて記憶しており、
 前記照合ステップにおいて、
  複数の照合特徴の中から、前記統計スコアが最大であり、なおかつその統計スコアが所定のしきい値以上である照合特徴を特定し、
  前記記憶部において前記特定された照合特徴と対応づけられている識別子を持つ人物を、前記第1画像シーケンスに含まれる人物として特定する、20.に記載の制御方法。
23. 12.~22.のいずれか一つに記載の制御方法の各ステップをコンピュータに実行させるプログラム。
 この出願は、2018年12月28日に出願された日本出願特願2018-248213号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 カメラ
20 人物認証装置
22 生成部
23 特徴抽出部
24 照合部
30 照合データベース
40 第1画像シーケンス
42 画像
50 第2画像シーケンス
52 画像
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース

Claims (23)

  1.  第1画像シーケンスに対して所定の時系列操作を加えることで1つ以上の第2画像シーケンスを生成する生成部と、
     前記第1画像シーケンス及び前記第2画像シーケンスのうちのいずれか2つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出部と、
     前記抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合部と、を有する人物認証装置。
  2.  前記生成部は、前記第1画像シーケンスに含まれる画像を時系列で逆順に並べることにより、前記第2画像シーケンスを生成する、請求項1に記載の人物認証装置。
  3.  前記生成部は、前記第1画像シーケンスの一部の期間から複数の画像を抽出し、抽出した複数の画像で構成される前記第2画像シーケンスを生成する、請求項1に記載の人物認証装置。
  4.  前記生成部は、前記第1画像シーケンスに含まれる第1期間から第1の前記第2画像シーケンスを生成し、前記第1画像シーケンスに含まれる第2期間から第2の前記第2画像シーケンスを生成し、
     前記第1期間と前記第2期間は互いに一部が重複する、請求項3に記載の人物認証装置。
  5.  前記生成部は、前記第1画像シーケンスを構成する各画像から人物を検出し、検出した人物のシルエット画像を生成し、前記生成したシルエット画像を用いて前記第2画像シーケンスを生成する、請求項1~4のいずれか1項に記載の人物認証装置。
  6.  前記抽出部は、画像シーケンスから抽出される前記歩容特徴として、画像シーケンスから検出される人物についての時空間画像特徴を抽出する、請求項1~5のいずれか1項に記載の人物認証装置。
  7.  前記抽出部は、画像シーケンスを畳み込みニューラルネットワークに入力することで、前記歩容特徴を抽出する、請求項1~5のいずれか1項に記載の人物認証装置。
  8.  前記畳み込みニューラルネットワークは、入力層、中間層、及び出力層を有し、
     前記抽出部は、前記中間層を構成するいずれかの層からの出力を前記歩容特徴として抽出する、請求項7に記載の人物認証装置。
  9.  前記照合部は、
     前記記憶部に記憶されている複数の照合特徴それぞれについて、各画像シーケンスから抽出された歩容特徴との類似度を表す照合スコアを算出し、
      前記照合特徴ごとに、算出された複数の照合スコアの統計値である統計スコアを算出し、
      前記照合特徴ごとの統計スコアを用いて、前記第1画像シーケンスに含まれる人物の認証を行う、請求項1~8のいずれか1項に記載の人物認証装置。
  10.  前記照合部は、いずれかの前記統計スコアが所定のしきい値以上である場合に、前記第1画像シーケンスが登録済みの人物であると特定する、請求項9に記載の人物認証装置。
  11.  前記記憶部は、人物の識別子とその人物の照合特徴とを対応づけて記憶しており、
     前記照合部は、
      複数の照合特徴の中から、前記統計スコアが最大であり、なおかつその統計スコアが所定のしきい値以上である照合特徴を特定し、
      前記記憶部において前記特定された照合特徴と対応づけられている識別子を持つ人物を、前記第1画像シーケンスに含まれる人物として特定する、請求項9に記載の人物認証装置。
  12.  コンピュータによって実行される制御方法であって、
     第1画像シーケンスに対して所定の時系列操作を加えることで1つ以上の第2画像シーケンスを生成する生成ステップと、
     前記第1画像シーケンス及び前記第2画像シーケンスのうちのいずれか2つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出ステップと、
     前記抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合ステップと、を有する制御方法。
  13.  前記生成ステップにおいて、前記第1画像シーケンスに含まれる画像を時系列で逆順に並べることにより、前記第2画像シーケンスを生成する、請求項12に記載の制御方法。
  14.  前記生成ステップにおいて、前記第1画像シーケンスの一部の期間から複数の画像を抽出し、抽出した複数の画像で構成される前記第2画像シーケンスを生成する、請求項12に記載の制御方法。
  15.  前記生成ステップにおいて、前記第1画像シーケンスに含まれる第1期間から第1の前記第2画像シーケンスを生成し、前記第1画像シーケンスに含まれる第2期間から第2の前記第2画像シーケンスを生成し、
     前記第1期間と前記第2期間は互いに一部が重複する、請求項14に記載の制御方法。
  16.  前記生成ステップにおいて、前記第1画像シーケンスを構成する各画像から人物を検出し、検出した人物のシルエット画像を生成し、前記生成したシルエット画像を用いて前記第2画像シーケンスを生成する、請求項12~15のいずれか1項に記載の制御方法。
  17.  前記抽出ステップにおいて、画像シーケンスから抽出される前記歩容特徴として、画像シーケンスから検出される人物についての時空間画像特徴を抽出する、請求項12~16のいずれか1項に記載の制御方法。
  18.  前記抽出ステップにおいて、画像シーケンスを畳み込みニューラルネットワークに入力することで、前記歩容特徴を抽出する、請求項12~16のいずれか1項に記載の制御方法。
  19.  前記畳み込みニューラルネットワークは、入力層、中間層、及び出力層を有し、
     前記抽出ステップにおいて、前記中間層を構成するいずれかの層からの出力を前記歩容特徴として抽出する、請求項18に記載の制御方法。
  20.  前記照合ステップにおいて、
      前記記憶部に記憶されている複数の照合特徴それぞれについて、各画像シーケンスから抽出された歩容特徴との類似度を表す照合スコアを算出し、
      前記照合特徴ごとに、算出された複数の照合スコアの統計値である統計スコアを算出し、
      前記照合特徴ごとの統計スコアを用いて、前記第1画像シーケンスに含まれる人物の認証を行う、請求項12~19のいずれか1項に記載の制御方法。
  21.  前記照合ステップにおいて、いずれかの前記統計スコアが所定のしきい値以上である場合に、前記第1画像シーケンスが登録済みの人物であると特定する、請求項20に記載の制御方法。
  22.  前記記憶部は、人物の識別子とその人物の照合特徴とを対応づけて記憶しており、
     前記照合ステップにおいて、
      複数の照合特徴の中から、前記統計スコアが最大であり、なおかつその統計スコアが所定のしきい値以上である照合特徴を特定し、
      前記記憶部において前記特定された照合特徴と対応づけられている識別子を持つ人物を、前記第1画像シーケンスに含まれる人物として特定する、請求項20に記載の制御方法。
  23.  請求項12~22のいずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。
PCT/JP2019/048414 2018-12-28 2019-12-11 人物認証装置、制御方法、及びプログラム WO2020137536A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201980093096.1A CN113544735A (zh) 2018-12-28 2019-12-11 人认证设备、控制方法和程序
US17/417,939 US12020510B2 (en) 2018-12-28 2019-12-11 Person authentication apparatus, control method, and non-transitory storage medium
JP2020563040A JP7314959B2 (ja) 2018-12-28 2019-12-11 人物認証装置、制御方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018248213 2018-12-28
JP2018-248213 2018-12-28

Publications (1)

Publication Number Publication Date
WO2020137536A1 true WO2020137536A1 (ja) 2020-07-02

Family

ID=71127217

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/048414 WO2020137536A1 (ja) 2018-12-28 2019-12-11 人物認証装置、制御方法、及びプログラム

Country Status (4)

Country Link
US (1) US12020510B2 (ja)
JP (1) JP7314959B2 (ja)
CN (1) CN113544735A (ja)
WO (1) WO2020137536A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023535231A (ja) * 2020-08-20 2023-08-16 ラモット・アット・テル・アビブ・ユニバーシテイ・リミテッド 動的アイデンティティ認証

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11961333B2 (en) * 2020-09-03 2024-04-16 Board Of Trustees Of Michigan State University Disentangled representations for gait recognition
CN116311524A (zh) * 2023-03-22 2023-06-23 凯通科技股份有限公司 基于摄像机组的步态特征确定方法、装置和终端设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014125882A1 (ja) * 2013-02-15 2014-08-21 日本電気株式会社 情報処理システム、情報処理方法及びプログラム
WO2014196134A1 (ja) * 2013-06-06 2014-12-11 日本電気株式会社 解析処理システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100474339C (zh) 2004-08-03 2009-04-01 松下电器产业株式会社 人物判定装置
JP5478928B2 (ja) 2009-03-31 2014-04-23 綜合警備保障株式会社 人物同定装置、人物同定方法、及び人物同定プログラム
JP4849181B2 (ja) * 2010-04-12 2012-01-11 日本電気株式会社 認証用撮像装置、認証用撮像方法、および認証用撮像プログラム
JP5937823B2 (ja) * 2011-12-28 2016-06-22 グローリー株式会社 画像照合処理装置、画像照合処理方法及び画像照合処理プログラム
JP2013210845A (ja) 2012-03-30 2013-10-10 Secom Co Ltd 移動物体照合装置
JP2017205135A (ja) 2014-08-25 2017-11-24 ノーリツプレシジョン株式会社 個人識別装置、個人識別方法、及び、個人識別プログラム
US9460557B1 (en) * 2016-03-07 2016-10-04 Bao Tran Systems and methods for footwear fitting
JP6786098B2 (ja) 2016-08-10 2020-11-18 公立大学法人大阪 歩容解析装置
US11768504B2 (en) * 2020-06-10 2023-09-26 AI Incorporated Light weight and real time slam for robots

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014125882A1 (ja) * 2013-02-15 2014-08-21 日本電気株式会社 情報処理システム、情報処理方法及びプログラム
WO2014196134A1 (ja) * 2013-06-06 2014-12-11 日本電気株式会社 解析処理システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MORI, ATSUSHI ET AL.: "Gait Identification using period-based phase synchronization for low frame-rate videos", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2011, pages 1290 - 1299 *
MORIWAKI, KOUSUKE ET AL.: "Gait authentication considering human attributes", IPSJ SIG TECHNICAL REPORT. RESEARCH REPORT COMPUTER VISION AND IMAGE MEDIA (CVIM), 2018-CVIM-212, 11 May 2018 (2018-05-11), pages 22, XP055722893 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023535231A (ja) * 2020-08-20 2023-08-16 ラモット・アット・テル・アビブ・ユニバーシテイ・リミテッド 動的アイデンティティ認証

Also Published As

Publication number Publication date
CN113544735A (zh) 2021-10-22
US20220076005A1 (en) 2022-03-10
JP7314959B2 (ja) 2023-07-26
JPWO2020137536A1 (ja) 2021-10-28
US12020510B2 (en) 2024-06-25

Similar Documents

Publication Publication Date Title
EP2864930B1 (en) Self learning face recognition using depth based tracking for database generation and update
CN104933414B (zh) 一种基于wld-top的活体人脸检测方法
WO2020137536A1 (ja) 人物認証装置、制御方法、及びプログラム
Ahmad et al. Human action recognition using deep multilevel multimodal (${M}^{2} $) fusion of depth and inertial sensors
US10509957B2 (en) System and method for human pose estimation in unconstrained video
CN108009466B (zh) 行人检测方法和装置
JP2017191501A (ja) 情報処理装置、情報処理方法及びプログラム
Boutellaa et al. On the use of Kinect depth data for identity, gender and ethnicity classification from facial images
Barnich et al. Frontal-view gait recognition by intra-and inter-frame rectangle size distribution
Phankokkruad et al. An evaluation of technical study and performance for real-time face detection using web real-time communication
Yuan et al. Ear detection based on improved adaboost algorithm
JP6906273B2 (ja) 映像データから人の骨格位置の変位の軌跡を描写するプログラム、装置及び方法
Vadlapati et al. Facial recognition using the OpenCV Libraries of Python for the pictures of human faces wearing face masks during the COVID-19 pandemic
Iwashita et al. Gait recognition robust to speed transition using mutual subspace method
Sarin et al. Cnn-based multimodal touchless biometric recognition system using gait and speech
JP2013218605A (ja) 画像認識装置、画像認識方法及びプログラム
Sharif et al. Human gait recognition using deep learning: A comprehensive review
JP2010113562A (ja) 物体検知追跡装置,物体検知追跡方法および物体検知追跡プログラム
Puchała et al. Feature engineering techniques for skeleton-based two-person interaction classification in video
Reddy et al. Facial Recognition Enhancement Using Deep Learning Techniques
CN108694347B (zh) 图像处理方法和装置
CN115720664A (zh) 物体位置估计设备、物体位置估计方法和记录介质
Akhtar et al. Human-based Interaction Analysis via Automated Key point Detection and Neural Network Model
Silva Human action recognition based on spatiotemporal features from videos
Nguyen et al. Development of a Human Daily Action Recognition System for Smart-Building Applications

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19901786

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020563040

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19901786

Country of ref document: EP

Kind code of ref document: A1