WO2021157133A1 - 再同定装置、再同定プログラム、および再同定方法 - Google Patents

再同定装置、再同定プログラム、および再同定方法 Download PDF

Info

Publication number
WO2021157133A1
WO2021157133A1 PCT/JP2020/037961 JP2020037961W WO2021157133A1 WO 2021157133 A1 WO2021157133 A1 WO 2021157133A1 JP 2020037961 W JP2020037961 W JP 2020037961W WO 2021157133 A1 WO2021157133 A1 WO 2021157133A1
Authority
WO
WIPO (PCT)
Prior art keywords
captured image
identification
object region
captured
specific range
Prior art date
Application number
PCT/JP2020/037961
Other languages
English (en)
French (fr)
Inventor
辰也 佐々木
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Priority to EP20917699.9A priority Critical patent/EP4102452A4/en
Priority to JP2021575608A priority patent/JPWO2021157133A1/ja
Publication of WO2021157133A1 publication Critical patent/WO2021157133A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Definitions

  • the present invention relates to a re-identification device, a re-identification program, and a re-identification method.
  • the purchasing behavior of customers at stores has been analyzed. For example, by analyzing the relationship between the movement trajectory of a customer at a store and the product purchased by the customer, information such as what kind of product is purchased and what kind of flow line is obtained can be obtained. Such information is important marketing information because the sales of the products are promoted by being reflected in the assortment and layout of the products to be sold.
  • Patent Document 1 There is one described in Patent Document 1 as a conventional technique of a method of identifying an object from an image, which is related to a technique of detecting a moving locus of an object. That is, the uniqueness of each of the plurality of attributes of the subject of interest in the image is determined, and the detectability of each of the plurality of attributes of the candidate subject is determined based on the relative orientation of the candidate subject in the image. Then, in order to improve the detectability of at least one attribute, the camera setting for observing the candidate subject is determined based on the determined uniqueness, and the image of the candidate subject is imaged with the determined camera setting. Therefore, the reliability that the candidate subject is the subject of interest is determined.
  • re-identification In order to detect the movement trajectory of an object, multiple imaging devices that do not overlap the imaging range are installed, and re-identification (Re) that determines the identity of the object by object matching between images captured by the multiple imaging devices. -Identification) is being carried out.
  • Re re-identification
  • the number of classes (object classes) to be classified is indefinite, and images of each class cannot be obtained in advance. Therefore, the feature vectors are extracted from the images of the objects using the trained model by machine learning, and it is estimated that the images (objects) in which the distance between the feature vectors in the feature space is less than the threshold value are in the same class. There is.
  • the present invention has been made to solve the above-mentioned problems. That is, it is an object of the present invention to provide a re-identification device, a re-identification program, and a re-identification method capable of improving the accuracy of object re-identification.
  • An acquisition unit that acquires a captured image in which the shape of the object changes depending on the position of the object in the imaging region of the imaging device due to the distortion characteristics of the lens of the imaging device, and an object that includes the object in the acquired captured image.
  • An object detection unit that detects a region, and a trajectory estimation unit that estimates the movement locus of the object region in the captured image for each imaging device based on a time-series change in the position of the object region in the captured image. Whether or not the objects included in the object region detected in the captured images captured by the plurality of imaging devices that do not overlap the imaging regions are the same is optimized in the estimation accuracy of the object class.
  • a re-identification device including a re-identification unit that estimates the movement locus of the object region including each of the objects as the movement locus of the same object.
  • a plurality of the specific ranges are defined with respect to the one imaging device, and the re-identification unit is detected in the captured images captured by the plurality of imaging devices whose imaging regions do not overlap. Whether or not the objects included in the object region are the same is estimated using the model of the neural network learned when the specific range is defined based on the object region within the specific range.
  • the locus estimation unit determines the movement locus of the object region in the captured image for each imaging device, the similarity of the object included in the object region detected in each of the plurality of captured images in the time series, and the object in the captured image.
  • the combination of the object region detected in the designated range and the correct answer label of the class of the object included in the object region is used as teacher data to describe the neural network.
  • a learning unit that trains the model, an evaluation unit that calculates the estimation accuracy of the class of the object by the learned model of the neural network, and the designated range when the estimation accuracy is maximized are determined as the specific range.
  • the reidentification apparatus according to any one of (1) to (3) above, further comprising a specific range defining portion for defining the specific range.
  • the procedure (b) for detecting the including object region and the procedure (b) for estimating the movement locus of the object region in the captured image for each imaging device based on the time-series change of the position of the object region in the captured image ( Optimized in the estimation accuracy of the class of the object whether or not c) and the object included in the object region detected in the captured image captured by the plurality of imaging devices that do not overlap the imaging region are the same.
  • a re-identification program for causing a computer to perform a procedure (d) of estimating the movement locus of the object region including the objects presumed to be the same as the movement locus of the same object.
  • the object is captured.
  • a re-identification method comprising a step (d) of estimating the movement locus of the object region including the objects presumed to be the same as the movement locus of the same object.
  • the movement locus of the object area detected in the captured image is estimated based on the time-series change of the object area.
  • Imaging defined so that the estimation accuracy of the object class optimizes whether or not the objects contained in the object regions detected in the captured images taken by a plurality of imaging devices having no overlapping visual fields are the same.
  • FIG. 1 is a diagram showing a schematic configuration of the re-identification system 10.
  • FIG. 2 is a diagram showing a block diagram of the re-identification system 10.
  • the re-identification system 10 includes a re-identification device 100, a communication network 200, and a plurality of cameras 300.
  • the re-identification device 100 and the plurality of cameras 300 are communicably connected to each other via the communication network 200.
  • the number of plurality of cameras 300 is not limited.
  • the plurality of cameras will be described as being composed of two cameras, a first camera 310 and a second camera 320.
  • the first camera 310 and the second camera 320 (hereinafter, referred to as “camera 300” unless they are distinguished) capture the first shooting area 311 and the second shooting area 321 which are the respective shooting areas, respectively. By doing so, the object existing in the shooting area is photographed.
  • the object will be described as assuming that the customer is 500 in the store.
  • the camera 300 captures a wide range of a store or the like from a position where the customer 500 can be overlooked, and outputs a captured image 330 (see FIG. 4) which is image data.
  • the first camera 310 and the second camera are arranged, for example, on the ceiling or the upper part of the wall of the store so that the photographing areas do not overlap each other.
  • the first camera 310 and the second camera will be described as being the same type of camera and arranged on the ceiling of the store.
  • the captured image 510 includes a moving image.
  • the camera 300 can be a wide-angle camera.
  • the wide-angle camera is a camera capable of capturing a captured image 510 with a relatively wide angle of view, and captures a captured image 330 in which the shape (including size) of the object changes depending on the position of the object in the photographing area due to the distortion characteristics of the lens. do. That is, the wide-angle camera is a camera in which the magnitude of distortion changes according to the position on the captured image 330.
  • Wide-angle cameras include fisheye lens cameras.
  • the camera 300 may be a general camera other than the wide-angle camera. Hereinafter, for the sake of simplicity, the camera 300 will be described as a wide-angle camera.
  • the camera 300 is a near-infrared camera, a visible light camera may be used instead, or these may be used in combination.
  • the first camera 310 and the second camera 320 exist in the first shooting area 311 and the second shooting area 321 by shooting the first shooting area 311 and the second shooting area 321 respectively.
  • Customer 500 is photographed by the first camera 310 and the second camera 320, respectively.
  • Re-identification is the process of determining the identity of an object by collating objects between images taken by multiple imaging devices that do not overlap the imaging areas, and associating objects with the same identity with each other. Specifically, as shown in FIG. 1, when the customer 500 walks in the direction of the arrow, the customer 510, the customer 520, and the customer 530 are the same person (same class). In order to detect the behavior of each customer 500 in the store, it is necessary to determine that the customer 500 in the captured image 331 of the first camera 310 and the customer 500 in the captured image 332 of the second camera 320 are the same. There is.
  • FIG. 3 is an explanatory diagram showing the positional relationship between the camera 300 and the customer 500.
  • FIG. 4 is a diagram showing a captured image 330. In FIG. 4, the image 330 captured by the wide-angle camera is shown. Note that FIG. 4 also shows a human rectangle 335, which will be described later.
  • the customer 500 at the position A directly under the camera 300 is photographed at the position a of the photographed image 330 in FIG. Since the customer 500 at the position A is close to the camera 300 in the captured image 330, the head and shoulders appear relatively large, and the arms and legs are hidden by the shoulders.
  • the customer 500 at position B looks small because it is far from the camera 300, but the whole body is shown.
  • the shape of the customer 500 in the captured image 330 changes relatively significantly even in the same posture (for example, standing position).
  • the re-identification device 100 includes a control unit 110, a communication unit 120, and a storage unit 130. These components are connected to each other via a bus.
  • the re-identification device 100 is composed of, for example, a computer terminal.
  • the control unit 110 constitutes a learning unit, an evaluation unit, and a specific area demarcation unit.
  • the control unit 110 is composed of a CPU (Central Processing Unit) and a memory such as a RAM (Random Access Memory) and a ROM (Read Only Memory), and controls and performs arithmetic processing of each part of the reidentification device 100 according to a program. The details of the function of the control unit 110 will be described later.
  • a CPU Central Processing Unit
  • a memory such as a RAM (Random Access Memory) and a ROM (Read Only Memory)
  • the communication unit 120 is an interface circuit (for example, a LAN card or the like) for communicating with a plurality of cameras 300 or the like via the communication network 200.
  • an interface circuit for example, a LAN card or the like
  • the storage unit 130 is composed of an HDD (Hard Disk Drive), an SSD (Solid State Drive), etc., and stores various programs and various data.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • control unit 110 The function of the control unit 110 will be described.
  • FIG. 5 is a diagram showing a functional block diagram of the control unit 110 during learning.
  • the control unit 110 functions as an acquisition unit 111, a person detection unit 112, an estimation unit 113, a loss calculation unit 114, and a range designation unit 115 during learning.
  • the human detection unit 112 constitutes an object detection unit.
  • the acquisition unit 111 acquires the captured image 331 captured by the first camera 310 and the captured image 332 captured by the second camera 320 from the storage unit 130.
  • the acquisition unit 111 acquires the captured image 331 captured by the first camera 310 and the captured image 332 captured by the second camera 320 by directly receiving them from the first camera 310 and the second camera 320, respectively. May be good.
  • the person detection unit 112 detects the area where the object (object) exists in the captured image 330 as a candidate rectangle, and calculates the reliability score for each category of the object included in the detected candidate rectangle.
  • the person detection unit 112 detects the candidate region having the highest reliability score in the person category as the person rectangle 335 (see FIG. 4).
  • the human rectangle 335 can be detected by a known method such as Faster R-CNN, Fast R-CNN, and R-CNN using a neural network (hereinafter referred to as "NN").
  • the person detection unit 112 can detect the person rectangle 335 from the photographed image 330 by the NN model in which the dictionary (parameter) for detecting the person rectangle 335 from the photographed image 330 is reflected.
  • the person detection unit 112 can output the person rectangle 335 as a combination of the photographed image 330 and the coordinates of the two opposing vertices of the person rectangle 335.
  • the estimation unit 113 is an NN model for estimating the class of the customer included in the human rectangle 335 detected in the range (hereinafter, referred to as “designated range”) in the captured image 330 designated by the range designation unit 115. including.
  • a class is identification information that identifies a person (customer).
  • the estimation unit 113 learns the model of the NN by using the human rectangle 335 and the correct answer class label set as the correct answer of the customer's class included in the human rectangle 335 as the teacher data. Generate a model (hereinafter referred to as "trained model"). Specifically, the estimation unit 113 estimates the class of the customer 500 included in the human rectangle 335 detected in the designated range by the NN model.
  • the estimation unit 113 can estimate the class of the customer included in the human rectangle 335 by outputting the likelihood for each class. Then, the estimation unit 113 backpropagates so that the class loss calculated by the loss calculation unit 114 based on the estimation result of the customer 500 class included in the human rectangle 335 by the NN model and the correct answer class label is reduced.
  • a trained model is generated by training the NN model by gating.
  • the loss calculation unit 114 calculates the class loss based on the estimation result of the customer 500 class included in the human rectangle 335 estimated by the estimation unit 113 and the correct answer class label. Specifically, the loss calculation unit 114 can calculate the class loss by subtracting the likelihood estimated by the estimation unit 113 of the class of the correct answer class label from 1.
  • the range designation unit 115 designates the range in which the human rectangle 335 used for re-identification is detected among the human rectangles 335 detected from the entire range of the captured image 330 by the person detection unit 112 as the designated range.
  • FIG. 6 is a diagram showing an example of a designated range.
  • the designated range A, the designated range B, and the designated range C are shown in gray, respectively.
  • the designated range A, the designated range B, and the designated range C can be designated as the range excluding the range of the radius distance r from the center, with the radius distance r from the center in the captured image 330 as a variable.
  • the range designation unit 115 sequentially designates a plurality of designated ranges. As a result, the estimation unit 113 generates a trained model for each designated range.
  • FIG. 7 is a diagram showing a functional block diagram at the time of evaluation of the control unit 110.
  • the control unit 110 functions as an acquisition unit 111, a person detection unit 112, an estimation unit 113, a range designation unit 115, an evaluation unit 116, and a specific range determination unit 117.
  • the range designation unit 115 sequentially designates the designated range.
  • the estimation unit 113 estimates the class of the customer included in the human rectangle 335 detected in the designated range by the trained model generated for each designated range. Specifically, the estimation unit 113 can estimate the class of the customer included in the human rectangle 335 by outputting the likelihood for each class.
  • the evaluation unit 116 calculates the estimation accuracy of the class for each specified range based on the estimation result of the customer 500 class included in the person rectangle 335 estimated by the estimation unit 113 and the correct answer class label. As a result, the estimation accuracy of the class is evaluated for each specified range.
  • the estimation accuracy of the class can be the reciprocal of the value obtained by subtracting the likelihood estimated by the estimation unit 113 of the class of the correct class label from 1.
  • the estimation accuracy of the class for each specified range can be the average of the estimation accuracy of the class calculated for each person rectangle 335 using a relatively large number of person rectangles 335 for each specified range.
  • the specific range determination unit 117 determines (defines) the designated range when the estimation accuracy of the class is the highest as the specific range.
  • the specific range is associated with a learned model (hereinafter, also referred to as a “specific model”) learned based on the human rectangle 335 within the specific range when the specific range is determined, and is associated with the storage unit 130. Is remembered in.
  • the specific range may be determined by an optimization calculation by Bayesian optimization in which the above-mentioned radius distance r is a variable and the estimation accuracy of the class by the evaluation unit 116 is a loss function.
  • FIG. 8 is a diagram showing a functional block diagram at the time of re-identification (inference) of the control unit 110.
  • the control unit 110 functions as an acquisition unit 111, a person detection unit 112, an estimation unit 113, a range designation unit 115, a trajectory estimation unit 118, and a re-identification unit 119.
  • the range designation unit 115 specifies a specific range.
  • the estimation unit 113 estimates the class of the customer included in the person rectangle 335 (hereinafter, also referred to as “specific person rectangle”) detected in the specific range by the specific model. Specifically, the estimation unit 113 can estimate the class of the customer included in the specific person rectangle by outputting the likelihood for each class.
  • the locus estimation unit 118 estimates the movement locus of the human rectangle 335 (hereinafter, also simply referred to as “movement locus”) in the captured image 330 for each camera 300.
  • the movement locus is included in the time-series change of the position of the human rectangle 335 detected from the entire range of the captured image 330 by the human detection unit 112 and the human rectangle 335 detected in each of the plurality of captured images 330 in the time series. Estimated for each camera 300 based on customer similarity.
  • the movement locus may be estimated for each camera 300 based only on the time-series change of the position of the human rectangle 335 detected from the entire range of the captured image 330 by the person detection unit 112.
  • the movement locus can be estimated by DeepSORT, which is a known tracking algorithm included in MTSCT (Multi Target Single Camera Tracking), which is a genre of tracking.
  • the movement locus may be estimated by a known tracking algorithm other than DeepSORT.
  • the MTSCT repeats the process of estimating where the object detected in the time-series frame of the image captured by a single camera is in the next time-series frame.
  • the MTSCT estimates where the object to be tracked has moved from the time-series frame T in the time-series frame T + 1, in addition to (1) comparing the similarity between the candidate objects by the feature vector and (2) the Kalman filter.
  • the moving position of the object is estimated using the above.
  • FIG. 9 is a diagram showing a movement locus estimated for each camera 300.
  • the movement loci estimated in the first captured image 331 by the first camera 310 are shown as loci (1) to (3).
  • the movement loci estimated in the second captured image 332 by the second camera 320 are shown as loci (a) to (c).
  • the specific range is shown in gray in FIG.
  • the loci (1) to (3) are reidentified by being associated with any of the loci (a) to (c), respectively.
  • the re-identification unit 119 determines whether or not the customers 500 included in the specific person rectangles detected within the specific range in the first photographed image 331 and the second photographed image 332 are the same, respectively, by the estimation unit 113 (specific model). Estimate based on whether the estimated customer classes are the same.
  • the re-identification unit 119 associates the movement loci of the person rectangle 335 including the customers estimated to be the same by estimating the movement loci of the same customers. This will perform re-identification.
  • the locus (1) and the locus (a), the locus (2) and the locus (c), and the locus (3) and the locus (b) are the same customer movement loci, respectively. Therefore, in the re-identification, the locus (1) and the locus (a), the locus (2) and the locus (c), and the locus (3) and the locus (b) are associated with each other as the same customer movement locus.
  • FIG. 10 is a flowchart showing the operation of the re-identification device 100 during learning. This flowchart is executed by the control unit 110 according to the program.
  • the designated range will be described as being three, a designated range A, a designated range B, and a designated range C.
  • the control unit 110 acquires captured images 330 of a plurality of cameras 300 (S101). Specifically, the control unit 110 acquires the first captured image 331 and the second captured image 332.
  • the control unit 110 detects the human rectangle 335 in the first captured image 331 and the second captured image 332, respectively (S102).
  • the control unit 110 determines the designated range (S103). Specifically, the control unit 110 determines whether the designated range is the designated range A, the designated range B, or the designated range C.
  • control unit 110 determines that the target range is the designated range A
  • the control unit 110 When the control unit 110 determines that the target range is the designated range A, the control unit 110 generates the trained model A by learning based on the person rectangle 335 in the designated range A and the correct answer class label set in the person rectangle 335. (S104).
  • the control unit 110 determines that the target range is the designated range B
  • the control unit 110 When the control unit 110 determines the trained model B, the control unit 110 generates the trained model B by learning based on the person rectangle 335 in the designated range B and the correct answer class label set in the person rectangle 335.
  • S105 When the control unit 110 determines that the target range is the designated range C, the control unit 110 generates the trained model C by learning based on the human rectangle 335 in the designated range C and the correct answer class label set in the human rectangle 335. (S105).
  • FIG. 11 is a flowchart showing the operation of the re-identification device 100 at the time of evaluation. This flowchart is executed by the control unit 110 according to the program.
  • the control unit 110 acquires the captured image 330 of the camera 300 (S201).
  • the captured images acquired in step S201 may be the first captured image 331 and the second captured image 332, but may be captured images 330 other than these.
  • the captured images acquired in step S201 will be described as being the first captured image 331 and the second captured image 332.
  • the control unit 110 detects the human rectangle 335 in the first captured image 331 and the second captured image 332, respectively (S202).
  • the control unit 110 determines the designated range (S203). Specifically, the control unit 110 determines whether the designated range is the designated range A, the designated range B, or the designated range C.
  • the control unit 110 calculates the estimation accuracy of the class using the trained model A for the human rectangle 335 in the designated range A (S204).
  • the control unit 110 calculates the estimation accuracy of the class using the trained model B for the human rectangle 335 in the designated range B (S205).
  • the control unit 110 calculates the estimation accuracy of the class using the trained model C for the human rectangle 335 in the designated range C (S206).
  • the control unit 110 determines the designated range in which the estimation accuracy of the class is maximized as the specific range, and stores it in the storage unit 130 in association with the specific model (S207).
  • FIG. 12 is a flowchart showing the operation of the re-identification device 100 at the time of re-identification. This flowchart is executed by the control unit 110 according to the program.
  • the control unit 110 acquires captured images 330 of a plurality of cameras 300 (S301). Specifically, the control unit 110 acquires the first captured image 331 and the second captured image 332.
  • the control unit 110 detects the human rectangle 335 in the first captured image 331 and the second captured image 332, respectively (S302).
  • the control unit 110 estimates the movement locus of the human rectangle 335 (S303). Further, the control unit 110 estimates whether or not the customers included in the specific person rectangle detected from the first captured image 331 and the second captured image 332 are the same (S304). Step S303 and step S304 can be executed in parallel. Step S303 and step S304 may be executed back and forth in time.
  • the control unit 110 executes re-identification by associating the movement loci of the person rectangles 335 including the customers presumed to be the same in step S304 (S305).
  • FIG. 13 is an explanatory diagram for explaining a modified example of the embodiment.
  • a plurality of specific ranges are defined for one captured image 330.
  • the first specific range and the second specific range are defined.
  • Different specific models are generated by learning and associated with the first specific range and the second specific range. As a result, the accuracy of re-identification can be improved even when the mode of change in the shape of the customer in the captured image 330 is relatively significantly different between the first specific range and the second specific range.
  • the embodiment has the following effects.
  • the movement locus of the object area detected in the captured image is estimated based on the time-series change of the object area.
  • a plurality of specific ranges are defined for one imaging device, and the similarity between objects included in the object regions detected in the captured images captured by the plurality of imaging devices that do not overlap the imaging areas is determined in the specific range.
  • the movement locus of the object area including each object estimated to be the same based on the estimation result estimated using the NN model learned when the specific range was defined. Is estimated to be the movement trajectory of the same object. As a result, the accuracy of object re-identification can be further improved.
  • the movement locus of the object region in the captured image for each imaging device is determined by the similarity of the objects included in the object region detected in each of the plurality of captured images in the time series and the time series of the position of the object region in the captured image. Estimate based on changes. Thereby, the estimation accuracy of the movement locus can be improved.
  • the identification is performed by determining the unit, the evaluation unit that calculates the estimation accuracy of the class of the object by the learned model of the neural network, and the target area when the estimation accuracy is maximum as the specific range.
  • a specific range demarcation section for demarcating the range is provided.
  • the re-identification apparatus, the re-identification program, and the re-identification method described above have described the main configurations in explaining the features of the above-described embodiments, and are not limited to the above-mentioned configurations and are within the scope of claims. , Can be modified in various ways. In addition, it does not exclude the configuration of a general re-identification system.
  • the customer is re-identified, but it can also be applied to the re-identification of a person, an animal, or the like other than the customer.
  • the specific range in which the estimation accuracy of the class is highest is the range that does not include the center of the captured image.
  • the range including the center of the captured image may be a specific range.
  • the means and methods for performing various processes in the above-mentioned image processing system can be realized by either a dedicated hardware circuit or a programmed computer.
  • the program may be provided by a computer-readable recording medium such as a USB memory or a DVD (Digital definitely Disc) -ROM, or may be provided online via a network such as the Internet.
  • the program recorded on the computer-readable recording medium is usually transferred and stored in a storage unit such as a hard disk.
  • the above program may be provided as a single application software, or may be incorporated into the software of a device such as a detection unit as one function.

Abstract

【課題】物体の再同定の精度を向上できる、再同定装置を提供する。 【解決手段】撮影装置の歪特性により撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する取得部と、撮影画像から物体を含む物体領域を検出する物体検出部と、撮影装置ごとの撮影画像における物体領域の移動軌跡を、物体領域の位置の時系列の変化に基づいて推定する軌跡推定部と、複数の撮影装置でそれぞれ撮影された撮影画像においてそれぞれ検出された物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、撮影画像における特定範囲内の物体領域と、当該特定範囲が画定された際に学習されたモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる物体領域の移動軌跡を同一の物体の移動軌跡と推定する再同定部と、を有する。

Description

再同定装置、再同定プログラム、および再同定方法
 本発明は、再同定装置、再同定プログラム、および再同定方法に関する。
 従来、マーケティングの目的で、店舗での顧客の購買行動の分析が行われている。例えば、店舗での顧客の移動軌跡と、当該顧客が購入した商品の関係等を分析することで、どのような商品がどのような動線で購入されているか等の情報が得られる。このような情報は、販売する商品の品揃えやレイアウトに反映されることにより商品の販売が促進されるため、重要なマーケティング情報となる。
 物体の移動軌跡を検出する技術に関連し、画像から物体を識別する方法の従来技術として、特許文献1に記載されたものがある。すなわち、画像中の着目被写体の複数の属性の各々の独自性を判定し、画像中の候補被写体の相対的向きに基づいて候補被写体の複数の属性の各々の検出可能性を判定する。そして、少なくとも1つの属性の検出可能性を向上させるように、判定された独自性に基づいて候補被写体を観察するためのカメラ設定を決定し、決定されたカメラ設定で候補被写体の画像を撮像して、候補被写体が着目被写体であることの信頼度を判定する。
特開2016-72964号公報
 物体の移動軌跡を検出するために、撮影範囲の重複のない複数の撮影装置を設置し、複数の撮影装置で撮影された画像間での物体照合により物体の同一性を判断する再同定(Re-Identification)が行われている。再同定においては、一般的なクラス分類問題と異なり、分類対象であるクラス(物体クラス)の数が不定であり、各クラスの画像が事前に得られない。このため、機械学習による学習済みモデルを用いて物体の画像から特徴ベクトルを抽出し、特徴空間における特徴ベクトル間の距離が閾値以下である画像(物体)同士は同一のクラスであると推定している。
 しかし、撮影装置を店舗の天井等に複数設置し、店舗内を俯瞰する画像を複数撮影して、再同定により顧客の移動軌跡を検出する場合、撮影装置のレンズの歪特性に起因して、画像における顧客の位置によって顧客の形状が変化する。当該形状の変化は、撮影装置のレンズが広角レンズ等の場合に、より顕著になる。そして、当該形状の変化により再同定の精度が低下するという問題がある。上記先行技術は、このような問題に対応できない。
 本発明は、上述の問題を解決するためになされたものである。すなわち、物体の再同定の精度を向上できる、再同定装置、再同定プログラム、および再同定方法を提供することを目的とする。
 本発明の上記課題は、以下の手段によって解決される。
 (1)撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する取得部と、取得された前記撮影画像において、物体を含む物体領域を検出する物体検出部と、前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する軌跡推定部と、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する再同定部と、を有する再同定装置。
 (2)前記特定範囲は、1つの前記撮影装置に対し複数画定され、前記再同定部は、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、前記特定範囲の範囲内の前記物体領域に基づいて、前記特定範囲が画定された際にそれぞれ学習されたニューラルネットワークの前記モデルを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する、上記(1)に記載の再同定装置。
 (3)前記軌跡推定部は、撮影装置ごとの撮影画像における物体領域の移動軌跡を、時系列の複数の撮影画像においてそれぞれ検出された物体領域に含まれる物体の類似度と、撮影画像における物体領域の位置の時系列の変化に基づいて推定する、上記(1)または(2)に記載の再同定装置。
 (4)前記撮影画像において設定された指定範囲ごとに、前記指定範囲において検出された前記物体領域と、前記物体領域に含まれる物体のクラスの正解ラベルとの組み合わせを教師データとしてニューラルネットワークの前記モデルを学習させる学習部と、学習された、ニューラルネットワークの前記モデルによる、物体のクラスの推定精度を算出する評価部と、推定精度が最大となるときの前記指定範囲を前記特定範囲として決定することで、前記特定範囲を画定する特定範囲画定部と、をさらに有する上記(1)~(3)のいずれかに記載の再同定装置。
 (5)撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する手順(a)と、取得された前記撮影画像において、物体を含む物体領域を検出する手順(b)と、前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する手順(c)と、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する手順(d)と、をコンピューターに実行させるための再同定プログラム。
 (6)撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する段階(a)と、取得された前記撮影画像において、物体を含む物体領域を検出する段階(b)と、前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する段階(c)と、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する段階(d)と、を有する再同定方法。
 撮影画像において検出した物体領域の移動軌跡を、当該物体領域の時系列の変化に基づいて推定する。視野重複のない複数の撮影装置でそれぞれ撮影された撮影画像においてそれぞれ検出された物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、撮影画像における特定範囲の範囲内の物体領域と、特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定する。そして、推定結果に基づいて同一と推定した物体がそれぞれ含まれる物体領域の移動軌跡を同一の物体の移動軌跡と推定する。これにより、物体の再同定の精度を向上できる。
再同定システムの概略構成を示す図である。 再同定システムのブロック図を示す図である。 カメラと顧客との位置関係を示す説明図である。 撮影画像を示す図である。 制御部の学習時における機能ブロック図を示す図である。 指定範囲の例を示す図である。 制御部の評価時における機能ブロック図を示す図である。 制御部の再同定時(推論時)における機能ブロック図を示す図である。 カメラごとに推定された移動軌跡を示す図である。 再同定装置の学習時の動作を示すフローチャートである。 再同定装置の評価時の動作を示すフローチャートである。 再同定装置の再同定時の動作を示すフローチャートである。 実施形態の変形例を説明するための説明図である。
 以下、図面を参照して、本発明の実施形態に係る再同定装置、再同定プログラム、および再同定方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 図1は、再同定システム10の概略構成を示す図である。図2は、再同定システム10のブロック図を示す図である。
 再同定システム10は、再同定装置100、通信ネットワーク200、および複数のカメラ300を含む。再同定装置100および複数のカメラ300は、通信ネットワーク200を介して互いに通信可能に接続される。複数のカメラ300の数は制限されない。以下、説明を簡単にするために複数のカメラは、第1カメラ310および第2カメラ320の2つのカメラで構成されるものとして説明する。
 (カメラ300)
 第1カメラ310および第2カメラ320(以下、これらを区別する場合を除き、「カメラ300」と称する)は、それぞれの撮影領域である、第1撮影領域311および第2撮影領域321をそれぞれ撮影することで撮影領域に存在する物体を撮影する。以下、例として、物体は店舗内の顧客500であるものとして説明する。カメラ300は、店舗等のできるだけ広い範囲を、顧客500を俯瞰可能な位置から撮影し、画像データである撮影画像330(図4参照)を出力する。第1カメラ310および第2カメラは、例えば、店舗の天井または壁の上部等に、互いの撮影領域が重複しないように配置される。以下、説明を簡単にするために、第1カメラ310および第2カメラは同一種類のカメラで、店舗の天井に配置されるものとして説明する。
 撮影画像510には動画が含まれる。カメラ300は広角カメラであり得る。広角カメラは、比較的広い画角の撮影画像510を撮影できるカメラであり、レンズの歪特性により、撮影領域における物体の位置によって物体の形状(大きさを含む)が変化した撮影画像330を撮影する。すなわち、広角カメラは、撮影画像330上の位置に対応して歪みの大きさが変化するカメラである。広角カメラには魚眼レンズカメラが含まれる。カメラ300は、広角カメラ以外の一般的なカメラであってもよい。以下、説明を簡単にするために、カメラ300は広角カメラであるものとして説明する。カメラ300は近赤外線カメラであるが、これに換えて可視光カメラを用いてもよく、これらを併用してもよい。
 図1に示すように、第1カメラ310および第2カメラ320はそれぞれ、第1撮影領域311および第2撮影領域321を撮影することで、第1撮影領域311および第2撮影領域321に存在する顧客500が、それぞれ第1カメラ310および第2カメラ320により撮影される。
 撮影領域が重複しない複数の撮影装置で撮影された画像間での物体照合により物体が同一性を判断して、同一性をもつ物体同士を対応づけることを再同定と言う。具体的には、図1に示すように、顧客500が矢印の向きに歩いていった場合、顧客510、顧客520、および顧客530は、同じ人(同じクラス)である。店舗内での顧客500ごとの行動を検出するためには、第1カメラ310の撮影画像331における顧客500と、第2カメラ320の撮影画像332における顧客500と、が同一であると判断する必要がある。第1カメラ310の撮影画像331における顧客500と、第2カメラ320の撮影画像332における顧客500と、が同一であると判断した場合に、両者を対応づけることを再同定(以下、単に「再同定」と称する)と称する。
 図3は、カメラ300と顧客500との位置関係を示す説明図である。図4は、撮影画像330を示す図である。図4においては、広角カメラによる撮影画像330が示されている。なお、図4には、後述する人矩形335が併せて示されている。
 図3において、カメラ300の直下であるAの位置にいる顧客500は、図4の撮影画像330の位置aおいて撮影されている。Aの位置にいる顧客500は、撮影画像330において、カメラ300に近いため、頭部と肩部が比較的大きく映り、腕や足は肩に隠れる。Bの位置にいる顧客500は、カメラ300から遠いため小さく映るが、全身が映る。このように、撮影画像330における顧客500の位置により、同じ姿勢(例えば、立位)であっても、撮影画像330における顧客500の形状は比較的大きく変化する。
 (再同定装置100)
 再同定装置100は、制御部110、通信部120、および記憶部130を含む。これらの構成要素は、バスを介して互いに接続される。再同定装置100は、例えばコンピューター端末により構成される。制御部110は、学習部、評価部、および特定領域画定部を構成する。
 制御部110は、CPU(Central Processing Unit)、およびRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリにより構成され、プログラムに従って再同定装置100の各部の制御および演算処理を行う。制御部110の機能の詳細については後述する。
 通信部120は、通信ネットワーク200を介して、複数のカメラ300等と通信するためのインターフェース回路(例えばLANカード等)である。
 記憶部130は、記憶部130は、HDD(Hard Disc Drive)、SSD(Solid State Drive)等により構成され、各種プログラムおよび各種データを記憶する。
 制御部110の機能について説明する。
 図5は、制御部110の学習時における機能ブロック図を示す図である。制御部110は、学習時において、取得部111、人検出部112、推定部113、ロス算出部114、および範囲指定部115として機能する。人検出部112は物体検出部を構成する。
 取得部111は、第1カメラ310により撮影された撮影画像331と、第2カメラ320により撮影された撮影画像332とを記憶部130から取得する。取得部111は、第1カメラ310により撮影された撮影画像331と、第2カメラ320により撮影された撮影画像332を、第1カメラ310および第2カメラ320からそれぞれ直接受信することで取得してもよい。
 人検出部112は、撮影画像330において物体(オブジェクト)が存在する領域を候補矩形として検出し、検出した候補矩形に含まれる物体のカテゴリーごとの信頼度スコアを算出する。人検出部112は、人物のカテゴリーの信頼度スコアが最も高い候補領域を人矩形335(図4参照)として検出する。人矩形335は、例えば、ニューラルネットワーク(以下、「NN」と称する)を用いた、Faster R-CNN、Fast R-CNN、およびR-CNNといった公知の方法で検出できる。
 人検出部112は、撮影画像330から人矩形335を検出するための辞書(パラメーター)が反映されたNNのモデルにより、撮影画像330から人矩形335を検出し得る。
 人検出部112は、人矩形335を、撮影画像330と、当該人矩形335の対向する2つの頂点の座標との組み合わせとして出力し得る。
 推定部113は、範囲指定部115により指定された、撮影画像330における範囲(以下、「指定範囲」と称する)において検出された人矩形335に含まれる顧客のクラスを推定するためのNNのモデルを含む。クラスとは、人(顧客)を識別する識別情報である。推定部113は、人矩形335と、当該人矩形335に含まれる顧客のクラスの正解として設定された正解クラスラベルと、を教師データとして、NNのモデルを学習することで、学習後のNNのモデル(以下、「学習済みモデル」と称する)を生成する。具体的には、推定部113は、指定範囲において検出された人矩形335に含まれる顧客500のクラスを、NNのモデルにより推定する。推定部113は、クラスごとの尤度を出力することにより、人矩形335に含まれる顧客のクラスを推定し得る。そして、推定部113は、NNのモデルによる人矩形335に含まれる顧客500のクラスの推定結果と、正解クラスラベルとに基づいてロス算出部114により算出されたクラスロスが小さくなるように、バックプロパゲーションによりNNのモデルを学習することで学習済みモデルを生成する。
 ロス算出部114は、推定部113により推定された、人矩形335に含まれる顧客500のクラスの推定結果と、正解クラスラベルとに基づいてクラスロスを算出する。具体的には、ロス算出部114は、正解クラスラベルのクラスの、推定部113により推定された尤度を1から減算することでクラスロスを算出し得る。
 範囲指定部115は、人検出部112により撮影画像330の全範囲から検出された人矩形335のうち、再同定に用いる人矩形335が検出された範囲を指定範囲として指定する。
 図6は、指定範囲の例を示す図である。
 図6の例においては、指定範囲A、指定範囲B、および指定範囲Cがそれぞれグレーで示されている。指定範囲は、撮影画像330における中心からの半径距離rを変数として、当該中心から半径距離rの範囲を除く範囲として、指定範囲A、指定範囲B、および指定範囲Cを指定し得る。
 範囲指定部115は、複数の指定範囲を順次指定する。これにより、推定部113は、指定範囲ごとに学習済みモデルを生成する。
 図7は、制御部110の評価時における機能ブロック図を示す図である。制御部110は、評価時において、取得部111、人検出部112、推定部113、範囲指定部115、評価部116、および特定範囲決定部117として機能する。
 取得部111および人検出部112の機能は、図5において説明した機能と同様であるので説明を省略する。
 範囲指定部115は指定範囲を順次指定する。
 推定部113は、指定範囲ごとに生成された学習済みモデルにより、指定範囲において検出された人矩形335に含まれる顧客のクラスを推定する。具体的には、推定部113は、クラスごとの尤度を出力することにより、人矩形335に含まれる顧客のクラスを推定し得る。
 評価部116は、推定部113による推定された人矩形335に含まれる顧客500のクラスの推定結果と、正解クラスラベルとに基づいて、指定範囲ごとに、クラスの推定精度を算出する。これにより、指定範囲ごとに、クラスの推定精度が評価される。クラスの推定精度は、正解クラスラベルのクラスの、推定部113により推定された尤度を1から減算した値の逆数とし得る。なお、指定範囲ごとのクラスの推定精度は、具体的には、指定範囲ごとに比較的多くの人矩形335を用いて人矩形335ごとに算出された、クラスの推定精度の平均とし得る。
 特定範囲決定部117は、クラスの推定精度が最も高くなるときの指定範囲を特定範囲として決定(画定)する。特定範囲は、当該特定範囲が決定された際に、当該特定範囲内の人矩形335に基づいて学習された学習済みモデル(以下、「特定モデル」とも称する)と対応付けされて、記憶部130に記憶される。
 なお、特定範囲は、上述した半径距離rを変数、評価部116によるクラスの推定精度を損失関数としたベイズ最適化による最適化計算により決定されてもよい。
 図8は、制御部110の再同定時(推論時)における機能ブロック図を示す図である。制御部110は、再同定時において、取得部111、人検出部112、推定部113、範囲指定部115、軌跡推定部118、および再同定部119として機能する。
 取得部111および人検出部112の機能は、図5において説明した機能と同様であるので説明を省略する。
 範囲指定部115は特定範囲を指定する。
 推定部113は、特定モデルにより、特定範囲において検出された人矩形335(以下、「特定人矩形」とも称する)に含まれる顧客のクラスを推定する。具体的には、推定部113は、クラスごとの尤度を出力することにより、特定人矩形に含まれる顧客のクラスを推定し得る。
 軌跡推定部118は、カメラ300ごとの撮影画像330における人矩形335の移動軌跡(以下、単に「移動軌跡」とも称する)を推定する。移動軌跡は、人検出部112により撮影画像330の全範囲から検出された人矩形335の位置の時系列の変化と、時系列の複数の撮影画像330においてそれぞれ検出された人矩形335に含まれる顧客の類似度と、に基づいて、カメラ300ごとに推定される。移動軌跡は、人検出部112により撮影画像330の全範囲から検出された人矩形335の位置の時系列の変化のみに基づいて、カメラ300ごとに推定されてもよい。移動軌跡は、トラッキングのジャンルであるMTSCT(Multi Target Single Camera Tracking)に含まれる公知のトラッキングアルゴリズムであるDeepSORTにより推定され得る。移動軌跡は、DeepSORT以外の公知のトラッキングアルゴリズムにより推定されてもよい。MTSCTは、単一のカメラの撮影画像の時系列のフレームで検出された物体が、次の時系列フレームでどこにいるか推定することを繰り返す処理を行う。MTSCTは、追跡対象である物体が時系列フレームTから、時系列フレームT+1でどこに移動したか推定するにあたり、(1)特徴ベクトルによる候補となる物体間の類似度比較に加え、(2)カルマンフィルタ等を用いた物体の移動位置推定を行う。
 図9は、カメラ300ごとに推定された移動軌跡を示す図である。図9の例においては、第1カメラ310による第1撮影画像331において推定された移動軌跡が、軌跡(1)~(3)として示されている。また、第2カメラ320による第2撮影画像332において推定された移動軌跡が、軌跡(a)~(c)として示されている。特定範囲は、図9において、グレーで示されている。以下説明するように、軌跡(1)~(3)はそれぞれ、軌跡(a)~(c)のいずれかと対応付けされることで再同定がなされる。
 再同定部119は、第1撮影画像331および第2撮影画像332においてそれぞれ特定範囲内で検出された特定人矩形にそれぞれ含まれる顧客500が同一かどうかを、それぞれ推定部113(特定モデル)により推定された顧客のクラスが同一かどうかで推定する。再同定部119は、同一と推定した顧客がそれぞれ含まれる人矩形335の移動軌跡を、同一の顧客の移動軌跡と推定することで対応付ける。これにより、再同定が実行される。図9の例においては、軌跡(1)と軌跡(a)、軌跡(2)と軌跡(c)、軌跡(3)と軌跡(b)、がそれぞれ同一の顧客の移動軌跡である。そのため、再同定においては、軌跡(1)と軌跡(a)、軌跡(2)と軌跡(c)、軌跡(3)と軌跡(b)、がそれぞれ同一の顧客の移動軌跡として対応付けられる。
 再同定装置100の動作について説明する。
 図10は、再同定装置100の学習時の動作を示すフローチャートである。本フローチャートは、プログラムに従い、制御部110により実行される。なお、説明を簡単にするために、指定範囲は、指定範囲A、指定範囲B、および指定範囲Cの3つであるものとして説明する。
 制御部110は、複数のカメラ300の撮影画像330を取得する(S101)。具体的には、制御部110は、第1撮影画像331および第2撮影画像332を取得する。
 制御部110は、第1撮影画像331および第2撮影画像332において、それぞれ人矩形335を検出する(S102)。
 制御部110は、指定範囲を判断する(S103)。具体的には、制御部110は、指定範囲が指定範囲A、指定範囲B、および指定範囲Cのいずれであるか判断する。
 制御部110は、対象範囲が指定範囲Aであると判断した場合は、指定範囲A内の人矩形335と当該人矩形335に設定された正解クラスラベルに基づく学習により学習済みモデルAを生成する(S104)。制御部110は、対象範囲が指定範囲Bであると判断した場合は、指定範囲B内の人矩形335と当該人矩形335に設定された正解クラスラベルに基づく学習により学習済みモデルBを生成する(S105)。制御部110は、対象範囲が指定範囲Cであると判断した場合は、指定範囲C内の人矩形335と当該人矩形335に設定された正解クラスラベルに基づく学習により学習済みモデルCを生成する(S105)。
 図11は、再同定装置100の評価時の動作を示すフローチャートである。本フローチャートは、プログラムに従い、制御部110により実行される。
 制御部110は、カメラ300の撮影画像330を取得する(S201)。ステップS201で取得される撮影画像は、第1撮影画像331および第2撮影画像332であってもよいが、これら以外の撮影画像330であってもよい。以下、説明を簡単にするために、ステップS201で取得される撮影画像は、第1撮影画像331および第2撮影画像332であるものとして説明する。
 制御部110は、第1撮影画像331および第2撮影画像332において、それぞれ人矩形335を検出する(S202)。
 制御部110は、指定範囲を判断する(S203)。具体的には、制御部110は、指定範囲が指定範囲A、指定範囲B、および指定範囲Cのいずれであるか判断する。
 制御部110は、対象範囲が指定範囲Aであると判断した場合は、指定範囲A内の人矩形335に対し、学習済みモデルAを用いてクラスの推定精度を算出する(S204)。制御部110は、対象範囲が指定範囲Bであると判断した場合は、指定範囲B内の人矩形335に対し、学習済みモデルBを用いてクラスの推定精度を算出する(S205)。制御部110は、対象範囲が指定範囲Cであると判断した場合は、指定範囲C内の人矩形335に対し、学習済みモデルCを用いてクラスの推定精度を算出する(S206)。
 制御部110は、クラスの推定精度が最大となった指定範囲を特定範囲として決定し、特定モデルと対応付けて記憶部130に記憶させる(S207)。
 図12は、再同定装置100の再同定時の動作を示すフローチャートである。本フローチャートは、プログラムに従い、制御部110により実行される。
 制御部110は、複数のカメラ300の撮影画像330を取得する(S301)。具体的には、制御部110は、第1撮影画像331および第2撮影画像332を取得する。
 制御部110は、第1撮影画像331および第2撮影画像332において、それぞれ人矩形335を検出する(S302)。
 制御部110は、人矩形335の移動軌跡を推定する(S303)。さらに、制御部110は、第1撮影画像331および第2撮影画像332からそれぞれ検出された特定人矩形に含まれる顧客が同一かどうかを推定する(S304)。ステップS303とステップS304は並行して実行され得る。ステップS303とステップS304は時間的に前後して実行されてもよい。
 制御部110は、ステップS304において同一と推定された顧客を含む人矩形335の移動軌跡同士を関連付けることで再同定を実行する(S305)。
 (変形例)
 図13は、実施形態の変形例を説明するための説明図である。変形例においては、1つの撮影画像330に対し、複数の特定範囲を画定する。図12の例においては、第1特定範囲と第2特定範囲が画定されている。第1特定範囲および第2特定範囲に対し、それぞれ別の特定モデルが学習により生成され、対応付けられる。これにより、第1特定範囲と第2特定範囲において、撮影画像330における顧客の形状の変化の態様が比較的大きく異なる場合であっても、再同定の精度を向上できる。
 実施形態は、以下の効果を奏する。
 撮影画像において検出した物体領域の移動軌跡を、当該物体領域の時系列の変化に基づいて推定する。視野重複のない複数の撮影装置でそれぞれ撮影された撮影画像においてそれぞれ検出された物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、撮影画像における特定範囲の範囲内の物体領域と、特定範囲が画定された際に学習されたNNのモデルとを用いて推定する。そして、推定結果に基づいて同一と推定した物体がそれぞれ含まれる物体領域の移動軌跡を同一の物体の移動軌跡と推定する。これにより、物体の再同定の精度を向上できる。
 さらに、1つの撮影装置に対し特定範囲を複数画定し、撮影領域が重複しない複数の撮影装置でそれぞれ撮影された撮影画像においてそれぞれ検出された物体領域に含まれる物体間の類似度を、特定範囲の範囲内の物体領域に基づいて、特定範囲が画定された際にそれぞれ学習されたNNのモデルを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる物体領域の移動軌跡を同一の物体の移動軌跡と推定する。これにより、物体の再同定の精度をさらに向上できる。
 さらに、撮影装置ごとの撮影画像における物体領域の移動軌跡を、時系列の複数の撮影画像においてそれぞれ検出された物体領域に含まれる物体の類似度と、撮影画像における物体領域の位置の時系列の変化に基づいて推定する。これにより、移動軌跡の推定精度を向上できる。
 さらに、撮影画像において設定された対象領域ごとに、対象領域において検出された物体領域と、物体領域に含まれる物体のクラスの正解ラベルとの組み合わせを教師データとしてニューラルネットワークの前記モデルを学習させる学習部と、学習された、ニューラルネットワークの前記モデルによる、物体のクラスの推定精度を算出する評価部と、推定精度が最大となるときの前記対象領域を前記特定範囲として決定することで、前記特定範囲を画定する特定範囲画定部と、を設ける。これにより、より簡単かつ効率的に物体の再同定の精度を向上できる。
 以上に説明した再同定装置、再同定プログラム、および再同定方法は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な再同定システムが備える構成を排除するものではない。
 例えば、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
 また、上述した実施形態においては、顧客に対する再同定を行うものとして説明したが、顧客以外の人や動物等の再同定にも適用できる。
 また、上述した実施形態においては、クラスの推定精度が最も高くなる特定範囲が撮影画像の中心を含まない範囲になっている。しかし、クラスの推定精度が評価された結果、撮影画像の中心を含む範囲が特定範囲となり得る。
 また、上述した画像処理システムにおける各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。
 本出願は、2020年2月3日に出願された日本特許出願(特願2020-16444号)に基づいており、その開示内容は、参照され、全体として、組み入れられている。

Claims (6)

  1.  撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する取得部と、
     取得された前記撮影画像において、物体を含む物体領域を検出する物体検出部と、
     前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する軌跡推定部と、
     前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する再同定部と、
     を有する再同定装置。
  2.  前記特定範囲は、1つの前記撮影装置に対し複数画定され、
     前記再同定部は、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、前記特定範囲の範囲内の前記物体領域に基づいて、前記特定範囲が画定された際にそれぞれ学習されたニューラルネットワークの前記モデルを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する、請求項1に記載の再同定装置。
  3.  前記軌跡推定部は、撮影装置ごとの撮影画像における物体領域の移動軌跡を、時系列の複数の撮影画像においてそれぞれ検出された物体領域に含まれる物体の類似度と、撮影画像における物体領域の位置の時系列の変化に基づいて推定する、請求項1または2に記載の再同定装置。
  4.  前記撮影画像において設定された指定範囲ごとに、前記指定範囲において検出された前記物体領域と、前記物体領域に含まれる物体のクラスの正解ラベルとの組み合わせを教師データとしてニューラルネットワークの前記モデルを学習させる学習部と、
     学習された、ニューラルネットワークの前記モデルによる、物体のクラスの推定精度を算出する評価部と、
     推定精度が最大となるときの前記指定範囲を前記特定範囲として決定することで、前記特定範囲を画定する特定範囲画定部と、
     をさらに有する請求項1~3のいずれか一項に記載の再同定装置。
  5.  撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する手順(a)と、
     取得された前記撮影画像において、物体を含む物体領域を検出する手順(b)と、
     前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する手順(c)と、
     前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する手順(d)と、
     をコンピューターに実行させるための再同定プログラム。
  6.  撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する段階(a)と、
     取得された前記撮影画像において、物体を含む物体領域を検出する段階(b)と、
     前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する段階(c)と、
     前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する段階(d)と、
     を有する再同定方法。
PCT/JP2020/037961 2020-02-03 2020-10-07 再同定装置、再同定プログラム、および再同定方法 WO2021157133A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP20917699.9A EP4102452A4 (en) 2020-02-03 2020-10-07 RE-IDENTIFICATION DEVICE, RE-IDENTIFICATION PROGRAM AND RE-IDENTIFICATION METHOD
JP2021575608A JPWO2021157133A1 (ja) 2020-02-03 2020-10-07

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-016444 2020-02-03
JP2020016444 2020-02-03

Publications (1)

Publication Number Publication Date
WO2021157133A1 true WO2021157133A1 (ja) 2021-08-12

Family

ID=77199836

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/037961 WO2021157133A1 (ja) 2020-02-03 2020-10-07 再同定装置、再同定プログラム、および再同定方法

Country Status (3)

Country Link
EP (1) EP4102452A4 (ja)
JP (1) JPWO2021157133A1 (ja)
WO (1) WO2021157133A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014192700A (ja) * 2013-03-27 2014-10-06 Panasonic Corp 追尾処理装置及びこれを備えた追尾処理システム並びに追尾処理方法
JP2016072964A (ja) 2014-09-30 2016-05-09 キヤノン株式会社 被写体再識別のためのシステム及び方法
JP2019036213A (ja) * 2017-08-18 2019-03-07 セコム株式会社 画像処理装置
JP2019096062A (ja) * 2017-11-22 2019-06-20 コニカミノルタ株式会社 物体追跡装置、物体追跡方法、および、物体追跡プログラム
JP2019186859A (ja) * 2018-04-16 2019-10-24 Kddi株式会社 接続装置、接続方法及び接続プログラム
JP2020016444A (ja) 2018-07-23 2020-01-30 ミネベアミツミ株式会社 触覚センサ

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176382B2 (en) * 2017-03-06 2021-11-16 Conduent Business Services, Llc System and method for person re-identification using overhead view images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014192700A (ja) * 2013-03-27 2014-10-06 Panasonic Corp 追尾処理装置及びこれを備えた追尾処理システム並びに追尾処理方法
JP2016072964A (ja) 2014-09-30 2016-05-09 キヤノン株式会社 被写体再識別のためのシステム及び方法
JP2019036213A (ja) * 2017-08-18 2019-03-07 セコム株式会社 画像処理装置
JP2019096062A (ja) * 2017-11-22 2019-06-20 コニカミノルタ株式会社 物体追跡装置、物体追跡方法、および、物体追跡プログラム
JP2019186859A (ja) * 2018-04-16 2019-10-24 Kddi株式会社 接続装置、接続方法及び接続プログラム
JP2020016444A (ja) 2018-07-23 2020-01-30 ミネベアミツミ株式会社 触覚センサ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4102452A4

Also Published As

Publication number Publication date
EP4102452A4 (en) 2023-07-12
EP4102452A1 (en) 2022-12-14
JPWO2021157133A1 (ja) 2021-08-12

Similar Documents

Publication Publication Date Title
Portmann et al. People detection and tracking from aerial thermal views
US7940957B2 (en) Object tracker for visually tracking object motion
US10212324B2 (en) Position detection device, position detection method, and storage medium
JP6032921B2 (ja) 物体検出装置及びその方法、プログラム
JP4782901B2 (ja) 移動体検出装置および移動体検出方法
KR101764845B1 (ko) 다중 이동 물체의 겹침 제거 및 추적을 위한 영상 감시 장치 및 방법
CN110334569B (zh) 客流量进出识别方法、装置、设备及存储介质
JP5459674B2 (ja) 移動物体追跡システムおよび移動物体追跡方法
EP2192549A1 (en) Target tracking device and target tracking method
US20170039419A1 (en) Information processing apparatus and control method of the same
JP6618395B2 (ja) 行動価値によって調査対象の位置を予測する装置、プログラム及び方法
JP5001930B2 (ja) 動作認識装置及び方法
US11727578B2 (en) Crowd type classification system, crowd type classification method and storage medium for storing crowd type classification program
JP4682820B2 (ja) オブジェクト追跡装置及びオブジェクト追跡方法、並びにプログラム
US11836944B2 (en) Information processing apparatus, information processing method, and storage medium
JP2006343859A (ja) 画像処理装置及び画像処理方法
Migniot et al. Hybrid 3D–2D human tracking in a top view
Soleimanitaleb et al. Single object tracking: A survey of methods, datasets, and evaluation metrics
Ali et al. Deep Learning Algorithms for Human Fighting Action Recognition.
US11544926B2 (en) Image processing apparatus, method of processing image, and storage medium
JP2021149687A (ja) 物体認識装置、物体認識方法及び物体認識プログラム
WO2021157133A1 (ja) 再同定装置、再同定プログラム、および再同定方法
KR20230077560A (ko) 전시관 맞춤형 서비스 제공 장치 및 이의 제어 방법
JP7383435B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2021196899A (ja) 画像処理装置、画像処理方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20917699

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021575608

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020917699

Country of ref document: EP

Effective date: 20220905