WO2024184936A1 - 目標追尾装置および目標追尾方法 - Google Patents

目標追尾装置および目標追尾方法 Download PDF

Info

Publication number
WO2024184936A1
WO2024184936A1 PCT/JP2023/007932 JP2023007932W WO2024184936A1 WO 2024184936 A1 WO2024184936 A1 WO 2024184936A1 JP 2023007932 W JP2023007932 W JP 2023007932W WO 2024184936 A1 WO2024184936 A1 WO 2024184936A1
Authority
WO
WIPO (PCT)
Prior art keywords
track
target
unit
tracking
tracking device
Prior art date
Application number
PCT/JP2023/007932
Other languages
English (en)
French (fr)
Inventor
哲太郎 山田
泰範 椿
大輝 黒瀬
竜馬 谷▲高▼
聡宏 伊藤
龍平 高橋
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2023569600A priority Critical patent/JP7486685B1/ja
Priority to PCT/JP2023/007932 priority patent/WO2024184936A1/ja
Publication of WO2024184936A1 publication Critical patent/WO2024184936A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters

Definitions

  • This disclosure relates to target tracking technology.
  • Patent document 1 describes a method for detecting targets using a camera and a method for tracking the detected targets.
  • Prior art technology tracks a target based only on observation data relating to that target, which means that there is a problem in that individual targets cannot be tracked accurately in a crowded, multi-target environment.
  • the present disclosure has been made to solve such problems, and aims to provide a target tracking technology that can accurately track individual targets even in a crowded, multi-target environment.
  • One aspect of a target tracking device includes a detection unit that detects features including the position of at least one target from sensor data, a tracking unit that tracks the target based on the detected features and outputs a tracking trail of the tracked target, and a trail classification unit that determines which of a plurality of predetermined movement patterns the output tracking trail corresponds to.
  • the target tracking technology according to the embodiment of the present disclosure makes it possible to accurately track individual targets even in a crowded environment with many targets.
  • FIG. 1 is a diagram illustrating an example of the configuration of a target tracking device according to a first embodiment.
  • FIG. 2 is a diagram illustrating a configuration example of a tracking unit according to the first embodiment.
  • 4 is a flowchart illustrating a track classification learning process according to the first embodiment.
  • 4 is a flowchart illustrating a track classification inference process according to the first embodiment.
  • FIG. 11 is a diagram illustrating a configuration example of a target tracking device according to a second embodiment.
  • FIG. 11 is a diagram illustrating an example of the configuration of a target tracking device according to a third embodiment.
  • FIG. 13 is a diagram illustrating an example of the configuration of a target tracking device according to a fourth embodiment.
  • FIG. 4 is a diagram for explaining the operation of the target tracking device according to the first to fourth embodiments.
  • FIG. 13 is a diagram for explaining the operation of a target tracking device according to embodiment 3.
  • FIG. FIG. 2 is a diagram illustrating an example of a hardware configuration of a target tracking device according to the first to fourth embodiments.
  • FIG. 2 is a diagram illustrating an example of a hardware configuration of a target tracking device according to the first to fourth embodiments.
  • FIG. 1 is a diagram showing a configuration example of a target tracking device 10 according to the first embodiment
  • Fig. 2 is a diagram showing a configuration example of a tracking unit 12 included in the target tracking device 10.
  • one aspect of the target tracking device 10 includes a detection unit 11 that detects features including the position of at least one target from sensor data, a tracking unit 12 that tracks the target based on the detected features and outputs a tracking trail of the tracked target, and a trail classification unit 13 that determines which of a plurality of predetermined movement patterns the output tracking trail corresponds to.
  • a target tracking system using the target tracking device 10 includes a sensor observation unit 1, the target tracking device 10 connected to the sensor observation unit 1, a memory unit 2 connected to the target tracking device 10, and a display unit 3 connected to the target tracking device 10.
  • the sensor observation unit 1 is a functional unit that acquires sensor data related to a target obtained by sensing.
  • the number of targets sensed by the sensor observation unit 1 is multiple. However, this does not exclude the case where an embodiment using the technology of the present disclosure senses a single target.
  • the sensor observation unit 1 is, for example, a camera, a radar, or a laser sensor.
  • the sensor observation unit 1 is a camera
  • the camera captures an image of a target and obtains a moving image consisting of multiple frames as sensor data.
  • the sensor observation unit 1 outputs the obtained sensor data to the detection unit 11.
  • the detection unit 11 detects a target from raw data such as an image for each frame output from the sensor observation unit 1, and outputs the feature amount of the detected target to the tracking unit 12. For example, in the case of target detection from a camera image, the detection unit 11 calculates the position and size of the target using a target detection algorithm such as SSD (Single Shot MultiBox Detector) or YOLO (You Look Only Once) for the image data output from the sensor observation unit 1. For example, if the target is a person, the detection unit 11 calculates the position and size of the person's head.
  • a target detection algorithm such as SSD (Single Shot MultiBox Detector) or YOLO (You Look Only Once) for the image data output from the sensor observation unit 1.
  • SSD Single Shot MultiBox Detector
  • YOLO You Look Only Once
  • the detection unit 11 may calculate the appearance feature amount of the target, such as an RGB histogram, an HSV histogram, or a high-dimensional feature amount based on metrics-learning, for the image data output from the sensor observation unit 1.
  • the detection unit 11 outputs the feature amount of the target, such as the position, size, appearance feature amount, etc. calculated for each frame, to the tracking unit 12.
  • the tracking unit 12 is a functional unit including: a prediction unit 121 that predicts a predicted feature at a second time later than the first time from a first observation feature detected at a first time; a correlation unit 122 that determines a correlation between the predicted predicted feature and a second observation feature detected at the second time; and a filter unit 123 that performs filtering using the correlated second observation feature and the predicted predicted feature, and outputs time series data of the filtered feature as a tracking track.
  • the tracking unit 12 Based on the features output from the detection unit 11, the tracking unit 12 determines the correlation between the predicted state of the target at the current time in the previous frame and the observed values of the features of the target in the current frame (e.g., position, size, appearance features), and outputs the target's track.
  • the track refers to time series data in which the features of the target are arranged in chronological order, and more specifically, refers to time series data in which the filtered features after filtering, which will be described later, are arranged in chronological order.
  • the observed value may be a bounding box whose candidate region is the person's entire body (first region), or a bounding box whose candidate region is the person's head (second region).
  • the tracking unit 12 includes a prediction unit 121, a correlation unit 122, and a filter unit 123.
  • the prediction unit 121 predicts a feature amount at the current time (second time; current frame) from the feature amount at the past time (first time; previous frame) based on the feature amount output from the detection unit 11.
  • the prediction unit 121 outputs the prediction result to the correlation unit 122 as a predicted feature amount.
  • the prediction unit 121 also acquires observed features, which are features at the current time detected and output by the detection unit 11, and outputs the acquired observed features to the correlation unit 122.
  • the correlation unit 122 compares the predicted features and observed features output from the prediction unit 121, determines a combination of the predicted features and observed features, and outputs the combined set of predicted features and observed features to the filter unit 123.
  • the filter unit 123 performs filtering using the pair of predicted feature amounts and observed feature amounts output from the correlation unit 122, and outputs the filtered feature amounts to the track classification unit 13 and the prediction unit 121.
  • the filtering may be a simple method such as an ⁇ filter, or a time-series filter method based on statistical estimation such as a Kalman filter or a particle filter.
  • the track classification unit 13 classifies tracks based on the track classification parameters and track information, which is time-series data of filtered features obtained from the tracking unit 12, counts the tracks classified for each attribute using the track classification parameters, and outputs the classified tracks and track information such as the number of counted tracks to the track processing unit 14 or the display unit 3.
  • the track classification parameters are stored in the memory unit 2, and the track classification unit 13 acquires the track classification parameters from the memory unit 2.
  • the track processing unit 14 is a functional unit that processes the track to be displayed based on the track information output from the track classification unit 13. That is, when displaying individual track information (e.g., a person's head, etc.), the track processing unit 14 may process the track in consideration of privacy or to control information. For example, the track processing unit 14 may perform processing such as mosaic processing or blacking out on an area based on a track that has been tracked (e.g., an area where no detection result exists and is substituted by prediction). Alternatively, the track processing unit 14 may perform processing such as mosaic processing or blacking out on tracks of a specific attribute classified by the track classification unit 13.
  • the display unit 3 displays track statistical information, individual track information, or individual processed or unprocessed tracks based on the output from the track classifier 13 or the track processor 14 .
  • Figure 3A is a flowchart relating to the track classification learning process
  • Figure 3B is a flowchart relating to the track classification inference process.
  • the track classification learning process is a process for calculating track classification parameters based on past data.
  • the track classification learning process includes an object detection process (step ST11), an object tracking process (step ST12), an annotation process (step ST13), and a parameter estimation process (step ST14).
  • step ST11 object detection processing is performed. More specifically, in step ST11, the detection unit 11 detects an area of a specific part of the target from raw data such as images for each frame obtained from the sensor observation unit 1, and calculates the feature amount of the detected area.
  • the specific part of the target is the head or the whole body of the person.
  • the tracking unit 12 performs object tracking processing. More specifically, it is as follows.
  • the prediction unit 121 predicts the feature quantity at the current time from the feature quantity at the past time output from the detection unit 11.
  • the correlation unit 122 compares the predicted feature quantity output from the prediction unit 121 with the feature quantity at the current time, determines a combination of the predicted feature quantity and the observed feature quantity at the current time, and outputs the feature quantity to be filtered to the filter unit 123.
  • the filter unit 123 filters using the predicted feature quantity at the current time and the observed feature quantity at the current time, and outputs the filtered feature quantity to the track classification unit 13 and the prediction unit 121.
  • the predicted feature quantity is output as a filtered feature quantity to the track classification unit 13.
  • the filtered feature quantity includes feature quantities such as the position and size of the target.
  • the tracker 12 also outputs to the track classification unit 13 tracking quality information, such as the error covariance calculated in the tracker 12, the number of correlations, nearby track information, and the presence or absence of a memory track indicating a track when there is no correlation.
  • the error covariance is calculated by the filter unit 123 using, for example, a Kalman filter.
  • the number of correlations is calculated as the number of times correlation is performed by the correlation unit 122.
  • the nearby track information is information indicating tracks that are nearby the tracking track.
  • the nearby track information is obtained by the correlation unit 422 calculating the distance between tracks.
  • step ST13 annotation processing is performed. More specifically, in step ST11, the track classification unit 13 labels tracks with specific attributes for the tracks output from the tracking unit 12 based on the track's position information and data information, such as video information or intensity information, that the track has.
  • Classification by location information can be based on factors that consider how targets exist in the sensing area, such as appearance location, destination (disappearance) location, duration of stay, or adjacency of tracks.
  • Track classification may be performed by taking multiple factors into consideration. Tracks to be classified may be classified into any of the following multiple movement patterns: (Movement pattern 1) A wake that appears from the right as seen by the sensor (Movement pattern 2) A wake that appears from the left as seen by the sensor (Movement pattern 3) A wake that appears from the back as seen by the sensor and disappears in front (Movement pattern 4) A wake that appears in front as seen by the sensor and disappears in the back (Movement pattern 5) A hurried wake that disappears quickly despite the long distance between appearance and disappearance (Movement pattern 6) A wake that is interested in an object in the sensing area that stays in the sensing area for a long time (Movement pattern 7) A wake that belongs to multiple wakes of multiple targets that show similar changes (Group wake
  • the wake data in which the object of interest was gazed at is labeled as a gaze wake.
  • the wake corresponding to the time period of gaze is extracted from the wakes and labeled as a gaze wake.
  • wakes that do not correspond to gaze wakes are labeled as non-gaze wakes.
  • low-quality wakes are excluded from classification based on tracking quality information, or classification is performed by attaching a label indicating that they are low quality.
  • FIG. 7 shows a wake when two targets exist, a sensor, and an object of interest such as a notice.
  • the lines indicated by P A or P B in the figure are the position information of the wake, and the small square frame on the wake indicates the image data (head image) of the wake in the detection area obtained at that point.
  • the part of the wake that is gazing at the object of interest is called a gaze wake.
  • the gaze wake is indicated by a large square frame.
  • a wake in which the filtered images or predicted positions of target A and target B are close to each other is called a close wake, and since the quality of the wake is low when the targets are close to each other, we make an effort not to use such close wakes for gaze judgment.
  • step ST14 a parameter estimation process is performed.
  • the track classification unit 13 calculates parameters for track classification based on the tracks and the labeled label data for each movement pattern, and stores the calculated parameters in the memory unit 2 as track classification parameters.
  • the track classification unit 13 uses vector X, which is an arrangement of feature values obtained by calculating HOG (Histograms of Oriented Gradients), which is a gradient histogram, for head image data included in the track, as the feature value of the track, and estimates learning parameters using a learning method such as linear discriminant analysis using vector X and label data.
  • a learning method such as linear discriminant analysis
  • parameters such as a matrix W, which is an arrangement of eigenvectors projecting the original feature values, an average vector of the projected feature values for each class, and a standard deviation are calculated as learning parameters.
  • the track classification unit 13 saves the calculated parameters in the memory unit 2 as track classification parameters, and uses the saved track classification parameters in the track classification inference process. In this way, the track classification unit 13 learns track classification parameters for classifying multiple movement patterns based on the filtered image.
  • the wake classification inference process is a process for classifying wakes using the wake classification parameters obtained by the wake classification learning process.
  • the wake classification inference process includes an object detection process (step ST21), an object tracking process (step ST22), and a wake classification process (step ST23).
  • the object detection process (step ST21) and the object tracking process (step ST22) are similar to the object detection process (step ST11) and the object tracking process (step ST12) in the wake classification learning process, respectively, and therefore will not be described again.
  • a track classification process is performed.
  • the track classification process is performed by the track classification unit 13.
  • the tracks obtained from the tracking unit 12 are classified based on the position information of the tracks.
  • the track output from the tracking unit 12 selects the most similar movement pattern from among the movement patterns classified in the track separation learning process. For example, the similarity of the tracks or the proximity of the start point or end point (vanishing point) of the track may be used as a criterion for the selection of the movement pattern.
  • the tracks belonging to the gazing class may be counted and the number of counted tracks may be displayed as the number of people gazing on the display unit 3, or the video data may be displayed and the tracks determined to be gazing may be highlighted at the same time.
  • the track classification process may be performed when a stable track disappears.
  • the track processing unit 14 may process the track.
  • the functions of the target tracking device 10 are realized by a processing circuit.
  • the processing circuit may be a dedicated processing circuit 102a as shown in Figure 9, or a processor 102b that executes a program stored in a memory 102c as shown in Figure 10.
  • the sensor observation unit 1 and display unit 3 provided in the target tracking system are realized by, for example, a camera 101 and a display 104, respectively.
  • the dedicated processing circuit 102a may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (application specific integrated circuit), an FPGA (field-programmable gate array), or a combination of these.
  • the functions of the target tracking device 10 may be realized by multiple separate processing circuits, or the functions may be realized together in a single processing circuit.
  • a memory (not shown) is connected to the processing circuit 102a to realize the storage unit 2.
  • the functions of the target tracking device 10 are realized by software, firmware, or a combination of software and firmware.
  • the software and firmware are written as programs and stored in the memory 102c.
  • the processor 102b realizes the functions of each functional part of the target tracking device 10 by reading and executing the programs stored in the memory 102c.
  • examples of the memory 102c include non-volatile or volatile semiconductor memories such as RAM (random access memory), ROM (read-only memory), flash memory, EPROM (erasable programmable read-only memory), and EEPROM (electrically erasable programmable read-only memory), as well as magnetic disks, flexible disks, optical disks, compact disks, mini disks, and DVDs.
  • the functions of the target tracking device 10 may be realized by dedicated hardware, and some by software or firmware.
  • the processing circuit can realize each of the above-mentioned functions by hardware, software, firmware, or a combination of these.
  • the target tracking device 10 analyzes video image information for each movement pattern of the wake, making it possible to mitigate the effects of differences in the purpose or manner of gaze depending on the movement pattern, and to grasp the detailed movement of the wake with high accuracy.
  • image information based on the filtered features output from the tracking unit 12 and by performing labeling based on tracking quality, it is possible to separately classify data from scenes where it is difficult to distinguish the target, which is expected to improve the accuracy of movement estimation.
  • FIG. 4 is a diagram showing a configuration example of the target tracking device 20 according to the second embodiment.
  • the target tracking device 20 includes a detection unit 21 and a tracking unit 12, similar to the target tracking device 10 according to the first embodiment.
  • the target tracking device 20 includes a direction estimation unit 24 as an additional functional unit, and a track classification unit 23 in which the function of the track classification unit 13 is changed in response to the addition of the direction estimation unit 24.
  • the target tracking device 20 may include a track processing unit (not shown).
  • the target tracking system using the target tracking device 20 includes a sensor observation unit 1, the target tracking device 20 connected to the sensor observation unit 1, a storage unit 2 connected to the target tracking device 20, and a display unit 3 connected to the target tracking device 20.
  • the orientation estimation unit 24 estimates orientation estimation parameters, which are parameters for estimating orientation such as azimuth or elevation, from past tracks stored in the memory unit 2, i.e., time-series data of filtered images, positions, and track quality.
  • the orientation estimation unit 24 infers the orientation of an object using the estimated orientation estimation parameters for the currently obtained track.
  • the orientation estimation unit 24 subdivides the orientation of the object and annotates the corrected image output from the tracking unit 12 for each orientation of the object, i.e., the image based on the filtered features. For example, the azimuth and elevation of the object are subdivided, and the corrected image for each specific value of azimuth and elevation is annotated.
  • the orientation estimation unit 24 also learns orientation estimation parameters, and outputs the result of estimating the orientation for the currently obtained track to the track classification unit 23.
  • the track classification unit 23 judges whether the target has gazed at the object of interest based on the orientation information inferred by the orientation estimation unit 24 and the position of the track, i.e., based on the angle between the relative position of the object of interest and the track and the orientation estimated by orientation estimation.
  • the gaze judgment is performed, for example, by using an N-out-of-M judgment method to judge whether the angle is at which the object of interest has been viewed N times out of the past M times.
  • images with degraded quality for example images with a high possibility of degrading the detection result due to the presence of a nearby track, may not be used as targets for the N-out-of-M judgment based on the track quality.
  • the classification of the tracks may be performed using a likelihood ratio L according to the following formula (1). That is, the track classification unit 23 may calculate a likelihood ratio, which is a ratio between the probability that the tracking track is a gaze track and the probability that the tracking track is a normal track that is not a gaze track, from the position of the tracking track and the direction of the target, and infer the probability that the target gazed at the object of interest from the magnitude of the calculated likelihood ratio.
  • H1 indicates a specific action hypothesis, for example, gaze or suspicious/abnormal behavior
  • H0 indicates a normal track.
  • H1) indicates the probability that the target is a gaze track that performed a specific action such as gaze
  • H0) indicates the probability that it is a normal track
  • HP is a vector in which the direction (azimuth) estimated from an image of one snapshot is arranged in time series
  • P is a vector in which the center or foot position of the target is arranged in time series
  • RP is the position vector of the object of interest such as a notice.
  • L p(HP,P,RP
  • H1) is a probability distribution of an exponential distribution family such as a normal distribution that has a high probability when there is a high degree of agreement between the orientation HP estimated from the image and the orientation of the position vector based on the object of interest calculated from the difference between P and RP, and when the difference between P and RP is within a certain distance within the field of view
  • H0) is a probability distribution of an exponential distribution family such as a normal distribution that has a high probability when the orientation of the velocity vector, which is the time difference of P, matches the orientation HP calculated from the image, assuming that this is a normal movement in which the movement and orientation match.
  • Th can be determined using a likelihood ratio test, etc., or the threshold Th can be adjusted using existing correct answer data so that the probability of misrecognition is constant.
  • this second embodiment it is possible to estimate the detailed movement of a wake by classifying the wake from orientation information obtained through image processing, the wake's position information, and the position vector of the object of interest.
  • FIG. 5 is a diagram showing a configuration example of the target tracking device 30 according to the third embodiment
  • FIG. 8 is a diagram for explaining the operation of the target tracking device 30.
  • the target tracking device 30 includes a detection unit 31, a tracking unit 32, and a track classification unit 13, similar to the target tracking device 10 according to the first embodiment.
  • the target tracking device 30 includes a position estimation unit 34 as a new functional unit.
  • the detection unit 31, the tracking unit 32, and the track classification unit 13 of the target tracking device 30 are improved from the detection unit 11, the tracking unit 12, and the track classification unit 13 of the target tracking device 10, respectively.
  • the target tracking device 30 may include a track processing unit (not shown). The improvements will be described below.
  • the detection unit 11 detects the person's head
  • the detection unit 31 detects not only the person's head but also the whole body of the person. More generally, the detection unit 31 detects a first region of the target (the whole body) and a second region (the head) that is narrower than the first region. The detection unit 31 outputs the feature amount of the person's whole body as well as the feature amount of the head to the tracking unit 32.
  • the tracking unit 32 outputs the track of the first area and the track of the second area as a tracking track. That is, the tracking unit 32 tracks the head and the whole body, and outputs the tracking track to the position estimation unit 34.
  • the position estimation unit 34 estimates the position of the wake in the first area and the position of the wake in the second area, determines the correspondence between the wake in the first area and the wake in the second area, and calculates the second position of the target. A specific explanation will be given below.
  • the position estimation unit 34 correlates the head track and the whole body track based on the relationship between their relative positions and sizes, and calculates the distance to the head from the foot position of the whole body track correlated with the internal and external parameters of the camera. This allows the head distance to be accurately calculated based on the foot position.
  • the correlation between the head track and the whole body track as shown in Figure 8, the correspondence (correlation) between the tracks of head detection and whole body detection is determined based on the relative positions of the head detection and whole body detection.
  • the size of the target's whole body can be estimated based on the track information at the time when head detection and whole body detection appear simultaneously, and used for distance calculation.
  • the position estimation unit 34 sends the calculated position of the head track to the track classification unit 33.
  • the track classification unit 13 classifies the tracks based on the accurate head position information calculated above.
  • FIG. 6 is a diagram showing a configuration example of a target tracking device 40 according to the fourth embodiment.
  • the target tracking device 40 includes a detection unit 41, a tracking unit 42, and a track classification unit 43, similar to the target tracking device 10 according to the first embodiment.
  • the target tracking device 40 includes a motion correction unit 44 as a new functional unit.
  • the target tracking device 40 may include a track processing unit (not shown).
  • the motion correction unit 44 is a functional unit that outputs motion information for correcting the misalignment between a first image at a first time and a second image at a second time immediately after the first time due to the difference between the first position where the first image was acquired and the second position where the second image was acquired. In other words, the motion correction unit 44 corrects the misalignment between the first image and the second image when the sensor observation unit 1 acquires the first image and the second image at different positions.
  • the motion correction unit 44 applies feature extraction methods such as ORB (Oriented FAST and Rotated BRIEF) and AKAZE (Accelerated KAZE) and feature matching methods to two images from consecutive frames to estimate the motion of the entire image, and estimates the average vector of the movement of the entire image between frames, or the affine transformation matrix or homography transformation matrix of the image from the obtained feature point matching results.
  • the motion correction unit 44 outputs the estimation results to the tracking unit 42 and the track classification unit 43 as image motion information.
  • the feature extraction method may be applied to outside the candidate area detected by the detection unit 41 so as not to include speed components due to individual moving objects.
  • the amount of movement on the two-dimensional bird's-eye coordinate system may be calculated from the image motion information using the internal parameters and external parameters of the camera.
  • the tracking unit 42 converts the predicted movement vector of an individual target using the image motion information input from the motion correction unit 44, thereby correcting the predicted vector and tracking the target. For example, the average vector of the overall movement of the image is subtracted from the predicted movement vector of the individual target. By performing correction in this manner, it becomes possible to accurately predict the position of each individual target.
  • the track classification unit 43 uses the image motion information input from the motion correction unit 44 to correct the track position information and make a judgment.
  • the motion correction unit 44 may estimate image motion information or the amount of movement of the sensor using self-position estimation information from an internal sensor such as an INS (Inertial Navigation System) sensor.
  • INS Inertial Navigation System
  • the target tracking device disclosed herein can be used in an environment where multiple targets are present as a device for tracking individual targets for various purposes such as preventive maintenance or guided advertising.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

センサデータから少なくとも1つの目標の位置を含む特徴量を検出する検出部(11;21;31;41)と、その検出された特徴量に基づいて前記目標を追尾し、追尾する目標の追尾航跡を出力する追尾部(12;22;32;42)と、その出力された追尾航跡が、予め定められた複数の移動パターンのうちの何れに該当するかを判定する航跡分類部(13;23;33;43)と、を備える目標追尾装置。

Description

目標追尾装置および目標追尾方法
 本開示は、目標追尾技術に関する。
 予防保全または誘導広告等の種々の目的のために、目標を監視することが求められている。目標を継続的に監視する手段として、カメラ、レーダまたはレーザ等の非接触センサを用いて目標を検出し、検出した目標を追尾する技術がある。目標の検出および追尾技術としては、以下の特許文献に開示されているような先行技術が存在する。特許文献1には、カメラを用いた目標の検出方法と、検出した目標の追尾方法とが記載されている。
国際公開第2021/171498号
 先行技術によれば、観測対象である目標の追尾をその目標に関する観測データのみから行うので、複数の目標が存在する多目標混雑環境下において個別の目標を精度よく追尾できないという問題がある。
 本開示は、このような問題を解決するためになされたものであり、多目標混雑環境下であっても個別の目標を精度よく追尾できる目標追尾技術を提供することを目的とする。
 本開示の実施形態による目標追尾装置の一側面は、センサデータから少なくとも1つの目標の位置を含む特徴量を検出する検出部と、その検出された特徴量に基づいて前記目標を追尾し、追尾する目標の追尾航跡を出力する追尾部と、その出力された追尾航跡が、予め定められた複数の移動パターンのうちの何れに該当するかを判定する航跡分類部と、を備える。
 本開示の実施形態による目標追尾技術によれば、多目標混雑環境下であっても個別の目標を精度よく追尾できる。
実施の形態1による目標追尾装置の構成例を示す図である。 実施の形態1による追尾部の構成例を示す図である。 実施の形態1による航跡分類学習処理に係るフローチャートである。 実施の形態1による航跡分類推論処理に係るフローチャートである。 実施の形態2による目標追尾装置の構成例を示す図である。 実施の形態3による目標追尾装置の構成例を示す図である。 実施の形態4による目標追尾装置の構成例を示す図である。 実施の形態1から4による目標追尾装置の動作を説明するための図である。 実施の形態3による目標追尾装置の動作を説明するための図である。 実施の形態1から4による目標追尾装置のハードウェアの構成例を示す図である。 実施の形態1から4による目標追尾装置のハードウェアの構成例を示す図である。
 以下、添付の図面を参照して、本開示における種々の実施形態について詳細に説明する。なお、図面において同一または類似の符号を付された構成要素は、同一または類似の構成または機能を有するものであり、そのような構成要素についての重複する説明は省略する。
実施の形態1.
<構成>
 図1および図2を参照して、本開示の実施の形態1による目標追尾装置について説明をする。図1は実施の形態1による目標追尾装置10の構成例を示す図であり、図2は目標追尾装置10が備える追尾部12の構成例を示す図である。
 図1に示されているように、実施の形態1による目標追尾装置10の一側面は、センサデータから少なくとも1つの目標の位置を含む特徴量を検出する検出部11と、その検出された特徴量に基づいて前記目標を追尾し、追尾する目標の追尾航跡を出力する追尾部12と、その出力された追尾航跡が、予め定められた複数の移動パターンのうちの何れに該当するかを判定する航跡分類部13と、を備える。
 また、目標追尾装置10の他の一側面は、検出部11、追尾部12、航跡分類部13および航跡加工部14を備える。航跡加工部14は任意的機能部であり、目標追尾装置10は航跡加工部14を備えていなくてもよい。また、図1に示されているように、目標追尾装置10を用いた目標追尾システムは、センサ観測部1と、センサ観測部1に接続された目標追尾装置10と、目標追尾装置10に接続された記憶部2と、目標追尾装置10に接続された表示部3とを備える。
(センサ観測部)
 センサ観測部1は、センシングにより得られる目標に関するセンサデータを取得する機能部である。センサ観測部1がセンシングする目標の数は、本開示においては、複数である場合が想定される。但し、本開示の技術を用いた実施品が単一の目標をセンシングする場合を排除するものでない。
 センサ観測部1は、例えば、カメラ、レーダ、又はレーザセンサである。例えば、センサ観測部1がカメラである場合、カメラは、目標を撮影することによりセンサデータとして、複数のフレームからなる動画像を取得する。センサ観測部1は、取得したセンサデータを検出部11に出力する。
(検出部)
 検出部11は、センサ観測部1から出力されたフレーム毎の画像等のローデータから目標を検出し、検出した目標の特徴量を追尾部12に出力する。例えば、カメラ画像からの目標検出の場合、検出部11は、センサ観測部1から出力された画像データに対してSSD(Single Shot MultiBox Detector)またはYOLO(You Look Only Once)等の目標検出アルゴリズムを用いて目標の位置と大きさを算出する。例えば、目標が人物である場合、その人物の頭部の位置と大きさを算出する。また、検出部11は、センサ観測部1から出力された画像データに対して、RGBヒストグラム、HSVヒストグラム、またはmetrics-learningに基づく高次元特徴量等の目標の見た目特徴量を算出してもよい。検出部11は、各フレームについて算出した位置、大きさ、見た目特徴量等の目標の特徴量を追尾部12に出力する。
(追尾部)
 追尾部12は、第1の時刻において検出される第1の観測特徴量から、第1の時刻よりも遅い第2の時刻における予測特徴量を予測する予測部121と、その予測された予測特徴量と、第2の時刻において検出される第2の観測特徴量との相関を決定する相関部122と、その相関された第2の観測特徴量と予測された予測特徴量とを用いてフィルタリングを行い、フィルタされた特徴量の時系列データを追尾航跡として出力するフィルタ部123と、を備える機能部である。
 追尾部12について、より詳しく説明をする。追尾部12は、検出部11から出力された特徴量に基づき、前フレームの目標の現在の時刻における予測状態と現在フレームの目標の特徴量の観測値(例えば、位置、大きさ、見た目特徴量)との相関を決定し、目標の航跡を出力する。ここで、航跡とは、目標の特徴量を時系列に従って並べた時系列データを意味し、より詳しくは、特徴量に対して後述するフィルタリングがなされた後のフィルタされた特徴量を時系列に従って並べた時系列データを指す。特に、目標が人物である場合、観測値は人物の全身(第1の領域)を候補領域とするバウンディングボックス、または人物の頭部(第2の領域)を候補領域とするバンディングボックスであっても良い。
 追尾部12は、より詳細には、図2に示されているように、予測部121、相関部122、およびフィルタ部123を備える。
(予測部)
 予測部121は、検出部11から出力された特徴量に基づき、過去時刻(第1の時刻;前のフレーム)における特徴量から、現在時刻(第2の時刻;現在のフレーム)の特徴量を予測する。予測部121は、予測した結果を予測特徴量として相関部122へ出力する。
 また、予測部121は、検出部11から検出され、出力された現在時刻の特徴量である観測特徴量を取得し、取得した観測特徴量を相関部122へ出力する。
(相関部)
 相関部122は、予測部121から出力された予測特徴量と観測特徴量を比較し、予測特徴量と観測特徴量の組み合わせを決定し、組合せた予測特徴量と観測特徴量の組を、フィルタ部123に出力する。
(フィルタ部)
 フィルタ部123は、相関部122から出力された、予測特徴量と観測特徴量の組を用いてフィルタリングを行い、フィルタされた特徴量を航跡分類部13および予測部121へ出力する。ここで、フィルタリングはαβフィルタのような簡素な手法でも、カルマンフィルタやパーティクルフィルタのような統計的推定に基づく時系列フィルタ手法でも良い。
(航跡分類部)
 航跡分類部13は、航跡分類パラメータと、追尾部12から得られたフィルタされた特徴量の時系列データである航跡情報とを元に航跡を分類し、航跡分類パラメータを用いて属性毎に分類された航跡をカウントし、分類後の航跡およびカウントした航跡数等の航跡情報を航跡加工部14または表示部3へ出力する。航跡分類パラメータは記憶部2に記憶されており、航跡分類部13は航跡分類パラメータを記憶部2から取得する。
(航跡加工部)
 航跡加工部14は、航跡分類部13から出力される航跡情報に基づいて、表示する航跡を加工する機能部である。すなわち、個別の航跡情報(例えば、人物の頭部等)を表示する際はプライバシーを考慮しまたは情報をコントロールするために、航跡加工部14は航跡を加工してもよい。例えば、航跡加工部14は、追尾された航跡に基づく領域(例えば、検出結果が存在せずに予測により代用した領域)にモザイク処理または黒塗り等の加工をしてもよい。あるいは、航跡加工部14は、航跡分類部13により分類された特定の属性の航跡に対してモザイク処理や黒塗り等の加工をしても良い。
(表示部)
 表示部3は、航跡分類部13または航跡加工部14からの出力に基づいて、航跡の統計情報、個別の航跡情報、または個別の加工された若しくは加工されていない航跡を表示する。
<動作>
 次に、図3Aおよび図3Bを参照して、目標追尾装置10の動作について説明をする。図3Aは航跡分類学習処理に係るフローチャートであり、図3Bは航跡分類推論処理に係るフローチャートである。
(航跡分類学習処理)
 航跡分類学習処理は、過去のデータに基づいて航跡分類パラメータを算出する処理である。このような処理を行うために、航跡分類学習処理には、物体検出処理(ステップST11)、物体追尾処理(ステップST12)、アノテーション処理(ステップST13)、およびパラメータ推定処理(ステップST14)が含まれる。
 まず、ステップST11において物体検出処理が行われる。より具体的には、ステップST11において、検出部11は、センサ観測部1から得られたフレーム毎の画像等のローデータから対象の特定部分の領域を検出し、検出した領域の特徴量を計算する。対象の特定部分とは、対象が人物の場合には、その人物の頭部または全身である。
 次に、ステップST11に続くステップST12において、追尾部12は物体追尾処理を行う。より具体的には、以下のとおりである。予測部121は、検出部11から出力された過去時刻における特徴量から現在時刻の特徴量を予測する。相関部122は、予測部121から出力された予測された予測特徴量と現在時刻の特徴量とを比較し、予測特徴量と現在時刻の観測特徴量の組み合わせを決定し、フィルタ部123にフィルタリング対象の特徴量を出力する。フィルタ部123は、現在時刻の予測特徴量と現在時刻の観測特徴量を用いてフィルタリングし、フィルタされた特徴量を航跡分類部13および予測部121へ出力する。相関対象となる観測特徴量が存在しない場合は予測特徴量をフィルタされた特徴量として航跡分類部13へ出力する。フィルタされた特徴量には、対象の位置、大きさ等の特徴量が含まれる。追尾部12は、フィルタされた特徴量の他、追尾部12において計算された誤差共分散、相関回数、近接航跡情報、相関がない場合の航跡を示すメモリトラックの有無等の追尾品質情報も併せて航跡分類部13に出力する。誤差共分散は、フィルタ部123により、例えばカルマンフィルタを用いて計算される。相関回数は、相関部122により相関を行った回数として計算される。近接航跡情報は、追尾航跡に近接する航跡を示す情報である。近接航跡情報は、相関部422が航跡間の距離を算出することにより得られる。
 次に、ステップST12に続くステップST13において、アノテーション処理が行われる。より具体的には、ステップST11において、航跡分類部13は、追尾部12から出力された航跡について、航跡の位置情報と、航跡の持つデータ情報、例えば動画像情報または強度情報とを元に、特定の属性を持つ航跡に対してラベリングを行う。
 位置情報による分類としては、出現位置、目的(消失)位置、滞在時間、または航跡の隣接具合などの、センシング領域における目標の存在の仕方に関する考慮要素に基づいた分類が可能である。複数の考慮要素を考慮して航跡の分類を行っても良い。分類対象の航跡は、例えば、次の複数の移動パターンのいずれかのパターンの航跡に分類して良い:
(移動パターン1)センサから見て右から出現した航跡
(移動パターン2)センサから見て左から出現した航跡
(移動パターン3)センサから見て奥から出現し手前に消失した航跡
(移動パターン4)センサから見て手前から出現し奥に消失した航跡
(移動パターン5)出現から消失までの距離が長いにも関わらず消失が早い急いでいる航跡
(移動パターン6)センシング領域内に長時間滞在するセンシング領域内の物体に興味がある航跡
(移動パターン7)同様の変化を示す複数の目標の複数の航跡に属する一航跡(グループ航跡パターン)。例えば、並進等の他の航跡と特定の位置関係を有する近接航跡であって、かつ、他の航跡の速度に類似する速度を有する航跡
 また、特定の属性に対するラベリングについては、たとえば、掲示物またはディスプレイ等の関心対象物を注視する動作の有無という属性を判別する場合、航跡データのうち、関心対象物を注視した航跡を注視航跡としてラベリングする。あるいは、航跡のうち注視した時間帯に相当する航跡を抽出して注視航跡としてラベリングする。また、注視航跡に相当しない航跡は非注視航跡としてラベリングする。ここで、ラベリングの際は、追尾品質情報を元に低品質の航跡は分類の対象から除外する、もしくは、低品質であることを示すラベルをつけて分類を実施する。
 図7は、2つの目標が存在する場合の航跡と、センサと、掲示物等の関心対象物とを示す。図中のPまたはPで示された線は航跡の位置情報であり、航跡上の小さい□枠はその地点で得られた検知領域内の航跡の持つ画像データ(頭部画像)を示す。関心対象物を注視している航跡部分を注視航跡と呼ぶことにする。図7において、注視航跡は大きい□枠により示されている。また、目標Aと目標Bのフィルタされた画像または予測位置が近接している航跡を近接航跡と呼び、目標が近接している場合は航跡の品質が低くなるので、そのような近接航跡については注視判定に利用しない等の工夫をする。
 次に、ステップST13に続くステップST14において、パラメータ推定処理が行われる。ステップST14において、航跡分類部13は、移動パターン毎に、航跡とラベリングされたラベルデータとに基づいて航跡分類をするためのパラメータを算出し、算出したパラメータを航跡分類パラメータとして記憶部2に保存する。
 例えば、航跡分類部13は、航跡に含まれる頭部画像データに対して、勾配ヒストグラムであるHOG(Histograms of Oriented Gradients)を計算した特徴量を並べたベクトルXを航跡の特徴量とし、ベクトルXとラベルデータを用いて線形判別分析等の学習手法を用いて学習パラメータを推定する。線形判別分析では、学習パラメータとして、元特徴量を射影する固有ベクトルを並べた行列W、クラス毎の射影後の特徴量の平均ベクトル、標準偏差等のパラメータを算出する。航跡分類部13は、算出したパラメータを記憶部2に航跡分類パラメータとして保存し、保存した航跡分類パラメータを航跡分類推論処理で利用する。このようにして、航跡分類部13は、フィルタされた画像を元に、複数の移動パターンを分類するための航跡分類パラメータを学習する。
(航跡分類推論処理)
 航跡分類推論処理は、航跡分類学習処理により得られた航跡分類パラメータを用いて航跡を分類する処理である。このような処理を行うために、航跡分類推論処理には、物体検出処理(ステップST21)、物体追尾処理(ステップST22)、および航跡分類処理(ステップST23)が含まれる。物体検出処理(ステップST21)および物体追尾処理(ステップST22)は、航跡分類学習処理における物体検出処理(ステップST11)および物体追尾処理(ステップST12)とそれぞれ同様であるので、重複する説明を省略する。
 ステップST23において航跡分類処理が行われる。航跡分類処理は航跡分類部13により行われる。まず、追尾部12から得られた航跡を航跡の位置情報を元に分類する。航跡分類処理では、追尾部12において予測航跡と相関する検出結果が存在しない状態が続き航跡が消失したタイミング、または一定長の航跡が生成されたタイミングにおいて、追尾部12から出力された航跡について、航跡分離学習処理において分類された移動パターンのうち航跡が最も類似する移動パターンを選択する。移動パターンの選択においては、例えば、航跡の類似度、または航跡の開始点若しくは終了点(消失点)の近さを基準としてもよい。また、選択された移動パターン毎の航跡分類パラメータを用いて、対象航跡が特定動作(注視)を行ったかどうかの判定を実施する。具体的には、まず、航跡の持つ画像データに対してHOGを計算した特徴量を時系列に並べた特徴量を計算する。次に、この計算した特徴量に対して航跡分類パラメータである固有ベクトルを並べた射影行列で射影した射影済特徴量と、クラス毎の平均ベクトルと標準偏差とから統計距離を計算し、統計距離が最も小さいクラスを選択し、その選択したクラスの表す動作を表示部3に出力する。例えば、特定動作として人物の注視の有無を判定する場合、注視クラスに属する航跡をカウントしてカウントした航跡の数を注視人数として表示部3に表示しても良いし、映像データを表示すると同時に注視判定をした航跡を強調表示しても良い。なお、航跡分類処理は、安定した航跡が消失するタイミングで実施されても良い。
 ステップST23に続く不図示のステップにおいて、航跡加工部14により、航跡の加工を行っても良い。
 次に、図9および図10を参照して、目標追尾装置10および目標追尾装置10を備える目標追尾システムのハードウェアの構成例について説明する。目標追尾装置10の諸機能は、処理回路(processing circuitry)により実現される。処理回路(processing circuitry)は、図9に示されているような専用の処理回路(processing circuit)102aであっても、図10に示されているようなメモリ102cに格納されるプログラムを実行するプロセッサ102bであってもよい。また、目標追尾システムが備えるセンサ観測部1および表示部3は、例えば、カメラ101およびディスプレイ104によりそれぞれ実現される。
 処理回路(processing circuitry)が専用の処理回路102aである場合、専用の処理回路102aは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(application specific integrated circuit)、FPGA(field-programmable gate array)、またはこれらを組み合わせたものが該当する。目標追尾装置10の諸機能を別個の複数の処理回路(processing circuits)で実現してもよいし、諸機能をまとめて単一の処理回路(processing circuit)で実現してもよい。また、処理回路102aには不図示のメモリが接続され、記憶部2が実現される。
 処理回路(processing circuitry)がプロセッサ102bの場合、目標追尾装置10の諸機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアおよびファームウェアはプログラムとして記述され、メモリ102cに格納される。プロセッサ102bは、メモリ102cに記憶されたプログラムを読み出して実行することにより、目標追尾装置10の各機能部の機能を実現する。ここで、メモリ102cの例には、RAM(random access memory)、ROM(read-only memory)、フラッシュメモリ、EPROM(erasable programmable read only memory)、EEPROM(electrically erasable programmable read-only memory)等の、不揮発性または揮発性の半導体メモリや、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDが含まれる。
 なお、目標追尾装置10の諸機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。
 目標追尾装置10によれば、航跡の移動パターン毎に動画像情報を解析することで、移動パターンによって注視の目的または注視の仕方が異なる影響を緩和して高精度に航跡の詳細動作を把握することが可能となる。また、追尾部12より出力されたフィルタされた特徴量に基づく画像情報を利用することで、また、追尾品質に基づくラベリングを実施することで、目標の判別が難しいシーンのデータを別に分類することができるため、動作推定の高精度化が期待できる。
実施の形態2.
 図4を参照して、本開示の実施の形態2による目標追尾装置について説明をする。図4は、実施の形態2による目標追尾装置20の構成例を示す図である。図4に示されているように、目標追尾装置20は、実施の形態1による目標追尾装置10と同様に、検出部21および追尾部12を備える。目標追尾装置20は、向き推定部24を追加的機能部として備えるとともに、向き推定部24の追加に応じて航跡分類部13の機能が変更された航跡分類部23を備える。また、実施の形態1の場合と同様に、目標追尾装置20は、不図示の航跡加工部を備えていてもよい。また、図4に示されているように、目標追尾装置20を用いた目標追尾システムは、センサ観測部1と、センサ観測部1に接続された目標追尾装置20と、目標追尾装置20に接続された記憶部2と、目標追尾装置20に接続された表示部3とを備える。
(向き推定部)
 向き推定部24は、記憶部2に保存されている過去の航跡、即ちフィルタリングされた後の画像、位置、および航跡品質の時系列データから、アジマスまたはエレベーション等の向きを推定するためのパラメータである向き推定パラメータを推定する。向き推定部24は、現在得られた航跡に対して、推定した向き推定パラメータを用いて、物体の向きを推論する。
 向き推定部24は、物体の向きを細分化して、物体の向き毎に追尾部12から出力された補正画像、即ちフィルタされた特徴量による画像をアノテーションする。例えば、物体のアジマスおよびエレベーションを細分化して、アジマスおよびエレベーションの具体値毎における補正画像に対してアノテーションを行う。また、向き推定部24は、向き推定パラメータを学習し、現在得られた航跡に対して向きを推定した結果を航跡分類部23に出力する。
 航跡分類部23は、向き推定部24で推論された向き情報と航跡の位置とを元に、即ち関心対象物と航跡の相対位置と向き推定により推定された向きとのなす角の角度を元に、目標が関心対象物を注視したかを判定する。注視の判定は、例えばM中N判定法を用いて、過去M回中、N回、関心対象物を視認した角度となっているかを判定することにより行う。この注視判定の際に、航跡品質を元にして、品質の劣化した画像、例えば、近接航跡が存在する等の検知結果が劣化する可能性が高い画像については、M中N判定の対象として利用しないようにしても良い。
 また、航跡の分類は、下記の式(1)に従って、尤度比Lを利用して行っても良い。すなわち、航跡分類部23は、追尾航跡の位置と、目標の向きとから、追尾航跡が注視航跡である確率と、追尾航跡が注視航跡でない通常航跡である確率との比である尤度比を算出し、算出した尤度比の大きさから目標が関心対象物を注視した蓋然性を推論してもよい。式(1)において、H1は特定動作仮説、例えば、注視または不審・異常行動等を示し、H0は通常航跡を示す。p(HP,P,RP|H1)は目標が注視等の特定動作をした注視航跡である確率を表し、p(HP,P|H0)は通常航跡である確率を表す。HPは1スナップショットの画像から推定した向き(アジマス)を時系列に並べたベクトルであり、Pは目標の中心もしくは足元位置を時系列に並べたベクトルであり、RPは掲示物等の関心対象物の位置ベクトルとする。
     L=p(HP,P,RP|H1)/p(HP,P|H0)     (1)
 p(HP,P,RP|H1)は、画像から推定した向きHPと、PとRPの差分から計算される関心対象物を基準とした位置ベクトルの向きとの一致度が高く、かつ、PとRPの差分が視界内の一定の距離以内となる場合に確率が高くなる正規分布等の指数型分布族の確率分布であり、p(HP,P|H0)は、Pの時間差分である速度ベクトルの向きと画像から算出した向きHPとが一致する場合に、動きと向きが一致している平常の動作であると想定して確率が高くなる正規分布等の指数型分布族の確率分布とする。
 尤度比に対して閾値Thを超えた航跡(L>Th)を特定航跡として出力することで、特定動作をした確率が高く、通常動作を行った確率が低い航跡を抽出することができる。ここでThは尤度比検定等を用いて決定しても良いし、既存の正解データを用いて誤認識確率が一定となるように閾値Thを調整しても良い。
 特定の掲示物等の関心対象物が存在せず、航跡が通常でないかどうかを判定したい場合は、尤度比ではなく、次の式(2)のとおり、通常航跡である確率p(HP,P|H0)の逆数L2を算出して、閾値判定処理(L2>Th2)により、異常航跡を分類しても良い。
            L2=1/p(HP,P|H0)          (2)
 L2を用いて閾値判定をすることで、航跡の顔向きと航跡の位置ベクトルの向きとが一致していない人物を抽出することが可能となる。
 以上から明らかなように、この実施の形態2によれば、画像処理による向き情報と、航跡の位置情報と関心対象物の位置ベクトルから航跡の分類を実施することで、詳細な航跡の動作を推定することが可能となる。
実施の形態3.
 図5および図8を参照して、本開示の実施の形態3による目標追尾装置について説明をする。図5は、実施の形態3による目標追尾装置30の構成例を示す図であり、図8は目標追尾装置30の動作を説明するための図である。図5に示されているように、目標追尾装置30は、実施の形態1による目標追尾装置10と同様に、検出部31、追尾部32、および航跡分類部13を備える。また、目標追尾装置30は、新たな機能部として位置推定部34を備える。位置推定部34が新たに備えられたことに伴って、目標追尾装置30の検出部31、追尾部32および航跡分類部13には、目標追尾装置10の検出部11、追尾部12および航跡分類部13に対してそれぞれ改良が加えられている。また、実施の形態1の場合と同様に、目標追尾装置30は、不図示の航跡加工部を備えていてもよい。改良点について、以下にて説明をする。
 実施の形態1では検出部11が人物の頭部を検出する場合について説明をしたが、実施の形態3では、検出部31は、人物の頭部だけでなく、人物の全身の検出も行う。より一般的に言えば、検出部31は目標の第1の領域(全身)および第1の領域よりも狭い第2の領域(頭部)を検出する。検出部31は、人物の頭部の特徴量に加えて、全身の特徴量も追尾部32に出力する。
 追尾部32は、追尾航跡として、第1の領域の航跡と第2の領域の航跡とを出力する。すなわち、追尾部32は、頭部の追尾と全身の追尾を行い、追尾航跡を位置推定部34に出力する。
 位置推定部34は、第1の領域の航跡の位置および第2の領域の航跡の位置を推定し、第1の領域の航跡と第2の領域の航跡との対応関係を決定して、目標の第2の位置を算出する。以下、具体的に説明をする。
 位置推定部34は、頭部航跡と全身航跡を相対位置と大きさの関係から相関を行い、カメラの内部および外部パラメータと相関された全身航跡の足元位置とから、頭部の距離を算出する。これにより、頭部の距離を足元位置を基準として正確に算出する。頭部航跡と全身航跡の相関の例として、図8のように頭検出と全身検出の相対位置により、頭検出と全身検出の航跡の対応関係(相関)を決定する。ここで、混雑環境等で頭検知しか有効でないような検知不良領域を考慮して、頭検出と全身検出が同時に出現した時刻の航跡情報を元に対象の全身の大きさを推定し、距離算出に利用するという構成としても良い。位置推定部34は、算出した頭部航跡の位置を、航跡分類部33へ算出する。
 航跡分類部13は、上記で算出した正確な頭部の位置情報を元に、航跡の分類を行う。
 以上で明らかなように、この実施の形態3よれば、頭部航跡の正確な位置情報を得ることが可能となるため、正確な位置情報に基づいて航跡を正確に分類することが可能となる。
実施の形態4.
 図6を参照して、本開示の実施の形態4による目標追尾装置について説明をする。図6は、実施の形態4による目標追尾装置40の構成例を示す図である。図6に示されているように、目標追尾装置40は、実施の形態1による目標追尾装置10と同様に、検出部41、追尾部42、および航跡分類部43を備える。また、目標追尾装置40は、新たな機能部として動き補正部44を備える。また、実施の形態1の場合と同様に、目標追尾装置40は、不図示の航跡加工部を備えていてもよい。
 動き補正部44は、第1の時刻における第1の画像と、第1の時刻の直後の第2の時刻における第2の画像について、第1の画像が取得された第1の位置と第2の画像が取得された第2の位置との相違による第1の画像と第2の画像との間のズレを補正するための動き情報を出力する機能部である。すなわち、動き補正部44は、センサ観測部1が第1の画像と第2の画像とを異なる位置で取得する場合に、第1の画像と第2の画像との間のズレを補正する。
 動き補正部44は、画像全体の動きを推定するために、ORB(Oriented FAST and Rotated BRIEF)やAKAZE(Accelerated KAZE)等の特徴点抽出手法と特徴点マッチング手法を連続する前後フレームから2枚の画像に対して適用した上で、得られた特徴点のマッチング結果からフレーム間の画像全体の移動の平均ベクトル、または画像のアフィン変換行列若しくは画像のホモグラフィ変換行列を推定する。動き補正部44は、推定の結果を、画像の動き情報として追尾部42と航跡分類部43に出力する。ここで、画像全体の動き補正の際には、個別の移動体による速度成分を含まないように、検出部41による検出候補領域外に対して特徴点抽出手法を適用しても良い。また、画像の動き情報から、カメラの内部パラメータと外部パラメータを用いて2次元俯瞰座標上の移動量を算出しても良い。
 追尾部42は、動き補正部44から入力された画像の動き情報を用いて、個別目標の移動予測ベクトルを変換することで、予測ベクトルを補正して目標を追尾する。例えば、個別目標の移動予測ベクトルから、画像の全体移動の平均ベクトルを差し引く。このようにして補正を行うことにより、個別の目標の位置を正確に予測することが可能となる。
 航跡分類部43は、動き補正部44から入力された画像の動き情報を用いて、航跡の位置情報を補正して判定を行う。
 ここで、動き補正部44は、INS(Inertial Navigation System)センサ等の内部センサによる自己位置推定情報を用いて、画像の動き情報またはセンサの移動量を推定しても良い。
 以上から明らかなように、この実施の形態4よれば、センサ観測部1を搭載した不図示のプラットフォームが動くことを想定して、センサ観測部1の動きを考慮してセンシングデータを補正することで、目標の追尾および航跡の分類を正確に行うことができる。
 なお、実施形態を組み合わせたり、各実施形態を適宜、変形、省略したりすることが可能である。
 本開示の目標追尾装置は、複数の目標が存在する環境下において、予防保全または誘導広告等の種々の目的のために個別の目標を追尾する装置として用いることができる。
 1 センサ観測部、2 記憶部、3 表示部、10 目標追尾装置、11 検出部、12 追尾部、13 航跡分類部、14 航跡加工部、20 目標追尾装置、21 検出部、23 航跡分類部、24 向き推定部、30 目標追尾装置、31 検出部、32 追尾部、33 航跡分類部、34 位置推定部、40 目標追尾装置、41 検出部、42 追尾部、43 航跡分類部、44 動き補正部、101 カメラ、102a 処理回路、102b プロセッサ、102c メモリ、104 ディスプレイ、121 予測部、122 相関部、123 フィルタ部。

Claims (15)

  1.  センサデータから少なくとも1つの目標の位置を含む特徴量を検出する検出部と、
     その検出された特徴量に基づいて前記目標を追尾し、追尾する目標の追尾航跡を出力する追尾部と、
     その出力された追尾航跡を予め定められた複数の移動パターンのうちの何れかに分類し、分類された追尾航跡の航跡情報を出力する航跡分類部と、
    を備える目標追尾装置。
  2.  前記追尾部は、
     第1の時刻において検出される第1の観測特徴量から、前記第1の時刻よりも遅い第2の時刻における予測特徴量を予測する予測部と、
     その予測された予測特徴量と、前記第2の時刻において検出される第2の観測特徴量との相関を決定する相関部と、
     その相関された第2の観測特徴量と前記予測された予測特徴量とを用いてフィルタリングを行い、フィルタされた特徴量の時系列データを前記追尾航跡として出力するフィルタ部と、
    を備える、
    請求項1に記載された目標追尾装置。
  3.  前記センサデータは画像であり、
     前記航跡分類部は、フィルタされた画像を元に、前記予め定められた複数の移動パターンを分類するための航跡分類パラメータを学習する、
    請求項2に記載された目標追尾装置。
  4.  前記航跡分類部は、航跡の品質を表す追尾品質情報を用いて、前記出力された追尾航跡が、予め定められた複数の移動パターンのうちの何れに該当するかを判定する、
    請求項1から3のいずれか1項に記載された目標追尾装置。
  5.  その出力された航跡情報に基づいて、表示する内容を加工する航跡加工部を更に備える、
    請求項1に記載された目標追尾装置。
  6.  前記画像から推定される前記目標の向きを推定する向き推定部、
    を更に備える請求項3に記載された目標追尾装置。
  7.  前記航跡分類部は、ある関心対象物の位置を基準とした前記目標の位置と、その推定される前記目標の向きとの一致度を元に、前記目標が前記関心対象物を注視しているかを推論する、
    請求項6に記載された目標追尾装置。
  8.  前記航跡分類部は、前記追尾航跡の位置と、その推定される前記目標の向きとから、前記追尾航跡が注視航跡である確率と、前記追尾航跡が前記注視航跡でない通常航跡である確率との比である尤度比を算出し、算出した尤度比の大きさから前記目標が前記関心対象物を注視した蓋然性を推論する、
    請求項6に記載された目標追尾装置。
  9.  前記航跡分類部は、前記目標の位置の時間変化である速度ベクトルの向きと、その推定される前記目標の向きとの一致度から、前記目標が不審または異常な行動をしているかを推論する、
    請求項6に記載された目標追尾装置。
  10.  前記航跡分類部は前記追尾航跡が消失する時に前記判定を行う、
    請求項1から9のいずれか1項に記載された目標追尾装置。
  11.  前記検出部は前記目標の第1の領域および前記第1の領域よりも狭い第2の領域を検出し、
     前記追尾部は前記追尾航跡として前記第1の領域の航跡と前記第2の領域の航跡とを出力し、
     前記第1の領域の航跡の位置および前記第2の領域の航跡の位置を推定し、前記第1の領域の航跡と前記第2の領域の航跡との対応関係を決定して、前記目標の前記第2の位置を算出する位置推定部を更に備える、
    請求項1から10のいずれか1項に記載された目標追尾装置。
  12.  前記少なくとも1つの目標は複数の目標であり、
     前記予め定められた複数の移動パターンは、複数の航跡が同様の変化を示すグループ航跡パターンを含み、
     前記航跡分類部は、前記複数の目標のいずれか1つの目標の追尾航跡が前記グループ航跡パターンに該当すると判定する、
    請求項1から11のいずれか1項に記載された目標追尾装置。
  13.  前記センサデータは時間的に連続する複数の画像であり、
     第1の時刻における第1の画像と、前記第1の時刻の直後の第2の時刻における第2の画像について、前記第1の画像が取得された第1の位置と前記第2の画像が取得された第2の位置との相違による前記第1の画像と前記第2の画像との間のズレを補正するための動き情報を出力する動き補正部を更に備え、
     前記追尾部は、その出力される動き情報を用いて、前記目標を追尾する、
    請求項1に記載された目標追尾装置。
  14.  前記センサデータは時間的に連続する複数の画像であり、
     第1の時刻における第1の画像と、前記第1の時刻の直後の第2の時刻における第2の画像について、前記第1の画像が取得された第1の位置と前記第2の画像が取得された第2の位置との相違による前記第1の画像と前記第2の画像との間のズレを補正するための動き情報を出力する動き補正部を更に備え、
     前記航跡分類部は、その出力される動き情報を用いて前記判定を行う、
    請求項1に記載された目標追尾装置。
  15.  検出部、追尾部および航跡分類部を備える目標追尾装置が行う目標追尾方法であって、
     前記検出部が、センサデータから少なくとも1つの目標の位置を含む特徴量を検出するステップと、
     前記追尾部が、その検出された特徴量に基づいて前記目標を追尾し、追尾する目標の追尾航跡を出力するステップと、
     前記航跡分類部が、その出力された追尾航跡が、予め定められた複数の移動パターンのうちの何れに該当するかを判定するステップと、
    を備える目標追尾方法。
PCT/JP2023/007932 2023-03-03 2023-03-03 目標追尾装置および目標追尾方法 WO2024184936A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023569600A JP7486685B1 (ja) 2023-03-03 2023-03-03 目標追尾装置および目標追尾方法
PCT/JP2023/007932 WO2024184936A1 (ja) 2023-03-03 2023-03-03 目標追尾装置および目標追尾方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/007932 WO2024184936A1 (ja) 2023-03-03 2023-03-03 目標追尾装置および目標追尾方法

Publications (1)

Publication Number Publication Date
WO2024184936A1 true WO2024184936A1 (ja) 2024-09-12

Family

ID=91067379

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/007932 WO2024184936A1 (ja) 2023-03-03 2023-03-03 目標追尾装置および目標追尾方法

Country Status (2)

Country Link
JP (1) JP7486685B1 (ja)
WO (1) WO2024184936A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140660A (ja) * 2019-03-01 2020-09-03 グローリー株式会社 人物計数装置、人物計数方法及び人物計数プログラム
WO2020188746A1 (ja) * 2019-03-19 2020-09-24 日本電気株式会社 情報処理装置、推定方法、及び非一時的なコンピュータ可読媒体
WO2021171498A1 (ja) * 2020-02-27 2021-09-02 三菱電機株式会社 目標追尾装置、目標追尾システム、及び目標追尾方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140660A (ja) * 2019-03-01 2020-09-03 グローリー株式会社 人物計数装置、人物計数方法及び人物計数プログラム
WO2020188746A1 (ja) * 2019-03-19 2020-09-24 日本電気株式会社 情報処理装置、推定方法、及び非一時的なコンピュータ可読媒体
WO2021171498A1 (ja) * 2020-02-27 2021-09-02 三菱電機株式会社 目標追尾装置、目標追尾システム、及び目標追尾方法

Also Published As

Publication number Publication date
JP7486685B1 (ja) 2024-05-17

Similar Documents

Publication Publication Date Title
Javed et al. Tracking and object classification for automated surveillance
US10212324B2 (en) Position detection device, position detection method, and storage medium
JP4216668B2 (ja) 映像視覚情報を結合してリアルタイムで複数の顔を検出して追跡する顔検出・追跡システム及びその方法
EP1844443B1 (en) Classifying an object in a video frame
US20150009323A1 (en) Multi-target tracking method for video surveillance
Pelapur et al. Persistent target tracking using likelihood fusion in wide-area and full motion video sequences
EP2345999A1 (en) Method for automatic detection and tracking of multiple objects
KR20190128500A (ko) 영상 감시 시스템에서의 실시간 쓰레기 투기 행위 탐지 방법 및 장치
KR20160144149A (ko) 다중 이동 물체의 겹침 제거 및 추적을 위한 영상 감시 장치 및 방법
JP2008542922A (ja) 保安用途向けの人間の検出及び追跡
Jiang et al. Multiple pedestrian tracking using colour and motion models
Trinh et al. Hand tracking by binary quadratic programming and its application to retail activity recognition
KR101681104B1 (ko) 부분적 가림을 갖는 영상 객체 내의 주요 특징점 기반 다중 객체 추적 방법
US20180197018A1 (en) Information processing device, information processing method, and computer program product
Denman et al. Multi-spectral fusion for surveillance systems
Chamveha et al. Head direction estimation from low resolution images with scene adaptation
KR101472674B1 (ko) 군중 궤적 추출을 이용한 비정상 행동 검출에 기초한 영상 감시 방법 및 영상 감시 장치
Kang et al. Persistent objects tracking across multiple non overlapping cameras
CN107194950A (zh) 一种基于慢特征分析的多人跟踪方法
JP7271373B2 (ja) 映像処理装置、映像処理システムおよび映像処理方法
Foresti et al. Detecting moving people in video streams
US20080198237A1 (en) System and method for adaptive pixel segmentation from image sequences
Hernández et al. People counting with re-identification using depth cameras
JP7486685B1 (ja) 目標追尾装置および目標追尾方法
Greenhill et al. Learning the semantic landscape: embedding scene knowledge in object tracking