WO2021260899A1 - 追跡装置、追跡システム、追跡方法、および、追跡プログラム - Google Patents

追跡装置、追跡システム、追跡方法、および、追跡プログラム Download PDF

Info

Publication number
WO2021260899A1
WO2021260899A1 PCT/JP2020/025078 JP2020025078W WO2021260899A1 WO 2021260899 A1 WO2021260899 A1 WO 2021260899A1 JP 2020025078 W JP2020025078 W JP 2020025078W WO 2021260899 A1 WO2021260899 A1 WO 2021260899A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition model
tracking
tracking target
storage unit
unit
Prior art date
Application number
PCT/JP2020/025078
Other languages
English (en)
French (fr)
Inventor
彦俊 中里
健二 阿部
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US18/012,813 priority Critical patent/US20230252647A1/en
Priority to PCT/JP2020/025078 priority patent/WO2021260899A1/ja
Priority to JP2022532191A priority patent/JP7439925B2/ja
Publication of WO2021260899A1 publication Critical patent/WO2021260899A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Definitions

  • the present invention relates to a tracking device, a tracking system, a tracking method, and a tracking program.
  • Non-Patent Document 1 describes that the types of butterflies are classified by applying a feature vector composed of the color, shape, and texture of a butterfly image to a self-organizing map (SOM: Self-Orgnanizing Map). Has been done.
  • Non-Patent Document 2 describes that a convolutional neural network (CNN) and a SOM are combined to learn an image of a human emotional expression, and the robot reflects the emotional expression.
  • CNN convolutional neural network
  • SOM Self-Orgnanizing Map
  • the main subject of the present invention is to track a moving object that has not been pre-learned.
  • the present invention comprises a recognition model storage unit in which a recognition model including one or more feature quantities for a tracking target is stored for each tracking target.
  • a candidate detection unit that extracts tracking targets using a recognition model from images taken by its own surveillance camera,
  • a model creation unit that updates the recognition model in the recognition model storage unit by adding a new feature amount detected from the extracted tracking target to the recognition model used when the candidate detection unit extracts the tracking target.
  • It is characterized by having a communication unit that distributes the recognition model updated by itself to other devices that monitor based on other surveillance cameras located within a predetermined range from its own surveillance camera.
  • FIG. 1 is an explanatory diagram showing an image in which a tracking target is captured and a feature amount extracted from the image.
  • the criminal of the robber is illustrated as an example of the tracking target.
  • the tracking target handled by the moving target tracking system 100 is not limited to a person, and may be applied to an animal such as a pet, a vehicle, or the like.
  • the criminal of the robbery found at the point A escapes from the point B to the point C.
  • the tracking device 2 (FIG. 4) in charge of the point A detected a moving target (criminal) for one person from the camera monitoring the point A.
  • the image recognition application at point A detects dangerous behavior such as a person holding a knife from the image of the camera, and cuts out the image area of the person as the tracking target image Pa1.
  • the tracking target image Pa1 detected by the surveillance camera at the point A is associated with the recognition model Ma1 instantly constructed from the tracking target image Pa1.
  • the recognition model Ma1 includes [human contour C11] as a feature amount extracted from the tracked image Pa1.
  • various features of the target cannot be immediately detected from the image due to various restrictions such as the arrangement of the surveillance camera and the position of the target.
  • the recognition model Ma1 created at point A continues tracking by propagating from point A to surrounding points B (shown as two arrows emanating from recognition model Ma1).
  • the tracking device 2 in charge of the point B detected two moving objects matching the feature amount of the propagated recognition model Ma1 from the camera monitoring the point B.
  • the tracking target image Pb1 and the recognition model Mb1 extracted from the tracking target image Pb1 are associated with each other.
  • the recognition model Mb1 includes the feature amount [male clothing C21] newly extracted from the tracked image Pb1 in addition to the [human contour C11] of the recognition model Ma1 that matches the first person.
  • the tracking target image Pb2 and the recognition model Mb2 extracted from the tracking target image Pb2 are associated with each other.
  • the recognition model Mb2 includes the feature amount [female clothes C22] newly extracted from the tracked image Pb2 in addition to the [human contour C11] of the recognition model Ma1 that the second person matches.
  • the recognition models Mb1 and Mb2 created at the point B continue tracking by propagating from the point B to the surrounding points C (shown as a total of three arrows emitted from the recognition models Mb1 and Mb2).
  • the tracking device 2 in charge of the point C is a moving target for one person matching the feature amount of the propagated recognition model Mb1 from the camera monitoring the point C, and the propagated recognition.
  • Two moving targets that is, a total of three matching the features of model Mb2 were detected.
  • the tracking target image Pc1 and the recognition model Mc1 extracted from the tracking target image Pc1 are associated with each other.
  • the recognition model Mc1 in addition to the [human contour C11] and [male clothing C21] of the recognition model Mb1 that matches the first person, the feature amount [criminal face C31] newly extracted from the tracked image Pc1 is included. included.
  • the tracking target image Pc2 and the recognition model Mc2 extracted from the tracking target image Pc2 are associated with each other.
  • the recognition model Mc2 in addition to the [human contour C11] and [female clothing C22] of the recognition model Mb2 that matches the second person, the feature amount [housewife's face C32] newly extracted from the tracked image Pc2 is included. included.
  • the tracking target image Pc3 and the recognition model Mc3 extracted from the tracking target image Pc3 are associated with each other.
  • the recognition model Mc3 in addition to the [human contour C11] and [female clothing C22] of the recognition model Mb2 that matches the third person the feature amount [student face C33] newly extracted from the tracked image Pc3 is included. included.
  • FIG. 1 shows an example in which the recognition models become abundant in the following order.
  • FIG. 2 is an explanatory diagram of a CNN used when extracting the feature amount of FIG.
  • the CNN 200 is configured by connecting an input layer 210 that receives an input image 201, a hidden layer 220, and an output layer 230 that outputs a determination result of the input image 201.
  • the hidden layer 220 is alternately repeated in the order of the convolution layer 221 ⁇ the pooling layer 222 ⁇ ... ⁇ the convolution layer 226 ⁇ the pooling layer 227.
  • Convolution processing abtraction of the image
  • pooling processing is performed in each pooling layer to obtain universality for moving the position of the image.
  • the pooling layer 227 is connected to the fully connected layers 228 and 229.
  • a final feature map containing various features such as the color and shape of the image is included, and the recognition model extracted in FIG. 1 is included.
  • the CNN in FIG. 2 is only one of the means for extracting the feature amount, and other means may be used.
  • CNN neural network
  • other means that can include various features such as the color and shape of the image of the object to be tracked and vectorize the feature amount may be used to extract the feature amount.
  • the administrator of the tracking device 2 may explicitly extract the individual features by an algorithm that can individually extract the features of a person such as contours, clothes, and glasses as the features to be added to the recognition model.
  • FIG. 3 is an explanatory diagram expressing the result of extracting the feature amount of FIG. 1 as SOM. Similar to FIG. 1, the illustrated arrows such as recognition model Ma1 ⁇ recognition model Mb1 indicate the route to which the recognition model is distributed. By writing this route information to each recognition model, it is possible to know from which other recognition model the own recognition model is distributed (derived).
  • SOM is a data structure mapped to a two-dimensional space while preserving the phase structure of the data distribution for a high-dimensional observation data set, and is used in an unsupervised learning algorithm. Those who are next to each other on the SOM have data vectors that are close to each other even in the observation space. For example, in the recognition model Mb1, [human contour C11] and [male clothing C21] are adjacent to each other on SOM. This means that [male clothing C21] was newly detected from the tracking target having the feature amount of [human contour C11].
  • a region within a certain range is determined from the vector by the "U-matrix method” based on the “winner neuron” obtained from the projected features.
  • the existing region (feature amount) on the determined SOM map of the tracking target may be added to the recognition model.
  • a "winner neuron” is a neuron that has a weight vector that most closely resembles a reference vector (1 input vector). Modify the weight vector so that the weight vector of the winner neuron c and its neighbors is closer to the input vector.
  • the "U-matrix method” is a method that enables visual confirmation of similarities / dissimilarities between adjacent units based on distance information between units of adjacent output layer neurons. The spaces between neurons with low similarity (far away in distance) are represented as "mountains".
  • FIG. 4 is a block diagram of the moving target tracking system 100.
  • the moving target tracking system 100 includes a monitoring terminal 1 used by a monitor in a monitoring center and a tracking device 2 (tracking device 2A at point A and tracking device 2B at point B) deployed at each monitoring point such as in the city. It is configured by being connected by a network. Although two tracking devices 2 are illustrated in FIG. 4, one or more tracking devices 2 may be used. Further, one tracking device 2 may be in charge of one point, or one tracking device 2 may be in charge of a plurality of points.
  • the tracking device 2 includes an image reporting unit 21, an image file storage unit 22, a candidate detection unit 23, a model creation unit 24, a storage unit for storing the recognition model storage unit 25, and a communication unit 26.
  • the tracking device 2A at the point A has an image reporting unit 21A, an image file storage unit 22A, a candidate detection unit 23A, a model creation unit 24A, a recognition model storage unit 25A, and a communication unit 26A (at the end of the code). "A”).
  • the tracking device 2B at the point B has an image reporting unit 21B, an image file storage unit 22B, a candidate detection unit 23B, a model creation unit 24B, a recognition model storage unit 25B, and a communication unit 26B (at the end of the code). "B”).
  • each component of the tracking device 2 will be described with reference to each step (S11 to S19) shown in FIG. It should be noted that the steps and arrows shown in FIG. 4 are merely examples showing a part of the relationship between each component of the tracking device 2, and messages may be appropriately displayed between other components (not shown). Notification will be given.
  • the image reporting unit 21A reads the video (tracked target) of the criminal candidate found from the detection of dangerous acts or the like from the image file storage unit 22A, and continues to transmit it to the monitoring terminal 1 (S11). That is, the time-series information of the image of the tracking target candidate detected at each point and the recognition model used for the detection is aggregated in the monitoring center every moment.
  • the model creation unit 24A analyzes the image of the tracking target image (S12) extracted by the candidate detection unit 23A from the video in the image file storage unit 22A, and creates a recognition model (for example, the recognition model Ma1 in FIG. 3) as a result. do.
  • the recognition model Ma1 is stored in the recognition model storage unit 25A (S13).
  • the model creation unit 24A may create a recognition model by combining the CNN of FIG. 2 and the SOM of FIG. 3, and may create a recognition model without being limited to this combination.
  • the model creation unit 24A may arrange the feature amount extracted by the CNN in FIG. 2 in a data structure other than SOM, or arrange the feature amount extracted by a method other than CNN in FIG. 2 in the data structure of SOM. You may.
  • the communication unit 26A distributes the recognition model Ma1 created by the model creation unit 24A to the communication unit 26B at the adjacent point B (S14).
  • the distribution destination is not limited to adjacent points, and for example, the tracking device 2 in charge of a point within a certain distance (ex. Within a radius of 5 km) from the target detection time is also applicable.
  • the communication unit 26B notifies the candidate detection unit 23B while reflecting the recognition model Ma1 from the point A distributed in S14 in its own recognition model storage unit 25B (S15).
  • the candidate detection unit 23B monitors the image in the image file storage unit 22B at the point B based on the recognition model Ma1 and detects two persons matching the recognition model Ma1 as candidates for tracking. Then, the image reporting unit 21B notifies the monitoring terminal 1 of the recognition model Ma1 of the detection source and the tracking target image in which the newly detected two persons are captured (S17). This allows the observer to know the latest tracking status at this time.
  • the model creation unit 24B creates two recognition models Mb1 and Mb2 (that is, updates Ma1) by adding a new feature amount to the recognition model Ma1 of the detection source notified from the candidate detection unit 23B.
  • the updated recognition models Mb1 and Mb2 are stored in their own recognition model storage unit 25B (S18), and are distributed from the communication unit 26B to other points.
  • the recognition model Ma1 in the recognition model storage unit 25A is updated. It is replaced with the recognized recognition models Mb1 and Mb2.
  • the features of the old recognition model Ma1 are inherited as the features of the new recognition models Mb1 and Mb2.
  • the number of recognition models held by the recognition model storage unit 25 at each point does not increase in proportion to the number of recognition models, and the time required for detection can be reduced.
  • the observer inputs a correct answer trigger to the monitoring terminal 1 when it can be determined by visual confirmation that the criminal is the criminal from the criminal candidate video notified in S17. Since the number of candidates to be tracked increases explosively as the distance from the detection point increases, it is desirable for the observer to input the correct answer flag at an early stage.
  • the monitoring terminal 1 notifies each model creation unit 24 of the recognition model of the criminal input as the correct answer trigger, thereby deleting the recognition model other than the criminal from each recognition model storage unit 25, and reducing the weight of the monitoring process. (S19, details will be described later in FIGS. 6 and 7).
  • FIG. 5 is a table showing a process of tracking a person by the moving target tracking system 100 based on the tracking target image of FIG.
  • the rows of the table indicate points A to C in charge of each tracking device 2, and although points A and C are located in the vicinity of the point B, the points A and C are not in the vicinity. Also, the rows of the table indicate the time elapsed from the top to the bottom of the table.
  • the tracking device 2 at the point A discovers the tracking target image Pa1 (hereinafter, person Pa1) in which the criminal is reflected (time t11), and creates a recognition model Ma1 for that person (time t12).
  • the tracking device 2 at the point B receives the distribution of the recognition model Ma1 from the tracking device 2 at the point A as the initial propagation, activates the video analysis application of the candidate detection unit 23, and starts monitoring (time t12).
  • the tracking device 2 at the point A continues monitoring according to the recognition model Mc1, but the criminal escapes to the point B (time t13).
  • the tracking device 2 at the point B discovers the tracking target images of the persons Pb1 and Pb2 from the initially propagated recognition model Ma1 (time t21). Then, the tracking device 2 at the point B maintains the feature amount of the recognition model Ma1 before the update, and adds the feature amount of the newly detected tracking target candidate to the recognition model Mb1 of the person Pb1 and the person. Create a recognition model Mb2 for Pb2 (time t22). The tracking device 2 at the point B redistributes the recognition models Mb1 and Mb2 updated by itself within a certain range around the base (here, points A and C).
  • the tracking device 2 at the point C receives the recognition models Mb1 and Mb2 from the tracking device 2 at the point B, activates the video analysis application of the candidate detection unit 23, and starts monitoring.
  • the tracking device 2 at the point A receives the distribution of the recognition models Mb1 and Mb2 from the tracking device 2 at the point B, replaces the recognition model Ma1, and continues monitoring. That is, when the distribution destination of the recognition model for the same target candidate (same criminal) and the distribution source match (here, point A), the old map of the distribution source is replaced with the new map.
  • the criminal escapes to point C (time t23).
  • the tracking device 2 at the point C discovers the person Pc1 from the recognition model Mb1 and discovers the persons Pc2 and Pc3 from the recognition model Mb2 (time t31). Then, the tracking device 2 at the point C creates the recognition model Mc1 of the discovered person Pc1, the recognition model Mc2 of the person Pc2, and the recognition model Mc3 of the person Pc3, respectively (time t32).
  • the tracking device 2 at the point B receives the recognition models Mc1, Mc2, Mc3 from the tracking device 2 at the point C, replaces the recognition models Mb1 and Mb2, and continues monitoring. The tracking device 2 at the point C continues monitoring according to the recognition models Mc1, Mc2, and Mc3 created at the time t32 (time t33).
  • FIG. 6 is a table showing processing after the observer has specified a criminal from the tracked image, following FIG. 5.
  • the tracking device 2 at point A is monitoring according to the recognition models Mb1 and Mb2
  • the tracking device 2 at point B is monitoring according to the recognition models Mc1, Mc2, Mc3.
  • the tracking device 2 at point C is being monitored according to the recognition models Mc1, Mc2, and Mc3.
  • the observer visually confirms the criminal candidate video (person Pc1 of the recognition model Mc1, person Pc2 of the recognition model Mc2, person Pc3 of the recognition model Mc3) notified from the point C, and sees the person Pc1 of the recognition model Mc1.
  • the correct answer trigger to conclude that the criminal is determined is input to the monitoring terminal 1 (time t41). Further, the monitoring terminal 1 (or the tracking device 2 at each point) identifies the derivative model “recognition model Ma1, Mb1, Mc1” of the person Pc1 with reference to the distribution history associated with the recognition model Mc1.
  • FIG. 7 is an explanatory diagram showing a derivative model of the person Pc1 for the SOM of FIG.
  • the recognition model Ma1 at the point A ⁇ the recognition model Mb1 at the point B ⁇ the recognition model Mc1 at the point C are distributed in this order.
  • "Cognitive model Ma1, Mb1, Mc1" is obtained. In this way, by narrowing down the monitoring targets in the future to the derivative model, the monitoring burden on the observer can be reduced.
  • the video (tracking target image) notified (recommended) by the image reporting unit 21 at each point to the observer is captured within a predetermined time from the discovery time of the correct trigger and within a predetermined range from the discovery point of the correct trigger. This is a video that corresponds to the derived model among the tracking target candidates.
  • the monitoring terminal 1 notifies each point of the derivative model “recognition model Ma1, Mb1, Mc1” of the person Pc1 (time t42).
  • the tracking device 2 at each point excludes the recognition models (Mb2, Mc2, Mc3, etc.) that do not correspond to the derived model from the recognition model storage unit 25 to be monitored, and excludes the derived model. Leave (time t43).
  • the monitoring load can be reduced by excluding a person other than the criminal from the monitoring target. That is, it is possible to prevent an explosive increase in the number of models in the recognition model storage unit 25 owned by one tracking device 2 and the tracking target candidates.
  • the map is deleted.
  • the tracking device 2 can reduce the monitoring load by stopping the operation.
  • the tracking device 2 at the point C discovers the criminal person Pc1 by monitoring the recognition model Mc1 (time t51).
  • the recognition model storage unit 25A is cleared (all the recognition models are erased) and the monitoring is terminated (time t52).
  • the recognition model Mc1 in the recognition model storage unit 25B is left and the surroundings are kept alert.
  • FIG. 8 is a table showing labor saving processing by turning off monitoring in the moving target tracking system 100.
  • the process of narrowing down the monitoring target in the future is described by using the correct answer trigger by the observer as a clue.
  • FIG. 8 describes a process of narrowing down the monitoring target in the future by using the update frequency of the recognition model storage unit 25 at each point as a clue.
  • the model creation unit 24 at the point LA generates the same recognition model from the images of the target person continuously captured by the same camera in the same area (in the point LA). That is, when the target person continues to be in the same area, the feature amount can be detected one after another, so that the recognition model creation process is also continued.
  • the recognition model Ma1 of the person found at the point LA is initially propagated (deployed) to the points LB, LC, LD, LE located in the vicinity of the point LA (within a radius of 5 km, etc.). That is, when a new tracking target candidate is detected by the recognition model, the candidate detection unit 23 of the tracking device 2 in charge of image analysis of the camera within a certain distance range from the detected camera is activated.
  • the recognition model Mb1 of the person found based on the recognition model Ma1 at the point LB is initially propagated to the points LA, LC, and LF located in the vicinity of the point LB.
  • the recognition model Ma1 is updated to the recognition model Mb1 at the distribution destination points LA and LC, and the recognition model Mb1 is initially propagated (deployed) at the distribution destination point LF.
  • the recognition model Mc1 of the person found based on the recognition model Mb1 at the point LC is distributed to the points LB and LF located in the vicinity of the point LC.
  • the recognition model Mb1 is updated to the recognition model Mc1.
  • FIG. 9 is a hardware configuration diagram of the tracking device 2.
  • the tracking device 2 is configured as a computer 900 having a CPU 901, a RAM 902, a ROM 903, an HDD 904, a communication I / F 905, an input / output I / F 906, and a media I / F 907.
  • the communication I / F 905 is connected to an external communication device 915.
  • the input / output I / F 906 is connected to the input / output device 916.
  • the media I / F907 reads / writes data from the recording medium 917.
  • the CPU 901 controls each processing unit by executing a program (also referred to as an application or an abbreviation thereof) read into the RAM 902.
  • the program can also be distributed via a communication line, or recorded and distributed on a recording medium 917 such as a CD-ROM.
  • the tracking device 2 is a recognition model by adding a new feature amount to the SOM map in the process in which the feature amount obtained by inputting the image of the surveillance camera to the CNN fluctuates with the passage of time.
  • the process of updating the storage unit 25 has been described. Further, the tracking device 2 propagates the updated SOM map to another point in the vicinity, so that the tracking target can be accurately tracked even if it escapes.
  • the tracking device 2 of the present invention A recognition model storage unit 25 in which a recognition model including one or more feature quantities for the tracking target is stored for each tracking target, and A candidate detection unit 23 that extracts tracking targets using a recognition model from images taken by its own surveillance camera, and Creating a model that updates the recognition model in the recognition model storage unit 25 by adding a new feature amount detected from the extracted tracking target to the recognition model used when the candidate detection unit 23 extracts the tracking target.
  • Part 24 and It is characterized by having a communication unit 26 that distributes the recognition model updated by itself to another device that monitors based on another surveillance camera located within a predetermined range from its own surveillance camera.
  • the corresponding recognition model is updated and distributed to other devices one after another. Therefore, even if the trained recognition model cannot be deployed at all points in advance, the recognition model of the target detected at the initial stage can be instantly created and used for video analysis with the subsequent camera.
  • the recognition model storage unit 25 stores a recognition model updated by itself and a recognition model updated by another device.
  • the recognition model storage unit 25 deletes the recognition model previously distributed to the other device. It is characterized by.
  • the model creation unit 24 acquires the feature amount of the tracking target from the image taken by the surveillance camera based on the feature amount vector including the feature of the image to be tracked, and distributes the data to the observation data set.
  • the recognition model in the recognition model storage unit 25 is updated.
  • the candidate detection unit 23 is characterized in that the tracking target is extracted when the feature amount of the tracking target reflected in the captured image of the surveillance camera is close to the feature amount of the tracking target registered in the area on the data structure. And.
  • the model creation unit 24 generates the same recognition model from the tracking target continuously captured from the images of the same camera in the same area.
  • the candidate detection unit 23 is characterized in that when the recognition model in the recognition model storage unit 25 is not updated within a predetermined period, the process of extracting the tracking target is turned off.
  • the resource consumption of the tracking device 2 can be reduced by turning off the tracking process in the area where the tracking target may not exist.
  • the present invention is a tracking system including a tracking device 2 and a monitoring terminal 1 operated by a monitor.
  • the tracking device further includes an image reporting unit 21 that transmits a captured image of the tracking target extracted by the candidate detection unit 23 to the monitoring terminal 1.
  • the monitoring terminal 1 receives an input for designating the tracking target of the correct answer from the transmitted captured image, returns the tracking target of the correct answer to the tracking device, and returns the tracking target.
  • the model creation unit 24 of each tracking device recognizes the feature amount of the tracking target other than the tracking target of the correct answer and the feature amount of the tracking target outside the movement limit range of the tracking target of the correct answer in its own storage unit. It is characterized in that the process of extracting the tracking target is turned off for the tracking device that is deleted from the model and the tracking target no longer exists in the recognition model due to this deletion.
  • Monitoring terminal Tracking device 21
  • Image reporting unit 22
  • Image file storage unit 23
  • Recognition model storage unit 25
  • Communication unit 100 Movement target tracking system (tracking system)

Abstract

追跡装置(2)は、追跡対象についての特徴量を1つ以上含む認識モデルが追跡対象ごとに格納される認識モデル格納部(25)と、自身の監視カメラの撮影画像から認識モデルを用いて、追跡対象を抽出する候補検出部(23)と、候補検出部(23)が追跡対象を抽出するときに用いた認識モデルに対して、抽出した追跡対象から検出した新たな特徴量を追加することで認識モデル格納部(25)内の認識モデルを更新するモデル作成部(24)と、自身が更新した認識モデルを、自身の監視カメラから所定範囲内に位置する他の監視カメラをもとに監視を行う他装置に配布する通信部(26)とを有する。

Description

追跡装置、追跡システム、追跡方法、および、追跡プログラム
 本発明は、追跡装置、追跡システム、追跡方法、および、追跡プログラムに関する。
 IoT(Internet of Things)デバイスの一つであるwebカメラの普及に伴い、webカメラの撮影画像から有益な情報を機械的に抽出するシステムが提案されている。
 非特許文献1には、蝶類画像の色・形状・テクスチャから構成される特徴ベクトルを自己組織化マップ(SOM:Self-Orgnanizing Map)に適用することで、蝶の種類を分別することが記載されている。
 非特許文献2には、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)とSOMとを組み合わせて、人の感情表現の画像を学習対象とし、ロボットにその感情表現を反映することが記載されている。
日向崇、西川郁子、「自己組織化マップを用いた蝶類標本画像データベースの構築」、日本ファジィ学会誌 Vol.14 No.1 pp74-81 2002、[online]、[2020年6月12日検索]、インターネット〈URL:https://www.jstage.jst.go.jp/article/jfuzzy/14/1/14_KJ00002088995/_pdf/-char/ja〉 Nikhil Churamani et al."Teaching Emotion Expressions to a Human Companion Robot using Deep Neural Architectures",DOI: 10.1109/IJCNN.2017.7965911 Conference: 2017 International Joint Conference on Neural Networks (IJCNN), At Anchorage, Alaska, USA、[online]、[2020年6月12日検索]、インターネット〈URL:https://www.researchgate.net/publication/318191605_Teaching_Emotion_Expressions_to_a_Human_Companion_Robot_using_Deep_Neural_Architectures〉
 街中のさまざまな場所に設置されたwebカメラの撮影画像からナイフを所持している人物などの特定の行動を起こした移動対象を追跡対象として検出し、その人物の移動軌跡をカメラを使って継続して捕捉する防犯システムを検討する。
 従来の追跡システムでは、撮影画像から移動対象を追跡するためには、追跡対象の認識モデルをあらかじめ学習させておく必要があった。そのため、突発的な強盗犯など事前学習がなされていない移動対象を追跡できなかった。
 そこで、本発明は、事前学習がなされていない移動対象を追跡することを主な課題とする。
 前記課題を解決するために、本発明の追跡システムは、以下の特徴を有する。
 本発明は、追跡対象についての特徴量を1つ以上含む認識モデルが追跡対象ごとに格納される認識モデル格納部と、
 自身の監視カメラの撮影画像から認識モデルを用いて、追跡対象を抽出する候補検出部と、
 前記候補検出部が追跡対象を抽出するときに用いた認識モデルに対して、抽出した追跡対象から検出した新たな特徴量を追加することで前記認識モデル格納部内の認識モデルを更新するモデル作成部と、
 自身が更新した認識モデルを、自身の監視カメラから所定範囲内に位置する他の監視カメラをもとに監視を行う他装置に配布する通信部とを有することを特徴とする。
 本発明によれば、事前学習がなされていない移動対象を追跡することができる。
本実施形態に係わる追跡対象画像と、その画像から抽出された特徴量とを示す説明図である。 本実施形態に係わる図1の特徴量を抽出するときに使用されるCNNの説明図である。 本実施形態に係わる図1の特徴量を抽出した結果をSOMとして表現した説明図である。 本実施形態に係わる移動対象追跡システムの構成図である。 本実施形態に係わる図1の追跡対象画像をもとに移動対象追跡システムが人物を追跡する処理を示すテーブルである。 本実施形態に係わる図5に続いて、監視者が追跡対象画像から犯人を指定した後の処理を示すテーブルである。 本実施形態に係わる図3のSOMについて、人物Pc1の派生モデルを示す説明図である。 本実施形態に係わる移動対象追跡システムにおける監視オフによる省力化処理を示すテーブルである。 本実施形態に係わる追跡装置のハードウェア構成図である。
 以下、本発明の一実施形態について、図面を参照して詳細に説明する。
 まず、導入として、図1~図3を参照して図4の移動対象追跡システム100が行う追跡処理の概要を説明する。図4からは、本発明の構成を明らかにする。
 図1は、追跡対象が写る画像と、その画像から抽出された特徴量とを示す説明図である。本実施形態では、追跡対象の一例として、強盗犯の犯人を例示する。一方、移動対象追跡システム100が扱う追跡対象は、人物に限定されず、ペットなどの動物や、車両などに適用してもよい。以下、地点Aで発見された強盗犯の犯人が、地点B→地点Cに逃走したとする。
 図1上部に示すように、地点Aを担当する追跡装置2(図4)は、地点Aを監視するカメラから、1人分の移動対象(犯人)を検出した。具体的には、地点Aの画像認識アプリケーションは、ナイフをかざす人物などの危険行動をカメラの映像から検出し、その人物の画像領域を追跡対象画像Pa1として切り取った。
 地点Aの監視カメラが検出した追跡対象画像Pa1と、その追跡対象画像Pa1から即席的に構築された認識モデルMa1とが対応づけられている。認識モデルMa1には、追跡対象画像Pa1から抽出した特徴量として[人の輪郭C11]が含まれる。なお、地点Aの初期発見時には、監視カメラの配置と対象の位置等様々な制約から、対象の様々な特徴を映像からすぐに検出できない。
 地点Aで作成された認識モデルMa1は、地点Aから周囲の地点Bに伝搬することで、追跡を継続する(認識モデルMa1から発する2つの矢印として図示)。
 図1中央部に示すように、地点Bを担当する追跡装置2は、地点Bを監視するカメラから、伝搬された認識モデルMa1の特徴量に合致する2人分の移動対象を検出した。
 1人目として、追跡対象画像Pb1と、その追跡対象画像Pb1から抽出された認識モデルMb1とが対応づけられている。認識モデルMb1には、1人目が合致する認識モデルMa1の[人の輪郭C11]に加えて、新たに追跡対象画像Pb1から抽出した特徴量[男の服装C21]が含まれる。
 2人目として、追跡対象画像Pb2と、その追跡対象画像Pb2から抽出された認識モデルMb2とが対応づけられている。認識モデルMb2には、2人目が合致する認識モデルMa1の[人の輪郭C11]に加えて、新たに追跡対象画像Pb2から抽出した特徴量[女の服装C22]が含まれる。
 地点Bで作成された認識モデルMb1,Mb2は、地点Bから周囲の地点Cに伝搬することで、追跡を継続する(認識モデルMb1,Mb2から発する合計3つの矢印として図示)。
 図1下部に示すように、地点Cを担当する追跡装置2は、地点Cを監視するカメラから、伝搬された認識モデルMb1の特徴量に合致する1人分の移動対象と、伝搬された認識モデルMb2の特徴量に合致する2人分の移動対象(つまり合計3人分)を検出した。
 1人目として、追跡対象画像Pc1と、その追跡対象画像Pc1から抽出された認識モデルMc1とが対応づけられている。認識モデルMc1には、1人目が合致する認識モデルMb1の[人の輪郭C11]および[男の服装C21]に加えて、新たに追跡対象画像Pc1から抽出した特徴量[犯人の顔C31]が含まれる。
 2人目として、追跡対象画像Pc2と、その追跡対象画像Pc2から抽出された認識モデルMc2とが対応づけられている。認識モデルMc2には、2人目が合致する認識モデルMb2の[人の輪郭C11]および[女の服装C22]に加えて、新たに追跡対象画像Pc2から抽出した特徴量[主婦の顔C32]が含まれる。
 3人目として、追跡対象画像Pc3と、その追跡対象画像Pc3から抽出された認識モデルMc3とが対応づけられている。認識モデルMc3には、3人目が合致する認識モデルMb2の[人の輪郭C11]および[女の服装C22]に加えて、新たに追跡対象画像Pc3から抽出した特徴量[学生の顔C33]が含まれる。
 このように、地点A→地点B→地点Cと捕捉時間が増えることで、獲得できる特徴量も認識モデルに次々と追加されていく。これにより、追跡過程の映像で得られた特徴量を以降の過程で逐次認識モデルに反映させることで、監視カメラの映像に映る多数の人物から追跡対象候補を絞り込むことができる。図1では、以下の順序で、認識モデルが豊富になっていく例を示した。
 (地点A)背後の輪郭のみ
 (地点B)着ている服装の特徴が判明
 (地点C)顔の詳細な特徴まで判明
 図2は、図1の特徴量を抽出するときに使用されるCNNの説明図である。
 CNN200は、入力画像201を受け付ける入力層210と、隠れ層220と、入力画像201の判定結果を出力する出力層230とが接続されて構成される。
 隠れ層220は、畳み込み層221→プーリング層222→…→畳み込み層226→プーリング層227と交互に繰り返される。各畳み込み層では畳み込み処理(画像の抽象化)が行われ、各プーリング層では画像の位置移動に対する普遍性を獲得するためのプーリング処理が行われる。
 そして、プーリング層227からは、全結合層228,229に接続される。この全結合層直前(プーリング層227と全結合層228との境界)には、画像の色や形状など様々な特徴を内包する最終特徴量マップが含まれており、図1で抽出する認識モデルの特徴量として使用できる。
 つまり、図1の追跡対象画像Pa1などを入力画像201とし、その入力画像201から伝搬されるCNN200の全結合層直前の最終特徴量マップ(高次元ベクトル)から特徴量を求めることができる。
 なお、図2のCNNは、特徴量を抽出するための手段の1つに過ぎず、他の手段を用いてもよい。例えば、CNNに限定されず、追跡対象の物体の画像の色や形状等の様々な特徴を内包して特徴量ベクトル化できる他の手段を、特徴量を抽出するために用いてもよい。または、追跡装置2の管理者は、認識モデルに加える特徴量として、輪郭、服装、眼鏡などの人物の特徴を個別に抽出できるアルゴリズムにより、明示的に個々の特徴量を抽出してもよい。
 図3は、図1の特徴量を抽出した結果をSOMとして表現した説明図である。図1と同様に、認識モデルMa1→認識モデルMb1などの図示した矢印は、認識モデルが配布される経路を示す。この経路情報は、各認識モデルに書き込まれることで、自身の認識モデルが他のどの認識モデルから配布(派生)したものかがわかる。
 SOMとは、高次元の観測データセットに対し、データ分布の位相的構造を保存しつつ、2次元空間へ写像したデータ構造であり、教師なし学習アルゴリズムに用いられる。SOM上で隣り合う者同士は観測空間でも互いに近いデータベクトルを持つ。
 例えば、認識モデルMb1には、[人の輪郭C11]と、[男の服装C21]とがSOM上で隣り合う。これは、[人の輪郭C11]という特徴量をもつ追跡対象から、新たに[男の服装C21]が検出されたことを意味する。
 なお、SOMでは、入力ベクトル間の二次元マップ上における位置関係からデータの分類が可能である。そのため、各入力情報の次元ごとの重みを伝播、学習を繰り返すことで入力空間でのサンプルの分布を写像するように学習される。
 各SOM(認識モデル)に対して、特徴量を追加する処理の詳細は、例えば、参考文献「新しいモデリング・ツールとしてのKohonenネットワーク」、[2020年6月12日検索]、インターネット〈URL:https://cicsj.chemistry.or.jp/15_6/funa.html〉に記載されている。
 この参考文献をもとに、図3のSOMを作成するには、射影した特徴量から得られる「勝者ニューロン」をもとに、「U-matrix法」によりベクトルから一定範囲以内の領域を割り出し、割り出された追跡対象のSOMマップ上における存在領域(特徴量)を、認識モデルに追加すればよい。
 「勝者ニューロン」とは、参照ベクトル(1入力ベクトル)と一番似た重みベクトルをもつニューロンである。勝者ニューロンcとその近隣のニューロンの重みベクトルを入力ベクトルに近づくように、重みベクトルの修正を行う。
 「U-matrix法」とは、隣接する出力層ニューロンの各ユニット間の距離情報をもとに、隣接するユニット間の類似性/非類似性を視覚的に確認できるようにした手法である。類似性の低い(距離的に遠い)ニューロンの間が「山」になって表現される。
 図4は、移動対象追跡システム100の構成図である。
 移動対象追跡システム100は、監視センタ内の監視者が用いる監視端末1と、街中などの各監視地点に配備される追跡装置2(地点Aの追跡装置2A、地点Bの追跡装置2B)とがネットワークで接続されて構成される。
 なお、追跡装置2は図4では2台を例示したが、1台以上でもよい。また、1つの地点を1台の追跡装置2が担当することとしてもよいし、複数の地点を1台の追跡装置2が担当することとしてもよい。
 追跡装置2は、画像報告部21と、画像ファイル格納部22と、候補検出部23と、モデル作成部24と、認識モデル格納部25を記憶する記憶部と、通信部26とを有する。
 地点Aの追跡装置2Aは、画像報告部21Aと、画像ファイル格納部22Aと、候補検出部23Aと、モデル作成部24Aと、認識モデル格納部25Aと、通信部26Aとを有する(符号の末尾「A」)。
 地点Bの追跡装置2Bは、画像報告部21Bと、画像ファイル格納部22Bと、候補検出部23Bと、モデル作成部24Bと、認識モデル格納部25Bと、通信部26Bとを有する(符号の末尾「B」)。
 以下、図4に記載の各ステップ(S11~S19)を参照しつつ、追跡装置2の各構成要素を説明する。なお、図4に示したステップや矢印は、追跡装置2の各構成要素間の関係を示す一部のものを例示しただけであり、図示されていない他の構成要素間にも、適宜メッセージの通知が行われる。
 画像ファイル格納部22Aには、図示しない監視カメラから撮影された映像が格納される。画像報告部21Aは、危険行為検出等から発見した犯人候補の(追跡対象の)映像を画像ファイル格納部22Aから読み出して、監視端末1に送信し続ける(S11)。つまり、各地点で検出された追跡対象候補の画像と、その検出に用いた認識モデルとの時系列情報が、刻々と監視センタに集約される。
 モデル作成部24Aは、画像ファイル格納部22A内の映像から候補検出部23Aが抽出した追跡対象画像(S12)を画像解析し、その結果である認識モデル(例えば図3の認識モデルMa1)を作成する。認識モデルMa1は、認識モデル格納部25Aに格納される(S13)。
 なお、モデル作成部24Aは、図2のCNNと、図3のSOMとを組み合わせて認識モデルを作成してもよいし、この組合せに限定せずに、認識モデルを作成してもよい。例えば、モデル作成部24Aは、図2のCNNにより抽出した特徴量をSOM以外のデータ構造に配置してもよいし、図2のCNN以外の方法で抽出した特徴量をSOMのデータ構造に配置してもよい。
 通信部26Aは、モデル作成部24Aが作成した認識モデルMa1を、隣接する地点Bの通信部26Bに配布する(S14)。なお、配布先は、隣接する地点に限定されず、例えば、対象検出時点から一定距離の範囲以内(ex.半径5km以内)の地点を担当する追跡装置2も該当する。
 通信部26Bは、S14で配布された地点Aからの認識モデルMa1を自身の認識モデル格納部25Bに反映しつつ(S15)、候補検出部23Bに通知する(S16)。
 候補検出部23Bは、認識モデルMa1をもとに地点Bの画像ファイル格納部22B内の映像を監視し、認識モデルMa1に合致する2人の人物を追跡対象の候補として検出する。そして、画像報告部21Bは、検出元の認識モデルMa1と、新たに検出された2人の人物が写る追跡対象画像とを監視端末1に通知する(S17)。これにより、監視者は、現時点で最新の追跡状況を知ることができる。
 モデル作成部24Bは、候補検出部23Bから通知された検出元の認識モデルMa1に新たな特徴量を追加した2人の認識モデルMb1,Mb2を作成する(つまりMa1を更新する)。更新された認識モデルMb1,Mb2は、自身の認識モデル格納部25Bに格納されるとともに(S18)、通信部26Bから他地点に配布される。
 なお、S14の矢印の逆方向として、更新された認識モデルMb1,Mb2が地点Aに戻されると(今回の配布先=前回の配布元)、認識モデル格納部25A内の認識モデルMa1は、更新された認識モデルMb1,Mb2に差し替わる。換言すると、古い認識モデルMa1の特徴量が、新しい認識モデルMb1,Mb2の特徴量として引き継がれる。
 これにより、各地点の認識モデル格納部25が保有する認識モデル数に比例して増加しなくなり、検出所要時間を削減できる。
 ここで、監視者は、S17で通知された犯人候補映像から、目視確認で犯人だと断定できる場合に正解トリガを監視端末1に入力する。なお、追跡対象の候補数は検出地点から離れるにつれ爆発的に増加するため、監視者は正解フラグを早期に入力することが望ましい。
 監視端末1は、正解トリガとして入力された犯人の認識モデルを各モデル作成部24に通知することで、犯人以外の認識モデルを各認識モデル格納部25から削除させ、監視処理の軽量化を行う(S19,詳細は図6,図7で後記)。
 図5は、図1の追跡対象画像をもとに移動対象追跡システム100が人物を追跡する処理を示すテーブルである。テーブルの列は各追跡装置2が担当する地点A~地点Cを示し、地点Bからは地点Aおよび地点Cが近傍に位置するものの、地点Aと地点Cとは近傍ではない。また、テーブルの行はテーブルの上から下に向かって経過する時刻を示す。
 地点Aの追跡装置2は、犯人が映る追跡対象画像Pa1(以下、人物Pa1)を発見し(時刻t11)、その人物の認識モデルMa1を作成する(時刻t12)。
 地点Bの追跡装置2は、初期伝播として地点Aの追跡装置2から認識モデルMa1の配布を受け、候補検出部23の映像分析アプリを起動して監視を開始する(時刻t12)。
 地点Aの追跡装置2は、認識モデルMc1に従い監視を継続するが、犯人が地点Bに逃走してしまう(時刻t13)。
 地点Bの追跡装置2は、初期伝播された認識モデルMa1から人物Pb1、Pb2の追跡対象画像を発見する(時刻t21)。そして、地点Bの追跡装置2は、更新前の認識モデルMa1の特徴量を維持しつつ、新たに検出された追跡対象候補の特徴量を追加することで、人物Pb1の認識モデルMb1と、人物Pb2の認識モデルMb2とを作成する(時刻t22)。地点Bの追跡装置2は、自身が更新した認識モデルMb1,Mb2を、拠点の周囲一定範囲内(ここでは地点Aと地点C)へ再配布する。
 地点Cの追跡装置2は、地点Bの追跡装置2から認識モデルMb1,Mb2の配布を受け、候補検出部23の映像分析アプリを起動して監視を開始する。地点Aの追跡装置2は、地点Bの追跡装置2から認識モデルMb1,Mb2の配布を受けて認識モデルMa1を差し替え、監視を継続する。つまり、同一対象候補(同一犯人)に対する認識モデルの配布先と、その配布元とが一致する場合(ここでは地点A)、配布元の古いマップが新しいマップに差し替えられる。
 ここで、犯人が地点Cに逃走してしまう(時刻t23)。
 地点Cの追跡装置2は、認識モデルMb1から人物Pc1を発見し、認識モデルMb2から人物Pc2、Pc3を発見する(時刻t31)。そして、地点Cの追跡装置2は、発見した人物Pc1の認識モデルMc1と、人物Pc2の認識モデルMc2と、人物Pc3の認識モデルMc3とをそれぞれ作成する(時刻t32)。地点Bの追跡装置2は、地点Cの追跡装置2から認識モデルMc1,Mc2,Mc3の配布を受け、認識モデルMb1,Mb2を差し替え、監視を継続する。
 地点Cの追跡装置2は、時刻t32で作成した認識モデルMc1,Mc2,Mc3に従い、監視を継続する(時刻t33)。
 図6は、図5に続いて、監視者が追跡対象画像から犯人を指定した後の処理を示すテーブルである。
 図5の時刻t33に続く図6の時刻t34では、地点Aの追跡装置2が認識モデルMb1,Mb2に従い監視中であり、地点Bの追跡装置2が認識モデルMc1,Mc2,Mc3に従い監視中であり、地点Cの追跡装置2が認識モデルMc1,Mc2,Mc3に従い監視中である。
 ここで、監視者は、地点Cから通知された犯人候補映像(認識モデルMc1の人物Pc1、認識モデルMc2の人物Pc2、認識モデルMc3の人物Pc3)を目視確認し、認識モデルMc1の人物Pc1を犯人と断定する旨の正解トリガを監視端末1に入力する(時刻t41)。さらに、監視端末1(または各地点の追跡装置2)は、認識モデルMc1に対応づけられた配布履歴を参照して、人物Pc1の派生モデル「認識モデルMa1,Mb1,Mc1」を特定する。
 図7は、図3のSOMについて、人物Pc1の派生モデルを示す説明図である。破線101に示すように、地点Aの認識モデルMa1→地点Bの認識モデルMb1→地点Cの認識モデルMc1の順に配布されているので、この配布経路を逆にたどることで、人物Pc1の派生モデル「認識モデルMa1,Mb1,Mc1」が得られる。このように、今後の監視対象を派生モデルに絞り込むことで、監視者の監視負担を軽減できる。
 なお、各地点の画像報告部21が監視者に通知する(レコメンドする)映像(追跡対象画像)は、正解トリガの発見時刻から所定時間内に、正解トリガの発見地点から所定範囲内で捉えられた追跡対象候補のうち、派生モデルに該当する映像である。所定範囲内とは、発見時刻から所定時間内に発見地点から到達可能なエリアである。
 そのため、監視端末1は、(犯人の移動速度の限界値)×(所定時間)=(移動距離)を計算し、発見地点を中心に(移動距離)の範囲内のエリアを到達可能なエリアとする。
 図6に戻り、監視端末1は、人物Pc1の派生モデル「認識モデルMa1,Mb1,Mc1」を各地点に通知する(時刻t42)。
 派生モデルの通知を受け、各地点の追跡装置2は、自身の監視対象となる認識モデル格納部25から、派生モデルに該当しない認識モデル(Mb2,Mc2,Mc3など)を除外し、派生モデルを残す(時刻t43)。これにより、犯人とは別人を監視対象から除外することで、監視負荷を下げることができる。つまり、1台の追跡装置2あたりの保有する認識モデル格納部25内のモデル数と、追跡対象候補との爆発的な増加を防ぐことができる。
 また、図6には該当例は存在しないが、派生モデルに該当しないマップを除外した結果、自身の保有する認識モデル格納部25に登録されていた認識モデルが全て削除された場合には、その追跡装置2は、稼動を停止することにより、監視負荷を下げることができる。
 ここで、地点Cの追跡装置2は、認識モデルMc1の監視により犯人の人物Pc1を発見したとする(時刻t51)。このとき、地点Aの追跡装置2は、犯人が発見された地点Cから遠い地点なので、認識モデル格納部25Aをクリア(認識モデルの全消去)にして監視を終了する(時刻t52)。一方、地点Bの追跡装置2は、犯人が発見された地点Cから近い地点なので、認識モデル格納部25B内の認識モデルMc1を残して周囲の警戒を続ける。
 これにより、犯人が移動してくる範囲(前記の所定範囲)の外を監視対象から除外することで、監視者による対象特定のための映像確認時間を削減できる。
 図8は、移動対象追跡システム100における監視オフによる省力化処理を示すテーブルである。
 前記した図6、図7の説明では監視者による正解トリガを手がかりに、今後の監視対象を絞り込む処理を述べた。一方、図8では、各地点の認識モデル格納部25の更新頻度を手がかりに、今後の監視対象を絞り込む処理を述べる。
 時刻t1では、地点LAのモデル作成部24は、同一エリア内(地点LA内)の同一カメラで継続して捉えられる対象人物の映像から、同一の認識モデルを生成する。つまり、対象人物が同一エリア内に居続ける場合には、次々に特徴量が検出できるので、認識モデルの作成処理も継続する。
 そして、地点LAで発見された人物の認識モデルMa1が、地点LAの近傍(半径5km以内など)に位置する地点LB,LC,LD,LEに対して初期伝播(配備)される。つまり、認識モデルにて新たに追跡対象候補を検出した時、検出したカメラから一定距離範囲以内のカメラの映像解析を担当する追跡装置2の候補検出部23を起動させる。
 時刻t2では、地点LBで認識モデルMa1をもとに発見された人物の認識モデルMb1が、地点LBの近傍に位置する地点LA,LC,LFに対して初期伝播される。配布先の地点LA,LCでは認識モデルMa1を認識モデルMb1に更新し、配布先の地点LFでは認識モデルMb1が初期伝播(配備)される。
 時刻t3では、地点LCで認識モデルMb1をもとに発見された人物の認識モデルMc1が、地点LCの近傍に位置する地点LB,LFに対して配布される。配布先の地点LB,LFでは認識モデルMb1を認識モデルMc1に更新する。
 ここで、地点LD,LEに着目する。地点LD,LEでは、時刻t1で認識モデルMa1が配備された後、所定期間(例えば、t=2,t=3の合計2ターン)以上、自身の認識モデル格納部25が更新されない。よって、認識モデルの更新がしばらく発生しない地点LD,LEは追跡対象候補が存在する可能性が少ないエリアであると推定される。よって、地点LD,LEそれぞれの追跡装置2(候補検出部23)を監視オフにしてもよい。このように、追跡対象候補の移動に伴い、一定期間所有するすべての認識モデルが更新をうけない追跡装置2(候補検出部23)を監視オフにする。
 図9は、追跡装置2のハードウェア構成図である。
 追跡装置2は、CPU901と、RAM902と、ROM903と、HDD904と、通信I/F905と、入出力I/F906と、メディアI/F907とを有するコンピュータ900として構成される。
 通信I/F905は、外部の通信装置915と接続される。入出力I/F906は、入出力装置916と接続される。メディアI/F907は、記録媒体917からデータを読み書きする。さらに、CPU901は、RAM902に読み込んだプログラム(アプリケーションや、その略のアプリとも呼ばれる)を実行することにより、各処理部を制御する。そして、このプログラムは、通信回線を介して配布したり、CD-ROM等の記録媒体917に記録して配布したりすることも可能である。
 以上説明した本実施形態では、追跡装置2が、監視カメラの映像をCNNに入力して得られる特徴量が時間経過により変動する過程で、新たな特徴量をSOMマップに追加することで認識モデル格納部25を更新する処理について説明した。さらに、追跡装置2は、更新されたSOMマップを近傍の別地点へと伝播することで、追跡対象が逃げ回っても的確に追跡できる。
[効果]
 本発明の追跡装置2は、
 追跡対象についての特徴量を1つ以上含む認識モデルが追跡対象ごとに格納される認識モデル格納部25と、
 自身の監視カメラの撮影画像から認識モデルを用いて、追跡対象を抽出する候補検出部23と、
 候補検出部23が追跡対象を抽出するときに用いた認識モデルに対して、抽出した追跡対象から検出した新たな特徴量を追加することで認識モデル格納部25内の認識モデルを更新するモデル作成部24と、
 自身が更新した認識モデルを、自身の監視カメラから所定範囲内に位置する他の監視カメラをもとに監視を行う他装置に配布する通信部26とを有することを特徴とする。
 これにより、追跡対象の特徴量情報が増えるにつれて、対応する認識モデルが更新され、次々に他装置に配布される。よって、学習済の認識モデルをあらかじめ全地点でデプロイできない場合でも、初期で検出した対象の認識モデルを即席で作成し、後続カメラでの映像解析に活用できる。
 本発明は、認識モデル格納部25には、自身が更新した認識モデルと、他装置が更新した認識モデルとが格納されており、
 通信部26が、過去に他装置に配布した認識モデルが他装置により更新された後に、自身に再配布されたときには、認識モデル格納部25から過去に他装置に配布した認識モデルを削除することを特徴とする。
 これにより、同一対象候補に対する認識モデルの配布先がその配布元である場合、更新した認識モデルに差し替えることで、1台あたりの所持する認識モデル数を削減し、追跡装置2の分析速度を向上できる。
 本発明は、モデル作成部24が、追跡対象の画像の特徴を内包した特徴量ベクトルをもとに、監視カメラの撮影画像から追跡対象の特徴量を取得し、観測データセットに対しデータ分布の位相的構造を保存しつつ2次元空間へ写像したデータ構造上の領域に追跡対象の特徴量を配置することで、認識モデル格納部25内の認識モデルを更新し、
 候補検出部23が、監視カメラの撮影画像に映る追跡対象の特徴量が、前記データ構造上の領域に登録されている追跡対象の特徴量と近接する場合に、追跡対象を抽出することを特徴とする。
 これにより、追跡対象の特徴量を事前に定義しなくても、特徴量ベクトルから自動で抽出できる。
 本発明は、モデル作成部24が、同一エリア内の同一カメラの映像から継続して捉えられる追跡対象から同一の認識モデルを生成し、
 候補検出部23が、認識モデル格納部25内の認識モデルが所定期間の間に更新されない場合、追跡対象を抽出する処理をオフにすることを特徴とする。
 これにより、追跡対象が存在する可能性がないエリアでの追跡処理をオフにすることで、追跡装置2のリソース消費を削減できる。
 本発明は、追跡装置2と、監視者が操作する監視端末1とを有する追跡システムであって、
 追跡装置が、さらに、候補検出部23が抽出した追跡対象が映る撮影画像を監視端末1に送信する画像報告部21を有し、
 監視端末1が、送信された撮影画像から正解の追跡対象を指定する入力を受け、正解の追跡対象を追跡装置に返信し、
 各追跡装置のモデル作成部24が、正解の追跡対象以外の追跡対象の特徴量、および、正解の追跡対象の移動限界範囲の外にある追跡対象の特徴量を、それぞれ自身の記憶部内の認識モデルから削除するとともに、この削除に伴って認識モデルに追跡対象が存在しなくなった追跡装置については、追跡対象を抽出する処理をオフにすることを特徴とする。
 これにより、不正解の追跡対象を適切に除外することで、監視端末1に提案する追跡対象を抑制できる。
 1   監視端末
 2   追跡装置
 21  画像報告部
 22  画像ファイル格納部
 23  候補検出部
 24  モデル作成部
 25  認識モデル格納部
 26  通信部
 100 移動対象追跡システム(追跡システム)

Claims (7)

  1.  追跡対象についての特徴量を1つ以上含む認識モデルが追跡対象ごとに格納される認識モデル格納部と、
     自身の監視カメラの撮影画像から認識モデルを用いて、追跡対象を抽出する候補検出部と、
     前記候補検出部が追跡対象を抽出するときに用いた認識モデルに対して、抽出した追跡対象から検出した新たな特徴量を追加することで前記認識モデル格納部内の認識モデルを更新するモデル作成部と、
     自身が更新した認識モデルを、自身の監視カメラから所定範囲内に位置する他の監視カメラをもとに監視を行う他装置に配布する通信部とを有することを特徴とする
     追跡装置。
  2.  前記認識モデル格納部には、自身が更新した認識モデルと、他装置が更新した認識モデルとが格納されており、
     前記通信部は、過去に他装置に配布した認識モデルが他装置により更新された後に、自身に再配布されたときには、前記認識モデル格納部から過去に他装置に配布した認識モデルを削除することを特徴とする
     請求項1に記載の追跡装置。
  3.  前記モデル作成部は、追跡対象の画像の特徴を内包した特徴量ベクトルをもとに、監視カメラの撮影画像から追跡対象の特徴量を取得し、観測データセットに対しデータ分布の位相的構造を保存しつつ2次元空間へ写像したデータ構造上の領域に追跡対象の特徴量を配置することで、前記認識モデル格納部内の認識モデルを更新し、
     前記候補検出部は、監視カメラの撮影画像に映る追跡対象の特徴量が、前記データ構造上の領域に登録されている追跡対象の特徴量と近接する場合に、追跡対象を抽出することを特徴とする
     請求項1または請求項2に記載の追跡装置。
  4.  前記モデル作成部は、同一エリア内の同一カメラの映像から継続して捉えられる追跡対象から同一の認識モデルを生成し、
     前記候補検出部は、前記認識モデル格納部内の認識モデルが所定期間の間に更新されない場合、追跡対象を抽出する処理をオフにすることを特徴とする
     請求項1ないし請求項3のいずれか1項に記載の追跡装置。
  5.  請求項1ないし請求項4のいずれか1項に記載の複数の追跡装置と、監視者が操作する監視端末とを有する追跡システムであって、
     各前記追跡装置は、さらに、前記候補検出部が抽出した追跡対象が映る撮影画像を前記監視端末に送信する画像報告部を有し、
     前記監視端末は、送信された撮影画像から正解の追跡対象を指定する入力を受け、正解の追跡対象を前記追跡装置に返信し、
     各前記追跡装置の前記モデル作成部は、正解の追跡対象以外の追跡対象の特徴量、および、正解の追跡対象の移動限界範囲の外にある追跡対象の特徴量を、それぞれ自身の記憶部内の認識モデルから削除するとともに、この削除に伴って認識モデルに追跡対象が存在しなくなった前記追跡装置については、追跡対象を抽出する処理をオフにすることを特徴とする
     追跡システム。
  6.  追跡装置は、認識モデル格納部と、候補検出部と、モデル作成部と、通信部とを有しており、
     前記認識モデル格納部には、追跡対象についての特徴量を1つ以上含む認識モデルが追跡対象ごとに格納されており、
     前記候補検出部は、自身の監視カメラの撮影画像から認識モデルを用いて、追跡対象を抽出し、
     前記モデル作成部は、前記候補検出部が追跡対象を抽出するときに用いた認識モデルに対して、抽出した追跡対象から検出した新たな特徴量を追加することで前記認識モデル格納部内の認識モデルを更新し、
     前記通信部は、自身が更新した認識モデルを、自身の監視カメラから所定範囲内に位置する他の監視カメラをもとに監視を行う他装置に配布することを特徴とする
     追跡方法。
  7.  コンピュータを、請求項1ないし請求項4のいずれか1項に記載の追跡装置として機能させるための追跡プログラム。
PCT/JP2020/025078 2020-06-25 2020-06-25 追跡装置、追跡システム、追跡方法、および、追跡プログラム WO2021260899A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/012,813 US20230252647A1 (en) 2020-06-25 2020-06-25 Tracking device, tracking system, tracking method, and tracking program
PCT/JP2020/025078 WO2021260899A1 (ja) 2020-06-25 2020-06-25 追跡装置、追跡システム、追跡方法、および、追跡プログラム
JP2022532191A JP7439925B2 (ja) 2020-06-25 2020-06-25 追跡装置、追跡システム、追跡方法、および、追跡プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025078 WO2021260899A1 (ja) 2020-06-25 2020-06-25 追跡装置、追跡システム、追跡方法、および、追跡プログラム

Publications (1)

Publication Number Publication Date
WO2021260899A1 true WO2021260899A1 (ja) 2021-12-30

Family

ID=79282142

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025078 WO2021260899A1 (ja) 2020-06-25 2020-06-25 追跡装置、追跡システム、追跡方法、および、追跡プログラム

Country Status (3)

Country Link
US (1) US20230252647A1 (ja)
JP (1) JP7439925B2 (ja)
WO (1) WO2021260899A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285468A (ja) * 2005-03-31 2006-10-19 Japan Science & Technology Agency 画像対象領域抽出装置及び画像対象領域抽出方法
JP2012234466A (ja) * 2011-05-09 2012-11-29 Nippon Telegr & Teleph Corp <Ntt> 状態追跡装置、方法、及びプログラム
JP2012238119A (ja) * 2011-05-10 2012-12-06 Canon Inc 物体認識装置、物体認識装置の制御方法、およびプログラム
WO2016132772A1 (ja) * 2015-02-19 2016-08-25 シャープ株式会社 情報管理装置、情報管理方法、および制御プログラム
JP2017041022A (ja) * 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285468A (ja) * 2005-03-31 2006-10-19 Japan Science & Technology Agency 画像対象領域抽出装置及び画像対象領域抽出方法
JP2012234466A (ja) * 2011-05-09 2012-11-29 Nippon Telegr & Teleph Corp <Ntt> 状態追跡装置、方法、及びプログラム
JP2012238119A (ja) * 2011-05-10 2012-12-06 Canon Inc 物体認識装置、物体認識装置の制御方法、およびプログラム
WO2016132772A1 (ja) * 2015-02-19 2016-08-25 シャープ株式会社 情報管理装置、情報管理方法、および制御プログラム
JP2017041022A (ja) * 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US20230252647A1 (en) 2023-08-10
JP7439925B2 (ja) 2024-02-28
JPWO2021260899A1 (ja) 2021-12-30

Similar Documents

Publication Publication Date Title
Mosavi et al. Classification of sonar data set using neural network trained by gray wolf optimization
Calo et al. Edge computing architecture for applying AI to IoT
US20200202184A1 (en) Systems and methods for machine learning-based site-specific threat modeling and threat detection
KR101986002B1 (ko) 행동-인식 연결 학습 기반 의도 이해 장치, 방법 및 그 방법을 수행하기 위한 기록 매체
CN111651671B (zh) 用户对象推荐方法、装置、计算机设备和存储介质
Trifonov et al. Artificial intelligence in cyber threats intelligence
KR20210067442A (ko) 객체 인식을 위한 자동 레이블링 장치 및 방법
Maleš et al. A multi-agent dynamic system for robust multi-face tracking
Custers et al. Law and artificial intelligence: regulating AI and applying AI in legal practice
Thakur et al. Artificial intelligence techniques in smart cities surveillance using UAVs: A survey
Lee et al. Deep AI military staff: Cooperative battlefield situation awareness for commander’s decision making
Castellano et al. Pepper4Museum: towards a human-like museum guide
WO2021260899A1 (ja) 追跡装置、追跡システム、追跡方法、および、追跡プログラム
Jang et al. Detection of dangerous situations using deep learning model with relational inference
Zaghetto et al. Agent-based framework to individual tracking in unconstrained environments
KR102463875B1 (ko) 빅데이터를 활용한 사용자 맞춤 심리 치료 콘텐츠 제공 방법, 장치 및 시스템
US10762339B2 (en) Automatic emotion response detection
Gassara et al. Describing correct UAVs cooperation architectures applied on an anti-terrorism scenario
Prabhu et al. Detection and Recognition of Animals Using Yolo Algorithm
Minh-Thai et al. A computational framework for autonomous self-repair systems
KR102500172B1 (ko) 장치 간의 메모리 동기화 방법, 제어 장치 및 시스템
KR102453919B1 (ko) 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템
US20230394938A1 (en) System and method for providing security analytics from surveillance systems using artificial intelligence
Oredsson Cognitive video surveillance: an ANN/CBR hybrid approach
KR102596977B1 (ko) 다중 인공지능 모델을 이용한 보안 관제 시스템, 장치,방법 및 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20941915

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532191

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20941915

Country of ref document: EP

Kind code of ref document: A1