WO2020109016A1 - Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten - Google Patents

Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten Download PDF

Info

Publication number
WO2020109016A1
WO2020109016A1 PCT/EP2019/081317 EP2019081317W WO2020109016A1 WO 2020109016 A1 WO2020109016 A1 WO 2020109016A1 EP 2019081317 W EP2019081317 W EP 2019081317W WO 2020109016 A1 WO2020109016 A1 WO 2020109016A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
identification
frame
determining
image
Prior art date
Application number
PCT/EP2019/081317
Other languages
English (en)
French (fr)
Inventor
Sikandar Amin
Bharti Munjal
Meltem Demirkus BRANDLMAIER
Abdul Rafey Aftab
Fabio Galasso
Original Assignee
Osram Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE102018220274.5A external-priority patent/DE102018220274A1/de
Application filed by Osram Gmbh filed Critical Osram Gmbh
Priority to US17/296,560 priority Critical patent/US20220027664A1/en
Publication of WO2020109016A1 publication Critical patent/WO2020109016A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Definitions

  • the invention relates to a method for the joint detection, tracking and classification of at least one object in a video image sequence.
  • the invention further relates to a method for machine-based training of a computer-implemented network for the joint detection, tracking and classification of at least one object in a video image sequence.
  • the invention also relates to a system for classifying objects, a computer program product stored on the medium and an arrangement.
  • the automated identification, tracking and classification of objects is becoming increasingly important in various areas, such as in the surveillance of people or locations, in sports, in motion analysis and in the area of autonomous driving.
  • one or more objects are identified within a field of view of a camera, i.e. perceived as separate from the background, possibly divided into classes, their movements followed over a period of time and statements made about where the objects will be in the future.
  • the identification and classification of objects and their tracking over a period of time are important in order to be able to carry out a risk assessment or to serve as a basis for decisions on actions based on them.
  • Deep learning networks are often used for automated detection, identification and tracking. Deep learning networks are more suitable for complex tasks than networks with rigid rules, since the large number of variations not specifically depicted in rules and programmed. Deep learning networks and algorithms are already frequently used for pattern recognition. Networks trained on it are also used to detect and identify objects in a field of view.
  • an algorithm is implemented which is less memory-intensive and faster than conventional solutions. This is achieved by performing only a single neural network calculation for each point in time. For this purpose, the detection, an object tracking as well as a feature determination and classification of each object in an image are determined simultaneously. In particular, the movement tracking of an object and the identification or re-identification take place simultaneously.
  • Such a simultaneous determination increases the performance compared to conventional algorithms, especially in the case of low frame rates or large time intervals between the frames of a video sequence.
  • a computer-implemented deep learning network is trained in such a way that the detection, tracking and classification or identification of an object or several objects in individual images, a video sequence takes place simultaneously.
  • the term identification vector is understood to mean a vector or value that is unique, so that an object can be distinguished from another object by the identification vector.
  • the position is advantageous as well as the feature or identification vectors of the respective objects used. Due to the dependency of the association value on time and thus on the refresh rate between the first and the second single image, a relative weighting between the classification vector and the position features or the position of the object is achieved.
  • the weighting contains an inverse dependence on the time between the two individual images. This is chosen so that at low frame rates the relative weighting shifts towards the classification vector, so that objects can still be reliably and reliably identified and tracked.
  • the weighting factor for the classification vector compared to the weighting of the position becomes greater the more time passes between the individual images or the lower the image refresh rate becomes.
  • the classification vector and the position enable an object to be detected or identified even if it is partially covered by other objects in the subsequent frame.
  • an object in the first or second individual image is also associated with objects in a third individual image.
  • an object in the second partial image cannot be associated with an object in the first single image, the object thus remains “left” in the second individual image.
  • the identification vector of the object of the second frame can be compared with the identification vector of an object of a third frame, which is earlier than the first frame.
  • the unique and time-consistent identification vector of the object enables association with objects even in previous single images. It can therefore new identification or re-identification of an object, even if this is not visible in some individual images.
  • a typical application would be, for example, a vehicle that is partially covered by another vehicle and over several individual images and then reappears. The proposed principle re-identifies the vehicle and does not recognize it as a new object.
  • the step of detecting at least one object comprises generating a bounding box that surrounds or encloses the at least one object.
  • a prediction is also generated for the bounding box, which relates to the change in the bounding box from the first to the second individual image.
  • a speed vector is formed for the bounding box of the first frame.
  • the step of selecting comprises at least one of the following steps, namely:
  • the selection process selects candidates for the subsequent association step. Then two information values are extracted for each of the selected bounding boxes, namely the position and an associated classification vector.
  • the step of determining at least one classification vector for the object comprises detecting features of the object, calculating a unique feature vector from the detected features and classifying the object from one Group of specified classes based on the recorded characteristics or on the basis of the calculated characteristic vector.
  • the group of predetermined classes can include at least one of the following classes: pedestrians, cars, buses, bicycles, trucks, tractors, animals, motorcycles and obstacles, in particular stationary or immobile obstacles.
  • a special method is used for the step of generating a time-consistent and unambiguous identification vector, for example a “Hungarian combinatorial optimization” method.
  • the proposed method divides several convolutions for the different tasks, in particular for the detection of the objects in the individual images, that is to say during the implementation of the method within the basic network.
  • H. generating the bounding box, generating the prediction for the bounding box and creating the speed vector. This increases the efficiency of the process and at the same time reduces the hardware requirements.
  • the bounding boxes, which surround the at least one object can be used for various other tasks, such as, for example, generating the prediction or generating the classification rector and the speed vector, and for identifying the object.
  • each task is carried out together or in parallel and not sequentially according to the principle proposed, and the results of a previous step for the subsequent tasks are carried out jointly or in parallel used.
  • a buffer is provided for at least a first and a second individual image of a video sequence.
  • An RPN module ("region proposal network") is coupled to the buffer.
  • the RPN module is designed to generate a first plurality of object proposals from the first single image and a second plurality of object proposals from the second individual image, which can be referred to below as Roi's or “region of interest”.
  • a determination and identification module is connected to the RPN module. This module is designed from the first plurality and the second plurality to generate an identification vector for each object within the first and second plurality.
  • the module is designed in parallel to the above to classify the respective objects and to generate a class-specific bounding box regression for each proposal.
  • a prediction module is also coupled to the RPN module and is therefore arranged parallel to the determination and identification module with regard to functionality. This is carried out for a correlation analysis for an object in a position in the first individual image with respect to its position with corresponding objects in a second individual image.
  • the prediction module is designed to make a prediction about a development of an object proposal from the first individual image with regard to the second individual image.
  • the prediction module in one aspect of the invention is designed with a correlation layer. This is designed to determine a correlation between an object proposal in a first frame and neighboring windows in a second frame.
  • Another aspect of this invention is concerned with the method for a machine-based training of a computer-implemented network for the joint detection, tracking and classification of at least one object in a video image sequence.
  • the video image sequence refers to a large number of successive individual images.
  • the method comprises providing a plurality of individual image pairs, each individual image pair comprising a first and a subsequent second individual image and each individual image having at least one object suggestion, also called “regions of interest” or Roi, each of which a class identification vector uniquely assigns
  • the at least one object suggestion each have an object that can be clearly identified in its class by the class identification vector.
  • a feature vector is now determined for each object suggestion, to which the class identification vector is assigned.
  • the feature vector determined can thus be assigned to a class.
  • An identification vector and a specific bounding box regression are also determined. The latter is specific to the class identification factor.
  • a combined error is now minimized for the training of the computer-implemented network, this resulting from the errors in determining the class identification vector, in determining the least one identification vector and in determining the specific bounding box regression and the interframe regression.
  • a detection of an object, a tracking and a feature identification for the object are trained at the same time. Since the class identification vector for the object proposal and thus preferably for the object within the object proposal is fixed, the method requires training features that correspond to the respective class.
  • the step for each of the at least one object proposal comprises combining features of a predefined size from the individual images using an ROI-Align method.
  • This experience may include or be part of an R-CNN process.
  • the predefined size can be a few pixels, for example 7x7 pixels.
  • the merged features are folded using a convolution block and subsequently combined into a global vector.
  • An online instant matching loess (OIM) method can be used to determine the identification vector will.
  • OIM online instant matching loess
  • determining the identification vector comprises using a fully connected layer of a defined size in order to obtain an identification vector which is lower than the global vector.
  • a classification score is determined which is required for the correct classification of the object in the object proposal. This can be determined by applying two fully connected layers of size (C +1) and x (C + 1), where (C +1) is the number of class identification vectors and thus the classes including the image background.
  • Various methods can be used to minimize the combined error from the individual previous determinations. For example, a software Max Cross Entropy Loss method can be used to determine the error in the classification. A Smooth Ll-Loss method is used to determine the bounding box regression error and to determine the error in an inter-frame regression.
  • Another aspect relates to the step of determining the corrected feature map.
  • a correlation can be determined between the first feature map of the first single image and adjacent sections in a second feature map of the second single image.
  • a correlation between features of the first and the second feature map is detected in that feature paint at a position of the first feature map of the first single image is compared with the features of a position adjacent to the first position.
  • Another aspect relates to an arrangement, preferably a computer-implemented arrangement.
  • This includes a buffer for at least a first and a second frame of a video sequence; and an RPN module for generating a first plurality of independent object suggestions from the first single image and a second plurality of independent object suggestions from the second single image.
  • the arrangement contains a determination and identification module trained together with a prediction module and the prediction module that is trained together with the determination and identification module. All modules are coupled to the RPN module.
  • the trained determination and identification module is designed to identify objects from the first plurality and the second plurality of object proposals and to detect them in the first and second individual images, and which further executes a prediction of the position of an object in the first on from the object proposals single image and in the second single image.
  • the prediction module is designed to make an inter-frame prediction for each object in the first frame based on the first plurality of object proposals and the second plurality of object proposals.
  • the RPN module is preceded by a BaseNet architecture. This is designed to determine a multiplicity of basic features for the first and the second individual image, which can be fed to the RPN module for generating the object suggestions.
  • the trained determination and identification module is designed to combine features of a predetermined size from the basic features for each proposal, in order to provide a multidimensional feature vector.
  • it can be carried out using the feature vector to determine a classification parameter of the object in the object proposal.
  • Classification parameters can be selected from a set of predetermined classes. This allows the arrangement to be trained and optimized for very specific problems and situations.
  • the trained determination and identification module is designed to assign a unique identification vector to an object in the object proposal. This can be useful if the object spans a few frames disappears and then reappears.
  • the identification vector makes it possible to reliably re-identify, since each object contains a unique identification vector.
  • the trained determination and identification module can also be designed to generate a bounding box regression for each object proposal.
  • Another aspect concerns the trained prediction module. This can be carried out on the basis of the basic features of the first and second individual image to predict the regression targets of the detected objects from the first to the second individual image.
  • Figure 1 is a flow diagram of the proposed system
  • Figure 2 shows a computer system for performing the proposed method
  • FIG. 3 shows a video sequence with individual images for displaying results with a network according to the proposed principle
  • FIG. 4 shows an embodiment of a computer-implemented arrangement with the various functional modules
  • FIG. 5 shows a schematic illustration of the PredNet module for determining a prediction of the movement or position of an object
  • FIG. 6 shows an exemplary embodiment of the method for jointly detecting, tracking and classifying at least one object in a video image sequence
  • Figure 7 shows an embodiment of a method for training a computer-based network according to the proposed principle.
  • Automated object detection and recognition particularly in the field of video surveillance and robot technology, has long shown various challenges. Also important is tracking an object, which is often necessary to deal with dynamic scenes to be able to handle. Identifying people and tracking an identified person or object across multiple fields of view has become increasingly important in recent years.
  • FIG. 1 shows a simple flow chart for a system according to the invention, in which various tasks are carried out jointly and simultaneously.
  • a camera 1 takes a large number of images, for example in the form of a video sequence.
  • the images are fed to a network 2, which is explained in more detail below.
  • This detects and identifies various objects that are recorded by the camera in their field of view and transfers them to a tracking module 3.
  • the tracking module uses the information from the network 2 to generate trajectories for each of the objects over time, which are then used for various applications 4 Evaluation can be transferred.
  • Network 2 comprises several functional elements, which are provided with the reference numerals 5, 6 and 7.
  • the functional elements include, among other things, a module or a function for identifying an object, a module or a function for its detection within the transferred image, and a module or function for a movement or position prediction to the object over a longer period of time and to be able to track multiple images.
  • Detection of an object within an image was carried out with module 7.
  • Detectors of this type work either as “region proposal” detectors or as individual detectors.
  • region proposal-based detectors the individual image is divided into different regions or areas and these are processed accordingly using different methods
  • a so-called RPN network is provided, which generates a set of object suggestions (these are often equated with the regions), which are passed on to a neural network for classification and regression.
  • “Almost R-CNN ",” Faster, R-CNN “and” RFCN” methods or generally also ROI-Align methods used.
  • Other variants of object detectors do not generate object suggestions, but determine them "Bounding boxes" around the objects and the corresponding classifications of the image for the individual objects directly.
  • Such object detectors are based, for example, on the YOLO method.
  • a large number of successive images can significantly improve a success rate for an object detection if the corresponding objects are visible, for example, over several individual images.
  • movement of objects in a video sequence from one image to the next makes detection more difficult, since the position of the object changes as a result of the movement.
  • a detection of the object is carried out together with a tracking of the same, which determines and minimizes errors.
  • Such approaches can be used not only for individual objects, but also for several objects within an image.
  • a re-identification of an object is required. For example, a person wandering through several visual fields of cameras could not only be detected across these fields, but also identified and tracked. The same applies in road traffic, for example, if an object is covered by another object for a short time and is to be declared as a known object after it reappears.
  • identification or re-identification and subsequent classification it is proposed to train a unique feature vector for each identity and thus class. This feature vector should preferably be invariant to changes in the camera position, the lighting, the background, the colors and the perspective view.
  • the network 2 includes a prediction module 5, which makes it possible to make a prediction about the movement or the position of an object in a subsequent individual image.
  • a prediction can not only be used to improve the detection or tracking of an object, but also for a risk analysis with regard to the direction of movement of an object, for example in the field of autonomous driving or robot technology.
  • Results or results obtained with such a network are shown in FIG. 3. These show three consecutive individual images of traffic on a road at times t-20, t-10 and t.
  • the network recognized a total of 4 different objects. This includes a bus 32, two cars 33 and 34 traveling in the left-hand lane, and a small van 31 turning behind the bus onto the road.
  • Each of the identified objects is also surrounded by a corresponding bounding box, ie a rectangle that surrounds the outer dimensions of the respective object or vehicle surrounds.
  • the bounding boxes are also shown with slightly different colors, which corresponds to a clear characterization and classification. In the picture below the vehicles have moved.
  • the system is able to continue to track the objects and at the same time identify them as objects that were already present in the previous single image.
  • the two cars 33 and 34 have come a bit closer, the network continues to recognize and assign the same ID (identification) and class to you.
  • the network recognized a new object 35, assigned a unique identification to it and classified it as a further car.
  • the invention proposes a uniform end-to-end architecture for the detection, detection, identification, classification and tracking that optimizes these different tasks together and together.
  • the proposed model architecture is shown in FIG. 4 and contains the two output branches DetldenNet and PredNet.
  • the structure of the latter module is also shown in FIG. 5.
  • the first branch or module DetldenNet outputs an identity vector ID, a box regression BR and a classification value CS.
  • the architecture requires two successive frames I t-1 and I t at times t-1 and t. however, any other time td can be used instead of t-1 (ie the previous picture). These correspond to two consecutive individual pictures.
  • the two individual images, also called frames, are first routed through the BaseNet module, which comprises the first four blocks (Convl - 4) of a ResNet architecture.
  • F t-1 and f fc ( hxw xd ) present the basic features for the two individual images, h, w and d are the height, width and number of channels of the basic features.
  • the BaseNet module is followed by a region suggestion network (RPN) or RPN module in order to receive independent object suggestions from both individual images, which are forwarded to the two modules DetldenNet and PredNet.
  • RPN region suggestion network
  • the DetldenNet module bundles features of size 7 x 7 from the respective basic features by using an ROI-Align procedure.
  • the summarized features are then passed through a series of folds from ResNet's last fold block (Conv5) followed by global averaging. This creates a 2048-dimensional characteristic for each proposal. This feature is then passed on to two sibling branches for identification or detection.
  • the identification branch first applies a fully connected layer of size 256, which creates a smaller dimension identity feature.
  • the detection branch uses two parallel, fully connected layers in size (C + 1) and 4 x (C + 1). This results in a classification value and a class-specific bounding box regression for each proposal.
  • C + 1) is the Number of classes including the background.
  • a "softmax cross entropy loess" method is used for the classification and a smooth-ll-loss method for the bounding box regression.
  • OIM Online instance matching loess
  • PredNet Given the basic characteristics f t-1 and f fc of the size hxwxd of the two individual images, PredNet aims to predict the regression for object recognition from the first image to the second. To achieve this, PredNet first uses a correlation layer that uses the correlation of each feature f t-1 (x, y) in the first feature map with its neighboring (2n + 1) x (2n + 1) window in the second feature map This process produces a feature map C of size h (2n + 1) xw (2n + 1) as shown in the following equation:
  • f t-1 (x, y, d) and f t (x, y, d) are scalar values of the spatial
  • Position x, y and the channel d in the feature map f t-1 and f t . 1 (n, n) is a (2n + 1) x (2n + 1) matrix of ones used to convert the scalar value f t-1 (x, y, d) to a (2n + 1) x ( 2n + 1) Repeat matrix.
  • N [ft (x, y, d)] is the (2n + l) x (2n + 1) neighborhood matrix of ft (x, y, d).
  • the above equation first computes the elemental multiplication of the matrix f t-1 (x, y, d) 1 (n; n) by the neighborhood matrix N [ft (x, y, d)] and then sums it along the
  • C (x, y) is a block of size (2n + 1) x (2n + 1) and the correlation of the feature f t-1 (x, y) with that (2n + 1) x (2n + 1) indicates the neighborhood of the matrix in f t (x; y).
  • the correlated feature map C is then passed to a patch summary layer that covers each (2n + 1) x (2n + 1) window using a filter convolution of size (2n + 1) (2n + 1) with step width 2n + 1 summarizes and outputs 512 output channels.
  • This summarized feature map of size (hxwx 512) is then included concatenated the original basic characteristics f t-1 and f t , and performed a 1 x 1 convolution to obtain d output channels.
  • These features are then further processed using an ROI-Align method and together with the detection-bounding boxes of the first frame, followed by a Conv5 block from ResNet and a completely connected layer around a regression for each tracking or track object proposal.
  • a smooth loss process is performed for PredNet between the basic truth goals and the predicted goals.
  • N tra basic truths (track rois) from the first frame t-1 were used, which also have corresponding boxes (same ID) in frame t.
  • all detections (N) from the first single frame tracking object suggestions (track rois) are used.
  • i is the predicted one Probability of the proposed object j for its basic truth identifier i. This loss is only calculated for the object suggestions in the foreground, which are also assigned a basic truth identification i * ( iden ).
  • the loss weights l x are set to 1.
  • a simple tracking-by-detection algorithm is implemented for tracking, which links the recognition hypotheses with target paths by optimizing the Hungarian association method. For this purpose, the cosine similarity of the ID characteristics and / or the IOU overlap is taken into account in order to calculate the affinity matrix for the Hungarian association.
  • a simple linear motion model and bounding box predictions from the PredNet module are used to predict the target limitation boxes in the subsequent single image. The aim is to assign each detection obtained to a correct trajectory from the available set of trajectories at time t-1.
  • the method uses a tracking buffer for this.
  • This contains the trajectory information for all trajectories for the t-j.
  • the trajectory information includes (a) the bounding box at the trajectory head, the feature vector at the trajectory head to the average speed vector of the target.
  • a two-part graphic is created between all the detections in the current image t and all trajectories in the image t-1, followed by a hungarian association method in order to find an optimal set of one-to-one assignments to find.
  • the association weights of the graph edges are given by an affinity matrix.
  • association metrics There are two types of association metrics. On the one hand, an association of bounding box intersection union (IoU), which is essentially based on the overlap of bounding boxes, and on the other hand, an association based on an ID feature embedding. The cosine similarity is used to calculate the association. Compared to ID functions, the IoU metric enables additional spatial tracking for the tracking step. This avoids matching wrong objects that have a similar appearance, for example cars of the same model / brand or people who have similar clothes. In this context, it was found that a simple combination of the two metrics improves the separate use of the metrics.
  • IoU bounding box intersection union
  • a buffer in which trajectories can be kept that were not associated with a new detection.
  • their identification vector ID is compared for the unassigned trajectories or held in the buffer. These are Trajectories from previous images T-2, t-3 etc. Trajectories of the single image t-2 held in the buffer are those in which there was no association with detection in image t-1. Therefore, such time-interrupted trajectories are available for the comparison for image t.
  • the buffer for these trajectories has a predefined size, which is related to how far back in time trajectories can be associated with newly detected objects.
  • a simple model can be used, in which the pausing trajectories are widened for a short period in addition to the predictions from the PredNet module.
  • FIG. 2 shows a computer arrangement with a camera system on which the proposed method run and arrangement with the various functional modules can be implemented.
  • the computer system is designed for the implementation of neural networks, which are implemented by machine-based learning.
  • the computer system 20 contains one or more processors 21 and 22.
  • the processors are designed for massive parallel processing of data. Chips from NVidia TM, for example, are based on the Xavier TM, Volta TM or Post-Volta TM architecture.
  • the processors are connected to a fast memory 23, among other things, via a bus (shown indicated), in which the individual images to be processed are stored.
  • the memory 23 can also contain further data, such as, for example, the vector definitions or the Roi's and the like.
  • a second slower memory 24 is coupled to the fast memory 23. This contains a video sequence that consists of at least two, but often several frames. The video sequence is supplied by a camera 25 or a corresponding sensor.
  • FIG. 6 illustrates an exemplary embodiment of the method for the joint detection, tracking and classification of at least one object in a video image sequence.
  • the network is in the process has already been trained in such a way that detection, identification and tracking have been trained together, for example using a method according to the method described above.
  • a large number of images are received. This is preferably done in pairs, ie a first and a subsequent second individual image are provided.
  • a second subsequent step S62 objects from the first and the second individual image are detected.
  • several object suggestions (S620) are generated for this purpose, on the basis of which the objects are detected.
  • An object is then selected from the first and second individual images in step S63.
  • step S64 an at least one classification vector and a position for the object are in each case determined for the first and the second individual image.
  • step S65 a correlation between the two selected objects is determined. This checks whether the objects are the same or different objects. For this purpose, an association value is determined, which results from a correlation analysis and based on the determined classification vector and the position. The association value is greater, for example, the greater the likelihood that both objects are the same.
  • association value is above a certain level or is the greatest value, provided that all objects have been compared with one another in this way, a time-consistent and unambiguous identification or identification vector of the at least one object for each individual image is answered in step S66 generates the determined association value.
  • a relationship for the creation of the association value should be emphasized.
  • the weighting shifts in favor of the classification vector the longer the time interval between the two individual images.
  • the position is weighted less if the time between frames increases or the frame rate drops.
  • the trajectory of the object for the two individual images can be determined from two objects associated with one another in this way.
  • step S62 Several tasks or intermediate steps may be necessary for detecting an object in step S62. For example, one or more bounding boxes or object suggestions are created. The bounding boxes as bounding elements surround the at least one object.
  • a prediction P t-1-> t
  • a speed vector V t-1-> t ) is also generated for the bounding box of the first individual image.
  • Different bounding boxes and objects can be selected for later comparison. For example, it is possible to select a bounding box of the first frame and a bounding box of the second frame. In this case, two detected objects Det t-1 , Det t , which were determined in step S620, are selected (S630). Alternatively, the prediction V t-1-> t (S620) can also be used together with a bounding box and an object Det t of the second single image. The third possibility is to use the determined speed vector V t-1-> t and select the bounding box of an object of the second frame.
  • step S64 features of the object are recorded in step S640 and a unique feature vector is determined from the recorded features (S641).
  • a feature vector can be classified as an object in which the feature vector is compared, for example, with predefined class vectors and the class vector with the greatest correlation is used as the class of the object.
  • the class vectors can be selected from a previously defined group. The network with which this method is carried out was also trained with these class vectors.
  • a Hungarian combinatorial optimization method can be used to generate a time-consistent and unambiguous identification vector.
  • objects are thus recognized in two successive individual images. They are assigned a unique ID value so that they can also be tracked across several individual images.
  • by generating the feature vector it is possible to re-identify an object, i.e. correctly identify it as a known object even if it is not visible over a few frames.
  • the above method can be carried out over a longer video sequence with pairs of individual images.
  • trajectories of the objects in the sequence can be generated, which are used for different applications, eg. B. Security and surveillance can be used.
  • FIG. 7 shows an embodiment of the method for a machine-based training of a computer-implemented network for the joint detection, tracking and classification of at least one object in a video image sequence comprising a large number of individual images that follow one another.
  • a large number of individual image pairs is provided in step S71.
  • Each frame pair contains a first and then a second frame.
  • each individual image has at least two object suggestions (Rol), each of which a class identification vector is uniquely assigned.
  • each region of interest (Roi) has a unique and known class identification.
  • Each object proposal for the training expediently has an object which is assigned to a predefined class by the class identification vector.
  • step S72 a feature vector is now determined for each of the at least two object proposals (S721), which are assigned to the class identification vector.
  • an identification vector is determined for each object proposal (S722).
  • a bounding box regression is determined for each object proposal (S723), which is specific for the class identification vector.
  • features of a predefined size are combined from the individual images by means of an R-CNN method (S7211) and then folded into a global vector by means of a folding block with a subsequent combination (S7212). This is useful if the global feature vector or the combined features are used to determine the bounding box regression and the identification vector and 7 or other tasks.
  • a classification score is determined by applying two fully connected layers of size (C + 1) and 4x (C + 1) to the object suggestions, where (C + 1) is the number of class identification vectors including the image background.
  • step S73 determines a feature map correlated for each of the at least two object suggestions between the first individual image and the subsequent second individual image. For this purpose, a correlation between features of a first feature map of the first single image with the features of sections of a second feature map adjacent to the first feature map is determined. In simple terms, a correlation between a feature of the first individual image is sought in sections of the second individual image, the sections being adjacent to the corresponding position of the feature in the second image. Movements of the feature are thus recorded in the second image.
  • This feature map is used in step S74 to determine an interframe regression for each object proposal. Because the results are known during the training (the ones presented for the training Pictures are known), an error can now be determined for each training cycle (S75).
  • the error for each of the preceding steps is not recorded individually, but a combinatorial error.
  • the combinatorial error can be formed by the sum of these errors (S75). This combinatorial error is now minimized for training.
  • a Softmax Cross entropy loss method is used to determine the error in the classification (S751).
  • a smooth ll-loss method can be used to determine the bounding box regression error as performed in step S752.
  • the same procedure is used in step S753 to determine the error of an inter-frame regression.
  • the methods disclosed in this application can be transmitted not only to video sequences or images in the visible range, but also to sensory information in other spectral ranges or even other sensory information, for example sound or radar.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

Es wird ein Verfahren für ein maschinenbasiertes Training eines computerimplementierten Netzwerks zum gemeinsamen Detektieren, Verfolgen und Klassifizieren wenigstens eines Objektes in einer Videobildsequenz aufweisend eine Vielzahl aufeinanderfolgender Einzelbilder vorgeschlagen. Dabei wird während des Trainings ein kombinierter Fehler ermittelt, der sich aus den Fehlern des Bestimmens des Klassenidentifikationsvektors, des Bestimmens des wenigstens eines Identifikationsvektors, des Bestimmens der spezifischen bounding box regression und des Bestimmens der inter-Frame regression ergibt.

Description

Verfahren zum gemeinsamen Detektieren, Verfolgen und Klassifizieren von Objekten
Die Erfindung betrifft ein Verfahren zum gemeinsamen Detektieren, Verfolgen und Klassifizieren wenigstens eines Objektes in einer Vi deobildsequenz. Die Erfindung betrifft weiterhin ein Verfahren für ein maschinenbasiertes Training eines computerimplementierten Netz werks zum gemeinsamen Detektieren, Verfolgen und Klassifizieren we nigstens eines Objektes in einer Videobildsequenz. Außerdem betrifft die Erfindung ein System zur Klassifizierung von Objekten, eine auf dem Medium abgespeichertes Computerprogrammprodukt sowie eine Anord nung .
Die automatisierte Identifizierung, Verfolgung und Klassifizierung von Objekten gewinnt zunehmend an Bedeutung in verschiedenen Bereichen wie beispielsweise bei der Überwachung von Personen, oder Orten, im Sport, bei der Bewegungsanalyse sowie im Bereich des autonomen Fah rens. Hierzu werden beispielsweise eines oder mehrere Objekte inner halb eines Sichtfeldes einer Kamera identifiziert d.h. vom Hintergrund als getrennt wahrgenommen, gegebenenfalls in Klassen eingeteilt, de ren Bewegungen über einen Zeitraum hinweg verfolgt und Aussagen dar über getroffen, wo sich die Objekte in Zukunft befinden werden. Im Bereich des autonomen Fahrens ist die Identifizierung und Klassifi zierung von Objekten sowie deren Verfolgung über einen Zeitraum von wichtiger Bedeutung, um eine Risikoabschätzung vornehmen zu können oder als eine Entscheidungsgrundlage für darauf basierende Handlungen zu dienen. Für die Überwachung von Orten oder Personenströmen kann eine genaue Identifizierung von Personen anhand eindeutiger Merkmale notwendig sein, um diese auch nach einem Verlassen und späteren Wie dereintritt in den überwachenden Bereich sicher identifizieren zu können .
Für die automatisierte Detektion, Identifizierung und Verfolgung kom men häufig maschinenbasierte und trainierte Netzwerke zum Einsatz, die als „deep learning" Netzwerke bezeichnet werden. Deep learning Netzwerke sind für komplexe Aufgabenstellungen besser geeignet als Netzwerke mit starren Regeln, da sich die große Anzahl an Variationen nicht konkret in Regeln abbilden und programmieren lassen. Deep Lear- ning Netzwerke bzw. Algorithmen werden für die Musterkennung bereits häufig eingesetzt. Auch zum Detektieren und Identifizieren von Objek ten in einem Sichtfeld werden darauf trainierte Netzwerke verwendet.
Dabei ist jedoch zu berücksichtigen, dass existierende Lösungen, vor allem bei niedrigen Bildwiederholungsraten Schwierigkeiten mit der Objektverfolgung bzw. der Wiederidentifizierung von Objekten haben können. Dies tritt vor allem dann auf wenn die Geschwindigkeit eines Objektes bezogen auf die Bildwiederholrate recht hoch ist, mit anderen Worten sich zwischen den Einzelbildern stark ändert. Letzteres spielt unter anderem dann eine Rolle, wenn ein bereits identifiziertes Objekt den Bildbereich verlässt und anschließend wieder zurückkehrt oder wenn eine Verfolgung des Objektes aufgrund der niedrigen Bildrate fehl schlägt .
Somit wären weiterführende Lösungen, die eine höhere Flexibilität und bessere Genauigkeit bei der Identifizierung, Verfolgung und Klassi fizierung von Objekten auch bei niedrigen Bildwiederholrate ermögli chen wünschenswert.
In der hier vorgeschlagenen Lösung wird ein Algorithmus implementiert, welche weniger speicherintensiv und schneller als konventionelle Lö sungen ist. Dies wird erreicht, indem für jeden Zeitpunkt lediglich eine einzelne neuronale Netzwerkberechnung durchgeführt wird. Dazu werden die Detektion, eine Objektverfolgung sowie eine Merkmalsbe stimmung und Klassifizierung eines jeden Objektes in einem Bild gleichzeitig bestimmt. Insbesondere erfolgen auch die Bewegungsver folgung eines Objektes sowie die Identifikation bzw. Re-Identifikation gleichzeitig .
Eine derartige gleichzeitige Bestimmung erhöht die Performance gegen über konventionellen Algorithmen, insbesondere bei niedrigen Bildwie derholraten bzw. großen Zeitabständen zwischen den Einzelbildern ei ner Videosequenz. Insbesondere erfolgt ein Training eines computer implementierten Deep-Learning Netzwerkes derart, dass das Detektie ren, Verfolgen und Klassifizieren bzw. Identifizieren eines Objektes oder mehrerer Objekte in Einzelbildern eine Videosequenz gleichzeitig erfolgt .
In einem Verfahren zum gemeinsamen Detektieren, Verfolgen und Klas sifizieren wenigstens eines Objektes in einer Videobildersequenz auf weisend eine Vielzahl aufeinanderfolgende Einzelbilder mit einem trai nierten computerimplementierten Netzwerk werden folgende Schritte ausgeführt :
Empfangen eines ersten Einzelbildes und eines darauffolgenden zweiten Einzelbildes ;
Detektieren mindestens eines Objektes in dem ersten Einzelbild sowie mindestens eines Objektes in dem darauffolgenden zweiten Einzelbild;
Auswählen jeweils eines Objektes aus dem ersten und dem zweiten Ein zelbild;
Ermitteln mindestens eines Klassifizierungssektors und einer Position für die ausgewählten Objekte aus dem ersten und dem zweiten Einzel bild;
Ermitteln eines Assoziierungswertes basierend auf dem ermittelten Klassifizierungsvektor und der Position; und
Erzeugen eines zeitlich konsistenten und eindeutigen Identifikations vektors des mindestens einen Objektes für jedes Einzelbild in Antwort auf den ermittelten Assoziierungswertes. Hierbei ist für die Erzeugung des Assoziierungswertes eine von der Zeit zwischen dem ersten und zweiten Einzelbild abhängigen relative Gewichtung zwischen den ermit telten Klassifizierungsvektor und der Position vorgesehen. In diesem Zusammenhang wird unter dem Begriff Identifikationsvektor ein Vektor oder Wert verstanden, der eindeutig ist, so dass sich ein Objekt von einem anderen Objekt durch den Identifikationsvektor unterscheidbar ist .
Mit dem vorgeschlagenen Prinzip werden somit in zwei aufeinanderfol genden Einzelbildern Objekte detektiert, identifiziert und über die Einzelbilder verfolgt. Dazu wird in vorteilhafter Weise die Position sowie die Merkmals- bzw. Identifikationsvektoren der jeweiligen Ob jekte verwendet. Durch die Abhängigkeit des Assoziierungswertes von der Zeit und damit von der Bildwiederholrate zwischen dem ersten und dem zweiten Einzelbild wird eine relative Gewichtung zwischen dem Klassifizierungsvektor und den Positionsmerkmalen bzw. der Position des Objektes erreicht. In einem Aspekt enthält die Gewichtung eine Abhängigkeit invers von der Zeit zwischen den beiden Einzelbildern. Diese ist so gewählt, dass bei kleinen Bildraten verschiebt sich die relative Gewichtung hin zu dem Klassifizierungsvektor, sodass Objekte dennoch zuverlässig und sicher identifizierbar und verfolgbar sind. Mit anderen Worten wird das Gewichtungsfaktor für den Klassifizie rungsvektor gegenüber der Gewichtung der Position umso größer je mehr Zeit zwischen den Einzelbildern verstreicht bzw. umso geringer die Bildwiederholrate wird.
Darüber hinaus wird durch den Klassifizierungsvektor und die Position ermöglicht, ein Objekt auch dann noch zu detektieren bzw. zu identi fizieren, wenn es von anderen Objekten im darauffolgenden Frame teil weise verdeckt ist.
In diesem Zusammenhang kann zudem vorgesehen sein, eine Assoziierung eines Objektes in dem ersten bzw. zweiten Einzelbild auch mit Objekten in einem dritten Einzelbild vorzunehmen. Es kann Fälle geben, in denen eine Assoziierung eines Objektes in dem zweiten Teilbild mit einem Objekt des ersten Einzelbildes nicht möglich, das Objekt bleibt im zweiten Einzelbild somit „übrig". In einem derartigen Fall, dass einem eindeutigen Identifikationsvektor eines Objektes eines zweiten Ein zelbildes kein Vektor eines Objektes eines ersten Einzelbildes zuord enbar ist, kann der Identifikationsvektor des Objektes des zweiten Einzelbildes mit dem Identifikationsvektor eines Objektes eines drit ten Einzelbildes verglichen werden, welches zeitlich vor dem ersten Einzelbild liegt.
In diesem Szenario wird durch den eindeutigen und zeitlich konsisten ten Identifikationsvektor des Objektes eine Assoziierung mit Objekten auch in vorhergehenden Einzelbildern möglich. Es kann somit eine er- neute Identifizierung bzw. eine Re-Identifizierung eines Objektes er folgen, auch wenn dieses in einigen Einzelbildern nicht sichtbar ist. Ein typischer Anwendungsfall wäre beispielsweise durch ein Fahrzeug gegeben, welches von einem anderen Fahrzeug teilweise und über mehrere Einzelbilder hinweg verdeckt ist und dann wiedererscheint. Durch das vorgeschlagene Prinzip wird das Fahrzeug re-identifiziert und nicht als neues Objekt erkannt.
In einem Aspekt der Erfindung umfasst der Schritt eines Detektierens zumindest eines Objektes ein Erzeugen einer bounding box, welches das mindestens eine Objekt umgibt bzw. einschließt. Ebenso wird für die bounding box eine Vorhersage erzeugt, die sich auf die Veränderung der bounding box vom ersten zum zweiten Einzelbild hin bezieht. Wei terhin wird ein Geschwindigkeitsvektor für die bounding box des ersten Einzelbildes gebildet. Diese drei Schritte werden in einem Aspekt der Erfindung vorzugsweise gleichzeitig durchgeführt. Ebenso kann für je des Objekt eines Einzelbildes eine bounding box vorgesehen.
In einem weiteren Aspekt der Erfindung umfasst der Schritt des Aus- wählens wenigstens einen der folgenden Schritte, nämlich ein:
Auswählen der bounding box des ersten Einzelbildes und ein Auswählen der bounding box des zweiten Einzelbildes;
Auswählen der Vorhersage sowie ein Auswählen der bounding box des zweiten Einzelbildes; und
Auswählen des Geschwindigkeitsvektors und ein Auswählen der bounding box des zweiten Einzelbildes.
Durch das Auswählen werden Kandidaten für den nachfolgenden Assozi ierungsschritt ausgewählt. Sodann wird für jede der selektierten bounding boxen zwei Informationswerte extrahiert, nämlich die Position und ein dazugehöriger Klassifizierungsvektor. Gemäß einem Aspekt der Erfindung umfasst der Schritt des Ermittelns zumindest eines Klassi fizierungsvektors für das Objekt ein Erfassen von Merkmalen des Ob jektes, ein Berechnen eines eindeutigen Merkmalsvektors aus den er fassten Merkmalen sowie ein Klassifizieren des Objektes aus einer Gruppe vorgegebener Klassen anhand der erfassten Merkmale oder anhand des berechneten Merkmalsvektor.
Hierbei kann die Gruppe vorgegebener Klassen unter anderem wenigstens eine der folgenden Klassen umfassen: Fußgänger, Autos, Busse, Fahr räder, Lastwagen, Traktoren, Tiere, Motorräder und Hindernisse, ins besondere stehende bzw. immobile Hindernisse.
In einem anderen Aspekt wird für den Schritt der Erzeugung einer zeitlich konsistenten und eindeutigen Identifikationsvektors ein spe zielles Verfahren eingesetzt, beispielsweise ein „Hungarian combina- torial optimization" Verfahren.
Das vorgeschlagene Verfahren teilt sich während der Durchführung des Verfahrens innerhalb des Basisnetzwerkes mehrere Faltungen für die unterschiedlichen Aufgaben, insbesondere für die Detektion der Objekte in den Einzelbildern, d. h. ein Erzeugen der bounding box das Erzeugen der Vorhersage für die bounding box und das Erstellen des Geschwin digkeitsvektors. Dadurch wird die Effizienz des Verfahrens erhöht und gleichzeitig die Hardwareanforderungen verringert. Insbesondere kön nen in weiteren Schritten des Verfahrens die bounding boxen, welche das mindestens eine Objekt umgeben, für verschiedene weitere Aufgaben wie beispielsweise die Erzeugung der Vorhersage oder die Erzeugung des Klassifizierungsrektors sowie des Geschwindigkeitsvektors sowie zur Identifikation des Objektes verwendet werden. Im Gegensatz zu konventionellen Netzwerken, bei denen die verschiedenen Aufgaben durch unabhängige Netzwerke ausgeführt werden, wird nach dem vorgeschlage nen Prinzip jede Aufgabe gemeinsam bzw. parallel und eben nicht se quentiell ausgeführt und die Ergebnisse eines vorangegangenen Schrit tes für die darauffolgenden Aufgaben gemeinsam bzw. parallel verwen det .
In einer Anordnung nach dem vorgeschlagenen Prinzip, vorzugsweise einer computerimplementierten Anordnung ist ein Zwischenspeicher für wenigstens ein erstes und ein zweites Einzelbild einer Videosequenz vorgesehen. Ein RPN-Modul („region proposal network") ist mit dem Zwischenspeicher gekoppelt. Das RPN-Modul ist ausgeführt zur Erzeugung einer ersten Vielzahl von Objektvorschlägen aus dem ersten Einzelbild und einer zweiten Vielzahl von Objektvorschlägen aus dem zweiten Ein zelbild, welche im Folgenden als Roi's oder „region of interest" bezeichnet werden können. Mit dem RPN-Modul ist ein Bestimmungs- und Identifikationsmodul verbunden. Dieses Modul ist ausgestaltet aus der ersten Vielzahl und der zweiten Vielzahl einen Identifikationsvektor für jedes Objekt innerhalb der ersten und zweiten Vielzahl zu erzeu gen. Daneben ist das Modul ausgeführt parallel zu dem vorstehenden, eine Klassifizierung der jeweiligen Objekte vorzunehmen sowie eine klassenspezifische bounding box regression für jeden Vorschlag zu erzeugen .
Ebenfalls mit dem RPN-Modul ist ein Vorhersagemodul gekoppelt und somit hinsichtlich der Funktionalität parallel zu dem Bestimmungs und Identifikationsmodul angeordnet. Dieses ist zu einer Korrelati onsanalyse für ein Objekt in einem in dem ersten Einzelbild bezüglich dessen Position mit entsprechenden Objekten eines zweiten Einzelbil des ausgeführt. Mit anderen Worten ist das Vorhersagemodul ausgeführt, eine Vorhersage über eine Entwicklung eines Objektvorschlages vom ersten Einzelbild in Hinsicht auf das zweite Einzelbild zu treffen.
Dazu ist das Vorhersagemodul in einem Aspekt der Erfindung mit einer Korrelationsschicht ausgeführt. Diese ist ausgebildet, eine Korrela tion zwischen einem Objektvorschlag in einem ersten Einzelbild und benachbarten Fenstern in einem zweiten Einzelbild zu bestimmen.
Ein anderer Aspekt dieser Erfindung beschäftigt sich mit dem Verfahren für ein maschinenbasiertes Training eines computerimplementierten Netzwerkes zum gemeinsamen Detektieren, Verfolgen und Klassifizieren wenigstens eines Objektes in einer Videobildsequenz. Die Videobildse quenz verweist hierzu eine Vielzahl aufeinanderfolgende Einzelbilder auf .
Das Verfahren umfasst in einem ersten Schritt ein Bereitstellen einer Vielzahl von Einzelbildpaaren, wobei jedes Einzelbildpaar ein erstes und ein darauffolgendes zweites Einzelbild umfasst und jedes Einzel bild wenigstens einen Objektvorschlag auch „regions of interest" oder Roi genannt aufweist, den je ein Klassenidentifikationsvektor eindeu tig zugeordnet ist. In einer zweckmäßigen Ausgestaltung kannen der wenigstens eine Objektvorschlag jeweils ein Objekt aufweisen, das durch den Klassenidentifikationsvektor eindeutig in seiner Klasse identifizierbar ist.
Für jeden Objektvorschlag wird nun ein Merkmalsvektor bestimmt, wel chen der Klassenidentifikationsvektor zugeordnet ist. Der ermittelte Merkmalsvektor kann so einer Klasse zugeordnet werden. Ebenso wird ein Identifikationsvektor sowie eine spezifische bounding box Regres sion bestimmt. Letztere ist spezifisch für den Klassenidentifikati onsfaktor. Anschließend wird für korrelierte Merkmalskarte zwischen dem ersten Einzelbild und dem darauffolgenden zweiten Einzelbild er zeugt sowie für jeden Objektvorschlag eine Interframe Regression be stimmt .
Für das Training des computerimplementierten Netzwerks wird nun ein kombinierter Fehler minimiert, wobei dieser sich aus den Fehlern beim Bestimmen des Klassenidentifikationsvektors, beim Bestimmen des we nigstens einen Identifikationsvektors und beim Bestimmen der spezi fischen bounding box Regression sowie der Interframe Regression ergibt .
Durch das Training des Netzwerks mit einem kombinierten Fehler der oben genannten Art wird eine Detektion eines Objektes, eine Verfolgung sowie eine Merkmalsidentifikation für das Objekt gleichzeitig trai niert. Da der Klassenidentifikationsvektor für den Objektvorschlag und damit vorzugsweise für das Objekt innerhalb des Obj ektvorschlgs fest vorgegeben ist, bedingt das Verfahren ein Trainieren von Merk malen, die der jeweiligen Klasse entsprechen.
In einem weiterführenden Aspekt umfasst der Schritt für jeden des wenigstens einen Objektvorschlags ein Zusammenlegen von Merkmalen ei ner vordefinierten Größe aus den Einzelbildern mittels eines ROI- Align Verfahrens. Dieses erfahren kann ein R-CNN Verahren enthalten oder Teil davon sein. Die vordefinierte Größe kann dabei wenige Pixel beispielsweise 7x7 Pixel betragen. Die zusammengelegten Merkmale wer den mittels eines Faltungsblocks gefaltet und nachfolgend zu einem globalen Vektor zusammengefasst. Zum Bestimmen des Idenfikationsvek- tors kann ein online instant Matching Löss (OIM) Verfahren verwendet werden. Insbesondere wird mit diesem Verfahren die korrekte Bestimmung des Merkmalsvektors und/oder des Identifikationsvektors gelernt. In einem weiteren Schritt umfasst das Bestimmen des Identifikationsvek tors das Anwenden einer voll verbundenen Schicht einer definierten Größe um einen gegenüber dem globalen Vektor niedrigeren Identifika tionsvektor zu erhalten.
In einer weiteren Ausgestaltung wird ein Klassifikationsscore ermit telt, welcher für die korrekte Klassifizierung des Objektes in dem Objektvorschlag benötigt wird. Dieser kann bestimmt werden durch An wenden zweier vollverbundener Schichten der Größe (C +1) und x(C+l), wobei (C +1) die Anzahl der Klassenidentifikationsvektoren und damit der Klassen einschließlich des Bildhintergrundes ist.
Um den kombinierten Fehler aus den einzelnen vorhergehenden Bestim mungen zu minimieren, können verschiedene Verfahren angewendet werden. Beispielsweise kann ein Software Max Cross Entropie loss Verfahren für die Bestimmung des Fehlers bei der Klassifizierung angewendet werden. Ein Smooth Ll-Loss Verfahren dient zur Bestimmung der bounding box Regression Fehlers sowie zur Bestimmung des Fehlers in einer Inter-frame Regression.
Ein weiterer Aspekt betrifft den Schritt des Bestimmens der korre lierten Merkmalskarte. Dazu kann eine Korrelation zwischen der ersten Merkmalskarte des ersten Einzelbildes und benachbarten Ausschnitten in einer zweiten Merkmalskarte des zweiten Einzelbildes ermittelt werden. Mit anderen Worten wird eine Korrelation zwischen Merkmalen der ersten und der zweiten Merkmalskarte dadurch erfasst, dass Merk malen an einer Position der ersten Merkmalskarte des ersten Einzel bildes mit den Merkmalen einer zu der ersten Position benachbarten Position verglichen werden.
Ein weiterer Aspekt betrifft eine Anordnung, vorzugsweise eine com puterimplementierte Anordnung. Diese umfasst einen Zwischenspeicher für wenigstens ein erstes und ein zweites Einzelbild einer Videose quenz; sowie ein RPN-Modul zur Erzeugung einer ersten Vielzahl unab hängiger Objektvorschläge aus dem ersten Einzelbild und einer zweiten Vielzahl unabhängiger Objektvorschläge aus dem zweiten Einzelbild. Die Anordnung enthält ein mit einem Vorhersagemodul gemeinsam trai niertes Bestimmungs- und Identifikationsmodul sowie das Vorhersage modul, das mit dem Bestimmungs- und Identifikationsmodul gemeinsam trainiert ist. Alle Module sind mit dem RPN-Modul gekoppelt.
Das trainierte Bestimmungs- und Identifikationsmodul ist ausgeführt ist, Objekte aus der ersten Vielzahl und der zweiten Vielzahl von Objektvorschlägen zu identifizieren und im ersten und zweiten Einzel bild zu detektieren und welches weiter ausgeführt, aus den Objektvor schlägen eine Vorhersage der Position eines Objektes im ersten Ein zelbild und im zweiten Einzelbild zu treffen. Das Vorhersagemodul, ist ausgeführt, eine inter-Frame Vorhersage für jedes Objekt im ersten Einzelbild basierend auf der ersten Vielzahl von Objektvorschlägen und der zweiten Vielzahl von Objektvorschlägen zu treffen.
Durch das gemeinsame Training und die End-to-End Optimierung wird die Effizienz und die Erkennungs-, Klassifizierung und Verfolgungsrate gerade bei kleinen bildwiederholraten signifikant verbessert.
In einem weiterführenden Aspekt ist dem RPN-Modul eine BaseNet Archi tektur vorgeschaltet. Diese ist ausgeführt, eine Vielzahl von Basis merkmalen für das erste und das zweite Einzelbild zu ermitteln, welche dem RPN-Modul zur Erzeugung der Objektvorschläge zuführbar sind.
In einem anderen Gesichtspunkt ist das trainiertes Bestimmungs- und Identifikationsmodul ausgeführt, für jeden Vorschlag Merkmale einer vorbestimmten Größe aus den Basismerkmalen zusammenzufassen, um einen mehrdimensionalen Merkmalsvektor bereitzustellen. Zudem kann es aus geführt sein mit Hilfe des Merkmalsvektors eine Klassifizierungspa rameter des Objektes im Objektvorschlag zu bestimmen. Hierbei kann Klassifizierungsparameter aus einer Menge vorbestimmter Klassen aus gewählt ist. Dadurch lässt sich die Anordnung auch auf ganz spezielle Probleme und Situationen trainieren und optimieren.
In einem weiteren Aspekt ist das trainiertes Bestimmungs- und Iden tifikationsmodul ausgeführt, ein Objekt in dem Objektvorschlag einen eindeutigen Identifikationsvektor zuzuordnen. Dies kann dann zweck mäßig sein, wenn das Objekt über einige wenige Einzelbilder hinweg verschwindet und dann wiederauftaucht . Durch den Identifikationsvek tor lässt sicher eine Re-Identifizierung vornehmen, da jedes Objekt einen eindeutigen Identifikationsvektor enthält. Ebenso kann das trai niertes Bestimmungs- und Identifikationsmodul ausgeführt sein, für jeden Objektvorschlag eine bounding box regression zu erzeugen.
Ein anderer Aspekt betrifft das trainierte Vorhersagemodul. Dieses kann ausgeführt sein, anhand der Basismerkmale des ersten und zweiten Einzelbildes die Regressionsziele der detektierten Objekte vom ersten zum zweiten Einzelbild vorherzusagen.
Im Folgenden wird die Erfindung anhand mehrere Ausführungsbeispiele und unter Bezugnahme auf die Zeichnungen im Detail erläutert. So zeigen :
Figur 1 ein Flussdiagramm des vorgeschlagenen Systems;
Figur 2 ein Computersystem zur Durchführung des vorgeschlagenen Ver fahrens;
Figur 3 eine Videosequenz mit Einzelbildern zur Darstellung von Er gebnissen mit einem Netzwerk nach dem vorgeschlagenen Prinzip;
Figur 4 eine Ausführungsform einer computerimplementierten Anordnung mit den verschiedenen funktionalen Modulen;
Figur 5 eine schematische Darstellung des Modules PredNet zur Bestim mung einer Vorhersage der Bewegung oder Position eines Objek tes;
Figur 6 ein Ausführungsbeispiel des Verfahrens zum gemeinsamen Detek- tieren, Verfolgen und Klassifizieren wenigstens eines Objektes in einer Videobildsequenz;
Figur 7 eine Ausführungsform eines Verfahrens zum Trainieren eines computerbasierten Netzwerks nach dem vorgeschlagenen Prinzip.
Eine automatisierte Objektdetektion und Erkennung gerade im Bereich von Videoüberwachung und Robotertechnologie zeigt seit langem ver schiedene Herausforderungen. Von Bedeutung ist auch die Verfolgung eines Objektes, die oftmals notwendig wird, um mit dynamischen Szenen umgehen zu können. Eine Personenidentifikation und das Verfolgen einer an sich identifizierten Person oder Objektes über mehrere Sichtfelder hinweg hat in den letzten Jahren an Bedeutung gewonnen.
Figur 1 zeigt in diesem Zusammenhang einen einfachen Flow Chart für ein erfindungsgemäßes System, bei dem verschiedene Aufgaben gemeinsam und gleichzeitig ausgeführt werden. Eine Kamera 1 nimmt hierbei eine Vielzahl von Bildern auf, beispielsweise in Form einer Videosequenz. Die Bilder werden einem Netzwerk 2 zugeführt, welches im Folgenden näher erläutert wird. Dieses detektiert und identifiziert verschiedene Objekte, die von der Kamera in ihrem Gesichtsfeld aufgenommen werden und übergibt diese an ein Verfolgungsmodul 3. Das Verfolgungsmodul erzeugt aus den Informationen des Netzwerkes 2 für jedes der Objekte Trajektorien über die Zeit, die anschließend an verschiedene Anwen dungen 4 zur Auswertung übergeben werden können.
Netzwerk 2 umfasst dabei mehrere funktionale Elemente, die mit den Bezugszeichen 5, 6 und 7 versehen sind. Zu den funktionalen Elementen gehört unter anderem ein Modul oder eine Funktion zur Identifikation eines Objektes, ein Modul oder Funktion zu deren Detektion innerhalb des übergebenen Bildes sowie ein Modul oder Funktion für eine Bewe- gungs- oder Positionsvorhersage, um das Objekt über einen längeren Zeitraum und mehrere Bilder hinweg verfolgen zu können.
Eine Detektion eines Objektes innerhalb eines Bildes erfolgte mit dem Modul 7. Detektoren dieser Art arbeiten entweder „region proposal" Detektoren oder als Einzeldetektoren. Bei region proposal basierten Detektoren wird das Einzelbild in verschiedene Regionen bzw. Bereiche aufgeteilt und diese entsprechend mit verschiedenen Verfahren verar beitet. Dazu ist ein sogenanntes RPN-Netzwerk vorgesehen, welches einen Satz von Objektvorschlägen (diese sind häufig mit den Regionen gleichgesetzt) erzeugt, die an ein neurales Netzwerk zur Klassifika tion und Regression weitergegeben werden. Zur Erzeugung von Objekt vorschlägen werden „fast R-CNN", „faster, R-CNN" und „RFCN"-Verfahren oder generell auch ROI-Align Verfahren benutzt. Andere Varianten von Objektdetektoren erzeugen keine Objektvorschläge, sondern bestimmen „bounding boxes" um die Objekte und die entsprechenden Klassifizie rungen des Bildes für die einzelnen Objekte direkt. Derartige Objekt detektoren basieren beispielsweise auf YOLO Verfahren.
Für Videosequenzen, d. h. eine Vielzahl aufeinanderfolgende Bilder können eine Erfolgsrate für eine Objektdetektion signifikant verbes sert werden, wenn die entsprechenden Objekte beispielsweise über meh rere Einzelbilder hinweg sichtbar sind. Demgegenüber erschwert eine Bewegung von Objekten in einer Videosequenz von einem Bild auf das nächste die Detektion, da sich die Position des Objektes durch die Bewegung ändert. Zur Verringerung dieses Problems wird in herkömmli chen Detektoren und Verfahren eine Detektion des Objektes zusammen mit einer Verfolgung desselben durchgeführt, der Fehler bestimmt und minimiert. Derartige Ansätze können nicht nur für einzelne Objekte, sondern auch für mehrere Objekte innerhalb eines Bildes verwendet werden .
Neben einer Objektdetektion steht aber auch eine Identifikation und Einteilung in verschiedenen Klassen bzw. eine Re-identifikation im Vordergrund. Diese Forderung ergibt sich aus verschiedenen Anwendun gen, bei denen es notwendig ist, das diktierte Objekt auch hinsicht lich seiner Eigenschaften besser zu charakterisieren. Beispielsweise wäre es im Straßenverkehr erforderlich, einen Bus bzw. ein Auto von einem Fußgänger oder einem Fahrradfahrer ausreichend genau unter scheiden zu können. Nur dann kann eine Risikoabschätzung ausreichend gut vorgenommen und die korrekten Handlungen hierauf selektiert wer den .
In anderen Anwendungsfällen ist eine Re-identifikation eines Objektes erforderlich. Beispielsweise könnte eine durch mehrere Gesichtsfelder von Kameras wandernde Person über diese Felder hinweg nicht nur de- tektiert, sondern auch identifiziert und verfolgt werden. Gleiches gilt auch im Straßenverkehr, wenn beispielsweise ein Objekt während einer kurzen Zeit durch ein anderes Objekt verdeckt wird und es nach dem Wiederauftauchen als bereit bekanntes Objekt deklariert werden soll . Zur Identifikation bzw. Re-identifikation und anschließender Klassi fizierung wird vorgeschlagen, einen eindeutigen Merkmalsvektor für jede Identität und damit Klasse zu trainieren. Dieser Merkmalsvektor sollte vorzugsweise invariant gegenüber Veränderungen der Kamerapo sition, der Beleuchtung, des Hintergrundes, der Farben und der per spektivischen Ansicht sein.
Verschiedene hierzu vorgeschlagene Verfahren benutzen geschnittene bounding boxen mit dem zu charakterisierenden Objekt. Es wurde fest gestellt, dass eine Wiederidentifizierung und Detektion von Objekten in ganzen Bildern möglich ist. Mit einem eindeutigen Identitätsvektor kann zusätzlich eine Verfolgung des Objektes über mehrere Einzelbilder hinweg verbessert werden.
Schließlich umfasst das Netzwerk 2 neben einer Funktion zur Detektion 7 und Identifizierung 6 ein Vorhersagemodul 5, welches ermöglicht, eine Vorhersage über die Bewegung oder die Position eines Objektes in einem darauffolgenden Einzelbild zu treffen. Eine derartige Vorhersage kann nicht nur dazu verwendet werden, die Detektion bzw. Verfolgung eines Objektes zu verbessern, sondern auch für eine Risikoanalyse hinsichtlich der Bewegungsrichtung eines Objektes, beispielsweise im Bereich des autonomen Fahrens oder der Robotertechnologie verwendet werden .
Ergebnisse bzw. Resultate, die mit einem derartigen Netzwerk gewonnen werden, sind in Figur 3 dargestellt. Diese zeigen drei aufeinander folgende Einzelbilder eines Verkehrs auf einer Straße zu den Zeiten t-20, t-10 und t. Im ersten Einzelbild zum Zeitpunkt t-20 hat das Netzwerk insgesamt 4 verschiedene Objekte erkannt. Dazu gehört ein Bus 32, zwei auf der ganz linken Spur hintereinanderfahrende PKW 33 und 34, sowie ein hinter den Bus auf die Straße einbiegender kleiner Transporter 31. Jedes der identifizierten Objekte ist zudem mit einer entsprechenden bounding box, d.h. einem Rechteck umgeben, welches die äußeren Abmessungen des jeweiligen Objektes, bzw. Fahrzeugs umgibt. Wie im Bild angedeutet, sind die bounding boxen zudem mit leicht unterschiedlichen Farben dargestellt, was einer eindeutigen Charak terisierung und Klassifizierung entspricht. Im darauffolgenden Bild haben sich die Fahrzeuge fortbewegt. Durch die Identifizierung und das Folgemodul des Netzwerks ist das System in der Lage, die Objekte weiter zu verfolgen und gleichzeitig als Objekte zu identifizieren, die bereits im vorangegangenen Einzelbild vorhanden waren. Im Beson deren, sind die beiden PKWs 33 und 34 etwas näher gekommen, das Netzwerk erkennt und ordnet Ihnen weiterhin die gleiche ID (Identi fikation) und Klasse zu. Zusätzlich hat das Netzwerk ein neues Objekt 35 erkannt, eine eindeutige Identifikation diesem zugeordnet und es als weiteren PKW klassifiziert.
Demgegenüber ist im Bild t-10 der im vorherigen Bild erkannte Trans porter hinter dem Bus verschwunden und wird von diesem Objekt somit verborgen. Entsprechend hat das Netzwerk 2 das Objekt verloren, d.h. eine Verfolgung des Transporters ist fehlgeschlagen. Im letzten Ein zelbild t ist Fahrzeug 33 mittlerweile aus dem Gesichtsfeld verschwun den. Gleichzeitig ist der Transporter 31 durch den Bus nicht mehr verdeckt, sondern vom Netzwerk erneut erkannt worden. Gemäß dem vor geschlagenen Prinzip ist das Netzwerk 2 nicht nur in der Lage, das Objekt erneut zu detektieren und richtig zu klassifizieren, sondern es auch als bereits bekannte Fahrzeug zu identifizieren. Dies ist möglich, da ein Training des Netzwerks gemäß dem vorgeschlagenen Prin zip gleichzeitig erfolgt.
Fig. 4 zeigt ein Model nach dem vorgeschlagenen Prinzip. Eine Ob jekterkennung und -Verfolgung wird durch ein gemeinsames Training der drei Aufgaben Erkennung, Vorhersage und Neu- bzw. Re-Identifizierung adressiert. Unter dem Begriff „gemeinsam" wird hierbei ein paralleles oder kombiniertes Training verstanden. Es ist also nicht sequentiell, d.h. es werden die einzelnen Aufgaben nicht unabhängig voneinander trainiert, sondern in einer Kombination. Im Bereich des maschinenba sierten Lernens bedeutet dies, dass der Fehler beim Trainieren für jede Aufgabe nicht einzeln und separat minimiert wird, sondern eine Kombination aus allen auftretenden Fehlern.
Im Gegensatz zu traditionellen sequentiellen Ansätzen, schlägt die Erfindung vor bei der Erkennung, Detektion, Identifizierung, Klassi fizierung und Verfolgung eine einheitliche End-to-End-Architektur vor, die diese verschiedenen Aufgaben gemeinsam und zusammen opti miert .
Die vorgeschlagene Modellarchitektur ist in Figur 4 dargestellt und enthält die zwei Ausgangszweige DetldenNet und PredNet . Letzteres Modul wird hinsichtlich seines Aufbaus auch in Figur 5 gezeigt. Hier bei gibt der erste Zweig oder Modul DetldenNet einen Identitätsvektor ID, eine box regression BR und einen Klassifizierungswert CS aus. Die Architektur benötigt zwei aufeinander folgende Frames It-1 und It zu den Zeitpunkten t-1 und t. jedoch kann statt t-1 (d.h. das vorherige Bild) auch jeder andere Zeitpunkt t-d verwendet werden. Diese ent sprechen zwei aufeinanderfolgende Einzelbilder. Die beiden Einzelbil der, auch Frames genannt werden zuerst durch das Modul BaseNet gelei tet, welches die ersten vier Blöcken (Convl - 4) einer ResNet-Archi- tektur umfasst. Dabei präsentieren ft-1 und ffc ( h x w xd) die Basismerk male für die beiden Einzelbilder, h, w und d sind Höhe, Breite und Anzahl der Kanäle der Basismerkmale. Zusätzlich zu diesen Funktionen wird dem BaseNet Module ein Regionsvorschlagsnetzwerk (RPN) oder RPN- Modul nachgeschaltet, um unabhängige Objektvorschläge von beiden Ein zelbilder zu erhalten, die an die beiden Module DetldenNet und PredNet weitergeleitet werden.
Für jeden Vorschlag aus dem RPN-Modul bündelt das Modul DetldenNet Merkmale der Größe 7 x 7 aus den jeweiligen Basismerkmalen zusammen, indem es ein ROI-Align Verfahren verwendet. Die zusammengefassten Merkmale werden dann durch eine Reihe von Faltungen aus dem letzten Faltung Block (Conv5) von ResNet geleitet gefolgt von einer globalen Durchschnittsbildung. Dadurch entsteht ein 2048-dimensionales Merkmal für jeden Vorschlag. Dieses Merkmal wird dann an zwei Geschwister zweige weitergereicht zur Identifikation bzw. Detektion.
Der Identifizierungszweig wendet zuerst eine vollständig verbundene Schicht der Größe 256 an, wodurch ein Identitätsmerkmal mit geringerer Dimension entsteht. Der Detektionszweig wendet zwei parallele, voll ständig verbundene Schichten an der Größe (C + 1) und 4 x (C + 1) . Dies ergibt einen Klassifizierungswert sowie eine klassenspezifische bounding box Regression für jeden Vorschlag. Dabei ist (C + 1) die Anzahl der Klassen einschließlich des Hintergrunds. Für das Training wird für den Detektionszweig ein „Softmax Cross Entropie Löss" Ver fahren zur Klassifizierung und ein Smooth-Ll-Loss Verfahren für die Bounding box Regression verwendet. Um die Einbettung der 256-dimen- sionalen Identifizierungsfunktion zu erlernen und zu trainieren wird ein Online Instance Matching Löss (OIM) Verfahren benutzt.
Angesichts der Basismerkmale ft-1 und ffc der Größe h x w x d der beiden Einzelbilder, zielt PredNet darauf ab, die Regression für die Ob jekterkennung vorherzusagen und zwar vom ersten Bild zum zweiten. Um dies zu erreichen, verwendet PredNet zunächst eine Korrelations schicht, welche die Korrelation jedes Merkmals ft-1(x,y) in der ersten Merkmalskarte mit ihrem benachbarten (2n + 1) x (2n + 1) Fenster in der zweiten Merkmalskarte verwendet Dieser Vorgang produziert eine Merkmalskarte C der Größe h(2n + 1) x w(2n + 1) wie in der folgenden Gleichung gezeigt:
Figure imgf000018_0001
Hierbei sind ft-1 (x, y, d) und ft (x, y, d) Skalarwerte der räumlichen
Position x, y und des Kanals d in der Merkmalskarte ft-1 und ft. 1 (n, n) ist eine (2n + 1)x(2n + 1) Matrix von Einsen, die verwendet wird, um den Skalarwert ft-1 (x, y, d) zu einer (2n + 1)x(2n + 1) Matrix zu wiederholen. N[ft(x, y, d) ] ist die (2n +l)x(2n + 1) Nachbarschafts matrix von ft (x, y, d) . Die obige Gleichung berechnet zuerst die elementweise Multiplikation der Matrix ft-1 (x, y, d) 1 (n; n) mit der Nachbarschaftsmatrix N[ft(x, y, d) ] und summiert sie dann entlang der
Kanalabmessung. Es sei darauf hingewiesen, dass C(x, y) ein Block der Größe (2n + 1)x(2n + 1) ist und die Korrelation des Merkmals ft-1(x,y) mit der (2n + 1)x (2n + 1) Nachbarschaft der Matrix in ft(x; y) angibt. Die korrelierte Merkmalskarte C wird dann an eine Patch-Zusammenfas sungsschicht übergeben, die jedes (2n + 1)x(2n + 1) -Fenster unter Verwendung einer Filterfaltung der Größe (2n + 1) (2n + 1) mit Schritt weite 2n + 1 zusammenfasst und 512 Ausgangskanäle ausgibt. Diese zusammengefasste Merkmalskarte der Größe (h x w x 512) wird dann mit den ursprünglichen Basismerkmalen ft-1 und ft verkettet, und eine 1 x 1 Faltung durchgeführt, um d Ausgangskanäle zu erhalten. Dies erlaubt es, den Standard Conv5 Block der ResNet-Architektur zu benutzen. Diese Merkmale werden dann mit einem ROI-Align Verfahren weiter verarbeitet und zusammen mit den Detektions-bounding boxen des ersten Einzelbil des, gefolgt von einem Conv5-Block von ResNet und eine vollständig verbundene Schicht um eine Regression
Figure imgf000019_0001
für jeden Ver- folgungs- oder Track-Objektvorschlag. Während des Training wird für PredNet ein Smooth Li loss Verfahren zwischen den Grundwahrheitszielen und den vorhergesagte Ziele durchgeführt.
Um die Zweige DetldenNet und PredNet der Anordnung Netzwerks gemeinsam zu trainieren, wird ein kombinatorischer Gesamtfehler eingesetzt, der sich aus dem Klassifikationsverlust (Lcls) , dem Regressionsverlust (Lreg) , einem Regressionsverlust für die Zwischenbilder bounding boxen (Ltra) und Verlust bei der Identifizierung (Liden) zusammensetzt. Der Gesamtverlust für eine Anzahl von N Objektvorschläge (Rois) ergibt sich somit zu:
Figure imgf000019_0002
Hierbei ist für jeden Objektvorschlag j, pj,c die vorhergesagte Klas sifizierungswahrscheinlichkeit seiner Grundwahrheitsklasse c* und bj, bj * sind die vorhergesagten und Grundwahrheits-Bounding-Box-Ziele . In dem Tracking-Verlust stehen die Terme für die normalisierten
Figure imgf000019_0003
Interframe, vorhergesagten und Grundwahrheits-Bounding-Box-Ziele .
Für das Training wurden lediglich Ntra Grundwahrheiten (Track Rois) vom ersten Einzelbild t-1 verwendet, die auch entsprechende Kästchen (gleiche Id) im Einzelbild t haben. Bei Interferenz werden alle De tektionen (N) von der ersten Einzelbild Verfolgungsobjektvorschläge (track Rois) verwendet. Im Identitätsverlust qj,i ist die vorhergesagte Wahrscheinlichkeit des Objektvorschlags j für seine Grundwahrheits kennung i. Dieser Verlust ist wird nur für die Objektvorschläge im Vordergrund berechnet, denen auch eine Grundwahrheitsidentifizierung i* (Niden) zugeordnet ist. Die Verlustgewichtung lx sind auf 1 gesetzt.
Für das Verfolgen wird ein einfacher Tracking-by-Detection-Algorith- mus implementiert, der die Erkennungshypothesen mit Zielbahnen durch Optimierung des Hungarian association Verfahrens verknüpft. Hierzu wird die Cosinus-Ähnlichkeit der ID-Merkmale und / oder der IOU Über lappung berücksichtigt, um die Affinitätsmatrix für den Hungarian association zu berechnen. Zur Vorhersage der Ziel-Begrenzungs-Boxen im darauffolgenden Einzelbild wird ein einfaches lineares Bewegungs modell und bounding box Vorhersagen aus dem PredNet Modul benutzt. Ziel ist es, jede erhaltene Detektion einer korrekten Trajektorie aus dem verfügbaren Satz von Trajektorien zum Zeitpunkt t-1 zuzuordnen.
Das Verfahren benutzt hierzu einen Tracking buffer. Dieser enthält die Traj ektorieninformation zu allen Trajektorien zum t-j . Die Trajek- torieninformation umfassen (a) die bounding box am Traj ektorienkopf, den Merkmalsvektor am Traj ektorienkopf zu den Durchschnittgeschwin digkeitsvektor des Ziels.
Um eine korrekte Trajektorie einer Detektion zuzuordnen, wird eine zweiteilige Grafik zwischen alle Detektionen im aktuellen Bild t und alle Trajektorien im Bild t-1 erstellt, gefolgt von einem dem hunga rian association Verfahren, um eine optimale Menge der Eins-zu-Eins- Zuordnungen zu finden. Die Assozierungsgewichtung der Graphenkanten werden durch eine Affinitätsmatrix angegeben.
Dazu lassen sich zwei Arten von Assoziationsmetriken unterscheiden. Zum einen ein Verbund von bounding-box-intersection-union (IoU) , der im Wesentlichen auf der Überschneidung von bounding boxen beruht und zum anderen eine Assoziierung basierend auf einer ID-Merkmalseinbet- tung. Die Cosinus Ähnlichkeit wird verwendet, um die Assoziation zu berechnen. Im Vergleich zu ID-Funktionen ermöglicht die IoU-Metrik eine ergänzende räumliche Vorverfolgung für den Verfolgungsschritt. Damit wird vermieden, falsche Objekte abzugleichen, die ähnliches Aussehen haben, zum Beispiel Autos des gleichen Modells / der gleichen Marke oder Personen, die ähnliche Kleidung haben. In diesem Zusammen hang wurde gefunden, dass eine einfache Kombination der beiden Met- riken Verbesserungen gegenüber einer getrennten Benutzung der Metri ken .
Das folgende Bild zeigt den Ablauf des Verfahrens zur Nachverfolgung von Objekten:
Figure imgf000021_0001
Um das Verfolgungsmodul robuster gegenüber Verdeckungen (Okklusionen) und fehlenden Detektionen oder vorhersagen zu machen, wird ein Puffer verwendet, in dem Trajektorien gehalten werden können, die mit keiner neuen Detektion verbunden waren. Für die Detektionen bei einem Ein zelbild t die keiner Trajektorie des Bildes t-1 zugeordnet werden können, wird ihr Identifikationsvektor ID für die nicht zugewiesenen bzw. in dem Puffer gehaltenen Trajektorien verglichen. Dies sind Trajektorien von vorangegangenen Bilder T-2, t-3 usw. Im Puffer ge haltene Trajektorien des Einzelbildes t-2 sind solche, bei denen es keine Assoziierung mit einer Detektion im Bild t-1 gab. Daher sind solche zeitlich unterbrochenen Trajektorien verfügbar für den Abgleich für Bild t.
Der Puffer für diese gehaltenen Trajektorien hat eine vordefinierte Größe die somit in einem Zusammenhang steht, wie weit in der Zeit zurück Trajektorien mit neu detektierten Objekten assoziiert werden können. Um die Fragmentierung in den Trajektorien zu reduzieren, lässt sich ein einfaches Model verwenden, bei dem die pausierenden Trajek torien für einen kurzen Zeitraum verbreitert werden zusätzlich zu den Vorhersagen aus dem PredNet Modul .
Figur 2 zeigt eine Computeranordnung mit Kamerasystem, auf dem das vorgeschlagenen Verfahren ablaufen und auch Anordnung mit den ver schiedenen funktionalen Modulen implementiert werden kann. Insbeson dere ist das Computersystem für die Implementierung von neuronalen Netzwerken ausgebildet, die durch maschinenbasiertes Lernen implemen tiert sind. Zu diesem Zweck enthält das Computersystem 20 ein oder mehrere Prozessoren 21 und 22. Die Prozessoren sind zu massiven pa rallelen Verarbeitung von Daten ausgeführt. Dazu eignen sich bei spielsweise Chips der Firma NVidia™, die auf der Xavier™, Volta™ oder Post-Volta™ Architektur basieren. Die Prozessoren sind unter anderem über einen Bus (angedeutet dargestellt) mit einem schnellen Speicher 23 verbunden, in denen die zu verarbeitenden Einzelbilder abgelegt sind. Darüber hinaus kann der Speicher 23 auch weitere Daten enthal ten, wie beispielsweise die Vektorendefinitionen oder der Roi's und ähnliches. Mit dem schnellen Speicher 23 ist ein zweiter langsamerer Speicher 24 gekoppelt. Dieser enthält eine Videosequenz, die aus we nigstens zwei, oftmals aber mehreren Einzelbildern besteht. Die Vi deosequenz wird von einer Kamera 25 oder einem entsprechenden Sensor geliefert .
Figur 6 illustriert ein Ausführungsbeispiel des Verfahrens zum ge meinsamen Detektieren, Verfolgen und Klassifizieren wenigstens eines Objektes in einer Videobildsequenz. Bei dem Verfahren ist das Netzwerk bereits trainiert, und zwar derart, dass Detektieren, Identifizieren, und Verfolgen gemeinsam trainiert wurde beispielsweise mit einem Ver fahren nach dem oben dargestellten Verfahren. In einem ersten Schritt S61 werden eine Vielzahl von Bildern empfangen. Dies erfolgt vorzugs weise paarweise, d.h. es wird ein erstes und ein darauffolgendes zweites Einzelbild bereitgestellt. In einem zweiten darauffolgenden Schritt S62 werden Objekte aus dem ersten und dem zweiten Einzelbild detektiert. In einer konkreteren Ausführung werden dazu mehrere Ob jektvorschläge (S620) erzeugt, anhand derer die Objekte detektiert werden .
Sodann werden im Schritt S63 ein Objekt aus dem ersten und dem zweiten Einzelbild selektiert. In Schritt S64 wird ein mindestens ein Klas sifizierungsvektors und eine Position für das Objekt jeweils für das erste und das zweite Einzelbild ermittelt. In Schritt S65 wird eine Korrelation zwischen den beiden ausgewählten Objekten bestimmt. Damit wird geprüft, ob die Objekte die gleichen oder verschiedenen Objekte sind. Zu diesem Zweck wird ein Assoziierungswert ermittelt, der sich aus einer Korrelationsanalyse und basierend auf dem ermittelten Klas sifizierungsvektor und der Position ergibt. Dabei ist der Assoziie rungswertes beispielsweise umso größer, je größer die Wahrscheinlich keit ist, dass beide Objekte die gleichen sind.
Liegt der Assoziierungswert über einem gewissen Level oder ist er der größte Wert, sofern alle Objekte auf diese Weise miteinander vergli chen wurden, so wird in Schritt S66 ein zeitlich konsistenter und eindeutiger Identifikations- oder Identifikationsvektor des mindes tens einen Objektes für jedes Einzelbild in Antwort auf den ermittel ten Assoziierungswert erzeugt. In diesem Zusammenhang ist eine Bezie hung für die Erstellung des Assoziierungswertes herauszustellen.
Zwischen dem ersten und dem zweiten Einzelbild liegt immer eine ge wisse Zeit, in der sich das Objekt von einer Position in eine andere Position bewegen kann. Die Abweichung hinsichtlich der Position kann dabei umso größer sein, je mehr Zeit zwischen dem ersten und dem zweiten Einzelbild vergeht, oder je langsamer die Bildwiederholrate ist. Dadurch sinkt das Vertrauensniveau für eine Assoziierung basie rend auf der Position oder auch der Positionsvorhersage des Objektes.
Aus diesem Grund wird für die Assoziierung nicht nur die Klassifizie rung und die Position herangezogen, sondern es erfolgt auch eine relative Gewichtung dieser beiden Parameter zueinander. Im Besonderen verschiebt sich die Gewichtung zugunsten des Klassifizierungsvektors je größer der Zeitabstand zwischen beiden Einzelbildern ist. Mit an deren Worten, wird die Position weniger stark gewichtet, wenn die Zeit zwischen Einzelbilder anwächst, bzw. die Bildwiederholrate sinkt. Aus zwei auf diese Weise miteinander assoziierte Objekten lässt die Trajektorie des Objektes für die beiden Einzelbilder bestimmen.
Für das Detektieren eines Objektes in Schritt S62 können mehrere Aufgaben oder Zwischenschritte notwendig sein. Beispielsweise wird eine oder mehrere bounding boxen bzw. Objektvorschläge erzeugt. Die bounding boxen als begrenzende Elemente umgeben dabei das mindestens eine Objekt. Neben einer Detektion der Objekte (Dett, Dett-1 aus den Objektvorschlägen (Roi's) in Schritt S620 wird in Schritt S621 eine Vorhersage (Pt-1->t) für eine Positionsveränderung für die bounding box vom ersten Einzelbild zum zweiten Einzelbild erzeugt. Ebenso wird ein Geschwindigkeitsvektor (Vt-1->t) für die bounding box des ersten Ein zelbildes gebildet.
Für den späteren Vergleich können verschiedene Bounding Boxen und damit Objekte selektiert werden. Beispielsweise ist es möglich, eine bounding box des ersten Einzelbildes und eine bounding box des zweiten Einzelbildes auszuwählen. In diesem Fall werden zwei detektierte Ob jekte Dett-1, Dett, die in Schritt S620 ermittelt wurden, ausgewählt (S630) . Alternativ kann auch die Vorhersage Vt-1->t (S620) gemeinsam mit einer bounding box und einem Objekt Dett des zweiten Einzelbildes verwendet werden. Als dritte Möglichkeit bietet es sich an, den er mittelten Geschwindigkeitsvektors Vt-1->t und Auswählen die bounding box eines Objektes des zweiten Einzelbildes zu benutzen.
Für die Bestimmung des Klassifizierungsvektors in Schritt S64 werden Merkmale des Objektes in Schritt S640 erfasst und aus den erfassten Merkmalen ein eindeutiger Merkmalsvektor bestimmt (S641) . Mittels des Merkmalsvektors kann ein Objekt klassifiziert werden, in dem der Merk malsvektor beispielsweise mit vordefinierten Klassenvektoren vergli chen wird und der Klassenvektor mit der größten Korrelation als Klasse des Objektes herangezogen wird. Beispielsweise können die Klassenvek toren aus einer vorher definierten Gruppe ausgewählt werden. Das Netz werk, mit dem dieses Verfahren durchgeführt wird, wurde auch mit diesen Klassenvektoren trainiert.
Nach der Erzeugung des Assoziierungswertes kann für die Erzeugung eines zeitlich konsistenten und eindeutigen Identifikationsvektors ein Hungarian combinatorial optimization Verfahren zum Einsatz kommen.
Mit dem vorgeschlagenen Verfahren werden somit Objekte in zwei auf einanderfolgenden Einzelbildern erkannt. Ihnen wird ein eindeutiger ID-Wert zugeordnet, so dass sie mit diesem auch über mehrere Einzel bilder hinweg verfolgt werden können. Insbesondere ist es durch die Erzeugung des Merkmalsvektors möglich, ein Objekt zu Re-identifizie- ren, d.h. es korrekt als ein bekanntes Objekt zu identifizieren auch wenn es über einige Einzelbilder hinweg nicht sichtbar ist. Das obige Verfahren kann über eine längere Videosequenz hinweg mit paarweisen Einzelbildern durchgeführt werden. Durch Verknüpfung gleicher ID-Wer- ten über die Sequenz hinweg lassen sich Trajektorien der Objekte der Sequenz erzeugen, die für verschiedene Anwendungen, z. B. Sicherheit und Überwachung nutzbar sind.
In einigen anderen Anwendungen ist es zweckmäßig verlorengegangene Objekte wieder korrekt zu identifizieren. Ein Beispiel neben der Per sonenüberwachung ist auch im Bereich des autonomen Fahrens zu finden, wenn beispielsweise ein Fahrzeug während eines Überholvorgangs aus dem Gesichtsfeld der Kamera verschwindet und später wieder erscheint. So ist es nach dem Verfahren möglich, ein Objekt im zweiten Einzel bild, welches keinem Objekt im ersten Einzelbild zuordenbar ist, (bei spielsweise, weil die Assoziierungswerte zu niedrig sind) mit Objekten aus vorangegangenen Einzelbildern zu vergleichen. Durch den eindeu tigen ID-Wert werde so neu erscheinende Objekte mit älteren verglichen und bei Übereinstimmung re-identifiziert . Ein anderer Aspekt der Erfindung betrifft wie oben bereits dargelegt das maschinenbasierte Training, um Objekte richtig detektieren, iden tifizieren und klassifizieren zu können. Während in herkömmlichen deep learning Netzwerken diese Aufgaben sequentiell trainiert werden, wird erfindungsgemäß vorgeschlagen, dies parallel, gemeinsam und gleich zeitig durchzuführen. Wie bei allen Training werden hierzu eine Reihe von Testbildern vorgelegt, deren Objekte bereits korrekt klassifiziert sind. Das Training soll nun diese Objekte mit der korrekten Klassi fizierung nun nicht nur detektieren und über mehrere Einzelbilder verfolgen, sondern auch Merkmale erlernen, die typisch für bestimmte Klassen sind. Daneben dienen die Merkmale zur Verbesserung der Vor hersage und damit der Verfolgung.
Figur 7 zeigt eine Ausgestaltung des Verfahrens für ein maschinenba siertes Training eines computerimplementierten Netzwerks zum gemein samen Detektieren, Verfolgen und Klassifizieren wenigstens eines Ob jektes in einer Videobildsequenz aufweisend eine Vielzahl aufeinan derfolgender Einzelbilder. Dazu wird in Schritt S71 eine Vielzahl von Einzelbildpaaren bereitgestellt. Jedes Einzelbildpaar enthält ein erstes und in darauffolgendes zweites Einzelbild. Darüber hinaus weist jedes Einzelbild wenigstens zwei Objektvorschläge (Rol) aufweist, de nen je ein Klassenidentifikationsvektor eindeutig zugeordnet ist. Mit anderen Worten hat jede region of interest (Roi) eine eindeutige und bekannte Klassenidentifikation. Zweckmäßig weist jeder Objektvor schlag für das Training ein Objekt auf, welches durch den Klasseniden tifikationsvektor einer vordefinierten Klasse zugeordnet ist.
Mit dieser Voraussetzung beginnt das Training in Schritt S72, in dem nun für jeden der wenigstens zwei Objektvorschläge ein Merkmalsvektor ermittelt wird (S721), welche dem Klassenidentifikationsvektor zuge ordnet sind. Parallel dazu wird ein Identifikationsvektor für jeden Objektvorschlag bestimmt (S722) . Letztlich wird eine bounding box regression für jeden Objektvorschlag bestimmt (S723) , wobei diese spezifisch für den Klassenidentifikationsvektor ist. In einem optionalen Schritt in S72 werden Merkmale einer vordefinier ten Größe aus den Einzelbilder mittels eines R-CNN Verfahrens zusam mengelegt (S7211) und anschließend mittels eines Faltungsblocks mit einem nachfolgenden Zusammenlegen zu einem globalen Vektor gefaltet (S7212) . Dies ist zweckmäßig wenn der globale Merkmalsvektor oder auch die zusammengelegten Merkmale zur Bestimmung der bounding box regres- sion und des Identifikationsvektors und7oder weiteren Aufgaben her angezogen wird. Dadurch wird im Gegensatz zu einer rein sequentiellen Abarbeitung Rechenzeit und Aufwand eingespart. Auf den globalen Vektor wird eine voll verbundene Schicht einer definierten Größe angewandt, um einen gegenüber dem globalen Vektor niedriger dimensionierten Iden tifikationsvektor zu erhalten. Dazu gehört auch ein online instance matching loss Verfahren. Durch diesen Ansatz wird ein geringerer n- dimensionaler Identitätsvektor gelernt, wobei n insbesondere 256 be trägt .
In einem optionalen Schritt S722 wird ein Klassifikationsscore durch Anwenden zweier voll verbundener Schichten der Größe (C+l) und 4x(C+l) auf die Objektvorschläge ermittelt, wobei (C+l) die Anzahl der Klas senidentifikationsvektoren einschließlich des Bildhintergrundes ist.
Das Verfahren fährt dann mit Schritt S73 fort und ermittelt eine für jeden der wenigstens zwei Objektvorschläge korrelierte Merkmalskarte zwischen dem ersten Einzelbild und dem darauffolgenden zweiten Ein zelbild. Dazu wird eine Korrelation zwischen Merkmalen einer ersten Merkmalskarte des ersten Einzelbildes mit den Merkmalen von zu der ersten Merkmalskarte benachbarten Ausschnitten einer zweiten Merk malskarte ermittelt. Vereinfacht gesagt, es wird eine Korrelation zwischen einem Merkmal des ersten Einzelbildes in Ausschnitten des zweiten Einzelbildes gesucht, wobei die Ausschnitte benachbart zu der korrespondierenden Position des Merkmals in dem zweiten Bild sind. Damit werden Bewegungen des Merkmals im zweiten Bild erfasst.
Diese Merkmalskarte wird in Schritt S74 dazu verwendet, eine inter- frame regression jeden Objektvorschlag zu bestimmen. Da die Ergebnisse während des Trainings bekannt sind (die für das Training vorgelegten Bilder sind bekannt) , kann nun für jeden Trainingszyklus ein Fehler ermittelt (S75) werden.
Dazu wird aber nicht der Fehler für jeden der vorangegangenen Schritte einzeln erfasst, sondern ein kombinatorischer Fehler. Dieser ergibt sich aus den Fehlern des Bestimmens des Klassenidentifikationsvektors, des Bestimmens des wenigstens eines Identifikationsvektors, des Best immens der spezifischen bounding box regression und des Bestimmens der inter-Frame regression. In einem Fall kann der kombinatorische Fehler durch die Summe aus diesen Fehlern gebildet werden (S75) . Für das Training wird dieser kombinatorische Fehler nun minimiert.
In einem Beispiel wird für die Bestimmung des Fehlers bei der Klas sifizierung ein Softmax Cross entropy loss Verfahren angewandt (S751) . Ein Smooth Ll-loss Verfahren kann zur Bestimmung des bounding box regression Fehlers benutzt werden wie in Schritt S752 durchgeführt. Das gleiche Verfahren wird auch in Schritt S753 eingesetzt, um den Fehler einer inter-Frame regression zu ermitteln.
Grundsätzlich sind die in dieser Anmeldung offenbarte Verfahren nicht nur auf Videosequenzen oder Bildern im sichtbaren Bereich, sondern auch auf sensorische Informationen in anderen Spektralbereichen oder sogar andere sensorische Informationen, beispielsweise Schall oder Radar übertragbar.
Bezugszeichenliste
1, 25 Kamera
2 Netzwerk
3 Verfolgungsmodul
4 Anwendung
5 Vorhersagemodul
6 Identifizierungsmodul
7 Detektionsmodul
20 Computer
21, 22 Prozessoren
23 Speicher
24 Videozwischenspeieher
31 Transporter, Objekt
32 Bus, Objekt
33 PKW, Objekt
34 PKW, Objekt
DetldenNet Detektions- und Identifizierungsmodul PredNet Vorhersagemodul
BaseNet Basismodul
ft-1, ft Merkmale

Claims

Ansprüche
1. Verfahren für ein maschinenbasiertes Training eines computerimple mentierten Netzwerks zum gemeinsamen Detektieren, Verfolgen und Klassifizieren wenigstens eines Objektes in einer Videobildsequenz aufweisend eine Vielzahl aufeinanderfolgender Einzelbilder, das Verfahren aufweisend die Schritte:
Bereitstellen (S71) einer Vielzahl von Einzelbildpaaren, wobei jedes Einzelbildpaar ein erstes und in darauffolgendes zweites Einzelbild umfasst, wobei jedes Einzelbild wenigstens einen Ob- jektvorschlg (Rol) aufweist, denen je ein Klassenidentifikati onsvektor eindeutig zugeordnet ist;
für jeden Obj ektvorschlg (S72) :
o Bestimmen (S721) eines Merkmalsvektors, welche dem Klas senidentifikationsvektor zugeordnet sind;
o Bestimmen (S722) eines Identifikationvektors;
o Bestimmen (S723) einer Klassenidentifikationsvektor spe zifischen bounding box regression;
Bestimmen (S73) einer korrelierten Merkmalskarte zwischen dem ersten Einzelbild und dem darauffolgenden zweiten Einzelbild; Bestimmen (S75) für jeden Objektvorschlag eine inter-frame re gression;
Minimieren (S76) eines kombinierten Fehlers, der sich aus den Fehlern des Bestimmens des Klassenidentifikationsvektors, des Bestimmens des Identifikationsvektors, des Bestimmens der spe zifischen bounding box regression und des Bestimmens der inter- Frame regression ergibt.
2. Verfahren nach Anspruch 1, umfassend den Schritt für den wenigs- tensn einen Objektvorschlag:
Zusammenlegen von Merkmalen einer vordefinierten Größe aus den Einzelbilder mittels eines ROI-Align Verfahrens; und
Falten der zusammengelegten Merkmale mittels eines Faltungs blocks mit einem nachfolgenden Zusammenlegen zu einem globalen Vektor .
3. Verfahren nach Anspruch 1, bei dem das Bestimmen eines Identi fikationvektors umfasst:
Verwenden eines online instance matching loss, um einen n-di- mensionale Identitätsvektor zu lernen, wobei n insbesondere 256 beträgt .
4. Verfahren nach Anspruch 2, bei dem das Bestimmen des Identifi kationsvektors umfasst:
Anwenden einer voll verbundenen Schicht einer definierten Größe, um einen gegenüber dem globalen Vektor niedriger dimensionierten identifikationsvektor zu erhalten.
5. Verfahren nach einem der Ansprüche 1 bis 4, weiter umfassend für jeden des wenigstens einen Objektvorschlag den Schritt eines: Ermitteln eines Klassifikationsscores durch Anwenden zweier voll verbundener Schichten der Größe (C+l) und 4x(C+l), wobei (C+l) die Anzahl der Klassenidentifikationsvektoren einschließ lich des Bildhintergrundes ist.
6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem der Schritt des Minimierens eines kombinierten Fehlers umfasst:
Anwenden eines Softmax Cross entropy loss Verfahrens zur Be stimmung des Fehlers bei der Klassifizierung; und/oder
Anwenden eines Smooth Ll-loss Verfahrens zur Bestimmung des bounding box regression Fehlers; und/oder
Anwenden Smooth Ll-loss Verfahrens zur Bestimmung des Fehlers einer inter-Frame regression.
7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem der Schritt des Bestimmens einer korrelierten Merkmalskarte umfasst:
Ermitteln einer Korrelation zwischen der ersten Merkmalskarte des ersten Einzelbildes benachbarten Ausschnitten in der Merk- mlaskarte des zweiten Einzelbildes.
8. Verfahren nach einem der Ansprüche 1 bis 7, wobei der wenigstens eine Objektvorschlag ein Objekt aufweist, welches durch den Klassenidentifikationsvektor einer vordefinierten Klasse zuge ordnet ist.
9. Verfahren zum gemeinsamen Detektieren, Verfolgen und Klassifi zieren wenigstens eines Objektes in einer Videobildsequenz auf weisend eine Vielzahl aufeinanderfolgender Einzelbilder mit ei nem trainierten computerimplementierten Netzwerk, insbesondere mit einem nach dem Verfahren der vorherigen Ansprüche trainier ten Netzwerks, umfassend die Schritte:
Empfangen (S61) eines ersten Einzelbildes und eines darauffol genden zweiten Einzelbildes;
Detektieren (S62) mindestens eines Objektes in dem ersten Ein zelbild und dem darauffolgenden zweiten Einzelbild;
Auswählen (S63) eines Objektes aus dem ersten und dem zweiten Einzelbild;
Ermitteln (S64) mindestens eines Klassifizierungsvektors und einer Position für das Objekt aus dem ersten und dem zweiten Einzelbild;
Ermitteln (S65) eines Assoziierungswertes basierend auf dem er mittelten Klassifizierungsvektor und der Position;
Erzeugen (S66) eines zeitlich konsistenten und eindeutigen Iden tifikationsvektors des mindestens einen Objektes für jedes Ein zelbild in Antwort auf den ermittelten Assoziierungswert;
wobei für die Erzeugung des Assoziierungswerts eine von der Zeit zwischen dem ersten und zweiten Einzelbild abhängigen relative Gewichtung zwischen dem ermittelten Klassifizierungsvektor und der Position vorgesehen ist.
10. Verfahren nach Anspruch 9, bei dem der Schritt eines Detek- tierens mindestens eines Objektes umfasst:
Erzeugen (S620) einer bounding box, welche das mindestens eine Objekt umgibt;
Erzeugen (S621) einer Vorhersage für die bounding box vom ersten Einzelbild zum zweiten Einzelbild; und
Erzeugen (S622) eines Geschwindigkeitsvektors für die bounding box des ersten Einzelbildes.
11. Verfahren nach Anspruch 10, bei dem eine bounding box für jedes des mindestens einen Objektes vorgesehen ist.
12. Verfahren nach einem der Ansprüche 10 bis 11, bei dem der Schritt des Auswählens wenigstens einen der folgenden Schritte umfasst :
Auswählen (S630) der bounding box des ersten Einzelbildes und Auswählen der bounding box des zweiten Einzelbildes;
Auswählen (S631) der Vorhersage und Auswählen der bounding box des zweiten Einzelbildes; und
Auswählen (S632) des Geschwindigkeitsvektors und Auswählen der bounding box des zweiten Einzelbildes.
13. Verfahren nach einem der Ansprüche 9 bis 12, bei dem der Schritt des Ermittelns mindestens eines Klassifizierungsvektors umfasset :
Erfassen (S640) von Merkmalen des Objektes;
Berechnen (S641) eines eindeutigen Merkmalsvektors aus den er fassten Merkmalen; und
Klassifizieren (S642) des Objektes aus einer Gruppe vorgegebener Klassen anhand der erfassten Merkmale oder anhand des berechne ten Merkmalsvektors.
14. Verfahren einem der Ansprüche 9 bis 12, bei dem mit stei gender Zeit (oder einer fallenden Bildrate) zwischen dem ersten und zweiten Einzelbild die relative Gewichtung zwischen dem er mittelten Klassifizierungsvektor und der Position ansteigt.
15. Verfahren einem der Ansprüche 9 bis 12, bei dem für den Schritt des Erzeugens einer zeitlich konsistenten und eindeuti gen Identifikationsvektor ein Hungarian combinatorial optimiza- tion Verfahren eingesetzt wird.
16. Verfahren nach einem der Ansprüche 9 bis 15, bei dem die eindeutige Identifikation eines Objekts eines zweiten Einzel bildes, dass keinem Objekt eines ersten Einzelbildes zuordenbar ist mit der Identifikation eines Objektes eines dritten Einzel bildes verglichen wird, welches zeitlich vor dem ersten Einzel bild liegt.
17. Ein System zur Klassifizierung von Objekten auf einem Com puter, der umfasst:
einen Speicher
einen oder mehrere Prozessoren, die ausgeführt sind, das Ver fahren nach einem der Schritte 9 bis 16 auszuführen.
18. Ein auf einem Medium abgespeichertes Computerprogrammpro dukt mit Instruktionen, die auf einem oder mehreren Prozessoren ausgeführt, das Verfahren nach einem der Schritte 9 bis 16 durch führen .
19. Anordnung, vorzugsweise eine computerimplementierte Anord nung mit
einem Zwischenspeicher für wenigstens ein erstes und ein zweites Einzelbild einer Videosequenz;
ein RPN-Modul zur Erzeugung einer ersten Vielzahl unabhängiger Objektvorschläge aus dem ersten Einzelbild und einer zweiten Vielzahl unabhängiger Objektvorschläge aus dem zweiten Einzel bild;
ein mit einem Vorhersagemodul gemeinsam trainiertes Bestim- mungs- und Identifikationsmodul, welches mit dem RPN-Modul ge koppelt ist und ausgeführt ist, Objekte aus der ersten Vielzahl und der zweiten Vielzahl von Objektvorschlägen zu identifizieren und im ersten und zweiten Einzelbild zu detektieren und welches weiter ausgeführt ist, aus den Objektvorschlägen eine Vorhersage der Position eines Objektes im ersten Einzelbild und im zweiten Einzelbild zu treffen;
das mit dem Bestimmungs- und Identifikationsmodul gemeinsam trainierte Vorhersagemodul, welches mit dem RPN-Modul gekoppelt ist und ausgeführt ist, eine inter-Frame Vorhersage für jedes Objekt im ersten Einzelbild basierend auf der ersten Vielzahl von Objektvorschlägen und der zweiten Vielzahl von Objektvor schlägen zu treffen.
20. Anordnung nach Anspruch 19, bei dem dem RPN-Modul eine Ba- seNet Architektur vorgeschaltet ist, die ausgeführt ist, eine Vielzahl von Basismerkmalen für das erste und das zweite Ein zelbild zu ermitteln, welche dem RPN-Modul zur Erzeugung der Objektvorschläge zuführbar sind.
21. Anordnung nach einem der Ansprüche 19 bis 20, bei dem das trainiertes Bestimmungs- und Identifikationsmodul ausgeführt ist, für jeden Vorschlag Merkmale einer vorbestimmten Größe aus den Basismerkmalen zusammenzufassen, um einen mehrdimensionalen Merkmalsvektor bereitzustellen.
22. Anordnung nach Anspruch 21, bei dem das trainiertes Bestim mungs- und Identifikationsmodul ausgeführt ist, mit Hilfe des Merkmalsvektors einen Klassifizierungsparameter des Objektes im Objektvorschlag zu bestimmen.
23. Anordnung nach Anspruch 21, bei dem der Klassifizierungspa rameter aus einer Menge vorbestimmter Klassen ausgewählt ist.
24. Anordnung nach einem der Ansprüche 19 bis 23, bei dem das trainiertes Bestimmungs- und Identifikationsmodul ausgeführt ist, ein Objekt in dem Objektvorschlag einen eindeutigen Iden tifikationsvektor zuzuordnen.
25. Anordnung nach einem der Ansprüche 19 bis 24, bei dem das trainiertes Bestimmungs- und Identifikationsmodul ausgeführt ist, für jeden Objektvorschlag eine bounding box regression zu erzeugen .
26. Anordnung nach einem der Ansprüche 20 bis 25, bei dem das trainierte Vorhersagemodul ausgeführt ist, anhand der Basismerk male des ersten und zweiten Einzelbildes die Regressionsziele der detektierten Objekte vom ersten zum zweiten Einzelbild vor herzusagen .
PCT/EP2019/081317 2018-11-26 2019-11-14 Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten WO2020109016A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/296,560 US20220027664A1 (en) 2018-11-26 2019-11-14 Method for common detecting, trackng and classifying of objects

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE102018220274.5A DE102018220274A1 (de) 2018-11-26 2018-11-26 Verfahren zum gemeinsamen Detektieren, Verfolgen und Klassifizieren von Objekten
DE102018220274.5 2018-11-26
DE102018220276.1 2018-11-26
DE102018220276 2018-11-26

Publications (1)

Publication Number Publication Date
WO2020109016A1 true WO2020109016A1 (de) 2020-06-04

Family

ID=68583407

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2019/081317 WO2020109016A1 (de) 2018-11-26 2019-11-14 Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten

Country Status (2)

Country Link
US (1) US20220027664A1 (de)
WO (1) WO2020109016A1 (de)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783844A (zh) * 2020-06-10 2020-10-16 东莞正扬电子机械有限公司 基于深度学习的目标检测模型训练方法、设备及存储介质
CN112733741A (zh) * 2021-01-14 2021-04-30 苏州挚途科技有限公司 交通标识牌识别方法、装置和电子设备
CN112801164A (zh) * 2021-01-22 2021-05-14 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备及存储介质
CN113221962A (zh) * 2021-04-21 2021-08-06 哈尔滨工程大学 一种解耦分类与回归任务的三维点云单阶段目标检测方法
CN113574566A (zh) * 2021-05-14 2021-10-29 北京大学深圳研究生院 目标检测网络构建优化方法、装置、设备、介质及产品
WO2021247034A1 (en) * 2020-06-05 2021-12-09 Aetherai Ip Holding Llc Object detection method and convolution neural network for the same
WO2022037587A1 (en) * 2020-08-19 2022-02-24 Zhejiang Dahua Technology Co., Ltd. Methods and systems for video processing
CN116778362A (zh) * 2023-06-21 2023-09-19 武汉大学 基于领域知识与深度学习的电力杆塔验收构件识别方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11507090B2 (en) * 2019-06-19 2022-11-22 Uber Technologies, Inc. Systems and methods for vehicle motion control with interactive object annotation
US12094133B2 (en) * 2021-02-10 2024-09-17 Objectvideo Labs, Llc Augmenting training samples for motion detection systems using image additive operations
US20240020964A1 (en) 2022-07-18 2024-01-18 42Dot Inc. Method and device for improving object recognition rate of self-driving car
CN115272701B (zh) * 2022-08-11 2023-08-22 电子科技大学 基于自适应特征提取与解耦预测头的船舶目标检测方法
CN116206224B (zh) * 2023-03-06 2024-01-02 北京交通大学 一种用于无人机铁路巡检的轨道线全角度识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3134849A4 (de) * 2014-04-23 2017-11-22 Signpass Ltd. Verfahren und systeme zur analyse und authentifizierung von unterschriften
US10586102B2 (en) * 2015-08-18 2020-03-10 Qualcomm Incorporated Systems and methods for object tracking
US10319412B2 (en) * 2016-11-16 2019-06-11 Adobe Inc. Robust tracking of objects in videos
US10268895B2 (en) * 2017-05-25 2019-04-23 Qualcomm Incorporated Methods and systems for appearance based false positive removal in video analytics
US10964033B2 (en) * 2018-08-07 2021-03-30 Qualcomm Incorporated Decoupled motion models for object tracking

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH FEICHTENHOFER ET AL: "Detect to Track and Track to Detect", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 11 October 2017 (2017-10-11), XP081310251 *
LUO WENJIE ET AL: "Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, IEEE, 18 June 2018 (2018-06-18), pages 3569 - 3577, XP033476327, DOI: 10.1109/CVPR.2018.00376 *
XIAO TONG ET AL: "Joint Detection and Identification Feature Learning for Person Search", IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION. PROCEEDINGS, IEEE COMPUTER SOCIETY, US, 21 July 2017 (2017-07-21), pages 3376 - 3385, XP033249686, ISSN: 1063-6919, [retrieved on 20171106], DOI: 10.1109/CVPR.2017.360 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021247034A1 (en) * 2020-06-05 2021-12-09 Aetherai Ip Holding Llc Object detection method and convolution neural network for the same
US11651588B1 (en) 2020-06-05 2023-05-16 Aetherai Ip Holding Llc Object detection method and convolution neural network for the same
CN111783844B (zh) * 2020-06-10 2024-05-28 广东正扬传感科技股份有限公司 基于深度学习的目标检测模型训练方法、设备及存储介质
CN111783844A (zh) * 2020-06-10 2020-10-16 东莞正扬电子机械有限公司 基于深度学习的目标检测模型训练方法、设备及存储介质
WO2022037587A1 (en) * 2020-08-19 2022-02-24 Zhejiang Dahua Technology Co., Ltd. Methods and systems for video processing
CN112733741A (zh) * 2021-01-14 2021-04-30 苏州挚途科技有限公司 交通标识牌识别方法、装置和电子设备
CN112801164A (zh) * 2021-01-22 2021-05-14 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备及存储介质
CN112801164B (zh) * 2021-01-22 2024-02-13 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备及存储介质
CN113221962A (zh) * 2021-04-21 2021-08-06 哈尔滨工程大学 一种解耦分类与回归任务的三维点云单阶段目标检测方法
CN113221962B (zh) * 2021-04-21 2022-06-21 哈尔滨工程大学 一种解耦分类与回归任务的三维点云单阶段目标检测方法
CN113574566A (zh) * 2021-05-14 2021-10-29 北京大学深圳研究生院 目标检测网络构建优化方法、装置、设备、介质及产品
WO2022236824A1 (zh) * 2021-05-14 2022-11-17 北京大学深圳研究生院 目标检测网络构建优化方法、装置、设备、介质及产品
CN116778362A (zh) * 2023-06-21 2023-09-19 武汉大学 基于领域知识与深度学习的电力杆塔验收构件识别方法
CN116778362B (zh) * 2023-06-21 2024-03-05 广东电网有限责任公司汕尾供电局 基于领域知识与深度学习的电力杆塔验收构件识别方法

Also Published As

Publication number Publication date
US20220027664A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
WO2020109016A1 (de) Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten
EP2467828B1 (de) Verfahren und system zur automatischen objekterkennung und anschliessenden objektverfolgung nach massgabe der objektform
DE102018220274A1 (de) Verfahren zum gemeinsamen Detektieren, Verfolgen und Klassifizieren von Objekten
DE102011106050B4 (de) Schattenentfernung in einem durch eine fahrzeugbasierte Kamera erfassten Bild zur Detektion eines freien Pfads
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE19831413C2 (de) Bildverarbeitungsverfahren und Vorrichtungen zur Erkennung von Objekten im Verkehr
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102017205093A1 (de) Verfahren und System zur Vorhersage von Sensorsignalen eines Fahrzeugs
EP3642758B1 (de) Verfahren zum auswerten eines optischen erscheinungsbildes in einer fahrzeugumgebung und fahrzeug
EP3631677A1 (de) Verfahren zur erkennung von objekten in einem bild einer kamera
DE102018104270A1 (de) Verfahren zum Vorhersagen des Verhaltens mindestens eines Fußgängers
WO2020048669A1 (de) Verfahren zum bestimmen einer spurwechselangabe eines fahrzeugs, ein computerlesbares speichermedium und ein fahrzeug
DE102019131971A1 (de) Ein Bildverarbeitungsmodul
DE102012000459A1 (de) Verfahren zur Objektdetektion
EP2562681B1 (de) Objektverfolgungsverfahren für ein Kamerabasiertes Fahrerassistenzsystem
DE102018100909A1 (de) Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden
DE102019214558A1 (de) Projektionsinformations-erkennungsvorrichtung auf basis eines künstlichen neuronalen netzwerks und verfahren derselben
DE102007024641A1 (de) Verfahren und Vorrichtung zur Darstellung einer Fahrzeugumgebung
EP3655299A1 (de) Verfahren und vorrichtung zum ermitteln eines optischen flusses anhand einer von einer kamera eines fahrzeugs aufgenommenen bildsequenz
EP4078238A1 (de) Verfahren und vorrichtung zum robustifizieren von sensordaten gegen adversariale störungen
DE102019204187A1 (de) Klassifizierung und temporale Erkennung taktischer Fahrmanöver von Verkehrsteilnehmern
DE102020105070A1 (de) Verfahren zum Erkennen eines befahrbaren Bereichs in einer Umgebung eines Fahrzeugs mithilfe eines binären künstlichen neuronalen Netzes, Recheneinrichtung sowie Fahrerassistenzsystem
DE102019129029A1 (de) System und verfahren zur objektdetektion
DE102021206625A1 (de) Computerimplementiertes Verfahren und System zur Unterstützung einer Installation eines bildgebenden Sensors und Trainingsverfahren
EP1998272A2 (de) Vorrichtung zur Bestimmung einer Objekt- und/oder Existenzwahrscheinlichkeit eines Suchobjekts in einem Auslesefenster eines Bildes, Verfahren sowie Computerprogramm

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19805247

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19805247

Country of ref document: EP

Kind code of ref document: A1