WO2021165077A1 - Verfahren und vorrichtung zur bewertung eines bildklassifikators - Google Patents

Verfahren und vorrichtung zur bewertung eines bildklassifikators Download PDF

Info

Publication number
WO2021165077A1
WO2021165077A1 PCT/EP2021/052931 EP2021052931W WO2021165077A1 WO 2021165077 A1 WO2021165077 A1 WO 2021165077A1 EP 2021052931 W EP2021052931 W EP 2021052931W WO 2021165077 A1 WO2021165077 A1 WO 2021165077A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
classifier
robot
areas
image classifier
Prior art date
Application number
PCT/EP2021/052931
Other languages
English (en)
French (fr)
Inventor
Michael Rittel
Jens Oehlerking
Christoph Gladisch
Konrad Groh
Oliver WILLERS
Sebastian SUDHOLT
Matthias Woehrle
Christian Heinzemann
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Priority to US17/790,578 priority Critical patent/US20230038337A1/en
Priority to JP2022549288A priority patent/JP7473663B2/ja
Priority to CN202180014940.4A priority patent/CN115104132A/zh
Publication of WO2021165077A1 publication Critical patent/WO2021165077A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Definitions

  • the invention relates to a method for evaluating an image classifier, a method for training an image classifier, a method for operating an image classifier, a training device, a computer program, a control system and a machine-readable storage medium.
  • Image classifiers represent a key technology for operating at least partially autonomous and / or mobile robots. It has been shown that image classifiers learned from data, especially neural networks, currently provide the best classification services.
  • the advantage of the method with features according to independent claim 1 is that it provides an insight into the functioning of an image classifier.
  • the method enables the determination of elements of an image which are relevant from a security perspective and which the image classifier is intended to recognize. This allows an insight into the accuracy of the classifications of the classifier.
  • the method can be used in order to be able to determine whether a mobile robot that carries out its navigation based on the output of an image classifier is safe enough to be able to operate it.
  • the invention deals with a computer-implemented method for evaluating an image classifier, a classifier output of the image classifier being provided for controlling an at least partially autonomous robot (100, 220), the method for evaluating comprising the following steps:
  • An image classifier can be understood to mean a device that is designed to accept images (also: image data) and generate a classification output that characterizes the image data or parts thereof.
  • images also: image data
  • an image classifier can be used to determine in which parts of an input image objects are located.
  • an image classifier can be used to detect other road users.
  • the corresponding classifier output can then be used to control the robot.
  • the classifier output can be used to determine a trajectory on which the robot moves through its environment without collision. That is to say, the image data preferably show an environment of the robot.
  • an image classifier can also be used for other classification tasks, for example for semantic segmentation.
  • the image classifier classifies every desired point in an input image, for example every pixel of a camera image, into a desired class. This can be used, for example, for a mobile robot to recognize the boundaries of the drivable area of the surroundings based on an input image and to plan a trajectory based on this.
  • An image classifier can contain a model from the area of machine learning, such as a neural network.
  • the model can be used to classify the input of the image classifier.
  • the image classifier can have preprocessing and / or postprocessing methods.
  • a post-processing method can be, for example, a non-maximum suppression, which can be used to merge different bounding boxes of the same objects.
  • Different types of images can be used as input data for an image classifier, in particular sensor data, for example from a camera sensor, a radar sensor, a LIDAR sensor, an ultrasonic sensor or an infrared camera sensor. Audio recordings from microphones can also be displayed as image data and used as input for an image classifier, for example in the form of spectral images. It is still it is conceivable that several types of sensor data can be combined in order to obtain an input data for the image classifier.
  • sensor data for example from a camera sensor, a radar sensor, a LIDAR sensor, an ultrasonic sensor or an infrared camera sensor.
  • Audio recordings from microphones can also be displayed as image data and used as input for an image classifier, for example in the form of spectral images. It is still it is conceivable that several types of sensor data can be combined in order to obtain an input data for the image classifier.
  • image data can be generated synthetically with the aid of computer-aided measures.
  • images can be calculated or rendered based on physical models.
  • the images that are used for input to the image classifier can be recorded directly by a sensor and passed on to the image classifier.
  • image data can be recorded or generated before the classification and then preferably temporarily stored on a storage medium before they are passed on to the image classifier.
  • hard disks In particular, hard disks,
  • Flash drives or solid state disks can be used.
  • Image data can also be held in a dynamic memory.
  • a control signal can be determined with which an at least partially autonomous robot can be controlled.
  • An at least partially autonomous robot can be understood to mean a robot which at least temporarily carries out a task independently without the control of a person. He can use sensors and actuators for this purpose, for example.
  • a partially autonomous robot can be, for example, an autonomously driving vehicle, a lawnmower robot, a vacuum robot or a drone. In the following, the term robot is understood to mean an at least partially autonomous robot.
  • An image data set can be understood to mean a set of image data, it being possible for specific information in the form of annotations to be assigned to the image data.
  • Annotation of an image data can be understood here as a set of information that describes the image data or parts thereof or contains further additional information about the image.
  • Image data can depict scenes, whereby scenes can contain objects.
  • a scene can be understood to be a situation in the real world, in particular the environment of the robot.
  • a scene can represent a set of objects in a street situation.
  • objects can be understood to mean other road users, for example.
  • a scene can be understood to mean the virtual world on the basis of which an image datum was synthesized.
  • the objects can be understood as virtual elements of the scene.
  • Image data can be assigned to annotations, whereby annotations can comprise information about the respective depicted scene and / or image areas.
  • annotations can comprise information about the respective depicted scene and / or image areas.
  • an annotation can contain a set of bounding boxes that describe the position of the objects depicted in the image datum.
  • the annotation contains pixel-precise information with regard to the class of a pixel (i.e. a semantic segmentation) of the image data.
  • an annotation contains information on weather and / or environmental influences that were used when the specific image data was recorded, e.g. rain, solar radiation, time of day or the nature of the soil.
  • an annotation contains information about the scene in which the image was recorded.
  • the annotation can contain information about the relative position of the sensor in relation to other objects in the scene, for example. This information can later be used, for example, to determine the 3-dimensional position of an object that is mapped 2-dimensionally in an image datum (for example a camera image).
  • the 3-dimensional position information of objects in the scene is contained directly in the annotation, for example in the form of a relative vector from the sensor to the object.
  • the first image data set can preferably be selected for the method in such a way that a system is used for recording which corresponds to or is similar to the later robot.
  • the first image data set can be recorded in such a way that a test driver controls the vehicle in such a way that desired image data can be recorded by the sensors of the vehicle.
  • the first data record is recorded by a vehicle which, in terms of the sensor system, is structurally identical to the vehicle for which the image classifier is to be evaluated.
  • the first image data set is generated synthetically with the aid of a computer-aided model.
  • the model can preferably be selected in such a way that it at least resembles the robot in terms of shape, physical properties and sensors.
  • the scene can be understood as the combination of the arrangement and properties of virtual objects that can be used to generate synthetic image data.
  • the first image data set can also be obtained from existing sources.
  • existing sources For example, there are a number of freely accessible data sets on the Internet that can be used for the purpose of assessing an image classifier.
  • the annotations required for the method can either be generated manually or at least partially automatically for the various image data.
  • the annotations preferably contain relative information with regard to the element of an image datum to be classified and the system that is / was used for the recording.
  • a vehicle can be designed in such a way that it can record a camera-based image data set which can then be used to evaluate an image classifier that is to be used later in the vehicle or a structurally identical vehicle.
  • the annotations of the image data can contain, for example, bounding boxes of objects to be detected in the vicinity of the vehicle.
  • they can contain information about which position the objects to be recognized in relation to the vehicle with a specific image datum. This information can later be used to determine the relevance value of an object.
  • the model data of the synthetic model can be included directly as information in the annotations.
  • the data described in the previous paragraph can be simulated using a computer. This requires a virtual model of the sensor and its position in the simulated scene.
  • This position and / or positions of simulated objects that are later to be recognized by the image classifier can in this case be included directly in the annotation.
  • the annotations also preferably contain information relating to, for example, the speed of the robot, the acceleration, the steering angle, the drive positions or the planned trajectory, with each of this information representing values or templates that were available at the time an image data was recorded.
  • This information is preferably also contained in the annotation for the objects of the scene, insofar as it makes sense.
  • areas of a scene can then be determined that the robot could have reached within a certain time at the time of the recording. These areas can be determined, for example, using the time-to-collision with other objects and / or the time-to-react and / or time-to-brake and / or time-to-steer and / or time-to-kickdown .
  • the areas can be understood as safety-critical areas in which the robot must be able to detect other objects with high accuracy and reliability, for example in order to plan a safe trajectory.
  • An image area to be classified can be understood as at least part of an image data item for which the image classifier is intended to predict a certain object or a certain class that is mapped by the image area.
  • the areas to be classified can be understood as images of the objects that are to be detected by the image classifier.
  • the image areas can be understood as the pixels of an image, whereby each pixel can be assigned to an object.
  • the image areas to be classified can then be assigned relevance values.
  • Each area to be classified is preferably given a relevance value.
  • a relevance value can be understood here as a value which indicates the extent to which a misclassification of the image classifier for this image area can become critical for the behavior of the robot using the image classifier. For example, image areas that depict objects very far away from the robot can be assigned small relevance values. Image areas that depict objects that are close to the robot can also be of high relevance, since a misclassification of them would have a greater impact on the robot.
  • Relevance values can be represented by scalar values.
  • a relevance value can be binary or real.
  • the image classifier For all or parts of the image areas to be classified it can then be determined whether they have been correctly classified by the image classifier.
  • the evaluation of the image classifier can then preferably take place on the basis of the relevance values of the incorrectly classified image areas. For example, the evaluation can take place in the form of a sum or an average of the relevance values of the incorrectly classified areas.
  • the advantage of this approach is that a numerical and objective value can be determined which can be used to make a decision as to whether the image classifier can be used as part of the control of the robot. This enables a differentiated insight into the functioning of an image classifier as described above. This is a considerable improvement since, in particular, machine-learning-based image classifiers exhibit black box behavior that cannot otherwise be viewed in a satisfactory manner.
  • the image areas to be classified are each assigned to an object.
  • the advantage of this approach is that the relevance of an image area can reflect the relevance of the object. This allows the relevance of objects in a scene to be assessed based on the image areas. In return, this allows a detailed insight into the behavior of the image classifier for recognizing objects in a scene.
  • the step of determining the areas that can be reached by the robot is based on movement information from the robot.
  • the robot's movement information allows a determination to be made as to which areas of the scene the robot can plausibly move into at all. Objects in these areas should therefore be able to be predicted with a high degree of accuracy in order to control the robot in such a way that it does not collide with the objects, for example.
  • the movement information can be extracted from the annotation or estimated with the aid of the image data. For example, several consecutive images of the first image data set can be used to estimate the speed of the robot. In the case of, for example, stationary manufacturing robots, information about the areas that can be reached by the robot can also be obtained from the robot's data sheets.
  • this approach is therefore that areas can be determined in which the image classifier should be able to reliably recognize objects. Since other areas of the scene may be less or not relevant, this method therefore allows a detailed and targeted insight into the operation of the image classifier and the evaluation allows a better assessment of the recognition performance (also: performance) of the image classifier. This is because, in known methods, the recognition performance of an image classifier is estimated on all image areas of an image. The detection performance of the robot with regard to safe and error-free operation can therefore be assessed much better via the areas that can be reached.
  • the step of determining the relevance values comprises the following steps: • Determination of depth information of the objects;
  • image areas can only be assigned a relevance value other than zero, for example, if the corresponding objects can actually interact with the robot in a safety-critical manner.
  • the recognition of a pedestrian is irrelevant for the trajectory planning of a robot under safety-critical standards if the robot cannot travel faster than 30 km / h and the pedestrian to be recognized is, for example, more than 500 m away.
  • the behavior of the image classifier in relation to the safety of the robot can be assessed much more precisely using the method presented.
  • the step of evaluating the image classifier includes determining an evaluation measure, the method for evaluating the image classifier further including the following additional step:
  • the evaluation measure can be selected such that the worse the performance of the image classifier, the greater it is. In this case, retraining would take place if the assessment measure is greater than the assessment threshold.
  • the assessment measure can be, for example, the sum or the average of the relevance values of all misclassified image areas.
  • Retraining the image classifier can be understood to mean a method that adapts the parameters of the image classifier with the aid of the second image data set in such a way that the recognition accuracy of the image classifier is achieved with the aid of the second image data set is further improved.
  • the second image data set can in turn contain annotations that can be used to adapt the parameters with the aid of a monitored learning process.
  • the second image data set can be determined using the same method as the first image data set. It is also conceivable that the second image data set contains at least parts of the image data and / or annotations of the first image data set.
  • the advantage of this approach is that the recognition performance of the image classifier can be improved as long as the recognition performance is sufficient to be able to operate it in a real product.
  • this approach also offers the advantage that a just sufficient evaluation result can be further improved and thus a certain safety buffer can be achieved with regard to the recognition accuracy of the image classifier. It is also conceivable that the image classifier is retrained with second image data sets that differ between the iterations in order to further increase the recognition performance.
  • image data of the first image data set can be used for at least a part of the second image data set.
  • images can be removed from the first image data set or exchanged in each iteration.
  • images can be removed from the second image data set or exchanged in each iteration.
  • the retraining of the image classifier is carried out based on relevance values of image areas of the second image data set.
  • the advantage of this approach is that, from the evaluation point of view, fewer or non-relevant image areas can be weighted in the training in such a way that they have little or no influence on the training of the image classifier. This leads to a simpler training of the image classifier, which in turn significantly increases the recognition performance of the image classifier. This leads to an increase in the performance of the overall system if an image classifier trained in this way is used as part of the control of a robot.
  • FIG. 1 shows, schematically, the flowchart of the method of evaluating an image classifier
  • Figure 2 schematically shows a control system
  • FIG. 3 schematically shows an autonomous vehicle that is controlled by the control system
  • FIG. 4 schematically shows a production robot which is controlled by the control system.
  • FIG. 1 shows a flow chart of a method for evaluating an image classifier (60).
  • the image classifier (60) is such pronounced that it can recognize vehicles in motorway situations, whereby the classifier output (y) includes bounding boxes.
  • an image data set is determined. This can be done, for example, with the aid of a test vehicle in which a camera is installed that is suitable for recording image data.
  • the image data set shows image data from motorway situations on which vehicles can be recognized.
  • vehicle data such as speed and steering angle that are present at the respective recording time of an image are assigned to the image data. Alternatively, these vehicle data can also be estimated from the recorded image data after the recording.
  • the image data set determined in this way is then manually annotated by a person.
  • semi-automatic annotation can also be carried out with the aid of a second image classifier.
  • the second image classifier can suggest annotations that can be checked by a person and changed if necessary.
  • the second image classifier carries out the annotation in a fully automated manner, in that the suggestions of the second image classifier are used directly as annotations.
  • the annotations generated contain information relating to the other vehicles in the image data recorded, bounding boxers of the vehicles in the image, as well as the installation position and orientation of the camera sensor.
  • the annotations additionally contain 3-dimensional information such as position, orientation, speed and / or direction of travel of the vehicles to be detected accordingly.
  • a second step (301) it is then determined for each of the images of the image data set which areas the test vehicle could have reached in a specified time at the point in time when the image was taken.
  • the Time-To-React for example, can be used here as the time.
  • the Time-To-React instead of the Time-To-React, the Time-To-Collision, Time-To-Brake, Time- To-steer or time-to-kickdown or combinations of these times can be used.
  • the calculation of the reachable areas takes place with the help of the speed information in the annotations, as well as information about the position of the vehicle.
  • the result is information about which areas the vehicle could have reached in a certain time at the point in time when an image data item was recorded in the scene in which the image data item was recorded.
  • a relevance value is determined for the other vehicles of the image data.
  • the 3-dimensional position of the other vehicles is determined on the basis of the annotated bounding boxes and the installation position of the camera sensor. Alternatively, this information can also be extracted directly from the annotation, if it is available.
  • the relevance value can be defined as 1 for all vehicles that are in one of the areas determined in the previous step, and otherwise as 0. Alternatively, it is possible that the vehicles are assigned a value between 0 and 1 if they are outside an area determined in the previous step. Alternatively, it is also conceivable that vehicles are also assigned a value between 0 and 1 in one of the areas determined in the previous step. It is also conceivable that the relevance value of an object also depends on the speed and trajectory of the object. For example, objects outside the reachable areas can also receive a relevance value greater than 0 if, for example, they are moving towards the corresponding reachable areas.
  • a vehicle In a fourth step (303), the image data of the first image data set are classified by the image classifier (60).
  • the image classifier In the classification, a vehicle can either be detected in an image datum, that is to say correctly classified, or not.
  • a fifth step (304) the recognition accuracy of the image classifier (60) is evaluated.
  • the mean value or the median of the relevance values can also be used as an evaluation measure.
  • the image classifier (60) can be retrained in a sixth step (306) with the aid of a second image data set.
  • the evaluation threshold is defined as 0. This is synonymous with the statement that all vehicles with a relevance greater than 0 must be recognized. In the event that this does not occur, the image classifier is retrained.
  • the second image data set can be determined using one of the methods that can also be used to determine the first image data set. If the evaluation measure satisfies the evaluation threshold value, the image classifier (60) can be released.
  • FIG. 2 shows an actuator (10) in its surroundings (20) in interaction with a control system (40).
  • the surroundings (20) are detected at preferably regular time intervals with a sensor (30), in particular an imaging sensor such as a video sensor, which can also be provided by a plurality of sensors, for example a stereo camera.
  • the sensor signal (S) - or, in the case of several sensors, one sensor signal (S) each - from the sensor (30) is transmitted to the control system (40).
  • the control system (40) thus receives a sequence of sensor signals (S).
  • the control system (40) uses this to determine control signals (A) which are transmitted to the actuator (10).
  • the control system (40) receives the sequence of sensor signals (S) from the sensor (30) in an optional receiving unit (50) which converts the sequence of sensor signals (S) into a sequence of input images (x) the sensor signal (S) is taken over as the input image (x)).
  • the input image (x) can, for example, be a section or further processing of the sensor signal (S).
  • the input image (x) comprises individual frames of a video recording. In other words, the input image (x) is determined as a function of the sensor signal (S).
  • the sequence of input images (x) is fed to an image classifier (60) which, for example, was evaluated as in the first embodiment and whose evaluation level was below the evaluation threshold value.
  • the image classifier (60) is preferably parameterized by parameters (f) which are stored in a parameter memory (P) and are provided by this.
  • the image classifier (60) determines from the input images (x) classifier outputs (y).
  • the classifier outputs (y) are fed to an optional conversion unit (80) which uses them to determine control signals (A) which are fed to the actuator (10) in order to control the actuator (10) accordingly.
  • the classifier output (y) includes information about objects that the sensor (30) has detected.
  • the actuator (10) receives the control signals (A), is controlled accordingly and carries out a corresponding action.
  • the actuator (10) can include a control logic (not necessarily structurally integrated) which determines a second control signal from the control signal (A) with which the actuator (10) is then controlled.
  • control system (40) comprises the sensor (30). In still further embodiments, the control system (40) alternatively or additionally also comprises the actuator (10). In further preferred embodiments, the control system (40) comprises one or a plurality of processors (45) and at least one machine-readable storage medium (46) on which instructions are stored, which when they are executed on the processors (45), the Control system (40) cause to carry out the method according to the invention.
  • a display unit (10a) is provided as an alternative or in addition to the actuator (10).
  • FIG. 3 shows how the control system (40) can be used to control an at least partially autonomous robot, here an at least partially autonomous motor vehicle (100).
  • the sensor (30) can be, for example, a video sensor preferably arranged in the motor vehicle (100).
  • the image classifier (60) is set up to identify objects from the input images (x).
  • the actuator (10), which is preferably arranged in the motor vehicle (100), can be, for example, a brake, a drive or a steering system of the motor vehicle (100).
  • the control signal (A) can then be determined in such a way that the actuator or actuators (10) is controlled in such a way that the motor vehicle (100) prevents, for example, a collision with the objects identified by the image classifier (60), in particular when it occurs is about objects of certain classes, e.g. pedestrians.
  • the at least partially autonomous robot can also be another mobile robot (not shown), for example one that moves by flying, swimming, diving or walking.
  • the mobile robot can also be, for example, an at least partially autonomous lawnmower or an at least partially autonomous cleaning robot.
  • the control signal (A) can be determined in such a way that the mobile robot is driven and / or steered in such a way be controlled so that the at least partially autonomous robot prevents, for example, a collision with objects identified by the image classifier (60).
  • a display unit (10a) can be controlled with the control signal (A) and, for example, the determined safe areas can be displayed.
  • the display unit (10a) it is also possible for the display unit (10a) to be controlled with the control signal (A) in such a way that it emits an optical or acoustic warning signal when it is determined that the motor vehicle ( 100) threatens to collide with one of the objects identified by the image classifier (60).
  • FIG. 4 shows how the control system (40) can be used to control a production robot (220), such as a PUMA robot, wherein the work space (212) of the production robot (220) can also be entered by people (210).
  • the control system (40) receives image data from a camera sensor (30), on the basis of which it controls an actuator (10), the actuator (10) recording the movement of the production robot (220) and a gripper drives at the end of the arm of the production robot (220), with which workpieces (211a, 211b) can be detected.
  • the control system (40) can also use the included image classifier (60) to recognize people (210) who are in the work area (212) of the production robot (220).
  • the movement of the production robot (220) can be adapted by the control system (40) in such a way that the person or people (210) are not affected by Production robot (220) is touched or injured.
  • the movement of the production robot (220) is selected such that the arm of the production robot (220) maintains a certain minimum distance from the person or persons (210) in the work space (212).
  • the image classifier (60) was trained with images of people (210) in or around the work space (212) of the production robot (220).
  • a first image data record can be recorded, the images of the first image data record also being able to show people (210) in or around the workspace of the production robot (220).
  • the images of the first image data set can be provided with annotations in the form of bounding boxes for the persons (210) on the corresponding images for evaluation, with each bounding box also being assigned a relevance value. This relevance value can be defined as 1 if the corresponding bounding box shows a person (210) who is in the work space (212) of the production robot (220), and otherwise it can be defined as 0.
  • the sum of the relevance values of the bounding boxes of the first data record not recognized by the image classifier (60) must be. This is synonymous with the statement that the image classifier (60) must not incorrectly detect any person (210) inside the work area (212) of the production robot (220), while this is not required for people outside the work area. Alternatively, it is conceivable that people outside the work space (212) receive higher relevance values the closer they are to the work space (212). It is also conceivable that in this case the sum of the relevance values may be greater than 0 in order to evaluate the image classifier (60) as sufficiently safe for use.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Image Analysis (AREA)

Abstract

Computerimplementiertes Verfahren zur Bewertung eines Bildklassifikators (60), wobei eine Klassifikatorausgabe (y) des Bildklassifikators (60) zur Ansteuerung eines zumindest teilweise autonomen Roboters (100, 220) verwendet wird, wobei das Verfahren zur Bewertung folgende Schritte umfasst: • Ermittlung (300) eines ersten Datensatzes, wobei der erste Datensatz Bilddaten enthält, wobei den Bilddaten Annotationen zugewiesen sind, wobei die Annotationen Informationen über die im jeweiligen Bild abgebildete Szene und/oder über zu klassifizierende Bildbereiche und/oder über Bewegungsinformationen des Roboters (100, 220) enthalten; • Ermittlung (301) von durch den Roboter (100, 220) erreichbaren Bereichen (212) der Szenen basierend auf den Annotationen; • Ermittlung (302) von Relevanzwerten für vom Bildklassifikator zu klassifizierenden Bildbereiche; • Klassifizierung (303) der Bilddaten des ersten Bilddatensatzes mittels des Bildklassifikators; • Bewertung (304) des Bildklassifikators basierend auf durch den Bildklassifikator (60) korrekt klassifizierten Bildbereichen und falsch klassifizierten Bildbereichen, sowie den berechneten Relevanzwerten der entsprechenden Bildbereiche.

Description

Beschreibung
Titel
Verfahren und Vorrichtung zur Bewertung eines Bildklassifikators
Die Erfindung betrifft einen Verfahren zum Bewerten eines Bildklassifikators, ein Verfahren zum Trainieren eines Bildklassifikators, ein Verfahren zum Betreiben eines Bildklassifikators, eine Trainingsvorrichtung, ein Computerprogramm, ein Ansteuersystem und ein maschinenlesbares Speichermedium.
Stand der Technik
"Reachability Analysis and its Application to the Safety Assessment of Auto- nomous Cars", Matthias Althoff, Dissertation, Technische Universität München, 2010 offenbart ein Verfahren zum Bestimmen von erreichbaren Bereichen eines autonomen Fahrzeugs.
Vorteile der Erfindung
Bildklassifikatoren stellen eine Schlüsseltechnologie zum Betreiben von zumin dest teilweise autonomen und/oder mobilen Robotern da. Es hat sich gezeigt, dass aus Daten gelernte Bildklassifikatoren, insbesondere Neuronale Netze, der zeit die besten Klassifikationsleistungen erbringen.
Die Untersuchung dieser machine-learning-basierten Bildklassifikatoren gestaltet sich jedoch schwierig, da oftmals nicht offensichtlich ist, wie ein Bildklassifikator zu seiner Klassifikation gelangt. Insbesondere bei sicherheitskritischen Anwen dungen macht es diese Eigenschaft schwer mit Sicherheit zu bestimmen, dass ein Produkt, welches einen machine-learning-basierten Bildklassifikator enthält, in seiner Umgebung sicher agiert. Der Vorteil des Verfahrens mit Merkmalen gemäß dem unabhängigen Anspruch 1 liegt darin, einen Einblick in die Funktionsweise eines Bildklassifikators zu er halten. Insbesondere ermöglicht das Verfahren die Ermittlung von unter Sicher heitsaspekten relevanten Elementen eines Bildes, die der Bildklassifikator erken nen soll. Dies erlaubt einen Einblick in die Genauigkeit der Klassifikationen des Klassifikators. Im Umkehrschluss kann das Verfahren verwendet werden, um be stimmen zu können, ob ein mobiler Roboter, der seine Navigation basierend auf Ausgaben eines Bildklassifikators vornimmt, sicher genug ist, um ihn betreiben zu können.
Offenbarung der Erfindung
In einem ersten Aspekt beschäftigt sich die Erfindung mit einem computerimple mentierten Verfahren zur Bewertung eines Bildklassifikators, wobei eine Klassifi katorausgabe des Bildklassifikators zur Ansteuerung eines zumindest teilweise autonomen Roboters (100, 220) bereitgestellt wird, wobei das Verfahren zur Be wertung folgende Schritte umfasst:
• Ermittlung (300) eines ersten Datensatzes, wobei der erste Datensatz Bilder enthält, wobei den Bildern Annotationen zugewiesen sind, wo bei die Annotationen Informationen über die im jeweiligen Bild abge bildete Szene und/oder über zu klassifizierende Bildbereiche und/o der über Bewegungsinformationen des Roboters (100, 220) enthal ten;
• Ermittlung (301) von durch den Roboter (100, 220) erreichbaren Be reichen (212) der Szenen basierend auf den Annotationen;
• Ermittlung (302) von Relevanzwerten für vom Bildklassifikator zu klassifizierenden Bildbereiche;
• Klassifizierung (303) der Bilder des ersten Bilddatensatzes mittels des Bildklassifikators;
• Bewertung (304) des Bildklassifikators basierend auf durch den Bild klassifikator (60) korrekt klassifizierten Bildbereichen und falsch klas sifizierten Bildbereichen, sowie den berechneten Relevanzwerten der entsprechenden Bildbereiche. Unter einem Bildklassifikator kann eine Vorrichtung verstanden werden, die da hingehend ausgeprägt ist, dass sie Bilder (auch: Bilddaten) entgegennehmen kann und eine Klassifikationsausgabe erzeugen kann, die die Bilddaten oder Teile davon charakterisiert. Zum Beispiel kann ein Bildklassifikator verwendet werden, um zu bestimmen, in welchen Teilen eines Eingabebildes sich Objekte befinden. Bei einem mobilen Roboter, wie beispielsweise einem autonomen Fahrzeug, kann ein Bildklassifikator so verwendet werden, dass er andere Stra ßenteilnehmer detektiert. Die entsprechende Klassifikatorausgabe kann dann verwendet werden, um den Roboter anzusteuern. Zum Beispiel kann mit Hilfe der Klassifikatorausgabe eine Trajektorie bestimmt werden, auf der der Roboter kollisionsfrei durch seine Umwelt bewegt. D.h. vorzugsweise zeigen die Bilddaten eine Umgebung des Roboters.
Neben der Objektdetektion kann ein Bildklassifikator auch für andere Klassifikati onsaufgaben verwendet werden, zum Beispiel für semantische Segmentierung. Hierbei klassifiziert der Bildklassifikator jeden gewünschten Punkt in einem Ein gabebild, zum Beispiel jeden Pixel eines Kamerabildes, in eine gewünschte Klasse. Dies kann zum Beispiel dafür verwendet werden, dass ein mobiler Robo ter basierend auf einem Eingabebild die Grenzen des fahrbaren Bereichs der Umgebung erkennt und basierend darauf eine Trajektorie plant.
Ein Bildklassifikator kann ein Modell aus dem Bereich des Machine Learning, wie etwa ein neuronales Netz, enthalten. Das Modell kann verwendet werden, um die Eingabe des Bildklassifikators zu klassifizieren. Des Weiteren kann der Bildklas sifikator Vor- und/oder Nachverarbeitungsverfahren. Im Falle einer Objektdetek tion kann ein Nachverarbeitungsverfahren zum Beispiel eine Non-Maximum Suppresion sein, die verwendet werden kann, um verschiedene Bounding Boxen gleicher Objekte zu fusionieren.
Für einen Bildklassifikator können unterschiedliche Arten von Bildern als Einga bedaten verwendet werden, insbesondere Sensordaten, beispielsweise von ei nem Kamerasensor, einem Radarsensor, einem LIDAR-Sensor, einem Ultra schallsensor oder einem Infrarotkamerasensor. Auch Audioaufnahmen von Mik rofonen können als Bilddaten dargestellt und als Eingabe für einen Bildklassifika tor verwendet werden, zum Beispiel in Form von Spektralbildern. Es ist weiterhin vorstellbar, dass mehrere Arten von Sensordaten kombiniert werden können, um ein Eingabedatum für den Bildklassifikator zu erhalten.
Alternativ können Bilddaten mit Hilfe von computergestützten Maßnahmen syn thetisch erzeugt werden. Zum Beispiel können Bilder basierend auf physikali schen Modellen berechnet bzw. gerendert werden.
Die Bilder, die zur Eingabe für den Bildklassifikator verwendet werden, können von einem Sensor direkt aufgenommen und an den Bildklassifikator weitergege ben werden. Alternativ können Bilddaten vor der Klassifikation aufgenommen bzw. erzeugt werden und anschließend vorzugsweise auf einem Speicherme dium zwischengespeichert werden, bevor sie an den Bildklassifikator weitergege ben werden. Als Speichermedium können hierbei insbesondere Festplatten,
Flash Drives oder Solid State Disks verwendet werden. Auch können Bilddaten in einem dynamischen Speicher vorgehalten werden.
Basierend auf der Ausgabe des Bildklassifikators kann ein Ansteuersignal ermit telt werden, mit dem ein zumindest teilweise autonomer Roboter angesteuert werden kann. Unter einem zumindest teilweise autonomen Roboter kann ein Ro boter verstanden werden, der zumindest zeitweise ohne Steuerung eines Men schen eine Aufgabe selbständig durchführt. Hierfür kann er zum Beispiel Senso ren und Aktuatoren verwenden. Ein teilweise autonomer Roboter kann zum Bei spiel ein autonom fahrendes Fahrzeug, ein Rasenmähroboter, ein Saugroboter oder eine Drohne sein. Im Folgenden wird unter dem Begriff Roboter ein zumin dest teilweise autonomer Roboter verstanden.
Das Verfahren benötigt einen ersten Bilddatensatz, mit dessen Hilfe die Bewer tung durchgeführt werden kann. Unter einem Bilddatensatz kann eine Menge von Bilddaten verstanden werden, wobei den Bilddaten spezifische Informationen in Form von Annotationen zugeordnet sein können. Unter Annotation eines Bildda tums kann hierbei eine Menge von Informationen verstanden werden, die das Bilddatum oder Teile davon beschreiben oder weitere zusätzliche Informationen über das Bild beinhalten. Bilddaten können Szenen abbilden, wobei Szenen Objekte enthalten können. Im Falle von mit einem oder mehreren Sensoren aufgenommenen Bilddaten kann unter einer Szene eine Situation der realen Welt, insbesondere der Umgebung des Roboters, verstanden werden. Zum Beispiel kann eine Szene eine Menge von Objekten in einer Straßensituation darstellen. Unter Objekten können in die sem Fall zum Beispiel andere Straßenteilnehmer verstanden werden.
Im Falle von synthetische erzeugten Bilddaten kann unter einer Szene die virtu elle Welt verstanden werden, auf deren Basis ein Bilddatum synthetisiert wurde.
In diesem Fall können die Objekte als virtuelle Elemente der Szene verstanden werden.
Bilddaten können Annotationen zugeordnet werden, wobei Annotationen Infor mationen über die jeweils abgebildete Szene und/oder Bildbereiche umfassen können. Zum Beispiel kann eine Annotation eine Menge von Bounding Boxen enthalten, die die Position vom im Bilddatum abgebildeten Objekten beschreiben. Alternativ oder zusätzlich ist vorstellbar, dass die Annotation pixelgenaue Infor mationen bezüglich der Klasse eines Pixels (d.h. eine semantische Segmentie rung) des Bilddatums beinhaltet.
Alternativ oder zusätzlich ist vorstellbar, dass eine Annotation Informationen von Wetter- und/oder Umwelteinflüssen beinhaltet, die bei der Aufnahme des spezifi schen Bilddatums Vorlagen, z.B. Regen, Sonneneinstrahlung, Tageszeit oder Bo denbeschaffenheit.
Alternativ oder zusätzlich ist vorstellbar, dass eine Annotation Informationen über die Szene enthält, in der das Bild aufgenommen wurde. Für den Fall einer realen Szene, kann die Annotation zum Beispiel Informationen über die relative Position des Sensors im Verhältnis zu anderen Objekten der Szene enthalten. Diese In formation kann später beispielsweise genutzt werden, um die 3-dimensionale Po sition eines Objekts zu bestimmen, das in einem Bilddatum (z.B. einem Kamera bild) 2-dimensional abgebildet ist. Alternativ ist auch denkbar, dass die 3-dimen- sionalen Positionsinformationen von Objekten in der Szene direkt in der Annota tion enthalten sind, zum Beispiel in Form eines relativen Vektors vom Sensor zum Objekt. Der erste Bilddatensatz kann für das Verfahren vorzugsweise so gewählt wer den, dass zur Aufzeichnung ein System verwendet wird, das dem späteren Ro boter entspricht oder ähnelt. Zum Beispiel kann zur Bewertung des Bildklassifika tors, der in einem autonomen Fahrzeug verwendet werden soll, der erste Bildda tensatz so aufgenommen werden, dass ein Testfahrer das Fahrzeug derart steu ert, dass gewünschte Bilddaten von den Sensoren des Fahrzeugs aufgezeichnet werden können. Alternativ ist vorstellbar, dass der erste Datensatz von einem Fahrzeug aufgenommen wird, das von der Sensorik baugleich zu dem Fahrzeug ist, für den der Bildklassifikator bewertet werden soll.
Alternativ ist vorstellbar, dass der erste Bilddatensatz synthetisch mit Hilfe eines computergestützten Modells erzeugt wird. Hierbei kann das Modell vorzugsweise so gewählt werden, dass es dem Roboter in Form, physikalischen Eigenschaften und Sensorik zumindest ähnelt. Die Szene kann in diesem Fall als die Kombina tion von Anordnung und Eigenschaften von virtuellen Objekten verstanden wer den, mit deren Hilfe synthetische Bilddaten erzeugt werden können.
Alternativ kann der erste Bilddatensatz auch aus bestehenden Quellen gewon nen werden. Zum Beispiel existiert eine Reihe von frei zugänglichen Datensätzen im Internet, die zum Zwecke der Beurteilung eines Bildklassifikators benutzt wer den können.
Die für das Verfahren benötigten Annotationen können entweder manuell oder zumindest teilautomatisiert für die verschiedenen Bilddaten erzeugt werden. Vor zugsweise enthalten die Annotationen relative Informationen bezüglich der zu klassifizierenden Element eines Bilddatums und dem System, was zur Aufzeich nung verwendet wird/wurde. Zum Beispiel kann ein Fahrzeug derart ausgeprägt sein, dass es einen kamerabasierten Bilddatensatz aufnehmen kann, der im An schluss zur Bewertung eines Bildklassifikators verwendet werden kann, der im Fahrzeug oder einem baugleichen Fahrzeug später verwendet werden soll. Die Annotationen der Bilddaten können in diesem Fall zum Beispiel Bounding Boxen von in der Umgebung des Fahrzeugs zu detektierenden Objekten beinhalten. Zu sätzlich können sie Informationen darüber enthalten, welche Position die in ei- nem spezifischen Bilddatum zu erkennenden Objekte im Verhältnis zum Fahr zeug haben. Diese Informationen können später genutzt werden, um den Rele vanzwert eines Objekts zu bestimmen.
Alternativ können bei synthetisch erzeugten Bilddaten die Modelldaten des syn thetischen Modells direkt als Informationen in die Annotationen aufgenommen werden. Zum Beispiel können die im vorherigen Absatz beschriebenen Daten mit Hilfe eines Computers entsprechende simuliert werden. Hierfür wird ein virtuelles Modell des Sensors benötigt, sowie seine Position in der simulierten Szene.
Diese Position und/oder Positionen von simulierten Objekten, die später vom Bildklassifikator erkannt werden sollen, können in diesem Fall direkt in die Anno tation mit aufgenommen werden.
Vorzugsweise enthalten die Annotationen darüber hinaus Informationen bezüg lich z.B. der Geschwindigkeit des Roboters, der Beschleunigung, der Lenkwinkel, der Antriebsstellungen oder der geplanten Trajektorie, wobei jede dieser Informa tionen Werte abbildet, die zum Zeitpunkt der Aufnahme eines Bilddatums vorlie gen oder Vorlagen. Diese Informationen sind vorzugsweise, soweit sinnvoll, auch für die Objekte der Szene in der Annotation enthalten.
Mit Hilfe der Bewegungsinformationen können dann Bereiche einer Szene ermit telt werden, die der Roboter zum Zeitpunkt der Aufnahme in einer bestimmten Zeit erreichen hätte können. Diese Bereiche können z.B. mit Hilfe der Time-To- Collision mit anderen Objekten und/oder der Time-To-React und/oder Time-To- Brake und/oder Time-To-Steer und/oder Time-To-Kickdown ermittelt werden. Die Bereiche können als sicherheitskritische Bereich verstanden werden, in denen der Roboter andere Objekte mit hoher Genauigkeit und Zuverlässigkeit erkennen können muss, um zum Beispiel eine sichere Trajektorie zu planen.
Ein zu klassifizierender Bildbereich kann als zumindest Teil eines Bilddatums verstanden werden, für den der Bildklassifikator ein bestimmtes Objekt oder eine bestimmte Klasse prädizieren soll, was durch den Bildbereich abgebildet ist. Im Falle einer Objektdetektion können die zu klassifizierenden Bereiche als Abbil dungen der Objekte verstanden werden, die vom Bildklassifikator detektiert wer den sollen. Im Falle einer semantischen Segmentierung können die Bildbereiche als die Pixel eines Bildes verstanden werden, wobei jeder Pixel einem Objekt zu geordnet werden kann.
Den zu klassifizierenden Bildbereichen können dann Relevanzwerte zugeordnet werden. Vorzugsweise erhält jeder zu klassifizierende Bereich einen Relevanz wert. Unter Relevanzwert kann hier ein Wert verstanden werden, der angibt, in wie weit eine Fehlklassifikation des Bildklassifikators für diesen Bildbereich kri tisch für das Verhalten des Roboters werden kann, der den Bildklassifikator ver wendet. Zum Beispiel können Bildbereichen, die sehr weit vom Roboter entfernte Objekte abbilden, kleine Relevanzwerte zugeordnet werden. Bildbereichen, die dem Roboter nahgelegene Objekte abbilden, können hingehen hohen Relevanz wert erhalten, da eine Fehlklassifikation von ihnen größeren Einfluss auf den Ro boter hätte.
Relevanzwerte können durch skalare Werte abgebildet werden. Dabei kann ein Relevanzwert binär oder reellwertig sein.
Für alle oder Teile der zu klassifizierenden Bildbereiche kann dann bestimmt werden, ob sie vom Bildklassifikator korrekt klassifiziert wurden. Die Bewertung des Bildklassifikators kann dann vorzugsweise auf Basis der Relevanzwerte der falsch klassifizierten Bildbereiche erfolgen. Zum Beispiel kann die Bewertung in Form einer Summe oder eines Durchschnitts der Relevanzwerte der falsch klas sifizierten Bereiche erfolgen.
Der Vorteil dieser Herangehensweise ist, dass ein numerischer und objektiver Wert bestimmt werden kann, der verwendet werden kann, um eine Entscheidung zu treffen, ob der Bildklassifikator als Teil der Ansteuerung des Roboters verwen det werden kann. Dies ermöglicht einen differenzierten Einblick in die Funktions weise eines wie oben beschriebenen Bildklassifikators. Dies ist eine erhebliche Verbesserung, da insbesondere machine-learning-basierte Bildklassifikatoren Black Box Verhalten aufweisen, das anderweitig nicht befriedigend einsehbar ist.
Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass die zu klassifizie renden Bildbereiche jeweils einem Objekt zugeordnet sind. Der Vorteil dieser Herangehensweise ist, dass die Relevanz eines Bildbereichs die Relevanz des Objekts wiederspiegeln kann. Dies erlaubt die Bewertung der Relevanz von Objekten in einer Szene basierend auf den Bildbereichen. Im Ge genzug erlaubt dies einen detaillierten Einblick in das Verhalten des Bildklassifi kators zur Erkennung von Objekten in einer Szene.
Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass der Schritt der Er mittlung der durch den Roboter erreichbaren Bereiche auf Bewegungsinformatio nen des Roboters basiert.
Die Bewegungsinformationen des Roboters, wie etwa Geschwindigkeit oder Be schleunigung, erlauben eine Bestimmung, in welche Bereiche der Szene der Ro boter sich überhaupt plausiblerweise bewegen kann. Objekte in diesen Berei chen sollten daher mit hoher Genauigkeit vorhergesagt werden können, um den Roboter so anzusteuern, dass er zum Beispiel nicht mit den Objekten kollidiert. Die Bewegungsinformationen können, falls vorhanden, aus der Annotation extra hiert werden oder mit Hilfe der Bilddaten geschätzt werden. Zum Beispiel können mehrere aufeinanderfolgende Bilder des ersten Bilddatensatzes verwendet wer den, um die Geschwindigkeit des Roboters zu schätzen. Im Falle von beispiels weise stationären Fertigungsroboter können Informationen über die erreichbaren Bereiche des Roboters auch aus Datenblättern des Roboters gewonnen werden.
Der Vorteil dieser Herangehensweise ist daher, dass Bereiche bestimmt werden können, in denen der Bildklassifikator Objekte zuverlässig erkennen können sollte. Da andere Bereiche der Szene weniger oder nicht relevant sein können, erlaubt dieses Verfahren daher einen detaillierten und zielgerichteten Einblick in die Arbeitsweise des Bildklassifikators und die Bewertung erlaubt eine bessere Abschätzung der Erkennungsleistung (auch: Performanz) des Bildklassifikators. Dies liegt daran, da in bekannten Verfahren die Erkennungsleistung eines Bild klassifikators auf allen Bildbereichen eines Bildes geschätzt werden. Über die er mittelten erreichbaren Bereiche lässt sich daher die Erkennungsleistung des Ro boters in Bezug auf einen sicheren und fehlerfreien Betrieb viel besser bewerten.
Im ersten Aspekte der Erfindung ist weiterhin vorstellbar, dass der Schritt der Er mittlung der Relevanzwerte folgende Schritte umfasst: • Ermittlung von Tiefeninformationen der Objekte;
• Bestimmung eines Verhältnisses von Objektpositionen zu erreichba ren Bereichen basierend auf den ermittelten Tiefeninformationen;
• Ermittlung der Relevanzwerte basierend auf dem Verhältnis.
Der Vorteil dieser Herangehensweise ist, dass Bildbereichen beispielsweise nur dann ein Relevanzwert ungleich Null zugewiesen werden kann, wenn die ent sprechenden Objekte tatsächlich mit dem Roboter sicherheitskritisch interagieren können. Beispielsweise ist die Erkennung eines Fußgängers für die Trajektorien- planung eines Roboters unter sicherheitskritischen Maßstäben irrelevant, falls der Roboter zum Beispiel nicht schneller als 30 km/h fahren kann und der zu er kennende Fußgänger zum Beispiel mehr als 500m entfernt ist. Im Umkehr schluss kann das Verhalten des Bildklassifikators in Bezug zur Sicherheit des Roboters durch das vorgestellte Verfahren viel genauer bewertet werden.
Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass der Schritt der Be wertung des Bildklassifikators das Bestimmen eines Bewertungsmaßes umfasst, weiter wobei das Verfahren zur Bewertung des Bildklassifikators folgenden zu sätzlichen Schritt enthält:
• Nachtrainieren des Bildklassifikators basierend auf einem zweiten Bildda tensatz, falls das Bewertungsmaß schlechter ist als ein vorgegebener Be wertungsschwellenwert.
Beispielsweise kann das Bewertungsmaß derart gewählt sein, dass es umso grö ßer ist, je schlechter die Performanz des Bildklassifikators ist. In diesem Fall würde also nachtrainiert werden, wenn das Bewertungsmaß größer als der Be wertungsschwellenwert ist.
Das Bewertungsmaß kann, wie oben beschrieben, beispielsweise die Summe o- der der Durchschnitt der Relevanzwerte aller fehlklassifizierten Bildbereiche sein.
Unter nachtrainieren des Bildklassifikators kann ein Verfahren verstanden wer den, das die Parameter des Bildklassifikator mit Hilfe des zweiten Bilddatensat zes so anpasst, dass die Erkennungsgenauigkeit des Bildklassifikators mit Hilfe des zweiten Bilddatensatz weiter verbessert wird. Hierzu kann der zweite Bildda tensatz wiederum Annotationen enthalten, die zur Anpassung der Parameter mit Hilfe eines überwachten Lernverfahrens verwendet werden können. Der zweite Bilddatensatz kann hierbei mit den gleichen Verfahren wie der erste Bilddaten satz ermittelt werden. Weiterhin ist denkbar, dass der zweite Bilddatensatz zu mindest Teile der Bilddaten und/oder Annotationen des ersten Bilddatensatzes enthält.
Der Vorteil dieser Herangehensweise ist, dass durch die verbesserte Erken nungsgenauigkeit die Sicherheit und damit die Erkennungsleistung des Roboters wesentlich gesteigert werden kann. Dies bedingt ein besseres Gesamtsystem, das in der realen Welt besser und zuverlässiger funktioniert.
Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass die beschriebenen Schritte iterativ wiederholt werden, bis eine vorgegebene Anzahl von Iterationen durchgeführt wurde und/oder der vorgegebene Bewertungsschwellenwert unter schritten wurde.
Der Vorteil dieser Herangehensweise ist, dass die Erkennungsleistung des Bild klassifikators so lange verbessert werden kann, bist die Erkennungsleistung aus reichend ist, um ihn in einem realen Produkt betreiben zu können. Zusätzlich bie tet diese Herangehensweise auch den Vorteil, dass ein gerade genügendes Be wertungsergebnis weiter verbessert werden kann und so ein gewisser Sicher heitspuffer bezüglich der Erkennungsgenauigkeit des Bildklassifikators erzielt werden kann. Weiterhin ist denkbar, dass der Bildklassifikator mit zwischen den Iterationen unterschiedlichen zweiten Bilddatensätzen nachtrainiert wird, um die Erkennungsleistung weiter zu steigern.
Bei dem vorgestellten iterativen Vorgehen können Bilddaten des ersten Bildda tensatzes für zumindest einen Teil des zweiten Bilddatensatz verwendet werden. Vorzugsweise können in jeder Iteration Bilder aus dem ersten Bilddatensatz ent fernt oder ausgetauscht werden. Des Weiteren können in jeder Iteration Bilder aus dem zweiten Bilddatensatz entfernt oder ausgetauscht werden. Findet ein Austausch von Bilddaten beim ersten und/oder zweiten Bilddatensatz statt, kön nen vorzugsweise die Annotationen so abgeändert werden, dass sie Informatio nen über die neuen Bilddaten enthalten.
Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass das Nachtrainieren des Bildklassifikators basierend auf Relevanzwerten von Bildbereichen des zwei ten Bilddatensatzes durchgeführt wird.
Der Vorteil dieser Herangehensweise ist, dass aus Bewertungssicht weniger o- der nicht-relevante Bildbereiche im Training derart gewichtet werden können, dass sie einen geringen oder keinen Einfluss auf das Training des Bildklassifika tors haben. Dies führt zu einem einfacheren Training des Bildklassifikators, was im Umkehrschluss die Erkennungsleistung des Bildklassifikators erheblich stei gert. Dies führt zu einer Steigerung der Performanz des Gesamtsystems, wenn ein so trainierter Bildklassifikator als Teil der Steuerung eines Roboters verwen det wird.
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:
Figur 1 schematisch das Ablaufdiagramm des Verfahrens einer Bewertung eines Bildklassifikators;
Figur 2 schematisch ein Steuersystem;
Figur 3 schematisch ein autonomes Fahrzeug, das vom Steuersystem ge steuert wird;
Figur 4 schematisch einen Fertigungsroboter, der vom Steuersystem gesteu ert wird.
Beschreibung der Ausführungsbeispiele
Figur 1 zeigt ein Ablaufdiagramm eines Verfahrens zum Bewerten eines Bildklas sifikators (60). In diesem Ausführungsbeispiel ist der Bildklassifikator (60) derart ausgeprägt, dass er Fahrzeuge in Autobahnsituationen erkennen kann, wobei die Klassifikatorausgabe (y) Bounding Boxes beinhaltet.
In einem ersten Schritt (300) wird ein Bilddatensatz ermittelt. Dies kann zum Bei spiel unter Zuhilfenahme eines Testfahrzeugs geschehen, in dem eine Kamera installiert ist, die zur Aufnahme von Bilddaten geeignet ist. In diesem Ausfüh rungsbeispiel zeigt der Bilddatensatz Bilddaten von Autobahnsituationen, auf de nen Fahrzeuge zu erkennen sind. Weiter werden in diesem Ausführungsbeispiel während der Aufnahme des Bilddatensatzes den Bilddaten jeweils Fahrzeugda ten wie Geschwindigkeit und Lenkwinkel zugeordnet, die zum jeweiligen Aufnah mezeitpunkt eines Bildes vorliegen. Alternativ können diese Fahrzeugdaten auch nach der Aufnahme aus den aufgenommenen Bilddaten geschätzt werden.
Der so ermittelte Bilddatensatz wird anschließend manuell von einem Menschen mit Annotationen versehen. Alternativ kann anstelle der manuellen Annotation hier auch eine halbautomatische Annotation mit Hilfe eines zweiten Bildklassifika tors durchgeführt werden. In diesem Fall kann der zweite Bildklassifikator Anno tationen vorschlagen, die von einem Menschen überprüft und gegebenenfalls ab geändert werden können. Alternativ ist weiterhin denkbar, dass der zweite Bild klassifikator die Annotation vollautomatisiert durchführt, indem die Vorschläge des zweiten Bildklassifikators direkt als Annotationen verwendet werden.
Die erzeugten Annotationen enthalten in diesem Ausführungsbeispiel Informatio nen bezüglich der anderen Fahrzeuge in den jeweils aufgenommenen Bilddaten, Bounding Boxers der Fahrzeuge im Bild, sowie Einbauposition und Orientierung des Kamerasensors. In weiteren Ausführungsbeispielen ist vorstellbar, dass die Annotationen zusätzlich 3-dimensionale Informationen, wie Position, Orientie rung, Geschwindigkeit und/oder Fahrtrichtung der entsprechend zu detektieren- den Fahrzeuge enthalten.
In einem zweiten Schritt (301) wird dann für die Bilder des Bilddatensatzes je weils bestimmt, welche Bereiche das Testfahrzeug in einer festgelegten Zeit zum Zeitpunkt der Aufnahme des Bildes hätte erreichen können. Als Zeit kann hier beispielsweise die Time-To-React verwendet werden. Alternativ ist vorstellbar, dass anstelle der Time-To-React die Time-To-Collision, Time-To-Brake, Time- To-Steer oder Time-To-Kickdown oder Kombinationen dieser Zeiten verwendet werden können.
Die Berechnung der erreichbaren Berieche geschieht unter Zuhilfenahme der Geschwindigkeitsinformationen in den Annotationen, sowie Informationen über die Position des Fahrzeugs. Das Ergebnis ist eine Information darüber, welche Bereiche das Fahrzeug zum Zeitpunkt der Aufnahme eines Bilddatums in der Szene, in der das Bilddatum aufgenommen wurde, in einer bestimmten Zeit hätte erreichen können.
In einem dritten Schritt (302) wird für die anderen Fahrzeuge der Bilddaten ein Relevanzwert bestimmt. Hierfür werden auf Basis der annotierten Bounding Bo- xes und der Einbauposition des Kamerasensors die 3-dimensionale Position der anderen Fahrzeuge ermittelt. Alternativ können diese Informationen auch direkt aus der Annotation extrahiert werden, falls sie vorhanden sind.
Der Relevanzwert kann für alle Fahrzeuge als 1 definiert werden, die sich in ei nem der im vorherigen Schritt bestimmten Bereiche befinden, und andernfalls als 0. Alternativ ist möglich, dass den Fahrzeugen ein Wert zwischen 0 und 1 zuge wiesen wird, falls sie sich außerhalb eines im vorherigen Schritt bestimmten Be reiches befinden. Alternativ ist weiterhin vorstellbar, dass auch Fahrzeuge in ei nem der im vorherigen Schritt bestimmten Bereiche einen Wert zwischen 0 und 1 zugewiesen bekommen. Weiterhin ist denkbar, dass der Relevanzwert eines Ob jekts auch von der Geschwindigkeit und Trajektorie des Objekts abhängt. Bei spielsweise können auch Objekte außerhalb der erreichbaren Bereiche einen Relevanzwert größer 0 erhalten, falls sie sich zum Beispiel auf die entsprechen den erreichbaren Bereiche zubewegen.
In einem vierten Schritt (303) werden die Bilddaten des ersten Bilddatensatzes durch den Bildklassifikator (60) klassifiziert. Bei der Klassifikation kann ein Fahr zeug in einem Bilddatum entweder detektiert, also korrekt klassifiziert, werden oder nicht.
In einem fünften Schritt (304) wird die Erkennungsgenauigkeit des Bildklassifika tors (60) bewertet. Als Bewertungsmaß kann eine Summe der Relevanzwerte verwendet werden, die zu Fahrzeugen gehören, die nicht detektiert wurden. Al ternativ ist vorstellbar, dass auch der Mittelwert oder der Median der Relevanz werte als Bewertungsmaß verwendet werden kann.
Falls das Bewertungsmaß schlechter ist als ein vorgegebener Bewertungs schwellenwert, kann in einem sechsten Schritt (306) der Bildklassifikator (60) un ter Zuhilfenahme eines zweiten Bilddatensatzes nachtrainiert werden. In diesem Ausführungsbeispiel ist beispielsweise vorstellbar, dass der Bewertungsschwel lenwert als 0 definiert wird. Dies ist gleichbedeutend mit der Aussage, dass alle Fahrzeuge mit einer Relevanz größer 0 erkannt werden müssen. Für den Fall, dass dies nicht Eintritt wird der Bildklassifikator nachtrainiert. Der zweite Bildda tensatz kann in diesem Fall nach einem der Verfahren ermittelt werden, die auch zur Ermittlung des ersten Bilddatensatzes verwendet werden können. Falls das Bewertungsmaß dem Bewertungsschwellenwert genügt, kann der Bildklassifika tor (60) freigegeben werden.
In weiteren Ausführungsbeispielen ist vorstellbar, dass die Schritte der Bewer tung des Bildklassifikators (300, 301, 302, 303, 304, 305) so lange iterativ wie derholt werden, bis das Bewertungsmaß dem Schwellenwert genügt.
In weiteren Ausführungsbeispielen ist vorstellbar, dass die Schritte der Bewer tung des Bildklassifikators (300, 301, 302, 303, 304, 305) so lange iterativ wie derholt werden, bis eine vorher definierte Anzahl von Iterationen absolviert wurde.
Figur 2 zeigt einen Aktor (10) in seiner Umgebung (20) in Interaktion mit einem Steuerungssystem (40). In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung (20) mit einem Sensor (30), insbesondere einem bildgeben den Sensor wie einem Videosensor, erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Das Sensor signal (S) - bzw. im Fall mehrerer Sensoren je ein Sensorsignal (S) - des Sen sors (30) wird an das Steuerungssystem (40) übermittelt. Das Steuerungssystem (40) empfängt somit eine Folge von Sensorsignalen (S). Das Steuerungssystem (40) ermittelt hieraus Ansteuersignale (A), welche an den Aktor (10) übertragen werden. Das Steuerungssystem (40) empfängt die Folge von Sensorsignalen (S) des Sensors (30) in einer optionalen Empfangseinheit (50), die die Folge von Sensor signalen (S) in eine Folge von Eingangsbildern (x) umwandelt (alternativ kann auch unmittelbar je das Sensorsignal (S) als Eingangsbild (x) übernommen wer den). Das Eingangsbild (x) kann beispielsweise ein Ausschnitt oder eine Weiter verarbeitung des Sensorsignals (S) sein. Das Eingangsbild (x) umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild (x) ab hängig von Sensorsignal (S) ermittelt. Die Folge von Eingangsbildern (x) wird ei nem Bildklassifikator (60) zugeführt, der zum Beispiel wie im ersten Ausführungs beispiel bewertet wurde und dessen Bewertungsmaß unter dem Bewertungs schwellenwert lag.
Der Bildklassifikator (60) wird vorzugsweise parametriert durch Parameter (f), die in einem Parameterspeicher (P) hinterlegt sind und von diesem bereitgestellt werden.
Der Bildklassifikator (60) ermittelt aus den Eingangsbildern (x) Klassifikatoraus gaben (y). Die Klassifikatorausgaben (y) werden einer optionalen Umformeinheit (80) zugeführt, die hieraus Ansteuersignale (A) ermittelt, welche dem Aktor (10) zugeführt werden, um den Aktor (10) entsprechend anzusteuern. Die Klassifi katorausgabe (y) umfasst Informationen über Objekte, die der Sensor (30) er fasst hat.
Der Aktor (10) empfängt die Ansteuersignale (A), wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor (10) kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal (A) ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor (10) angesteuert wird.
In weiteren Ausführungsformen umfasst das Steuerungssystem (40) den Sensor (30). In noch weiteren Ausführungsformen umfasst das Steuerungssystem (40) alternativ oder zusätzlich auch den Aktor (10). In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem (40) einen oder eine Mehrzahl von Prozessoren (45) und wenigstens ein maschinen lesbares Speichermedium (46), auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren (45) ausgeführt werden, das Steuerungs system (40) veranlassen, das erfindungsgemäße Verfahren auszuführen.
In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor (10) eine Anzeigeeinheit (10a) vorgesehen.
Figur 3 zeigt, wie das Steuerungssystem (40) zur Steuerung eines wenigstens teilweise autonomen Roboters, hier eines wenigstens teilautonomen Kraftfahr zeugs (100), eingesetzt werden kann.
Bei dem Sensor (30) kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug (100) angeordneten Videosensor handeln.
Der Bildklassifikator (60) ist eingerichtet, aus den Eingangsbildern (x) Objekte zu identifizieren.
Bei dem vorzugsweise im Kraftfahrzeug (100) angeordneten Aktor (10) kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraft fahrzeugs (100) handeln. Das Ansteuersignal (A) kann dann derart ermittelt wer den, dass der Aktor oder die Aktoren (10) derart angesteuert wird, dass das Kraftfahrzeug (100) beispielsweise eine Kollision mit den vom Bildklassifikator (60) identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um ei nen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um ei nen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fort bewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal (A) derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom Bildklassifikator (60) identifizierten Objekten verhindert.
Alternativ oder zusätzlich kann mit dem Ansteuersignal (A) eine Anzeigeeinheit (10a) angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise bei einem Kraftfahrzeug (100) mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit (10a) mit dem Ansteuersignal (A) derart angesteuert wird, dass sie ein optisches oder akusti sches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug (100) droht, mit einem der vom Bildklassifikator (60) identifizierten Objekte zu kollidie ren.
Figur 4 zeigt, wie das Steuersystem (40) zur Steuerung eines Fertigungsroboters (220), wie zum Beispiel eines PUMA Roboters, verwendet werden kann, wobei der Arbeitsraum (212) des Fertigungsroboters (220) auch von Personen (210) betreten werden kann. Es ist vorstellbar, dass in diesem Ausführungsbeispiel das Steuersystem (40) Bilddaten von einem Kamerasensor (30) erhält, auf deren Ba sis es einen Aktuator (10) ansteuert, wobei der Aktuator (10) die Bewegung des Fertigungsroboters (220) sowie einen Greifer am Ende des Arms des Fertigungs roboters (220) antreibt, mit dem Werkstücke (211a, 211b) erfasst werden kön nen.
Über die Bilddaten des Kamerasensors (30) kann das Steuersystem (40) mit Hilfe des beinhalteten Bildklassifikators (60) außerdem Personen (210) erken nen, die sich im Arbeitsraum (212) des Fertigungsroboters (220) befinden. Für den Fall, dass eine oder mehrere Personen (210) im Arbeitsraum (212) erkannt wurden, kann die Bewegung des Fertigungsroboters (220) derart durch das Steu ersystem (40) angepasst werden, dass die Person oder die Personen (210) nicht vom Fertigungsroboter (220) berührt oder verletzt wird/werden. Optional ist auch vorstellbar, dass die Bewegung des Fertigungsroboters (220) derart gewählt wird, dass der Arm des Fertigungsroboters (220) einen gewissen Mindestabstand zu der Person oder den Personen (210) im Arbeitsraum (212) einhält. Für dieses Ausführungsbeispiel ist es möglich, dass der Bildklassifikator (60) mit Bildern von Personen (210) in oder um den Arbeitsraum (212) des Fertigungsro boters (220) trainiert wurde. Zur Bewertung, ob der Fertigungsroboter (220) si cher betrieben werden kann, kann ein erster Bilddatensatz aufgenommen wer den, wobei die Bilder des ersten Bilddatensatzes ebenfalls Personen (210) in o- der um den Arbeitsraum des Fertigungsroboters (220) zeigen können. Die Bilder des ersten Bilddatensatzes können zur Bewertung mit Annotationen in Form von Bounding Boxen für die Personen (210) auf den entsprechenden Bildern verse hen werden, wobei jeder Bounding Box außerdem ein Relevanzwert zugewiesen wird. Dieser Relevanzwert kann als 1 definiert werden, falls die entsprechende Bounding Box eine Person (210) zeigt, die sich im Arbeitsraum (212) des Ferti gungsroboters (220) befindet, und andernfalls als 0 definiert werden.
Zur Bewertung kann anschließend festgelegt werden, dass die Summe der Rele vanzwerte der vom Bildklassifikator (60) nicht erkannten Bounding Boxes des ersten Datensatzes 0 sein muss. Dies ist gleichbedeutend mit der Aussage, dass der Bildklassifikator (60) keine Person (210) innerhalb des Arbeitsraums (212) des Fertigungsroboters (220) fehldetektieren darf, während dies bei Personen außerhalb des Arbeitsraums nicht gefordert ist. Alternativ ist vorstellbar, dass Personen außerhalb des Arbeitsraums (212) höhere Relevanzwerte erhalten, je näher sie am Arbeitsraum (212) stehen. Es ist weiterhin vorstellbar, dass in die sem Fall die Summe der Relevanzwerte größer als 0 sein darf, um den Bildklas sifikator (60) als ausreichend sicher für den Einsatz zu bewerten.

Claims

Ansprüche
1. Computerimplementiertes Verfahren zur Bewertung eines Bildklassifikators (60), wobei eine Klassifikatorausgabe (y) des Bildklassifikators (60) zur An steuerung eines zumindest teilweise autonomen Roboters (100, 220) bereit gestellt wird, wobei das Verfahren zur Bewertung folgende Schritte umfasst:
• Ermittlung (300) eines ersten Datensatzes, wobei der erste Datensatz Bilder enthält, wobei den Bildern Annotationen zugewiesen sind, wo bei die Annotationen Informationen über die im jeweiligen Bild abge bildete Szene und/oder über zu klassifizierende Bildbereiche und/o der über Bewegungsinformationen des Roboters (100, 220) enthal ten;
• Ermittlung (301) von durch den Roboter (100, 220) erreichbaren Be reichen (212) der Szenen basierend auf den Annotationen;
• Ermittlung (302) von Relevanzwerten für vom Bildklassifikator zu klassifizierenden Bildbereiche;
• Klassifizierung (303) der Bilddaten des ersten Bilddatensatzes mittels des Bildklassifikators;
• Bewertung (304) des Bildklassifikators basierend auf durch den Bild klassifikator (60) korrekt klassifizierten Bildbereichen und falsch klas sifizierten Bildbereichen, sowie den berechneten Relevanzwerten der entsprechenden Bildbereiche.
2. Verfahren nach Anspruch 1, wobei die zu klassifizierenden Bildbereiche je weils einem Objekt (210) zugeordnet sind.
3. Verfahren nach Anspruch 1 oder 2, wobei die Ermittlung (301) der durch den Roboter (100, 220) erreichbaren Bereiche auf Bewegungsinformationen des Roboters (100, 220) basiert.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei der Schritt der Ermitt lung (302) der Relevanzwerte folgende Schritte umfasst:
• Ermittlung von Tiefeninformationen der Objekte (210);
• Bestimmung einer Relation von Objektpositionen zu erreichbaren Be reichen (212) basierend auf den Tiefeninformationen;
• Ermittlung der Relevanzwerte basierend auf der Relation.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt der Bewer tung (304) des Bildklassifikators das Bestimmen eines Bewertungsmaßes umfasst, weiter wobei das Verfahren zur Bewertung des Bildklassifikators (60) folgenden zusätzlichen Schritt enthält:
• Nachtrainieren (305) des Bildklassifikators (60) basierend auf einem zweiten Bilddatensatz, falls das Bewertungsmaß schlechter ist als ein vorgegebener Bewertungsschwellenwert.
6. Verfahren nach Anspruch 5, wobei die Schritte iterativ wiederholt werden, bis eine vorgegebene Anzahl von Iterationen durchgeführt wurde und/oder der vorgegebene Bewertungsschwellenwert unterschritten wurde.
7. Verfahren nach Anspruch 5 oder 6, wobei das Nachtrainieren des Bildklassi fikators (60) basierend auf Relevanzwerten von Bildbereichen des zweiten Bilddatensatzes durchgeführt wird.
8. Computerimplementiertes Verfahren zum Betreiben eines Bildklassifikators (60), wobei der Bildklassifikator (60) nach einem der Ansprüche 1 bis 5 be wertet oder nach einem der Ansprüche 5 bis 7 nachtrainiert wurde.
9. Steuersystem (40) zur Ansteuerung eines zumindest teilweise autonomen Roboters, wobei das Ansteuersystem (40) einen Bildklassifikator (60) nach einem der Ansprüche 1 bis 7 beinhaltet, des Weiteren wobei das Steuersys tem (40) Bilddaten (x) basierend auf Sensorsignalen (S) eines Sensors (30) an den Bildklassifikator (60) übergibt und/oder ein Ansteuersignal (A) basie rend auf der Klassifikatorausgabe (y) ermittelt wird, wobei das Ansteuersig nal (A) zum Ansteuern eines Aktuators (10) des Roboters verwendet wird.
10. Trainingsvorrichtung, welche eingerichtet ist, das Verfahren nach einem der Ansprüche 5 bis 7 auszuführen.
11. Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
12. Maschinenlesbares Speichermedium (46, 146), auf dem das Computerpro gramm nach Anspruch 11 gespeichert ist.
PCT/EP2021/052931 2020-02-17 2021-02-08 Verfahren und vorrichtung zur bewertung eines bildklassifikators WO2021165077A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/790,578 US20230038337A1 (en) 2020-02-17 2021-02-08 Method and device for evaluating an image classifier
JP2022549288A JP7473663B2 (ja) 2020-02-17 2021-02-08 画像分類器を評価するための方法及び装置
CN202180014940.4A CN115104132A (zh) 2020-02-17 2021-02-08 用于评价图像分类器的方法和装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020201939.8 2020-02-17
DE102020201939.8A DE102020201939A1 (de) 2020-02-17 2020-02-17 Verfahren und Vorrichtung zur Bewertung eines Bildklassifikators

Publications (1)

Publication Number Publication Date
WO2021165077A1 true WO2021165077A1 (de) 2021-08-26

Family

ID=74572774

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/052931 WO2021165077A1 (de) 2020-02-17 2021-02-08 Verfahren und vorrichtung zur bewertung eines bildklassifikators

Country Status (5)

Country Link
US (1) US20230038337A1 (de)
JP (1) JP7473663B2 (de)
CN (1) CN115104132A (de)
DE (1) DE102020201939A1 (de)
WO (1) WO2021165077A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973056A (zh) * 2022-03-28 2022-08-30 华中农业大学 基于信息密度的快速视频图像分割标注方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188449B (zh) * 2023-03-13 2023-08-08 哈尔滨市科佳通用机电股份有限公司 铁路货车缓解阀拉杆开口销丢失故障识别方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019175012A1 (de) * 2018-03-14 2019-09-19 Robert Bosch Gmbh Verfahren zum erzeugen eines trainingsdatensatzes zum trainieren eines künstlichen-intelligenz-moduls für eine steuervorrichtung eines fahrzeugs

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282760A (ja) * 2008-05-22 2009-12-03 Toyota Motor Corp 車両制御装置
US9122958B1 (en) 2014-02-14 2015-09-01 Social Sweepster, LLC Object recognition or detection based on verification tests
US9704043B2 (en) 2014-12-16 2017-07-11 Irobot Corporation Systems and methods for capturing images and annotating the captured images with information
WO2019178548A1 (en) 2018-03-15 2019-09-19 Nvidia Corporation Determining drivable free-space for autonomous vehicles

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019175012A1 (de) * 2018-03-14 2019-09-19 Robert Bosch Gmbh Verfahren zum erzeugen eines trainingsdatensatzes zum trainieren eines künstlichen-intelligenz-moduls für eine steuervorrichtung eines fahrzeugs

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JONATHON BYRD ET AL: "What is the Effect of Importance Weighting in Deep Learning?", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 8 December 2018 (2018-12-08), XP081368966 *
M ALTHOFF: "Reachability Analysis and its Application to the Safety Assessment of Autonomous Cars", 3 January 2018 (2018-01-03), XP055587085, Retrieved from the Internet <URL:https://mediatum.ub.tum.de/doc/963752/642175.pdf> *
MATTHIAS ALTHOFF: "Dissertation", 2010, TECHNISCHE UNIVERSITÄT MÜNCHEN, article "Reachability Analysis and its Application to the Safety Assessment of Autonomous Cars"
OHN-BAR ESHED ET AL: "Are all objects equal? Deep spatio-temporal importance prediction in driving videos", PATTERN RECOGNITION, vol. 64, 1 April 2017 (2017-04-01), pages 425 - 436, XP029864359, ISSN: 0031-3203, DOI: 10.1016/J.PATCOG.2016.08.029 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973056A (zh) * 2022-03-28 2022-08-30 华中农业大学 基于信息密度的快速视频图像分割标注方法

Also Published As

Publication number Publication date
JP7473663B2 (ja) 2024-04-23
DE102020201939A1 (de) 2021-08-19
JP2023513385A (ja) 2023-03-30
CN115104132A (zh) 2022-09-23
US20230038337A1 (en) 2023-02-09

Similar Documents

Publication Publication Date Title
EP3695244B1 (de) Verfahren und vorrichtung zum erzeugen eines inversen sensormodells und verfahren zum erkennen von hindernissen
DE102018206208A1 (de) Verfahren, Vorrichtung, Erzeugnis und Computerprogramm zum Betreiben eines technischen Systems
DE102014106211A1 (de) Sichtbasierte Mehrkamera-Fabriküberwachung mit dynamischer Integritätsbewertung
DE102019202090A1 (de) Verfahren zum Erzeugen eines Trainingsdatensatzes zum Trainieren eines Künstlichen-Intelligenz-Moduls für eine Steuervorrichtung eines Roboters
EP3631677A1 (de) Verfahren zur erkennung von objekten in einem bild einer kamera
DE102021002798A1 (de) Verfahren zur kamerabasierten Umgebungserfassung
WO2021165077A1 (de) Verfahren und vorrichtung zur bewertung eines bildklassifikators
DE102007013664A1 (de) Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger
DE102021103370A1 (de) Objekterkennung mittels low-level-kamera-radar-fusion
DE102021128041A1 (de) Verbesserung eines neuronalen fahrzeugnetzwerks
DE102019209457A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes, künstliches neuronales Netz, Verwendung eines künstlichen neuronalen Netzes sowie entsprechendes Computerprogramm, maschinenlesbares Speichermedium und entsprechende Vorrichtung
DE102022100545A1 (de) Verbesserte objekterkennung
DE102021104044A1 (de) Neuronales netzwerk zur positionsbestimmung und objektdetektion
EP3721370A1 (de) Trainieren und betreiben eines maschinen-lern-systems
DE102019209463A1 (de) Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
DE102019217723A1 (de) Fahrsicherheits-steuersystem unter verwendung von umgebungsgeräuschen und steuerverfahren dafür
DE102021003567A1 (de) Verfahren zur Erkennung von Objektbeziehungen und Attributierungen aus Sensordaten
DE102021201178A1 (de) Computerimplementiertes verfahren zum erzeugen von zuverlässigkeitsangaben für computervision
DE102020214596A1 (de) Verfahren zum Erzeugen von Trainingsdaten für ein Erkennungsmodell zum Erkennen von Objekten in Sensordaten einer Umfeldsensorik eines Fahrzeugs, Verfahren zum Erzeugen eines solchen Erkennungsmodells und Verfahren zum Ansteuern einer Aktorik eines Fahrzeugs
DE102020127051A1 (de) Verfahren zur Bestimmung von sicherheitskritischen Ausgabewerten mittels einer Datenanalyseeinrichtung für eine technische Entität
DE102018109680A1 (de) Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen durch parallele zweidimensionale und dreidimensionale Auswertung; Steuereinrichtung; Fahrassistenzsystem; sowie Computerprogrammprodukt
DE102022109113A1 (de) Objektidentifizierung mit neuronalem netz
DE102021133977A1 (de) Verfahren und System zur Klassifikation von Szenarien eines virtuellen Tests sowie Trainingsverfahren
EP4248418A2 (de) Verfahren und system zur annotation von sensordaten
DE102016218196A1 (de) Virtuelles strassenoberflächenerfassungs-testumfeld

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21704243

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022549288

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21704243

Country of ref document: EP

Kind code of ref document: A1