WO2021180547A1 - Verfahren und vorrichtung zum verarbeiten von bildern - Google Patents

Verfahren und vorrichtung zum verarbeiten von bildern Download PDF

Info

Publication number
WO2021180547A1
WO2021180547A1 PCT/EP2021/055366 EP2021055366W WO2021180547A1 WO 2021180547 A1 WO2021180547 A1 WO 2021180547A1 EP 2021055366 W EP2021055366 W EP 2021055366W WO 2021180547 A1 WO2021180547 A1 WO 2021180547A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
descriptor
preferred embodiments
further preferred
distance
Prior art date
Application number
PCT/EP2021/055366
Other languages
English (en)
French (fr)
Inventor
Stephan Simon
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Priority to EP21709970.4A priority Critical patent/EP4118620A1/de
Publication of WO2021180547A1 publication Critical patent/WO2021180547A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Definitions

  • the disclosure relates to a method, in particular a computer-implemented one, for processing, in particular digital, images.
  • the disclosure also relates to a device for processing, in particular digital, images.
  • Preferred embodiments relate to a method, in particular a computer-implemented method, for processing, in particular digital, images, comprising the following steps: providing a first image and a second image, transforming the first image into a first descriptor image and the second image into a second Descriptor image, determining a distance image based on a comparison of the first descriptor image with the second descriptor image, and, optionally, forming a detection image based on the distance image.
  • This enables, for example, a particularly efficient detection of changes in relation to the images, e.g. detection of a movement of at least one object depicted on at least one of the images.
  • an image can be understood to be an encoded data record which describes or represents a representation of the image or an image representation.
  • a control rule for a display device can be determined by means of a computer from the data record representing the image in such a way that the display device can use the Control rule represents the coded image.
  • the display device can be, for example, a display unit or a projector unit.
  • the display device can, for example, be arranged on or in a driver's cab of a vehicle.
  • a transformation is used for the transformation into the descriptor images, which transforms the environment of a picture element ("pixel") of the first or second image in the respective image into a descriptor that describes this environment, preferably in a compact manner, that is to say with a few bits, in particular with fewer bits than corresponds to the information content of the area around the pixel.
  • the value of the descriptor is referred to as the signature.
  • the signature has a fixed length, in particular word length, of e.g. B. 8 bit to e.g. 32 bit, but in further preferred embodiments it can also be longer than 32 bit or shorter than 8 bit.
  • the transforming includes carrying out the transformation for a respective environment of a plurality of pixels, for example each pixel in the (first or second) image, so that as a result a respective (first or second) "image of descriptors" , i.e. the descriptor image or images already mentioned, is created.
  • a descriptor image can also be understood as a plurality of descriptor values or signatures, which are preferably organized in a matrix-like arrangement of rows and columns, corresponding to the position of the pixels evaluated for their formation or the respective surroundings of a pixel under consideration.
  • a descriptor image is e.g. comparable to the first or second image, but instead of the regular image information (such as brightness or intensity values of one or more gray scale or color channels), each image element of the descriptor image is assigned the respective signature.
  • pixels at the image edge of the first and / or second image can be disregarded for the transformation to the descriptor images, because there, for example, the frame for the transformation protrudes beyond the image, and the "pixel values" are therefore undefined.
  • pixels at the edge of the image of the first and / or second image are taken into account for the transformation to the descriptor images, with possibly missing or undefined pixel values at the edge being supplemented according to a predefinable rule, e.g. by copying the pixel values of existing pixels and / or setting the previously undefined values to a predefinable value.
  • At least one of the methods listed below can be used for the transformation: SIFT (scale-invariant feature transformation), SURF (Speeded Up Robust Features, for example according to Bay H., Tuytelaars T., Van Gool L. (2006) SURF: Speeded Up Robust Features. In: Leonardis A., Bischof H., Pinz A. (eds) Computer Vision - ECCV 2006. ECCV 2006. Lecture Notes in Computer Science, vol 3951. Springer, Berlin, Heidelberg, https: // doi. org / 10.1007 / 11744023_32), ORB (E. Rublee, V. Rabaud, K. Konolige and G.
  • a distance measure is available or can be specified for the descriptor selected for forming the descriptor images, which, for example, allows a difference between two descriptor values to be determined or assessed.
  • a similarity measure can also be used as an alternative to the distance measure, it being possible in particular for both measures to be convertible into one another. Therefore, in the following, only the distance measure is considered by way of example and without restricting the general validity, with all steps and embodiments described by way of example also correspondingly when using a Similarity measure - instead of a distance measure - can be used to evaluate a difference between the descriptor images, that is to say, for example, to characterize a result of the comparison of the first descriptor image with the second descriptor image.
  • a descriptor is used for the transformation, for which a distance measure and / or a similarity measure is definable and / or defined, in particular the comparison of the first descriptor image with the second descriptor image based on the distance measure and / or the similarity measure is carried out.
  • the Hamming distance or a distance measure based on the Hamming distance is used as the distance measure for the comparison, the Hamming distance in particular being compared with a predeterminable threshold value and, based on the comparison, a particularly binary one , Comparison value is determined.
  • a Hamming distance of approximately N / 2 can be expected on a statistical average. For a change detection in accordance with further preferred embodiments, this means that distance values close to 0 are to be expected in the case of essentially matching image areas - and for image areas that do not match, e.g. B. due to moving objects, distance values significantly greater than 0, and then z. B. be around N / 2.
  • the distance measure can optionally be further simplified, for example by binarization. For example, the Hamming distance can be compared to a threshold L and a binary one
  • the descriptor values can also be determined if necessary, e.g. "on the fly".
  • the transformation of the first image into the first descriptor image and / or the transformation of the second image into the second descriptor image can also be dynamic, that is to say, for example, as required and / or in real time, in particular, for example, also in direct temporal connection with the Determining the distance image, are carried out.
  • the transformation of the first image into the first descriptor image and / or the transformation of the second image into the second descriptor image can also be parallelized at least temporarily, e.g. if several computing cores are available to carry out the respective transformation (s).
  • the first descriptor image belonging to a first point in time is compared with a second descriptor image which belongs to a second, in particular earlier, point in time.
  • both the transformation to the descriptor images and the determination of the distance image can each be carried out, for example, only on a predeterminable sub-area of the first and second images or the descriptor images that can be derived therefrom.
  • subareas can also be selected dynamically, that is to say at runtime of the method or a device executing the method, for example based on a current content of the images and / or previously recognized changes and / or objects.
  • the comparison of the first descriptor image with the second descriptor image takes place pixel by pixel, so one picture element of the first descriptor image is compared with a corresponding picture element of the second descriptor image and a corresponding value for the distance measure ("Distance value") obtained.
  • a descriptor value at a specific coordinate of the first descriptor image is compared with the descriptor value at the corresponding (same) coordinate of the second descriptor image.
  • the distance value determined in this way is entered in a distance image or in the distance image at the corresponding coordinate.
  • the distance image has the same size (number of pixels, e.g. characterizable by width and height) as the descriptor images to be compared.
  • the distance image i.e. each picture element
  • the distance image can have values in the range 0 to N, for example, which characterize the comparison result between the first descriptor image and the second descriptor image.
  • the method further comprises: filtering the distance image, as a result of which a filtered distance image is obtained, in particular the formation of the detection image taking place based on the filtered distance image.
  • the filtering is carried out in such a way that the distance image is converted into a filtered image which changes in indicates in a compact form what is useful, for example, for a functional interface according to further preferred embodiments.
  • the detection image has one or more contiguous regions, which are also referred to as "blobs" according to further preferred embodiments, for those image areas in which, in particular significant, changes between the (first and second) images or the herewith corresponding descriptor images are available.
  • an (at least partial) determination of the distance image and / or the detection image can also take place if necessary, for example "on the fly" .
  • the detection image can be converted into another form in an optional further or alternative step, e.g. B. to be able to transmit it more efficiently via an interface.
  • the contours of at least one blob are approximated, e.g. described as polygons.
  • the detection image can also be compressed, e.g. with a run length coding or another entropy coding, e.g. with a common coding for segment images.
  • the filtering includes the application of a majority filter and / or a threshold value filter.
  • the method further comprises: further processing of the detection image, in particular formation of output information, based on at least one of the following elements: a) detection image, b) first image, c) second image.
  • the output information has at least one of the following elements: a) acoustic signal, b) haptic signal, c) optical signal, d) image, in particular digital image, with at least one graphically highlighted image area, in particular one based on the detection image graphically highlighted image area.
  • the method further comprises: assigning an evaluation measure to at least one descriptor of the first descriptor image and / or the second descriptor image, and, optionally, taking the evaluation measure into account when determining the distance image, wherein in particular the evaluation measure is noise or characterizes a signal-to-noise ratio, in particular a region of the first image and / or of the second image associated with the respective descriptor.
  • the noise can thus also be taken into account when forming the descriptors or the descriptor images, for example according to the method described in DE 102017212 339.
  • each, formed descriptor (s) can be given an evaluation that is dependent on the strength of the noise or the signal-to-noise ratio (SNR): in some preferred embodiments, for example, in the form of a binary one Additional information (e.g. coded as an additional bit), which in further preferred embodiments can also be interpreted as the suitability of the descriptor for further processing.
  • SNR signal-to-noise ratio
  • the additional information allows, for example, to identify suitable descriptors less well (e.g. for subsequent further processing) due to the noise, e.g. B. as "unsuitable”, e.g. to treat them differently in the event of a change detection, than descriptors that are better suited for further processing, e.g. due to lower noise or higher SNR.
  • this additional information can be taken into account when determining the distance image ("distance calculation"), for example according to the following rule: If at least one of the descriptors to be compared is marked as "unsuitable”, the distance is not calculated according to the usual rule, but one Another rule is applied, according to which, for example, the actual distance is replaced by a specifiable, in particular fixed, value. In further preferred embodiments, in the example of the Hamming distance as a distance measure, the value can then be set to "0", for example, which means, for example, that image regions dominated by noise are treated as if they were motionless.
  • the Hamming distance can also be set to a different value, e.g. B. "1" or "2", so that, for example, areas excluded due to noise are not treated differently (e.g. better placed) than non-excluded unmoved areas.
  • this consideration can be particularly relevant due to an optional subsequent filtering of the distance image, in which, for example, a sliding window for the filtering can contain both excluded and non-excluded pixels at the same time.
  • the evaluation of the noise is not passed on as binary information, but rather more than two levels are provided, for example three or four (or more) levels. If, for example, three stages are provided according to further preferred embodiments, these could have the following meanings in further preferred embodiments: Level 0: The descriptor should not be used due to noise. Level 1: Due to noise, the descriptor is suitable for "Application A", but not for "Application B".
  • Level 2 The descriptor is suitable for "Applications A" and "B", so the noise is, for example, not significant.
  • Applications A and “B” can stand for two applications, for example: optical flow, change detection, correspondence formation, disparity estimation, tracking, etc.
  • the local signal-to-noise ratio of an image region under consideration can be attached to the respective descriptor as additional information (e.g. in the sense of a concatenation), e.g. B. as a number.
  • additional information e.g. in the sense of a concatenation
  • a distance calculation can evaluate and pass on this additional information, e.g. as a minimum or maximum or mean value of the two numbers of the descriptors involved in the distance calculation.
  • this additional information can, for example, also be further taken into account in a subsequent optional filtering step and, if necessary, also passed on, for example as the confidence of a decision made about the presence of an object in the first and / or second image.
  • the method further comprises: at least temporarily storing the first descriptor image and / or the second descriptor image, e.g. for subsequent use. For example, when two distance images are determined consecutively, a participating descriptor image can be used twice for the distance calculation, namely once in the sense of the first descriptor image and a second time in the sense of the second descriptor image.
  • the method further comprises: Compensating for a movement associated with the first image and / or the second image, in particular a proper movement a camera providing the first image and / or the second image, for at least one area, in particular a surface.
  • first image and the second image are each part of the same video data stream of at least one camera.
  • At least one further image is present in the video data stream between the first image and the second image.
  • a time interval between the first image and the second image can be changed, for example, by not using directly consecutive images, e.g. of the video data stream, as the first and second image, but rather that e.g. one or more images, e.g. of the Video data stream between the first image and the second image can be omitted.
  • detections eg in the form of the detection image
  • quick time sequence which is important for a graphical display for a user, for example can be (so that it does not jerk).
  • the method in particular at the same time, is performed on different Image pairs (first image, second image) of the same or the same video data stream is executed, a respective first image and a respective second image each having a different time interval from one another.
  • Further preferred embodiments relate to a device for processing, in particular digital, images, the device being designed to carry out the method according to the embodiments.
  • the device has: a computing device ("computer") having at least one computation core, a memory device assigned to the computing device for at least temporary storage of at least one of the following elements: a) data, b) computer program, in particular for execution of the method according to the embodiments.
  • a computing device having at least one computation core
  • a memory device assigned to the computing device for at least temporary storage of at least one of the following elements: a) data, b) computer program, in particular for execution of the method according to the embodiments.
  • the data DAT can at least temporarily and / or partially contain the at least one video data stream and / or the first image and / or the second image and / or data that can be derived therefrom, e.g. the first descriptor image and / or the second descriptor image or the Have distance image or the detection image or at least parts thereof.
  • the memory device has a volatile memory (e.g. main memory (RAM)) and / or a non-volatile memory (e.g. flash EEPROM).
  • a volatile memory e.g. main memory (RAM)
  • a non-volatile memory e.g. flash EEPROM
  • the computing device can also have at least one of the following elements: microprocessor (mR), microcontroller (pC), application-specific integrated circuit (ASIC), system on chip (SoC), programmable logic module (e.g. FPGA, field programmable gate array) , Hardware circuit, graphics processor (GPU, graphics processing unit), or any combination thereof.
  • microprocessor mR
  • microcontroller pC
  • ASIC application-specific integrated circuit
  • SoC system on chip
  • programmable logic module e.g. FPGA, field programmable gate array
  • Hardware circuit e.g. FPGA, field programmable gate array
  • GPU graphics processing unit
  • Further preferred embodiments relate to a computer-readable storage medium, comprising instructions which, when executed by a computer, cause the computer to carry out the method according to the embodiments. Further preferred embodiments relate to a computer program comprising instructions which, when the program is executed by a computer, cause the computer to execute the method according to the embodiments.
  • Further preferred embodiments relate to a data carrier signal that characterizes and / or transmits the computer program according to the embodiments.
  • the data carrier signal can be received, for example, via an optional data interface of the device.
  • FIG. 1 schematically shows a simplified block diagram according to preferred embodiments
  • 3A schematically shows an exemplary image according to further preferred embodiments
  • FIG. 3B schematically shows a descriptor image associated with the image according to FIG. 3A according to further preferred embodiments
  • FIG. 4B schematically shows a detection image associated with the distance image according to FIG. 4A according to further preferred embodiments
  • 6 shows schematically exemplary weightings for filtering according to further preferred embodiments
  • 7 schematically shows an exemplary image according to further preferred embodiments
  • FIG. 11 schematically shows a simplified block diagram of a device according to further preferred embodiments
  • FIG. 1 schematically shows a simplified block diagram of a system 10 for use with a method for processing images in accordance with preferred embodiments.
  • the system 10 is designed, for example, as a vehicle, in particular an industrial truck (e.g. forklift and / or forklift) and has at least one camera 12 that captures multiple images B1,
  • the system 10 can also have at least one further camera 12 ', which in turn can provide, for example, one or more images or a corresponding video data stream (not shown).
  • the system 10 can move by itself, for example in an environment U, for example on a reference surface RF such as a floor surface (e.g. a manufacturing facility).
  • a reference surface RF such as a floor surface (e.g. a manufacturing facility).
  • objects OBJ which in particular can also represent obstacles H for the system 10, can be present in the environment U at least temporarily.
  • the system 10 does not represent a vehicle or the system 10 does not have a vehicle, but for example the camera 12, which, as described above, delivers, for example, the video data stream VDS or the images B1, B2 or one containing the camera 12 stationary facility.
  • the camera 12 can be provided to observe a scene SZ in the environment U, for example it can be used as a surveillance camera.
  • FIG. 2A Further preferred embodiments relate to a method, in particular a computer-implemented method, see FIG. 2A, for processing, in particular digital, images B1, B2 (FIG. 1), having the following steps: providing 100 a first image B1 and a second image B2 (in particular in each case as a digital image), transforming 102 the first image B1 into a first descriptor image DB1 and the second image B2 into a second descriptor image DB2, determining 104 a distance image DISTB based on a comparison of the first descriptor image DB1 with the second descriptor image DB1, and , optionally, forming 106 a detection image DETB based on the distance image DISTB.
  • a method in particular a computer-implemented method, see FIG. 2A, for processing, in particular digital, images B1, B2 (FIG. 1), having the following steps: providing 100 a first image B1 and a second image B2 (in particular in each case as a digital image),
  • the distance image DISTB or the information contained in the distance image DISTB characterizes at least partial changes with respect to the images B1, B2 or the descriptor images DB1, DB2 that can be derived therefrom.
  • the distance image DISTB can be used as the detection image DETB, the optional step 106 in particular being omitted.
  • the detection image DETB can be formed based on the distance image DISTB, which can take place, for example, in the optional step 106.
  • FIGS. 14A to 14F show examples of different detection images, which are described in more detail below, as they are e.g. according to preferred embodiments, e.g. based on the exemplary sequence according to FIG.
  • At least one transformation is used for transforming 102 into descriptor images DB1, DB2, which transforms the environment of a picture element ("pixel") of the first or second image B1, B2 in the respective image into a descriptor that converts this environment , preferably in a compact manner, that is to say with a few bits, in particular with fewer bits than corresponds to the information content of the surroundings of the pixel in the image B1, B2 itself.
  • the value of the descriptor is referred to as the signature.
  • the signature has a fixed length, in particular word length, of e.g. B. 8 bit to e.g. 32 bit, but in further preferred embodiments it can also be longer than 32 bit or shorter than 8 bit.
  • the transforming 102 includes carrying out the transformation for a respective environment of a plurality of pixels, for example each pixel in the first image B1 or in the second image B2, so that the result is a respective first or second "image of descriptors ", ie the descriptor image or images DB1, DB2 already mentioned, is created.
  • a descriptor image DB1, DB2 can also be understood as a multiplicity of descriptor values or signatures, which are preferably organized in a matrix-like arrangement of rows and columns are, according to the position of the pixels evaluated for their formation or the respective surroundings of a pixel under consideration.
  • a descriptor image DB1, DB2 is e.g.
  • each image element of the descriptor image is assigned the respective signature is, therefore has information about the environment of the output image B1, B2, which was included in the formation of the descriptor or the signature.
  • FIG. 3A shows an exemplary image or output image B1a
  • FIG. 3A shows an associated descriptor image DB1a which can be derived therefrom by means of the transformation 102 (FIG. 2A).
  • 3A, B illustrate by way of example how the environment U1 around the foot of the guide post of the output image B1a is converted into a descriptor D, see arrow A1.
  • the associated descriptor image DB1a (Fig. 3B), which no longer looks like the original image B1a (and is usually not intended for viewing), has information about the individual pixels of the original image B1a and their respective surroundings ("context").
  • descriptor image DB1a pixel-by-pixel descriptor values are stored which in the present case correspond, for example, to intensity values (black / white or gray levels).
  • the descriptor values see e.g. the designated descriptor D, describe a respective environment U of the output image B1a at a corresponding point in a more compact form (compared to the environment U of the output image B1a).
  • the descriptor image DB1a can also be formed “on the fly”, that is to say, for example, only when required.
  • pixels at the image edge of the first and / or second image B1, B2 for the transformation 102 (FIG. 2A) to the descriptor images DB1, DB2 can be ignored because there, for example, the frame for the transformation 102 over the image B1, B2 protrudes, the "pixel values" are therefore undefined.
  • pixels at the image edge of the first and / or second image B1, B2 can be taken into account for the transformation 102 to the descriptor images DB1, DB2, with missing or undefined pixel values at the edge possibly being supplemented according to a prescribable rule, for example by Copying the pixel values (for example neighboring) existing pixels and / or setting the previously undefined values to a prescribable value or values.
  • At least one of the methods listed below or parts thereof or combinations thereof can be used for transforming 102: SIFT (scale-invariant feature transformation, see e.g. US Pat. No. 6,711,293), SURF (Speeded Up Robust Features, e.g. according to Bay H., Tuytelaars T., Van Gool L. (2006) SURF: Speeded Up Robust Features. In: Leonardis A., Bischof H., Pinz A. (eds) Computer Vision - ECCV 2006. ECCV 2006. Lecture Notes in Computer Science, vol 3951 . Springer, Berlin, Heidelberg, https://doi.org/10.1007/11744023_32), ORB (E. Rublee, V.
  • a distance measure is present or can be specified which, for example, allows a difference between two descriptor values to be determined or assessed.
  • a similarity measure can also be used as an alternative to the distance measure, it being possible in particular for both measures to be convertible into one another. Therefore, in the following, only the distance measure is considered as an example and without limiting the general validity, with all steps and embodiments described by way of example also when using a similarity measure - instead of a distance measure - to evaluate a difference in the descriptor images DB1, DB2, e.g. to characterize a result of the comparison 104 of the first descriptor image DB1 with the second descriptor image DB2 can be used.
  • a descriptor is used for the transformation, for which a distance measure and / or a similarity measure is definable and / or defined, in particular the comparison 104 of the first descriptor image DB1 with the second descriptor image DB2 based on the distance measure and / or the similarity measure is carried out.
  • the Hamming distance or a distance measure based on the Hamming distance is used as the distance measure for the comparison 104, wherein in particular the Hamming distance is compared with a predeterminable threshold value and based on the comparison, in particular binary, comparison value is determined.
  • a Hamming distance of approximately N / 2 can be expected on a statistical average.
  • distance values close to 0 are to be expected in the case of essentially matching image areas - and for non-matching image areas, e.g. B. due to moving objects, distance values significantly greater than 0, and then z. B. be around N / 2.
  • the distance measure can optionally be further simplified, for example by binarization.
  • the Hamming distance can be compared to a threshold L and a binary one
  • FIG. 4A shows, by way of example, a distance image DISTB1 according to further preferred embodiments, which has been obtained, for example, using the Hamming distance with subsequent binarization.
  • FIGS. 15A to 15D show, by way of example, images from the camera 12 (FIG. 1) in which an industrial truck FFF and a person (not designated) have been successfully detected according to further preferred embodiments, and in which corresponding areas are graphically highlighted according to further preferred embodiments , so for example a change with respect to the images B1, B2 has been recognized. Furthermore, FIGS. 15A to 15D show an effect of a variation of the threshold L described above in the case of the optional binarization of the distance image DISTB (FIG. 2A) on a detection image DETB that can be derived therefrom, cf. the expansion of the blobs or highlights H1, H2, H3 ( Area of the person), H4 (area of the industrial truck FFF).
  • the images in FIGS. 15A, 15B, 15C, 15D each correspond to a detection image DETB which can be determined in accordance with further preferred embodiments and which is essentially based, for example, on the first image B1 and / or the second image B2, and in which the mentioned emphasis H1, H2, H3, H4 based on a distance image binarized according to the threshold L are included.
  • a threshold L 1 for the detection image DETBb according to FIG. 15B
  • a threshold L 2 for the detection image DETBc according to FIG. 15C
  • a threshold L 4 for the detection image DETBd according to FIG. 15D.
  • the descriptor values can also be determined if necessary, for example “on the fly”.
  • the transformation 102 of the first image B1 into the first descriptor image DB1 and / or the transformation 102 of the second image B2 into the second descriptor image DB2 can also be dynamic, that is to say for example when required and / or in real time, in particular for example also in direct temporal connection with the determination 104 of the distance image DISTB.
  • the transformation 102 of the first image B1 into the first descriptor image DB1 and / or the transformation 102 of the second image B2 into the second descriptor image DB2 can also be parallelized at least temporarily, e.g. if several computing cores 202a of a device 200 (see below on FIG 11) are available for executing the respective transformation (s) 102.
  • the first descriptor image DB1 belonging to a first point in time is compared with a second descriptor image DB2 which belongs to a second, in particular earlier, point in time.
  • both the transformation 102 to the descriptor images DB1, DB2 and the determination 104 of the distance image DISTB can be carried out, for example, only on a predeterminable sub-area of the first and second images B1, B2 or the descriptor images DB1, DB2 that can be derived therefrom.
  • subareas can also be selected dynamically, that is to say at the runtime of the method or a device 200 executing the method (FIG. 11), for example based on a current content of the images B1, B2 and / or (previously ) recognized changes and / or objects and / or a state of the system 10, for example its current direction of travel.
  • the comparison 104 (FIG. 2A) of the first descriptor image DB1 with the second descriptor image DB2 takes place, that is to say that Formation of the distance measure, pixel by pixel, so in each case a picture element of the first descriptor image DB1 is compared with a corresponding picture element of the second descriptor image DB2 and a corresponding value for the distance measure ("distance value") is obtained.
  • a descriptor value at a specific coordinate of the first descriptor image DB1 is compared with the descriptor value at the corresponding (same) coordinate of the second descriptor image DB2.
  • the distance value determined in this way is entered in a or the distance image DISTB at the corresponding coordinate.
  • the distance image DISTB has the same size (number of pixels, for example can be characterized by width and height) as the descriptor images DB1, DB2 to be compared.
  • the distance image DISTB (that is to say each picture element) can have values in the range 0 to N, for example, which characterize the comparison result between the first descriptor image DB1 and the second descriptor image DB2.
  • the method further comprises: filtering 105 the distance image DISTB, whereby a filtered distance image DISTB 'is obtained, in particular the formation 106 of the detection image DETB taking place based on the filtered distance image DISTB' .
  • the sequence according to Fig. 2B can, for example, be the sequence according to Fig.
  • the filtering 105 (Fig. 2B) is carried out in such a way that the distance image DISTB is converted into a filtered image DISTB 'which shows changes in a compact form, which is useful, for example, for a functional interface according to further preferred embodiments.
  • FIG. 4B shows, by way of example, a filtered distance image DISTBT, as it has been obtained by means of the filtering 105 based on the distance image DISTB1 according to FIG. 4A.
  • the Information from the filtered distance image DISTBT can be used, for example, to graphically highlight corresponding regions of the underlying image.
  • a person P1 with a goods carrier P1a is identified by the highlighting HP1.
  • two persons P1, P2 are identified in FIG. 14B by means of corresponding highlighting HP1, HP2, which are based, for example, on information from a filtered distance image similar to the filtered distance image DISTB1 'according to FIG. 4B.
  • FIG. 14C a person P1
  • FIG. 14D a vehicle F1
  • FIG. 14E a cyclist R1
  • FIG. 14F a person P1 and a forklift G1
  • the detection image has one or more contiguous regions, which are also referred to as "blobs" according to further preferred embodiments, for those image areas in which, in particular significant, changes between the (first and second) images or the herewith corresponding descriptor images are available.
  • the blobs can, for example, be determined based on the filtered distance image DISTBT, such as is obtained, for example, in step 105 according to FIG. 2B.
  • an (at least partial) determination of the (filtered) distance image DISTB, DISTB' and / or of the detection image DETB if necessary, eg "on-the-fly".
  • the detection image DETB (FIGS. 2A, 2B) can be converted into another form in an optional further or alternative step, e.g. B. to be able to transmit it more efficiently via an interface.
  • the contours of at least one blob are approximated, for example described as polygons.
  • the detection image can also be compressed, e.g. with a run length coding or another entropy coding, e.g. with a common coding for segment images.
  • the filtering 105 includes the application of a majority filter and / or a threshold value filter.
  • the distance image DISTB can in itself have a high level of detail and therefore, for example, not well suited to be passed on to a functional interface and / or transmitted in any other way.
  • the optional filtering step 105 (FIG. 2B) already described above is provided, which in further preferred embodiments "condenses" the information contained in the distance image DISTB, DISTB1, and thus compresses the distance image, for example for forwarding For example, to an optional subsequent function (e.g. determination of the detection image DETB) suitably prepared.
  • a distance image DISTB1 is shown by way of example in FIG. 4A as an input image for an optional filtering, and in FIG. 4B the filtered distance image DISTBT as an output image of the filtering step 105 (FIG. 2B).
  • both the input and the output data are binary images DISTB1, DISTBT, which are shown in black and white by way of example. Black stands for “changed” or “moved”, white for the opposite.
  • a majority filter is used for the filtering 105, the mode of operation of which can be easily understood with the aid of the exemplary illustration according to FIG.
  • Reference symbol BA1 from FIG. 5 denotes an exemplary part of the distance image DISTB1, for example according to FIG. 4A
  • reference symbol BA2 from FIG. 5 denotes an exemplary part of the filtered distance image DISTBT according to FIG. 4B.
  • the majority filter is used, for example, to determine in the sliding window GF, which in the present case covers 3 x 3 pixels of the distance image DISTB1, whether the black or white pixels in the window GF are in the majority. Since there is an odd number of pixels in the window GF, the result of the majority filter is unambiguous.
  • the output pixel AP which corresponds to the window GF at the current position in the distance image DISTB1, is given the color of the majority, here for example black, because in the window GF the result is "5: 4" in favor of black.
  • a comparison can also be made with another threshold.
  • a (filtered) result image DISTB1 '(FIG. 4B) with an edge length of the filter of 2R + 1 is by 2R many pixels shorter (narrower or lower) than the input image DISTB1 (FIG. 4A).
  • the filter for the filtering 105 (FIG. 2B), which is a two-dimensional filter, operates on a square window GF with an edge length of 3 ⁇ 3 (FIG. 5).
  • the filter window GF can, however, also be rectangular and not square, or have a different shape (for example circle or polygon).
  • the filter radius R is larger than shown in FIG. 5 for better clarity, e.g. with values between 2 and 30.
  • the voice weight SGW can have a maximum in the middle of the window GF and, for example, decrease towards the edge of the window GF, which is shown by way of example in FIG. 6 for a dimension along the coordinate axis x, see curve K1.
  • curve K2 corresponds, for example, to filtering with constant voice weight.
  • curve K1 can also be referred to as a "triangular filter” with the filter radius R, which effects center-weighted weighting
  • curve K2 can also be referred to as a "rectangular filter”.
  • the distribution of the voice weights along the other dimension not shown in Fig. 5 can be identical to the distribution along the dimension or axis x.
  • the resulting voice weight can then result, for example, as a product or as the sum of the voice weights of the first dimension and the second dimension.
  • integral filters or integral images or a representation can be used to carry out the filtering 105 (FIG. 2B) of the triangular filter K1 can be used as a convolution of two rectangular filters or a suitable series connection of several integral filters.
  • a suitable decision threshold is established, particularly in the case of center-weighted weighting (curve K1 according to FIG. 6).
  • the majority filter according to further preferred embodiments: Imagine that in the window with an odd edge length either the black or the white elements are just one element in the majority, and that the colors are evenly distributed are (e.g. alternating in a checkerboard pattern pixel by pixel).
  • the threshold is then to be selected in such a way that this simple majority just overturns the decision.
  • FIG. 7 shows an example of a binary-valued pattern (here a chessboard as an arbitrarily chosen example), which in FIG. 7 is increasingly noisy from top to bottom with binary noise (so-called salt and pepper noise).
  • the signal-to-noise ratio varies from infinity to 1/3, for example.
  • the left half of the image LH according to FIG. 7 can correspond to the distance image DISTB according to FIG. 2B
  • the right half of the image RH then corresponds, for example, to the filtered distance image DISTB '(Fig. 2B), which in further preferred embodiments can be used directly as a detection image DETB, for example, or on the basis of which the detection image DETB can be determined, see step 106 from FIG.
  • step 105 (FIG. 2B) of the filtering leads to a degree of (not too high) detailing that is appropriate for many applications in accordance with further preferred embodiments.
  • FIGS. 17A to 17D show the influence of the choice of the radius R for the optional filtering 105 (FIG. 2B) on the degree of detail obtained for a real one Example.
  • two people P1, P2 walk through the image of the camera of a forklift truck.
  • the output information AI has at least one of the following elements: a) acoustic signal, b) haptic signal, c) optical signal, d) image, in particular digital image, with at least one graphically highlighted image area, in particular one based image area graphically highlighted on the detection image (or the filtered) distance image DISTB, DISTB '), cf., for example, the highlighting HP1, HP2, F1, R1, P1, G1. 14 and / or the emphasis H1, H2 like. 15 and / or the highlighting H1, H2, H12 according to FIG. 17.
  • a change in the first and second images B1, B2 detected by means of the method cf., for example, FIG.
  • 2A can be efficiently brought to the attention of a user , e.g. a driver of a forklift truck.
  • a user e.g. a driver of a forklift truck.
  • the driver can reliably and easily perceive information about changes in the surroundings of his vehicle, for example , whereby, for example, accidents with people approaching the vehicle can be avoided.
  • the assessment measure BM when determining the distance image DISTB, the assessment measure BM in particular being a noise or a signal-to-noise ratio, in particular an area of the first image B1 and / or the second image associated with the respective descriptor B2, characterized.
  • the noise can thus also be taken into account when forming the descriptors or descriptor images DB1, DB2, for example according to the method described in DE 102017212 339.
  • each, formed descriptor (s) can be given an evaluation that is dependent on the strength of the noise or the signal-to-noise ratio (SNR): in some preferred embodiments, for example, in the form of a binary one Additional information (for example coded as an additional bit) which, in further preferred embodiments, can also be interpreted as the suitability of the descriptor for further processing.
  • SNR signal-to-noise ratio
  • the additional information allows, for example, to identify suitable descriptors less well (e.g. for subsequent further processing) due to the noise, e.g. B. as "unsuitable”, e.g. to treat them differently in the event of a change detection, than descriptors that are better suited for further processing, e.g. due to lower noise or higher SNR.
  • this additional information can be taken into account when determining the distance image ("distance calculation") DISTB (FIG. 2A), for example according to the following rule: Is at least one of the closed If comparative descriptors are identified as “unsuitable”, the distance is not formed according to the usual rule, but a different rule is applied, according to which, for example, the actual distance is replaced by a specifiable, in particular fixed, value.
  • the value can then be set to "0", for example, which means, for example, that image regions dominated by noise are treated as if they were motionless.
  • the Hamming distance can also be set to a different value, e.g. B. "1" or "2", so that, for example, areas excluded due to noise are not treated differently (e.g. better placed) than non-excluded unmoved areas.
  • this consideration can be particularly relevant due to an optional subsequent filtering of the distance image, in which, for example, a sliding window for the filtering can contain both excluded and non-excluded pixels at the same time.
  • the evaluation of the noise is not passed on as binary information, but rather more than two levels are provided, for example three or four (or more) levels. If, for example, three stages are provided according to further preferred embodiments, these could have the following meanings in further preferred embodiments:
  • Level 0 The descriptor should not be used due to noise.
  • Level 1 Due to noise, the descriptor is suitable for "Application A”, but not for "Application B”.
  • Level 2 The descriptor is suitable for "Applications A" and "B", so the noise is, for example, not significant.
  • “Applications A” and “B” can stand for two applications, for example: optical flow, change detection, correspondence formation, disparity estimation, tracking, etc.
  • further refinements that deviate therefrom are also conceivable.
  • the local signal-to-noise ratio of an image region under consideration e.g. associated with a descriptor, i.e. taken into account in the formation of the descriptor
  • additional information e.g. in the sense of a concatenation
  • a distance calculation can evaluate and pass on this additional information, for example as a minimum or maximum or mean value of the two numbers of the descriptors involved in the distance calculation.
  • this additional information can, for example, also be further taken into account in a subsequent optional filtering step 105 (FIG. 2B) and possibly also passed on, for example as the confidence of a decision made about the presence of an object OBJ1, OBJ2 (FIG. 4B) in the first and / or second image.
  • a participating descriptor image can be used twice for the distance calculation, namely once in the sense of the first descriptor image and a second time in the sense of the second descriptor image.
  • the method further comprises: Compensating 116 a movement associated with the first image B1 (FIG. 1) and / or the second image B2, in particular an intrinsic movement of the first image B1 and / or the second image B2 providing camera 12, for at least one surface RF, in particular surface, for example a homography compensation with respect to the ground plane RF.
  • FIG. 8 schematically shows a simplified block diagram according to further preferred embodiments.
  • the identifiers B101 to B503 have the following meaning:
  • B101 first camera image, see also image B1 according to FIG. 2A
  • B105 second camera image, see also image B2 according to FIG. 2A, image B105 being captured at an earlier point in time than the first camera image B101,
  • B201 first descriptor image, see also reference symbol DB1 according to FIGS. 2A, 2B, B205: second descriptor image, see also reference symbol DB2 according to FIGS. 2A, 2B, B300: step of comparison (see also reference symbol 104 according to FIG. 2A,
  • step 105 optional filtering step (see also step 105 as per Fig. 2B), e.g. in order to obtain a few (r) contiguous regions in the case of moving objects OBJ (Fig. 1),
  • B503 further processed form of the detection image, which is e.g. suitable for transmission via an interface, e.g. B. to a warning system or an actuator system (not shown), or for output on a display device (not shown), e.g. for the driver of the vehicle 10 (Fig. 1).
  • an interface e.g. B. to a warning system or an actuator system (not shown), or for output on a display device (not shown), e.g. for the driver of the vehicle 10 (Fig. 1).
  • FIG. 9 schematically shows a simplified block diagram according to further preferred embodiments. In comparison to Fig. 8, the following elements are added:
  • B250 Buffer for descriptor images. This provides e.g. older descriptor images B205 and stores them until they are no longer needed. This saves recalculations. For example, one transformation B200 may be sufficient for each new input image B101, in contrast to twice as many in FIG. 8, in the configuration of which the optional buffer B250 is not provided. With the optional memory B250 according to FIG. 9, a memory (not shown here) for storing camera images B101, e.g. until they are needed, B105, can also be dispensed with in further preferred embodiments.
  • FIG. 10 schematically shows a simplified block diagram according to further preferred embodiments.
  • the following elements are added: B150 optional step of compensating for a proper movement in an image for a surface RF (FIG. 1). For example a homography compensation with respect to the ground plane RF,
  • the compensation B150 according to further preferred embodiments only takes place, for example, in the lower branch Z2, i.e. for the second camera image B105, then this is compensated, for example, in such a way that it matches the first and thus newest camera image B101 (with regard to the selected surface RF).
  • this variant is usually the preferred one, since the resulting detection image B403 is then also available in the coordinates of the most recent camera image B101. This is particularly advantageous for real-time visualization in accordance with further preferred embodiments.
  • FIG. 11 relate to a device 200 for processing, in particular digital, images B1, B2, the device 200 being designed to carry out the method according to the embodiments (see, e.g., FIG. 2).
  • the device 200 has: a computing device 202 ("computer") having at least one computing core 202a, a memory device 204 assigned to the computing device 202 for at least temporary storage of at least one of the following elements: a) data DAT, b ) Computer program PRG, in particular for carrying out the method according to the embodiments.
  • a computing device 202 (“computer") having at least one computing core 202a, a memory device 204 assigned to the computing device 202 for at least temporary storage of at least one of the following elements: a) data DAT, b ) Computer program PRG, in particular for carrying out the method according to the embodiments.
  • the data DAT can at least temporarily and / or partially the at least one video data stream VDS (or a part thereof) and / or the first image B1 and / or the second image B2 and / or data that can be derived therefrom, for example the first Descriptor image DB1 and / or the second descriptor image DB2 or the distance image DISTB (or DISTB ') or the detection image DETB or at least parts thereof.
  • the memory device 204 has a volatile memory 204a (e.g. working memory (RAM)) and / or a non-volatile memory 204b (e.g. flash EEPROM).
  • volatile memory 204a e.g. working memory (RAM)
  • non-volatile memory 204b e.g. flash EEPROM
  • the computing device 202 can also have at least one of the following elements: microprocessor (mR), microcontroller (pC), application-specific integrated circuit (ASIC), system on chip (SoC), programmable logic module (e.g. FPGA, field programmable gate array ), Hardware circuitry, graphics processing unit (GPU), or any combination thereof.
  • microprocessor microcontroller
  • pC microcontroller
  • ASIC application-specific integrated circuit
  • SoC system on chip
  • programmable logic module e.g. FPGA, field programmable gate array
  • Hardware circuitry e.g. FPGA, field programmable gate array
  • GPU graphics processing unit
  • a data carrier signal DCS which the computer program PRG characterizes and / or transmits according to the embodiments.
  • the data carrier signal DCS can be received via an optional data interface 206, 208 of the device 200, for example.
  • there are also the video data stream VDS or the images B1, B2 can be received via an optional data interface 206.
  • the device 200 or components 202, PRG thereof can also be designed, for example, to implement the configuration according to FIG. 8 and / or 9 and / or 10 at least temporarily.
  • FIG. 12 relate to a use 300 of the method according to the embodiments and / or the device 200 according to the embodiments and / or the computer-readable storage medium SM according to the embodiments and / or the computer program PRG according to the embodiments and / or / or the data carrier signal DCS according to the embodiments for at least one of the following elements: a) Detection 302 a1) an environment U (FIG. 1) of a system 10, in particular a vehicle, in particular an industrial truck such as for example forklifts and / or forklifts, and / or a2) a scene SZ, b)
  • robust change detection 304 means, for example, no or a number of false detections (false alarms) that is below a predeterminable threshold value, e.g. B. because the lighting suddenly changes (e.g. through flashing lights, warning lights, light cones passing by, etc.), but at the same time reliable detection of relevant cases, especially all relevant cases.
  • a predeterminable threshold value e.g. B. because the lighting suddenly changes (e.g. through flashing lights, warning lights, light cones passing by, etc.), but at the same time reliable detection of relevant cases, especially all relevant cases.
  • FIG. 13 shows schematically exemplary image sequences BF1, BF2 according to further preferred embodiments, such as can be obtained, for example, by means of the camera 12 (FIG. 1) or based on the video data stream VDS.
  • an image B1, B2, B3, ... is periodically provided with the period duration AT - 1t, where t characterizes a time interval between two consecutive images, e.g. 1/30 second.
  • the first image B1 and the then already present second image B2 according to FIGS. 2A, 2B etc. can be evaluated, e.g. in order to determine a first detection image DETB.
  • the image B2 and then also the image B3 already present according to FIGS. 2A, 2B (in the sense of the images B1, B2) etc. can be evaluated, e.g. to determine a second detection image DETB, etc.
  • a time interval AT between the first image B1 and the second image B2 can be changed, for example, by not using consecutive images, e.g. of the video data stream, between the first and second images, but instead, for example, one or several images B ', for example of the video data stream between the first image and the second image, are omitted, see arrow B12, for which the following applies: AT-4T.
  • This is symbolized in FIG. 13 for the image sequence BF2 by the arrows not designated (with the exception of arrow B12), an origin of an arrow corresponding to the respective first image B1 of a pair of images being viewed, and a tip of the same arrow pointing to the respective second Image of the pair of images being viewed.
  • the first pair of images thus corresponds, for example, to the arrow B12, and the second and all further pairs of images to the arrows that are not individually designated in FIG. 13 in the image sequence BF2.
  • a quick response can be made and, in particular, detections (e.g. in the form of the detection image DETB) can also be output in quick time sequence, which is e.g. can be important for a graphical display for a user (e.g. so that it does not jerk).
  • FIG. 16 shows different detection images that have been obtained based on camera images each with a different time interval & T, where the following applies to FIGS. 16A & T-1t, DT-2T for FIG. 16B, DT-4T for FIG 16D & T-8T, see also Fig. 13.
  • the different time intervals between the camera images lead to different detection results.
  • the time interval DG between the two camera images B1, B1 can have a considerable influence on the detection result. If the time interval is small (FIG. 16A), only comparatively fast movements are detected, see the feet PF of person P. If it is large, see FIG. 16D, the detection is possibly too sensitive.
  • a suitable time interval & T which in further preferred embodiments can also be adjusted dynamically if necessary. That includes in further preferred embodiments, for example, also the possibility of a triggered camera recording, in which the camera does not record or provide the images in a fixed time grid, but in a controllable variable time interval.
  • the time interval AT can be specified as follows, for example: a) Selection of the time interval t between successive images B1, B2; B2, B3, ..., b) skipping pictures.
  • skipping by omitting images it could be the case, for example, that the process or system reacts too slowly to changes.
  • a solution for skipping without leaving out images according to further preferred embodiments is therefore shown on the basis of the image sequence BF2 according to FIG. 13.
  • Each newest image B101 is used here as an example and the change detection is carried out, for example, with the fourth from last image B105.
  • the possible disadvantage of a sluggish reaction is thus eliminated.
  • the time interval AT is sufficiently large (here e.g. 4/30 s) to be able to reliably detect even slowly moving objects.
  • the detection results can be combined or fused.
  • the method is carried out, in particular in parallel, on different images of the same or the same video data stream, cf. also step 118 according to FIG second image each have a different time interval from one another.
  • the principle according to preferred embodiments enables, among other things, a particularly robust change detection in camera images B1, B2 with comparatively little computing effort.
  • Robust means in particular that it does not provide false detections (false alarms), e.g. B. because the lighting suddenly changes (through flashing lights, warning lights, light cones passing by, etc.), but at the same time reliably detects relevant cases.
  • the detections can be supplied in a compactness that is appropriate for the subsequent function. This means, for example, if a person moves through the image, according to further preferred embodiments, if possible, an object should be connected to an interface (e.g. a system for visualization, i.e. e.g. output of the images B1, B2, possibly with highlighting based on the detected objects OBJ , OBJ1, OBJ2).
  • an interface e.g. a system for visualization, i.e. e.g. output of the images B1, B2, possibly with highlighting based on the detected objects OBJ , OBJ1, OBJ2.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren, insbesondere computerimplementiertes Verfahren, zum Verarbeiten von, insbesondere digitalen, Bildern, aufweisend die folgenden Schritte: Bereitstellen eines ersten Bilds und eines zweiten Bilds, Transformieren des ersten Bilds in ein erstes Deskriptorbild und des zweiten Bilds in ein zweites Deskriptorbild, Ermitteln eines Distanzbildes basierend auf einem Vergleich des ersten Deskriptorbilds mit dem zweiten Deskriptorbild, Bilden eines Detektionsbilds basierend auf dem Distanzbild.

Description

Beschreibung
Titel
Verfahren und Vorrichtung zum Verarbeiten von Bildern
Stand der Technik
Die Offenbarung betrifft ein, insbesondere computerimplementiertes, Verfahren zum Verarbeiten von, insbesondere digitalen, Bildern.
Die Offenbarung betrifft ferner eine Vorrichtung zum Verarbeiten von, insbesondere digitalen, Bildern.
Offenbarung der Erfindung
Bevorzugte Ausführungsformen beziehen sich auf ein Verfahren, insbesondere computerimplementiertes Verfahren, zum Verarbeiten von, insbesondere digitalen, Bildern, aufweisend die folgenden Schritte: Bereitstellen eines ersten Bilds und eines zweiten Bilds, Transformieren des ersten Bilds in ein erstes Deskriptorbild und des zweiten Bilds in ein zweites Deskriptorbild, Ermitteln eines Distanzbildes basierend auf einem Vergleich des ersten Deskriptorbilds mit dem zweiten Deskriptorbild, und, optional, Bilden eines Detektionsbilds basierend auf dem Distanzbild. Dadurch ist z.B. eine besonders effiziente Erkennung von Änderungen bezüglich der Bilder möglich, z.B. eine Erkennung einer Bewegung wenigstens eines auf wenigstens einem der Bilder abgebildeten Objekts.
Unter einem Bild kann im Rahmen der vorliegenden Erfindung ein codierter Datensatz verstanden werden, welcher eine Darstellung des Bildes bzw. eine Bilddarstellung beschreibt bzw. repräsentiert. Unter Verwendung einer Dekodierungsvorschrift ist aus dem das Bild repräsentierenden Datensatz eine Ansteuervorschrift für eine Anzeigeeinrichtung mittels eines Computers derart bestimmbar, dass die Anzeigeeinrichtung unter Anwendung der Ansteuervorschrift das kodierte Bild darstellt. Die Anzeigeeinrichtung kann bspw. eine Displayeinheit oder eine Projektoreinheit sein. Die Anzeigeeinrichtung kann bspw. an oder in einer Fahrerkabine eines Fahrzeugs angeordnet sein.
Bei weiteren bevorzugten Ausführungsformen wird für das Transformieren in die Deskriptorbilder eine Transformation verwendet, die das Umfeld eines Bildelements ("Pixels") des ersten bzw. zweiten Bilds im jeweiligen Bild in einen Deskriptor umwandelt, der dieses Umfeld, bevorzugt in kompakter Weise, beschreibt, das heißt mit wenigen Bits, insbesondere mit weniger Bits, als es dem Informationsgehalt des Umfelds des Pixels entspricht. Bei weiteren bevorzugten Ausführungsformen wird der Wert des Deskriptors als Signatur bezeichnet. Bei weiteren bevorzugten Ausführungsformen hat die Signatur eine feste Länge, insbesondere Wortlänge, von z. B. 8 bit bis z.B. 32 bit, kann bei weiteren bevorzugten Ausführungsformen aber auch länger als 32 bit oder kürzer als 8 bit sein.
Bei weiteren bevorzugten Ausführungsformen weist das Transformieren das Ausführen der Transformation für eine jeweilige Umgebung einer Vielzahl von Pixeln auf, z.B. jedes Pixels im (ersten bzw. zweiten) Bild, so dass als Ergebnis ein jeweiliges (erstes bzw. zweites) "Bild von Deskriptoren", also das bzw. die bereits genannten Deskriptorbilder, entsteht. Bei weiteren bevorzugten Ausführungsformen kann ein Deskriptorbild auch aufgefasst werden als eine Vielzahl von Deskriptorwerten bzw. Signaturen, die bevorzugt in einer matrixförmigen Anordnung von Reihen und Spalten organisiert sind, entsprechend der Position der für Ihre Bildung ausgewerteten Pixel bzw. der jeweiligen Umgebung eines betrachteten Pixels. Insoweit ist ein Deskriptorbild z.B. mit dem ersten oder zweiten Bild vergleichbar, wobei jedoch anstelle der regulären Bildinformationen (wie z.B. Helligkeits- bzw. Intensitätswerte von einem oder mehreren Graustufen- oder Farbkanälen) jedem Bildelement des Deskriptorbilds die jeweilige Signatur zugeordnet ist.
Bei weiteren bevorzugten Ausführungsformen können Pixel am Bildrand des ersten und/oder zweiten Bilds für die Transformation zu den Deskriptorbildern unberücksichtigt bleiben, weil dort z.B. der Rahmen für die Transformation über das Bild hinausragt, die "Pixelwerte" mithin Undefiniert sind. Bei weiteren bevorzugten Ausführungsformen können Pixel am Bildrand des ersten und/oder zweiten Bilds für die Transformation zu den Deskriptorbildern berücksichtigt werden, wobei ggf. am Rand fehlende bzw. Undefinierte Pixelwerte gemäß einer vorgebbaren Regel ergänzt werden, z.B. durch Kopieren der Pixelwerte vorhandener Pixel und/oder Setzen der zuvor Undefinierten Werte auf einen vorgebbaren Wert.
Bei weiteren bevorzugten Ausführungsformen kann für das Transformieren wenigstens eines der nachstehend aufgeführten Verfahren verwendet werden: SIFT (skaleninvariante Merkmalstransformation), SURF (Speeded Up Robust Features, z.B. gemäß Bay H., Tuytelaars T., Van Gool L. (2006) SURF: Speeded Up Robust Features. In: Leonardis A., Bischof H., Pinz A. (eds) Computer Vision - ECCV 2006. ECCV 2006. Lecture Notes in Computer Science, vol 3951. Springer, Berlin, Heidelberg, https://doi.org/10.1007/11744023_32), ORB (E. Rublee, V. Rabaud, K. Konolige and G. Bradski, "ORB: An efficient alternative to SIFT or SURF," 2011 International Conference on Computer Vision, Barcelona, 2011, pp. 2564-2571; DOI: 10.1109/ICCV.2011.6126544), BRISK (Leutenegger, Stefan & Chli, Margarita & Siegwart, Roland. (2011). BRISK: Binary Robust invariant scalable keypoints. Proceedings of the IEEE International Conference on Computer Vision. 2548-2555. 10.1109/ICCV.2011.6126542.), BRIEF (Binary Robust Independent Elementary Features, DOI: 10.1007/978-3-642-15561- 1_56), DAISY (E. Tola, V. Lepetit and P. Fua, "DAISY: An Efficient Dense Descriptor Applied to Wide-Baseline Stereo," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 32, no. 5, pp. 815-830, May 2010.), LATCH (https://arxiv.org/pdf/1501.03719.pdf).
Bei weiteren bevorzugten Ausführungsformen ist für den zur Bildung der Deskriptorbilder gewählten Deskriptor ein Distanzmaß vorhanden bzw. vorgebbar, das es z.B. erlaubt, eine Unterschiedlichkeit zweier Deskriptorwerte zu ermitteln bzw. zu bewerten.
Bei weiteren bevorzugten Ausführungsformen kann alternativ zu dem Distanzmaß auch ein Ähnlichkeitsmaß verwendet werden, wobei insbesondere beide Maße ineinander überführbar sein können. Daher wird nachfolgend beispielhaft und ohne Beschränkung der Allgemeingültigkeit nur das Distanzmaß betrachtet, wobei alle beispielhaft beschriebenen Schritte und Ausführungsformen entsprechend auch bei Verwendung eines Ahnlichkeitsmaßes - anstelle eines Distanzmaßes - zur Bewertung eines Unterschieds der Deskriptorbilder, also z.B. zur Charakterisierung eines Ergebnisses des Vergleichens des ersten Deskriptorbilds mit dem zweiten Deskriptorbild, nutzbar sind.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für das Transformieren ein Deskriptor verwendet wird, für den ein Distanzmaß und/oder ein Ähnlichkeitsmaß definierbar und/oder definiert ist, wobei insbesondere das Vergleichen des ersten Deskriptorbilds mit dem zweiten Deskriptorbild basierend auf dem Distanzmaß und/oder dem Ähnlichkeitsmaß ausgeführt wird.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass als Distanzmaß für das Vergleichen die Hamming-Distanz oder ein auf der Hamming-Distanz basierendes Distanzmaß verwendet wird, wobei insbesondere die Hamming-Distanz mit einem vorgebbaren Schwellwert verglichen wird und basierend auf dem Vergleich ein, insbesondere binärer, Vergleichswert ermittelt wird.
Bei weiteren bevorzugten Ausführungsformen wird unter Anwendung der Hamming-Distanz als Distanzmaß ein bitweiser Vergleich zweier Deskriptorwerte miteinander ausgeführt, wobei die Hamming-Distanz die Anzahl der unterschiedlichen Bits der miteinander verglichenen Deskriptorwerte angibt. Bei einer Wortlänge von N bit des Deskriptors hat die Hamming-Distanz DH einen Wertebereich DM t (0, 1,2,
Figure imgf000005_0001
Dabei bedeutet der Wert DH = 0, dass die beiden miteinander verglichenen Deskriptorwerte identisch sind, während sie bei DH = N maximal unterschiedlich sind. Vergleicht man z.B. zwei zufällig ausgewählte Deskriptorwerte miteinander und treten alle darstellbaren Deskriptorwerte 0, 1, ... , 2N_1 etwa gleichwahrscheinlich auf, so ist z.B. im statistischen Mittel eine Hamming-Distanz von etwa N/2 zu erwarten. Für eine Änderungsdetektion gemäß weiteren bevorzugten Ausführungsformen bedeutet dies, dass bei im Wesentlichen übereinstimmenden Bildbereichen Distanzwerte nahe 0 zu erwarten sind - und für nicht übereinstimmende Bildbereiche, z. B. aufgrund bewegter Objekte, Distanzwerte deutlich größer als 0, und dann z. B. etwa um N/2 liegen. Das Distanzmaß kann gemäß weiteren bevorzugten Ausführungsformen optional weiter vereinfacht werden, beispielsweise durch Binarisierung. Z.B. kann die Hamming-Distanz hierzu mit einer Schwelle L verglichen und eine binäre
Distanz DB erhalten werden, g aemäß D BB = ! lö 1 sonst
Bei weiteren bevorzugten Ausführungsformen kann alternativ oder ergänzend zu einer zumindest zeitweisen Speicherung von Deskriptorwerten in dem ersten und/oder zweiten Deskriptorbild auch eine Ermittlung der Deskriptorwerte bei Bedarf, z.B. „on-the-fly“ erfolgen. Mit anderen Worten kann bei weiteren bevorzugten Ausführungsformen das Transformieren des ersten Bilds in das erste Deskriptorbild und/oder das Transformieren des zweiten Bilds in das zweite Deskriptorbild auch dynamisch, d.h. z.B. bei Bedarf und/oder in Echtzeit, insbesondere z.B. auch in direktem zeitlichen Zusammenhang mit dem Ermitteln des Distanzbilds, ausgeführt werden.
Bei weiteren bevorzugten Ausführungsformen kann das Transformieren des ersten Bilds in das erste Deskriptorbild und/oder das Transformieren des zweiten Bilds in das zweite Deskriptorbild zumindest zeitweise auch parallelisiert werden, z.B. wenn mehrere Rechenkerne zur Ausführung der jeweiligen Transformation(en) verfügbar sind.
Bei weiteren bevorzugten Ausführungsformen ist auch denkbar, die Transformation zur Bildung des jeweiligen (ersten und/oder zweiten) Deskriptorbilds zeitgleich oder zumindest zeitlich teilweise überlappend auf einen ersten Teil des (ersten und/oder zweiten) Bilds auszuführen. Mit anderen Worten ist bei weiteren bevorzugten Ausführungsformen auch denkbar, die Transformation des ersten Bilds in das erste Deskriptorbild zu parallelisieren, wobei z.B. ein erster Teil des ersten Bilds in einen ersten Teil des ersten Deskriptorbilds transformiert wird, und wobei gleichzeitig hierzu z.B. ein zweiter Teil des ersten Bilds in einen zweiten Teil des ersten Deskriptorbilds transformiert wird.
Bei weiteren bevorzugten Ausführungsformen wird das einem ersten Zeitpunkt, z.B. dem aktuellen Zeitpunkt, gehörige erste Deskriptorbild mit einem zweiten Deskriptorbild verglichen, das zu einem zweiten, insbesondere früheren, Zeitpunkt gehört. Bei weiteren bevorzugten Ausführungsformen kann sowohl das Transformieren zu den Deskriptorbildern als auch das Ermitteln des Distanzbilds jeweils z.B. nur auf einem vorgebbaren Teilbereich der ersten und zweiten Bilder bzw. der daraus ableitbaren Deskriptorbilder ausgeführt werden. Die Auswahl von Teilbereichen kann bei weiteren bevorzugten Ausführungsformen z.B. auch dynamisch, also zur Laufzeit des Verfahrens bzw. einer das Verfahren ausführenden Vorrichtung, erfolgen, z.B. basierend auf einem aktuellen Inhalt der Bilder und/oder zuvor erkannten Änderungen und/oder Objekten.
Bei weiteren bevorzugten Ausführungsformen erfolgt das Vergleichen des ersten Deskriptorbilds mit dem zweiten Deskriptorbild, also das Bilden des Distanzmaßes, Pixel für Pixel, es wird also jeweils ein Bildelement des ersten Deskriptorbilds mit einem entsprechenden Bildelement des zweiten Deskriptorbilds verglichen und dabei ein entsprechender Wert für das Distanzmaß ("Distanzwert") erhalten. Mit anderen Worten wird bei weiteren bevorzugten Ausführungsformen jeweils ein Deskriptorwert an einer bestimmten Koordinate des ersten Deskriptorbilds mit dem Deskriptorwert an der entsprechenden (selben) Koordinate des zweiten Deskriptorbilds verglichen. Der dabei ermittelte Distanzwert wird bei weiteren bevorzugten Ausführungsformen in ein bzw. das Distanzbild an der entsprechenden Koordinate eingetragen. Es ist ersichtlich, dass das Distanzbild dieselbe Größe (Anzahl der Pixel, z.B. charakterisierbar durch Breite und Höhe) aufweist wie die zu vergleichenden Deskriptorbilder. Bei weiteren bevorzugten Ausführungsformen kann das Distanzbild (also jedes Bildelement) z.B. Werte im Bereich 0 bis N aufweisen, die das Vergleichsergebnis zwischen erstem Deskriptorbild und zweitem Deskriptorbild charakterisieren.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Filtern des Distanzbilds, wodurch ein gefiltertes Distanzbild erhalten wird, wobei insbesondere das Bilden des Detektionsbilds basierend auf dem gefilterten Distanzbild erfolgt.
Bei weiteren bevorzugten Ausführungsformen wird das Filtern so ausgeführt, dass das Distanzbild umgewandelt wird in ein gefiltertes Bild, das Änderungen in kompakter Form anzeigt, was z.B. für eine Funktionsschnittstelle gemäß weiteren bevorzugten Ausführungsformen nützlich ist.
Bei weiteren bevorzugten Ausführungsformen weist das Detektionsbild ein oder mehrere zusammenhängende Regionen, die gemäß weiteren bevorzugten Ausführungsformen auch als "Blobs" bezeichnet werden, für diejenigen Bildbereiche auf, in denen, insbesondere signifikante, Änderungen zwischen den betrachteten (ersten und zweiten) Bildern bzw. den hiermit korrespondierenden Deskriptorbildern vorliegen.
Bei weiteren bevorzugten Ausführungsformen kann alternativ oder ergänzend zu einer zumindest zeitweisen vollständigen oder teilweisen Speicherung des Distanzbilds und/oder des Detektionsbilds auch eine (zumindest teilweise) Ermittlung des Distanzbilds und/oder des Detektionsbilds bei Bedarf, z.B. „on- the-fly“, erfolgen. Mit anderen Worten ist bei weiteren bevorzugten Ausführungsformen denkbar, (auch) das Distanzbild und/oder das Detektionsbild zumindest nicht vollständig zu speichern, sondern es bzw. sie z.B., insbesondere umgehend, weiterzuverarbeiten, z.B. um Speicher zu sparen oder um Zwischenergebnisse (z.B. Teile des Distanzbilds und/oder Detektionsbilds) schneller bereitstellen zu können.
Bei weiteren bevorzugten Ausführungsformen kann das Detektionsbild in einem optionalen weiteren oder alternativen Schritt in eine andere Form überführt werden, z. B. um es effizienter über eine Schnittstelle übermitteln zu können. Dazu werden bei weiteren bevorzugten Ausführungsformen beispielsweise die Konturen wenigstens eines Blobs angenähert, z.B. als Polygone beschrieben.
Alternativ oder ergänzend kann das Detektionsbild bei weiteren bevorzugten Ausführungsformen auch komprimiert werden, z.B. mit einer Lauflängencodierung oder einer anderen Entropiecodierung, z.B. mit einer gängigen Codierung für Segment-Bilder.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Filtern das Anwenden eines Majoritätsfilters und/oder eines Schwellwertfilters aufweist. Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Weiterverarbeiten des Detektionsbilds, insbesondere Bilden von Ausgabeinformationen, basierend auf wenigstens einem der folgenden Elemente: a) Detektionsbild, b) erstes Bild, c) zweites Bild.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die Ausgabeinformationen wenigstens eines der folgenden Elemente aufweisen: a) akustisches Signal, b) haptisches Signal, c) optisches Signal, d) Bild, insbesondere Digitalbild, mit wenigstens einem grafisch hervorgehobenen Bildbereich, insbesondere einem basierend auf dem Detektionsbild grafisch hervorgehobenen Bildbereich. Dadurch kann eine mittels des Verfahrens detektierte Änderung bezüglich des ersten und zweiten Bilds effizient einem Benutzer zur Kenntnis gebracht werden, z.B. einem Fahrer eines Gabelstaplers. Auf diese Weise kann der Fahrer zuverlässig und leicht wahrnehmbar z.B. über Änderungen in dem Umfeld seines Fahrzeugs informiert werden, wodurch z.B. Unfälle mit sich dem Fahrzeug nähernden Personen vermieden werden können.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Zuweisen eines Bewertungsmaßes zu wenigstens einem Deskriptor des ersten Deskriptorbilds und/oder des zweiten Deskriptorbilds, und, optional, Berücksichtigen des Bewertungsmaßes bei der Ermittlung des Distanzbildes, wobei insbesondere das Bewertungsmaß ein Rauschen bzw. ein Signal-zu-Rausch-Verhältnis, insbesondere eines mit dem jeweiligen Deskriptor assoziierten Bereichs des ersten Bilds und/oder des zweiten Bilds, charakterisiert.
Bei weiteren bevorzugten Ausführungsformen kann somit z.B. bei der Bildung der Deskriptoren bzw. der Deskriptorbilder das Rauschen mitberücksichtigt werden, beispielsweise gemäß dem in DE 102017212 339 beschriebenen Verfahren.
Bei weiteren bevorzugten Ausführungsformen kann somit zumindest manchen, insbesondere jedem, gebildeten Deskriptor(en) eine von der Stärke des Rauschens bzw. des Signal-zu-Rausch-Verhältnisses (SNR) abhängige Bewertung mitgegeben werden: bei manchen bevorzugten Ausführungsformen z.B. in Form einer binären Zusatzinformation (z.B. als zusätzliches Bit codiert), die bei weiteren bevorzugten Ausführungsformen auch als Eignung des Deskriptors für die Weiterverarbeitung interpretiert werden kann.
Bei weiteren bevorzugten Ausführungsformen erlaubt es die Zusatzinformation z.B., aufgrund des Rauschens weniger gut (z.B. für eine nachfolgend Weiterverarbeitung) geeignete Deskriptoren zu kennzeichnen, z. B. als „ungeeignet“, um sie z.B. bei einer Änderungsdetektion anders zu behandeln, als solche Deskriptoren, die z.B. aufgrund eines geringeren Rauschens bzw. höheren SNR besser geeignet sind für die Weiterverarbeitung.
Bei weiteren bevorzugten Ausführungsformen kann diese Zusatzinformation bei der Ermittlung des Distanzbilds ("Distanzberechnung") z.B. nach folgender Regel berücksichtigt werden: Ist zumindest einer der zu vergleichenden Deskriptoren als „ungeeignet“ gekennzeichnet, so wird die Distanz nicht nach der üblichen Regel gebildet, sondern eine andere Regel angewandt, wonach z.B. die tatsächliche Distanz durch einen vorgebbaren, insbesondere festen, Wert ersetzt wird. Bei weiteren bevorzugten Ausführungsformen kann im Beispiel der Hamming-Distanz als Distanzmaß der Wert dann z.B. auf "0" gesetzt werden, was z.B. bedeutet, dass vom Rauschen dominierte Bildregionen so behandelt werden, als wären sie unbewegt.
Bei weiteren bevorzugten Ausführungsformen kann die Hamming-Distanz aber auch auf einen anderen Wert gesetzt werden, z. B. "1" oder "2", damit z.B. aufgrund von Rauschen ausgeschlossene Bereiche nicht anders behandelt (z.B. bessergestellt) werden als nicht ausgeschlossene unbewegte Bereiche. Diese Betrachtung kann bei weiteren bevorzugten Ausführungsformen insbesondere relevant sein aufgrund einer optionalen nachfolgenden Filterung des Distanzbilds, bei der z.B. ein gleitendes Fenster für die Filterung gleichzeitig sowohl ausgeschlossene als auch nicht ausgeschlossene Pixel enthalten kann.
Bei weiteren bevorzugten Ausführungsformen wird die Bewertung des Rauschens nicht als binäre Information weitergegeben, sondern es werden mehr als zwei Stufen vorgesehen, beispielsweise drei oder vier (oder mehr) Stufen. Wenn z.B. gemäß weiteren bevorzugten Ausführungsformen drei Stufen vorgesehen sind, könnten diese bei weiteren bevorzugten Ausführungsformen folgende Bedeutungen haben: Stufe 0: Aufgrund von Rauschen sollte der Deskriptor nicht verwendet werden. Stufe 1: Aufgrund von Rauschen ist der Deskriptor zwar für "Anwendung A" geeignet, nicht jedoch für "Anwendung B".
Stufe 2: Der Deskriptor ist für die "Anwendungen A" und "B" geeignet, das Rauschen ist somit z.B. nicht signifikant.
Dabei können bei weiteren bevorzugten Ausführungsformen "Anwendungen A" und "B" stehen für zwei Anwendungen aus z.B.: Optischer Fluss, Änderungsdetektion, Korrespondenzbildung, Disparitätsschätzung, Tracking, usw..
Bei weiteren bevorzugten Ausführungsformen sind weitere Ausgestaltungen ebenfalls denkbar. Beispielsweise kann das lokale Signal-zu-Rausch-Verhältnis einer betrachteten (z.B. mit einem Deskriptor assoziierten, also z.B. bei der Bildung des Deskriptors berücksichtigten) Bildregion an den jeweiligen Deskriptor als Zusatzinformation angehängt (z.B. im Sinne einer Konkatenation) werden, z. B. als Zahl. Bei weiteren bevorzugten Ausführungsformen kann eine Distanzberechnung diese Zusatzinformationen verwerten und weitergeben, z.B. als Minimum oder Maximum oder Mittelwert der beiden Zahlen der bei der Distanzberechnung beteiligten Deskriptoren. Diese Zusatzinformation kann bei weiteren bevorzugten Ausführungsformen z.B. auch in einem nachfolgenden optionalen Filterungsschritt weiter berücksichtigt und ggf. auch weitergegeben werden, z.B. als Konfidenz einer getroffenen Entscheidung über das Vorhandensein eines Objekts in dem ersten und/oder zweiten Bild.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: zumindest zeitweises Speichern des ersten Deskriptorbilds und/oder des zweiten Deskriptorbilds, z.B. für einen nachfolgenden Gebrauch. Beispielsweise kann bei einer aufeinanderfolgenden Ermittlung von zwei Distanzbildern ein beteiligtes Deskriptorbild zweimal für die Distanzberechnung verwendet werden, nämlich einmal im Sinne des ersten Deskriptorbilds, und ein zweites Mal im Sinne des zweiten Deskriptorbilds.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Kompensieren einer mit dem ersten Bild und/oder dem zweiten Bild assoziierten Bewegung, insbesondere einer Eigenbewegung einer das erste Bild und/oder das zweite Bild bereitstellenden Kamera, für wenigstens eine Fläche, insbesondere Oberfläche.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das erste Bild und das zweite Bild jeweils Teil eines selben Videodatenstroms wenigstens einer Kamera ist.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass in dem Videodatenstrom zeitlich zwischen dem ersten Bild und dem zweiten Bild wenigstens ein weiteres Bild vorhanden ist. Mit anderen Worten kann bei weiteren bevorzugten Ausführungsformen ein zeitlicher Abstand zwischen dem ersten Bild und dem zweiten Bild z.B. dadurch verändert werden, dass als erstes und zweites Bild nicht zeitlich direkt aufeinanderfolgende Bilder z.B. des Videodatenstroms verwendet werden, sondern dass z.B. ein oder mehrere Bilder z.B. des Videodatenstroms zwischen dem ersten Bild und dem zweiten Bild ausgelassen werden.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren (insbesondere die Schritte des Bereitstellens und/oder des Transformierens in die Deskriptorbilder und/oder des Ermitteln des Distanzbilds, und, optional, Ermitteln des Detektionsbilds) auf mehrere jeweils ein erstes und zweites Bild aufweisende Bildpaare angewandt wird, wobei das erste Bild eines ersten Bildpaars ein erstes Bild des Videodatenstroms ist, wobei das zweite Bild des ersten Bildpaars ein n-tes Bild, mit n > 2 (z.B. n=5), des Videodatenstroms ist, wobei das erste Bild eines zweiten Bildpaars ein zweites Bild des Videodatenstroms ist, wobei das zweite Bild des zweiten Bildpaars ein (n+1)-tes Bild des Videodatenstroms ist, usw..
Dadurch kann, trotz "Auslassen" von Bildern (bezüglich des jeweilig betrachteten Bildpaars) schnell reagiert werden, und es können insbesondere auch Detektionen (z.B. in Form des Detektionsbilds) in schneller zeitlicher Folge ausgegeben werden, was z.B. wichtig für eine grafische Anzeige für einen Benutzer sein kann (damit diese nicht ruckelt).
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren, insbesondere zeitlich parallel, auf jeweils unterschiedlichen Bildpaaren (erstes Bild, zweites Bild) eines selben bzw. desselben Videodatenstroms ausgeführt wird, wobei ein jeweiliges erstes Bild und ein jeweiliges zweites Bild jeweils einen unterschiedlichen zeitlichen Abstand zueinander aufweisen.
Weitere bevorzugte Ausführungsformen beziehen sich auf eine Vorrichtung zur Verarbeitung von, insbesondere digitalen, Bildern, wobei die Vorrichtung zur Ausführung des Verfahrens gemäß den Ausführungsformen ausgebildet ist.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die Vorrichtung aufweist: eine wenigstens einen Rechenkern aufweisende Recheneinrichtung ("Computer"), eine der Recheneinrichtung zugeordnete Speichereinrichtung zur zumindest zeitweisen Speicherung wenigstens eines der folgenden Elemente: a) Daten, b) Computerprogramm, insbesondere zur Ausführung des Verfahrens gemäß den Ausführungsformen.
Bei weiteren bevorzugten Ausführungsformen können die Daten DAT zumindest zeitweise und/oder teilweise den wenigstens einen Videodatenstrom und/oder das erste Bild und/oder das zweite Bild und/oder daraus ableitbare Daten, z.B. das erste Deskriptorbild und/oder das zweite Deskriptorbild bzw. das Distanzbild bzw. das Detektionsbild bzw. zumindest Teile hiervon aufweisen.
Bei weiteren bevorzugten Ausführungsformen weist die Speichereinrichtung einen flüchtigen Speicher (z.B. Arbeitsspeicher (RAM)) auf, und/oder einen nichtflüchtigen Speicher (z.B. Flash-EEPROM).
Bei weiteren bevorzugten Ausführungsformen kann die Recheneinrichtung auch wenigstens eines der folgenden Elemente aufweisen: Mikroprozessor (mR), Mikrocontroller (pC), anwendungsspezifischer integrierter Schaltkreis (ASIC), System on Chip (SoC), programmierbarer Logikbaustein (z.B. FPGA, field programmable gate array), Hardwareschaltung, Grafikprozessor (GPU, graphics Processing unit), oder beliebige Kombinationen hieraus.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein computerlesbares Speichermedium, umfassend Befehle, die bei der Ausführung durch einen Computer diesen veranlassen, das Verfahren gemäß den Ausführungsformen auszuführen. Weitere bevorzugte Ausführungsformen beziehen sich auf ein Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß den Ausführungsformen auszuführen.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein Datenträgersignal, das das Computerprogramm gemäß den Ausführungsformen charakterisiert und/oder überträgt. Das Datenträgersignal ist beispielsweise über eine optionale Datenschnittstelle der Vorrichtung empfangbar.
Weitere bevorzugte Ausführungsformen beziehen sich auf eine Verwendung des Verfahrens gemäß den Ausführungsformen und/oder der Vorrichtung gemäß den Ausführungsformen und/oder des computerlesbaren Speichermediums gemäß den Ausführungsformen und/oder des Computerprogramms gemäß den Ausführungsformen und/oder des Datenträgersignals gemäß den Ausführungsformen für wenigstens eines der folgenden Elemente: a) Erfassung a1) eines Umfelds eines Systems, insbesondere eines Fahrzeugs, insbesondere Flurförderzeugs wie z.B. Gabelstapler und/oder Hubstapler, und/oder a2) einer Szene, b) Ermitteln von Änderungen bezüglich des ersten Bilds und des zweiten Bilds, insbesondere robuste Änderungsdetektion bezüglich des ersten Bilds und des zweiten Bilds, c) Ermitteln von Hindernissen, insbesondere bewegten Objekten, d) Vermeidung von Unfällen, insbesondere im Bereich eines bzw. des Systems bzw. in dem Umfeld, insbesondere bei vergleichsweise geringen Geschwindigkeiten des Systems, insbesondere kleiner gleich einer Schrittgeschwindigkeit eines Menschen, weiter insbesondere bei einem Übergang zwischen einem Stillstand und einer Bewegung oder umgekehrt, e) Anwendung sowohl beim Stillstand des Systems als auch bei einer Bewegung des Systems, f) Visualisieren von Änderungen bezüglich des ersten Bilds und des zweiten Bilds, insbesondere Einblenden von die Änderungen charakterisierenden Informationen bzw. Zusatzinformationen bzw. Hervorheben von wenigstens einem Bereich des ersten Bilds und/oder des zweiten Bilds, der mit den Änderungen assoziiert ist, insbesondere in Echtzeit ("Echtzeit- Visualisierung").
Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Erfindung, unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung.
In der Zeichnung zeigt:
Fig. 1 schematisch ein vereinfachtes Blockdiagramm gemäß bevorzugten Ausführungsformen,
Fig. 2A schematisch ein vereinfachtes Flussdiagramm von Verfahren gemäß weiteren bevorzugten Ausführungsformen,
Fig. 2B,
2C, 2D,
2E, 2F jeweils schematisch ein vereinfachtes Flussdiagramm von Verfahren gemäß weiteren bevorzugten Ausführungsformen,
Fig. 3A schematisch ein beispielhaftes Bild gemäß weiteren bevorzugten Ausführungsformen,
Fig. 3B schematisch ein mit dem Bild gemäß Fig. 3A assoziiertes Deskriptorbild gemäß weiteren bevorzugten Ausführungsformen,
Fig. 4A schematisch ein beispielhaftes Distanzbild gemäß weiteren bevorzugten Ausführungsformen,
Fig. 4B schematisch ein mit dem Distanzbild gemäß Fig. 4A assoziiertes Detektionsbild gemäß weiteren bevorzugten Ausführungsformen,
Fig. 5 schematisch eine Anwendung eines Majoritätsfilters gemäß weiteren bevorzugten Ausführungsformen,
Fig. 6 schematisch beispielhafte Gewichtungen für eine Filterung gemäß weiteren bevorzugten Ausführungsformen, Fig. 7 schematisch ein beispielhaftes Bild gemäß weiteren bevorzugten Ausführungsformen,
Fig. 8, 9,
10 jeweils schematisch ein vereinfachtes Blockdiagramm gemäß weiteren bevorzugten Ausführungsformen,
Fig. 11 schematisch ein vereinfachtes Blockdiagramm einer Vorrichtung gemäß weiteren bevorzugten Ausführungsformen,
Fig. 12 schematisch Aspekte einer Verwendung gemäß weiteren bevorzugten Ausführungsformen,
Fig. 13 schematisch beispielhafte Bildfolgen gemäß weiteren bevorzugten Ausführungsformen,
Fig. 14A,
14B, 14C,
14D, 14E,
14F jeweils schematisch ein Bild gemäß weiteren bevorzugten Ausführungsformen,
Fig. 15A,
15B, 15C,
15D jeweils schematisch ein Bild gemäß weiteren bevorzugten Ausführungsformen,
Fig. 16A,
16B, 16C,
16D jeweils schematisch ein Bild gemäß weiteren bevorzugten Ausführungsformen, und
Fig. 17A,
17B, 17C,
17D jeweils schematisch ein Bild gemäß weiteren bevorzugten Ausführungsformen. Figur 1 zeigt schematisch ein vereinfachtes Blockdiagramm eines Systems 10 zur Verwendung mit einem Verfahren zum Verarbeiten von Bildern gemäß bevorzugten Ausführungsformen. Das System 10 ist beispielsweise als Fahrzeug, insbesondere Flurförderzeug (z.B. Gabelstapler und/oder Hubstapler) ausgebildet und weist wenigstens eine Kamera 12 auf, die mehrere Bilder B1,
B2, insbesondere in Form eines Videodatenstroms VDS bzw. ableitbar aus wenigstens einem Videodatenstrom VDS, bereitstellt. Optional kann das System 10 auch wenigstens eine weitere Kamera 12' aufweisen, die ihrerseits z.B. ein oder mehrere Bilder bzw. einen entsprechenden Videodatenstrom (nicht gezeigt) bereitstellen kann. Das System 10 kann sich selbst z.B. in einer Umgebung U, beispielsweise auf einer Referenzfläche RF wie z.B. einer Bodenfläche (z.B. einer Fertigungseinrichtung), bewegen. Des Weiteren können ein oder mehrere Objekte OBJ, die insbesondere auch Hindernisse H für das System 10 darstellen können, zumindest zeitweise in der Umgebung U vorhanden sein.
Bei weiteren bevorzugten Ausführungsformen stellt das System 10 kein Fahrzeug dar bzw. weist das System 10 kein Fahrzeug auf, sondern z.B. die Kamera 12, die wie vorstehend beschrieben z.B. den Videodatenstrom VDS bzw. die Bilder B1, B2 liefert bzw. eine die Kamera 12 enthaltende stationäre Einrichtung. Beispielsweise kann die Kamera 12 dazu vorgesehen sein, eine Szene SZ in der Umgebung U zu beobachten, z.B. also als Überwachungskamera verwendet werden.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren, insbesondere computerimplementiertes Verfahren, vgl. Figur 2A, zum Verarbeiten von, insbesondere digitalen, Bildern B1, B2 (Fig. 1), aufweisend die folgenden Schritte: Bereitstellen 100 eines ersten Bilds B1 und eines zweiten Bilds B2 (insbesondere jeweils als Digitalbild), Transformieren 102 des ersten Bilds B1 in ein erstes Deskriptorbild DB1 und des zweiten Bilds B2 in ein zweites Deskriptorbild DB2, Ermitteln 104 eines Distanzbildes DISTB basierend auf einem Vergleich des ersten Deskriptorbilds DB1 mit dem zweiten Deskriptorbild DB1, und, optional, Bilden 106 eines Detektionsbilds DETB basierend auf dem Distanzbild DISTB. Dadurch ist z.B. eine besonders effiziente Erkennung von Änderungen bezüglich der Bilder B1, B2 möglich, z.B. eine Erkennung einer Bewegung wenigstens eines auf wenigstens einem der Bilder B1, B2 abgebildeten Objekts. Insbesondere charakterisiert das Distanzbild DISTB bzw. die in dem Distanzbild DISTB enthaltenen Informationen wenigstens teilweise Änderungen bezüglich der Bilder B1, B2 bzw. der daraus ableitbaren Deskriptorbilder DB1, DB2 zueinander.
Bei weiteren bevorzugten Ausführungsformen kann das Distanzbild DISTB als Detektionsbild DETB verwendet werden, wobei insbesondere der optionale Schritt 106 entfällt. Bei weiteren bevorzugten Ausführungsformen kann das Detektionsbild DETB basierend auf dem Distanzbild DISTB gebildet werden, was z.B. in dem optionalen Schritt 106 erfolgen kann.
Die Figuren 14A bis 14F zeigen beispielhaft unterschiedliche, weiter unten näher beschriebene, Detektionsbilder, wie sie z.B. gemäß bevorzugten Ausführungsformen, z.B. basierend auf dem beispielhaften Ablauf gemäß Fig.
2A, erhalten werden können.
Bei weiteren bevorzugten Ausführungsformen wird für das Transformieren 102 in die Deskriptorbilder DB1, DB2 wenigstens eine Transformation verwendet, die das Umfeld eines Bildelements ("Pixels") des ersten bzw. zweiten Bilds B1, B2 im jeweiligen Bild in einen Deskriptor umwandelt, der dieses Umfeld, bevorzugt in kompakter Weise, beschreibt, das heißt mit wenigen Bits, insbesondere mit weniger Bits, als es dem Informationsgehalt des Umfelds des Pixels in dem Bild B1, B2 selbst entspricht. Bei weiteren bevorzugten Ausführungsformen wird der Wert des Deskriptors als Signatur bezeichnet. Bei weiteren bevorzugten Ausführungsformen hat die Signatur eine feste Länge, insbesondere Wortlänge, von z. B. 8 bit bis z.B. 32 bit, kann bei weiteren bevorzugten Ausführungsformen aber auch länger als 32 bit oder kürzer als 8 bit sein.
Bei weiteren bevorzugten Ausführungsformen weist das Transformieren 102 das Ausführen der Transformation für eine jeweilige Umgebung einer Vielzahl von Pixeln auf, z.B. jedes Pixels im ersten Bild B1 bzw. im zweiten Bild B2, so dass als Ergebnis ein jeweiliges erstes bzw. zweites "Bild von Deskriptoren", also das bzw. die bereits genannten Deskriptorbilder DB1, DB2, entsteht. Bei weiteren bevorzugten Ausführungsformen kann ein Deskriptorbild DB1, DB2 auch aufgefasst werden als eine Vielzahl von Deskriptorwerten bzw. Signaturen, die bevorzugt in einer matrixförmigen Anordnung von Reihen und Spalten organisiert sind, entsprechend der Position der für Ihre Bildung ausgewerteten Pixel bzw. der jeweiligen Umgebung eines betrachteten Pixels. Insoweit ist ein Deskriptorbild DB1, DB2 z.B. mit dem ersten oder zweiten Bild B1, B2 vergleichbar, wobei jedoch anstelle der regulären Bildinformationen (wie z.B. Helligkeits- bzw. Intensitätswerte von einem oder mehreren Graustufen- oder Farbkanälen) jedem Bildelement des Deskriptorbilds die jeweilige Signatur zugeordnet ist, mithin Informationen über das Umfeld des Ausgangsbilds B1, B2 aufweist, die bei der Bildung des Deskriptors bzw. der Signatur mit eingeflossen sind.
In diesem Zusammenhang zeigt Figur 3A ein beispielhaftes Bild bzw. Ausgangsbild B1a, und Figur 3A zeigt ein daraus mittels der Transformation 102 (Fig. 2A) ableitbares zugehöriges Deskriptorbild DB1a. Fig. 3A, B veranschaulicht beispielhaft, wie das Umfeld U1 um den Fuß des Leitpfostens des Ausgangsbilds B1a in einen Deskriptor D gewandelt wird, s. den Pfeil A1. Das zugehörige Deskriptorbild DB1a (Fig. 3B), das nicht mehr wie das Ausgangsbild B1a aussieht (und i.d.R. auch nicht zum Anschauen gedacht ist), weist Informationen über die einzelnen Pixel des Ausgangsbilds B1a und deren jeweiliges Umfeld ("Kontext") auf. In dem Deskriptorbild DB1a sind pixelweise Deskriptorwerte gespeichert, die vorliegend z.B. Intensitätswerten (schwarz/weiß bzw. Graustufen) entsprechen. Die Deskriptorwerte, s. z.B. den bezeichneten Deskriptor D, beschreiben eine jeweilige Umgebung U des Ausgangsbilds B1a an entsprechender Stelle in (verglichen zu der Umgebung U des Ausgangsbilds B1a) kompakterer Form.
Anstatt die Deskriptorwerte wie beispielhaft in Fig. 3B gezeigt in dem Deskriptorbild DB1a zu speichern, können sie bei weiteren bevorzugten Ausführungsformen auch „on-the-fly“, also z.B. erst bei Bedarf, gebildet werden.
Bei weiteren bevorzugten Ausführungsformen können Pixel am Bildrand des ersten und/oder zweiten Bilds B1, B2 für die Transformation 102 (Fig. 2A) zu den Deskriptorbildern DB1, DB2 unberücksichtigt bleiben, weil dort z.B. der Rahmen für die Transformation 102 über das Bild B1, B2 hinausragt, die "Pixelwerte" mithin Undefiniert sind. Bei weiteren bevorzugten Ausführungsformen können Pixel am Bildrand des ersten und/oder zweiten Bilds B1 , B2 für die Transformation 102 zu den Deskriptorbildern DB1, DB2 berücksichtigt werden, wobei ggf. am Rand fehlende bzw. Undefinierte Pixelwerte gemäß einer vorgebbaren Regel ergänzt werden, z.B. durch Kopieren der Pixelwerte (z.B. benachbarter) vorhandener Pixel und/oder Setzen der zuvor Undefinierten Werte auf einen vorgebbaren Wert bzw. vorgebbare Werte.
Bei weiteren bevorzugten Ausführungsformen kann für das Transformieren 102 wenigstens eines der nachstehend aufgeführten Verfahren oder Teile daraus oder Kombinationen davon verwendet werden: SIFT (skaleninvariante Merkmalstransformation, vgl. z.B. US 6,711,293), SURF (Speeded Up Robust Features, z.B. gemäß Bay H., Tuytelaars T., Van Gool L. (2006) SURF: Speeded Up Robust Features. In: Leonardis A., Bischof H., Pinz A. (eds) Computer Vision - ECCV 2006. ECCV 2006. Lecture Notes in Computer Science, vol 3951. Springer, Berlin, Heidelberg, https://doi.org/10.1007/11744023_32), ORB (E. Rublee, V. Rabaud, K. Konolige and G. Bradski, "ORB: An efficient alternative to SIFT or SURF," 2011 International Conference on Computer Vision, Barcelona, 2011, pp. 2564-2571; DOI: 10.1109/ICCV.2011.6126544), BRISK (Leutenegger, Stefan & Chli, Margarita & Siegwart, Roland. (2011). BRISK: Binary Robust invariant scalable keypoints. Proceedings of the IEEE International Conference on Computer Vision. 2548-2555. 10.1109/ICCV.2011.6126542.), BRIEF (Binary Robust Independent Elementary Features, DOI: 10.1007/978-3-642-15561- 1_56), DAISY (E. Tola, V. Lepetit and P. Fua, "DAISY: An Efficient Dense Descriptor Applied to Wide-Baseline Stereo," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 32, no. 5, pp. 815-830, May 2010.), LATCH (https://arxiv.org/pdf/1501.03719.pdf). Bei weiteren bevorzugten Ausführungsformen kann für das Transformieren 102 auch ein anderes, vorstehend nicht genanntes Verfahren, verwendet werden.
Bei weiteren bevorzugten Ausführungsformen ist für den zur Bildung der Deskriptorbilder DB1, DB2 (Fig. 2A) gewählten Deskriptor ein Distanzmaß vorhanden bzw. vorgebbar, das es z.B. erlaubt, eine Unterschiedlichkeit zweier Deskriptorwerte zu ermitteln bzw. zu bewerten. Bei weiteren bevorzugten Ausführungsformen kann alternativ zu dem Distanzmaß auch ein Ähnlichkeitsmaß verwendet werden, wobei insbesondere beide Maße ineinander überführbar sein können. Daher wird nachfolgend beispielhaft und ohne Beschränkung der Allgemeingültigkeit nur das Distanzmaß betrachtet, wobei alle beispielhaft beschriebenen Schritte und Ausführungsformen entsprechend auch bei Verwendung eines Ähnlichkeitsmaßes - anstelle eines Distanzmaßes - zur Bewertung eines Unterschieds des Deskriptorbilder DB1, DB2, also z.B. zur Charakterisierung eines Ergebnisses des Vergleichens 104 des ersten Deskriptorbilds DB1 mit dem zweiten Deskriptorbild DB2, nutzbar sind.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für das Transformieren ein Deskriptor verwendet wird, für den ein Distanzmaß und/oder ein Ähnlichkeitsmaß definierbar und/oder definiert ist, wobei insbesondere das Vergleichen 104 des ersten Deskriptorbilds DB1 mit dem zweiten Deskriptorbild DB2 basierend auf dem Distanzmaß und/oder dem Ähnlichkeitsmaß ausgeführt wird.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass als Distanzmaß für das Vergleichen 104 die Hamming-Distanz oder ein auf der Hamming-Distanz basierendes Distanzmaß verwendet wird, wobei insbesondere die Hamming-Distanz mit einem vorgebbaren Schwellwert verglichen wird und basierend auf dem Vergleich ein, insbesondere binärer, Vergleichswert ermittelt wird.
Bei weiteren bevorzugten Ausführungsformen wird unter Anwendung der Hamming-Distanz als Distanzmaß ein bitweiser Vergleich zweier Deskriptorwerte miteinander ausgeführt, wobei die Hamming-Distanz die Anzahl der unterschiedlichen Bits der miteinander verglichenen Deskriptorwerte angibt. Bei einer Wortlänge von N bit des Deskriptors hat die Hamming-Distanz DH einen Wertebereich DM t (0, 1,2,
Figure imgf000021_0001
Dabei bedeutet der Wert DH = 0, dass die beiden miteinander verglichenen Deskriptorwerte identisch sind, während sie bei DH = N maximal unterschiedlich sind. Vergleicht man z.B. zwei zufällig ausgewählte Deskriptorwerte miteinander und treten alle darstellbaren Deskriptorwerte 0, 1, ... , 2N_1 etwa gleichwahrscheinlich auf, so ist z.B. im statistischen Mittel eine Hamming-Distanz von etwa N/2 zu erwarten. Für eine Anderungsdetektion gemäß weiteren bevorzugten Ausführungsformen bedeutet dies, dass bei im Wesentlichen übereinstimmenden Bildbereichen Distanzwerte nahe 0 zu erwarten sind - und für nicht übereinstimmende Bildbereiche, z. B. aufgrund bewegter Objekte, Distanzwerte deutlich größer als 0, und dann z. B. etwa um N/2 liegen.
Das Distanzmaß kann gemäß weiteren bevorzugten Ausführungsformen optional weiter vereinfacht werden, beispielsweise durch Binarisierung. Z.B. kann die Hamming-Distanz hierzu mit einer Schwelle L verglichen und eine binäre
Distanz DB erhalten werden, g aemäß D BB = ! lö 1 sonst
Figur 4A zeigt beispielhaft ein Distanzbild DISTB1 gemäß weiteren bevorzugten Ausführungsformen, das z.B. unter Verwendung der Hamming-Distanz mit nachfolgender Binarisierung erhalten worden ist.
Die Figuren 15A bis 15D zeigen beispielhaft Bilder der Kamera 12 (Fig. 1), in denen ein Flurförderfahrzeug FFF und eine Person (nicht bezeichnet) gemäß weiteren bevorzugten Ausführungsformen erfolgreich detektiert worden sind, und in denen entsprechende Bereiche gemäß weiteren bevorzugten Ausführungsformen grafisch hervorgehoben sind, also z.B. eine Änderung bezüglich der Bilder B1, B2 erkannt worden ist. Ferner zeigen Fig. 15A bis 15D eine Auswirkung einer Variation der vorstehend beschriebenen Schwelle L bei der optionalen Binarisierung des Distanzbilds DISTB (Fig. 2A) auf ein daraus ableitbares Detektionsbild DETB, vgl. die Ausdehnung der Blobs bzw. Hervorhebungen H1, H2, H3 (Bereich der Person), H4 (Bereich des Flurförderfahrzeugs FFF). Mit anderen Worten entsprechen die Bilder der Fig. 15A, 15B, 15C, 15D jeweils einem gemäß weiteren bevorzugten Ausführungsformen ermittelbaren Detektionsbild DETB, das im Wesentlichen z.B. auf dem ersten Bild B1 und/oder dem zweiten Bild B2 beruht, und in dem die genannten Hervorhebungen H1, H2, H3, H4 basierend auf einem gemäß der Schwelle L binarisierten Distanzbild enthalten sind. Zur Ermittlung des Detektionsbilds DETBa gemäß Fig. 15A ist bei der Binarisierung eine Schwelle L=0 verwendet worden, für das Detektionsbild DETBb gemäß Fig. 15B eine Schwelle L=1, für das Detektionsbild DETBc gemäß Fig. 15C eine Schwelle L=2, und für das Detektionsbild DETBd gemäß Fig. 15D eine Schwelle L=4. In den Bildern von Fig. 15 sind u.a. in Form der Hervorhebungen H1, H2 z.B. Lichtprojektionen zu sehen, die das ebenfalls abgebildete Flurförderfahrzeug FFF auf den Boden RF projiziert, z.B. um Personen und/oder andere Fahrer auf sich bzw. die mit Ihnen zusammenhängende mögliche Gefahr aufmerksam zu machen. Diese Projektionen H1, H2 sind bevorzugt klar berandet und bewegen sich z.B. mit dem Fahrzeug FFF mit. Sie werden bei weiteren bevorzugten Ausführungsformen von einer Änderungsdetektion (ebenfalls) detektiert, was bei weiteren bevorzugten Ausführungsformen auch so gewünscht ist.
Anhand z.B. der Hervorhebungen H1, H2 in Fig. 15 ist ersichtlich, wie sich die Variation der Schwelle L auf das Detektionsbild DETB (Fig. 2A) auswirken kann. Es ist zu beobachten, dass L bei weiteren bevorzugten Ausführungsformen nicht zu klein gewählt sein sollte (siehe Fig. 15A, L = 0), denn sonst könnten Kamerarauschen und/oder Artefakte, z.B. aufgrund einer Bildkompression ("Kompressionsartefakte"), bereits zu Fehldetektionen führen. Andererseits sollte L bei weiteren bevorzugten Ausführungsformen aber auch nicht zu groß gewählt sein (siehe Fig. 15D, L = 4), sonst wird die Detektion zu unempfindlich, so dass kleine Objekte H2 oder langsam bewegte Objekte übersehen werden könnten. Es gelingt bei weiteren bevorzugten Ausführungsformen aber, einen sinnvollen Kompromiss für die Wahl der Schwelle L zu finden. Diese ist bei weiteren bevorzugten Ausführungsformen insbesondere von der Qualität des Kamerabilds bzw. des Bildsensors abhängig sowie von der Wortlänge N des Deskriptors. Bei weiteren bevorzugten Ausführungsformen beträgt die Schwelle z.B. L = 2.
Bei weiteren bevorzugten Ausführungsformen kann alternativ oder ergänzend zu einer zumindest zeitweisen Speicherung von Deskriptorwerten in dem ersten und/oder zweiten Deskriptorbild DB1, DB2 (Fig. 2A) auch eine Ermittlung der Deskriptorwerte bei Bedarf, z.B. „on-the-fly“ erfolgen. Mit anderen Worten kann bei weiteren bevorzugten Ausführungsformen das Transformieren 102 des ersten Bilds B1 in das erste Deskriptorbild DB1 und/oder das Transformieren 102 des zweiten Bilds B2 in das zweite Deskriptorbild DB2 auch dynamisch, d.h. z.B. bei Bedarf und/oder in Echtzeit, insbesondere z.B. auch in direktem zeitlichen Zusammenhang mit dem Ermitteln 104 des Distanzbilds DISTB, ausgeführt werden. Bei weiteren bevorzugten Ausführungsformen kann das Transformieren 102 des ersten Bilds B1 in das erste Deskriptorbild DB1 und/oder das Transformieren 102 des zweiten Bilds B2 in das zweite Deskriptorbild DB2 zumindest zeitweise auch parallelisiert werden, z.B. wenn mehrere Rechenkerne 202a einer Vorrichtung 200 (s.u. zu Figur 11) zur Ausführung der jeweiligen Transformation(en) 102 verfügbar sind.
Bei weiteren bevorzugten Ausführungsformen ist auch denkbar, die Transformation 102 zur Bildung des jeweiligen (ersten und/oder zweiten) Deskriptorbilds DB1, DB2 zeitgleich oder zumindest zeitlich teilweise überlappend auf einen ersten Teil des (ersten und/oder zweiten) Bilds B1, B2 auszuführen. Mit anderen Worten ist bei weiteren bevorzugten Ausführungsformen auch denkbar, die Transformation 102 des ersten Bilds B1 in das erste Deskriptorbild DB1 zu parallelisieren, wobei z.B. ein erster Teil des ersten Bilds B1 in einen ersten Teil des ersten Deskriptorbilds DB1 transformiert wird, und wobei gleichzeitig hierzu z.B. ein zweiter Teil des ersten Bilds B1 in einen zweiten Teil des ersten Deskriptorbilds DB1 transformiert wird.
Bei weiteren bevorzugten Ausführungsformen wird das einem ersten Zeitpunkt, z.B. dem aktuellen Zeitpunkt, gehörige erste Deskriptorbild DB1 mit einem zweiten Deskriptorbild DB2 verglichen, das zu einem zweiten, insbesondere früheren, Zeitpunkt gehört.
Bei weiteren bevorzugten Ausführungsformen kann sowohl das Transformieren 102 zu den Deskriptorbildern DB1, DB2 als auch das Ermitteln 104 des Distanzbilds DISTB jeweils z.B. nur auf einem vorgebbaren Teilbereich der ersten und zweiten Bilder B1, B2 bzw. der daraus ableitbaren Deskriptorbilder DB1, DB2 ausgeführt werden. Die Auswahl von Teilbereichen kann bei weiteren bevorzugten Ausführungsformen z.B. auch dynamisch, also zur Laufzeit des Verfahrens bzw. einer das Verfahren ausführenden Vorrichtung 200 (Fig. 11), erfolgen, z.B. basierend auf einem aktuellen Inhalt der Bilder B1, B2 und/oder (zuvor) erkannten Änderungen und/oder Objekten und/oder einen Zustand des Systems 10, z.B. seiner aktuellen Fahrtrichtung.
Bei weiteren bevorzugten Ausführungsformen erfolgt das Vergleichen 104 (Fig. 2A) des ersten Deskriptorbilds DB1 mit dem zweiten Deskriptorbild DB2, also das Bilden des Distanzmaßes, Pixel für Pixel, es wird also jeweils ein Bildelement des ersten Deskriptorbilds DB1 mit einem entsprechenden Bildelement des zweiten Deskriptorbilds DB2 verglichen und dabei ein entsprechender Wert für das Distanzmaß ("Distanzwert") erhalten. Mit anderen Worten wird bei weiteren bevorzugten Ausführungsformen jeweils ein Deskriptorwert an einer bestimmten Koordinate des ersten Deskriptorbilds DB1 mit dem Deskriptorwert an der entsprechenden (selben) Koordinate des zweiten Deskriptorbilds DB2 verglichen. Der dabei ermittelte Distanzwert wird bei weiteren bevorzugten Ausführungsformen in ein bzw. das Distanzbild DISTB an der entsprechenden Koordinate eingetragen. Es ist ersichtlich, dass das Distanzbild DISTB dieselbe Größe (Anzahl der Pixel, z.B. charakterisierbar durch Breite und Höhe) aufweist wie die zu vergleichenden Deskriptorbilder DB1, DB2. Bei weiteren bevorzugten Ausführungsformen kann das Distanzbild DISTB (also jedes Bildelement) z.B. Werte im Bereich 0 bis N aufweisen, die das Vergleichsergebnis zwischen erstem Deskriptorbild DB1 und zweitem Deskriptorbild DB2 charakterisieren.
Bei weiteren bevorzugten Ausführungsformen, vgl. Figur 2B, ist vorgesehen, dass das Verfahren weiter aufweist: Filtern 105 des Distanzbilds DISTB, wodurch ein gefiltertes Distanzbild DISTB' erhalten wird, wobei insbesondere das Bilden 106 des Detektionsbilds DETB basierend auf dem gefilterten Distanzbild DISTB' erfolgt. Ansonsten kann der Ablauf gemäß Fig. 2B z.B. dem Ablauf gemäß Fig.
2A entsprechen.
Bei weiteren bevorzugten Ausführungsformen wird das Filtern 105 (Fig. 2B) so ausgeführt, dass das Distanzbild DISTB umgewandelt wird in ein gefiltertes Bild DISTB', das Änderungen in kompakter Form anzeigt, was z.B. für eine Funktionsschnittstelle gemäß weiteren bevorzugten Ausführungsformen nützlich ist. Figur 4B zeigt beispielhaft ein gefiltertes Distanzbild DISTBT, wie es mittels der Filterung 105 basierend auf dem Distanzbild DISTB1 gemäß Fig. 4A erhalten worden ist.
Beispielsweise kann basierend auf dem gefilterten Distanzbild DISTBT gemäß Fig. 4B und einem der Bildung des gefilterten Distanzbilds DISTBT zugrundeliegenden Bild (nicht gezeigt) ein Detektionsbild ähnlich zu den beispielhaft in Fig. 14 gezeigten Bildern erhalten werden, wobei die Informationen des gefilterten Distanzbilds DISTBT z.B. dazu verwendet werden, entsprechende Regionen des zugrundeliegenden Bilds grafisch hervorzuheben.
Auf diese Weise ist bei dem Detektionsbild DETB_1 gemäß Fig. 14A beispielsweise eine Person P1 mit einem Warenträger P1a durch die Hervorhebung HP1 kenntlich gemacht. In vergleichbarer Weise sind in Fig. 14B zwei Personen P1, P2 mittels entsprechender Hervorhebungen HP1, HP2, die z.B. auf Informationen aus einem gefilterten Distanzbild ähnlich dem gefilterten Distanzbild DISTB1' gemäß Fig. 4B beruhen, kenntlich gemacht.
In vergleichbarer Weise sind in den nachfolgend einzeln aufgeführten Figuren 14C bis 14F die jeweils stichwortartig genannten Objekte bzw. Personen kenntlich gemacht: Fig. 14C: eine Person P1, Fig. 14D: ein Fahrzeug F1, Fig. 14E: ein Radfahrer R1, Fig. 14F: eine Person P1 und ein Gabelstapler G1,
Bei weiteren bevorzugten Ausführungsformen weist das Detektionsbild ein oder mehrere zusammenhängende Regionen, die gemäß weiteren bevorzugten Ausführungsformen auch als "Blobs" bezeichnet werden, für diejenigen Bildbereiche auf, in denen, insbesondere signifikante, Änderungen zwischen den betrachteten (ersten und zweiten) Bildern bzw. den hiermit korrespondierenden Deskriptorbildern vorliegen. Bei weiteren bevorzugten Ausführungsformen können die Blobs z.B. basierend auf dem gefilterten Distanzbild DISTBT, wie es z.B. in Schritt 105 gemäß Fig. 2B erhalten wird, ermittelt werden.
Bei weiteren bevorzugten Ausführungsformen kann alternativ oder ergänzend zu einer zumindest zeitweisen vollständigen oder teilweisen Speicherung des (gefilterten) Distanzbilds DISTB, DISTB' und/oder des Detektionsbilds DETB auch eine (zumindest teilweise) Ermittlung des (gefilterten) Distanzbilds DISTB, DISTB' und/oder des Detektionsbilds DETB bei Bedarf, z.B. „on-the-fly“, erfolgen. Mit anderen Worten ist bei weiteren bevorzugten Ausführungsformen denkbar, (auch) das Distanzbild und/oder das Detektionsbild zumindest nicht vollständig zu speichern, z.B. im Rahmen von Schritt 104 bzw. 105 bzw. 106, sondern es bzw. sie z.B., insbesondere umgehend, weiterzuverarbeiten, z.B. um Speicher zu sparen oder um Zwischenergebnisse (z.B. Teile des Distanzbilds und/oder Detektionsbilds) schneller bereitstellen zu können. Bei weiteren bevorzugten Ausführungsformen kann das Detektionsbild DETB (Fig. 2A, 2B) in einem optionalen weiteren oder alternativen Schritt in eine andere Form überführt werden, z. B. um es effizienter über eine Schnittstelle übermitteln zu können. Dazu werden bei weiteren bevorzugten Ausführungsformen beispielsweise die Konturen wenigstens eines Blobs angenähert, z.B. als Polygone beschrieben.
Alternativ oder ergänzend kann das Detektionsbild bei weiteren bevorzugten Ausführungsformen auch komprimiert werden, z.B. mit einer Lauflängencodierung oder einer anderen Entropiecodierung, z.B. mit einer gängigen Codierung für Segment-Bilder.
Bei weiteren bevorzugten Ausführungsformen, vgl. Fig. 2B, ist vorgesehen, dass das Filtern 105 das Anwenden eines Majoritätsfilters und/oder eines Schwellwertfilters aufweist.
Bei weiteren bevorzugten Ausführungsformen kann das Distanzbild DISTB, vgl. auch Bezugszeichen DISTB1 gemäß Fig. 4A, an sich einen hohen Detaillierungsgrad aufweisen und daher z.B. nicht gut geeignet sein, um an eine Funktionsschnittstelle weitergegeben und/oder in sonstiger Weise übertragen zu werden.
Daher ist bei weiteren bevorzugten Ausführungsformen der vorstehend bereits beschriebene optionale Schritt 105 (Fig. 2B) der Filterung vorgesehen, der bei weiteren bevorzugten Ausführungsformen die im Distanzbild DISTB, DISTB1 enthaltene Information „kondensiert“, also verdichtet, und somit das Distanzbild z.B. für eine Weitergabe z.B. an eine optionale nachfolgende Funktion (z.B. Ermittlung des Detektionsbilds DETB) geeignet aufbereitet.
Wie bereits erwähnt ist in Fig. 4A beispielhaft ein Distanzbild DISTB1 als Eingangsbild für eine optionale Filterung abgebildet, und in Fig. 4B das gefilterte Distanzbild DISTBT als Ausgangsbild des Filterungsschritts 105 (Fig. 2B). In diesem beispielhaften Ausführungsbeispiel handelt es sich sowohl bei den Eingangs- als auch bei den Ausgangsdaten um Binärbilder DISTB1, DISTBT, die vorliegend beispielhaft schwarz-weiß dargestellt sind. Schwarz steht dabei beispielhaft für „verändert“ bzw. „bewegt“, weiß für das Gegenteil. Bei weiteren bevorzugten Ausführungsformen wird für die Filterung 105 ein Majoritätsfilter verwendet, dessen Arbeitsweise anhand der beispielhaften Illustration gemäß Figur 5 leicht nachzuvollziehen ist. Bezugszeichen BA1 aus Fig. 5 bezeichnet dabei einen beispielhaften Teil des Distanzbilds DISTB1 z.B. gemäß Fig. 4A, und Bezugszeichen BA2 aus Fig. 5 bezeichnet einen beispielhaften Teil des gefilterten Distanzbilds DISTBT gemäß Fig. 4B.
Mittels des Majoritätsfilters wird z.B. in dem gleitenden Fenster GF, das vorliegend 3 x 3 Pixel des Distanzbilds DISTB1 abdeckt, ermittelt, ob die schwarzen oder die weißen Pixel in der in dem Fenster GF in der Mehrheit (Majorität) sind. Da sich vorliegend (aufgrund der beispielhaft angenommenen ungeraden Kantenlängen mit dem Wert "3" - bei anderen Beispielen sind auch andere, insbesondere auch geradzahlige Kantenlängen möglich) eine ungerade Anzahl von Pixeln in dem Fenster GF befindet, ist das Ergebnis des Majoritätsfilters eindeutig. Das Ausgabepixel AP, das mit dem Fenster GF an der aktuellen Position in dem Distanzbild DISTB1 korrespondiert, erhält die Farbe der Mehrheit, hier also beispielhaft schwarz, denn in dem Fenster GF ist das Ergebnis "5 : 4" zu Gunsten von schwarz.
Für die weiteren acht Ergebnispixel des Bereichs BA2 kann in vergleichbarer Weise die Auswertung des Majoritätsfilters nachvollzogen werden.
Bei weiteren bevorzugten Ausführungsformen kann, anstatt die Mehrheit zu überprüfen, was vorliegend beispielhaft einem Vergleich mit einer Schwelle von 9/2 = 4,5 gleichkommt, auch mit einer anderen Schwelle verglichen werden.
Aus Fig. 4B, ist deutlich zu erkennen, dass aufgrund der optionalen Filterung gemäß bevorzugten Ausführungsformen (vorliegend beispielhaft mit einem Majoritätsfilter und einem Filterradius von R = 15, abweichend von der vereinfachten Darstellung gemäß Fig. 5) das gefilterte Distanzbild DISTBT, weitaus weniger Rauschen (im Sinne einer Variation der binären Entscheidung von Pixel zu Pixel) aufweist, was z.B. eine zuverlässige Detektion von eigenbewegten Objekten OBJ1, OBJ2 ermöglicht. Bei weiteren bevorzugten Ausführungsformen ist ein (gefiltertes) Ergebnisbild DISTB1' (Fig. 4B) bei einer Kantenlänge des Filters von 2R + 1 um 2R viele Pixel kürzer (schmaler bzw. niedriger) als das Eingangsbild DISTB1 (Fig. 4A).
Bei weiteren bevorzugten Ausführungsformen arbeitet das Filter für die Filterung 105 (Fig. 2B), welches ein zweidimensionales Filter ist, auf einem quadratischen Fenster GF mit Kantenlänge 3 x 3 (Fig. 5).
Bei weiteren bevorzugten Ausführungsformen kann das Filterfenster GF aber auch rechteckig und nicht quadratisch sein, oder eine andere Form aufweisen (z. B. Kreis oder Polygon). Bei weiteren bevorzugten Ausführungsformen ist der Filterradius R größer als in Fig. 5 zur besseren Übersichtlichkeit dargestellt, z.B. mit Werten zwischen 2 und 30.
Bei weiteren bevorzugten Ausführungsformen stimmen alle beteiligten Pixel des Filterfensters GF, Fig. 5, mit demselben Stimmgewicht ab: jeder hat eine Stimme.
Bei weiteren bevorzugten Ausführungsformen kann das Stimmgewicht SGW in der Mitte des Fensters GF ein Maximum haben und z.B. zum Rand des Fensters GF hin abnehmen, was in Fig. 6 für eine Dimension entlang der Koordinatenachse x beispielhaft gezeigt ist, vgl. Kurve K1. Demgegenüber entspricht Kurve K2 z.B. einer Filterung mit konstantem Stimmgewicht. Kurve K1 kann bei weiteren bevorzugten Ausführungsformen auch als "Dreiecksfilter" mit dem Filterradius R bezeichnet werden, die eine mittenbetonte Gewichtung bewirkt, und Kurve K2 auch als "Rechteckfilter".
Bei weiteren bevorzugten Ausführungsformen kann die Verteilung der Stimmgewichte entlang der anderen, nicht in Fig. 5 abgebildeten Dimension (z.B. senkrecht zur Zeichenebene der Fig. 6, wegen des zweidimensionalen Filters/Filterfensters GF) identisch zur Verteilung entlang der Dimension bzw. Achse x sein. Das resultierende Stimmgewicht kann dann sich z.B. als Produkt oder als Summe der Stimmgewichte der ersten Dimension und der zweiten Dimension ergeben.
Bei weiteren bevorzugten Ausführungsformen können zur Ausführung der Filterung 105 (Fig. 2B) z.B. Integralfilter oder Integralbilder oder eine Darstellung des Dreiecksfilters K1 als Faltung von zwei Rechteckfiltern oder eine geeignete Hintereinanderschaltung mehrerer Integralfilter verwendet werden.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, insbesondere bei der mittenbetonten Gewichtung (Kurve K1 gemäß Fig. 6) eine geeignete Entscheidungsschwelle festzulegen. Hierbei kann man sich wieder von dem Gedanken des Majoritätsfilters gemäß weiteren bevorzugten Ausführungsformen leiten lassen: Man stelle sich vor, dass im Fenster mit ungerader Kantenlänge entweder die schwarzen oder die weißen Elemente gerade mit einem Element in der Mehrheit sind, und dass die Farben gleichmäßig verteilt sind (z.B. schachbrettartig Pixel für Pixel abwechselnd). Die Schwelle ist dann bei weiteren bevorzugten Ausführungsformen so zu wählen, dass mit dieser einfachen Mehrheit gerade die Entscheidung umkippt.
Figur 7 zeigt in der linken Hälfte LH beispielhaft ein binärwertiges Muster (hier ein Schachbrett als willkürlich gewähltes Beispiel), das in Fig. 7 von oben nach unten immer stärker mit Binärrauschen (sog. Salz- und Pfeffer-Rauschen) verrauscht wird. Das Signal-zu-Rausch-Verhältnis variiert hierbei z.B. von unendlich bis 1/3. Dieses verrauschte "Eingangsbild" LH wird mit einem Majoritätsfilter, hier als Dreiecksfilter mit Radius R = 7, gefiltert. Das Ergebnis der Filterung ist in der rechten Hälfte RH dargestellt.
Beispielsweise kann die linke Bildhälfte LH gemäß Fig. 7 dem Distanzbild DISTB gemäß Fig. 2B entsprechen, und in der rechten Bildhälfte BH ist das Ergebnis der Filterung dem Majoritätsfilter mit mittenbetonter Gewichtung (Dreiecksfilter K1) und Radius R = 7 dargestellt. Die rechte Bildhälfte RH entspricht dann z.B. dem gefilterten Distanzbild DISTB' (Fig. 2B), das bei weiteren bevorzugten Ausführungsformen z.B. direkt als Detektionsbild DETB nutzbar ist, oder auf dessen Basis das Detektionsbild DETB ermittelbar ist, vgl. Schritt 106 aus Fig.
2B.
Wie man beispielhaft aus Fig. 7 sieht, führt der Schritt 105 (Fig. 2B) der Filterung zu einem für viele Anwendungen gemäß weiteren bevorzugten Ausführungsformen angemessenen Grad von (nicht zu hoher) Detaillierung.
Figur 17A bis 17D stellt den Einfluss der Wahl des Radius R für die optionale Filterung 105 (Fig. 2B) auf den erhaltenen Grad der Detaillierung für ein reales Beispiel dar. Beispielhaft laufen zwei Personen P1, P2 durch das Bild der Kamera eines Gabelstaplers. Bei weiteren bevorzugten Ausführungsformen ist es für eine angestrebte Funktion wichtig, die Personen P1, P2 zu detektieren, z.B. damit der Fahrer des Gabelstaplers darauf hingewiesen werden kann oder damit ein autonomes oder ferngesteuertes Transportsystem angemessen auf die Personen P1, P2 reagieren kann. In Fig. 17A, 17B sind die Ergebnisse der Filterung gemäß weiteren bevorzugten Ausführungsformen zu detailliert (Fig. 17A: Radius R=0, Fig. 17B: R=5). In Fig. 17C liegen bei R = 15 zwei Detektionen vor, die den beiden Personen P1, P2 entsprechen, vgl. die beiden zugeordneten Hervorhebungen H1, H2. Dieser Detaillierungsgrad ist z.B. für eine Änderungsdetektion gemäß weiteren bevorzugten Ausführungsformen gut geeignet. Erhöht man den Filterradius weiter, z. B. auf R = 50, vgl. Fig. 17D, so verschmelzen die Hervorhebungen H1, H2 der beiden Personen P1, P2 zu einem einzigen Blob H12 und die Details der Personen P1, P2 (z.B. Füße, Köpfe) werden weniger genau wiedergegeben. Je nach Anwendung kann gemäß weiteren bevorzugten Ausführungsformen auch diese gröbere Detaillierungsstufe ausreichen.
Bei weiteren bevorzugten Ausführungsformen, vgl. Fig. 2C, ist vorgesehen, dass das Verfahren weiter aufweist: Weiterverarbeiten 108 des Detektionsbilds, insbesondere Bilden von Ausgabeinformationen AI, basierend auf wenigstens einem der folgenden Elemente: a) Detektionsbild, b) erstes Bild, c) zweites Bild.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die Ausgabeinformationen AI wenigstens eines der folgenden Elemente aufweisen: a) akustisches Signal, b) haptisches Signal, c) optisches Signal, d) Bild, insbesondere Digitalbild, mit wenigstens einem grafisch hervorgehobenen Bildbereich, insbesondere einem basierend auf dem Detektionsbild (bzw. dem gefilterten) Distanzbild DISTB, DISTB') grafisch hervorgehobenen Bildbereich, vgl. z.B. die Hervorhebungen HP1, HP2, F1, R1, P1, G1 gern. Fig. 14 und/oder die Hervorhebungen H1, H2 gern. Fig. 15 und/oder die Hervorhebungen H1, H2, H12 gemäß Fig. 17. Dadurch kann eine mittels des Verfahrens (vgl. z.B. Fig. 2A) detektierte Änderung bezüglich des ersten und zweiten Bilds B1, B2 effizient einem Benutzer zur Kenntnis gebracht werden, z.B. einem Fahrer eines Gabelstaplers. Auf diese Weise kann der Fahrer zuverlässig und leicht wahrnehmbar z.B. über Änderungen in dem Umfeld seines Fahrzeugs informiert werden, wodurch z.B. Unfälle mit sich dem Fahrzeug nähernden Personen vermieden werden können.
Bei weiteren bevorzugten Ausführungsformen, vgl. Fig. 2D, ist vorgesehen, dass das Verfahren weiter aufweist: Zuweisen 110 eines Bewertungsmaßes BM zu wenigstens einem Deskriptor des ersten Deskriptorbilds DB1 (Fig. 2A, 2B) und/oder des zweiten Deskriptorbilds DB2, und, optional, Berücksichtigen 112 des Bewertungsmaßes BM bei der Ermittlung des Distanzbildes DISTB, wobei insbesondere das Bewertungsmaß BM ein Rauschen bzw. ein Signal-zu- Rausch-Verhältnis, insbesondere eines mit dem jeweiligen Deskriptor assoziierten Bereichs des ersten Bilds B1 und/oder des zweiten Bilds B2, charakterisiert.
Bei weiteren bevorzugten Ausführungsformen kann somit z.B. bei der Bildung der Deskriptoren bzw. der Deskriptorbilder DB1, DB2 das Rauschen mitberücksichtigt werden, beispielsweise gemäß dem in DE 102017212 339 beschriebenen Verfahren.
Bei weiteren bevorzugten Ausführungsformen kann somit zumindest manchen, insbesondere jedem, gebildeten Deskriptor(en) eine von der Stärke des Rauschens bzw. des Signal-zu-Rausch-Verhältnisses (SNR) abhängige Bewertung mitgegeben werden: bei manchen bevorzugten Ausführungsformen z.B. in Form einer binären Zusatzinformation (z.B. als zusätzliches Bit codiert), die bei weiteren bevorzugten Ausführungsformen auch als Eignung des Deskriptors für die Weiterverarbeitung interpretiert werden kann.
Bei weiteren bevorzugten Ausführungsformen erlaubt es die Zusatzinformation z.B., aufgrund des Rauschens weniger gut (z.B. für eine nachfolgend Weiterverarbeitung) geeignete Deskriptoren zu kennzeichnen, z. B. als „ungeeignet“, um sie z.B. bei einer Änderungsdetektion anders zu behandeln, als solche Deskriptoren, die z.B. aufgrund eines geringeren Rauschens bzw. höheren SNR besser geeignet sind für die Weiterverarbeitung.
Bei weiteren bevorzugten Ausführungsformen kann diese Zusatzinformation bei der Ermittlung des Distanzbilds ("Distanzberechnung") DISTB (Fig. 2A) z.B. nach folgender Regel berücksichtigt werden: Ist zumindest einer der zu vergleichenden Deskriptoren als „ungeeignet“ gekennzeichnet, so wird die Distanz nicht nach der üblichen Regel gebildet, sondern eine andere Regel angewandt, wonach z.B. die tatsächliche Distanz durch einen vorgebbaren, insbesondere festen, Wert ersetzt wird. Bei weiteren bevorzugten Ausführungsformen kann im Beispiel der Hamming-Distanz als Distanzmaß der Wert dann z.B. auf "0" gesetzt werden, was z.B. bedeutet, dass vom Rauschen dominierte Bildregionen so behandelt werden, als wären sie unbewegt.
Bei weiteren bevorzugten Ausführungsformen kann die Hamming-Distanz aber auch auf einen anderen Wert gesetzt werden, z. B. "1" oder "2", damit z.B. aufgrund von Rauschen ausgeschlossene Bereiche nicht anders behandelt (z.B. bessergestellt) werden als nicht ausgeschlossene unbewegte Bereiche. Diese Betrachtung kann bei weiteren bevorzugten Ausführungsformen insbesondere relevant sein aufgrund einer optionalen nachfolgenden Filterung des Distanzbilds, bei der z.B. ein gleitendes Fenster für die Filterung gleichzeitig sowohl ausgeschlossene als auch nicht ausgeschlossene Pixel enthalten kann.
Bei weiteren bevorzugten Ausführungsformen wird die Bewertung des Rauschens nicht als binäre Information weitergegeben, sondern es werden mehr als zwei Stufen vorgesehen, beispielsweise drei oder vier (oder mehr) Stufen. Wenn z.B. gemäß weiteren bevorzugten Ausführungsformen drei Stufen vorgesehen sind, könnten diese bei weiteren bevorzugten Ausführungsformen folgende Bedeutungen haben:
Stufe 0: Aufgrund von Rauschen sollte der Deskriptor nicht verwendet werden. Stufe 1: Aufgrund von Rauschen ist der Deskriptor zwar für "Anwendung A" geeignet, nicht jedoch für "Anwendung B".
Stufe 2: Der Deskriptor ist für die "Anwendungen A" und "B" geeignet, das Rauschen ist somit z.B. nicht signifikant.
Dabei können bei weiteren bevorzugten Ausführungsformen "Anwendungen A" und "B" stehen für zwei Anwendungen aus z.B.: Optischer Fluss, Änderungsdetektion, Korrespondenzbildung, Disparitätsschätzung, Tracking, usw.. Bei weiteren bevorzugten Ausführungsformen sind weitere, hiervon abweichende Ausgestaltungen ebenfalls denkbar. Beispielsweise kann das lokale Signal-zu- Rausch-Verhältnis einer betrachteten (z.B. mit einem Deskriptor assoziierten, also z.B. bei der Bildung des Deskriptors berücksichtigten) Bildregion an den jeweiligen Deskriptor als Zusatzinformation angehängt (z.B. im Sinne einer Konkatenation) werden, z. B. als Zahl. Bei weiteren bevorzugten Ausführungsformen kann eine Distanzberechnung diese Zusatzinformationen verwerten und weitergeben, z.B. als Minimum oder Maximum oder Mittelwert der beiden Zahlen der bei der Distanzberechnung beteiligten Deskriptoren. Diese Zusatzinformation kann bei weiteren bevorzugten Ausführungsformen z.B. auch in einem nachfolgenden optionalen Filterungsschritt 105 (Fig. 2B) weiter berücksichtigt und ggf. auch weitergegeben werden, z.B. als Konfidenz einer getroffenen Entscheidung über das Vorhandensein eines Objekts OBJ1, OBJ2 (Fig. 4B) in dem ersten und/oder zweiten Bild.
Bei weiteren bevorzugten Ausführungsformen, vgl. Fig. 2E, ist vorgesehen, dass das Verfahren weiter aufweist: zumindest zeitweises Speichern 114 des ersten Deskriptorbilds DB1 und/oder des zweiten Deskriptorbilds DB2, z.B. für einen nachfolgenden Gebrauch (vgl. z.B. Schritt 104 gemäß Fig. 2A). Beispielsweise kann bei einer aufeinanderfolgenden Ermittlung von zwei Distanzbildern ein beteiligtes Deskriptorbild zweimal für die Distanzberechnung verwendet werden, nämlich einmal im Sinne des ersten Deskriptorbilds, und ein zweites Mal im Sinne des zweiten Deskriptorbilds.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Kompensieren 116 einer mit dem ersten Bild B1 (Fig. 1) und/oder dem zweiten Bild B2 assoziierten Bewegung, insbesondere einer Eigenbewegung einer das erste Bild B1 und/oder das zweite Bild B2 bereitstellenden Kamera 12, für wenigstens eine Fläche RF, insbesondere Oberfläche, z.B. eine Homographie-Kompensation bezüglich der Bodenebene RF.
Figur 8 zeigt schematisch ein vereinfachtes Blockdiagramm gemäß weiteren bevorzugten Ausführungsformen. Die Bezeichner B101 bis B503 haben gemäß weiteren bevorzugten Ausführungsformen folgende Bedeutung:
B101: erstes Kamerabild, vgl. auch Bild B1 gemäß Fig. 2A, B105: zweites Kamerabild, vgl. auch Bild B2 gemäß Fig. 2A, wobei Bild B105 zu einem früheren Zeitpunkt erfasst wurde als das erste Kamerabild B101,
B200: Transformation, die ein Kamerabild in ein Deskriptorbild wandelt, s. z.B. auch Schritt 102 gemäß Fig. 2A, 2B
B201: erstes Deskriptorbild, vgl. auch Bezugszeichen DB1 gemäß Fig. 2A, 2B, B205: zweites Deskriptorbild, vgl. auch Bezugszeichen DB2 gemäß Fig. 2A, 2B, B300: Schritt des Vergleichens (vgl. auch Bezugszeichen 104 gemäß Fig. 2A,
2B) der beiden Deskriptorbilder, dabei entsteht ein Distanzbild B303,
B400: optionaler Filterungsschritt (vgl. auch Schritt 105 gern. Fig. 2B), z.B. um im Falle bewegter Objekte OBJ (Fig. 1) wenige(r) zusammenhängende Regionen zu erhalten,
B403: Detektionsbild, das z.B. gemäß weiteren bevorzugten Ausführungsformen direkt in Form des mittels Schritt B400 gefilterten Distanzbilds erhalten wird,
B500: optionaler Schritt der Weiterverarbeitung des Detektionsbilds B403,
B503 weiterverarbeitete Form des Detektionsbilds, die z.B. geeignet ist für eine Übertragung über eine Schnittstelle, z. B. an ein Warnsystem oder eine Aktuatorik (nicht gezeigt), oder zur Ausgabe auf einer Anzeigevorrichtung (nicht gezeigt), z.B. für den Fahrer des Fahrzeugs 10 (Fig. 1).
Figur 9 zeigt schematisch ein vereinfachtes Blockdiagramm gemäß weiteren bevorzugten Ausführungsformen. Im Vergleich zu Fig. 8 kommen folgende Elemente hinzu:
B250: Zwischenspeicher für Deskriptorbilder. Dieser stellt z.B. ältere Deskriptorbilder B205 bereit und bewahrt sie dafür so lange auf, bis sie nicht mehr benötigt werden. Somit werden erneute Berechnungen eingespart. Es kann pro neuem Eingangsbild B101 also z.B. eine Transformation B200 ausreichend sein, im Gegensatz zu doppelt so vielen bei Fig. 8, bei deren Konfiguration der optionale Zwischenspeicher B250 nicht vorgesehen ist. Durch den optionalen Speicher B250 gemäß Fig. 9 kann bei weiteren bevorzugten Ausführungsformen auch ein (hier nicht dargestellter) Speicher zum Aufbewahren von Kamerabildern B101, z.B. bis diese gebraucht werden, B105, entfallen.
Figur 10 zeigt schematisch ein vereinfachtes Blockdiagramm gemäß weiteren bevorzugten Ausführungsformen. Im Vergleich zu Fig. 8 kommen folgende Elemente hinzu: B150 optionaler Schritt der Kompensation einer Eigenbewegung in einem Bild, für eine Oberfläche RF (Fig. 1). Zum Beispiel eine Homographie-Kompensation bezüglich der Bodenebene RF,
B151: Parameter zur Ansteuerung der Kompensation B150 für das erste Bild B101 ,
B155 Parameter zur Ansteuerung der Kompensation B150 für das zweite Bild B105,
B111 optional kompensiertes, erstes Kamerabild,
B115 optional kompensiertes, zweites Kamerabild,
Bei weiteren bevorzugten Ausführungsformen genügt es bereits, eine Kompensation B150 nur im oberen Zweig Z1 oder im unteren Zweig Z2 vorzusehen. Sie in beiden Zweigen Z1, Z2 vorzusehen und die Arbeit z.B. hälftig aufzuteilen kann bei weiteren bevorzugten Ausführungsformen numerische Vorteile haben.
Wenn die Kompensation B150 gemäß weiteren bevorzugten Ausführungsformen nur z.B. im unteren Zweig Z2 stattfindet, also für das zweite Kamerabild B105, so wird dieses z.B. so kompensiert, dass es (bezüglich der gewählten Oberfläche RF) zum ersten und damit neuesten Kamerabild B101 passt. Diese Variante ist bei weiteren bevorzugten Ausführungsformen meistens die bevorzugte, da dann das resultierende Detektionsbild B403 auch in den Koordinaten des neuesten Kamerabilds B101 vorliegt. Dies ist insbesondere für eine Echtzeit- Visualisierung gemäß weiteren bevorzugten Ausführungsformen von Vorteil.
Weitere bevorzugte Ausführungsformen, vgl. Figur 11, beziehen sich auf eine Vorrichtung 200 zur Verarbeitung von, insbesondere digitalen, Bildern B1, B2, wobei die Vorrichtung 200 zur Ausführung des Verfahrens gemäß den Ausführungsformen (vgl. z.B. Fig. 2) ausgebildet ist.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die Vorrichtung 200 aufweist: eine wenigstens einen Rechenkern 202a aufweisende Recheneinrichtung 202 ("Computer"), eine der Recheneinrichtung 202 zugeordnete Speichereinrichtung 204 zur zumindest zeitweisen Speicherung wenigstens eines der folgenden Elemente: a) Daten DAT, b) Computerprogramm PRG, insbesondere zur Ausführung des Verfahrens gemäß den Ausführungsformen.
Bei weiteren bevorzugten Ausführungsformen können die Daten DAT zumindest zeitweise und/oder teilweise den wenigstens einen Videodatenstrom VDS (bzw. einen Teil davon) und/oder das erste Bild B1 und/oder das zweite Bild B2 und/oder daraus ableitbare Daten, z.B. das erste Deskriptorbild DB1 und/oder das zweite Deskriptorbild DB2 bzw. das Distanzbild DISTB (bzw. DISTB') bzw. das Detektionsbild DETB bzw. zumindest Teile hiervon aufweisen.
Bei weiteren bevorzugten Ausführungsformen weist die Speichereinrichtung 204 einen flüchtigen Speicher 204a (z.B. Arbeitsspeicher (RAM)) auf, und/oder einen nichtflüchtigen Speicher 204b (z.B. Flash-EEPROM).
Bei weiteren bevorzugten Ausführungsformen kann die Recheneinrichtung 202 auch wenigstens eines der folgenden Elemente aufweisen: Mikroprozessor (mR), Mikrocontroller (pC), anwendungsspezifischer integrierter Schaltkreis (ASIC), System on Chip (SoC), programmierbarer Logikbaustein (z.B. FPGA, field programmable gate array), Hardwareschaltung, Grafikprozessor (GPU, graphics Processing unit), oder beliebige Kombinationen hieraus.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein computerlesbares Speichermedium SM, umfassend Befehle PRG, die bei der Ausführung durch einen Computer 202 diesen veranlassen, das Verfahren gemäß den Ausführungsformen auszuführen.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein Computerprogramm PRG, umfassend Befehle, die bei der Ausführung des Programms PRG durch einen Computer 202 diesen veranlassen, das Verfahren gemäß den Ausführungsformen auszuführen.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein Datenträgersignal DCS, das das Computerprogramm PRG gemäß den Ausführungsformen charakterisiert und/oder überträgt. Das Datenträgersignal DCS ist beispielsweise über eine optionale Datenschnittstelle 206, 208 der Vorrichtung 200 empfangbar. Bei weiteren bevorzugten Ausführungsformen sind auch der Videodatenstrom VDS bzw. die Bilder B1, B2 über eine optionale Datenschnittstelle 206 empfangbar.
Die Vorrichtung 200 bzw. Komponenten 202, PRG hiervon können bei weiteren bevorzugten Ausführungsformen z.B. auch dazu ausgebildet sein, zumindest zeitweise die Konfiguration gemäß Fig. 8 und/oder 9 und/oder 10 zu implementieren.
Weitere bevorzugte Ausführungsformen, vgl. Fig. 12, beziehen sich auf eine Verwendung 300 des Verfahrens gemäß den Ausführungsformen und/oder der Vorrichtung 200 gemäß den Ausführungsformen und/oder des computerlesbaren Speichermediums SM gemäß den Ausführungsformen und/oder des Computerprogramms PRG gemäß den Ausführungsformen und/oder des Datenträgersignals DCS gemäß den Ausführungsformen für wenigstens eines der folgenden Elemente: a) Erfassung 302 a1) eines Umfelds U (Fig. 1) eines Systems 10, insbesondere eines Fahrzeugs, insbesondere Flurförderzeugs wie z.B. Gabelstapler und/oder Hubstapler, und/oder a2) einer Szene SZ, b)
Ermitteln 304 von Änderungen bezüglich des ersten Bilds B1 und des zweiten Bilds B2, insbesondere robuste Änderungsdetektion bezüglich des ersten Bilds und des zweiten Bilds, c) Ermitteln 306 von Hindernissen OBJ, H (Fig. 1), insbesondere bewegten Objekten, d) Vermeidung 308 von Unfällen, insbesondere im Bereich eines bzw. des Systems 10 bzw. in dem Umfeld U, insbesondere bei vergleichsweise geringen Geschwindigkeiten des Systems 10, insbesondere kleiner gleich einer Schrittgeschwindigkeit eines Menschen, weiter insbesondere bei einem Übergang zwischen einem Stillstand und einer Bewegung oder umgekehrt, e) Anwendung 309 sowohl beim Stillstand des Systems als auch bei einer Bewegung des Systems, f) Visualisieren (nicht gezeigt) von Änderungen bezüglich des ersten Bilds und des zweiten Bilds, insbesondere Einblenden von die Änderungen charakterisierenden Informationen bzw. Zusatzinformationen bzw. Hervorheben von wenigstens einem Bereich des ersten Bilds und/oder des zweiten Bilds, der mit den Änderungen assoziiert ist, vgl. die Hervorhebungen HP1, HP2 gemäß Fig. 14B.
Robuste Änderungsdetektion 304 bedeutet gemäß weiteren bevorzugten Ausführungsformen z.B. keine bzw. eine unter einem vorgebbaren Schwellwert liegende Zahl von Fehldetektionen (Fehlalarme), z. B. weil sich die Beleuchtung plötzlich ändert (z.B. durch Blinklichter, Warnlichter, vorbeiziehende Lichtkegel usw.), aber gleichzeitig eine zuverlässige Erkennung relevanter Fälle, insbesondere aller relevanten Fälle.
Figur 13 zeigt schematisch beispielhafte Bildfolgen BF1, BF2 gemäß weiteren bevorzugten Ausführungsformen, wie sie z.B. mittels der Kamera 12 (Fig. 1) bzw. basierend auf dem Videodatenstrom VDS erhalten werden können. Bei der Bildfolge BF1 wird periodisch mit der Periodendauer AT - 1t ein Bild B1, B2, B3, .. bereitgestellt, wobei t einen zeitlichen Abstand zweier direkt aufeinanderfolgender Bilder charakterisiert, z.B. 1/30 Sekunde. Beispielsweise können nach ΐt das erste Bild B1 und das dann auch bereits vorliegende zweite Bild B2 gemäß Fig. 2A, 2B usw. ausgewertet werden, z.B. um ein erstes Detektionsbild DETB zu ermitteln. Beispielsweise können nach 2T das Bild B2 und das dann auch bereits vorliegende Bild B3 gemäß Fig. 2A, 2B (im Sinne der Bilder B1, B2) usw. ausgewertet werden, z.B. um ein zweites Detektionsbild DETB zu ermitteln, usw.
Bei weiteren bevorzugten Ausführungsformen, vgl. die Bildfolge BF2 gemäß Fig. 13, ist vorgesehen, dass in dem Videodatenstrom zeitlich zwischen dem ersten Bild B1 und dem zweiten Bild B2 wenigstens ein (vorliegend drei) weitere(s) Bild(er) B' vorhanden ist bzw. sind. Mit anderen Worten kann bei weiteren bevorzugten Ausführungsformen ein zeitlicher Abstand AT zwischen dem ersten Bild B1 und dem zweiten Bild B2 z.B. dadurch verändert werden, dass zwischen als erstes und zweites Bild nicht zeitlich direkt aufeinanderfolgende Bilder z.B. des Videodatenstroms verwendet werden, sondern dass z.B. ein oder mehrere Bilder B' z.B. des Videodatenstroms zwischen dem ersten Bild und dem zweiten Bild ausgelassen werden, vgl. den Pfeil B12, für den gilt: AT - 4T.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren (insbesondere die Schritte des Bereitstellens 100 und/oder des Transformierens 102 in die Deskriptorbilder und/oder des Ermittelns 104 des Distanzbilds, und, optional, des Ermittelns 106 des Detektionsbilds) auf mehrere jeweils ein erstes und zweites Bild B1 , B2 aufweisende Bildpaare angewandt wird, wobei das erste Bild B1 eines ersten Bildpaars ein erstes Bild des Videodatenstroms VDS ist, wobei das zweite Bild B2 des ersten Bildpaars ein n- tes Bild, mit n > 2 (z.B. n=5), des Videodatenstroms VDS ist, wobei das erste Bild eines zweiten Bildpaars ein zweites Bild des Videodatenstroms ist, wobei das zweite Bild des zweiten Bildpaars ein (n+1)-tes Bild des Videodatenstroms VDS ist.
Bei weiteren bevorzugten Ausführungsformen kann ein m-tes (m=1, 2, 3, ..) Bildpaar als erstes Bild das m-te Bild eines Videodatenstroms aufweisen, und als zweites Bild ein (m+k)-tes Bild (mit k > 1) des Videodatenstroms. Dies ist in Fig. 13 für die Bildfolge BF2 durch die (mit Ausnahme von Pfeil B12) nicht bezeichneten Pfeile symbolisiert, wobei ein Ursprung eines Pfeils mit dem jeweils ersten Bild B1 eines betrachteten Bildpaars korrespondiert, und wobei eine Spitze desselben Pfeils auf das jeweils zweite Bild des betrachteten Bildpaars deutet. Das erste Bildpaar entspricht somit z.B. dem Pfeil B12, und das zweite und alle weiteren Bildpaare den in Fig. 13 bei der Bildfolge BF2 weiter rechts liegenden, nicht einzeln bezeichneten Pfeilen.
Dadurch kann, trotz "Auslassen" von Bildern (bezüglich des jeweilig betrachteten Bildpaars, entsprechend dem Wert des Parameters k) schnell reagiert werden, und es können insbesondere auch Detektionen (z.B. in Form des Detektionsbilds DETB) in schneller zeitlicher Folge ausgegeben werden, was z.B. wichtig für eine grafische Anzeige für einen Benutzer sein kann (z.B. damit diese nicht ruckelt).
Figur 16 zeigt hierzu unterschiedliche Detektionsbilder, die basierend auf Kamerabildern mit jeweils unterschiedlichem zeitlichen Abstand &T erhalten worden sind, wobei für Fig. 16A &T - 1t gilt, für Fig. 16B DT — 2T, für Fig. 16C DT — 4T, und für Fig. 16D &T - 8T, S. auch Fig. 13. Es ist zu erkennen, dass die unterschiedlichen zeitlichen Abstände zwischen den Kamerabildern zu unterschiedlichen Detektionsergebnissen führen. Insbesondere kann der zeitliche Abstand DG zwischen den beiden Kamerabildern B1, B1 (vgl. auch B101, B105 aus Fig. 8) einen erheblichen Einfluss auf das Detektionsergebnis haben. Ist der Zeitabstand klein (Fig. 16A), werden nur vergleichsweise schnelle Bewegungen detektiert, vgl. die Füße PF der Person P. Ist er groß, vgl. Fig. 16D ist die Detektion möglicherweise zu empfindlich.
Bei weiteren bevorzugten Ausführungsformen ist es daher nützlich, für einen geeigneten Zeitabstand &T zu sorgen, der bei weiteren bevorzugten Ausführungsformen ggf. auch dynamisch angepasst werden kann. Dazu gehört bei weiteren bevorzugten Ausführungsformen z.B. auch die Möglichkeit einer getriggerten Kameraaufnahme, bei der die Kamera die Bilder nicht in einem festen zeitlichen Raster aufnimmt bzw. bereitstellt, sondern in einem steuerbaren veränderlichen Zeitabstand.
Bei weiteren bevorzugten Ausführungsformen kann der Zeitabstand AT z.B. wie folgt vorgegeben werden: a) Wahl des Zeitabstands t zwischen aufeinanderfolgenden Bildern B1, B2; B2, B3, ..., b) Überspringen von Bildern. Beim Überspringen durch Auslassen von Bildern könnte z.B. der Fall eintreten, dass das Verfahren bzw. System zu träge auf Veränderungen reagiert.
Daher ist anhand der Bildfolge BF2 gemäß Fig. 13 eine Lösung für das Überspringen ohne Auslassen von Bildern gemäß weiteren bevorzugten Ausführungsformen dargestellt. Hier wird beispielhaft jedes neueste Bild B101 verwendet und die Änderungsdetektion z.B. jeweils mit dem viertletzten Bild B105 durchgeführt. Der mögliche Nachteil einer trägen Reaktion entfällt somit. Trotzdem ist der zeitliche Abstand AT ausreichend groß (hier z.B. 4/30 s), um auch langsam bewegte Objekte zuverlässig detektieren zu können.
Bei weiteren bevorzugten Ausführungsformen ist es auch möglich, parallel mit unterschiedlichen zeitlichen Abständen AT zu arbeiten, um sowohl (z.B. mit kleinem AT) schnell bewegte oder große Objekte als auch (z.B. mit großem AT) langsam bewegte oder kleine Objekte zu detektieren. Die Detektionsergebnisse können bei weiteren bevorzugten Ausführungsformen kombiniert bzw. fusioniert werden.
Bei weiteren bevorzugten Ausführungsformen ist mit anderen Worten somit vorgesehen, dass das Verfahren, insbesondere zeitlich parallel, auf jeweils unterschiedlichen Bildern eines selben bzw. desselben Videodatenstroms ausgeführt wird, vgl. auch Schritt 118 gemäß Fig. 2F, wobei ein jeweiliges erstes Bild und ein jeweiliges zweites Bild jeweils einen unterschiedlichen zeitlichen Abstand zueinander aufweisen.
Das Prinzip gemäß bevorzugten Ausführungsformen ermöglicht u.a. eine, insbesondere robuste, Änderungsdetektion in Kamerabildern B1, B2 bei vergleichsweise geringem Rechenaufwand. Robust bedeutet insbesondere, dass sie keine Fehldetektionen (Fehlalarme) liefert, z. B. weil sich die Beleuchtung plötzlich ändert (durch Blinklichter, Warnlichter, vorbeiziehende Lichtkegel usw.), aber gleichzeitig relevante Fälle zuverlässig erkennt.
Die Detektionen können gemäß bevorzugten Ausführungsformen in einer für die nachfolgende Funktion angemessenen Kompaktheit geliefert werden. Das bedeutet z.B., wenn sich eine Person durch das Bild bewegt, sollte gemäß weiteren bevorzugten Ausführungsformen möglichst ein Objekt an eine Schnittstelle (z.B. eines Systems zur Visualisierung, also z.B. Ausgabe der Bilder B1, B2, ggf. mit Hervorhebungen basierend auf den detektierten Objekten OBJ, OBJ1, OBJ2) geliefert werden.
Wenn eine Gruppe von Personen sich gemeinsam und in engem Abstand untereinander durch das Bild bewegt, so genügt es gemäß weiteren bevorzugten Ausführungsformen ebenfalls, ein zusammenhängendes Objekt an die Schnittstelle zu liefern, das die Gruppe umfasst, da gemäß weiteren bevorzugten Ausführungsformen (zumindest zunächst) auf die Gruppe reagiert werden muss - nicht auf jede Person einzeln.
Das Ausbleiben von Fehldetektionen und angemessene (nicht unnötig nervende) Reaktionen auf relevante Fälle gemäß weiteren bevorzugten Ausführungsformen sind von nicht zu unterschätzender Wichtigkeit für eine Nutzer-Akzeptanz des Systems.
Diese Anforderungen können zumindest zeitweise zumindest manche bevorzugten Ausführungsformen erfüllen. Gleichzeitig ist der (zusätzliche) Rechenaufwand zur Realisierung der Änderungsdetektion gemäß weiteren bevorzugten Ausführungsformen sehr gering.

Claims

Ansprüche
1. Verfahren, insbesondere computerimplementiertes Verfahren, zum Verarbeiten von, insbesondere digitalen, Bildern (B1, B2), aufweisend die folgenden Schritte: Bereitstellen (100) eines ersten Bilds (B1) und eines zweiten Bilds (B2), Transformieren (102) des ersten Bilds (B1) in ein erstes Deskriptorbild (DB1) und des zweiten Bilds (B2) in ein zweites Deskriptorbild (DB2), Ermitteln (104) eines Distanzbildes (DISTB) basierend auf einem Vergleich des ersten Deskriptorbilds (DB1) mit dem zweiten Deskriptorbild (DB2), und, optional, Bilden (106) eines Detektionsbilds (DETB) basierend auf dem Distanzbild (DISTB).
2. Verfahren nach Anspruch 1, weiter aufweisend: Filtern (105) des Distanzbilds (DISTB), wodurch ein gefiltertes Distanzbild (DISTB1) erhalten wird, wobei insbesondere das Bilden (106) des Detektionsbilds (DETB) basierend auf dem gefilterten Distanzbild (DISTB1) erfolgt.
3. Verfahren nach Anspruch 2, wobei das Filtern (105) das Anwenden eines Majoritätsfilters und/oder eines Schwel Iwertfilters aufweist.
4. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: Weiterverarbeiten (108) des Detektionsbilds (DETB), insbesondere Bilden von Ausgabeinformationen (AI), basierend auf wenigstens einem der folgenden Elemente: a) Detektionsbild (DETB), b) erstes Bild (B1), c) zweites Bild (B2).
5. Verfahren nach Anspruch 4, wobei die Ausgabeinformationen (AI) wenigstens eines der folgenden Elemente aufweisen: a) akustisches Signal, b) haptisches Signal, c) optisches Signal, d) Bild, insbesondere Digitalbild, mit wenigstens einem grafisch hervorgehobenen Bildbereich, insbesondere einem basierend auf dem Detektionsbild (DETB) grafisch hervorgehobenen Bildbereich.
6. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei für das Transformieren (102) ein Deskriptor verwendet wird, für den ein Distanzmaß und/oder ein Ähnlichkeitsmaß definierbar und/oder definiert ist, wobei insbesondere das Vergleichen (104) des ersten Deskriptorbilds (DB1) mit dem zweiten Deskriptorbild (DB2) basierend auf dem Distanzmaß und/oder dem Ähnlichkeitsmaß ausgeführt wird.
7. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei als Distanzmaß für das Vergleichen (104) die Hamming-Distanz oder ein auf der Hamming-Distanz basierendes Distanzmaß verwendet wird, wobei insbesondere die Hamming-Distanz mit einem vorgebbaren Schwellwert verglichen wird und basierend auf dem Vergleich ein, insbesondere binärer, Vergleichswert ermittelt wird.
8. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: Zuweisen (110) eines Bewertungsmaßes (BM) zu wenigstens einem Deskriptor des ersten Deskriptorbilds (DB1) und/oder des zweiten Deskriptorbilds (DB2), und, optional, Berücksichtigen (112) des Bewertungsmaßes (BM) bei der Ermittlung (104) des Distanzbildes (DISTB), wobei insbesondere das Bewertungsmaß (BM) ein Rauschen bzw. ein Signal-zu-Rausch-Verhältnis, insbesondere eines mit dem jeweiligen Deskriptor assoziierten Bereichs des ersten Bilds (B1) und/oder des zweiten Bilds (B2), charakterisiert.
9. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: zumindest zeitweises Speichern (114) des ersten Deskriptorbilds (DB1) und/oder des zweiten Deskriptorbilds (DB2).
10. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: Kompensieren (116) einer mit dem ersten Bild (B1) und/oder dem zweiten Bild (B2) assoziierten Bewegung, insbesondere einer Eigenbewegung einer das erste Bild (B1) und/oder das zweite Bild (B2) bereitstellenden Kamera (12), für wenigstens eine Fläche (RF), insbesondere Oberfläche.
11. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das erste Bild (B1) und das zweite Bild (B2) jeweils Teil eines selben Videodatenstroms (VDS) wenigstens einer Kamera (12) ist.
12. Verfahren nach Anspruch 11, wobei in dem Videodatenstrom (VDS) zeitlich zwischen dem ersten Bild (B1) und dem zweiten Bild (B2) wenigstens ein weiteres Bild (B') vorhanden ist, und/oder wobei insbesondere das Verfahren auf mehrere jeweils ein erstes und zweites Bild aufweisende Bildpaare angewandt wird, wobei das erste Bild eines ersten Bildpaars ein erstes Bild des Videodatenstroms (VDS) ist, wobei das zweite Bild des ersten Bildpaars ein n-tes Bild, mit n > 2, des Videodatenstroms (VDS) ist, wobei das erste Bild eines zweiten Bildpaars ein zweites Bild des Videodatenstroms (VDS) ist, wobei das zweite Bild des zweiten Bildpaars ein (n+1)-tes Bild des Videodatenstroms (VDS) ist.
13. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das Verfahren, insbesondere zeitlich parallel, auf jeweils unterschiedlichen Bildern eines selben bzw. desselben Videodatenstroms (VDS) ausgeführt (118) wird, wobei ein jeweiliges erstes Bild und ein jeweiliges zweites Bild jeweils einen unterschiedlichen zeitlichen Abstand zueinander aufweisen.
14. Vorrichtung (200) zur Verarbeitung von, insbesondere digitalen, Bildern (B1, B2), wobei die Vorrichtung (200) zur Ausführung des Verfahrens nach wenigstens einem der vorstehenden Ansprüche ausgebildet ist.
15. Computerlesbares Speichermedium (SM), umfassend Befehle (PRG), die bei der Ausführung durch einen Computer (202) diesen veranlassen, das Verfahren nach wenigstens einem der Ansprüche 1 bis 13 auszuführen.
16. Computerprogramm (PRG), umfassend Befehle, die bei der Ausführung des Programms (PRG) durch einen Computer (202) diesen veranlassen, das Verfahren nach wenigstens einem der Ansprüche 1 bis 13 auszuführen.
17. Datenträgersignal (DCS), das das Computerprogramm nach Anspruch 16 überträgt und/oder charakterisiert.
18. Verwendung (300) des Verfahrens nach wenigstens einem der Ansprüche 1 bis 13 und/oder der Vorrichtung (200) nach Anspruch 14 und/oder des computerlesbaren Speichermediums (SM) nach Anspruch 15 und/oder des Computerprogramms (PRG) nach Anspruch 16 und/oder des Datenträgersignals (DCS) nach Anspruch 17 für wenigstens eines der folgenden Elemente: a) Erfassung (302) a1) eines Umfelds (U) eines Systems (10), insbesondere eines Fahrzeugs, insbesondere Flurförderzeugs wie z.B. Gabelstapler und/oder Hubstapler, und/oder a2) einer Szene (SZ), b) Ermitteln (304) von Änderungen bezüglich des ersten Bilds (B1) und des zweiten Bilds (B2), insbesondere robuste Änderungsdetektion bezüglich des ersten Bilds (B1) und des zweiten Bilds (B2), c) Ermitteln (306) von Hindernissen (H), insbesondere bewegten Objekten, d) Vermeidung (308) von Unfällen, insbesondere im Bereich eines bzw. des Systems (10) bzw. in dem Umfeld (U), insbesondere bei vergleichsweise geringen Geschwindigkeiten des Systems (10), insbesondere kleiner gleich einer Schrittgeschwindigkeit eines Menschen, weiter insbesondere bei einem Übergang zwischen einem Stillstand und einer Bewegung oder umgekehrt, e) Anwendung (309) sowohl beim Stillstand des Systems (10) als auch bei einer Bewegung des Systems (10).
PCT/EP2021/055366 2020-03-09 2021-03-03 Verfahren und vorrichtung zum verarbeiten von bildern WO2021180547A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP21709970.4A EP4118620A1 (de) 2020-03-09 2021-03-03 Verfahren und vorrichtung zum verarbeiten von bildern

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020202973.3 2020-03-09
DE102020202973.3A DE102020202973A1 (de) 2020-03-09 2020-03-09 Verfahren und Vorrichtung zum Verarbeiten von Bildern

Publications (1)

Publication Number Publication Date
WO2021180547A1 true WO2021180547A1 (de) 2021-09-16

Family

ID=74858447

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/055366 WO2021180547A1 (de) 2020-03-09 2021-03-03 Verfahren und vorrichtung zum verarbeiten von bildern

Country Status (3)

Country Link
EP (1) EP4118620A1 (de)
DE (1) DE102020202973A1 (de)
WO (1) WO2021180547A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022130297A1 (de) 2022-11-16 2024-05-16 Still Gesellschaft Mit Beschränkter Haftung Flurförderzeug und Verfahren zum Betreiben eines Flurförderzeugs

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
US8928815B1 (en) * 2013-03-13 2015-01-06 Hrl Laboratories, Llc System and method for outdoor scene change detection
DE102017212339A1 (de) 2017-07-19 2019-01-24 Robert Bosch Gmbh Verfahren und Vorrichtung zur Bewertung von Bildausschnitten für eine Korrespondenzbildung

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
US8928815B1 (en) * 2013-03-13 2015-01-06 Hrl Laboratories, Llc System and method for outdoor scene change detection
DE102017212339A1 (de) 2017-07-19 2019-01-24 Robert Bosch Gmbh Verfahren und Vorrichtung zur Bewertung von Bildausschnitten für eine Korrespondenzbildung

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BAY H.TUYTELAARS T.VAN GOOL L.: "Computer Vision - ECCV 2006. ECCV 2006. Lecture Notes in Computer Science", vol. 3951, 2006, SPRINGER, article "SURF: Speeded Up Robust Features"
BINARY ROBUST INDEPENDENT ELEMENTARY FEATURES
E. RUBLEEV. RABAUDK. KONOLIGEG. BRADSKI: "ORB: An efficient alternative to SIFT or SURF", 2011 INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2011, pages 2564 - 2571
E. TOLAV. LEPETITP. FUA: "DAISY: An Efficient Dense Descriptor Applied to Wide-Baseline Stereo", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 32, no. 5, May 2010 (2010-05-01), pages 815 - 830, XP011293453
GUPTA NEHA ET AL: "Unsupervised change detection in optical satellite images using binary descriptor", 2017 INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS, SIGNAL PROCESSING AND NETWORKING (WISPNET), IEEE, 22 March 2017 (2017-03-22), pages 750 - 754, XP033324122, DOI: 10.1109/WISPNET.2017.8299861 *
HAAVARDSHOLM TRYM VEGARD: "Lecture 4.1 Feature descriptors", UNIK LEKTURES (4690), 14 February 2016 (2016-02-14), pages 1 - 30, XP055801853, Retrieved from the Internet <URL:https://www.uio.no/studier/emner/matnat/its/nedlagte-emner/UNIK4690/v16/forelesninger/lecture_4_1_feature_descriptors.pdf> [retrieved on 20210506] *
LEUTENEGGER, STEFANCHLI, MARGARITASIEGWART, ROLAND: "BRISK: Binary Robust invariant scalable keypoints", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2011, pages 2548 - 2555, XP055137182, DOI: 10.1109/ICCV.2011.6126542

Also Published As

Publication number Publication date
EP4118620A1 (de) 2023-01-18
DE102020202973A1 (de) 2021-09-09

Similar Documents

Publication Publication Date Title
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE102015121339B4 (de) Systeme und verfahren zum ermitteln eines zustands einer fahrbahn
DE112017001311T5 (de) System und Verfahren zum Trainieren eines Objektklassifikators durch maschinelles Lernen
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102015207676A1 (de) Verfahren und Vorrichtung zur Hinderniserkennung auf Basis einer monokularen Kamera
DE102009012441B4 (de) Verfahren zur Reduktion des Speicherbedarfs bei der Bestimmung von Disparitätswerten für mindestens zwei stereoskopisch aufgenommene Bilder
DE102011106072A1 (de) Schattenentfernung in einem durch eine fahrzeugbasierte kamera erfassten bild unter verwendung einer optimierten ausgerichteten linearen achse
DE102008006709A1 (de) Videobasiertes Überwachungssystem und -verfahren
WO2018158020A1 (de) Verfahren und vorrichtung zur ermittlung einer trajektorie in off-road-szenarien
DE102019214402A1 (de) Verfahren und vorrichtung zum verarbeiten von daten mittels eines neuronalen konvolutionsnetzwerks
DE102019131971A1 (de) Ein Bildverarbeitungsmodul
WO2021180547A1 (de) Verfahren und vorrichtung zum verarbeiten von bildern
DE102019105293A1 (de) Schätzung der Bewegung einer Bildposition
DE102008036219A1 (de) Verfahren zur Erkennung von Objekten im Umfeld eines Fahrzeugs
EP2359308B1 (de) Vorrichtung zur erzeugung und/oder verarbeitung einer objektsignatur, überwachungsvorrichtung, verfahren und computerprogramm
WO2021063572A1 (de) Vorrichtung und verfahren zum verarbeiten von daten eines neuronalen netzes
DE102009048117A1 (de) Verfahren und Vorrichtung zum Erkennen einer Fehldetektion eines Objektss in einem Bild
EP2037407B1 (de) Verfahren zur Objekterfassung
DE102019129029A1 (de) System und verfahren zur objektdetektion
DE102022204722A1 (de) Verfahren zum Trainieren eines neuronalen Konvolutionsnetzwerks
DE102018201909A1 (de) Verfahren und Vorrichtung zur Objekterkennung
DE102020129164A1 (de) Verfahren und vorrichtung zur unterscheidung von verschiedenen konfigurationszuständen eines objekts auf der grundlage einer bildlichen darstellung des objekts
DE102020208080A1 (de) Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße
EP1998272A2 (de) Vorrichtung zur Bestimmung einer Objekt- und/oder Existenzwahrscheinlichkeit eines Suchobjekts in einem Auslesefenster eines Bildes, Verfahren sowie Computerprogramm
WO2019072451A1 (de) Verfahren zum verarbeiten von bildern

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21709970

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021709970

Country of ref document: EP

Effective date: 20221010