WO2021004738A1 - Device and method for training a neural network - Google Patents

Device and method for training a neural network Download PDF

Info

Publication number
WO2021004738A1
WO2021004738A1 PCT/EP2020/066728 EP2020066728W WO2021004738A1 WO 2021004738 A1 WO2021004738 A1 WO 2021004738A1 EP 2020066728 W EP2020066728 W EP 2020066728W WO 2021004738 A1 WO2021004738 A1 WO 2021004738A1
Authority
WO
WIPO (PCT)
Prior art keywords
digital
data
context
network
training data
Prior art date
Application number
PCT/EP2020/066728
Other languages
German (de)
French (fr)
Inventor
Konrad Groh
Matthias Woehrle
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Priority to CN202080049714.5A priority Critical patent/CN114041144A/en
Publication of WO2021004738A1 publication Critical patent/WO2021004738A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Definitions

  • Various neural networks are used, for example, to generate output data based on input data and a function learned by training the neural network.
  • the desired output data can depend on the context in which the input data was generated. It may therefore be necessary for data that describe a first context to be transformed into data that describe a second context.
  • the context is for example with the
  • Network to train to transform digital data from a first context into a second context.
  • the context can be culturally different, ie the context can differ in terms of territory, language, facial expressions, gestures, etc.
  • the digital data is digital image data and the context can change territorially, in that the digital image data were generated in different countries, and / or can differ intrinsically in that the digital image data differ in gestures and facial expressions to a text spoken by a person (ie the digital image data also differ with regard to the language dependent movements of the face).
  • the language can, for example, also be used in the case of the digital data which are linked to the digital data which describe a first context or a second context
  • the digital data that are semantically related to the digital data that describe the first context or the second context can be, for example, text data that have a plurality of text strings, and the semantic relationship can describe that each digital datum of the digital Data which describe the first context or the second context, exactly one text string of the plurality of text strings is assigned.
  • digital text data can be assigned to digital data that describe a context and describe the digital data. This means that the digital text data can clearly describe the content of the digital data.
  • the digital text data can have additional information relating to the digital data.
  • the digital data can be digital image data representing a scene and the digital text data can describe the scene.
  • the first map, the second map and the third map can comprise a neural subnetwork.
  • Each of these neural sub-networks can be any neural network, for example an autoencoder network or a convolutional neural network.
  • Each neural sub-network, i.e. including the first neural sub-network and the second neural sub-network, can have any number of layers and can be trained using any method, such as backpropagation.
  • Each encoder section of an autoencoder network can have any number of encoder layers, with each encoder layer having a convolutional layer with any properties (for example any filter size), an activation function (for example a ReLU Activation function), a pooling layer with any
  • Each decoder section has one
  • Autoencoder network can have any number of decoder layers, each decoder layer having a transposed convolutional layer with any number of decoder layers
  • Activation function for example a ReLU activation function
  • At least a part of the first neural sub-network can be implemented by one or more processors. At least part of the first mapping can be implemented by one or more processors. At least a part of the second neural sub-network can be implemented by one or more processors. At least part of the second mapping can be implemented by one or more processors. At least part of the third mapping can be implemented by one or more processors.
  • the first digital training data and the second digital training data can include digital image data.
  • the feature described in this paragraph in combination with the first example or the second example forms a third example.
  • the first neural sub-network can be trained in that the first decoder section passes through the first encoder section into the first latent space
  • Comparing the reconstructed first digital training data with the first digital training data can include determining a first loss value.
  • the first loss value can be determined based on a loss function.
  • the second neural sub-network can be trained by the second decoder section reconstructing the second digital training data mapped into the second latent space by the second encoder section and comparing the reconstructed second digital training data with the second digital training data.
  • Comparing the reconstructed second digital training data with the second digital training data can include determining a second loss value.
  • the second loss value can be determined based on a loss function.
  • the training of the second neural sub-network can include the adaptation of the second encoder section and the second decoder section, wherein the adaptation of the second encoder section and the second decoder section can include minimizing the second loss value.
  • the second encoder section of the trained second neural sub-network can output a code that describes digital data describing a second context in a second latent space
  • the second decoder section of the trained second neural sub-network a code that describes digital data describing a second context in a second latent space, can process it and can output digital data based on the code.
  • the first map can have a third neural sub-network and the second map can have a fourth neural sub-network.
  • the first digital data and the second digital data can have a plurality of text strings, the text strings being the associated first digital
  • each first digital training date of the first digital training data can be assigned to exactly one text string of the plurality of text strings of the first digital data and that each second digital training date of the second digital training data can be assigned to exactly one text string of the plurality of text strings of the second digital data.
  • the first digital training data or the second digital training data can have digital image data that represent a scene, and the first digital data or the second digital data can have a plurality of text strings that describe the scene shown in each case.
  • Training the first mapping may include comparing the code output by the first encoder section based on the first digital training data with a code output by the first mapping based on the first digital data.
  • the comparison of the code output by the first encoder section based on the first digital training data with a code output by the first mapping based on the first digital data can result in the determination of a first
  • the first mapping loss value can be determined based on a loss function.
  • Training the first mapping can include adapting the first mapping, wherein adapting the first mapping can include minimizing the first mapping loss value.
  • the trained first mapping can output a code that describes digital text data that describe a first context in a first latent space, the code that describes the digital text data, a code that describes the digital data in the first describes latent space, can be assigned.
  • At least part of the first digital data can be provided by an additional first neural network, the additional first neural network being able to process at least part of the first digital training data.
  • the training of the second mapping can include comparing the code output by the second encoder section based on the second digital training data with a code output by the second mapping based on the second digital data.
  • the comparison of the code output by the second encoder section based on the second digital training data with a code output by the second mapping based on the second digital data can include determining a second mapping loss value.
  • the second mapping loss value can be determined based on a loss function.
  • the training of the second mapping can comprise the adapting of the second mapping, wherein the adapting of the second mapping can comprise the minimizing of the second mapping loss value.
  • the trained second mapping can output a code that describes digital text data describing a second context in a second latent space, the code describing the digital text data being a code describing the digital data in the second describes latent space, can be assigned.
  • At least part of the second digital data can be provided by an additional second neural network, wherein the additional second neural network can process at least part of the second digital training data.
  • the third map can have a fifth neural sub-network.
  • the feature described in this paragraph in combination with one or more of the first example through the nineteenth example forms a twentieth example.
  • the digital training data of the third digital training data, which describe the first context, can contain at least a subset of the first digital
  • Training data for example the entire first digital training data
  • the digital data of the third digital data which are semantically related to this digital training data, can be those of the subset of the first digital
  • the digital training data of the third digital training data which describe the second context, can contain at least a subset of the second digital
  • Training data for example, the entire second digital training data
  • the digital data of the third digital data which with this digital
  • Training data are semantically related can have the subset of the second digital data assigned to the subset of the second digital training data.
  • the third mapping can be a code that describes digital training data that describe the first context in the first latent space, a code that describes digital data that is semantically related to the digital training data that describes the first context in which first latent space describes, and a code that describes digital data, which are semantically related to the digital training data that describe the second context, in the second latent space, and can output a code that describes digital training data in the second describes latent space, spend.
  • the second decoder section can process the code that describes digital training data in the second latent space and can output reconstructed digital training data that describe the second context.
  • the features described in this paragraph in combination with one or more of the first example through the twenty-third example form a twenty-fourth example.
  • the training of the third mapping can involve comparing the reconstructed digital training data, which describe the second context, with the digital one
  • Comparing the reconstructed digital training data, which describe the second context, with the digital training data, which describes the second context, can include determining a third mapping loss value.
  • the mapping loss value can be determined based on a loss function.
  • the training of the third mapping can comprise adapting the third mapping, wherein adapting the third mapping can comprise minimizing the third mapping loss value.
  • a first transformation network can have the first encoder section of the trained first neural subnetwork, the second decoder section of the trained second neural subnetwork, the trained first mapping, the trained second mapping and the trained third mapping.
  • the first transformation network can process digital data describing a first context, digital text data describing the first context and associated with the digital data describing the first context, and digital text data describing a second context, and can process digital data that describe the second context. That is to say that the first transformation network can transform digital data that describe a first context into digital data that describe a second context.
  • a second transformation network can have the second encoder section of the trained second neural subnetwork, the first decoder section of the trained first neural subnetwork, the trained first mapping, the trained second mapping and the inverse mapping of the trained third mapping.
  • the second transformation network can process digital data describing a second context, digital text data describing the second context and associated with the digital data describing the second context, and digital text data describing a first context, and can process digital data that describe the first context. That is to say that the second transformation network can transform digital data that describe a second context into digital data that describe a first context.
  • a computer program can have program instructions which, when they are executed by one or more processors, are set up to carry out the method according to one or more of the first example to the twenty-ninth example.
  • the feature described in this paragraph constitutes a thirtieth example.
  • the computer program can be stored in a machine-readable storage medium.
  • the feature described in this paragraph in combination with the thirtieth example forms a thirty-first example.
  • At least a part of the first neural sub-network can be implemented by one or more processors. At least part of the first figure can be replaced by a or multiple processors can be implemented. At least a part of the second neural sub-network can be implemented by one or more processors. At least part of the second mapping can be implemented by one or more processors. At least part of the third mapping can be implemented by one or more processors.
  • a system may include an apparatus of the thirty-second example or the thirty-third example.
  • the system can have a sensor, for example an imaging sensor, which is set up to provide digital data that describe the first context or the second context.
  • a sensor for example an imaging sensor, which is set up to provide digital data that describe the first context or the second context.
  • the system may further comprise an additional neural network which is set up to digital text data, the text strings, which describe the digital data, which describe the first context or the second context, based on the digital data, which the first context or the second Describe, create context.
  • an additional neural network which is set up to digital text data, the text strings, which describe the digital data, which describe the first context or the second context, based on the digital data, which the first context or the second Describe, create context.
  • the imaging sensor can be a camera sensor or a video sensor.
  • Imaging sensor can be a remote location sensor, such as a radar sensor, a LIDAR sensor or an ultrasonic sensor, which is processed by the
  • a vehicle can have a driver assistance system.
  • the driver assistance system may be the system according to one or more of the thirty-fourth examples to the
  • a vehicle can have at least one imaging sensor or a remote location sensor which is set up to provide digital image data.
  • the vehicle can also have a driver assistance system.
  • the driver assistance system can have the first neural transformation network according to the twenty-eighth example and / or the second neural transformation network according to the twenty-ninth example.
  • the driver assistance system can furthermore be set up to classify and / or segment the digital data output by the first neural transformation network or the second neural transformation network.
  • the driver assistance system can be set up to control the vehicle based on the classified and / or segmented digital data. That means that
  • the driver assistance system can be set up to process the classified and / or segmented digital data and to be able to output at least one control command based on the classified and / or segmented digital data. This has the advantage that the driver assistance system can influence the driving behavior based on the context of the digital data. For example, the driver assistance system can recognize the intention of a road user based on the context and
  • FIG. 1 shows a device according to various embodiments
  • FIG. 2 shows an imaging device in accordance with various embodiments
  • Figure 3A shows a processing system for training a first neural
  • Figure 3B shows a processing system for training a second neural
  • FIG. 4A shows a processing system for training a first mapping in accordance with various embodiments
  • FIG. 4B shows a processing system for training a second mapping in accordance with various embodiments
  • FIG. 5 shows a processing system for training a third mapping in accordance with various embodiments
  • FIG. 6 shows a method for training a neural network in accordance with
  • FIG. 7A shows a first processing system for transforming digital data between different contexts according to different ones
  • Figure 7B shows a second processing system for transforming digital data between different contexts according to different ones
  • FIG. 8 shows a vehicle according to various embodiments
  • a “circuit” can be any type of logic
  • a implementing entity which can be hardware, software, firmware or a combination thereof. Therefore, in one embodiment, a
  • Circuit means a hardwired logic circuit or a programmable one
  • Machine code such as Java is used. Any other type of implementation of the respective functions, which are described in more detail below, may be understood as a “circuit” in accordance with an alternative embodiment.
  • FIG. 1 illustrates a device 100 according to various embodiments.
  • the device 100 may have one or more sensors 102.
  • the sensor 102 can be configured to provide digital data 104.
  • the sensor 102 can be a
  • Imaging sensor such as a camera sensor or a video sensor, or a remote location sensor, such as a radar sensor, a LIDAR sensor or an ultrasonic sensor.
  • the sensor 102 has a different type of sensor.
  • the digital data 104 comprise digital image data (in the context of this description, recorded radar, LID AR and ultrasonic sensor signals that have been processed by means of imaging methods are also understood as digital image data).
  • the sensors of a plurality of sensors may have the same type or different types of sensors.
  • the device 100 may further include a storage device 106.
  • the device 100 may further include a storage device 106.
  • Storage device 106 may include memory.
  • the memory can be used, for example, in the processing performed by a processor.
  • a memory used in the embodiments may be a volatile memory such as a DRAM (dynamic random access memory), or a non-volatile memory such as a PROM (programmable read-only memory), an EPROM (erasable PROM), an EEPROM (electrically erasable PROM), or a Flash memories such as a floating gate memory device, a charge trapping memory device, an MRAM (magnetoresistive random access memory), or a PCRAM (phase change random access memory).
  • the storage device 106 may be configured to store the digital data 104.
  • the device 100 can furthermore have at least one processor 108 (for example exactly one processor, for example two processors, for example more than two processors).
  • the at least one processor 108 can be any type of circuit, i.e., any type of logic-implementing entity.
  • the at least one processor 108 is set up to process the digital data 104.
  • digital image data 204 as digital data 104. It should be pointed out, however, that other (digital) data can also be used which are dependent on the context, such as any type of digital sensor data.
  • FIG. 2 illustrates an imaging device 200 in which the sensor is implemented as an imaging sensor 202 in accordance with various embodiments.
  • the Imaging sensor 202 can be a camera sensor or a video sensor.
  • Imaging sensor 202 may be configured to provide digital image data 204.
  • the digital image data 204 may include a plurality of digital images 206.
  • the plurality of digital images 206 may represent a scene in a respective context. According to various embodiments, the
  • Imaging device 200 has a plurality of imaging sensors.
  • FIG. 3A illustrates a processing system 300A for training a first neural subnetwork in accordance with various embodiments.
  • the processing system 300A may include the storage device 106 for storing the digital image data 204, such as first digital training data 302.
  • the first digital training data 302 can describe a first context.
  • the processing system 300A may further include the at least one processor 108.
  • the processor 108 implements at least part of a first neural sub-network 304.
  • the first neural sub-network 304 is set up to process the first digital training data 302.
  • the first neural sub-network 304 can be an auto-encoder network.
  • the first neural sub-network 304 can have a first encoder section 306.
  • the first encoder section 306 can have at least one encoder and can be set up to display the features of the first digital training data 302 in a first latent space 308, ie in a lower dimension than the dimension of the first digital training data 302. In other words, the first encoder section 306 can output a code which has a lower dimension than the dimension of the first digital training data 302.
  • the first neural sub-network 304 can also have a first decoder section 310.
  • the first decoder section 310 can have at least one decoder and can be set up to process the code present in the first latent space 308 and to output first digital output data 312.
  • the dimension of the first digital output data 312 can correspond to the dimension of the first digital training data 302.
  • the first decoder section 310 can increase the dimension of the code present in the first latent space 308 to the dimension of the first digital training data 302.
  • the first decoder section 310 can reconstruct the first digital training data 302 from the code output by the first encoder section 306.
  • the processor 108 can be set up to determine a first loss value 314 by comparing the first digital output data 312 with the first digital training data 302.
  • the first neural sub-network 304 can be trained by the first encoder section 306 and the first decoder section 310 can be adapted.
  • the first neural sub-network 304 can be adapted in such a way that the first loss value 314 is minimized. That is, the trained first neural sub-network 304 can output a code that describes digital image data that describe a first context in a first latent space 308 and can output a code that describes digital image data in the first latent space 308 to digital image data reconstruct.
  • FIG. 3B illustrates a processing system 300B for training a second neural subnetwork in accordance with various embodiments.
  • the processing system 300B may include the storage device 106 for storing the digital image data 204, such as second digital training data 322.
  • the second digital training data 322 can describe a second context that is different from the first context.
  • the first context and the second context can differ territorially and / or intrinsically, as described above.
  • the processing system 300B may further include the at least one processor 108.
  • the processor 108 implements at least part of a second neural sub-network 324.
  • the second neural sub-network 324 is set up to process the second digital training data 322.
  • the second neural sub-network 324 can be an auto-encoder network.
  • the architecture of the second neural sub-network 324 can essentially correspond to the architecture of the first neural sub-network 304.
  • the second neural sub-network 324 can have a second encoder section 326 and a second decoder section 330, the second encoder section 326 being able to generate a code in a second latent space 328 based on the second digital training data 322 and where the second decoder section 330 can reconstruct the code present in the second latent space 328. That is, the second decoder section 330 can generate second digital output data 332, wherein the dimension of the second digital output data 332 can correspond to the dimension of the second digital training data.
  • the processor 108 can be set up to determine a second loss value 334 by comparing the second digital output data 332 with the second digital training data 322 and to determine the second loss value 334 by adapting the second encoder section 326 and the second decoder section 330 to minimize. That is, the trained second neural sub-network 324 can output a code that describes digital image data describing a second context in a second latent space 328 and can output a code, that describes digital image data in the second latent space 328 to reconstruct digital image data.
  • FIG. 4A illustrates a processing system 400A for training a first mapping in accordance with various embodiments.
  • the processing system 400A may include the storage device 106 for storing the first digital training data 302.
  • the storage device 106 may also store first digital data 402.
  • the first digital data 402 can be semantically related to the first digital
  • Training data 302 which describe a first context are available.
  • the first digital data 402 have a plurality of text strings, the text strings describing the scene represented in the first digital training data 302.
  • the first digital training data 302 can have a first digital image 302-1 and a second digital image 302-2, which describe a scene in a first context
  • the first digital data 402 can have a first text string 402-1, which corresponds to the first digital image 302-1 is assigned, and a second text string 402-2, which is assigned to the second digital image 302-2.
  • the first digital image 302-2 of the first digital training data 302 depicts a street, parked cars and a pedestrian standing on the street, and the first text string 402-1 describes the scene as “pedestrian standing on the street”.
  • the second digital image 302-2 following the first digital image 302-2 represents the scene according to the example, the pedestrian stopping on the street and the second text string 402-2 describes the scene as “pedestrian stopping”.
  • the processing system 400A may further include the at least one processor 108.
  • the processor 108 implements at least a part of the trained first neural subnetwork 304.
  • the first encoder section 306 of the trained first neural subnetwork 304 can output a code that describes the first digital training data 302 in the first latent space 308.
  • the processor 108 further implements at least a portion of a first mapping 404.
  • the first mapping 404 can map the first digital data 402 into the first latent space 308. In other words, the first mapping 404 can process the first digital data 402 and can output a code that describes the first digital data 402 in the first latent space 308.
  • the first encoder section 306 can output a first digital training data code 406 that describes the first digital training data 302 in the first latent space 308 and the first mapping 404 can output a first digital data code 408 that describes the first digital data 402 in the first latent space 308 describes.
  • the first mapping 404 maps the first digital training data code 406 the first digital data code 408 in the first latent space 308.
  • the processor 108 can be configured to determine a first mapping loss value 410 by comparing the first digital training code 406 with the first digital data code 408.
  • the first mapping loss value 410 can be determined based on a loss function.
  • the loss function can be any type of loss function, for example any type of loss function that is based on a regression model.
  • the first mapping 404 can be trained by adapting the first mapping 404, wherein the first mapping can be adapted such that the first mapping loss value 410 is minimized. That is, the trained first mapping 404 can output a code that describes digital text data in the first latent space 308, the digital text data comprising a text string and describing digital image data representing a first context, and the code representing the digital text data, a code which describes the digital image data in the first latent space 308 is assigned.
  • the first mapping 404 can be a third neural sub-network.
  • the processing system 400A may further comprise at least one additional first neural network that is set up to assign at least a part (for example all of the first digital data) of the first digital data 402 using the first digital training data 302 that describe the first context produce.
  • FIG. 4B illustrates a processing system 400B for training a second mapping in accordance with various embodiments.
  • the processing system 400B may include the storage device 106 for storing the second digital training data 322.
  • the storage device 106 may also store second digital data 422.
  • the second digital data 422 can have a semantic relationship to the second digital training data 322, which describe a second context.
  • the second digital data 422 have a plurality of text strings, the text strings describing the scene represented in the second digital training data 322.
  • the second digital training data 322 can have a first digital image 322-1 and a second digital image 322-2, which describe a scene in a second context
  • the second digital data 422 can have a first text string 422-1, which corresponds to the first digital image 322-1 is assigned, and a second text string 422-2, which is assigned to the second digital image 302-2.
  • the first digital image 322-2 represents the second digital
  • Training data 322 represents essentially the same scene as the first digital image 302-2 of the first digital training data 302, that is, a street, parked cars and a pedestrian standing on the street, and the first text string 422-1 of the second digital data 422 describes the scene accordingly as “pedestrian standing on the street”.
  • the second digital image 322-2 following the first digital image 322-2 of the second digital training data 322 represents, according to an example, a scene in the second context, the pedestrian crossing the street and the assigned second text string 422-2 describes the scene as "pedestrian crosses the street”.
  • the processing system 400B may further include the at least one processor 108.
  • the processor 108 implements at least a part of the trained second neural sub-network 324.
  • the second encoder section 326 of the trained second neural sub-network 324 can output a code that describes the second digital training data 322 in the second latent space 328.
  • the processor 108 further implements at least a portion of a second mapping 424.
  • the second mapping 424 can map the second digital data 422 into the second latent space 328. In other words, the second mapping 424 can process the second digital data 422 and can output a code that describes the second digital data 422 in the second latent space 328.
  • the second encoder section 326 can output a second digital training data code 426 that describes the second digital training data 322 in the second latent space 328 and the second mapping 424 can output a second digital data code 428 that describes the second digital data 422 in the second latent space 328 describes.
  • the second mapping 424 assigns the second digital data code 428 in the second latent space 328 to the second digital training data code 426.
  • the processor 108 can be configured to determine a second mapping loss value 430 by comparing the second digital training code 426 with the second digital data code 428.
  • the second mapping loss value 430 can be determined based on a loss function.
  • the Training The second mapping 424 can be trained by adapting the second mapping 424, the second mapping 424 being adapted such that the second mapping loss value 430 is minimized. That is, the trained second mapping 424 can output a code that describes digital text data in the second latent space 328, the digital text data comprising a text string and describing digital image data representing a second context, and the code representing the digital text data, associated with a code that describes the digital image data in the second latent space 328.
  • the second mapping 424 can be a fourth neural subnetwork.
  • the processing system 400B may further include at least one additional second neural network that is configured to process at least a portion (e.g. entire second digital data) of the second digital data 422 using the second digital training data 322 that describe the second context.
  • FIG. 5 illustrates a processing system 500 for training a third mapping in accordance with various embodiments.
  • the processing system 500 may include the
  • Storage device 106 for storing digital image data 204 and digital text data describing the digital image data 204.
  • Storage device 106 may store third digital training data and third digital data.
  • the third digital training data can have digital training data that describe a first context and digital training data that describe a second context.
  • the third digital data can have digital data that are semantically related to the digital training data that describe the first context, and digital data that are semantically related to the digital training data that describe the second context.
  • the digital training data that describe a first context have at least a subset (for example the entire first digital training data) of the first digital training data 302 and the digital data that can be semantically related to this digital training data have the first First digital data 402 assigned to digital training data 302.
  • the digital training data that describe a second context have at least a subset (for example the entire second digital training data) of the second digital training data 322, and the digital data that can have a semantic relationship with this digital training data are the second have second digital data 422 assigned to digital training data 322.
  • the processing system 500 may further include the at least one processor 108.
  • the processor 108 implements at least a portion of the trained first neural network 304, at least a portion of the trained second neural network 324, at least a portion of the trained first map 404, and at least a portion of the trained second map 424.
  • the processor 108 further implements at least one Part of a third map 502.
  • the third map 502 can be a fifth neural sub-network.
  • the trained second mapping 424 can output a code that describes the second digital data 422 in the second latent space 328.
  • Subnetwork 304 can output a code which describes the first digital training data 302 in the first latent space 308 and which can the trained first mapping 404 output a code that describes the first digital data 402 in the first latent space 308.
  • the third mapping 502 can convert digital latent data of a first latent space 308, that is to say a code that describes digital training data or digital text data in the first latent space 308, into digital latent data of a second latent space 328, that is to say in a code that describes the Data in the second latent space 328 describes transform.
  • the third mapping 502 can map the code that describes the first digital training data 302 in the first latent space 308 and the code that describes the first digital data 402 in the first latent space 308 into the second latent space 328.
  • the third mapping 502 can include the code describing the first digital training data 302 in the first latent space 308, the code describing the first digital data 402 in the first latent space 308, and the code describing the second digital data 422 in the second latent space 328, and can output a code that describes digital training data in the second latent space 328.
  • the second decoder section 330 of the second neural sub-network 324 can process the code that describes the digital training data describing the second context in the second latent space 328 and can output third digital output data 504, the dimension of the third digital Output data 504 can correspond to the dimension of the second digital training data 322.
  • the processor 108 can be set up to determine a third mapping loss value 506 by comparing the third digital output data 504 with the second digital training data 322.
  • the third mapping 502 can be trained by adapting the third mapping 502, the third mapping 502 being adapted in such a way that the third mapping loss value 506 is minimized. That is, the trained third mapping 502 can output a code that describes training data in the second latent space 328, the second decoder section 330 being able to output training data after processing the code, which can correspond to the second digital training data 322.
  • FIG. 6 illustrates a method 600 for training a neural network according to various embodiments.
  • the method 600 may include training a first neural sub-network 304 (in 602).
  • the first neural sub-network 304 can have a first encoder section 306 and a first decoder section 310 and can be trained based on first digital training data 302 that describe a first context.
  • the first encoder section 306 can map the first digital training data 302 into a first latent space 308 provide.
  • the method 600 may include training a first mapping 404 (at 604).
  • the first mapping 404 can map first digital data 402, which are semantically related to the first digital training data 302, into the first latent space 308 and can use the first digital data mapped into the first latent space 308 by means of the trained first neural sub-network 304 Training data 302 are trained.
  • the method 600 may include training a second neural sub-network 324 (in 606).
  • the second neural sub-network 324 can have a second encoder section 326 and a second decoder section 330 and can be trained based on second digital training data 322 which describe a second context.
  • the second encoder section 326 can provide an image of the second digital training data 322 in a second latent space 328.
  • the method 600 may include training a second mapping 424 (at 608).
  • the second mapping 424 can map second digital data 422, which are semantically related to the second digital training data 322, in the second latent space 328 and can use the second digital data mapped in the second latent space 328 by means of the trained second neural sub-network 324 Training data 322 are trained.
  • the method 600 may further include training a third mapping 502 (in 610).
  • the third mapping 502 may map digital latent data from the first latent space 308 into the second latent space 328.
  • the third mapping 502 can be trained based on third digital training data and third digital data, wherein the third digital training data can include digital training data that describe the first context and digital training data that describe the second context, and the third digital data can include digital Data, which with the digital
  • Training data which describe the first context are in a semantic relationship and digital data which have a semantic relationship with the digital training data which describe the second context.
  • the digital training data that describe the first context can have at least a subset (for example the entire first digital training data) of the first digital training data 302, and the digital data that can have a semantic relationship with this digital training data can be the first digital training data 302 have associated first digital data 402.
  • the digital training data that describe the second context can have at least a subset (for example the entire second digital training data) of the second digital training data 322, and the digital data that can be semantically related to this digital training data can be the second digital training data 322 have associated second digital data 422.
  • the processing system 700A may include the storage device 106 for storing digital data 702, such as digital image data 204.
  • the digital data 702 can have first context data 704, the first context data 704 having digital image data 204 which describe the first context.
  • the digital data 702 can further include first context text data 706, the first context text data 706 having a plurality of text strings which are assigned to the first context data 704 and which describe the first context.
  • the digital data 702 can furthermore have second context text data 708, the second context text data 708 having a plurality of text strings which describe a second context.
  • the processing system 700 A may further include the at least one processor 108.
  • the processor 108 implements at least a portion of a first neural transformation network 710A.
  • the first neural transformation network 710A may include at least a portion of the trained first neural network 304 and at least a portion of the trained second neural network 324.
  • the first neural transformation network 710A can have the first encoder section 306 of the trained first neural subnetwork 304, the second decoder section 330 of the trained second neural subnetwork 324, the trained first mapping 404 and the trained second mapping 424.
  • Transformation network 710A may further include the third map 502.
  • the first encoder section 306 can process the first context data 704 and can output a code that describes the first context data 704 in the first latent space 308.
  • the first mapping 404 can process the first context text data 706 and can output a code that describes the first context text data 706 in the first latent space 308.
  • the second mapping 424 can process the second context text data 708 and can output a code that describes the second context text data 708 in the second latent space 328.
  • the third mapping 502 may include the code describing the first context data 704 in the first latent space 308, the code describing the first context text data 706 in the first latent space 308, and the code describing the second contextual data.
  • Text data 708 in the second latent space 328 describes, processes and can output a code that describes digital data in the second latent space 328.
  • the second decoder section 330 can write the code that describes digital data in the second latent space 328, process and can output second context data 712 describing the second context. That is, the first neural transformation network 710A can process digital data describing the first context and digital text data describing the first context and the second context, and can output digital data describing the second context.
  • the processor 108 can further be set up to process the second context data 712 and can output classified and / or segmented second context data 714A.
  • the processor 108 can implement a first neural classification network, the first classification network being set up to classify and / or segment digital data.
  • FIG. 7B illustrates a second processing system 700B for transforming digital data between different contexts according to various embodiments.
  • the processing system 700B may include the storage device 106 for storing digital data 702, such as digital image data 204.
  • the digital data 702 can have second context data 712, the second context data 712 having digital image data 204 which describe the second context.
  • the digital data 702 can furthermore have first context text data 706, the first context text data 706 having a plurality of text strings which describe a first context.
  • the digital data 702 may further include second context text data 708, the second context text data 708 being a
  • the processing system 700B may further include the at least one processor 108.
  • the processor 108 implements at least part of a second neural transformation network 71 OB.
  • Transformation network 71 OB can have at least part of the trained first neural network 304, at least part of the trained second neural network 324, the trained first mapping 404 and the trained second mapping 424.
  • the second neural transformation network 706B can have the second encoder section 326 of the trained second neural subnetwork 324 and the first decoder section 310 of the trained first neural subnetwork 304.
  • the second encoder section 326 can process the second context data 712 and can output a code that describes the second context data 712 in the second latent space 328.
  • the first mapping 404 can be the first context Process text data 706 and can output a code that describes the first context text data 706 in the first latent space 308.
  • the second mapping 424 can process the second context text data 708 and can output a code that describes the second context text data 708 in the second latent space 328.
  • the second neural transformation network 71 OB can also have at least part of an inverse third mapping 716, wherein the inverse third mapping 716 can correspond to the inverse mapping of the trained third mapping 502. That is, the inverse third map 716 describes a code that describes digital data describing a second context in the second latent space 328, a code that describes digital text data in the second latent space 328, and a code that describes digital Describes text data in the first latent space 328, can process and output a code describing digital data in the first latent space 308.
  • the inverse third mapping 716 can map a code that describes digital data describing a second context in the second latent space into the first latent space 308 using digital text data describing the first context and the second context .
  • the second decoder section 310 can process the second context data 712 that describe the second context and can output a code that describes the second context data 712 in the second latent space 328.
  • the inverse third map 716 may include the code describing the second context data 712 in the second latent space 328, the code describing the first context text data 706 in the first latent space 308, and a code describing the second context Describes and processes text data 708 in the second latent space 328 and can output a code that describes digital data in the first latent space 308.
  • the first decoder section 310 can process the code that describes digital data in the first latent space 308 and can output first context data 704 that describe the first context. That is, the second neural transformation network 71 OB can process digital data describing the second context and digital text data describing a first context and a second context, and can output digital data describing the first context.
  • the processor 108 can furthermore be configured to process the first context data 704 and can output classified and / or segmented first context data 714B.
  • the processor 108 can implement a second neural classification network, the second classification network being set up to classify and / or segment digital data.
  • the second classification network can correspond to the first classification network.
  • FIG. 8 illustrates a vehicle 800 in accordance with various embodiments.
  • the vehicle 800 may be an internal combustion engine vehicle, an electric vehicle, a hybrid vehicle, or a combination thereof. Further, the vehicle 800 can be a car, a truck, a ship, a drone, an airplane, and the like.
  • the vehicle 800 may include at least one sensor (e.g., an imaging sensor) 802 (e.g., the sensor 102).
  • the vehicle 800 may be on
  • the driver assistance system 804 can the
  • the driver assistance system 804 can include the processor 108.
  • the processor 108 can implement the first neural transformation network 710A and / or the second neural transformation network 71OB.
  • the first neural transformation network 710A can be set up to process digital data that describe a first context and to output digital data that describe a second context.
  • the second neural transformation network 71 OB can be set up to process digital data that describe a second context and to output digital data that describe a first context.
  • the first were neural
  • Transformation network 710A and / or the second neural transformation network 71 OB trained according to the method 600 for training a neural network, so that the first neural transformation network 71 OB or the second neural transformation network 71 OB digital data which have a first context or a second context describe can be transformed into digital data which describe a second context or a first context.
  • the processor 108 may also be set up to be used by the first neural
  • Transformation network 710A and / or the second neural transformation network 71 OB to classify and / or segment digital data output.
  • the processor 108 can implement a neural classification network that is set up to classify and / or segment the digital data output by the first neural transformation network 710A and / or the second neural transformation network 71 OB.
  • segmented digital data 714A, 714B on the intention of road users as a feature.
  • This has in combination with the transformation of the digital image data for example, the advantage that the intention of a road user can be determined depending on the context of the situation, for example the territorial context with regard to a district, a region, a country, etc.
  • the driver assistance system 804 can be set up to control the vehicle 800 based on the classified and / or segmented digital data 714A, 714B.
  • the driver assistance system 804 can be set up to process the classified and / or segmented digital data 714A, 714B and to output at least one control command to one or more actuators of the vehicle 800 based on the classified and / or segmented digital data 714A, 714B to be able to.
  • the driver assistance system 804 can influence the current driving behavior based on the context of the digital image data 204 and thus the context of the classified and / or segmented digital data 714A, 714B, for example the current driving behavior can be maintained or changed.
  • the driver assistance system 804 can determine that a pedestrian is trying to cross a street in the context of a situation and can, for example, change the driving behavior in such a way that the driving behavior is interfered with for safety reasons, for example by emergency braking.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

A device and a method for training a neural network are disclosed, the method for training a neural network comprising: training a first neural sub-network with first digital training data (302), which describe a first context, the first neural sub-network being designed as an autoencoder network and having a first encoder portion (306) and a first decoder portion, and the first encoder portion (306) providing a mapping of the first digital training data (302) to a first latent space (308); training a first mapping (404) of first digital data (402), which are semantically related to the first digital training data (302), to the first latent space (308) using the first digital training data (302) mapped to the first latent space (308) by means of the trained first neural sub-network; training a second neural sub-network with second digital training data (322), which describe a second context different from the first context, the second neural sub-network being designed as an autoencoder network and having a second encoder portion and a second decoder portion (330), and the second encoder portion providing a mapping of the second digital training data (322) to a second latent space; training a second mapping (424) of second digital data (422), which are semantically related to the second digital training data (322), to the second latent space (328), using the second digital training data (322) mapped to the second latent space (328) by means of the trained second neural sub-network; training a third mapping (502) of digital latent data from the first latent space (308) to the second latent space (328) using third digital training data and third digital data, the third digital training data comprising digital training data describing the first context and digital training data describing the second context, the third digital data comprising digital data semantically related to the digital training data describing the first context and digital data semantically related to the digital training data describing the second context.

Description

Beschreibung description
Vorrichtung und Verfahren zum Trainieren eines neuronalen Netzwerkes Device and method for training a neural network
Verschiedene Ausführungsbeispiele betreffen allgemein eine Vorrichtung und ein Various embodiments generally relate to an apparatus and a
Verfahren zum Trainieren eines neuronalen Netzwerkes. Method for training a neural network.
Verschiedene neuronale Netzwerke werden beispielsweise verwendet, um Ausgangsdaten basierend auf Eingangsdaten und einer Funktion, die durch das Trainieren des neuronalen Netzwerkes gelernt wurde, zu erzeugen. Die erwünschten Ausgangsdaten können von dem Kontext in dem die Eingangsdaten erzeugt wurden, abhängen. Daher kann es erforderlich sein, dass Daten, welche einen ersten Kontext beschreiben in Daten, welche einen zweiten Kontext beschreiben, transformiert werden. Der Kontext ist beispielsweise bei der Various neural networks are used, for example, to generate output data based on input data and a function learned by training the neural network. The desired output data can depend on the context in which the input data was generated. It may therefore be necessary for data that describe a first context to be transformed into data that describe a second context. The context is for example with the
Intentionserkennung von Verkehrsteilnehmern von Bedeutung. Intention recognition of road users is important.
In Suwajanakorn et al., Synthesizing Obama: Learning Lip Sync from Audio, ACM In Suwajanakorn et al., Synthesizing Obama: Learning Lip Sync from Audio, ACM
Transactions on Graphics, Vol. 36, No. 4, 2017 ist ein Verfahren zum Transformieren von Videodaten mittels eines neuronalen Netzwerkes beschrieben. Transactions on Graphics, Vol. 36, No. 4, 2017 describes a method for transforming video data by means of a neural network.
Das Verfahren und die Vorrichtung mit den Merkmalen der unabhängigen Ansprüche 1 (erstes Beispiel) und 9 (zweiunddreißigstes Beispiel) ermöglichen, ein neuronales The method and the device with the features of independent claims 1 (first example) and 9 (thirty-second example) enable a neural
Netzwerk zu trainieren, um digitale Daten aus einem ersten Kontext in einen zweiten Kontext zu transformieren. Network to train to transform digital data from a first context into a second context.
Der Kontext der digitalen Daten, zum Beispiel der ersten digitalen Trainingsdaten und der zweiten digitalen Trainingsdaten, kann sich dahingehend unterscheiden, in welchem Kontext die digitalen Daten erzeugt wurden, d.h. in welchem Zusammenhang bzw. unter welchen Randbedingungen die digitalen Daten erzeugt wurden, und/oder dem intrinsischen Kontext der digitalen Daten, zum Beispiel welches Umfeld durch die digitalen Daten beschrieben wird. In verschiedenen Ausführungsformen können sich der Kontext, d.h. erste Kontext und der zweite Kontext, territorial unterscheiden. Beispielsweise kann der Kontext bezüglich einem Stadtteil, einer Region, einem Land usw. verschieden sein. Der Kontext kann sich bezüglich der Sprache unterscheiden und/oder kann sich bezüglich der Mimik und Gestik, die mit einer Sprache und/oder einer Region / einem Land verknüpft sind, unterscheiden. Der Kontext kann kulturell verschieden sein, d.h. der Kontext kann sich beispielsweise territorial, in der Sprache, der Mimik, der Gestik, usw. unterscheiden. Gemäß einem Beispiel sind die digitalen Daten digitale Bilddaten und der Kontext kann sich territorial unterscheiden, indem die digitalen Bilddaten in verschiedenen Ländern erzeugt wurden, und/oder kann sich intrinsisch unterscheiden, indem die digitalen Bilddaten sich in Gestik und Mimik zu einem von einer Person gesprochenen Text (d.h. die digitalen Bilddaten unterscheiden sich ferner bezüglich den von der Sprache abhängigen Bewegungen des Gesichtes) unterscheiden. The context of the digital data, for example the first digital training data and the second digital training data, can differ in terms of the context in which the digital data were generated, ie in which context or under which boundary conditions the digital data were generated, and / or the intrinsic context of the digital data, for example which environment is described by the digital data. In different embodiments, the context, ie the first context and the second context, can differ territorially. For example, the context of a district, a region, a country, etc. can be different. The context can differ in terms of language and / or can differ in terms of facial expressions and gestures associated with a language and / or a region / country. The context can be culturally different, ie the context can differ in terms of territory, language, facial expressions, gestures, etc. According to one example, the digital data is digital image data and the context can change territorially, in that the digital image data were generated in different countries, and / or can differ intrinsically in that the digital image data differ in gestures and facial expressions to a text spoken by a person (ie the digital image data also differ with regard to the language dependent movements of the face).
Die Sprache kann beispielsweise auch bei den digitalen Daten, welche mit den digitalen Daten, welche einen ersten Kontext bzw. einen zweiten Kontext beschreiben, in The language can, for example, also be used in the case of the digital data which are linked to the digital data which describe a first context or a second context
semantischer Beziehung stehen, verschieden sein. Die digitalen Daten welche mit den digitalen Daten, welche den ersten Kontext bzw. den zweiten Kontext beschreiben, in semantischer Beziehung stehen, können beispielsweise Textdaten sein, welche eine Mehrzahl an Textstrings aufweisen, und die semantische Beziehung kann beschreiben, dass jedem digitalen Datum der digitalen Daten, welche den ersten Kontext bzw. den zweiten Kontext beschreiben, genau ein Textstring der Mehrzahl an Textstrings zugeordnet ist. Anders ausgedrückt können digitale Textdaten digitalen Daten, welche einen Kontext beschreiben, zugeordnet sein und die digitalen Daten beschreiben. Das heißt die digitalen Textdaten können den Inhalt der digitalen Daten anschaulich beschreiben. Die digitalen Textdaten können zusätzliche Informationen bezüglich der digitalen Daten aufweisen. Beispielsweise können die digitalen Daten digitale Bilddaten sein, welche eine Szene darstellen, und die digitalen Textdaten können die Szene beschreiben. semantic relationship, be different. The digital data that are semantically related to the digital data that describe the first context or the second context can be, for example, text data that have a plurality of text strings, and the semantic relationship can describe that each digital datum of the digital Data which describe the first context or the second context, exactly one text string of the plurality of text strings is assigned. In other words, digital text data can be assigned to digital data that describe a context and describe the digital data. This means that the digital text data can clearly describe the content of the digital data. The digital text data can have additional information relating to the digital data. For example, the digital data can be digital image data representing a scene and the digital text data can describe the scene.
Die erste Abbildung, die zweite Abbildung und die dritte Abbildung können ein neuronales Teilnetzwerk aufweisen. Jedes dieser neuronalen Teilnetzwerke kann ein beliebiges neuronales Netzwerk, beispielsweise ein Autoencoder-Netzwerk oder ein faltendes neuronales Netz (convolutional neural network), sein. Jedes neuronale Teilnetzwerk, d.h. auch das erste neuronale Teilnetzwerk und das zweite neuronale Teilnetzwerk, kann eine beliebige Anzahl an Schichten aufweisen und kann nach einem beliebigen Verfahren trainiert werden, wie zum Beispiel durch Backpropagation. Jeder Encoder- Ab schnitt eines Autoencoder-Netzwerkes kann eine beliebige Anzahl an Encoder- Schichten aufweisen, wobei jede Encoder- Schicht eine faltende Schicht (convolutional layer) mit beliebigen Eigenschaften (zum Beispiel einer beliebigen Filtergröße), eine Aktivierungsfunktion (zum Beispiel eine ReLU-Aktivierungsfunktion), eine Pooling-Schicht mit beliebigen The first map, the second map and the third map can comprise a neural subnetwork. Each of these neural sub-networks can be any neural network, for example an autoencoder network or a convolutional neural network. Each neural sub-network, i.e. including the first neural sub-network and the second neural sub-network, can have any number of layers and can be trained using any method, such as backpropagation. Each encoder section of an autoencoder network can have any number of encoder layers, with each encoder layer having a convolutional layer with any properties (for example any filter size), an activation function (for example a ReLU Activation function), a pooling layer with any
Eigenschaften (zum Beispiel eine Max-Pooling-Schicht mit einer beliebigen Schrittweite) und eine Normalisierungsschicht aufweisen kann. Jeder Decoder- Ab schnitt eines Properties (for example a max pooling layer with any increment) and a normalization layer can have. Each decoder section has one
Autoencoder-Netzwerkes kann eine beliebige Anzahl an Decoder-Schichten aufweisen, wobei jede Decoder-Schicht eine transponierte faltende Schicht mit beliebigen Autoencoder network can have any number of decoder layers, each decoder layer having a transposed convolutional layer with any number of decoder layers
Eigenschaften, eine faltende Schicht mit beliebigen Eigenschaften, eine Aktiviemngsfunktion (zum Beispiel eine ReLU-Aktivierungsfunktion) und eine Properties, a folding layer with any properties, a Activation function (for example a ReLU activation function) and a
Normalisierungsschicht aufweisen kann. May have normalization layer.
Zumindest ein Teil des ersten neuronalen Teilnetzwerks kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der ersten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil des zweiten neuronalen Teilnetzwerks kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der zweiten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der dritten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel bilden ein zweites Beispiel. At least a part of the first neural sub-network can be implemented by one or more processors. At least part of the first mapping can be implemented by one or more processors. At least a part of the second neural sub-network can be implemented by one or more processors. At least part of the second mapping can be implemented by one or more processors. At least part of the third mapping can be implemented by one or more processors. The features described in this paragraph in combination with the first example form a second example.
Die ersten digitalen Trainingsdaten und die zweiten digitalen Trainingsdaten können digitale Bilddaten aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit dem ersten Beispiel oder dem zweiten Beispiel bildet ein drittes Beispiel. The first digital training data and the second digital training data can include digital image data. The feature described in this paragraph in combination with the first example or the second example forms a third example.
Das erste neuronale Teilnetzwerk kann trainiert werden, indem der erste Decoder- Abschnitt die durch den ersten Encoder- Ab schnitt in den ersten latenten Raum The first neural sub-network can be trained in that the first decoder section passes through the first encoder section into the first latent space
abgebildeten ersten digitalen Trainingsdaten rekonstruiert und die rekonstruierten ersten digitalen Trainingsdaten mit den ersten digitalen Trainingsdaten vergleicht. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dritten Beispiel bilden ein viertes Beispiel. reproduced first digital training data and compares the reconstructed first digital training data with the first digital training data. The features described in this paragraph in combination with one or more of the first example to the third example form a fourth example.
Das Vergleichen der rekonstruierten ersten digitalen Trainingsdaten mit den ersten digitalen Trainingsdaten kann das Ermitteln eines ersten Verlustwertes aufweisen. Der erste Verlustwert kann basierend auf einer Verlustfunktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel bilden ein fünftes Beispiel. Comparing the reconstructed first digital training data with the first digital training data can include determining a first loss value. The first loss value can be determined based on a loss function. The features described in this paragraph in combination with the fourth example form a fifth example.
Das Trainieren des ersten neuronalen Teilnetzwerks kann das Adaptieren des ersten Encoder- Ab Schnitts und des ersten Decoder- Ab Schnitts aufweisen, wobei das Adaptieren des ersten Encoder- Ab Schnitts und des ersten Decoder- Ab Schnitts das Minimieren des ersten Verlustwertes aufweisen kann. Das heißt, dass der erste Encoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks einen Code ausgeben kann, der digitale Daten, welche einen ersten Kontext beschreiben, in einem ersten latenten Raum beschreibt, und dass der erste Decoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks einen Code, der digitale Daten, welche einen ersten Kontext beschreiben, in einem ersten latenten Raum beschreibt, verarbeiten kann und basierend auf dem Code digitale Daten ausgeben kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem fünften Beispiel bilden ein sechstes Beispiel. The training of the first neural subnetwork can include adapting the first encoder section and the first decoder section, wherein the adaptation of the first encoder section and the first decoder section can include minimizing the first loss value. This means that the first encoder section of the trained first neural subnetwork can output a code that describes digital data describing a first context in a first latent space, and that the first decoder section of the trained first neural subnetwork a code, the digital data describing a first context in a first Describes latent space, can process it and can output digital data based on the code. The features described in this paragraph in combination with the fifth example form a sixth example.
Das zweite neuronale Teilnetzwerk kann trainiert werden, indem der zweite Decoder- Abschnitt die durch den zweiten Encoder- Ab schnitt in den zweiten latenten Raum abgebildeten zweiten digitalen Trainingsdaten rekonstruiert und die rekonstruierten zweiten digitalen Trainingsdaten mit den zweiten digitalen Trainingsdaten vergleicht. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem sechsten Beispiel bilden ein siebtes Beispiel. The second neural sub-network can be trained by the second decoder section reconstructing the second digital training data mapped into the second latent space by the second encoder section and comparing the reconstructed second digital training data with the second digital training data. The features described in this paragraph in combination with one or more of the first example to the sixth example form a seventh example.
Das Vergleichen der rekonstruierten zweiten digitalen Trainingsdaten mit den zweiten digitalen Trainingsdaten kann das Ermitteln eines zweiten Verlustwertes aufweisen. Der zweite Verlustwert kann basierend auf einer Verlustfunktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem siebten Beispiel bilden ein achtes Beispiel. Comparing the reconstructed second digital training data with the second digital training data can include determining a second loss value. The second loss value can be determined based on a loss function. The features described in this paragraph in combination with the seventh example form an eighth example.
Das Trainieren des zweiten neuronalen Teilnetzwerks kann das Adaptieren des zweiten Encoder- Ab Schnitts und des zweiten Decoder- Ab Schnitts aufweisen, wobei das Adaptieren des zweiten Encoder- Ab Schnitts und des zweiten Decoder- Ab Schnitts das Minimieren des zweiten Verlustwertes aufweisen kann. Das heißt, dass der zweite Encoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks einen Code ausgeben kann, der digitale Daten, welche einen zweiten Kontext beschreiben, in einem zweiten latenten Raum beschreibt, und dass der zweite Decoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks einen Code, der digitale Daten, welche einen zweiten Kontext beschreiben, in einem zweiten latenten Raum beschreibt, verarbeiten kann und basierend auf dem Code digitale Daten ausgeben kann. Die in diesem Absatz beschriebenen Merkmale in The training of the second neural sub-network can include the adaptation of the second encoder section and the second decoder section, wherein the adaptation of the second encoder section and the second decoder section can include minimizing the second loss value. This means that the second encoder section of the trained second neural sub-network can output a code that describes digital data describing a second context in a second latent space, and that the second decoder section of the trained second neural sub-network a code that describes digital data describing a second context in a second latent space, can process it and can output digital data based on the code. The features described in this paragraph in
Kombination mit dem achten Beispiel bilden ein neuntes Beispiel. Combination with the eighth example form a ninth example.
Die erste Abbildung kann ein drittes neuronales Teilnetzwerk aufweisen und die zweite Abbildung kann ein viertes neuronales Teilnetzwerk aufweisen. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem neunten Beispiel bilden ein zehntes Beispiel. The first map can have a third neural sub-network and the second map can have a fourth neural sub-network. The features described in this paragraph in combination with one or more of the first example to the ninth example form a tenth example.
Die ersten digitalen Daten und die zweiten digitalen Daten können eine Mehrzahl an Textstrings aufweisen, wobei die Textstrings die zugeordneten ersten digitalen The first digital data and the second digital data can have a plurality of text strings, the text strings being the associated first digital
Trainingsdaten bzw. die zugeordneten zweiten digitalen Trainingsdaten beschreibt. Das heißt, dass jedes erste digitale Trainingsdatum der ersten digitalen Trainingsdaten genau einem Textstring der Mehrzahl an Textstrings der ersten digitalen Daten zugeordnet sein kann und dass jedes zweite digitale Trainingsdatum der zweiten digitalen Trainingsdaten genau einem Textstring der Mehrzahl an Textstrings der zweiten digitalen Daten zugeordnet sein kann. Beispielsweise können die ersten digitalen Trainingsdaten bzw. die zweiten digitalen Trainingsdaten digitale Bilddaten aufweisen, welche eine Szene darstellen, und die ersten digitalen Daten bzw. die zweiten digitalen Daten können eine Mehrzahl an Textstrings aufweisen, die die jeweils dargestellte Szene beschreiben. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem zehnten Beispiel bilden ein elftes Beispiel. Describes training data or the assigned second digital training data. The means that each first digital training date of the first digital training data can be assigned to exactly one text string of the plurality of text strings of the first digital data and that each second digital training date of the second digital training data can be assigned to exactly one text string of the plurality of text strings of the second digital data. For example, the first digital training data or the second digital training data can have digital image data that represent a scene, and the first digital data or the second digital data can have a plurality of text strings that describe the scene shown in each case. The features described in this paragraph in combination with one or more of the first example to the tenth example form an eleventh example.
Das Trainieren der ersten Abbildung kann das Vergleichen des durch den ersten Encoder- Abschnitt basierend auf den ersten digitalen Trainingsdaten ausgegeben Codes mit einem durch die erste Abbildung basierend auf den ersten digitalen Daten ausgegebenen Code aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem elften Beispiel bildet ein zwölftes Beispiel. Training the first mapping may include comparing the code output by the first encoder section based on the first digital training data with a code output by the first mapping based on the first digital data. The feature described in this paragraph in combination with one or more of the first example to the eleventh example forms a twelfth example.
Das Vergleichen des durch den ersten Encoder- Ab schnitt basierend auf den ersten digitalen Trainingsdaten ausgegeben Codes mit einem durch die erste Abbildung basierend auf den ersten digitalen Daten ausgegebenen Code kann das Ermitteln eines ersten The comparison of the code output by the first encoder section based on the first digital training data with a code output by the first mapping based on the first digital data can result in the determination of a first
Abbildungs- Verlustwertes aufweisen. Der erste Abbildungs-Verlustwert kann basierend auf einer Verlustfunktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem zwölften Beispiel bilden ein dreizehntes Beispiel. Have image loss value. The first mapping loss value can be determined based on a loss function. The features described in this paragraph in combination with the twelfth example form a thirteenth example.
Das Trainieren der ersten Abbildung kann das Adaptieren der ersten Abbildung aufweisen, wobei das Adaptieren der ersten Abbildung das Minimieren des ersten Abbildungs- Verlustwertes aufweisen kann. Das heißt, dass die trainierte erste Abbildung einen Code ausgeben kann, der digitale Textdaten, welche einen ersten Kontext beschreiben, in einem ersten latenten Raum beschreibt, wobei der Code, der die digitalen Textdaten beschreibt, einem Code, der die digitalen Daten in dem ersten latenten Raum beschreibt, zugeordnet sein kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem dreizehnten Beispiel bilden ein vierzehntes Beispiel. Training the first mapping can include adapting the first mapping, wherein adapting the first mapping can include minimizing the first mapping loss value. This means that the trained first mapping can output a code that describes digital text data that describe a first context in a first latent space, the code that describes the digital text data, a code that describes the digital data in the first describes latent space, can be assigned. The features described in this paragraph in combination with the thirteenth example form a fourteenth example.
Zumindest ein Teil der ersten digitalen Daten kann durch ein zusätzliches erstes neuronales Netzwerk bereitgestellt werden, wobei das zusätzliche erste neuronale Netzwerk zumindest einen Teil der ersten digitalen Trainingsdaten verarbeiten kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem vierzehnten Beispiel bilden ein fünfzehntes Beispiel. At least part of the first digital data can be provided by an additional first neural network, the additional first neural network being able to process at least part of the first digital training data. The ones in this paragraph Features described in combination with one or more of the first example to the fourteenth example form a fifteenth example.
Das Trainieren der zweiten Abbildung kann das Vergleichen des durch den zweiten Encoder- Ab schnitt basierend auf den zweiten digitalen Trainingsdaten ausgegeben Codes mit einem durch die zweite Abbildung basierend auf den zweiten digitalen Daten ausgegebenen Code aufweisen. Die in diesem Absatz beschriebenen Merkmale in The training of the second mapping can include comparing the code output by the second encoder section based on the second digital training data with a code output by the second mapping based on the second digital data. The features described in this paragraph in
Kombination mit einem oder mehreren des ersten Beispiels bis dem fünfzehnten Beispiel bilden ein sechzehntes Beispiel. Combination with one or more of the first example to the fifteenth example forms a sixteenth example.
Das Vergleichen des durch den zweiten Encoder- Ab schnitt basierend auf den zweiten digitalen Trainingsdaten ausgegeben Codes mit einem durch die zweite Abbildung basierend auf den zweiten digitalen Daten ausgegebenen Code kann das Ermitteln eines zweiten Abbildungs-Verlustwertes aufweisen. Der zweite Abbildungs-Verlustwert kann basierend auf einer Verlustfünktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem sechzehnten Beispiel bilden ein siebzehntes Beispiel. The comparison of the code output by the second encoder section based on the second digital training data with a code output by the second mapping based on the second digital data can include determining a second mapping loss value. The second mapping loss value can be determined based on a loss function. The features described in this paragraph in combination with the sixteenth example form a seventeenth example.
Das Trainieren der zweiten Abbildung kann das Adaptieren der zweiten Abbildung aufweisen, wobei das Adaptieren der zweiten Abbildung das Minimieren des zweiten Abbildungs- Verlustwertes aufweisen kann. Das heißt, dass die trainierte zweite Abbildung einen Code ausgeben kann, der digitale Textdaten, welche einen zweiten Kontext beschreiben, in einem zweiten latenten Raum beschreibt, wobei der Code, der die digitalen Textdaten beschreibt, einem Code, der die digitalen Daten in dem zweiten latenten Raum beschreibt, zugeordnet sein kann. Die in diesem Absatz beschriebenen Merkmale in Kombination dem siebzehnten Beispiel bilden ein achtzehntes Beispiel. The training of the second mapping can comprise the adapting of the second mapping, wherein the adapting of the second mapping can comprise the minimizing of the second mapping loss value. This means that the trained second mapping can output a code that describes digital text data describing a second context in a second latent space, the code describing the digital text data being a code describing the digital data in the second describes latent space, can be assigned. The features described in this paragraph in combination with the seventeenth example form an eighteenth example.
Zumindest ein Teil der zweiten digitalen Daten kann durch ein zusätzliches zweites neuronales Netzwerk bereitgestellt werden, wobei das zusätzliche zweiten neuronale Netzwerk zumindest einen Teil der zweiten digitalen Trainingsdaten verarbeiten kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem achtzehnten Beispiel bilden ein neunzehntes Beispiel. At least part of the second digital data can be provided by an additional second neural network, wherein the additional second neural network can process at least part of the second digital training data. The features described in this paragraph in combination with one or more of the first example through the eighteenth example form a nineteenth example.
Die dritte Abbildung kann ein fünftes neuronales Teilnetzwerk aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem neunzehnten Beispiel bildet ein zwanzigstes Beispiel. Die digitalen Trainingsdaten der dritten digitalen Trainingsdaten, welche den ersten Kontext beschreiben, können zumindest eine Teilmenge der ersten digitalen The third map can have a fifth neural sub-network. The feature described in this paragraph in combination with one or more of the first example through the nineteenth example forms a twentieth example. The digital training data of the third digital training data, which describe the first context, can contain at least a subset of the first digital
Trainingsdaten (zum Beispiel die gesamten ersten digitalen Trainingsdaten) aufweisen und die digitalen Daten der dritten digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen, können die der Teilmenge der ersten digitalen Training data (for example the entire first digital training data) and the digital data of the third digital data, which are semantically related to this digital training data, can be those of the subset of the first digital
Trainingsdaten zugeordnete Teilmenge der ersten digitalen Daten aufweisen. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem zwanzigsten Beispiel bilden ein einundzwanzigstes Beispiel. Have training data assigned subset of the first digital data. The features described in this paragraph in combination with one or more of the first example through the twentieth example form a twenty-first example.
Die digitalen Trainingsdaten der dritten digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, können zumindest eine Teilmenge der zweiten digitalen The digital training data of the third digital training data, which describe the second context, can contain at least a subset of the second digital
Trainingsdaten (zum Beispiel die gesamten zweiten digitalen Trainingsdaten) aufweisen und die digitalen Daten der dritten digitalen Daten, welche mit diesen digitalen Training data (for example, the entire second digital training data) and the digital data of the third digital data, which with this digital
Trainingsdaten in semantischer Beziehung stehen, können die der Teilmenge der zweiten digitalen Trainingsdaten zugeordnete Teilmenge der zweiten digitalen Daten aufweisen.Training data are semantically related can have the subset of the second digital data assigned to the subset of the second digital training data.
Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem einundzwanzigsten Beispiel bilden ein zweiundzwanzigstes Beispiel. The features described in this paragraph in combination with one or more of the first example through the twenty-first example form a twenty-second example.
Die dritte Abbildung kann einen Code, der digitale Trainingsdaten, welche den ersten Kontext beschreiben, in dem ersten latenten Raum beschreibt, einen Code, der digitale Daten, welche mit den digitalen Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen, in dem ersten latenten Raum beschreibt, und einen Code, der digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen, in dem zweiten latenten Raum beschreibt, verarbeiten und kann einen Code ausgeben, der digitale Trainingsdaten in dem zweiten latenten Raum beschreibt, ausgeben. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem zweiundzwanzigsten Beispiel bilden ein dreiundzwanzigstes Beispiel. The third mapping can be a code that describes digital training data that describe the first context in the first latent space, a code that describes digital data that is semantically related to the digital training data that describes the first context in which first latent space describes, and a code that describes digital data, which are semantically related to the digital training data that describe the second context, in the second latent space, and can output a code that describes digital training data in the second describes latent space, spend. The features described in this paragraph in combination with one or more of the first example through the twenty-second example form a twenty-third example.
Der zweite Decoder- Ab schnitt kann den Code, der digitale Trainingsdaten in dem zweiten latenten Raum beschreibt, verarbeiten und kann rekonstruierte digitale Trainingsdaten, welche den zweiten Kontext beschreiben, ausgeben. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dreiundzwanzigstens Beispiel bilden ein vierundzwanzigstes Beispiel. Das Trainieren der dritten Abbildung kann das Vergleichen der rekonstruierten digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, mit den digitalen The second decoder section can process the code that describes digital training data in the second latent space and can output reconstructed digital training data that describe the second context. The features described in this paragraph in combination with one or more of the first example through the twenty-third example form a twenty-fourth example. The training of the third mapping can involve comparing the reconstructed digital training data, which describe the second context, with the digital one
Trainingsdaten, welche den zweiten Kontext beschreiben, aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem vierundzwanzigsten Beispiel bilden ein fünfundzwanzigstes Beispiel. Have training data that describe the second context. The feature described in this paragraph in combination with one or more of the first example through the twenty-fourth example form a twenty-fifth example.
Das Vergleichen der rekonstruierten digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, kann das Ermitteln eines dritten Abbildungs-Verlustwertes aufweisen. Der dritte Comparing the reconstructed digital training data, which describe the second context, with the digital training data, which describes the second context, can include determining a third mapping loss value. The third
Abbildungs- Verlustwert kann basierend auf einer Verlustfunktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem fünfundzwanzigsten Beispiel bilden ein sechsundzwanzigstes Beispiel. The mapping loss value can be determined based on a loss function. The features described in this paragraph in combination with the twenty-fifth example form a twenty-sixth example.
Das Trainieren der dritten Abbildung kann das Adaptieren der dritten Abbildung aufweisen, wobei das Adaptieren der dritten Abbildung das Minimieren des dritten Abbildungs- Verlustwertes aufweisen kann. Das hat den Effekt, dass die trainierte dritte Abbildung einen Code, der digitale Trainingsdaten, welche den ersten Kontext The training of the third mapping can comprise adapting the third mapping, wherein adapting the third mapping can comprise minimizing the third mapping loss value. This has the effect that the trained third figure is a code, the digital training data, which the first context
beschreiben, in dem ersten latenten Raum beschreibt, einen Code, der digitale Daten, welche mit den digitalen Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen, in dem ersten latenten Raum beschreibt, und einen Code, der digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen, in dem zweiten latenten Raum beschreibt, verarbeiten kann und digitale Trainingsdaten, welche den zweiten Kontext beschreiben, ausgeben kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem sechsundzwanzigsten Beispiel bilden ein siebenundzwanzigstes Beispiel. describe, in the first latent space describes a code that describes digital data, which are semantically related to the digital training data that describe the first context, in the first latent space, and a code that describes digital data that is associated with the digital training data that describe the second context are semantically related, describe and process in the second latent space and can output digital training data that describe the second context. The features described in this paragraph in combination with the twenty-sixth example form a twenty-seventh example.
Ein erstes Transformationsnetzwerk kann den ersten Encoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks, den zweiten Decoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks, die trainierte erste Abbildung, die trainierte zweite Abbildung und die trainierte dritte Abbildung aufweisen. Das erste Transformationsnetzwerk kann digitale Daten, die einen ersten Kontext beschreiben, digitale Textdaten, die den ersten Kontext beschreiben und den digitalen Daten, die den ersten Kontext beschreiben, zugeordnet sind, und digitale Textdaten, die einen zweiten Kontext beschreiben, verarbeiten und kann digitale Daten, die den zweiten Kontext beschreiben ausgeben. Das heißt, dass das erste Transformationsnetzwerk digitale Daten, die einen ersten Kontext beschreiben, in digitale Daten, die einen zweiten Kontext beschreiben, transformieren kann. Das hat den Vorteil, dass, falls digitale Daten, die einen ersten Kontext beschreiben, umfangreich vorhanden sind und falls digitale Daten, die einen zweiten Kontext beschreiben, nicht umfangreich vorhanden sind, basierend auf den digitalen Daten, die den ersten Kontext beschreiben, digitale Daten, die den zweiten Kontext beschreiben, erzeugt werden können. Anders ausgedrückt können digitale Daten für einen zweiten Kontext erzeugt werden, sodas s sowohl für den ersten Kontext als auch für den zweiten Kontext umfangreich digitale Daten vorhanden sind. Die in diesem Absatz beschriebenen A first transformation network can have the first encoder section of the trained first neural subnetwork, the second decoder section of the trained second neural subnetwork, the trained first mapping, the trained second mapping and the trained third mapping. The first transformation network can process digital data describing a first context, digital text data describing the first context and associated with the digital data describing the first context, and digital text data describing a second context, and can process digital data that describe the second context. That is to say that the first transformation network can transform digital data that describe a first context into digital data that describe a second context. This has the advantage that, if digital data describing an initial context, are extensively available and if digital data that describe a second context are not extensively available, based on the digital data that describe the first context, digital data that describe the second context can be generated. In other words, digital data can be generated for a second context, so that extensive digital data are available both for the first context and for the second context. The ones described in this paragraph
Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem siebenundzwanzigsten Beispiel bilden ein achtundzwanzigstes Beispiel. Features in combination with one or more of the first example through the twenty-seventh example form a twenty-eighth example.
Ein zweites Transformationsnetzwerk kann den zweiten Encoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks, den ersten Decoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks, die trainierte erste Abbildung, die trainierte zweite Abbildung und die inverse Abbildung der trainierten dritten Abbildung aufweisen. Das zweite Transformationsnetzwerk kann digitale Daten, die einen zweiten Kontext beschreiben, digitale Textdaten, die den zweiten Kontext beschreiben und den digitalen Daten, die den zweiten Kontext beschreiben, zugeordnet sind, und digitale Textdaten, die einen ersten Kontext beschreiben, verarbeiten und kann digitale Daten, die den ersten Kontext beschreiben ausgeben. Das heißt, dass das zweite Transformationsnetzwerk digitale Daten, die einen zweiten Kontext beschreiben, in digitale Daten, die einen ersten Kontext beschreiben, transformieren kann. Dies hat den Vorteil, dass, digitalen Daten an den jeweiligen Kontext angepasst werden können, sodass die digitalen Daten basierend auf dem Kontext, in dem die digitalen Daten erzeugt wurden bzw. dem intrinsischen Kontext der digitalen Daten weiterverarbeitet werden können. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem achtundzwanzigsten Beispiel bilden ein neunundzwanzigstes Beispiel. A second transformation network can have the second encoder section of the trained second neural subnetwork, the first decoder section of the trained first neural subnetwork, the trained first mapping, the trained second mapping and the inverse mapping of the trained third mapping. The second transformation network can process digital data describing a second context, digital text data describing the second context and associated with the digital data describing the second context, and digital text data describing a first context, and can process digital data that describe the first context. That is to say that the second transformation network can transform digital data that describe a second context into digital data that describe a first context. This has the advantage that digital data can be adapted to the respective context, so that the digital data can be further processed based on the context in which the digital data were generated or the intrinsic context of the digital data. The features described in this paragraph in combination with one or more of the first example through the twenty-eighth example form a twenty-ninth example.
Ein Computerprogramm kann Programminstruktionen aufweisen, die eingerichtet sind, wenn sie von einem oder von mehreren Prozessoren ausgeführt werden, das Verfahren nach einem oder mehreren des ersten Beispiels bis dem neunundzwanzigsten Beispiel auszuführen. Das in diesem Absatz beschriebene Merkmal bildet ein dreißigstes Beispiel. A computer program can have program instructions which, when they are executed by one or more processors, are set up to carry out the method according to one or more of the first example to the twenty-ninth example. The feature described in this paragraph constitutes a thirtieth example.
Das Computerprogramm kann in einem maschinenlesbaren Speichermedium gespeichert sein. Das in diesem Absatz beschriebene Merkmal in Kombination mit dem dreißigsten Beispiel bildet ein einunddreißigstes Beispiel. The computer program can be stored in a machine-readable storage medium. The feature described in this paragraph in combination with the thirtieth example forms a thirty-first example.
Zumindest ein Teil des ersten neuronalen Teilnetzwerks kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der ersten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil des zweiten neuronalen Teilnetzwerks kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der zweiten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der dritten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem zweiunddreißigsten Beispiel bilden ein dreiunddreißigstes Beispiel. At least a part of the first neural sub-network can be implemented by one or more processors. At least part of the first figure can be replaced by a or multiple processors can be implemented. At least a part of the second neural sub-network can be implemented by one or more processors. At least part of the second mapping can be implemented by one or more processors. At least part of the third mapping can be implemented by one or more processors. The features described in this paragraph in combination with the thirty-second example form a thirty-third example.
Ein System kann eine Vorrichtung nach dem zweiunddreißigsten Beispiel oder dem dreiunddreißigsten Beispiel aufweisen. Das System kann einen Sensor, beispielsweise einen Bildgebungssensor aufweisen, der eingerichtet ist, um digitale Daten, die den ersten Kontext oder den zweiten Kontext beschreiben, bereitzustellen. Die in diesem Absatz beschriebenen Merkmale bilden ein vierunddreißigstes Beispiel. A system may include an apparatus of the thirty-second example or the thirty-third example. The system can have a sensor, for example an imaging sensor, which is set up to provide digital data that describe the first context or the second context. The features described in this paragraph constitute a thirty-fourth example.
Das System kann ferner ein zusätzliches neuronales Netzwerk aufweisen, das eingerichtet ist, um digitale Textdaten, die Textstrings aufweisen, welche die digitalen Daten, die den ersten Kontext oder den zweiten Kontext beschreiben, basierend auf den digitalen Daten, die den ersten Kontext oder den zweiten Kontext beschreiben, zu erzeugen. Das in diesem Absatz beschriebene Merkmale in Kombination mit dem vierunddreißigsten Beispiel bildet ein funfunddreißigstes Beispiel. The system may further comprise an additional neural network which is set up to digital text data, the text strings, which describe the digital data, which describe the first context or the second context, based on the digital data, which the first context or the second Describe, create context. The feature described in this paragraph in combination with the thirty-fourth example forms a thirty-fifth example.
Der Bildgebungssensor kann ein Kamera-Sensor oder ein Video-Sensor sein. Der The imaging sensor can be a camera sensor or a video sensor. The
Bildgebungssensor kann ein Fernortungssensor, wie beispielsweise ein Radar-Sensor, ein LIDAR-Sensor oder ein Ultraschall-Sensor, sein, der durch eine Verarbeitung der Imaging sensor can be a remote location sensor, such as a radar sensor, a LIDAR sensor or an ultrasonic sensor, which is processed by the
Sensorsignale mittels Bildgebungsverfahren Bilddaten bereitstellt. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierunddreißigsten Beispiel oder dem fünfunddreißigsten Beispiel bilden ein sechsunddreißigstes Beispiel. Sensor signals using imaging processes to provide image data. The features described in this paragraph in combination with the thirty-fourth example or the thirty-fifth example form a thirty-sixth example.
Ein Fahrzeug kann ein Fahrassistenzsystem aufweisen. Das Fahrassistenzsystem kann das System nach einem oder mehreren des vierunddreißigsten Beispiels bis dem A vehicle can have a driver assistance system. The driver assistance system may be the system according to one or more of the thirty-fourth examples to the
sechsunddreißigsten Beispiel aufweisen. Die in diesem Absatz beschriebenen Merkmale bilden ein siebenunddreißigstes Beispiel. having thirty-sixth example. The features described in this paragraph constitute a thirty-seventh example.
Ein Fahrzeug kann zumindest einen Bildgebungssensor oder einen Femortungssensor, der eingerichtet ist, um digitale Bilddaten bereitzustellen, aufweisen. Das Fahrzeug kann ferner ein Fahrassistenzsystem aufweisen. Das Fahrassistenzsystem kann das erste neuronale Transformationsnetzwerk nach dem achtundzwanzigsten Beispiel und/oder das zweite neuronale Transformationsnetzwerk nach dem neunundzwanzigsten Beispiel, aufweisen. Das Fahrassistenzsystems kann ferner eingerichtet sein, um die von dem ersten neuronalen Transformationsnetzwerk bzw. dem zweiten neuronalen Transformationsnetzwerk ausgegebenen digitalen Daten zu klassifizieren und/oder zu segmentieren. Das A vehicle can have at least one imaging sensor or a remote location sensor which is set up to provide digital image data. The vehicle can also have a driver assistance system. The driver assistance system can have the first neural transformation network according to the twenty-eighth example and / or the second neural transformation network according to the twenty-ninth example. The driver assistance system can furthermore be set up to classify and / or segment the digital data output by the first neural transformation network or the second neural transformation network. The
Fahrassistenzsystem kann eingerichtet sein, um das Fahrzeug basierend auf den klassifizierten und/oder segmentierten digitalen Daten zu steuern. Das heißt das The driver assistance system can be set up to control the vehicle based on the classified and / or segmented digital data. That means that
Fahrassistenzsystem kann eingerichtet sein, um die klassifizierten und/oder segmentierten digitalen Daten zu verarbeiten und um basierend auf den klassifizierten und/oder segmentierten digitalen Daten zumindest einen Steuerbefehl ausgeben zu können. Dies hat den Vorteil, dass das Fahrassistenzsystem das Fahrverhalten basierend auf dem Kontext der digitalen Daten beeinflussen kann. Beispielsweise kann das Fahrassistenzsystem die Intention eines Verkehrsteilnehmers basierend auf dem Kontext erkennen und The driver assistance system can be set up to process the classified and / or segmented digital data and to be able to output at least one control command based on the classified and / or segmented digital data. This has the advantage that the driver assistance system can influence the driving behavior based on the context of the digital data. For example, the driver assistance system can recognize the intention of a road user based on the context and
dementsprechend das Fahrverhalten beeinflussen (zum Beispiel das Fahrverhalten verändern, zum Beispiel das Fahrverhalten beibehalten). Die in diesem Absatz influence the driving behavior accordingly (e.g. changing the driving behavior, e.g. maintaining the driving behavior). The ones in this paragraph
beschriebenen Merkmale bilden ein achtunddreißigstes Beispiel. features described form a thirty-eighth example.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert. Exemplary embodiments of the invention are shown in the drawing and explained in more detail in the description below.
Es zeigen Show it
Figur 1 eine Vorrichtung gemäß verschiedenen Ausführungsformen; Figur 2 eine Bildgebungs-Vorrichtung gemäß verschiedenen Ausführungsformen; Figur 3A ein Verarbeitungssystem zum Trainieren eines ersten neuronalen FIG. 1 shows a device according to various embodiments; FIG. 2 shows an imaging device in accordance with various embodiments; Figure 3A shows a processing system for training a first neural
Teilnetzwerks gemäß verschiedenen Ausführungsformen; Subnetwork according to various embodiments;
Figur 3B ein Verarbeitungssystem zum Trainieren eines zweiten neuronalen Figure 3B shows a processing system for training a second neural
Teilnetzwerks gemäß verschiedenen Ausführungsformen; Subnetwork according to various embodiments;
Figur 4A ein Verarbeitungssystem zum Trainieren einer ersten Abbildung gemäß verschiedenen Ausführungsformen; FIG. 4A shows a processing system for training a first mapping in accordance with various embodiments;
Figur 4B ein Verarbeitungssystem zum Trainieren einer zweiten Abbildung gemäß verschiedenen Ausführungsformen; Figur 5 ein Verarbeitungssystem zum Trainieren einer dritten Abbildung gemäß verschiedenen Ausführungsformen; FIG. 4B shows a processing system for training a second mapping in accordance with various embodiments; FIG. 5 shows a processing system for training a third mapping in accordance with various embodiments;
Figur 6 ein Verfahren zum Trainieren eines neuronalen Netzwerkes gemäß FIG. 6 shows a method for training a neural network in accordance with
verschiedenen Ausführungsformen; different embodiments;
Figur 7A ein erstes Verarbeitungssystem zum Transformieren von digitalen Daten zwischen verschiedenen Kontexten gemäß verschiedenen FIG. 7A shows a first processing system for transforming digital data between different contexts according to different ones
Ausführungsformen; Embodiments;
Figur 7B ein zweites Verarbeitungssystem zum Transformieren von digitalen Daten zwischen verschiedenen Kontexten gemäß verschiedenen Figure 7B shows a second processing system for transforming digital data between different contexts according to different ones
Ausfuhrungsformen; und Embodiments; and
Figur 8 ein Fahrzeug gemäß verschiedenen Ausführungsformen; FIG. 8 shows a vehicle according to various embodiments;
In einer Ausführungsform kann eine„Schaltung“ als jede Art von Logik In one embodiment, a “circuit” can be any type of logic
implementierender Entität verstanden werden, welche Hardware, Software, Firmware oder eine Kombination davon sein kann. Daher kann in einer Ausführungsform eine implementing entity, which can be hardware, software, firmware or a combination thereof. Therefore, in one embodiment, a
„Schaltung“ eine hartverdrahtete Logikschaltung oder eine programmierbare "Circuit" means a hardwired logic circuit or a programmable one
Logikschaltung, wie beispielsweise ein programmierbarer Prozessor, zum Beispiel ein Mikroprozessor (z.B. ein CISC (Prozessor mit großem Befehlsvorrat) oder ein RISC (Prozessor mit reduziertem Befehlsvorrat)), sein. Eine„Schaltung“ kann auch Software sein, die von einem Prozessor implementiert bzw. ausgeführt wird, zum Beispiel jede Art von Computerprogramm, zum Beispiel ein Computerprogramm das einen virtuellen Logic circuit, such as a programmable processor, for example a microprocessor (e.g. a CISC (processor with large instruction set) or a RISC (processor with reduced instruction set)). A “circuit” can also be software that is implemented or executed by a processor, for example any type of computer program, for example a computer program that is a virtual one
Maschinencode, wie beispielsweise Java, verwendet. Jede andere Art der Implementierung der jeweiligen Funktionen, die im Folgenden ausführlicher beschrieben werden, kann in Übereinstimmung mit einer alternativen Ausführungsform als eine„Schaltung“ verstanden werden. Machine code such as Java is used. Any other type of implementation of the respective functions, which are described in more detail below, may be understood as a “circuit” in accordance with an alternative embodiment.
Anschaulich stellen verschiedene Ausführungsbeispiele ein Verfahren zum Trainieren eines neuronalen Netzwerkes dar, sodass das trainierte neuronale Netzwerk digitale Daten, wie beispielsweise digitale Bilddaten, aus einem ersten Kontext in einen zweiten Kontext transformieren kann. Anders ausgedrückt können digitale Daten kontextspezifische Eigenschaften, wie beispielsweise länderspezifische Eigenschaften, aufweisen und das trainierte neuronale Netzwerk kann die digitalen Daten in einen anderen Kontext übertragen. FIG. 1 stellt eine Vorrichtung 100 gemäß verschiedenen Ausführungsformen dar. Die Vorrichtung 100 kann einen oder mehrere Sensoren 102 aufweisen. Der Sensor 102 kann eingerichtet sein, um digitale Daten 104 bereitzustellen. Der Sensor 102 kann ein Various exemplary embodiments clearly illustrate a method for training a neural network so that the trained neural network can transform digital data, such as digital image data, from a first context into a second context. In other words, digital data can have context-specific properties, such as, for example, country-specific properties, and the trained neural network can transfer the digital data to a different context. FIG. 1 illustrates a device 100 according to various embodiments. The device 100 may have one or more sensors 102. The sensor 102 can be configured to provide digital data 104. The sensor 102 can be a
Bildgebungssensor, wie beispielsweise ein Kamera-Sensor oder ein Video-Sensor, oder ein Fernortungssensor, wie beispielsweise ein Radar-Sensor, ein LIDAR-Sensor oder ein Ultraschall-Sensor, sein. Gemäß verschiedenen Ausführungsformen weist der Sensor 102 eine andere Art von Sensor auf. Gemäß verschiedenen Ausführungsformen weisen die digitalen Daten 104 digitale Bilddaten (im Rahmen dieser Beschreibung werden auch erfasste Radar-, LID AR- und Ultraschall-Sensorsignale, die mittels Bildgebungsverfahren verarbeitet wurden, als digitale Bilddaten verstanden). Die Sensoren einer Mehrzahl an Sensoren können die gleiche Art oder verschiedene Arten von Sensoren aufweisen. Imaging sensor, such as a camera sensor or a video sensor, or a remote location sensor, such as a radar sensor, a LIDAR sensor or an ultrasonic sensor. According to various embodiments, the sensor 102 has a different type of sensor. According to various embodiments, the digital data 104 comprise digital image data (in the context of this description, recorded radar, LID AR and ultrasonic sensor signals that have been processed by means of imaging methods are also understood as digital image data). The sensors of a plurality of sensors may have the same type or different types of sensors.
Die Vorrichtung 100 kann ferner eine Speichervorrichtung 106 aufweisen. Die The device 100 may further include a storage device 106. The
Speichervorrichtung 106 kann einen Speicher aufweisen. Der Speicher kann beispielsweise bei der durch einen Prozessor durchgeführten Verarbeitung verwendet werden. Ein in den Ausführungsformen verwendeter Speicher kann ein flüchtiger Speicher, zum Beispiel ein DRAM (dynamischer Direktzugriffsspeicher), oder ein nichtflüchtiger Speicher, zum Beispiel ein PROM (programmierbarer Festwertspeicher), ein EPROM (löschbarer PROM), ein EEPROM (elektrisch löschbarer PROM) oder ein Flash-Speicher, wie beispielsweise eine Speichereinrichtung mit schwebendem Gate, eine ladungsabfangende Speichereinrichtung, ein MRAM (magnetoresistiver Direktzugriffsspeicher) oder ein PCRAM (Phasenwechsel-Direktzugriffsspeicher), sein. Die Speichervorrichtung 106 kann eingerichtet sein, um die digitalen Daten 104 zu speichern. Die Vorrichtung 100 kann ferner mindestens einen Prozessor 108 (zum Beispiel genau einen Prozessor, zum Beispiel zwei Prozessoren, zum Beispiel mehr als zwei Prozessoren) aufweisen. Der mindestens eine Prozessor 108 kann, wie oben beschrieben, jede Art von Schaltung, d.h. jede Art von Logik-implementierender Entität, sein. In verschiedenen Ausführungsformen ist der mindestens eine Prozessor 108 eingerichtet, die digitalen Daten 104 zu verarbeiten. Storage device 106 may include memory. The memory can be used, for example, in the processing performed by a processor. A memory used in the embodiments may be a volatile memory such as a DRAM (dynamic random access memory), or a non-volatile memory such as a PROM (programmable read-only memory), an EPROM (erasable PROM), an EEPROM (electrically erasable PROM), or a Flash memories such as a floating gate memory device, a charge trapping memory device, an MRAM (magnetoresistive random access memory), or a PCRAM (phase change random access memory). The storage device 106 may be configured to store the digital data 104. The device 100 can furthermore have at least one processor 108 (for example exactly one processor, for example two processors, for example more than two processors). As described above, the at least one processor 108 can be any type of circuit, i.e., any type of logic-implementing entity. In various embodiments, the at least one processor 108 is set up to process the digital data 104.
Im Folgenden werden die Ausführungsbeispiele anhand von digitalen Bilddaten 204 als digitale Daten 104 beschrieben. Es ist jedoch darauf hinzuweisen, dass auch andere (digitale) Daten verwendet werden können, die abhängig vom Kontext sind, wie beispielsweise jede Art von digitalen Sensordaten. The exemplary embodiments are described below using digital image data 204 as digital data 104. It should be pointed out, however, that other (digital) data can also be used which are dependent on the context, such as any type of digital sensor data.
FIG. 2 stellt eine Bildgebungs-Vorrichtung 200 gemäß verschiedenen Ausführungsformen dar, bei dem der Sensor als Bildgebungssensor 202 implementiert ist. Der Bildgebungssensor 202 kann ein Kamera-Sensor oder ein Video-Sensor sein. Der FIG. 2 illustrates an imaging device 200 in which the sensor is implemented as an imaging sensor 202 in accordance with various embodiments. The Imaging sensor 202 can be a camera sensor or a video sensor. The
Bildgebungssensor 202 kann eingerichtet sein, um digitale Bilddaten 204 bereitzustellen.Imaging sensor 202 may be configured to provide digital image data 204.
Im Rahmen dieser Beschreibung werden auch Radar-, LID AR- und Ultraschall-Sensoren, die eingerichtet sind, um digitale Bilddaten 204 bereitzustellen, als Bildgebungssensor 202 verstanden. Die digitalen Bilddaten 204 können eine Mehrzahl an digitalen Bildern 206 aufweisen. Die Mehrzahl an digitalen Bildern 206 können eine Szene in einem jeweiligen Kontext darstellen. Gemäß verschiedenen Ausführungsformen weist die In the context of this description, radar, LID AR and ultrasound sensors, which are set up to provide digital image data 204, are also understood as imaging sensor 202. The digital image data 204 may include a plurality of digital images 206. The plurality of digital images 206 may represent a scene in a respective context. According to various embodiments, the
Bildgebungs-Vorrichtung 200 eine Mehrzahl an Bildgebungssensoren auf. Imaging device 200 has a plurality of imaging sensors.
FIG. 3A stellt ein Verarbeitungssystem 300A zum Trainieren eines ersten neuronalen Teilnetzwerks gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 300A kann die Speichervorrichtung 106 zum Speichern der digitalen Bilddaten 204, wie beispielsweise von ersten digitalen Trainingsdaten 302, aufweisen. Die ersten digitalen Trainingsdaten 302 können einen ersten Kontext beschreiben. Das Verarbeitungssystem 300A kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil eines ersten neuronalen Teilnetzwerks 304. Das erste neuronale Teilnetzwerk 304 ist eingerichtet, die ersten digitalen Trainingsdaten 302 zu verarbeiten. Das erste neuronale Teilnetzwerk 304 kann ein Autoencoder-Netzwerk sein. Das erste neuronale Teilnetzwerk 304 kann einen ersten Encoder- Ab schnitt 306 aufweisen. Der erste Encoder- Ab schnitt 306 kann zumindest einen Encoder aufweisen und kann eingerichtet sein, die Merkmale der ersten digitalen Trainingsdaten 302 in einem ersten latenten Raum 308, d.h. in einer niedrigeren Dimension als die Dimension der ersten digitalen Trainingsdaten 302, darzustellen. Anders ausgedrückt kann der erste Encoder- Abschnitt 306 einen Code ausgeben, der eine niedrigere Dimension als die Dimension der ersten digitalen Trainingsdaten 302 hat. Das erste neuronale Teilnetzwerk 304 kann ferner einen ersten Decoder- Ab schnitt 310 aufweisen. Der erste Decoder- Ab schnitt 310 kann zumindest einen Decoder aufweisen und kann eingerichtet sein, um den im ersten latenten Raum 308 vorliegenden Code zu verarbeiten und um erste digitale Ausgabedaten 312 auszugeben. Die Dimension der ersten digitalen Ausgabedaten 312 kann der Dimension der ersten digitalen Trainingsdaten 302 entsprechen. Anders ausgedrückt kann der erste Decoder- Ab schnitt 310 die Dimension des in dem ersten latenten Raum 308 vorliegenden Codes auf die Dimension der ersten digitalen Trainingsdaten 302 erhöhen. Der erste Decoder- Ab schnitt 310 kann die ersten digitalen Trainingsdaten 302 aus dem von dem ersten Encoder- Ab schnitt 306 ausgegeben Code rekonstruieren. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen der ersten digitalen Ausgabedaten 312 mit den ersten digitalen Trainingsdaten 302 einen ersten Verlustwert 314 zu ermitteln. Das erste neuronale Teilnetzwerks 304 kann trainiert werden, indem der erste Encoder- Ab schnitt 306 und der erste Decoder- Ab Schnitts 310 adaptiert werden. Das erste neuronale Teilnetzwerk 304 kann derart adaptiert werden, dass der erste Verlustwert 314 minimiert wird. Das heißt, das trainierte erste neuronale Teilnetzwerk 304 kann einen Code ausgeben, der digitale Bilddaten, die einen ersten Kontext beschreiben, in einem ersten latenten Raum 308 beschreibt und kann einen Code, der digitale Bilddaten in dem ersten latenten Raum 308 beschreibt, zu digitalen Bilddaten rekonstruieren. FIG. 3A illustrates a processing system 300A for training a first neural subnetwork in accordance with various embodiments. The processing system 300A may include the storage device 106 for storing the digital image data 204, such as first digital training data 302. The first digital training data 302 can describe a first context. The processing system 300A may further include the at least one processor 108. The processor 108 implements at least part of a first neural sub-network 304. The first neural sub-network 304 is set up to process the first digital training data 302. The first neural sub-network 304 can be an auto-encoder network. The first neural sub-network 304 can have a first encoder section 306. The first encoder section 306 can have at least one encoder and can be set up to display the features of the first digital training data 302 in a first latent space 308, ie in a lower dimension than the dimension of the first digital training data 302. In other words, the first encoder section 306 can output a code which has a lower dimension than the dimension of the first digital training data 302. The first neural sub-network 304 can also have a first decoder section 310. The first decoder section 310 can have at least one decoder and can be set up to process the code present in the first latent space 308 and to output first digital output data 312. The dimension of the first digital output data 312 can correspond to the dimension of the first digital training data 302. In other words, the first decoder section 310 can increase the dimension of the code present in the first latent space 308 to the dimension of the first digital training data 302. The first decoder section 310 can reconstruct the first digital training data 302 from the code output by the first encoder section 306. The processor 108 can be set up to determine a first loss value 314 by comparing the first digital output data 312 with the first digital training data 302. The first neural sub-network 304 can be trained by the first encoder section 306 and the first decoder section 310 can be adapted. The first neural sub-network 304 can be adapted in such a way that the first loss value 314 is minimized. That is, the trained first neural sub-network 304 can output a code that describes digital image data that describe a first context in a first latent space 308 and can output a code that describes digital image data in the first latent space 308 to digital image data reconstruct.
FIG. 3B stellt ein Verarbeitungssystem 300B zum Trainieren eines zweiten neuronalen Teilnetzwerks gemäß verschiedenen Ausfuhrungsformen dar. Das Verarbeitungssystem 300B kann die Speichervorrichtung 106 zum Speichern der digitalen Bilddaten 204, wie beispielsweise von zweiten digitalen Trainingsdaten 322, aufweisen. Die zweiten digitalen Trainingsdaten 322 können einen zweiten Kontext, der von dem ersten Kontext verschieden ist, beschreiben. FIG. 3B illustrates a processing system 300B for training a second neural subnetwork in accordance with various embodiments. The processing system 300B may include the storage device 106 for storing the digital image data 204, such as second digital training data 322. The second digital training data 322 can describe a second context that is different from the first context.
In verschiedenen Ausführungsformen können sich der erste Kontext und der zweite Kontext territorial und/oder intrinsisch unterscheiden wie oben beschrieben. In various embodiments, the first context and the second context can differ territorially and / or intrinsically, as described above.
Das Verarbeitungs System 300B kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil eines zweiten neuronalen Teilnetzwerks 324. Das zweite neuronale Teilnetzwerk 324 ist eingerichtet, die zweiten digitalen Trainingsdaten 322 zu verarbeiten. Das zweite neuronale Teilnetzwerk 324 kann ein Autoencoder-Netzwerk sein. Die Architektur des zweiten neuronalen Teilnetzwerks 324 kann im Wesentlich der Architektur des ersten neuronalen Teilnetzwerks 304 entsprechen. Das zweite neuronale Teilnetzwerk 324 kann einen zweiten Encoder- Ab schnitt 326 und einen zweiten Decoder- Ab schnitt 330 aufweisen, wobei der zweite Encoder- Ab schnitt 326 basierend auf den zweiten digitalen Trainingsdaten 322 einen Code in einem zweiten latenten Raum 328 erzeugen kann und wobei der zweite Decoder- Ab schnitt 330 den in dem zweiten latenten Raum 328 vorliegenden Code rekonstruieren kann. Das heißt der zweite Decoder- Ab schnitt 330 kann zweite digitale Ausgabedaten 332 erzeugen, wobei die Dimension der zweiten digitalen Ausgabedaten 332 der Dimension der zweiten digitalen Trainingsdaten entsprechen kann. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen der zweiten digitalen Ausgabedaten 332 mit den zweiten digitalen Trainingsdaten 322 einen zweiten Verlustwert 334 zu ermitteln und um den zweiten Verlustwert 334 durch Adaptieren des zweiten Encoder- Ab Schnitts 326 und des zweiten Decoder- Ab Schnitts 330 zu minimieren. Das heißt, das trainierte zweite neuronale Teilnetzwerk 324 kann einen Code ausgeben, der digitale Bilddaten, die einen zweiten Kontext beschreiben, in einem zweiten latenten Raum 328 beschreibt und kann einen Code, der digitale Bilddaten in dem zweiten latenten Raum 328 beschreibt, zu digitalen Bilddaten rekonstruieren. The processing system 300B may further include the at least one processor 108. The processor 108 implements at least part of a second neural sub-network 324. The second neural sub-network 324 is set up to process the second digital training data 322. The second neural sub-network 324 can be an auto-encoder network. The architecture of the second neural sub-network 324 can essentially correspond to the architecture of the first neural sub-network 304. The second neural sub-network 324 can have a second encoder section 326 and a second decoder section 330, the second encoder section 326 being able to generate a code in a second latent space 328 based on the second digital training data 322 and where the second decoder section 330 can reconstruct the code present in the second latent space 328. That is, the second decoder section 330 can generate second digital output data 332, wherein the dimension of the second digital output data 332 can correspond to the dimension of the second digital training data. The processor 108 can be set up to determine a second loss value 334 by comparing the second digital output data 332 with the second digital training data 322 and to determine the second loss value 334 by adapting the second encoder section 326 and the second decoder section 330 to minimize. That is, the trained second neural sub-network 324 can output a code that describes digital image data describing a second context in a second latent space 328 and can output a code, that describes digital image data in the second latent space 328 to reconstruct digital image data.
FIG. 4A stellt ein Verarbeitungssystem 400A zum Trainieren einer ersten Abbildung gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 400A kann die Speichervorrichtung 106 zum Speichern der ersten digitalen Trainingsdaten 302 aufweisen. Die Speichervorrichtung 106 kann ferner erste digitale Daten 402 speichern. Die ersten digitalen Daten 402 können in semantischer Beziehung zu den ersten digitalen FIG. 4A illustrates a processing system 400A for training a first mapping in accordance with various embodiments. The processing system 400A may include the storage device 106 for storing the first digital training data 302. The storage device 106 may also store first digital data 402. The first digital data 402 can be semantically related to the first digital
Trainingsdaten 302, die einen ersten Kontext beschreiben, stehen. Gemäß verschiedenen Ausführungsformen weisen die ersten digitalen Daten 402 eine Mehrzahl an Textstrings auf, wobei die Textstrings die in den ersten digitalen Trainingsdaten 302 dargestellte Szene beschreiben. Zum Beispiel können die ersten digitalen Trainingsdaten 302 ein erstes digitales Bild 302-1 und ein zweites digitales Bild 302-2 aufweisen, welche eine Szene in einem ersten Kontext beschreiben und die ersten digitalen Daten 402 können einen ersten Textstring 402-1, der dem ersten digitalen Bild 302-1 zugeordnet ist, und einen zweiten Textstring 402-2, der dem zweiten digitalen Bild 302-2 zugeordnet ist, aufweisen. Training data 302 which describe a first context are available. According to various embodiments, the first digital data 402 have a plurality of text strings, the text strings describing the scene represented in the first digital training data 302. For example, the first digital training data 302 can have a first digital image 302-1 and a second digital image 302-2, which describe a scene in a first context, and the first digital data 402 can have a first text string 402-1, which corresponds to the first digital image 302-1 is assigned, and a second text string 402-2, which is assigned to the second digital image 302-2.
Beispielsweise stellt das erste digitale Bild 302-2 der ersten digitalen Trainingsdaten 302 eine Straße, parkende Autos und einen Fußgänger, der an der Straße steht, dar und der erste Textstring 402-1 beschreibt die Szene als„Fußgänger steht an Straße“. Das auf das erste digitale Bild 302-2 folgende zweite digitale Bild 302-2 stellt gemäß dem Beispiel die Szene dar, wobei der Fußgänger an der Straße stehen bleibt und der zweite Textstring 402-2 beschreibt die Szene als„Fußgänger bleibt stehen“. For example, the first digital image 302-2 of the first digital training data 302 depicts a street, parked cars and a pedestrian standing on the street, and the first text string 402-1 describes the scene as “pedestrian standing on the street”. The second digital image 302-2 following the first digital image 302-2 represents the scene according to the example, the pedestrian stopping on the street and the second text string 402-2 describes the scene as “pedestrian stopping”.
Das Verarbeitungs System 400A kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil des trainierten ersten neuronalen Teilnetzwerks 304. Der erste Encoder- Ab schnitt 306 des trainierten ersten neuronalen Teilnetzwerks 304 kann einen Code ausgeben, der die ersten digitalen Trainingsdaten 302 in dem ersten latenten Raum 308 beschreibt. Der Prozessor 108 implementiert ferner zumindest einen Teil einer ersten Abbildung 404. Die erste Abbildung 404 kann die ersten digitalen Daten 402 in den ersten latenten Raum 308 abbilden. Anders ausgedrückt kann die erste Abbildung 404 die ersten digitalen Daten 402 verarbeiten und kann einen Code ausgeben, der die ersten digitalen Daten 402 in dem ersten latenten Raum 308 beschreibt. Das heißt, der erste Encoder- Ab schnitt 306 kann einen ersten digitalen Trainingsdatencode 406 ausgeben, der die ersten digitalen Trainingsdaten 302 im ersten latenten Raum 308 beschreibt und die erste Abbildung 404 kann einen ersten digitalen Datencode 408 ausgeben, der die ersten digitalen Daten 402 im ersten latenten Raum 308 beschreibt. Anders ausgedrückt ordnet die erste Abbildung 404 dem ersten digitalen Trainingsdatencode 406 den ersten digitalen Datencode 408 in dem ersten latenten Raum 308 zu. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen des ersten digitalen Trainingscodes 406 mit dem ersten digitalen Datencode 408 einen ersten Abbildungs-Verlustwert 410 zu ermitteln. Der erste Abbildungs-Verlustwert 410 kann basierend auf einer Verlustfunktion ermittelt werden. Die Verlustfunktion kann jede Art von Verlustfunktion, wie beispielsweise jede Art von Verlustfunktion die auf einem Regressions-Modell basiert, sein. The processing system 400A may further include the at least one processor 108. The processor 108 implements at least a part of the trained first neural subnetwork 304. The first encoder section 306 of the trained first neural subnetwork 304 can output a code that describes the first digital training data 302 in the first latent space 308. The processor 108 further implements at least a portion of a first mapping 404. The first mapping 404 can map the first digital data 402 into the first latent space 308. In other words, the first mapping 404 can process the first digital data 402 and can output a code that describes the first digital data 402 in the first latent space 308. That is, the first encoder section 306 can output a first digital training data code 406 that describes the first digital training data 302 in the first latent space 308 and the first mapping 404 can output a first digital data code 408 that describes the first digital data 402 in the first latent space 308 describes. In other words, the first mapping 404 maps the first digital training data code 406 the first digital data code 408 in the first latent space 308. The processor 108 can be configured to determine a first mapping loss value 410 by comparing the first digital training code 406 with the first digital data code 408. The first mapping loss value 410 can be determined based on a loss function. The loss function can be any type of loss function, for example any type of loss function that is based on a regression model.
Die erste Abbildung 404 kann trainiert werden, indem die erste Abbildung 404 adaptiert wird, wobei die erste Abbildung derart adaptiert werden kann, dass der erste Abbildungs- Verlustwert 410 minimiert wird. Das heißt, die trainierte erste Abbildung 404 kann einen Code ausgeben, der digitale Textdaten in dem ersten latenten Raum 308 beschreibt, wobei die digitalen Textdaten einen Textstring aufweisen und digitale Bilddaten, die einen ersten Kontext darstellen, beschreiben, und wobei der Code, der die digitalen Textdaten beschreibt, einem Code, der die digitalen Bilddaten in dem ersten latenten Raum 308 beschreibt, zugeordnet ist. Die erste Abbildung 404 kann ein drittes neuronales Teilnetzwerk sein. The first mapping 404 can be trained by adapting the first mapping 404, wherein the first mapping can be adapted such that the first mapping loss value 410 is minimized. That is, the trained first mapping 404 can output a code that describes digital text data in the first latent space 308, the digital text data comprising a text string and describing digital image data representing a first context, and the code representing the digital text data, a code which describes the digital image data in the first latent space 308 is assigned. The first mapping 404 can be a third neural sub-network.
Das Verarbeitungssystem 400A kann ferner zumindest ein zusätzliches erstes neuronales Netzwerk aufweisen, das eingerichtet ist, um zumindest einen Teil (zum Beispiel die gesamten ersten digitalen Daten) der ersten digitalen Daten 402 unter Verwendung der ersten digitalen Trainingsdaten 302, die den ersten Kontext beschreiben, zu erzeugen. The processing system 400A may further comprise at least one additional first neural network that is set up to assign at least a part (for example all of the first digital data) of the first digital data 402 using the first digital training data 302 that describe the first context produce.
FIG. 4B stellt ein Verarbeitungssystem 400B zum Trainieren einer zweiten Abbildung gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 400B kann die Speichervorrichtung 106 zum Speichern der zweiten digitalen Trainingsdaten 322 aufweisen. Die Speichervorrichtung 106 kann ferner zweite digitale Daten 422 speichern. Die zweiten digitalen Daten 422 können in semantischer Beziehung zu den zweiten digitalen Trainingsdaten 322, die einen zweiten Kontext beschreiben, stehen. Gemäß verschiedenen Ausführungsformen weisen die zweiten digitalen Daten 422 eine Mehrzahl an Textstrings auf, wobei die Textstrings die in den zweiten digitalen Trainingsdaten 322 dargestellte Szene beschreiben. Zum Beispiel können die zweiten digitalen Trainingsdaten 322 ein erstes digitales Bild 322-1 und ein zweites digitales Bild 322-2 aufweisen, welche eine Szene in einem zweiten Kontext beschreiben und die zweiten digitalen Daten 422 können einen ersten Textstring 422-1, der dem ersten digitalen Bild 322-1 zugeordnet ist, und einen zweiten Textstring 422-2, der dem zweiten digitalen Bild 302-2 zugeordnet ist, aufweisen. Beispielsweise stellt das erste digitale Bild 322-2 der zweiten digitalen FIG. 4B illustrates a processing system 400B for training a second mapping in accordance with various embodiments. The processing system 400B may include the storage device 106 for storing the second digital training data 322. The storage device 106 may also store second digital data 422. The second digital data 422 can have a semantic relationship to the second digital training data 322, which describe a second context. According to various embodiments, the second digital data 422 have a plurality of text strings, the text strings describing the scene represented in the second digital training data 322. For example, the second digital training data 322 can have a first digital image 322-1 and a second digital image 322-2, which describe a scene in a second context, and the second digital data 422 can have a first text string 422-1, which corresponds to the first digital image 322-1 is assigned, and a second text string 422-2, which is assigned to the second digital image 302-2. For example, the first digital image 322-2 represents the second digital
Trainingsdaten 322 im Wesentlichen die gleiche Szene wie das erste digitale Bild 302-2 der ersten digitalen Trainingsdaten 302 dar, das heißt, eine Straße, parkende Autos und einen Fußgänger, der an der Straße steht, und der erste Textstring 422-1 der zweiten digitalen Daten 422 beschreibt die Szene entsprechend als„Fußgänger steht an Straße“.Training data 322 represents essentially the same scene as the first digital image 302-2 of the first digital training data 302, that is, a street, parked cars and a pedestrian standing on the street, and the first text string 422-1 of the second digital data 422 describes the scene accordingly as “pedestrian standing on the street”.
Das auf das erste digitale Bild 322-2 der zweiten digitalen Trainingsdaten 322 folgende zweite digitale Bild 322-2 stellt gemäß einem Beispiel eine Szene in dem zweiten Kontext dar, wobei der Fußgänger die Straße überquert und der zugeordnete zweite Textstring 422-2 beschreibt die Szene als„Fußgänger überquert Straße“. The second digital image 322-2 following the first digital image 322-2 of the second digital training data 322 represents, according to an example, a scene in the second context, the pedestrian crossing the street and the assigned second text string 422-2 describes the scene as "pedestrian crosses the street".
Das Verarbeitungs System 400B kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil des trainierten zweiten neuronalen Teilnetzwerks 324. Der zweite Encoder- Ab schnitt 326 des trainierten zweiten neuronalen Teilnetzwerks 324 kann einen Code ausgeben, der die zweiten digitalen Trainingsdaten 322 in dem zweiten latenten Raum 328 beschreibt. Der Prozessor 108 implementiert ferner zumindest einen Teil einer zweiten Abbildung 424. Die zweite Abbildung 424 kann die zweiten digitalen Daten 422 in den zweiten latenten Raum 328 abbilden. Anders ausgedrückt kann die zweite Abbildung 424 die zweiten digitalen Daten 422 verarbeiten und kann einen Code ausgeben, der die zweiten digitalen Daten 422 in dem zweiten latenten Raum 328 beschreibt. Das heißt, der zweite Encoder- Ab schnitt 326 kann einen zweiten digitalen Trainingsdatencode 426 ausgeben, der die zweiten digitalen Trainingsdaten 322 im zweiten latenten Raum 328 beschreibt und die zweite Abbildung 424 kann einen zweiten digitalen Datencode 428 ausgeben, der die zweiten digitalen Daten 422 im zweiten latenten Raum 328 beschreibt. Anders ausgedrückt ordnet die zweite Abbildung 424 dem zweiten digitalen Trainingsdatencode 426 den zweiten digitalen Datencode 428 in dem zweiten latenten Raum 328 zu. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen des zweiten digitalen Trainingscodes 426 mit dem zweiten digitalen Datencode 428 einen zweiten Abbildungs- Verlustwert 430 zu ermitteln. Der zweite Abbildungs- Verlustwert 430 kann basierend auf einer Verlustfunktion ermittelt werden. Das Trainieren Die zweite Abbildung 424 kann trainiert werden, indem die zweite Abbildung 424 adaptiert wird, wobei die zweit Abbildung 424 derart adaptiert wird, dass der zweite Abbildungs- Verlustwert 430 minimiert wird. Das heißt, die trainierte zweite Abbildung 424 kann einen Code ausgeben, der digitale Textdaten in dem zweiten latenten Raum 328 beschreibt, wobei die digitalen Textdaten einen Textstring aufweisen und digitale Bilddaten, die einen zweiten Kontext darstellen, beschreiben, und wobei der Code, der die digitalen Textdaten beschreibt, einem Code, der die digitalen Bilddaten in dem zweiten latenten Raum 328 beschreibt, zugeordnet ist. Die zweite Abbildung 424 kann ein viertes neuronales Teilnetzwerk sein. The processing system 400B may further include the at least one processor 108. The processor 108 implements at least a part of the trained second neural sub-network 324. The second encoder section 326 of the trained second neural sub-network 324 can output a code that describes the second digital training data 322 in the second latent space 328. The processor 108 further implements at least a portion of a second mapping 424. The second mapping 424 can map the second digital data 422 into the second latent space 328. In other words, the second mapping 424 can process the second digital data 422 and can output a code that describes the second digital data 422 in the second latent space 328. That is, the second encoder section 326 can output a second digital training data code 426 that describes the second digital training data 322 in the second latent space 328 and the second mapping 424 can output a second digital data code 428 that describes the second digital data 422 in the second latent space 328 describes. In other words, the second mapping 424 assigns the second digital data code 428 in the second latent space 328 to the second digital training data code 426. The processor 108 can be configured to determine a second mapping loss value 430 by comparing the second digital training code 426 with the second digital data code 428. The second mapping loss value 430 can be determined based on a loss function. The Training The second mapping 424 can be trained by adapting the second mapping 424, the second mapping 424 being adapted such that the second mapping loss value 430 is minimized. That is, the trained second mapping 424 can output a code that describes digital text data in the second latent space 328, the digital text data comprising a text string and describing digital image data representing a second context, and the code representing the digital text data, associated with a code that describes the digital image data in the second latent space 328. The second mapping 424 can be a fourth neural subnetwork.
Das Verarbeitungssystem 400B kann ferner zumindest ein zusätzliches zweites neuronales Netzwerk aufweisen, das eingerichtet ist, um zumindest einen Teil (zum Beispiel die gesamten zweiten digitalen Daten) der zweiten digitalen Daten 422 unter Verwendung der zweiten digitalen Trainingsdaten 322, die den zweiten Kontext beschreiben, zu erzeugen. The processing system 400B may further include at least one additional second neural network that is configured to process at least a portion (e.g. entire second digital data) of the second digital data 422 using the second digital training data 322 that describe the second context.
FIG. 5 stellt ein Verarbeitungssystem 500 zum Trainieren einer dritten Abbildung gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 500 kann die FIG. 5 illustrates a processing system 500 for training a third mapping in accordance with various embodiments. The processing system 500 may include the
Speichervorrichtung 106 zum Speichern von digitalen Bilddaten 204 und von digitalen Textdaten, die die digitalen Bilddaten 204 beschreiben, aufweisen. Die Storage device 106 for storing digital image data 204 and digital text data describing the digital image data 204. The
Speichervorrichtung 106 kann dritte digitale Trainingsdaten und dritte digitale Daten speichern. Die dritten digitalen Trainingsdaten können digitale Trainingsdaten, welche einen ersten Kontext beschreiben, und digitale Trainingsdaten, welche einen zweiten Kontext beschreiben, aufweisen. Die dritten digitalen Daten können digitale Daten, welche mit den digitalen Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen, und können digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen, aufweisen. Gemäß verschiedenen Ausführungsformen weisen die digitalen Trainingsdaten, welche einen ersten Kontext beschreiben, zumindest eine Teilmenge (zum Beispiel die gesamten ersten digitalen Trainingsdaten) der ersten digitalen Trainingsdaten 302 auf und die digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen können die den ersten digitalen Trainingsdaten 302 zugeordneten ersten digitalen Daten 402 aufweisen. Gemäß verschiedenen Ausführungsformen weisen die digitalen Trainingsdaten, welche einen zweiten Kontext beschreiben, zumindest eine Teilmenge (zum Beispiel die gesamten zweiten digitalen Trainingsdaten) der zweiten digitalen Trainingsdaten 322 auf und die digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen können die den zweiten digitalen Trainingsdaten 322 zugeordneten zweiten digitalen Daten 422 aufweisen. Storage device 106 may store third digital training data and third digital data. The third digital training data can have digital training data that describe a first context and digital training data that describe a second context. The third digital data can have digital data that are semantically related to the digital training data that describe the first context, and digital data that are semantically related to the digital training data that describe the second context. According to various embodiments, the digital training data that describe a first context have at least a subset (for example the entire first digital training data) of the first digital training data 302 and the digital data that can be semantically related to this digital training data have the first First digital data 402 assigned to digital training data 302. According to various embodiments, the digital training data that describe a second context have at least a subset (for example the entire second digital training data) of the second digital training data 322, and the digital data that can have a semantic relationship with this digital training data are the second have second digital data 422 assigned to digital training data 322.
Das Verarbeitungssystem 500 kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil des trainierten ersten neuronalen Netzwerkes 304, zumindest einen Teil des trainierten zweiten neuronalen Netzwerkes 324, zumindest einen Teil der trainierten ersten Abbildung 404, und zumindest einen Teil der trainierten zweiten Abbildung 424. Der Prozessor 108 implementiert ferner zumindest einen Teil einer dritten Abbildung 502. Die dritte Abbildung 502 kann ein fünftes neuronales Teilnetzwerk sein. Die trainierte zweite Abbildung 424 kann einen Code ausgeben, der die zweiten digitalen Daten 422 in dem zweiten latenten Raum 328 beschreibt. Der erste Encoder- Ab schnitt 306 des trainierten ersten neuronalen The processing system 500 may further include the at least one processor 108. The processor 108 implements at least a portion of the trained first neural network 304, at least a portion of the trained second neural network 324, at least a portion of the trained first map 404, and at least a portion of the trained second map 424. The processor 108 further implements at least one Part of a third map 502. The third map 502 can be a fifth neural sub-network. The trained second mapping 424 can output a code that describes the second digital data 422 in the second latent space 328. The first encoder section 306 of the trained first neural
Teilnetzwerks 304 kann einen Code ausgeben, der die ersten digitalen Trainingsdaten 302 in dem ersten latenten Raum 308 beschreibt und die trainierte erste Abbildung 404 kann einen Code ausgeben, der die ersten digitalen Daten 402 in dem ersten latenten Raum 308 beschreibt. Die dritte Abbildung 502 kann digitale latente Daten eines ersten latenten Raums 308, d.h. einen Code, der digitale Trainingsdaten bzw. digitale Textdaten in dem ersten latenten Raum 308 beschreibt, in digitale latente Daten eines zweiten latenten Raums 328, d.h. in einen Code, der die Daten in dem zweiten latenten Raum 328 beschreibt, transformieren. Anders ausgedrückt kann die dritte Abbildung 502 den Code, der die ersten digitalen Trainingsdaten 302 in dem ersten latenten Raum 308 beschreibt, und den Code, der die ersten digitalen Daten 402 in dem ersten latenten Raum 308 beschreibt, in den zweiten latenten Raum 328 abbilden. Subnetwork 304 can output a code which describes the first digital training data 302 in the first latent space 308 and which can the trained first mapping 404 output a code that describes the first digital data 402 in the first latent space 308. The third mapping 502 can convert digital latent data of a first latent space 308, that is to say a code that describes digital training data or digital text data in the first latent space 308, into digital latent data of a second latent space 328, that is to say in a code that describes the Data in the second latent space 328 describes transform. In other words, the third mapping 502 can map the code that describes the first digital training data 302 in the first latent space 308 and the code that describes the first digital data 402 in the first latent space 308 into the second latent space 328.
Die dritte Abbildung 502 kann den Code, der die ersten digitalen Trainingsdaten 302 in dem ersten latenten Raum 308 beschreibt, den Code, der die ersten digitalen Daten 402 in dem ersten latenten Raum 308 beschreibt, und den Code, der die zweiten digitalen Daten 422 in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann einen Code ausgeben, der digitale Trainingsdaten in dem zweiten latenten Raum 328 beschreibt. Der zweite Decoder- Ab schnitt 330 des zweiten neuronalen Teilnetzwerks 324 kann den Code, der die digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann dritte digitale Ausgabedaten 504 ausgeben, wobei die Dimension der dritten digitalen Ausgabedaten 504 der Dimension der zweiten digitalen Trainingsdaten 322 entsprechen kann. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen der dritten digitalen Ausgabedaten 504 mit den zweiten digitalen Trainingsdaten 322 einen dritten Abbildungs-Verlustwert 506 zu ermitteln. Die dritte Abbildung 502 kann trainiert werden, indem die dritte Abbildung 502 adaptiert wird, wobei die dritte Abbildung 502 derart adaptiert wird, dass der dritte Abbildungs- Verlustwert 506 minimiert wird. Das heißt, die trainierte dritte Abbildung 502 kann einen Code ausgeben, der Trainingsdaten in dem zweiten latenten Raum 328 beschreibt, wobei der zweite Decoder- Ab schnitt 330 nach Verarbeitung des Codes Trainingsdaten ausgeben kann, welche den zweiten digitalen Trainingsdaten 322 entsprechen können. The third mapping 502 can include the code describing the first digital training data 302 in the first latent space 308, the code describing the first digital data 402 in the first latent space 308, and the code describing the second digital data 422 in the second latent space 328, and can output a code that describes digital training data in the second latent space 328. The second decoder section 330 of the second neural sub-network 324 can process the code that describes the digital training data describing the second context in the second latent space 328 and can output third digital output data 504, the dimension of the third digital Output data 504 can correspond to the dimension of the second digital training data 322. The processor 108 can be set up to determine a third mapping loss value 506 by comparing the third digital output data 504 with the second digital training data 322. The third mapping 502 can be trained by adapting the third mapping 502, the third mapping 502 being adapted in such a way that the third mapping loss value 506 is minimized. That is, the trained third mapping 502 can output a code that describes training data in the second latent space 328, the second decoder section 330 being able to output training data after processing the code, which can correspond to the second digital training data 322.
FIG. 6 stellt ein Verfahren 600 zum Trainieren eines neuronalen Netzwerkes gemäß verschiedenen Ausführungsformen dar. Das Verfahren 600 kann das Trainieren eines ersten neuronalen Teilnetzwerks 304 aufweisen (in 602). Das erste neuronale Teilnetzwerk 304 kann einen ersten Encoder- Ab schnitt 306 und einen ersten Decoder- Ab schnitt 310 aufweisen und kann basierend auf ersten digitalen Trainingsdaten 302, die einen ersten Kontext beschreiben, trainiert werden. Der erste Encoder- Ab schnitt 306 kann eine Abbildung der ersten digitalen Trainingsdaten 302 in einen ersten latenten Raum 308 bereitstellen. Das Verfahren 600 kann das Trainieren einer ersten Abbildung 404 aufweisen (in 604). Die erste Abbildung 404 kann erste digitale Daten 402, welche mit den ersten digitalen Trainingsdaten 302 in semantischer Beziehung stehen, in den ersten latenten Raum 308 abbilden und kann unter Verwendung der in den ersten latenten Raum 308 mittels des trainierten ersten neuronalen Teilnetzwerks 304 abgebildeten ersten digitalen Trainingsdaten 302 trainiert werden. Das Verfahren 600 kann das Trainieren eines zweiten neuronalen Teilnetzwerks 324 aufweisen (in 606). Das zweite neuronale Teilnetzwerk 324 kann einen zweiten Encoder- Ab schnitt 326 und einen zweite Decoder- Abschnitt 330 aufweisen und kann basierend auf zweiten digitalen Trainingsdaten 322, die einen zweiten Kontext beschreiben, trainiert werden. Der zweite Encoder- Ab schnitt 326 kann eine Abbildung der zweiten digitalen Trainingsdaten 322 in einen zweiten latenten Raum 328 bereitstellen. Das Verfahren 600 kann das Trainieren einer zweiten Abbildung 424 aufweisen (in 608). Die zweite Abbildung 424 kann zweite digitale Daten 422, welche mit den zweiten digitalen Trainingsdaten 322 in semantischer Beziehung stehen, in den zweiten latenten Raum 328 abbilden und kann unter Verwendung der in den zweiten latenten Raum 328 mittels des trainierten zweiten neuronalen Teilnetzwerks 324 abgebildeten zweiten digitalen Trainingsdaten 322 trainiert werden. Das Verfahren 600 kann ferner das Trainieren einer dritten Abbildung 502 aufweisen (in 610). Die dritte Abbildung 502 kann digitale latente Daten aus dem ersten latenten Raum 308 in den zweiten latenten Raum 328 abbilden. Die dritte Abbildung 502 kann basierend auf dritten digitalen Trainingsdaten und dritten digitalen Daten trainiert werden, wobei die dritten digitalen Trainingsdaten digitale Trainingsdaten, welche den ersten Kontext beschreiben, und digitale Trainingsdaten, welche den zweiten Kontext beschreiben, aufweisen können und wobei die dritten digitalen Daten digitale Daten, welche mit den digitalen FIG. 6 illustrates a method 600 for training a neural network according to various embodiments. The method 600 may include training a first neural sub-network 304 (in 602). The first neural sub-network 304 can have a first encoder section 306 and a first decoder section 310 and can be trained based on first digital training data 302 that describe a first context. The first encoder section 306 can map the first digital training data 302 into a first latent space 308 provide. The method 600 may include training a first mapping 404 (at 604). The first mapping 404 can map first digital data 402, which are semantically related to the first digital training data 302, into the first latent space 308 and can use the first digital data mapped into the first latent space 308 by means of the trained first neural sub-network 304 Training data 302 are trained. The method 600 may include training a second neural sub-network 324 (in 606). The second neural sub-network 324 can have a second encoder section 326 and a second decoder section 330 and can be trained based on second digital training data 322 which describe a second context. The second encoder section 326 can provide an image of the second digital training data 322 in a second latent space 328. The method 600 may include training a second mapping 424 (at 608). The second mapping 424 can map second digital data 422, which are semantically related to the second digital training data 322, in the second latent space 328 and can use the second digital data mapped in the second latent space 328 by means of the trained second neural sub-network 324 Training data 322 are trained. The method 600 may further include training a third mapping 502 (in 610). The third mapping 502 may map digital latent data from the first latent space 308 into the second latent space 328. The third mapping 502 can be trained based on third digital training data and third digital data, wherein the third digital training data can include digital training data that describe the first context and digital training data that describe the second context, and the third digital data can include digital Data, which with the digital
Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen und digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen, aufweisen. Die digitalen Trainingsdaten, welche den ersten Kontext beschreiben, können zumindest eine Teilmenge (zum Beispiel die gesamten ersten digitalen Trainingsdaten) der ersten digitalen Trainingsdaten 302 aufweisen und die digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen können die den ersten digitalen Trainingsdaten 302 zugeordneten ersten digitalen Daten 402 aufweisen. Die digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, können zumindest eine Teilmenge (zum Beispiel die gesamten zweiten digitalen Trainingsdaten) der zweiten digitalen Trainingsdaten 322 aufweisen und die digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen können die den zweiten digitalen Trainingsdaten 322 zugeordneten zweiten digitalen Daten 422 aufweisen. FIG. 7A stellt ein Verarbeitungssystem 700A zum Transformieren von digitalen Daten zwischen verschiedenen Kontexten gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 700 A kann die Speichervorrichtung 106 zum Speichern von digitalen Daten 702, wie beispielsweise von digitalen Bilddaten 204, aufweisen. Die digitalen Daten 702 können erste Kontext-Daten 704 aufweisen, wobei die ersten Kontext-Daten 704 digitale Bilddaten 204 aufweisen, welche den ersten Kontext beschreiben. Die digitalen Daten 702 können ferner erste Kontext-Textdaten 706 aufweisen, wobei die ersten Kontext-Textdaten 706 eine Mehrzahl an Textstrings, die den ersten Kontext-Daten 704 zugeordnet sind, aufweisen, welche den ersten Kontext beschreiben. Die digitalen Daten 702 können ferner zweite Kontext-Textdaten 708 aufweisen, wobei die zweiten Kontext- Textdaten 708 eine Mehrzahl an Textstrings, welche einen zweiten Kontext beschreiben, aufweisen. Training data which describe the first context are in a semantic relationship and digital data which have a semantic relationship with the digital training data which describe the second context. The digital training data that describe the first context can have at least a subset (for example the entire first digital training data) of the first digital training data 302, and the digital data that can have a semantic relationship with this digital training data can be the first digital training data 302 have associated first digital data 402. The digital training data that describe the second context can have at least a subset (for example the entire second digital training data) of the second digital training data 322, and the digital data that can be semantically related to this digital training data can be the second digital training data 322 have associated second digital data 422. FIG. 7A illustrates a processing system 700A for transforming digital data between different contexts according to various embodiments. The processing system 700A may include the storage device 106 for storing digital data 702, such as digital image data 204. The digital data 702 can have first context data 704, the first context data 704 having digital image data 204 which describe the first context. The digital data 702 can further include first context text data 706, the first context text data 706 having a plurality of text strings which are assigned to the first context data 704 and which describe the first context. The digital data 702 can furthermore have second context text data 708, the second context text data 708 having a plurality of text strings which describe a second context.
Das Verarbeitungssystem 700 A kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil eines ersten neuronalen Transformationsnetzwerkes 710A. Das erste neuronale Transformationsnetzwerk 710A kann zumindest einen Teil des trainierten ersten neuronalen Netzwerkes 304 und zumindest einen Teil des trainierten zweiten neuronalen Netzwerkes 324 aufweisen. Das erste neuronale Transformationsnetzwerk 710A kann den ersten Encoder- Ab schnitt 306 des trainierten ersten neuronalen Teilnetzwerks 304, den zweiten Decoder- Ab schnitt 330 des trainierten zweiten neuronalen Teilnetzwerks 324, die trainierte erste Abbildung 404 und die trainierte zweite Abbildung 424 aufweisen. Das erste neuronale The processing system 700 A may further include the at least one processor 108. The processor 108 implements at least a portion of a first neural transformation network 710A. The first neural transformation network 710A may include at least a portion of the trained first neural network 304 and at least a portion of the trained second neural network 324. The first neural transformation network 710A can have the first encoder section 306 of the trained first neural subnetwork 304, the second decoder section 330 of the trained second neural subnetwork 324, the trained first mapping 404 and the trained second mapping 424. The first neural
Transformationsnetzwerk 710A kann ferner die dritte Abbildung 502 aufweisen. Der erste Encoder- Ab schnitt 306 kann die ersten Kontext-Daten 704 verarbeiten und kann einen Code ausgeben, der die ersten Kontextdaten 704 in dem ersten latenten Raum 308 beschreibt. Die erste Abbildung 404 kann die ersten Kontext-Textdaten 706 verarbeiten und kann einen Code ausgeben, der die ersten Kontext-Textdaten 706 in dem ersten latenten Raum 308 beschreibt. Die zweite Abbildung 424 kann die zweiten Kontext- Textdaten 708 verarbeiten und kann einen Code ausgeben, der die zweiten Kontext- Textdaten 708 in dem zweiten latenten Raum 328 beschreibt. Die dritte Abbildung 502 kann den Code, der die ersten Kontext-Daten 704 in dem ersten latenten Raum 308 beschreibt, den Code, der die ersten Kontext-Textdaten 706 in dem ersten latenten Raum 308 beschreibt, und den Code, der die zweiten Kontext-Textdaten 708 in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann einen Code ausgeben, der digitale Daten in dem zweiten latenten Raum 328 beschreibt. Der zweite Decoder- Ab schnitt 330 kann den Code, der digitale Daten in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann zweite Kontext-Daten 712, welche den zweiten Kontext beschreiben, ausgeben. Das heißt, das erste neuronale Transformationsnetzwerk 710A kann digitale Daten, welche den ersten Kontext beschreiben, sowie digitale Text-Daten, welche den ersten Kontext und den zweiten Kontext beschreiben, verarbeiten und kann digitale Daten, welche den zweiten Kontext beschreiben, ausgeben. Transformation network 710A may further include the third map 502. The first encoder section 306 can process the first context data 704 and can output a code that describes the first context data 704 in the first latent space 308. The first mapping 404 can process the first context text data 706 and can output a code that describes the first context text data 706 in the first latent space 308. The second mapping 424 can process the second context text data 708 and can output a code that describes the second context text data 708 in the second latent space 328. The third mapping 502 may include the code describing the first context data 704 in the first latent space 308, the code describing the first context text data 706 in the first latent space 308, and the code describing the second contextual data. Text data 708 in the second latent space 328 describes, processes and can output a code that describes digital data in the second latent space 328. The second decoder section 330 can write the code that describes digital data in the second latent space 328, process and can output second context data 712 describing the second context. That is, the first neural transformation network 710A can process digital data describing the first context and digital text data describing the first context and the second context, and can output digital data describing the second context.
Der Prozessor 108 kann ferner eingerichtet sein, die zweiten Kontextdaten 712 zu verarbeiten und kann klassifizierte und/oder segmentierte zweite Kontextdaten 714A ausgeben. Der Prozessor 108 kann ein erstes neuronales Klassifikationsnetzwerk implementieren, wobei das erste Klassifikationsnetzwerk eingerichtet ist, um digitale Daten zu klassifizieren und/oder zu segmentieren. The processor 108 can further be set up to process the second context data 712 and can output classified and / or segmented second context data 714A. The processor 108 can implement a first neural classification network, the first classification network being set up to classify and / or segment digital data.
FIG. 7B stellt ein zweites Verarbeitungssystem 700B zum Transformieren von digitalen Daten zwischen verschiedenen Kontexten gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 700B kann die Speichervorrichtung 106 zum Speichern von digitalen Daten 702, wie beispielsweise von digitalen Bilddaten 204, aufweisen. Die digitalen Daten 702 können zweite Kontext-Daten 712 aufweisen, wobei die zweiten Kontext-Daten 712 digitale Bilddaten 204 aufweisen, welche den zweiten Kontext beschreiben. Die digitalen Daten 702 können ferner erste Kontext-Textdaten 706 aufweisen, wobei die ersten Kontext-Textdaten 706 eine Mehrzahl an Textstrings, welche einen ersten Kontext beschreiben, aufweise. Die digitalen Daten 702 können ferner zweite Kontext-Textdaten 708 aufweisen, wobei die zweiten Kontext-Textdaten 708 eine FIG. 7B illustrates a second processing system 700B for transforming digital data between different contexts according to various embodiments. The processing system 700B may include the storage device 106 for storing digital data 702, such as digital image data 204. The digital data 702 can have second context data 712, the second context data 712 having digital image data 204 which describe the second context. The digital data 702 can furthermore have first context text data 706, the first context text data 706 having a plurality of text strings which describe a first context. The digital data 702 may further include second context text data 708, the second context text data 708 being a
Mehrzahl an Textstrings, die den zweiten Kontext-Daten 712, welche einen zweiten Kontext beschreiben, zugeordnet sind, aufweisen. A plurality of text strings which are assigned to the second context data 712, which describe a second context, have.
Das Verarbeitungssystem 700B kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil eines zweiten neuronalen Transformationsnetzwerkes 71 OB. Das zweite neuronale The processing system 700B may further include the at least one processor 108. The processor 108 implements at least part of a second neural transformation network 71 OB. The second neural
Transformationsnetzwerk 71 OB kann zumindest einen Teil des trainierten ersten neuronalen Netzwerkes 304, zumindest einen Teil des trainierten zweiten neuronalen Netzwerkes 324, die trainierte erste Abbildung 404 und die trainierte zweite Abbildung 424 aufweisen. Das zweite neuronale Transformationsnetzwerk 706B kann den zweiten Encoder- Ab schnitt 326 des trainierten zweiten neuronalen Teilnetzwerks 324 und den ersten Decoder- Ab schnitt 310 des trainierten ersten neuronalen Teilnetzwerks 304 aufweisen. Der zweite Encoder- Ab schnitt 326 kann die zweiten Kontext-Daten 712 verarbeiten und kann einen Code ausgeben, der die zweiten Kontext-Daten 712 in dem zweiten latenten Raum 328 beschreibt. Die erste Abbildung 404 kann die ersten Kontext- Textdaten 706 verarbeiten und kann einen Code ausgeben, der die ersten Kontext- Textdaten 706 in dem ersten latenten Raum 308 beschreibt. Die zweite Abbildung 424 kann die zweiten Kontext-Textdaten 708 verarbeiten und kann einen Code ausgeben, der die zweiten Kontext-Textdaten 708 in dem zweiten latenten Raum 328 beschreibt. Das zweite neuronale Transformationsnetzwerk 71 OB kann ferner zumindest einen Teil einer inversen dritten Abbildung 716 aufweisen, wobei die inverse dritte Abbildung 716 der Inversen Abbildung der trainierten dritten Abbildung 502 entsprechen kann. Das heißt, dass die inverse dritte Abbildung 716 einen Code, der digitale Daten, welche einen zweiten Kontext beschreiben, in dem zweiten latenten Raum 328 beschreibt, einen Code, der digitale Textdaten in dem zweiten latenten Raum 328 beschreibt, und einen Code, der digitale Textdaten in dem ersten latenten Raum 328 beschreibt, verarbeiten kann und einen Code, der digitale Daten in dem ersten latenten Raum 308 beschreibt, ausgeben kann. Anders ausgedrückt kann die inverse dritte Abbildung 716 einen Code, der digitale Daten, welche einen zweiten Kontext beschreiben, in dem zweiten latenten Raum beschreibt, in den ersten latenten Raum 308 abbilden unter Verwendung von digitalen Textdaten, welche den ersten Kontext und den zweiten Kontext beschreiben. Der zweite Decoder- Ab schnitt 310 kann die zweiten Kontext-Daten 712, welche den zweiten Kontext beschreiben, verarbeiten und kann einen Code ausgeben, der die zweiten Kontext-Daten 712 in dem zweiten latenten Raum 328 beschreibt. Die inverse dritte Abbildung 716 kann den Code, der die zweiten Kontext-Daten 712 in dem zweiten latenten Raum 328 beschreibt, den Code, der die ersten Kontext-Textdaten 706 in dem ersten latenten Raum 308 beschreibt, und einen Code, der die zweiten Kontext-Textdaten 708 in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann einen Code, der digitale Daten in dem ersten latenten Raum 308 beschreibt, ausgeben. Der erste Decoder- Ab schnitt 310 kann den Code, der digitale Daten in dem ersten latenten Raum 308 beschreibt, verarbeiten und kann erste Kontext-Daten 704, welche den ersten Kontext beschreiben, ausgeben. Das heißt, das zweite neuronale Transformationsnetzwerk 71 OB kann digitale Daten, welche den zweiten Kontext beschreiben, und digitale Textdaten, die einen ersten Kontext und einen zweiten Kontext beschreiben, verarbeiten und kann digitale Daten, welche den ersten Kontext beschreiben, ausgeben. Transformation network 71 OB can have at least part of the trained first neural network 304, at least part of the trained second neural network 324, the trained first mapping 404 and the trained second mapping 424. The second neural transformation network 706B can have the second encoder section 326 of the trained second neural subnetwork 324 and the first decoder section 310 of the trained first neural subnetwork 304. The second encoder section 326 can process the second context data 712 and can output a code that describes the second context data 712 in the second latent space 328. The first mapping 404 can be the first context Process text data 706 and can output a code that describes the first context text data 706 in the first latent space 308. The second mapping 424 can process the second context text data 708 and can output a code that describes the second context text data 708 in the second latent space 328. The second neural transformation network 71 OB can also have at least part of an inverse third mapping 716, wherein the inverse third mapping 716 can correspond to the inverse mapping of the trained third mapping 502. That is, the inverse third map 716 describes a code that describes digital data describing a second context in the second latent space 328, a code that describes digital text data in the second latent space 328, and a code that describes digital Describes text data in the first latent space 328, can process and output a code describing digital data in the first latent space 308. In other words, the inverse third mapping 716 can map a code that describes digital data describing a second context in the second latent space into the first latent space 308 using digital text data describing the first context and the second context . The second decoder section 310 can process the second context data 712 that describe the second context and can output a code that describes the second context data 712 in the second latent space 328. The inverse third map 716 may include the code describing the second context data 712 in the second latent space 328, the code describing the first context text data 706 in the first latent space 308, and a code describing the second context Describes and processes text data 708 in the second latent space 328 and can output a code that describes digital data in the first latent space 308. The first decoder section 310 can process the code that describes digital data in the first latent space 308 and can output first context data 704 that describe the first context. That is, the second neural transformation network 71 OB can process digital data describing the second context and digital text data describing a first context and a second context, and can output digital data describing the first context.
Der Prozessor 108 kann ferner eingerichtet sein, die ersten Kontext-Daten 704 zu verarbeiten und kann klassifizierte und/oder segmentierte erste Kontextdaten 714B ausgeben. Der Prozessor 108 kann ein zweites neuronales Klassifikationsnetzwerk implementieren, wobei das zweite Klassifikationsnetzwerk eingerichtet ist, um digitale Daten zu klassifizieren und/oder zu segmentieren. Das zweite Klassifikationsnetzwerk kann dem ersten Klassifikationsnetzwerk entsprechen. FIG. 8 stellt ein Fahrzeug 800 gemäß verschiedenen Ausführungsformen dar. Das Fahrzeug 800 kann ein Fahrzeug mit Verbrennungsmotor, ein Elektrofahrzeug, ein Hybridfahrzeug oder eine Kombination davon sein. Ferner kann das Fahrzeug 800 ein Auto, ein LKW, ein Schiff, eine Drohne, ein Flugzeug und dergleichen sein. The processor 108 can furthermore be configured to process the first context data 704 and can output classified and / or segmented first context data 714B. The processor 108 can implement a second neural classification network, the second classification network being set up to classify and / or segment digital data. The second classification network can correspond to the first classification network. FIG. 8 illustrates a vehicle 800 in accordance with various embodiments. The vehicle 800 may be an internal combustion engine vehicle, an electric vehicle, a hybrid vehicle, or a combination thereof. Further, the vehicle 800 can be a car, a truck, a ship, a drone, an airplane, and the like.
Das Fahrzeug 800 kann zumindest einen Sensor (beispielsweise einen Bildgebungssensor) 802 aufweisen (beispielsweise den Sensor 102). Das Fahrzeug 800 kann ein The vehicle 800 may include at least one sensor (e.g., an imaging sensor) 802 (e.g., the sensor 102). The vehicle 800 may be on
Fahrassistenzsystem 804 aufweisen. Das Fahrassistenzsystem 804 kann die Have driver assistance system 804. The driver assistance system 804 can the
Speichervorrichtung 106 aufweisen. Das Fahrassistenzsystem 804 kann den Prozessor 108 aufweisen. Der Prozessor 108 kann das erste neuronale Transformationsnetzwerk 710A und/oder das zweite neuronale Transformationsnetzwerk 71 OB implementieren. Das erste neuronale Transformationsnetzwerk 710A kann eingerichtet sein, um digitale Daten, die einen ersten Kontext beschreiben, zu verarbeiten und um digitale Daten, die einen zweiten Kontext beschreiben, auszugeben. Das zweite neuronale Transformationsnetzwerk 71 OB kann eingerichtet sein, um digitale Daten, die einen zweiten Kontext beschreiben, zu verarbeiten und um digitale Daten, die einen ersten Kontext beschreiben, auszugeben. Gemäß verschiedenen Ausführungsformen wurden das erste neuronale Have storage device 106. The driver assistance system 804 can include the processor 108. The processor 108 can implement the first neural transformation network 710A and / or the second neural transformation network 71OB. The first neural transformation network 710A can be set up to process digital data that describe a first context and to output digital data that describe a second context. The second neural transformation network 71 OB can be set up to process digital data that describe a second context and to output digital data that describe a first context. According to various embodiments, the first were neural
Transformationsnetzwerk 710A und/oder das zweite neuronale Transformationsnetzwerk 71 OB nach dem Verfahren 600 zum Trainieren eines neuronalen Netzwerkes trainiert, so dass das erste neuronale Transformationsnetzwerk 71 OB bzw. das zweite neuronale Transformationsnetzwerk 71 OB digitale Daten, welche einen ersten Kontext bzw. einen zweiten Kontext beschreiben in digitale Daten, welche einen zweiten Kontext bzw. einen ersten Kontext beschreiben, transformiert werden können. Transformation network 710A and / or the second neural transformation network 71 OB trained according to the method 600 for training a neural network, so that the first neural transformation network 71 OB or the second neural transformation network 71 OB digital data which have a first context or a second context describe can be transformed into digital data which describe a second context or a first context.
Der Prozessor 108 kann ferner eingerichtet sein, die von dem ersten neuronalen The processor 108 may also be set up to be used by the first neural
Transformationsnetzwerk 710A und/oder dem zweiten neuronale Transformationsnetzwerk 71 OB ausgegebenen digitalen Daten zu klassifizieren und/oder zu segmentieren. Transformation network 710A and / or the second neural transformation network 71 OB to classify and / or segment digital data output.
Der Prozessor 108 kann ein neuronales Klassifikationsnetzwerk implementieren, das eingerichtet ist, um die von dem ersten neuronalen Transformationsnetzwerk 710A und oder dem zweiten neuronalen Transformationsnetzwerk 71 OB ausgegebenen digitalen Daten zu klassifizieren und/oder zu segmentieren. The processor 108 can implement a neural classification network that is set up to classify and / or segment the digital data output by the first neural transformation network 710A and / or the second neural transformation network 71 OB.
Gemäß verschiedenen Ausführungsformen weisen die klassifizierten und/oder According to various embodiments, the classified and / or
segmentierten digitalen Daten 714A, 714B die Intention von Verkehrsteilnehmern als Merkmal auf. Dies hat in Kombination mit der Transformation der digitalen Bilddaten beispielsweise den Vorteil, dass die Intention eines Verkehrsteilnehmers abhängig vom Kontext der Situation, zum Beispiel dem territorialen Kontext bezüglich einem Stadtteil, einer Region, einem Land usw., ermittelt werden kann. Das Fahrassistenzsystem 804 kann eingerichtet sein, um das Fahrzeug 800 basierend auf den klassifizierten und/oder segmentierten digitalen Daten 714A, 714B zu steuern. Anders ausgedrückt kann das Fahrassistenzsystem 804 eingerichtet sein, um die klassifizierten und/oder segmentierten digitalen Daten 714A,714B zu verarbeiten und um basierend auf den klassifizierten und/oder segmentierten digitalen Daten 714A, 714B zumindest einen Steuerbefehl an einen oder mehrere Aktoren des Fahrzeugs 800 ausgeben zu können. segmented digital data 714A, 714B on the intention of road users as a feature. This has in combination with the transformation of the digital image data for example, the advantage that the intention of a road user can be determined depending on the context of the situation, for example the territorial context with regard to a district, a region, a country, etc. The driver assistance system 804 can be set up to control the vehicle 800 based on the classified and / or segmented digital data 714A, 714B. In other words, the driver assistance system 804 can be set up to process the classified and / or segmented digital data 714A, 714B and to output at least one control command to one or more actuators of the vehicle 800 based on the classified and / or segmented digital data 714A, 714B to be able to.
Das heißt das Fahrassistenzsystem 804 kann basierend auf dem Kontext der digitalen Bilddaten 204 und damit dem Kontext der klassifizierten und/oder segmentierten digitalen Daten 714A,714B das derzeitige Fahrverhalten beeinflussen, zum Beispiel kann das derzeitige Fahrverhalten beibehalten werden oder geändert werden. Beispielsweise kann das Fahrassistenzsystem 804 ermitteln, dass in dem Kontext einer Situation ein Fußgänger versucht eine Straße zu überqueren und kann das Fahrverhalten zum Beispiel derart ändern, dass in das Fahrverhalten aus Sicherheitsgründen sein eingegriffen wird, wie beispielsweise durch eine Notbremsung. That is to say, the driver assistance system 804 can influence the current driving behavior based on the context of the digital image data 204 and thus the context of the classified and / or segmented digital data 714A, 714B, for example the current driving behavior can be maintained or changed. For example, the driver assistance system 804 can determine that a pedestrian is trying to cross a street in the context of a situation and can, for example, change the driving behavior in such a way that the driving behavior is interfered with for safety reasons, for example by emergency braking.

Claims

Patentansprüche Claims
Verfahren zum Trainieren eines neuronalen Netzwerkes, ausgeführt von einem oder von mehreren Prozessoren, das Verfahren aufweisend: Method for training a neural network, carried out by one or more processors, comprising the method:
Trainieren eines ersten neuronalen Teilnetzwerks mit ersten digitalen Training a first neural sub-network with the first digital
Trainingsdaten, die einen ersten Kontext beschreiben, Training data that describe an initial context,
• wobei das erste neuronale Teilnetzwerk als Autoencoder-Netzwerk • where the first neural sub-network is the autoencoder network
eingerichtet ist und einen ersten Encoder- Ab schnitt und einen ersten Decoder- Abschnitt aufweist, und is set up and has a first encoder section and a first decoder section, and
• wobei der erste Encoder- Ab schnitt eine Abbildung der ersten digitalen • where the first encoder section is a mapping of the first digital
Trainingsdaten in einen ersten latenten Raum bereitstellt; Providing training data in a first latent space;
Trainieren einer ersten Abbildung von ersten digitalen Daten, welche mit den ersten digitalen Trainingsdaten in semantischer Beziehung stehen, in den ersten latenten Raum unter Verwendung der in den ersten latenten Raum mittels des trainierten ersten neuronalen Teilnetzwerks abgebildeten ersten digitalen Trainingsdaten; Trainieren eines zweiten neuronalen Teilnetzwerks mit zweiten digitalen Training a first mapping of first digital data, which are semantically related to the first digital training data, into the first latent space using the first digital training data mapped into the first latent space by means of the trained first neural sub-network; Training a second neural sub-network with a second digital one
Trainingsdaten, die einen zweiten Kontext beschreiben, der von dem ersten Kontext verschieden ist, Training data that describe a second context that is different from the first context,
• wobei das zweite neuronale Teilnetzwerk als Autoencoder-Netzwerk • where the second neural sub-network is an autoencoder network
eingerichtet ist und einen zweiten Encoder- Ab schnitt und einen zweiten Decoder- Ab schnitt aufweist, und is set up and has a second encoder section and a second decoder section, and
• wobei der zweite Encoder- Ab schnitt eine Abbildung der zweiten digitalen Trainingsdaten in einen zweiten latenten Raum bereitstellt, • where the second encoder section provides a mapping of the second digital training data in a second latent space,
Trainieren einer zweiten Abbildung von zweiten digitalen Daten, welche mit den zweiten digitalen Trainingsdaten in semantischer Beziehung stehen, in den zweiten latenten Raum unter Verwendung der in den zweiten latenten Raum mittels des trainierten zweiten neuronalen Teilnetzwerks abgebildeten zweiten digitalen Trainingsdaten; Training a second mapping of second digital data, which are semantically related to the second digital training data, into the second latent space using the second digital training data mapped into the second latent space by means of the trained second neural sub-network;
Trainieren einer dritten Abbildung von digitalen latenten Daten aus dem ersten latenten Raum in den zweiten latenten Raum unter Verwendung von dritten digitalen Trainingsdaten und dritten digitalen Daten, Training a third mapping of digital latent data from the first latent space into the second latent space using third digital training data and third digital data,
• wobei die dritten digitalen Trainingsdaten aufweisen: • the third having digital training data:
- digitale Trainingsdaten, welche den ersten Kontext beschreiben, und - digital training data that describe the first context, and
- digitale Trainingsdaten, welche den zweiten Kontext beschreiben,- digital training data that describe the second context,
• wobei die dritten digitalen Daten aufweisen: • where the third digital data comprises:
- digitale Daten, welche mit den digitalen Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen, und - digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen. - digital data which are semantically related to the digital training data which describe the first context, and - digital data which are semantically related to the digital training data which describe the second context.
2. Verfahren gemäß Anspruch 1, 2. The method according to claim 1,
wobei die ersten digitalen Trainingsdaten, die zweiten digitalen Trainingsdaten, und die dritten digitalen Trainingsdaten digitale Bilddaten aufweisen. wherein the first digital training data, the second digital training data, and the third digital training data comprise digital image data.
3. Verfahren gemäß Anspruch 1 oder 2, 3. The method according to claim 1 or 2,
wobei die ersten digitalen Trainingsdaten, die zweiten digitalen Trainingsdaten, und die dritten digitalen Trainingsdaten digitale Sensordaten aufweisen. wherein the first digital training data, the second digital training data, and the third digital training data comprise digital sensor data.
4. Verfahren gemäß einem der Ansprüche 1 bis 3, ferner aufweisend: 4. The method according to any one of claims 1 to 3, further comprising:
Erzeugen der ersten digitalen Daten unter Verwendung eines zusätzlichen ersten neuronalen Netzwerks und den ersten digitalen Trainingsdaten, welche den ersten Kontext beschreiben; und/oder Generating the first digital data using an additional first neural network and the first digital training data which describe the first context; and or
Erzeugen der zweiten digitalen Daten unter Verwendung eines zusätzlichen zweiten neuronalen Netzwerks und den zweiten digitalen Trainingsdaten, welche den zweiten Kontext beschreiben; und/oder Generating the second digital data using an additional second neural network and the second digital training data which describe the second context; and or
Erzeugen der dritten digitalen Daten unter Verwendung eines zusätzlichen dritten neuronalen Netzwerks und digitalen Trainingsdaten, welche den ersten Kontext und den zweiten Kontext beschreiben. Generating the third digital data using an additional third neural network and digital training data which describe the first context and the second context.
5. Verfahren gemäß einem der Ansprüche 1 bis 4, ferner aufweisend: 5. The method according to any one of claims 1 to 4, further comprising:
Transformieren von digitalen Daten, welche den ersten Kontext beschreiben, in digitale Daten, welche den zweiten Kontext beschreiben, unter Verwendung eines ersten neuronalen Transformationsnetzwerks, das gebildet wird von dem ersten Encoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks, der trainierten ersten Abbildung, der trainierten zweiten Abbildung, der trainierten dritten Transforming digital data describing the first context into digital data describing the second context using a first neural transformation network that is formed by the first encoder section of the trained first neural sub-network, the trained first mapping, the trained second figure, trained third
Abbildung zur Abbildung von dem zweiten latenten Raum in den ersten latenten Raum, und dem zweiten Decoder-Abschnitt des trainierten zweiten neuronalen Mapping for mapping from the second latent space into the first latent space, and the second decoder section of the trained second neural
Teilnetzwerks. Subnetwork.
6. Verfahren gemäß Anspruch 5, ferner aufweisend: 6. The method of claim 5, further comprising:
Durchführen einer Klassifikation und/oder Segmentierung von digitalen Daten, welche den ersten Kontext beschreiben. Carrying out a classification and / or segmentation of digital data which describe the first context.
7. Verfahren gemäß einem der Ansprüche 1 bis 4, ferner aufweisend: Transformieren von digitalen Daten, welche den zweiten Kontext beschreiben, in digitale Daten, welche den ersten Kontext beschreiben, unter Verwendung eines zweiten neuronalen Transformationsnetzwerks, das gebildet wird von dem zweiten Encoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks, der trainierten ersten Abbildung, der trainierten zweiten Abbildung, der inversen Abbildung der trainierten dritten Abbildung von dem zweiten latenten Raum in den ersten latenten Raum, und dem ersten Decoder-Abschnitt des trainierten ersten neuronalen Teilnetzwerks. 7. The method according to any one of claims 1 to 4, further comprising: Transforming digital data describing the second context into digital data describing the first context using a second neural transformation network that is formed by the second encoder section of the trained second neural subnetwork, the trained first mapping, the trained second mapping, the inverse mapping of the trained third mapping from the second latent space into the first latent space, and the first decoder section of the trained first neural sub-network.
8. Verfahren gemäß Anspruch 7, ferner aufweisend: 8. The method of claim 7, further comprising:
Durchführen einer Klassifikation und/oder Segmentierung von digitalen Daten, welche den zweiten Kontext beschreiben. Carrying out a classification and / or segmentation of digital data which describe the second context.
9. Vorrichtung, die eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 8 auszuführen. 9. Device which is set up to carry out the method according to one of claims 1 to 8.
10. System, aufweisend: 10. System, comprising:
eine Vorrichtung nach Anspruch 9; und an apparatus according to claim 9; and
• einen Sensor, der eingerichtet ist, der Vorrichtung die digitalen Daten • a sensor that is set up, the device the digital data
bereitzustellen. to provide.
11. F ahrzeug, aufwei send : 11. Vehicle, comprising:
zumindest einen Sensor, der eingerichtet ist, um digitale Daten bereitzustellen; und at least one sensor which is set up to provide digital data; and
ein Fahrassistenzsystem, dass ein nach einem der Ansprüche 1 bis 4 trainiertes neuronales Netzwerk aufweist, wobei das neuronale Netzwerk eingerichtet ist, um die digitalen Daten gemäß Anspruch 6 oder Anspruch 8 zu klassifizieren und/oder zu segmentieren und wobei das Fahrassistenzsystem eingerichtet ist, um das Fahrzeug basierend auf den klassifizierten und/oder segmentierten digitalen Daten zu steuern. a driver assistance system that has a neural network trained according to one of claims 1 to 4, wherein the neural network is set up to classify and / or segment the digital data according to claim 6 or claim 8 and wherein the driver assistance system is set up to the Control vehicle based on the classified and / or segmented digital data.
PCT/EP2020/066728 2019-07-09 2020-06-17 Device and method for training a neural network WO2021004738A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202080049714.5A CN114041144A (en) 2019-07-09 2020-06-17 Method and apparatus for training neural networks

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102019210091.0 2019-07-09
DE102019210091.0A DE102019210091A1 (en) 2019-07-09 2019-07-09 Device and method for training a neural network

Publications (1)

Publication Number Publication Date
WO2021004738A1 true WO2021004738A1 (en) 2021-01-14

Family

ID=71108594

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/066728 WO2021004738A1 (en) 2019-07-09 2020-06-17 Device and method for training a neural network

Country Status (3)

Country Link
CN (1) CN114041144A (en)
DE (1) DE102019210091A1 (en)
WO (1) WO2021004738A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034762A1 (en) * 2017-07-27 2019-01-31 Toyota Jidosha Kabushiki Kaisha Perception device
DE102018126664A1 (en) * 2017-10-27 2019-05-02 GM Global Technology Operations LLC DOMAIN ADAPTATION THROUGH CLASS-EXISTED SELF-TRAINING WITH SPATIAL PRIOR

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034762A1 (en) * 2017-07-27 2019-01-31 Toyota Jidosha Kabushiki Kaisha Perception device
DE102018126664A1 (en) * 2017-10-27 2019-05-02 GM Global Technology Operations LLC DOMAIN ADAPTATION THROUGH CLASS-EXISTED SELF-TRAINING WITH SPATIAL PRIOR

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AMINI ALEXANDER ET AL: "Variational Autoencoder for End-to-End Control of Autonomous Driving with Novelty Detection and Training De-biasing", 2018 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS), IEEE, 1 October 2018 (2018-10-01), pages 568 - 575, XP033491655, DOI: 10.1109/IROS.2018.8594386 *
SUWAJANAKORN ET AL.: "Synthesizing Obama: Learning Lip Sync from Audio", ACM TRANSACTIONS ON GRAPHICS, vol. 36, no. 4, 2017
VASILY MORZHAKOV: "Sets of autoencoders with shared latent spaces", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 6 November 2018 (2018-11-06), XP081046751 *

Also Published As

Publication number Publication date
DE102019210091A1 (en) 2021-01-14
CN114041144A (en) 2022-02-11

Similar Documents

Publication Publication Date Title
WO2014177447A2 (en) Provision of an efficient environmental map for a vehicle
DE102021108470A1 (en) REALISTIC PICTURE PERSPECTIVE TRANSFORMATION USING NEURAL NETWORKS
DE102018217091A1 (en) Process, artificial neural network, device, computer program and machine-readable storage medium for the semantic segmentation of image data
DE102020210379A1 (en) Computer-implemented method and computer program product for obtaining a representation of surrounding scenes for an automated driving system, computer-implemented method for learning a prediction of surrounding scenes for an automated driving system and control unit for an automated driving system
DE102021109395A1 (en) METHODS, SYSTEMS AND DEVICES FOR USER UNDERSTANDABLE EXPLAINABLE LEARNING MODELS
DE102019131100A1 (en) APPARATUS AND METHOD FOR DETECTING AN OBJECT USING AN IMAGE
DE102017128082A1 (en) Meta-architecture design for a CNN network
DE102020127051A1 (en) Method for determining safety-critical output values using a data analysis device for a technical entity
WO2021004738A1 (en) Device and method for training a neural network
DE102020114964A1 (en) Modeling a surface of an object
DE102018222264A1 (en) Process, computer program, machine-readable storage medium and device for data prediction
DE102021200643B3 (en) Method for environment recognition for semi-autonomous or autonomous driving functions of a motor vehicle using a neural network
EP3876157B1 (en) Computer-implemented method and system for generating synthetic sensor data and training method
WO2021078512A1 (en) Method for making a neural network more robust against adversarial disruptions
DE102021114044A1 (en) Method for providing an artificial neural network for three-dimensional object recognition, computing device for a vehicle, computer program and computer-readable (storage) medium
DE102019217952A1 (en) Method and device for providing a training data set for training an AI function on an unknown data domain
DE102019213459A1 (en) Method for compressing a neural network
DE102019130484A1 (en) Method and device for training an ensemble of neural networks
DE102021104077B3 (en) Method, system and computer program product for the automated generation of traffic data
WO2019201586A1 (en) Method, computer system and computer program for controlling an actuator
DE102022124384A1 (en) Automatic environment perception based on multimodal sensor data from a vehicle
DE112021007341T5 (en) Control device and control method
DE102022004341A1 (en) System and method for the extraction of one or more landmarks on the path of an autonomous vehicle
WO2021043509A1 (en) Method for compressing a neural network
DE102022125766A1 (en) Calculation of height information of a curb in a vehicle environment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20733744

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20733744

Country of ref document: EP

Kind code of ref document: A1