WO2022207573A1 - Autoencodeur multimodal a fusion de donnees latente amelioree - Google Patents

Autoencodeur multimodal a fusion de donnees latente amelioree Download PDF

Info

Publication number
WO2022207573A1
WO2022207573A1 PCT/EP2022/058163 EP2022058163W WO2022207573A1 WO 2022207573 A1 WO2022207573 A1 WO 2022207573A1 EP 2022058163 W EP2022058163 W EP 2022058163W WO 2022207573 A1 WO2022207573 A1 WO 2022207573A1
Authority
WO
WIPO (PCT)
Prior art keywords
latent
vector
autoencoder
modality
encoders
Prior art date
Application number
PCT/EP2022/058163
Other languages
English (en)
Inventor
Andrea Ancora
Matthieu DA-SILVA-FILARDER
Maxime DEROME
Pietro Michiardi
Original Assignee
Renault S.A.S
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renault S.A.S filed Critical Renault S.A.S
Priority to EP22719247.3A priority Critical patent/EP4315170A1/fr
Publication of WO2022207573A1 publication Critical patent/WO2022207573A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Definitions

  • the present invention relates to the field of machine learning. More specifically, the invention relates to the field of autoencoders.
  • Autoencoders are a recent technique for transforming a complex data source into a high-level representation.
  • Autoencoders are a type of artificial neural networks trained to perform efficient data encoding in an unsupervised manner.
  • An autoencoder consists of a first neural network, which encodes an input vector generally denoted x into a compressed vector (also called latent vector) generally denoted z, and a second neural network which decodes the compressed vector z into a decompressed or reconstructed vector usually denoted ü, as close as possible to the input vector.
  • the compressed vector z has a lower dimensionality than that of the input vector x and of the reconstructed vector ü: it is expressed by variables called latent variables, which are considered to define the essential characteristics of the vector.
  • the decompressed vector ü is similar, but in general not strictly identical to the input vector x.
  • Autoencoders typically provide very effective data dimensionality reduction, ignoring the "noise" of a signal.
  • the compressed vector z and the latent variables can be considered to contain very high level information. For example, if the input vector x is an image, the elements of the compressed vector z can indicate different types of objects present in the image.
  • variational autoencoders An evolution of autoencoders, called variational autoencoders, consists in representing each characteristic of the compressed vector z not as a single value, but as a probability distribution defined by a mean m and a standard deviation o. At decoding, a value is selected, for each characteristic, according to the probability distribution. Thus a generative model is obtained, since, for the same input vector x, a large number of decompressed vectors ü can be generated.
  • Variational autoencoders are described for example by Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv: 1312.6114, or Diederik P. Kingma and Volodymyr Kuleshov. Stochastic Gradient Variational Bayes and the Variational Autoencoder. In ICLR, pp. 1-4, 2014.
  • a new category of autoencoders is called multimodal autoencoders, multimodal autoencoders are described in particular by Wu, M., & Goodman, N. (2018). Multimodal generative models for scalable weakly-supervised learning.
  • a multimodal autoencoder consists of a plurality of modalities, each modality comprising an encoder and a decoder. Each encoder encodes a separate input vector into a compressed vector, and then the compressed vectors provided by each of the modalities are merged into a single merged compressed vector for all modalities. Then, each decoder of each modality decodes the merged compressed vector into a decompressed vector specific to each modality.
  • a multimodal autoencoder may or may not also be a variational autoencoder.
  • the objective of multimodal autoencoders is to jointly train the encoders and decoders of the different modalities, in order to achieve extract latent variables summarizing the information provided by all the modalities.
  • the different modalities can correspond to data provided by different sensors at the same time (for example, an RGB frame provided by camera in modality 1, a LIDAR point cloud in modality 2; or an RGB frame provided by a camera front of a vehicle in modality 1, an RGB frame supplied by a front camera of a vehicle in modality 2, etc.).
  • the multimodal autoencoders thus make it possible, when they are applied to sensor data outputs, to perform a fusion of the sensor data making it possible to arrive at a common representation of the world by the various sensors.
  • the latent variables of the merged compressed vector are thus particularly relevant for synthesizing the data provided by the sensors within the framework of a decision-making system, for example an autonomous vehicle.
  • the combination by components consists in obtaining the values of each element of the merged compressed vector by combining the corresponding elements of the compressed vectors of each modality, that is to say that all the compressed vectors of the modalities, and merged have the same dimension, and the 1st element of the merged vector is obtained by combining all the 1st elements of the compressed vectors of the modalities, the 2nd element of the merged vector is obtained by combining all the 2 e elements of the compressed vectors of the modalities, etc.
  • arXiv preprint arXiv:1911.03393., and the so-called “Robust Bayesian Committee Machines” method described by Deisenroth, M., & Ng, JW (2015, June). Distributed Gaussian processes. In International Conference on Machine Learning (pp. 1481-1490). PMLR.
  • the subject of the invention is a multimodal latent data fusion autoencoder comprising: a plurality of modalities; a plurality of encoders encoding, for each modality of said plurality respectively, an input vector into a latent vector of predefined dimension, said predefined dimension being identical for each modality; a latent merging module merging the latent vectors encoded by said plurality of encoders into a merged vector of said predefined dimension; a plurality of decoders decoding, for each modality of said plurality of modalities respectively, said merged vector into an output vector, an output vector being of the same dimension as an input vector for each modality; said multimodal autoencoder being characterized in that the latent merging module is configured to assign to at least one element of the merged vector a value selected from among the element values of said latent vectors encoded by said plurality of encoders.
  • the latent merging module is configured to assign to at least one element of the merged vector a value selected randomly from among the values of the elements of said latent vectors encoded by said plurality of encoders.
  • the autoencoder is a variational autoencoder, and each element of one of said latent vectors encoded by said plurality of encoders, and of the merged vector is formed from a mean and a standard deviation.
  • the latent fusion module is configured to assign to at least one element of the merged vector the mean and the standard deviation of the element having the smallest standard deviation among the corresponding elements of said latent vectors encoded by said plurality of encoders.
  • each encoder of each modality of said plurality of modalities takes as input measurements of each sensor of a plurality of sensors respectively.
  • the sensors of said plurality of sensors are co-located.
  • the sensors of said plurality of sensors are located in a motor vehicle.
  • the invention also relates to a method for training a multimodal latent data fusion autoencoder comprising a plurality of modalities, said method comprising several training iterations, each training iteration comprising: encoding , by a plurality of encoders, for each modality of said plurality respectively, of an input vector into a latent vector of predefined dimension, said predefined dimension being identical for each modality; latently merging the latent vectors encoded by said plurality of encoders into a merged vector of said predefined dimension; decoding, by a plurality of decoders, for each modality of said plurality of modalities respectively, said merged vector into an output vector, an output vector being of the same dimension as an input vector for each modality; the calculation of a loss function, from the output vectors and the input vectors; adaptation of encoders and decoders, to minimize said loss function; said training method being characterized in that the la
  • the invention also relates to a method of using a multimodal latent data fusion autoencoder comprising a plurality of modalities, said method comprising: the encoding, by a plurality of encoders, for each modality of said plurality, respectively, of an input vector into a latent vector of predefined dimension, said predefined dimension being identical for each modality; the latent merging of the latent vectors encoded by said plurality of encoders into a merged vector of said predefined dimension; the decoding, by a plurality of decoders, for each modality of said plurality of modalities respectively, of said merged vector into an output vector, an output vector being of the same dimension as an input vector for each modality; said method of use being characterized in that the latent merging consists in assigning to at least one element of the merged vector a value selected from among the values of the elements of said latent vectors encoded by said plurality of encoders.
  • the invention also relates to a computer program comprising program code instructions recorded on a computer-readable medium, said program code instructions being configured, when said program runs on a computer to execute a method according to one of the embodiments of the invention.
  • the invention also relates to a computing system comprising: a plurality of sensors; at least one calculation unit configured to execute a multimodal latent data fusion autoencoder according to one of the embodiments of the invention, each sensor of said plurality being respectively associated with a modality of the plurality of modalities of the autoencoder .
  • FIG.1a a first example of a calculation system according to a set of embodiments of the invention
  • FIG.1b a second example of a calculation system according to a set of embodiments of the invention.
  • FIG.2a a first example of a multimodal latent data fusion autoencoder according to a set of embodiments of the invention
  • FIG.2b a second example of a multimodal variational autoencoder with latent data fusion according to a set of embodiments of the invention
  • FIG.3 an example of a method for training a multimodal latent data fusion autoencoder according to one set of embodiments of the invention
  • FIG. 4 an example of a method of using a multimodal latent data fusion autoencoder according to a set of embodiments of the invention
  • FIG. 5a a first example of estimating the results of a latent merger, using a state-of-the-art method called “Product of Experts”;
  • FIG. 5b a first example of estimating the results of a latent fusion, according to a set of embodiments of the invention
  • FIG. 5c a second example of estimating the results of a latent fusion, according to a set of embodiments of the invention.
  • FIG.6a a first example of multimodal reconstitution of data from camera, LIDAR and RADAR sensors embedded in a car;
  • FIG.6b a second example of multimodal reconstruction of data from camera, LIDAR and RADAR sensors embedded in a car.
  • FIG. 1a represents a first example of a calculation system according to a set of embodiments of the invention.
  • the Sysa system is made up of an Auta motor vehicle.
  • the Auta vehicle is equipped with a plurality of Capt1, Capt2, etc. sensors as well as at least one Calca calculation unit.
  • a calculation unit can be a processor operating according to software instructions, a hardware configuration of a processor or a combination thereof. It should be noted that any or all of the functions described herein may be implemented in a pure hardware implementation and/or by a processor operating in accordance with software instructions. It should also be understood that any or all of the software instructions may be stored on a non-transitory computer readable medium. For the sake of simplicity, in the rest of the description, the calculation unit or units may be referred to as the “calculation unit”. However, it is at note that the operations of the invention can also be performed in a single calculation unit, or a plurality of calculation units, for example a plurality of processors or a multi-core processor.
  • the Calca calculation unit is configured to run an AE latent data fusion multimodal autoencoder comprising a plurality of modalities.
  • Each modality of the multimodal encoder is respectively associated with a sensor among the plurality of sensors Capt1, Capt2, etc. In other words, the outputs of each of the sensors are provided as input to the different modes of the AE autoencoder.
  • one of the objectives of the invention, and of the multimodal autoencoder AE is to obtain a latent representation of the autoencoder which provides a representation low dimensionality of the data captured by all the sensors.
  • different combinations of sensors can be used for said plurality, such as for example:
  • the AE autoencoder can take as input data provided by all the sensors present in the Auta vehicle, or only from some of them.
  • the Sysa system can be used both for the training phases and the inference phases of the AE autoencoder.
  • the at least one calculation unit Calca is further configured to execute an autonomous guidance module of the Auta vehicle.
  • the use of the autoencoder AE advantageously makes it possible to perform a very efficient fusion of data from the sensors, and to result in a representation of low dimensionality of all the data captured by the sensors. This representation of low dimensionality allows thus to obtain high-level characteristics on the environment of the vehicle, and to facilitate the autonomous guidance of the latter.
  • FIG. 1b represents a second example of a calculation system according to a set of embodiments of the invention.
  • the Sysb system is formed by a motor vehicle Autb, and a computing device Dispb communicating via a Transb data transmission link.
  • the calculation device Dispb can be any device capable of performing calculations, such as a server, a personal computer, a tablet or a smartphone.
  • the calculation device Dispb comprises at least one calculation unit Calcb capable of executing a multimodal encoder AE.
  • the data transmission link Transb can be formed of any element allowing a data link between the motor vehicle Autb and the computing device Dispb. For example, a 4G, Wi-Fi or Bluetooth type data link can be used.
  • the data transmission link Transb notably enables the vehicle Autb to transmit the measurements of the sensors to the calculation device Calcb for the processing thereof.
  • the motor vehicle Autb comprises the plurality of sensors Capt1, Capt2, etc., respectively associated with the modalities of the autoencoder AE.
  • Sysa and Sysb systems therefore resides in the fact that, in the Sysa system, the execution of the autoencoder takes place in the Auta vehicle itself, whereas, within the framework of the system Sysb, it is carried out remotely in a remote device Dispb.
  • Sysa and Sysb systems are provided by way of example only.
  • a multimodal autoencoder according to the invention is able to perform a fusion of data from several sources to arrive at a low-dimensional representation of the data representative of the all sources, whether the data sources are sensors or not. More particularly, an autoencoder according to the invention is able to perform a fusion of sensor measurements. The invention is therefore applicable to a plurality of sensors, whether or not they are located in a motor vehicle.
  • the invention is in particular applicable to collocated sensors, that is to say located substantially at the same location, since such a plurality of sensors will measure data in the same environment, on which an effective data fusion can be performed.
  • Collocated sensors can for example be sensors located in the same box, the same vehicle, or more generally sensors located close to each other, whether or not they are located in a motor vehicle.
  • Figure 2a shows a first example of a multimodal latent data fusion autoencoder according to one set of embodiments of the invention.
  • the multimodal latent data fusion autoencoder AEa comprises a plurality of modalities Mod1, Mod2, Mod3. Although three modalities are represented in Figure 2a, this example is not limiting, and any number of modalities equal to or greater than 2 can be used.
  • Each modality comprises an encoder Enc1 a, Enc2a, Enc3a, encoding an input vector x lt x 2 , x 3 into a latent vector z lt z 2 , z 3 , also called compressed vector of predefined dimension n, said predefined dimension being identical for each modality.
  • the 1 st modality Mod1 comprises an encoder Enc1 a encoding an input vector x t into a latent vector z x
  • the 2nd modality Mod2 comprises an encoder Enc2a encoding an input vector x 2 into a latent vector z 2 ;
  • the 3rd modality Mod3 comprises an encoder Enc3a encoding an input vector x 3 into a latent vector z 3 ;
  • the latent vectors z lt z 2 , z 3 have the same predefined dimension n.
  • the input vectors x lt x 2 , x 3 correspond to different data sources.
  • the input vector x t can correspond to the measurements from the Capt1 sensor, and the input vector x 2 to the measurements from the Capt2 sensor.
  • the input vectors x lt x 2 , x 3 can correspond to raw data coming from the sensors and/or to pre-processed data.
  • an input vector can correspond to an image, or an image on which a semantic segmentation has been performed.
  • the AEa multimodal autoencoder comprises a Fusa latent fusion module merging the latent vectors output from said encoders into a merged vector z of said predefined dimension.
  • the Fusa latent fusion module takes as input latent vectors z lt z 2 , z 3 generated by the encoders for each modality, and merges them into a single merged vector z.
  • the merged vector z therefore provides a high level, low dimensionality representation of the information contained in the set of input vectors x lt x 2 , x 3.
  • the multimodal data fusion autoencoder AEa further comprises, for each modality of said plurality, a decoder Declb, Dec2b, Dec3b decoding the merged vector z into an output vector x ⁇ , x 2 , x 3 likewise dimension than the input vector of said modality.
  • Mod1 comprises a Decla decoder decoding the merged vector z into an output vector x t of the same dimension as the input vector x t ;
  • the 2nd modality Mod2 comprises a decoder Dec2a decoding the merged vector z into an output vector x 2 of the same dimension as the input vector x 2 ;
  • the 3rd modality Mod3 comprises a decoder Dec3a decoding the merged vector z into an output vector x 3 of the same dimension as the input vector x 3.
  • the output vectors x x , x 2 , x 3 would respectively be similar to the input vectors x lt x 2 , x 3
  • the merged vector z is enriched with information coming from the set of input vectors.
  • the values of each of the output vectors x ⁇ , x 2 , x 3 therefore depend on the set of input vectors x lt x 2 , x 3 .
  • Each of the encoders Enc1 a, Enc2a, Enc3a, and the decoders Decl b, Dec2b, Dec3b is a neural network.
  • the characteristics of each of these neural networks depend on the topology of the input data.
  • convolutional neural networks can be used, in particular for image data from cameras. Those skilled in the art will be able to effortlessly determine the most suitable type of neural network for a given type of input.
  • the following types of neural networks can be used:
  • FCN Fully-Connected Networks
  • recursive networks for example, a recurrent network with short and long term memory (in English Long Short Term Memory or LSTM) and Recurrent Neural Networks (in English Recurrent Neural Networks or RNN);
  • the Fusa latent fusion module is configured to assign to at least one element of the merged vector a value selected from among the values of the corresponding elements of the latent vectors of said modalities.
  • each element of index i (with ie [l; n] if the indices of the elements are denoted 1 to n) of the merged vector z is chosen as one of the values of the elements of index i latent vectors z lt z 2 , z 3 .
  • the vector selected for the value is obviously not necessarily the same for each element.
  • the value of the 1st element of z can be selected like that of the 1st element of z 2 , but that of the 2nd element of z can be selected like that of the 2nd element of z lt etc.
  • the choice of the latent vector from which the value of a given element of the merged vector is selected can be different each time the multimodal autoencoder is used. In particular, the selection can be re-performed for each element, independently, at each iteration of a training (or learning) phase of the autoencoder.
  • the invention makes it possible to achieve a very effective fusion of the input data, and the learning of the different modes of the autoencoder AEa.
  • the selection of the value to be assigned to each element of the merged vector z from among the values of the corresponding elements of z lt z 2 , z 3 is carried out randomly.
  • the value of the 1 st element of z is chosen randomly from among the values of the 1 st elements of z lt z 2 , z 3 ;
  • the value of the 2 nd element of z is chosen randomly from among the values of the 2 nd elements of z lt z 2 , z 3 ;
  • This method can be called “Indian roulette”. This makes it possible, in a particularly effective manner, to cause the encoders and decoders of the different modalities to code, for each element of their compressed vectors, the same latent variables. Indeed, each training iteration will take into account, randomly, a value from one of the encoders for each element of z, which makes it possible to train the encoders and decoders so that the same characteristic is coded for a given element, regardless of the mode selected.
  • FIG. 2b represents a second example of a multimodal variational autoencoder with latent data fusion according to a set of embodiments of the invention.
  • the multimodal autoencoder AEb comprises a plurality of modalities, denoted in this example Mod1, Mod2, Mod3, each modality taking as input an input vector x lt x 2 , x 3 encoded respectively by an encoder Enc1 b, Enc2b, Enc3b into a compressed vector, or latent z lt z 2 , z 3 , then the fusion module Fusb merges the latent vectors z lt z 2 , z 3 into a merged vector z which will be decoded for each modality by a decoder Decl b, Dec2b, Dec3b respectively into an output vector x ⁇ , x 2 , x 3 .
  • the autoencoder AEb is a variational autoencoder, that is to say that each element of the latent vectors z lt z 2 , z 3 , and of the merged vector z comprises, not not a single value, but a mean m and a standard deviation o defining a distribution.
  • a value is selected from among the probability distribution defined by the values of mean m and standard deviation s 2 for each element of z, thus allowing decoding.
  • the latent fusion module Fusb is configured to assign to at least one element of the merged vector the mean and the standard deviation of the element having the deviation- weakest type among the corresponding elements of the latent vectors of said modalities.
  • This method can be called “survival of the fittest”. This makes it possible to select, for each latent variable, the corresponding value having the lowest standard deviation among the latent vectors z lt z 2 , z 3 , and therefore to have the most precise values for each latent variable .
  • FIG. 3 represents an example of a training method for a multimodal latent data fusion autoencoder according to a set of embodiments of the invention.
  • the method 300 is a method for training a multimodal autoencoder with latent data fusion such as the autoencoders AE, AEa, AEb.
  • the method includes a plurality of iterations of the following steps.
  • Each iteration comprises a first step 310 of encoding, by a plurality of encoders such as the encoders Enc1 a, Enc1 b, Enc2a, Enc2b, Enc3a, Enc3b, for each modality of said plurality respectively, of a vector input such as the vector x lt x 2 or x 3 into a latent vector such as the vector z lt z 2 or z 3 of predefined dimension n, said predefined dimension being identical for each modality.
  • Each iteration comprises a second step 320 of latent merging of the latent vectors encoded by said plurality of encoders into a merged vector z of said predefined dimension.
  • Each iteration comprises a third step 330 of decoding, by a plurality of decoders such as the Decla, Declb, Dec2a, Dec2b, Dec3a, Dec3b decoders, for each modality of said plurality of modalities respectively, of said vector merged into an output vector such as the vector x lt x 2 or x 3 , an output vector being of the same dimension as an input vector for each modality.
  • a plurality of decoders such as the Decla, Declb, Dec2a, Dec2b, Dec3a, Dec3b decoders
  • Each iteration includes a fourth step 340 of calculating a loss function, from the output vectors and the input vectors.
  • the loss function makes it possible to evaluate the loss between the input vectors x lt x 2 , x 3 , and the output vectors x ⁇ , x 2 , x 3.
  • different loss functions can be used such as Euclidean distances (for example L2 or L1 type functions) or functions linked to the perception of images (in English pixel perceptual loss functions).
  • Each iteration includes a fifth step 350 of adaptation of the encoders and decoders, to minimize the loss function.
  • This fifth step can in particular be carried out by the so-called gradient backpropagation method, to adapt the weights and biases of the neural networks forming the encoders and decoders, from the gradient of the loss function.
  • the training method is characterized in that the latent merging consists in assigning to at least one element of the merged vector a value selected from among the values of the elements of said latent vectors encoded by said plurality of encoders.
  • steps 310, 320, 330, 340, and 350 are performed in order to perform the training.
  • a predefined number of iterations can for example be performed, the iterations can continue until the loss function is below a threshold, or until the difference between the values of the loss function loss between two successive iterations is less than a threshold.
  • FIG. 4 represents an example of a method of using a multimodal autoencoder with latent data fusion according to a set of embodiments of the invention.
  • the method of use 400 corresponds to the actual use of a multimodal latent data fusion autoencoder such as one of the autoencoders AE, AEa, AEb, i.e. it corresponds to an inference phase.
  • the method 400 comprises a first step 410 of encoding, by a plurality of encoders such as the encoders Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b, for each modality of said plurality respectively, of a input vector such as the vector x lt x 2 , x 3 into a latent vector such as the vector z lt z 2 , z 3 of predefined dimension n, said predefined dimension being identical for each modality.
  • a plurality of encoders such as the encoders Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b, for each modality of said plurality respectively, of a input vector such as the vector x lt x 2 , x 3 into a latent vector such as the vector z lt z 2 , z 3 of predefined dimension n, said predefined dimension being identical for each modality.
  • the method 400 comprises a second step 420 of latent merging of the latent vectors encoded by said plurality of encoders into a merged vector z of said predefined dimension.
  • the method 400 comprises a third step 430 of decoding, by a plurality of decoders such as the decoders Decla, Decl b, Dec2a, Dec2b, Dec3a, Dec3b, for each modality of said plurality of modalities respectively, of said vector merged into an output vector such that the vectors x ⁇ , x 2 , x 3 , an output vector being of the same dimension as an input vector for each modality.
  • a plurality of decoders such as the decoders Decla, Decl b, Dec2a, Dec2b, Dec3a, Dec3b
  • the method 400 is characterized in that the latent merging consists in assigning to at least one element of the merged vector a value selected from among the values of the elements of the latent vectors encoded by said plurality of encoders.
  • FIG. 5a represents a first example of estimating the results of a latent fusion, according to a state-of-the-art method called “Product of Experts”;
  • FIG. 5b a first example of estimating the results of a latent fusion, according to a set of embodiments of the invention
  • FIG. 5c a second example of estimating the results of a latent fusion, according to a set of embodiments of the invention
  • the graphs 500a, 500b, 500c represent three examples of estimating the results of a latent fusion, respectively for:
  • the autoencoders were trained in the same way (same training set, number of iterations and loss function for training in particular), only the latent fusion being modified between the three examples.
  • the graphs 500a, 500b, 500c are based on the same example, in which the position of a toy in an image is estimated from more or less noisy images.
  • the horizontal axis represents the noise level (or SNR, from English Signal to Noise Ratio, or in French Radio Signal to Noise), in dB of the input image, and the vertical axis the variance of the results, with a logarithmic scale. Better fusion quality is associated with lower variance (thus lower on the vertical axis).
  • FIG. 6a represents a first example of multimodal reconstruction of data from camera, LIDAR and RADAR sensors on board a car.
  • FIG. 6b represents a second example of multimodal reconstruction of data from camera, LIDAR and RADAR sensors on board a car.
  • a scene is captured by three sensors (respectively camera, LIDAR and RADAR) embedded in the same car.
  • a first scene consists of 3 objects in front of two walls forming an angle.
  • a second scene contains a single object in front of the same two walls.
  • the thumbnails 610a, 610b represent the object or objects seen by the LIDAR in front of the walls.
  • the car where the LIDAR is located is located at the bottom right of this representation, as indicated by the apparent shooting cone at the bottom of the thumbnails.
  • the thumbnails 611 a, 611 b represent an image of the scene seen by a camera on board the same of the car.
  • Thumbnails 612a, 612b represent a RADAR view of the same scene.
  • the view is a 2D view of the "top view” location and shape items.
  • the view is also reversed with respect to the other thumbnails, ie the “L” at the bottom of these thumbnails represents the two walls, and the line(s) the object(s).
  • a fusion of multimodal data is performed by a multimodal autoencoder according to one of the embodiments of the invention.
  • the vectors representing the shots 610a, 611a, 612a, 610b, 611b, 612b are therefore encoded into a latent vector for each of the two scenes, then the latent vectors are decoded into decompressed vectors.
  • each latent vector has 64 elements.
  • the thumbnails 620a, 620b, 621a, 621b, 622a, 622b respectively represent the LIDAR, camera and RADAR views of the first and the second scene as restored by the decompressed vectors. These decompressed views are very close to the initial views, even though they were generated from a latent vector comprising a very small amount of information (64 elements in this example).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention concerne un autoencodeur multimodal à fusion de données latente comprenant : une pluralité de modalités; une pluralité d'encodeurs encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d'entrée d'une pluralité de vecteurs d'entrée en un vecteur latent d'une pluralité de vecteur latents de dimension prédéfini, ladite dimension prédéfinie étant identique pour chaque modalité; un module de fusion latente fusionnant ladite pluralité de vecteurs latents en un vecteur fusionné de ladite dimension prédéfinie; une pluralité de décodeurs décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie d'une pluralité de vecteurs de sortie, un vecteur de sortie étant de même dimension qu'un vecteur d'entrée pour chaque modalité; ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments correspondants de ladite pluralité de vecteurs latents.

Description

DESCRIPTION
Titre de l’invention : AUTOENCODEUR MULTIMODAL A FUSION DE DONNEES LATENTE AMELIOREE
Domaine de l’invention
[0001] La présente invention concerne le domaine de l’apprentissage machine. Plus spécifiquement, l’invention concerne le domaine des autoencodeurs.
Etat de l’art précédent.
[0002] Dans de nombreux domaines, le déploiement massif de capteurs variés permet d’envisager le déploiement de systèmes décisionnels autonomes. Par exemple, dans le domaine automobile, de nombreuses recherches portent sur le développement de véhicules autonomes, dans lesquels la sortie de divers capteurs (caméras, LIDARS...) est analysée pour déterminer quelle est la situation environnante, et conduire le véhicule automatiquement.
[0003] Dans ce cadre, l’analyse et le traitement d’une masse extrêmement importante de données capturées par les capteurs est essentielle. En particulier, un objectif permanent de recherche dans ce domaine consiste à obtenir, à partir des données brutes issues des capteurs, une représentation de l’environnement pouvant être intégrée dans une chaîne de prise de décision. Les techniques dites d’apprentissage machine sont de plus en plus largement utilisées dans ce cadre.
[0004] Les autoencodeurs sont une technique récente permettant de transformer une source de données complexe en une représentation de haut niveau. Les autoencodeurs sont un type de réseaux de neurones artificiels entraînés pour effectuer un codage de données efficace de manière non supervisée.
[0005] Un autoencodeur consiste en un premier réseau de neurones, qui encode un vecteur d’entrée généralement noté x en un vecteur compressé (également appelé vecteur latent) généralement noté z, et un deuxième réseau de neurones qui décode le vecteur compressé z en un vecteur décompressé ou reconstruit généralement noté ü , aussi proche que possible du vecteur d’entrée. Le vecteur compressé z a une dimensionnalité inférieure à celle du vecteur d’entrée x et du vecteur reconstruit ü : il est exprimé par des variables appelées variables latentes, qui sont considérées comme définissant les caractéristiques essentielles du vecteur. Ainsi, le vecteur décompressé ü est similaire, mais en général pas strictement identique au vecteur d’entrée x. Les autoencodeurs permettent typiquement une réduction de dimensionnalité de la donnée très efficace, permettant d’ignorer le « bruit » d’un signal. Le vecteur compressé z et les variables latentes peuvent être considérés comme contenant des informations de très haut niveau. Par exemple, si le vecteur d’entrée x est une image, les éléments du vecteur compressé z peuvent indiquer différents types d’objets présents dans l’image.
[0006] Une évolution des autoencodeurs, appelée autoencodeurs variationnels, consiste à représenter chaque caractéristique du vecteur compressé z non pas comme une valeur unique, mais comme une distribution de probabilité définie par une moyenne m et un écart-type o. Au décodage, une valeur est sélectionnée, pour chaque caractéristique, en fonction de la distribution de probabilité. Ainsi un modèle génératif est obtenu, puisque, pour un même vecteur d’entrée x, un grand nombre de vecteurs décompressés ü peuvent être générés. Les autoencodeurs variationnels sont décrits par exemple par Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv: 1312.6114, or Diederik P. Kingma and Volodymyr Kuleshov. Stochastic Gradient Variational Bayes and the Variational Autoencoder. In ICLR, pp. 1-4, 2014.
[0007] Une nouvelle catégorie d’autoencodeurs est appelée autoencodeurs multimodaux, les autoencodeurs multimodaux sont notamment décrits par Wu, M., & Goodman, N. (2018). Multimodal generative models for scalable weakly-supervised learning. arXiv preprint arXiv: 1802.05335. Un autoencodeur multimodal est constitué d’une pluralité de modalités, chaque modalité comportant un encodeur et un décodeur. Chaque encodeur encode un vecteur d’entrée distinct en un vecteur compressé, puis les vecteurs compressés fournis par chacune des modalités sont fusionnés en un vecteur compressé fusionné unique pour toutes les modalités. Ensuite, chaque décodeur de chaque modalité décode le vecteur compressé fusionné en un vecteur décompressé propre à chaque modalité. Un autoencodeur multimodal peut également être, ou non, un autoencodeur variationnel.
[0008] L’objectif des autoencodeurs multimodaux est d’entraîner de manière conjointe les encodeurs et décodeurs des différentes modalités, pour parvenir à extraire des variables latentes synthétisant les informations fournies par l’ensemble des modalités. Par exemple, les différentes modalités peuvent correspondre à des données fournies par différents capteurs à un même instant (par exemple, une trame RGB fournie par caméra en modalité 1 , un nuage de points LIDAR en modalité 2 ; ou une trame RGB fournie par une caméra avant d’un véhicule en modalité 1 , une trame RGB fournie par une caméra avant d’un véhicule en modalité 2, etc). Les autoencodeurs multimodaux permettent ainsi, lorsqu’ils sont appliqués à des sorties de données capteurs, d’effectuer une fusion des données capteurs permettant d’aboutir à une représentation commune du monde par les différents capteurs. Les variables latentes du vecteur compressé fusionnés sont ainsi particulièrement pertinentes pour synthétiser les données fournies par les capteurs dans le cadre d’un système de prise de décision, par exemple un véhicule autonome.
[0009] Parmi les différents types de fusion de données envisagées, la combinaison par composants consiste à obtenir les valeurs de chaque élément du vecteur compressé fusionné en combinant les éléments correspondants des vecteurs compressés de chaque modalité, c’est-à-dire que tous les vecteurs compressés des modalités, et fusionnés ont la même dimension, et le 1e élément du vecteur fusionné est obtenu en combinant tous les 1e éléments des vecteurs compressés des modalités, le 2e élément du vecteur fusionné est obtenu en combinant tous les 2e éléments des vecteurs compressés des modalités, etc. L’utilisation d’une combinaison par composant présente l’avantage de conserver un espace latent fusionné de taille limité, tout limitant la complexité de calcul, qui sera proportionnelle à C * N (où C est le nombre d’éléments des vecteurs compressés et fusionnés, et N le nombre de modalités).
[0010] Plusieurs méthodes de fusion par modalités ont été proposées, notamment la méthode dite « Product of Experts » (PoE, en français « Produit des experts ») décrite par Wu, M., & Goodman, N. (2018). Multimodal generative models for scalable weakly-supervised learning. arXiv preprint arXiv: 1802.05335, la méthode dite « Mixture of Experts (MoE, en français « mélange des experts ») décrite par Shi, Y., Siddharth, N., Paige, B., & Torr, P. H. (2019). Variational mixture-of-experts autoencoders for multi-modal deep generative models. arXiv preprint arXiv:1911.03393., et la méthode dite « Robust Bayesian Committe Machines » (en français « Machines de comité bayesiennes robustes ») décrite par Deisenroth, M., & Ng, J. W. (2015, June). Distributed gaussian processes. In International Conférence on Machine Learning (pp. 1481-1490). PMLR.
[0011] Cependant, la capacité des méthodes connues de fusion par modalité à obtenir une fusion efficace des variables latentes demeure limitée.
[0012] Il y a donc besoin d’un autoencodeur multimodal permettant une fusion efficace des variables latentes.
Résumé de l’invention.
[0013] A cet effet, l’invention a pour objet un autoencodeur multimodal à fusion de données latente comprenant : une pluralité de modalités; une pluralité d’encodeurs encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; un module de fusion latente fusionnant les vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; une pluralité de décodeurs décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
[0014] Avantageusement, le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée de manière aléatoire parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
[0015] Avantageusement, l’autoencodeur est un autoencodeur variationnel, et chaque élément d’un desdits vecteurs latents encodés par ladite pluralité d’encodeurs, et du vecteur fusionné est formé d’une moyenne et d’un écart-type.
[0016] Avantageusement, le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
[0017] Avantageusement, chaque encodeur de chaque modalité de ladite pluralité de modalités prend en entrée des mesures de chaque capteur d’une pluralité de capteurs respectivement.
[0018] Avantageusement, les capteurs de ladite pluralité de capteurs sont co- localisés.
[0019] Avantageusement, les capteurs de ladite pluralité de capteurs sont localisés dans un véhicule automobile. [0020] L’invention a également pour objet une méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente comprenant une pluralité de modalités, ladite méthode comprenant plusieurs itérations d’entraînement, chaque itération d’entraînement comprenant: l’encodage, par une pluralité d’encodeurs, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; la fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; le décodage, par une pluralité de décodeurs, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; le calcul d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée ; l’adaptation des encodeurs et des décodeurs, pour minimiser ladite fonction de perte ; ladite méthode d’entraînement étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
[0021] L’invention a également pour objet une méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente comprenant une pluralité de modalités, ladite méthode comprenant : l’encodage, par une pluralité d’encodeurs, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; la fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; le décodage, par une pluralité de décodeurs, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie ,un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; ladite méthode d’utilisation étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
[0022] L’invention a également pour objet un programme d’ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par ordinateur, lesdites instructions de code de programme étant configurées, lorsque ledit programme fonctionne sur un ordinateur pour exécuter une méthode selon l’un des modes de réalisation de l’invention.
[0023] L’invention a également pour objet un système de calcul comprenant : une pluralité de capteurs ; au moins une unité de calcul configurée pour exécuter un autoencodeur multimodal à fusion de données latente selon l’un des modes de réalisation de l’invention, chaque capteur de ladite pluralité étant respectivement associé à une modalité de la pluralité de modalités de l’autoencodeur.
[0024] D’autres caractéristiques, détails et avantages de l’invention ressortiront à la lecture de la description faite en référence aux dessins annexés donnés à titre d’exemple et qui représentent, respectivement :
[0025] [Fig.1a] un premier exemple de système de calcul selon un ensemble de modes de réalisation de l’invention ;
[0026] [Fig.1b] un deuxième exemple de système de calcul selon un ensemble de modes de réalisation de l’invention ;
[0027] [Fig.2a] un premier exemple d’autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;
[0028] [Fig.2b] un deuxième exemple d’autoencodeur variationnel multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ; [0029] [Fig.3] un exemple de méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;
[0030] [Fig. 4] un exemple de méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;
[0031] [Fig. 5a] un premier exemple d’estimation de résultats d’une fusion latente, selon une méthode de l’état de l’art dite « Product of Experts » ;
[0032] [Fig. 5b] un premier exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;
[0033] [Fig. 5c] un deuxième exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;
[0034] [Fig.6a] un premier exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture ;
[0035] [Fig.6b] un deuxième exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.
[0036] La figure 1a représente un premier exemple de système de calcul selon un ensemble de modes de réalisation de l’invention.
[0037] Le système Sysa est formé d’un véhicule automobile Auta.
[0038] Le véhicule Auta est équipé d’une pluralité de capteurs Captl , Capt2, etc ainsi que d’au moins une unité de calcul Calca.
[0039] Selon différents modes de réalisation de l’invention, une unité de calcul peut être un processeur fonctionnant selon des instructions logicielles, une configuration matérielle d'un processeur ou une combinaison de ceux-ci. Il est à noter que l'une quelconque ou toutes les fonctions décrites ici peuvent être implémentées dans une mise en œuvre matérielle pure et / ou par un processeur fonctionnant conformément aux instructions du logiciel. Il faut également comprendre que l'une quelconque ou toutes les instructions logicielles peuvent être stockées sur un support lisible par ordinateur non transitoire. Par souci de simplicité, dans le reste de la description, la ou les unités de calcul pourront être appelées «l’unité de calcul». Cependant, il est à noter que les opérations de l'invention peuvent également être effectuées dans une seule unité de calcul, ou une pluralité d’unités de calcul, par exemple une pluralité de processeurs ou un processeur multi-cœurs.
[0040] L’unité de calcul Calca est configurée pour exécuter un autoencodeur multimodal à fusion de données latente AE comprenant une pluralité de modalités. Chaque modalité de l’encodeur multimodal est respectivement associée à un capteur parmi la pluralité de capteurs Captl, Capt2, etc. Dit autrement, les sorties de chacun des capteurs sont fournis en entrée des différentes modalités de l’autoencodeur AE.
[0041] Comme il sera expliqué plus en détails dans la suite de la description, l’un des objectifs de l’invention, et de l’autoencodeur multimodal AE, est d’obtenir une représentation latente de l’autoencodeur qui fournisse une représentation de faible dimensionnalité des données capturées par l’ensemble des capteurs.
[0042] Selon différents modes de réalisation de l’invention, différentes combinaisons de capteurs peuvent être utilisées pour ladite pluralité, comme par exemple :
- une caméra et un LIDAR ;
- deux caméras ayant deux angles de vue différents (par exemple, une caméra avant et une caméra arrière ;
- des configurations supplémentaires dérivées de celles-ci-dessus avec l’utilisation aussi de RADAR et capteurs à ultrasons (UPA)
[0043] L’autoencodeur AE peut prendre en entrée des données fournies par l’ensemble des capteurs présents dans le véhicule Auta, ou seulement d’une partie d’entre eux.
[0044] Le système Sysa peut être utilisé aussi bien pour les phases d’entraînement que les phases d’inférence de l’autoencodeur AE.
[0045] Dans un ensemble de modes de réalisation de l’invention, l’au moins une unité de calcul Calca est de plus configurée pour exécuter un module de guidage autonome du véhicule Auta. Dans ce cas, l’utilisation de l’autoencodeur AE permet avantageusement d’effectuer une fusion de données des capteurs très efficace, et d’aboutir à une représentation de faible dimensionnalité de l’ensemble des données capturées par les capteurs. Cette représentation de faible dimensionnalité permet ainsi d’obtenir des caractéristiques de haut niveau sur l’environnement du véhicule, et de faciliter le guidage autonome de celui-ci.
[0046] La figure 1b représente un deuxième exemple de système de calcul selon un ensemble de modes de réalisation de l’invention.
[0047] Le système Sysb est formé par un véhicule automobile Autb, et un dispositif de calcul Dispb communicant par un lien de transmission de données Transb.
[0048] Le dispositif de calcul Dispb peut être tout dispositif apte à effectuer des calculs, tels qu’un serveur, un ordinateur personnel, une tablette ou un smartphone. Le dispositif de calcul Dispb comprend au moins une unité de calcul Calcb apte à exécuter un encodeur multimodal AE. Le lien de transmission de données Transb peut être formé de tout élément permettant une liaison de données entre le véhicule automobile Autb et le dispositif de calcul Dispb. Par exemple une liaison de données de type 4G, Wi-Fi ou Bluetooth peuvent être utilisées. Le lien de transmission de données Transb permet notamment au véhicule Autb de transmettre les mesures des capteurs au dispositif de calcul Calcb pour le traitement de celles-ci.
[0049] Comme le véhicule automobile Auta de la figure 1a, le véhicule automobile Autb comprend la pluralité de capteurs Captl, Capt2, etc... associés respectivement aux modalités de l’autoencodeur AE.
[0050] La seule différence entre les systèmes Sysa et Sysb réside donc dans le fait que, dans le système Sysa, l’exécution de l’autoencodeur s’effectue dans le véhicule Auta lui-même, alors que, dans le cadre du système Sysb, elle s’effectue de manière déportée dans un dispositif distant Dispb.
[0051] Il convient de noter que les systèmes Sysa et Sysb sont fournis à titre d’exemple uniquement.
[0052] De manière plus générale, il apparaîtra dans la suite de la description qu’un autoencodeur multimodal selon l’invention est apte à effectuer une fusion de données de plusieurs sources pour aboutir à une représentation de faible dimension des données représentative de l’ensemble des sources, que les sources de données soient des capteurs ou non. [0053] Plus particulièrement, un autoencodeur selon l’invention est apte à effectuer une fusion de mesures de capteurs. L’invention est donc applicable à une pluralité de capteurs, qu’ils soient localisés ou non dans un véhicule automobile.
[0054] L’invention est en particulier applicable à des capteurs colocalisés, c’est-à-dire localisés substantiellement au même emplacement, puisqu’une telle pluralité de capteurs mesurera des données dans un même environnement, sur lesquels une fusion de données efficace pourra être effectuée. Des capteurs colocalisés peuvent par exemple être des capteurs situés dans un même boîtier, un même véhicule, ou plus généralement des capteurs situés à proximité les uns des autres, qu’ils se situent ou non dans un véhicule automobile.
[0055] La figure 2a représente un premier exemple d’autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.
[0056] L’autoencodeur multimodal à fusion de données latente AEa comprend une pluralité de modalités Mod1 , Mod2, Mod3. Bien que trois modalités soient représentées sur la figure 2a, cet exemple n’est pas limitatif, et tout nombre de modalités égal ou supérieur à 2 peut être utilisé.
[0057] Chaque modalité comprend un encodeur Enc1 a, Enc2a, Enc3a, encodant un vecteur d’entrée xlt x2, x3 en un vecteur latent zlt z2, z3, également appelé vecteur compressé de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.
[0058] Par exemple :
- la 1e modalité Mod1 comprend un encodeur Enc1 a encodant un vecteur d’entrée xt en un vecteur latent zx ; - la 2e modalité Mod2 comprend un encodeur Enc2a encodant un vecteur d’entrée x2 en un vecteur latent z2 ;
- la 3e modalité Mod3 comprend un encodeur Enc3a encodant un vecteur d’entrée x3 en un vecteur latent z3 ;
- les vecteurs latents zlt z2, z3 sont de même dimension prédéfinie n. [0059] Les vecteurs d’entrée xlt x2, x3 correspondent à différentes sources de données. Par exemple, le vecteur d’entrée xt peut correspondre aux mesures issues du capteur Captl , et le vecteur d’entrée x2 aux mesures issues du capteur Capt2.
[0060] Selon différents modes de réalisation de l’invention, les vecteurs d’entrée xlt x2, x3 peuvent correspondre à des données brutes issues des capteurs et/ou à des données pré-traitées. Par exemple, un vecteur d’entrée peut correspondre à une image, ou une image sur laquelle une segmentation sémantique a été effectuée.
[0061] L’autoencodeur multimodal AEa comprend un module de fusion latente Fusa fusionnant les vecteurs latents en sortie desdits encodeurs en un vecteur fusionné z de ladite dimension prédéfinie.
[0062] Dit autrement, le module de fusion latente Fusa prend en entrée vecteurs latents zlt z2, z3 générés par les encodeurs pour chaque modalité, et les fusionne en un vecteur fusionné unique z. Le vecteur fusionné z fournit donc une représentation de haut niveau, et de faible dimensionnalité, de l’information contenue dans l’ensemble des vecteurs d’entrée xlt x2, x3.
[0063] L’autoencodeur multimodal à fusion de données AEa comprend de plus, pour chaque modalité de ladite pluralité, un décodeur Declb, Dec2b, Dec3b décodant le vecteur fusionné z en un vecteur de sortie x±, x2, x3 de même dimension que le vecteur d’entrée de ladite modalité.
[0064] Par exemple :
- la 1e modalité Mod1 comprend un décodeur Decla décodant le vecteur fusionné z en un vecteur de sortie xt de même dimension que le vecteur d’entrée xt ;
- la 2e modalité Mod2 comprend un décodeur Dec2a décodant le vecteur fusionné z en un vecteur de sortie x2 de même dimension que le vecteur d’entrée x2 ;
- la 3e modalité Mod3 comprend un décodeur Dec3a décodant le vecteur fusionné z en un vecteur de sortie x3 de même dimension que le vecteur d’entrée x3.
[0065] Il est ici à noter que, alors que dans le cadre d’un autoencodeur classique, les vecteurs de sortie xx, x2, x3 seraient respectivement similaires aux vecteurs d’entrée xlt x2, x3, dans le cadre de l’autoencodeur multimodal AEa, le vecteur fusionné z est enrichi d’informations issues de l’ensemble des vecteurs d’entrée. Les valeurs de chacun des vecteurs de sortie x±, x2, x3 dépendent donc de l’ensemble des vecteurs d’entrée xlt x2, x3.
[0066] Chacun des encodeurs Enc1 a, Enc2a, Enc3a, et des décodeurs Decl b, Dec2b, Dec3b est un réseau de neurones. Les caractéristiques de chacun de ces réseaux de neurones dépendent de la topologie des données d’entrée. Par exemple, des réseaux de neurones convolutionnels peuvent être utilisés, notamment pour des données image issues de caméra. L’homme de l’art pourra sans effort déterminer le type de réseau de neurones le plus adapté pour un type d’entrées donné. Dans un ensemble de modes de réalisation de l’invention, les types de réseaux de neurones suivants peuvent être utilisés :
- Des architectures à base de réseaux pleinement connectés (en anglais Fully- Connected Networks ou FCN) ;
- Des architectures à base de réseaux récursifs (par exemple, un réseau récurrent à mémoire court et long terme (en anglais Long Short Term Memory ou LSTM) et Réseaux de Neurones Récurrents (en anglais Récurrent Neural Networks ou RNN) ;
- Des architectures à base de réseaux impulsionnels (en anglais Spiking Neural Networks).
[0067] Le module de fusion latente Fusa est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments correspondants des vecteurs latents desdites modalités.
[0068] Dit autrement, la valeur de chaque élément d’indice i (avec i e [l; n] si les indices des éléments sont notés 1 à n) du vecteur fusionné z est choisie comme une des valeurs des éléments d’indice i des vecteur latents zlt z2, z3. Le vecteur sélectionné pour la valeur n’est évidemment pas nécessairement le même pour chaque élément.
[0069] Par exemple, la valeur du 1e élément de z peut être sélectionnée comme celle du 1e élément de z2, mais celle du 2e élément de z peut être sélectionnée comme celle du 2e élément de zlt etc. [0070] Le choix du vecteur latent dans lequel est sélectionnée la valeur d’un élément donné du vecteur fusionné peut être différent à chaque utilisation de l’autoencodeur multimodal. En particulier, la sélection peut être ré-effectuée pour chaque élément, de manière indépendante, à chaque itération d’une phase d’entrainement (ou d’apprentissage) de l’autoencodeur.
[0071] Cette sélection d’une valeur unique parmi les vecteurs latents est contre- intuitive pour l’homme de l’art. En effet, les techniques de l’état de l’art utilisent plutôt une combinaison des valeurs des éléments des vecteurs latents. Par exemple, dans l’état de l’art, la valeur d’un ie élément de z pourrait être la moyenne, une moyenne pondérée, ou une combinaison plus complexe des valeurs des ies éléments de zlt z2, z3. Il est donc contre-intuitif pour l’homme de l’art de ne sélectionner qu’une valeur parmi celle des ies éléments de zlt z2, z3 pour obtenir la valeur du ie élément de z.
[0072] Pourtant, cette sélection d’un élément unique de zlt z2, z3 pour former l’élément correspondant de z fournit l’effet surprenant de créer, au fur et à mesure des itérations d’apprentissage, un modèle de données commun aux différentes modalités. Ainsi, au fur et à mesure de l’apprentissage, un élément i de chacun des vecteurs latents zlt z2, z3 codera une même variable latente pour toutes les modalités, quelle que soit la source des données d’entrée des modalités.
[0073] Ainsi, l’invention permet de réaliser une fusion très efficace des données d’entrée, et des apprentissages des différentes modalités de l’autoencodeur AEa.
[0074] Dans un ensemble de modes de réalisation de l’invention, la sélection de la valeur à assigner à chaque élément du vecteur fusionné z parmi les valeurs des éléments correspondants de zlt z2, z3 s’effectue de manière aléatoire.
[0075] Ainsi, à chaque itération d’utilisation de l’autoencodeur :
- la valeur du 1 e élément de z est choisie de manière aléatoire parmi les valeurs des 1e éléments de zlt z2, z3 ;
- la valeur du 2e élément de z est choisie de manière aléatoire parmi les valeurs des 2e éléments de zlt z2, z3 ;
- Et ainsi de suite pour chacun des n éléments de z.
[0076] Cette méthode peut être appelée « Russian roulette ». [0077] Ceci permet, de manière particulièrement efficace, d’entraîner les encodeurs et décodeurs des différentes modalités à coder, pour chaque élément de leurs vecteurs compressés, les mêmes variables latentes. En effet, chaque itération d’entraînement prendra en compte, de manière aléatoire, une valeur issue d’un des encodeurs pour chaque élément de z, ce qui permet d’entraîner les encodeurs et décodeurs de manière à ce qu’une même caractéristique soit codée pour un élément donné, quelle que soit la modalité sélectionnée.
[0078] La figure 2b représente un deuxième exemple d’autoencodeur variationnel multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.
[0079] Comme l’autoencodeur multimodal AEa, l’autoencodeur multimodal AEb comprend une pluralité de modalités, notées dans cet exemple Mod1 , Mod2, Mod3, chaque modalité prenant en entrée un vecteur d’entrée xlt x2, x3 encodé respectivement par un encodeur Enc1 b, Enc2b, Enc3b en un vecteur compressé, ou latent zlt z2, z3, puis le module de fusion Fusb fusionne les vecteurs latents zlt z2, z3 en un vecteur fusionné z qui sera décodé pour chaque modalité par un décodeur Decl b, Dec2b, Dec3b respectivement en un vecteur de sortie x±, x2, x3.
[0080] A la différence de l’autoencodeur AEa, l’autoencodeur AEb est un autoencodeur variationnel, c’est-à-dire que chaque élément des vecteurs latents zlt z2, z3, et du vecteur fusionné z comporte, non pas une valeur unique, mais une moyenne m et un écart-type o définissant une distribution. Pour le décodage par les décodeurs Decl b, Dec2b, Dec3b, une valeur est sélectionnée parmi la distribution de probabilité définie par les valeurs de moyenne m et d’écart-type s2 pour chaque élément de z, permettant ainsi le décodage.
[0081] Dans un ensemble de modes de réalisation de l’invention, le module de fusion latente Fusb est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants des vecteurs latents desdites modalités.
[0082] Dit autrement, si l’autoencodeur comprend un nombre de modalités égal à C, les modalités sont notés par un indice i avec i e {1,2, . C), et, pour un élément donné, les moyennes et écart-type pour la modalité i sont notés mέ et s , alors les valeurs de moyenne m et d’écart-type s2 de cet élément pour z sont choisies comme celles de l’élément correspondant de la modalité d’indice k, pour lequel l’écart-type est le plus faible : k = argmin( af ) i e {i,2,..,c} û e {sΐ, sΐ, . , ., s }
Figure imgf000017_0001
[0083] Cette méthode peut être appelée « survival of the fittest ». [0084] Ceci permet de sélectionner, pour chaque variable latente, la valeur correspondante ayant l’écart-type le plus faible parmi les vecteurs latents zlt z2, z3, et donc de disposer des valeurs les plus précises pour chaque variable latente.
[0085] La figure 3 représente un exemple de méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.
[0086] La méthode 300 est une méthode d’entraînement d’un autoencodeur multimodal à fusion de données latentes tel que les autoencodeurs AE, AEa, AEb.
La méthode comprend une pluralité d’itérations des étapes suivantes. [0087] Chaque itération comprend une première étape 310 d’encodage, par une pluralité d’encodeurs tels que les encodeurs Enc1 a, Enc1 b, Enc2a, Enc2b, Enc3a, Enc3b, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée tels que le vecteur xlt x2 ou x3 en un vecteur latent tels que le vecteur zlt z2 ou z3 de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.
[0088] Chaque itération comprend une deuxième étape 320 de fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné z de ladite dimension prédéfinie.
[0089] Chaque itération comprend une troisième étape 330 de décodage, par une pluralité de décodeurs tels que les décodeurs Decla, Declb, Dec2a, Dec2b, Dec3a, Dec3b, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie tel que le vecteur xlt x2 ou x3, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité.
[0090] Chaque itération comprend une quatrième étape 340 de calcul d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée.
[0091] La fonction de perte permet d’évaluer la perte entre les vecteurs d’entrée xlt x2, x3, et les vecteurs de sortie x±, x2, x3. Selon différents modes de réalisation de l’invention, différentes fonctions de pertes peuvent être utilisées telle que des distances euclidiennes (par exemple fonctions de type L2 ou L1) ou des fonctions liées à la perception des images (en anglais pixel perceptual loss functions).
[0092] Chaque itération comprend une cinquième étape 350 d’adaptation des encodeurs et des décodeurs, pour minimiser la fonction de perte.
[0093] Cette cinquième étape peut en particulier être réalisée par la méthode dite de rétropropagation du gradient, pour adapter les poids et biais des réseaux de neurones formant les encodeurs et décodeurs, à partir du gradient de la fonction de perte.
[0094] La méthode d’entrainement est caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
[0095] Plusieurs itérations des étapes 310, 320, 330, 340, et 350 sont effectuées afin de réaliser l’entraînement.
[0096] Selon différents modes de réalisation de l’invention, plusieurs critères peuvent être utilisés pour stopper les itérations et terminer l’entraînement. Par exemple, un nombre prédéfini d’itérations peut par exemple être effectué, les itérations peuvent se poursuivre jusqu’à ce que la fonction de perte soit inférieure à un seuil, ou jusqu’à ce que la différence entre les valeurs de la fonction de perte entre deux itérations successives soit inférieure à un seuil.
[0097] Tous les modes de réalisation discutés ci-dessus sont respectivement applicables à la méthode 300. [0098] La figure 4 représente un exemple de méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.
[0099] La méthode d’utilisation 400 correspond à l’utilisation effective d’un autoencodeur multimodal à fusion de données latente tel que l’un des autoencodeurs AE, AEa, AEb, c’est-à-dire qu’elle correspond à une phase d’inférence.
[0100] La méthode 400 comprend une première étape 410 d’encodage, par une pluralité d’encodeurs tels que les encodeurs Enc1 a, Enc1 b, Enc2a, Enc2b, Enc3a, Enc3b, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée tels que le vecteur xlt x2, x3 en un vecteur latent tels que le vecteur zlt z2, z3 de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.
[0101] La méthode 400 comprend une deuxième étape 420 de fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné z de ladite dimension prédéfinie.
[0102] La méthode 400 comprend une troisième étape 430 de décodage, par une pluralité de décodeurs tels que les décodeurs Decla, Decl b, Dec2a, Dec2b, Dec3a, Dec3b, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie tels que les vecteurs x±, x2, x3, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité.
[0103] La méthode 400 est caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments des vecteurs latents encodés par ladite pluralité d’encodeurs.
[0104] Tous les modes de réalisation discutés ci-dessus sont respectivement applicables à la méthode 400.
[0105] La figure 5a représente un premier exemple d’estimation de résultats d’une fusion latente, selon une méthode de l’état de l’art dite « Product of Experts » ;
[0106] La figure 5b un premier exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ; [0107] La figure 5c un deuxième exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;
[0108] Les graphes 500a, 500b, 500c représentent trois exemples d’estimation de résultats d’une fusion latente, respectivement pour :
- une méthode de l’état de l’art dite « Product of Experts » dans le cas du graphe 500a ;
- un premier exemple de mode de réalisation de l’invention, correspondant à un exemple de la figure 2b, avec un autoencodeur variationnel, où chaque élément du vecteur fusionné est choisi comme un élément correspondant des vecteurs latents ayant la variance la plus faible (méthode appelée « survival of the fittest »), dans le cas du graphe 500b ;
- un deuxième exemple de modes de réalisation de l’invention, correspondant à un exemple de la figure 2c, avec un autoencodeur variationnel, où chaque élément du vecteur fusionné est choisi de manière aléatoire parmi les éléments correspondants des vecteurs latents (méthode appelée « russian roulette »), dans le cas du graphe 500c.
[0109] Pour ces trois exemples, les autoencodeurs ont été entraînés de la même manière (même jeu d’entraînement, nombre d’itération et fonction de perte pour l’entraînement notamment), seule la fusion latente étant modifiée entre les trois exemples.
[0110] Les graphes 500a, 500b, 500c sont basés sur le même exemple, dans lequel la position d’un jouet dans une image est estimée à partir d’images plus ou moins bruitées.
[0111] Dans chaque graphe, l’axe horizontal représente le niveau de bruitage (ou SNR, de l’anglais Signal to Noise Ratio, ou en français Radio Signal sur Bruit), en dB de l’image d’entrée, et l’axe vertical la variance des résultats, avec une échelle logarithmique. Une meilleure qualité de fusion est associée avec une variance plus faible (donc plus bas sur l’axe vertical).
[0112] Pour chaque axe, quatre courbes sont représentées :
- Une fusion optimale théorique 540a, 540b, 540c, identique pour les trois graphes ; - L’évolution de la variance de la position entre l’image d’entrée bruitée, et la position véritable dans l’image non bruitée : courbes 530a, 530b, 530c, identiques pour les trois graphes ;
- L’erreur en sortie de l’autoencodeur multimodal, par rapport à l’entrée non bruitée : courbes 520a, 520b, 520c ;
- L’erreur en sortie de l’autoencodeur multimodal, par rapport à l’entrée bruitée : courbes 510a, 510b, 510c.
[0113] Ces exemples montrent qu’à SNR équivalent, les erreurs en sortie des autoencodeurs selon l’invention montrent une variance plus faible que les autoencodeurs selon l’état de l’art. Cet exemple démontre que l’invention permet une fusion de données latentes plus efficace que les méthodes de l’état de l’art pour un autoencodeur multimodal.
[0114] La figure 6a représente un premier exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.
[0115] La figure 6b représente un deuxième exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.
[0116] Dans les deux cas, une scène est capturée par trois capteurs (respectivement caméra, LIDAR et RADAR) embarqués dans une même voiture. Dans le cas de la figure 6a, une première scène consiste en 3 objets devant deux murs formant un angle. Dans le cas de la figure 6b, une deuxième scène contient un seul objet devant les deux mêmes murs.
[0117] Les vignettes 610a, 610b représentent le ou les objets vus par le LIDAR devant les murs. La voiture où est situé le LIDAR est située en bas à droite de cette représentation, comme indiqué par le cône de prise de vue apparent en bas des vignettes.
[0118] Les vignettes 611 a, 611 b représentent une image de la scène vue par une caméra embarquée dans la même de la voiture.
[0119] Les vignettes 612a, 612b représentent une vue RADAR de la même scène. Dans ce cas, la vue est une vue 2D de l’emplacement et de la forme « vue du haut » des objets. La vue est également inversée par rapport aux autres vignettes, c’est-à- dire que le « L » en bas de ces vignettes représente les deux murs, et la ou les traits le ou les objets.
[0120] Dans les deux cas une fusion de données multimodales est effectuée par un autoencodeur multimodal selon l’un des modes de réalisation de l’invention. Les vecteurs représentant les prises de vues 610a, 611 a, 612a, 610b, 611 b, 612b sont donc encodés en un vecteur latent pour chacune des deux scènes, puis les vecteurs latents sont décodés en des vecteurs décompressés. Dans cet exemple, chaque vecteur latent comprend 64 éléments. [0121] Les vignettes 620a, 620b, 621a, 621 b, 622a, 622b représentent respectivement les vues LIDAR, caméra et RADAR de la première et la deuxième scène telles que restituées par les vecteurs décompressés. Ces vues décompressées sont très proches des vues initiales, alors même qu’elles ont été générées à partir d’un vecteur latent comprenant une quantité d’information très réduite (64 éléments dans cet exemple).
[0122] Cet exemple démontre donc la capacité de l’invention à encoder de manière très efficace l’information issue de plusieurs capteurs, en particulier de capteurs co- localisés, et donc à réaliser une fusion de données efficace. [0123] Les exemples ci-dessus démontrent la capacité de l’invention à permettre une fusion de données latente efficace d’un autoencodeur multimodal. Ils ne sont cependant donnés qu’à titre d’exemple et ne limitent en aucun cas la portée de l’invention, définie dans les revendications ci-dessous.

Claims

REVENDICATIONS
1 . Autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant : une pluralité de modalités (Mod1 , Mod2, Mod3) ; une pluralité d’encodeurs (Enc1 a, Enc1 b, Enc2a, Enc2b, Enc3a, Enc3b) encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d’entrée (xx, x2, x3) en un vecteur latent (zlt z2, z3) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ; un module de fusion latente (Fusa, Fusb) fusionnant les vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné (z) de ladite dimension prédéfinie ; une pluralité de décodeurs (Decla, Decl b, Dec2a, Dec2b, Dec3a, Dec3b) décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie (xlt x2, x3), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité; ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
2. Autoencodeur multimodal à fusion de données latente selon la revendication 1 , dans lequel le module de fusion latente (Fusa) est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée de manière aléatoire parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
3. Autoencodeur multimodal à fusion de données latente selon la revendication 1 , dans lequel l’autoencodeur est un autoencodeur variationnel, et chaque élément d’un desdits vecteurs latents (zx, z2, z3) encodés par ladite pluralité d’encodeurs, et du vecteur fusionné (z) est formé d’une moyenne et d’un écart-type.
4. Autoencodeur multimodal à fusion de données latente selon la revendication 3, dans lequel le module de fusion latente (Fusb) est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
5. Autoencodeur selon l’une quelconque des revendications précédentes, dans laquelle chaque encodeur de chaque modalité de ladite pluralité de modalités prend en entrée des mesures de chaque capteur d’une pluralité de capteurs respectivement (Captl , Capt2).
6. Autoencodeur selon la revendication 5, dans lequel les capteurs de ladite pluralité de capteurs sont co-localisés.
7. Autoencodeur selon la revendication 6, dans les capteurs de ladite pluralité de capteurs sont localisés dans un véhicule automobile (Auta, Autb).
8. Méthode (300) d’entraînement d’un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant une pluralité de modalités (Mod1,
Mod2, Mod3), ladite méthode comprenant plusieurs itérations d’entraînement, chaque itération d’entraînement comprenant : l’encodage (310), par une pluralité d’encodeurs (Enc1 a, Enc1 b, Enc2a, Enc2b, Enc3a, Enc3b), pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée (xx, x2, x3) en un vecteur latent (zlt z2, z3) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ; la fusion latente (320) des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné (z) de ladite dimension prédéfinie ; le décodage (330), par une pluralité de décodeurs (Decla, Declb, Dec2a, Dec2b, Dec3a, Dec3b), pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie (xx, x2, x3), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; le calcul (340) d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée ; l’adaptation (350) des encodeurs et des décodeurs, pour minimiser ladite fonction de perte ; ladite méthode d’entraînement étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
9. Méthode (400) d’utilisation d’un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant une pluralité de modalités (Mod1, Mod2, Mod3), ladite méthode comprenant : l’encodage (410), par une pluralité d’encodeurs (Enc1 a, Enc1 b, Enc2a, Enc2b, Enc3a, Enc3b), pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée (xx, x2, x3) en un vecteur latent (zlt z2, z3) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ; la fusion latente (420) des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné (z) de ladite dimension prédéfinie ; le décodage (430), par une pluralité de décodeurs (Deda, Declb, Dec2a, Dec2b, Dec3a, Dec3b), pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie (xx, x2, x3), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; ladite méthode d’utilisation étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
10. Programme d’ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par ordinateur, lesdites instructions de code de programme étant configurées, lorsque ledit programme fonctionne sur un ordinateur pour exécuter une méthode selon l’une des revendications 8 ou 9.
11. Système de calcul (Sysa, Sysb) comprenant : une pluralité de capteurs (Captl, Capt2...) ; au moins une unité de calcul (Calca, Calcb) configurée pour exécuter un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) selon l’une des revendications 1 à 7, chaque capteur de ladite pluralité étant respectivement associé à une modalité de la pluralité de modalités de l’autoencodeur.
PCT/EP2022/058163 2021-03-30 2022-03-28 Autoencodeur multimodal a fusion de donnees latente amelioree WO2022207573A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP22719247.3A EP4315170A1 (fr) 2021-03-30 2022-03-28 Autoencodeur multimodal a fusion de donnees latente amelioree

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2103265A FR3121535B1 (fr) 2021-03-30 2021-03-30 Autoencodeur multimodal a fusion de donnees latente amelioree
FRFR2103265 2021-03-30

Publications (1)

Publication Number Publication Date
WO2022207573A1 true WO2022207573A1 (fr) 2022-10-06

Family

ID=76601315

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2022/058163 WO2022207573A1 (fr) 2021-03-30 2022-03-28 Autoencodeur multimodal a fusion de donnees latente amelioree

Country Status (3)

Country Link
EP (1) EP4315170A1 (fr)
FR (1) FR3121535B1 (fr)
WO (1) WO2022207573A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230140656A1 (en) * 2021-10-28 2023-05-04 Aramco Overseas Company B.V. Method and system for determining seismic processing parameters using machine learning

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DIEDERIK P. KINGMAVOLODYMYR KULESHOV: "Stochastic Gradient Variational Bayes and the Variational Autoencoder", ICLR, 2014, pages 1 - 4
EVANGELOPOULOS GEORGIOS ET AL: "Multimodal Saliency and Fusion for Movie Summarization Based on Aural, Visual, and Textual Attention", IEEE TRANSACTIONS ON MULTIMEDIA, IEEE, USA, vol. 15, no. 7, 1 November 2013 (2013-11-01), pages 1553 - 1568, XP011529375, ISSN: 1520-9210, [retrieved on 20131011], DOI: 10.1109/TMM.2013.2267205 *
JEAN-FRAN\C{C}OIS TREMBLAY ET AL: "Multimodal dynamics modeling for off-road autonomous vehicles", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 March 2021 (2021-03-29), XP081900555 *
JUN-HO CHOI ET AL: "EmbraceNet: A robust deep learning architecture for multimodal classification", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 19 April 2019 (2019-04-19), XP081171411, DOI: 10.1016/J.INFFUS.2019.02.010 *
KINGMA, D. P.WELLING, M.: "Auto-encoding variational bayes", ARXIV PREPRINT ARXIV: 1312.6114, 2013
NG, J. W.: "Distributed gaussian processes", INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 2015, pages 1481 - 1490

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230140656A1 (en) * 2021-10-28 2023-05-04 Aramco Overseas Company B.V. Method and system for determining seismic processing parameters using machine learning
US12013508B2 (en) * 2021-10-28 2024-06-18 Saudi Arabian Oil Company Method and system for determining seismic processing parameters using machine learning

Also Published As

Publication number Publication date
FR3121535A1 (fr) 2022-10-07
EP4315170A1 (fr) 2024-02-07
FR3121535B1 (fr) 2024-05-24

Similar Documents

Publication Publication Date Title
EP3301617B1 (fr) Procédés d'apprentissage sécurisé de paramètres d'un réseau de neurones à convolution, et de classification sécurisée d'une donnée d'entrée
US10929676B2 (en) Video recognition using multiple modalities
FR2965383A1 (fr) Classification d'images employant des vecteurs d'images compresses en utilisant une quantification vectorielle
FR3112007A1 (fr) Procédé et appareil d’entraînement de modèle, et procédé et appareil de prédiction
EP3221841A1 (fr) Procede et dispositif de filtrage adaptatif temps reel d'images de disparite ou de profondeur bruitees
Swami et al. Candy: Conditional adversarial networks based fully end-to-end system for single image haze removal
WO2022207573A1 (fr) Autoencodeur multimodal a fusion de donnees latente amelioree
CN111950251A (zh) 测量给定ai任务的数据集的相似性的方法
EP4179469A1 (fr) Dispositif électronique et procédé de traitement de données à base de réseaux génératifs inversibles, système électronique de détection et programme d'ordinateur associés
EP4202770A1 (fr) Reseau de neurones avec generation a la volee des parametres du reseau
EP0447306A1 (fr) Dispositif de reconnaissance de séquences dans un signal multidimensionnel
EP2943935B1 (fr) Estimation de mouvement d'une image
EP2804129A1 (fr) Procédé de reconnaissance vocale visuelle avec sélection de groupes de points d'intérêts les plus pertinents
EP3797509B1 (fr) Traitement d'un bruit impulsionnel dans une séquence vidéo
EP2804175A1 (fr) Procédé de reconnaissance vocale visuelle par suivi des déformations locales d'un ensemble de points d'intérêt de la bouche du locuteur
US20230410255A1 (en) Decreased quantization latency
WO2020157733A1 (fr) Procédé dynamique d'imagerie tridimensionnelle
FR3105660A1 (fr) Procédé et dispositif de codage additif de signaux pour implémenter des opérations MAC numériques à précision dynamique
EP0456804B1 (fr) Procede de compression d'images par auto-organisation d'un reseau neuronal
Fabbri Enhancing Visual Perception in Noisy Environments using Generative Adversarial Networks
EP4150574B1 (fr) Procédé de traitement d'images
Константинов NEURAL NETWORKS FOR DETERMINING THE OPTICAL FLOW
FR3138718A1 (fr) Dispositif électronique et procédé de traitement de données comportant au moins un modèle d’intelligence artificielle auto-adaptatif avec apprentissage local, système électronique et programme d’ordinateur associés
EP4012619A1 (fr) Méthode de compression d'un réseau de neurones artificiel
EP4191530A1 (fr) Procédé de localisation et cartographie simultanées intégrant un masquage temporel auto-supervisé et modèle d'apprentissage automatique pour générer un tel masquage

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22719247

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2022719247

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022719247

Country of ref document: EP

Effective date: 20231030